Hadoop NameNode: Punto único de error

https://stackoverflow.com/questions/4502275

12-10-2019
|

Pregunta

El NameNode en la arquitectura Hadoop es un punto único de fallo.

¿Cómo las personas que tienen grandes racimos de Hadoop hacer frente a este problema?.

¿Hay una solución aceptada en la industria que ha funcionado bien en el que un NameNode secundaria se hace cargo en caso de que la principal falla?

Solución

Yahoo tiene ciertas recomendaciones para ajustes de configuración en diferentes tamaños de grupo para tomar en cuenta el fracaso NameNode. Por ejemplo:

El punto único de fallo en un clúster Hadoop es la NameNode. Mientras que la pérdida de cualquier otra máquina (de forma intermitente o permanente) no da como resultado la pérdida de datos, pérdida de NameNode resultado en la falta de disponibilidad de clúster. La pérdida permanente de datos NameNode haría HDFS del cluster inoperable.

Por lo tanto, otro paso debe ser tomado en esta configuración para respaldar la NameNode metadatos

pellizcado versión de Hadoop por sus almacenes de datos; tiene algunas optimizaciones que se centran en la fiabilidad NameNode. Adicionalmente a los parches disponibles en github, Facebook parece utilizar AvatarNode específicamente para rápidamente la conmutación entre NameNodes primario y secundario. el blog de Dhruba Borthakur contiene varias otras entradas que ofrecen nuevas perspectivas sobre la NameNode como un único punto de fallo.

Edit: Más información sobre las mejoras de Facebook para NameNode .

Otros consejos

Alta disponibilidad de NameNode se ha introducido con Hadoop versión 2.x.

Se puede lograr en dos modos - Con NFS y Con QJM

Sin embargo, la alta disponibilidad con Quorum Diario Manager (QJM ) es opción preferida.

En un clúster típico HA, dos máquinas separadas se configuran como NameNodes. En cualquier punto en el tiempo, exactamente uno de los NameNodes está en un estado activo, y el otro está en un estado de espera. La NameNode activo es responsable de todas las operaciones de los clientes de la agrupación, mientras que la espera está actuando simplemente como un esclavo, manteniendo suficiente estado para proporcionar una recuperación rápida en caso necesario.

Tener un vistazo a continuación preguntas SE, lo que explica el proceso de conmutación por error completa.

uso NameNode Secundaria y de alta disponibilidad en Hadoop 2.x

¿Cómo funciona el proceso de conmutación por error Hadoop NameNode?

Large Hadoop clusters have thousands of data nodes and one name node. The probability of failure goes up linearly with machine count (all else being equal). So if Hadoop didn't cope with data node failures it wouldn't scale. Since there's still only one name node the Single Point of Failure (SPOF) is there, but the probability of failure is still low.

That sad, Bkkbrad's answer about Facebook adding failover capability to the name node is right on.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow