Hadoop NameNode: Singolo punto di errore

https://stackoverflow.com/questions/4502275

12-10-2019
|

Domanda

NameNode nell'architettura Hadoop è un singolo punto di errore.

Come le persone che hanno grandi cluster Hadoop far fronte a questo problema?.

C'è una soluzione accettato di settore che ha funzionato bene in cui un NameNode secondario subentra nel caso in cui quello primario non riesce?

Soluzione

alcune raccomandazioni per le impostazioni di configurazione a diverse dimensioni dei cluster di prendere fallimento NameNode in considerazione. Ad esempio:

Il singolo punto di errore in un cluster Hadoop è il NameNode. Mentre la perdita di qualsiasi altra macchina (periodicamente o permanentemente) non si traduca in una perdita di dati, perdita di NameNode risultati in cluster di indisponibilità. La perdita permanente dei dati NameNode renderebbe HDFS del cluster inutilizzabile.

Pertanto, un altro passo dovrebbe essere presa in questa configurazione per il backup NameNode metadati

una versione ottimizzato di Hadoop per i suoi data warehouse; ha alcune ottimizzazioni che si concentrano sulla affidabilità NameNode. In aggiunta alle patch disponibili su GitHub, Facebook sembra usare AvatarNode appositamente per rapidamente commutazione tra NameNodes primarie e secondarie. il blog di Dhruba Borthakur contiene diverse altre voci che offrono ulteriori approfondimenti in NameNode come un singolo punto di errore.

Modifica: Ulteriori informazioni sui miglioramenti di Facebook per il NameNode .

Altri suggerimenti

High Availability di NameNode è stato introdotto con il Hadoop di rilascio 2.x.

Si può essere raggiunto in due modi - Con NFS e Con QJM

Ma l'alta disponibilità con Quorum Journal Manager (QJM ) è opzione preferita.

In un cluster tipico HA, due macchine separate sono configurati come NameNodes. In qualsiasi momento, esattamente uno dei NameNodes è in uno stato attivo, e l'altro è in uno stato di standby. Il NameNode attivo è responsabile di tutte le operazioni del client del cluster, mentre l'attesa è semplicemente agendo come uno schiavo, mantenendo abbastanza Stato di fornire un failover rapido, se necessario.

Date un'occhiata qui sotto domande SE, il che spiega processo di failover completo.

utilizzo NameNode medie inferiori e superiori disponibilità in Hadoop 2.x

Come Hadoop NameNode funziona il processo di failover?

I grandi cluster Hadoop hanno migliaia di nodi di dati e un nodo nome. La probabilità di errore aumenta linearmente con la conta macchina (tutto l'essere altro uguale). Quindi, se Hadoop non far fronte a errori dei nodi dei dati non sarebbe scala. Dal momento che c'è ancora un solo nodo nome del Single Point of Failure (SPOF) è lì, ma la probabilità di fallimento è ancora basso.

Che triste, la risposta di Bkkbrad di Facebook aggiungendo funzionalità di failover al nodo nome è proprio su.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow