Domanda

Stiamo andando per l'acquisto di nuovo hardware da utilizzare solo per un cluster Hadoop e siamo bloccati su quello che dovremmo acquistare. Dire che abbiamo un budget di $ 5k dovremmo comprare due macchine super bello a $ 2500 / ciascuno, quattro a circa $ 1200 / ciascuno o otto a circa $ 600 ciascuno? Sarà Hadoop lavorare meglio con macchine più lente o minor numero di macchine molto più veloce? O, come come la maggior parte delle cose "dipende"? : -)

È stato utile?

Soluzione

Sei generalmente meglio con Hadoop ottenere un paio di macchine in più che sono meno robusto. È quasi mai vedere datanodes con più di 16 GB di RAM e CPU dual quad-core, e spesso sono più piccole di quello.

Devi sempre eseguire uno come NameNode (master), e in generale non si esegue una anche DataNode (operaio / slave) sulla stessa macchina, anche se si potrebbe poiché il cluster è piccolo. Dando per scontato che non lo fanno, però, ottenendo 2 macchine vi lascerà solo 1 nodo dei lavoratori, che sconfigge in qualche modo lo scopo. (Non del tutto, perché è ancora possibile eseguire 4-8 posti di lavoro in parallelo sullo slave, ma ancora).

Allo stesso tempo, non si vuole avere un gruppo di 1000 486. Se il vostro budget è di $ 5k, vorrei trovare un equilibrio e fare 4 $ 1200 macchine. Coloro che fornirà una base decente in termini di prestazioni individuali, dovrete 3 datanodes per distribuire lavoro, e avrete spazio per crescere il cluster, se avete bisogno.

Cose da tenere a mente: ti consigliamo di eseguire il mapping di più o ridurre le attività per DataNode, e questo significa più JVM in esecuzione contemporaneamente. Voglio cercare di ottenere almeno 4 GB, e preferibilmente da 8 GB ram. CPU è meno importante in quanto la maggior parte dei posti di lavoro MR sono IO vincolati. Si potrebbe probabilmente ottenere una macchina come questo per il vostro $ 1200 target di prezzo, in modo che il mio voto.

Altri suggerimenti

In poche parole, si vuole al massimo fuori il numero di core del processore e dischi. È possibile sacrificare affidabilità e qualità, ma non si ottiene l'hardware più economico là fuori, come si avrà troppi problemi di affidabilità.

Siamo andati con Dell 2xCPU 4-core server Dell, in modo da 8 core per scatola. 16 GB di memoria per scatola, che è da 2 GB per core, un po 'basso come avete bisogno di memoria sia per le attività e per il buffering del disco. hard disk 5x500GB, e vorrei che fossimo andati per le unità terabyte o superiore, invece.

Per le unità, il mio parere è quello di acquistare economici, lenti, inaffidabili, unità ad alta capacità in contrapposizione a più costosi, più veloci, più piccoli, unità affidabili. Se hai problemi con la velocità effettiva del disco, più memoria aiuterà con il buffering.

Questa è probabilmente una configurazione più nerboruto che si sta guardando, ma maxing core e unità contro l'acquisto più caselle è generalmente una buona scelta -. Al netto dei costi di energia, più facile da amministrare, e più veloce per alcune operazioni

Altre unità significa più velocità effettiva del disco simultanea per core, quindi avere come molte unità come nuclei è una buona cosa. Comparativa sembra indicare che configurazioni RAID sono più lenti di configurazione JBOD (solo montaggio unità e avente carico diffusione Hadoop attraverso loro) e JBOD è anche più affidabile.

Ultimo! Essere sicuri di ottenere la memoria ECC. Hadoop spinge terabyte di dati attraverso la memoria, e alcuni utenti hanno scoperto che le configurazioni di memoria non ECC possono talvolta introdurre errori singoli bit nel set di dati terabyte. Debug questi errori è un incubo.

Mi consiglia di avere uno sguardo a questa presentazione: http: // www. cloudera.com/hadoop-training-thinking-at-scale Ecco i vari pro ei contro di sono descritti.

Credo che la risposta dipende anche dalle vostre aspettative del cluster crescere e tecnologia Si sta utilizzando rete. Se siete ok con 1 GB ethernet - allora tipo di macchine è meno significativo. Nello stesso tempo - se si vuole 10 Gbit Ethernet -. Si dovrebbe optare per un numero minore di macchine migliori per ridurre i costi di rete

un altro riferimento: http://hadoopilluminated.com/hadoop_book/Hardware_Software.html (Disclaimer: io sono un co-autore di questo libro Hadoop gratuito)

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top