Pregunta

Vamos a comprar un nuevo hardware para utilizar sólo para un cluster Hadoop y estamos atrapados en lo que debemos comprar. Digamos que tenemos un presupuesto de $ 5k hay que comprar dos máquinas super agradable en $ 2500 / cada uno, cuatro en alrededor de $ 1200 / cada u ocho en torno a 600 $ cada uno? Se Hadoop trabajo mejor con máquinas más lentas o menor número de máquinas mucho más rápido? O, como al igual que la mayoría de las cosas "depende"? : -)

¿Fue útil?

Solución

Usted es generalmente mejor con Hadoop conseguir unas pocas máquinas adicionales que son menos carnosos. Casi nunca se ve DataNodes con más de 16 GB de RAM y dos CPU de cuatro núcleos, y con frecuencia son más pequeños que eso.

Siempre se tiene que ejecutar uno como el NameNode (maestro), y por lo general no lo hacen, además de ejecutar un DataNode (trabajador / esclavo) en la misma caja, aunque se podía desde el clúster es pequeño. Suponiendo que no, sin embargo, que consiguen 2 máquinas le dejará sólo el 1 nodo trabajador, que un tanto en contra del propósito. (No del todo, porque todavía puede funcionar 4-8 puestos de trabajo en paralelo en el esclavo, pero aún así.)

Al mismo tiempo, usted no quiere tener un cúmulo de 1000 486s. Si su presupuesto es de $ 5k, me gustaría encontrar un equilibrio y hacer 4 $ 1200 máquinas. Aquellos proporcionará una base decente en términos de rendimiento individual, tendrá 3 DataNodes para distribuir trabajos y tendrá espacio para crecer el clúster si es necesario.

Lo que debe tener en cuenta: usted querrá funcionar el mapa múltiple o reducir las tareas por DataNode, y eso significa que múltiples máquinas virtuales de Java que se ejecutan simultáneamente. Me gustaría tratar de conseguir por lo menos 4 GB, 8 GB de RAM y de preferencia. CPU es menos importante que la mayoría de los puestos de trabajo de RM están obligados IO. Es probable que se puede conseguir una máquina como esta para su precio objetivo de $ 1200, por lo que es mi voto.

Otros consejos

En pocas palabras, usted quiere a un máximo el número de núcleos de procesador y discos. Se puede sacrificar la fiabilidad y calidad, pero no consigue el hardware más barato por ahí, ya que tendrá demasiados problemas de fiabilidad.

Fuimos con Dell 2xCPU servidores de 4 núcleos Dell, por lo que 8 núcleos por caja. 16 GB de memoria por caja, que es de 2 GB por núcleo, un poco baja como sea necesario de memoria tanto para sus tareas y para el búfer de disco. 5x500GB discos duros, y me gustaría que habíamos ido para las unidades terabyte o superior en su lugar.

Para las unidades, mi opinión es comprar, unidades, más vuelos lentos y poco fiables de alta capacidad en contraposición a más caro, más rápidos, más pequeños, unidades fiables. Si usted está teniendo problemas con el rendimiento del disco, más memoria le ayudará con el almacenamiento en búfer.

Esta es probablemente una configuración más robusto de lo que está viendo, pero el gasto excesivo con núcleos y unidades en lugar de comprar más cajas es generalmente una buena opción -. Menos los costos de energía, más fácil de administrar, y más rápido para algunas operaciones

Más unidades significa más rendimiento del disco simultánea por núcleo, así que tener tantas unidades como núcleos es una buena cosa. La evaluación comparativa parece indicar que las configuraciones RAID son más lentos que JBOD (solo el montaje de las unidades de carga y tener difusión Hadoop a través de ellos) y JBOD también es más fiable.

última! Asegúrese de obtener la memoria ECC. empuja hadoop terabytes de datos a través de la memoria, y algunos usuarios han encontrado que las configuraciones de memoria no ECC de vez en cuando pueden introducir errores de un solo bit de datos en terabytes. La depuración de estos errores es una pesadilla.

Es recomendable tener un vistazo a esta presentación: http: // www. cloudera.com/hadoop-training-thinking-at-scale A continuación se describen los diferentes pros y contras.

Creo que la respuesta también depende de sus expectativas de la agrupación crecen y la tecnología está usando el establecimiento de una red. Si estás bien con 1 GB Ethernet - a continuación, tipo de máquinas es menos significativo. En el mismo tiempo - si quieres Ethernet 10 Gb -. Usted debe optar por un número menor de mejores máquinas para reducir el coste de las redes

otra referencia: http://hadoopilluminated.com/hadoop_book/Hardware_Software.html (Exención de responsabilidad: Soy un co-autor de este libro hadoop libre)

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top