Control de control y monitoreo de tareas de mapasización simultáneas en hilo

https://stackoverflow.com//questions/22069904

23-12-2019
|

Pregunta

Tengo un clúster HADOOP 2.2 desplegado en un pequeño número de máquinas potentes.Tengo una restricción para usar el hilo como marco, con el que no estoy muy familiarizado.

¿Cómo controlo el número de mapa real y reduzco las tareas que se ejecutarán en paralelo?Cada máquina tiene muchos núcleos de CPU (12-32) y suficiente RAM.Quiero utilizarlos maximamente.
¿Cómo puedo monitorear que mi configuración realmente condujo a una mejor utilización de la máquina?¿Dónde puedo verificar cuántos núcleos (hilos, procesos) se utilizaron durante un trabajo dado?

Gracias de antemano por ayudarme a fundir estas máquinas :)

Solución

1.

En MR1, el MAPRED.TASKTRACKER.MAP.TASKS.MAXIMIENT y MAPRED.TASKTRACKER.EDUCE.TASKS.MAXIMIENTE Propiedades dictadas cuántos mapas y reducen las ranuras cada una tarea de tareas.

Estas propiedades ya no existen en hilo. En su lugar, el hilo usa yn.nodenanager.resource.memory-MB y Yarn.NoDemanager.resource.cpu-vcores, que controla la cantidad de memoria y la CPU en cada nodo, ambos disponibles para ambos mapas y reducen

esencialmente:
El hilo no tiene tareas de trabajo, sino solo los nodemanes genéricos. Por lo tanto, no hay más ranuras de mapas y reducen la separación de las ranuras. Todo depende de la cantidad de memoria en uso / demandado

Uso de la UI web Puede obtener un montón de monitoreo / administrador de información:

Namenode - http://: 50070 /
Gerente de recursos - http://: 8088 /

Además, Apache Ambari está destinado a esto: http://ambari.apache.org/

y tono para la interfaz con el clúster de hadoop / hilo de muchas maneras: http://gethue.com/

Otros consejos

Hay una buenoGuía en la configuración del hilo de Hortonworks
Puede analizar su trabajo en Historial de empleo servidor.Por lo general, se puede encontrar en Port 19888. Ambari y ganglia son muy buenos para la medición de la utilización del clúster.

Tengo el mismo problema, Para aumentar el número de mapeadores, se recomienda reducir el tamaño de la división de entrada (cada división de entrada se procesa por un MAPPER y por lo tanto un contenedor).No sé cómo hacerlo,

De hecho, Hadoop 2.2 / hilado no tiene en cuenta ninguna de las siguientes configuraciones

<property>
    <name>mapreduce.input.fileinputformat.split.minsize</name>
    <value>1</value>
</property>
<property>
    <name>mapreduce.input.fileinputformat.split.maxsize</name>
    <value>16777216</value>
</property>

<property>
    <name>mapred.min.split.size</name>
    <value>1</value>
</property>
<property>
    <name>mapred.max.split.size</name>
    <value>16777216</value>
</property>

mejor

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow