Controllo e monitoraggio Numero di compiti simultanei di Mapreduce in filati

https://stackoverflow.com//questions/22069904

23-12-2019
|

Domanda

Ho un cluster di Hadoop 2.2 implementato su un piccolo numero di macchine potenti.Ho un vincolo per usare il filato come quadro, con cui non ho molto familiarità.

Come posso controllare il numero della mappa effettiva e riducono le attività che verranno eseguite in parallelo?Ogni macchina ha molti core della CPU (12-32) e abbastanza RAM.Voglio utilizzarli al massimo.
Come posso monitorare che le mie impostazioni hanno portato in realtà un migliore utilizzo della macchina?Dove posso controllare quanti core (fili, processi) sono stati utilizzati durante un determinato lavoro?

Grazie in anticipo per aiutarmi a sciogliere queste macchine :)

Soluzione

1.
In MR1, mapred.tasktracker.map.tasks.maximum e mapred.tasktracker.reduce.tasks.Maximum Properties ha dettato quante mappa e riducono le slot ogni tasktracker.

Queste proprietà non esistono più in filati. Invece, il filato usa il filato.Nodemanager.Resource.Memory-Mb e Yarn.NodeManager.Resource.Cpu-Vcores, che controlla la quantità di memoria e CPU su ciascun nodo, entrambi disponibili per le mappe e riducono

Essenzialmente:
Il filato non ha tasktracker, ma solo NodeManager generici. Quindi, non ci sono più slot mappa e riducono la separazione delle slot. Tutto dipende dalla quantità di memoria in uso / richiesto

Utilizzando il Web UI puoi ottenere un sacco di monitoraggio / tipo di informazione:

Namenode - http://: 50070 /
Gestione risorse - http://: 8088 /

Inoltre Abache Amari è pensato per questo: http://ambari.apache.org/

e tonalità per l'interfacciamento con il cluster di hadoop / filati in molti modi: http://gethue.com/

Altri suggerimenti

c'è un buonoGuida sulla configurazione del filato da Hortonworks
Puoi analizzare il tuo lavoro in joint history server.Di solito può essere trovato sulla porta 19888. Ambari e Ganglia è anche molto buono per la misurazione dell'utilizzo del cluster.

Ho lo stesso problema, Per aumentare il numero di mappers, si consiglia di ridurre le dimensioni della divisione di ingresso (ciascuna divisione di ingresso viene elaborata da un Mapper e quindi un contenitore).Non so come farlo,

Infatti, hadoop 2.2 / filato non prende in considerazione nessuna delle seguenti impostazioni

<property>
    <name>mapreduce.input.fileinputformat.split.minsize</name>
    <value>1</value>
</property>
<property>
    <name>mapreduce.input.fileinputformat.split.maxsize</name>
    <value>16777216</value>
</property>

<property>
    <name>mapred.min.split.size</name>
    <value>1</value>
</property>
<property>
    <name>mapred.max.split.size</name>
    <value>16777216</value>
</property>

Best

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow