Contrôle et surveillance Nombre de tâches simultanées MapRéduce dans le fil

https://stackoverflow.com//questions/22069904

23-12-2019
|

Question

J'ai un cluster Hadoop 2.2 déployé sur un petit nombre de machines puissantes.J'ai une contrainte pour utiliser le fil comme le cadre que je ne connais pas très bien.

Comment puis-je contrôler le nombre de cartes réelles et réduire les tâches qui s'exécuteront en parallèle?Chaque machine a de nombreux cœurs CPU (12-32) et suffisamment de RAM.Je veux les utiliser maximalement.
Comment puis-je surveiller que mes paramètres ont réellement conduit à une meilleure utilisation de la machine?Où puis-je vérifier combien de cœurs (threads, processus) ont été utilisés lors d'un emploi donné?

Merci d'avance pour m'aider à faire fondre ces machines :)

La solution

1.
Dans MR1, le mapred.tasktracker.map.tasktracker.map.tasks.maxim et mapred.tasktracker.reduce.tasks.Maximal Propriétés dictés Combien de cartes et réduisez chaque taskTracker.

Ces propriétés n'existent plus dans le fil. Au lieu de cela, le fil utilise le yarn.nodemanager.resource.memory-mb et le yarn.nodemanager.resource.cpu-vcores, qui contrôlent la quantité de mémoire et de la CPU sur chaque nœud, à la fois disponibles sur les cartes et réduit

essentiellement:
Le fil n'a pas de groupe de travail, mais juste des nœuds génériques. Par conséquent, il n'y a plus de créneaux de cartes et réduisez la séparation des machines à sous. Tout dépend de la quantité de mémoire utilisée / demandée

Utilisation de l'interface utilisateur Web Vous pouvez obtenir beaucoup de suivi / administrateur type d'informations:

namenode - http://: 50070 /
Gestionnaire de ressources - http://: 8088 /

De plus Apache Ambari est fait pour cela: http://ambari.apache.org/

et une teinte pour interfacer avec le groupe Hadoop / Fil à bien des égards: http://gethue.com/

Autres conseils

Il y a un BienGuide sur la configuration du fil de HortonWorks
Vous pouvez analyser votre emploi dans Historique des tâches serveur.Il peut généralement être trouvé sur le port 19888. Ambari et ganglia est également très bon pour la mesure d'utilisation du cluster.

J'ai le même problème, Afin d'augmenter le nombre de mappeurs, il est recommandé de réduire la taille de la division d'entrée (chaque fracture d'entrée est traitée par un mappeur et donc un conteneur).Je ne sais pas comment faire,

En effet, Hadoop 2.2 / Fil ne prend pas en compte aucun des paramètres suivants

<property>
    <name>mapreduce.input.fileinputformat.split.minsize</name>
    <value>1</value>
</property>
<property>
    <name>mapreduce.input.fileinputformat.split.maxsize</name>
    <value>16777216</value>
</property>

<property>
    <name>mapred.min.split.size</name>
    <value>1</value>
</property>
<property>
    <name>mapred.max.split.size</name>
    <value>16777216</value>
</property>

meilleur

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow