Steuerung und Überwachung der Anzahl der gleichzeitigen MAPREDUCE-Aufgaben in Garn

https://stackoverflow.com//questions/22069904

23-12-2019
|

Frage

Ich habe einen Hadoop 2.2-Cluster, der auf einer kleinen Anzahl leistungsstarker Maschinen eingesetzt ist.Ich habe eine Einschränkung, um Garn als Rahmen zu verwenden, mit dem ich nicht sehr vertraut bin.

Wie kontrolliere ich die Anzahl der tatsächlichen MAP und reduzieren Sie aufgaben, die parallel laufen?Jede Maschine hat viele CPU-Kerne (12-32) und genügend RAM.Ich möchte sie maximal nutzen.
Wie kann ich überwachen, dass meine Einstellungen tatsächlich zu einer besseren Nutzung der Maschine geführt haben?Wo kann ich überprüfen, wie viele Kerne (Threads, Prozesse) während eines bestimmten Jobs verwendet wurden?

Vielen Dank im Voraus, dass Sie mir helfen, diese Maschinen zu schmelzen :)

Lösung

1.
In MR1, The Mapred.taskTracker.map.tasks.maximale und mapred.taskTracker.Reduce.tasks.maximale Eigenschaften diktierten, wie viele Karten und reduzierte Slots Jeder Tasklehrer hatte.

Diese Eigenschaften existieren nicht mehr im Garn. Stattdessen verwendet das Garn yarn.nodemanager.resource.memory-mb und yarn.nodemanager.resource.cpu-vcors, die die Menge an Speicher und CPU an jedem Knoten steuern, beide für beide Karten verfügbar und reduziert

im Wesentlichen:
Garn hat keine Taskstracker, aber nur generische Nodemanager. Daher gibt es keine Kartensteckplätze mehr und reduzieren die Slots-Trennung. Alles hängt von der Menge an Speicher, die / gefordert

Mit der Web-Benutzeroberfläche können Sie viele Überwachungs- / Admin-Art von Info erhalten:

namenode - http://: 50070 /
Ressourcenmanager - http://: 8088 /

Zusätzlich ist Apache ambali dafür gedacht: http://ambari.apache.org/

und Hue für die Anbindung mit dem Hadoop / Garn-Cluster in vielerlei Hinsicht: http://gethue.com/

Andere Tipps

Es gibt eine gutGuide auf der Garnkonfiguration von HortonWorks
Sie können Ihren Job an analysieren in Jobhistorie Server.Es kann normalerweise am Port 19888 gefunden werden. ambari und Ganglien sind auch sehr gut für die Cluster-Nutzungsmessung.

Ich habe das gleiche Problem, Um die Anzahl der Mapper zu erhöhen, wird empfohlen, die Größe des Input-Splits zu verringern (jeder Input-Split wird von einem Mapper und so einen Behälter verarbeitet).Ich weiß nicht, wie ich es tut,

In der Tat hat Hadoop 2.2 / Garn keine der folgenden Einstellungen nicht berücksichtigt

generasacodicetagpre.

Best

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow