Apache Spark Frage

https://datascience.stackexchange.com/questions/12077

16-10-2019
|

Frage

Ich versuche, die Dateien mit Stanford NLP in Spark in Mapper -Funktion zu analysieren. Wie setze ich die Anzahl der Mapper in Apache Spark ein? Bitte hilf mir.

Lösung

Es bestimmt automatisch die Anzahl der Mapper durch die Anzahl der Partitionen, in denen Ihre Daten enthalten sind. Sie können auch dafür eine Abteilung verwenden, aber das ist langsamer). Die Wiederholung ist jedoch teuer und sollte vermieden werden, wenn sie unnötig sind.

Andere Tipps

Mit Spark gibt es keine Vorstellung von "Mappers" oder "Reduzern". Jede Aufgabe, die Sie ausführen, wird von Testamentszeiten (JVM mit zugewiesenen Ressourcen) erreicht. Die Ausführenden haben auch die Möglichkeit, sich in mehrere Kerne aufzuteilen, um einige Aufgaben zu multithren.

Um Ihre Leistung mit Spark im Cluster -Modus zu verbessern, können Sie die folgenden Parameter abspielen:

Die Anzahl der Testamentszeiten - Je mehr Sie haben, desto mehr Aufgaben können Sie gleichzeitig erfüllen. Denken Sie daran, dass die Erstellung von Executoren durch die Hardware begrenzt ist, die Sie haben.
Die Anzahl der Kerne - Dies ist die Anzahl der Kerne für jeden Testamentsvollstrecker. Ein Testamentsvollstrecker mit 5 Kern kann 5 einfache Aufgaben gleichzeitig ausführen.
Die Menge an Speicher - für jeden Testamentsvollstrecker und den Treiber.
Die Anzahl der Partitionen in Ihrem Datensatz.

Um Ihnen ein Beispiel zu geben, nehmen Sie an, Sie haben einen Datensatz mit 30 Partitionen. Daher haben Sie 30 Aufgaben für jeden Funkenjob zu erreichen. Sie müssen die Anzahl der Ausführende, die Anzahl der Kerne und die Menge des Speichers auswählen. Denken Sie daran, dass jeder Kern in jedem Testamentsvollstrecker eine Aufgabe gleichzeitig ausführen kann.

Ein Beispiel für die Konfiguration könnte sein:

6 Testamentsvollstrecker.
5 Kerne.
2G pro Testamentsvollstrecker.

Wenn Sie auf wenige Ausführende und Kerne einstellen, haben Sie große Computerlatenzen. Wenn Sie jedoch zu viele Executoren und Kerne festlegen, werden ein Teil von ihnen keine Daten berechnet, da es zu wenige Partitionen geben wird.

Hier sind einige Links, um zu lernen, dass Sie den Kontext des Funkens einstellen:

https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/ https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange