Frage

Ich habe ein Python -Skript mit Spark -Kontext geschrieben und möchte es ausführen. Ich habe versucht, Ipython in Spark zu integrieren, aber das konnte ich nicht. Also habe ich versucht, den Sparkpfad [Installationsordner/bin] als Umgebungsvariable festzulegen und aufgerufen zu werden Funken-Submit Befehl in der CMD -Eingabeaufforderung. Ich glaube, dass es den Funkenkontext findet, aber es erzeugt einen wirklich großen Fehler. Kann mir bitte jemand bei diesem Problem helfen?

Umgebungsvariable Pfad: c: /users/name/spark-1.4; c: /users/name/spark-1.4/bin

Danach in CMD-Eingabeaufforderung: Spark-Submit script.py

enter image description here

War es hilfreich?

Lösung 4

Schließlich habe ich das Problem gelöst. Ich musste den PYSPARK-Standort in Pfadvariable und PY4J-0.8.2.1-Src.zip-Standort in der Pythonpath-Variablen festlegen.

Andere Tipps

Ich bin ziemlich neu zu Spark und habe herausgefunden, wie man sich mit Ipython unter Windows 10 und 7 in die Integration integrieren kann. Erstens überprüfen Sie Ihre Umgebungsvariablen auf Python und Spark. Hier sind meine: Spark_home: C: Spark-1.6.0-Bin-Hadoop2.6 Ich benutze begeisterte Baldachin, sodass Python bereits in meinen Systempfad integriert ist. Starten Sie als nächstes Python oder Ipython und verwenden Sie den folgenden Code. Wenn Sie einen Fehler erhalten, überprüfen Sie, was Sie für 'Spark_Home' erhalten. Ansonsten sollte es gut laufen.

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

pySpark on IPython

Überprüfen Sie, ob Dies Link könnte Ihnen helfen.

Johnnyboycurtis Antwort funktioniert für mich. Wenn Sie Python 3 verwenden, verwenden Sie den folgenden Code. Sein Code funktioniert nicht in Python 3. Ich bearbeite nur die letzte Zeile seines Codes.

import os
import sys


spark_home = os.environ.get('SPARK_HOME', None)
print(spark_home)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.1-bin-hadoop2.6/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip')) ## may need to adjust on your system depending on which Spark version you're using and where you installed it.


filename=os.path.join(spark_home, 'python/pyspark/shell.py')
exec(compile(open(filename, "rb").read(), filename, 'exec'))
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top