2015-06-14 4 views
17

installati Apache Maven-3.3.3, Scala 2.11.6, poi corse:Cosa impostare a `SPARK_HOME`?

$ git clone git://github.com/apache/spark.git -b branch-1.4 
$ cd spark 
$ build/mvn -DskipTests clean package 

Infine:

$ git clone https://github.com/apache/incubator-zeppelin 
$ cd incubator-zeppelin/ 
$ mvn install -DskipTests 

poi corse il server:

$ bin/zeppelin-daemon.sh start 

Esecuzione di una semplice notebook che inizia con %pyspark, ho ricevuto un errore su py4j non trovato. Ho appena fatto pip install py4j (ref).

Ora sto ottenendo questo errore:

pyspark is not responding Traceback (most recent call last): 
    File "/tmp/zeppelin_pyspark.py", line 22, in <module> 
    from pyspark.conf import SparkConf 
ImportError: No module named pyspark.conf 

Ho provato a installare il mio SPARK_HOME a: /spark/python:/spark/python/lib. Nessun cambiamento. sono tenuti

risposta

25

Due variabili d'ambiente:

SPARK_HOME=/spark 
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH 
+0

Perfetto, grazie. –