conversione di pandas dataframes per scintilla dataframe in zeppelin

Sono nuovo allo zeppelin. Ho un usecase in cui ho un dataframe panda. Ho bisogno di visualizzare le collezioni utilizzando il grafico in-built di zeppelin Non ho un approccio chiaro qui. La mia comprensione è con zeppelin possiamo visualizzare i dati se si tratta di un formato RDD. Quindi, volevo convertire in pandas dataframe in spark dataframe, e quindi fare alcune query (usando sql), visualizzerò. per cominciare, ho provato a convertire i panda dataframe di scintilla di ma non sono riuscitoconversione di pandas dataframes per scintilla dataframe in zeppelin

%pyspark 
import pandas as pd 
from pyspark.sql import SQLContext 
print sc 
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v")) 
print type(df) 
print df 
sqlCtx = SQLContext(sc) 
sqlCtx.createDataFrame(df).show()

ed ho ottenuto l'errore sotto

Traceback (most recent call last): File "/tmp/zeppelin_pyspark.py", 
line 162, in <module> eval(compiledCode) File "<string>", 
line 8, in <module> File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 406, in createDataFrame rdd, schema = self._createFromLocal(data, schema) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 322, in _createFromLocal struct = self._inferSchemaFromList(data) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 211, in _inferSchemaFromList schema = _infer_schema(first) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/types.py", 
line 829, in _infer_schema raise TypeError("Can not infer schema for type: %s" % type(row)) 
TypeError: Can not infer schema for type: <type 'str'>

Qualcuno può darmi una mano qui? Inoltre, correggimi se sbaglio dovunque.

fonte

2015-10-06 Bala

Ho appena copiato e incollato il codice in un notebook e funziona.

%pyspark 
import pandas as pd 
from pyspark.sql import SQLContext 
print sc 
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v")) 
print type(df) 
print df 
sqlCtx = SQLContext(sc) 
sqlCtx.createDataFrame(df).show() 

<pyspark.context.SparkContext object at 0x10b0a2b10> 
<class 'pandas.core.frame.DataFrame'> 
    k v 
0 foo 1 
1 bar 2 
+---+-+ 
| k|v| 
+---+-+ 
|foo|1| 
|bar|2| 
+---+-+

Sto usando questa versione: zeppelin-0.5.0-incubazione-bin-scintilla 1.4.0_hadoop-2.3.tgz

fonte

2015-11-17 18:33:35 leleplx

provare a impostare lo SPARK_HOME e PYTHONPATH Le variabili in bash e poi eseguire nuovamente lo

export SPARK_HOME=path to spark 
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH 
    export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH

fonte

2015-12-09 01:23:42

le seguenti opere per me con Zeppelin 0.6.0, 1.6.2 Spark e Python 3.5.2:

%pyspark 
import pandas as pd 
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v")) 
z.show(sqlContext.createDataFrame(df))

che rende come:

enter image description here

fonte

2016-07-27 06:19:21 eddies

conversione di pandas dataframes per scintilla dataframe in zeppelin

risposta

Problemi correlati