Posso convertire un Dataframe Pandas in RDD?Pandas Dataframe a RDD
if isinstance(data2, pd.DataFrame):
print 'is Dataframe'
else:
print 'is NOT Dataframe'
è dataframe
Ecco l'uscita quando si cerca di utilizzare .rdd
dataRDD = data2.rdd
print dataRDD
AttributeError Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
2 print dataRDD
/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
2148 return self[name]
2149 raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150 (type(self).__name__, name))
2151
2152 def __setattr__(self, name, value):
AttributeError: 'DataFrame' object has no attribute 'rdd'
Vorrei utilizzare Panda dataframe e non SqlContext di costruire, come io non sono sicuro se tutti le funzioni in Pandas DF sono disponibili in Spark. Se questo non è possibile, c'è qualcuno che può fornire un esempio di utilizzo di Spark DF
'spDF.show()' non è definito al momento si chiama nello script – redress