Quale funzione .map() in python devo usare per creare un set di labeledPoints da un frame di dati spark? Qual è la notazione se L'etichetta/risultato non è la prima colonna ma posso fare riferimento al suo nome di colonna, 'stato'?Creare labeledPoints da Spark DataFrame in Python
ho creare la dataframe pitone con questa funzione .map():
def parsePoint(line):
listmp = list(line.split('\t'))
dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()
dataframe.insert(0, 'status', dataframe['accepted'])
if 'NULL' in dataframe.columns:
dataframe = dataframe.drop('NULL', axis=1)
if '' in dataframe.columns:
dataframe = dataframe.drop('', axis=1)
if 'rejected' in dataframe.columns:
dataframe = dataframe.drop('rejected', axis=1)
if 'accepted' in dataframe.columns:
dataframe = dataframe.drop('accepted', axis=1)
return dataframe
ho convertirlo in un dataframe scintilla dopo che la funzione di ridurre le ha ricombinato tutti i dataframes panda.
parsedData=sqlContext.createDataFrame(parsedData)
Ma ora come posso creare punti labled da questo in python? Presumo che potrebbe essere un'altra funzione .map()?
Questo non funziona, purtroppo. Innanzitutto, '.map()' non funziona con i dataframes. In secondo luogo, anche se uno si converte in un RDD per primo, produce l'errore 'TypeError: Impossibile convertire il tipo in Vector'. –
xenocyon