Scala Spark: come creare un RDD da un elenco di stringhe e convertirlo in DataFrame

Voglio creare un DataFrame da un elenco di stringhe che potrebbe corrispondere allo schema esistente. Ecco il mio codice.Scala Spark: come creare un RDD da un elenco di stringhe e convertirlo in DataFrame

val rowValues = List("ann", "f", "90", "world", "23456") // fails 
    val rowValueTuple = ("ann", "f", "90", "world", "23456") //works 

    val newRow = sqlContext.sparkContext.parallelize(Seq(rowValueTuple)).toDF(df.columns: _*) 

    val newdf = df.unionAll(newRow).show()

Lo stesso codice non funziona se si utilizza l'elenco di stringhe. Vedo che la differenza è con rowValueTuple a Tuple è stato creato. Poiché le dimensioni dell'elenco rowValues cambiano dinamicamente, non riesco a creare manualmente l'oggetto Tuple*. Come posso fare questo? Cosa mi manca? Come posso appiattire questo elenco per soddisfare il requisito?

Apprezzo il tuo aiuto, per favore.

fonte

2016-04-21 NehaM

Il primo ti dà un DF con una colonna e 5 righe. Il secondo ti dà un DF con una singola riga con una singola colonna che contiene una tupla. Cose molto diverse –

DataFrame ha uno schema con un numero fisso di colonne, quindi non sembra naturale creare righe per lista di lunghezza variabile. In ogni caso, puoi creare il tuo DataFrame da RDD [Row] usando lo schema esistente, come questo:

val rdd = sqlContext.sparkContext.parallelize(Seq(rowValues)) 
val rowRdd = rdd.map(v => Row(v: _*)) 
val newRow = sqlContext.createDataFrame(rdd, df.schema)

fonte

2016-04-21 12:28:12

Grazie @vitality. Ho provato questo. Ma mancava qualcosa. Sono d'accordo con il tuo punto. Ma voglio eseguire questo per data coppia di dataframe e lista di valori di riga come parametri. Si presume che il numero di colonne di dataframe e lunghezza dei valori di riga sia lo stesso. – NehaM

Solo una nota qui, l'ultima riga deve essere '' 'val newRow = sqlContext.createDataFrame (rowRdd, df.schema)' '' Almeno questo è quello che ha funzionato per me. – Rylan

@Rylan: Che cosa significa 'df' qui? – Dinosaurius

Scala Spark: come creare un RDD da un elenco di stringhe e convertirlo in DataFrame

risposta

Problemi correlati