Apache Spark: Come posso convertire uno Spark DataFrame in un RDD con tipo RDD [(Tipo1, Tipo2, ...)]?

Per esempio, supponiamo di avere il dataframe:Apache Spark: Come posso convertire uno Spark DataFrame in un RDD con tipo RDD [(Tipo1, Tipo2, ...)]?

var myDF = sc.parallelize(Seq(("one",1),("two",2),("three",3))).toDF("a", "b")

posso convertirlo in un RDD[(String, Int)] con una mappa:

var myRDD = myDF.map(r => (r(0).asInstanceOf[String], r(1).asInstanceOf[Int]))

Esiste un modo migliore per fare questo, forse utilizzando lo schema DF ?

fonte

2016-01-22 evan.oman

Utilizzando pattern matching su :

import org.apache.spark.sql.Row 

myDF.map{case Row(a: String, b: Int) => (a, b)}

In Spark 1.6 + è possibile utilizzare Dataset come segue:

myDF.as[(String, Int)].rdd

fonte

2016-01-22 20:22:36 zero323

Ooh, che 'as' funzione è perfetta. –

Quindi il pattern che corrisponde a 'Row' sarà più veloce o più sicuro della mia mappa' asInstanceOf'? O si riduce a un'operazione abbastanza simile con una sintassi più pulita? –

La seconda opzione temo. 'Row' (e' DataFrame' in generale) è piuttosto fastidioso quando si tratta di tipizzazione statica. L'uso di 'Dataset' dovrebbe essere molto più efficiente specialmente se non si converte in RDD. – zero323

Apache Spark: Come posso convertire uno Spark DataFrame in un RDD con tipo RDD [(Tipo1, Tipo2, ...)]?

risposta

Problemi correlati