Esiste un'alternativa per df[100, c("column")]
nei frame di scala scala. Voglio selezionare una riga specifica da una colonna di frame dati spark. per esempio 100th
riga codice equivalente sopra Rottenere una riga specifica da spark dataframe
risposta
primo luogo, si deve capire che DataFrames
sono distribuiti, che significa che non è possibile accedere in un tipico procedurale modo, è necessario eseguire un'analisi prima. Sebbene tu stia chiedendo di Scala
ti suggerisco di leggere lo Pyspark Documentation, perché ha più esempi di qualsiasi altra documentazione.
Tuttavia, continuando con la mia spiegazione, vorrei utilizzare alcuni metodi dell'API RDD
perché tutti gli DataFrame
s hanno un attributo RDD
come. Per favore, vedi il mio esempio qui sotto e nota come prendo il 2 ° record.
df = sqlContext.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["letter", "name"])
myIndex = 1
values = (df.rdd.zipWithIndex()
.filter(lambda ((l, v), i): i == myIndex)
.map(lambda ((l,v), i): (l, v))
.collect())
print(values[0])
# (u'b', 2)
Speriamo che qualcuno dia un'altra soluzione con meno passaggi.
È così che ho raggiunto lo stesso risultato in Scala. Non sono sicuro se è più efficiente rispetto alla risposta valida, ma richiede meno di codifica
val parquetFileDF = sqlContext.read.parquet("myParquetFule.parquet")
val myRow7th = parquetFileDF.rdd.take(7).last
L'output cambia in base al numero di nodi su cui i dati sono raggruppati? – bshelt141
- 1. Ottenere specifico campo da Riga scelto Pyspark dataframe
- 2. Applicare la funzione a ciascuna riga di Spark DataFrame
- 3. Creare labeledPoints da Spark DataFrame in Python
- 4. Apache Spark: come creare una matrice da un DataFrame?
- 5. Ricava più colonne da una singola colonna in Spark DataFrame
- 6. Spark - Creating Nested DataFrame
- 7. Ottieni CSV su Spark dataframe
- 8. Eliminazione di una colonna nidificata Spark dataframe
- 9. Come ottenere una riga da R data.frame
- 10. Come ottenere l'ennesima riga di Spark RDD?
- 11. Come ottenere altre colonne quando si utilizza Spark DataFrame groupby?
- 12. Spark DataFrame: operare sui gruppi
- 13. Colonne duplicate in Spark Dataframe
- 14. Come ottenere un valore da una cella di un dataframe?
- 15. Come ottenere un valore dall'oggetto Row in Spark Dataframe?
- 16. Spark sql dataframe - Import sqlContext.implicits._
- 17. Come aggiungere una colonna costante in Spark DataFrame?
- 18. Spark: estrazione di un singolo valore da DataFrame
- 19. Come si aggiunge una colonna persistente di ID di riga a Spark DataFrame?
- 20. Spark estrarre valori da una fila
- 21. Spark: Aggiungi colonna per dataframe condizionalmente
- 22. righe Raggruppamento/Concatenazione dataframe in Spark
- 23. Come accedere a DataFrame trasmesso in Spark
- 24. Come eliminare una riga specifica da un file in unix?
- 25. Creazione di un dataframe Spark da un RDD di liste
- 26. come creare DataFrame da più array in Spark Scala?
- 27. Basta ottenere una riga da PHPExcel
- 28. Spark: scrittura DataFrame come compressa JSON
- 29. Filtro spark DataFrame sulla stringa contiene
- 30. Creare Spark DataFrame dal dizionario nidificato
Eventuali duplicati di [Come leggere linee specifiche da sparkContext] (http://stackoverflow.com/questions/35221033/ how-to-read-specific-lines-from-sparkcontext) –
Riguarda DataFrames e [Come leggere linee specifiche da sparkContext] (http://stackoverflow.com/questions/35221033/how-to-read-specific -lines-from-sparkcontext) riguarda gli RDD –