Esiste un equivalente esterno sinistro in SPARK SCALA? Capisco che c'è un'operazione di join che è equivalente al join interno del database.Equivalente all'unione esterna sinistra in SPARK
risposta
Spark Scala ha il supporto del join esterno sinistro. Date un'occhiata qui http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.api.java.JavaPairRDD
L'uso è molto semplice come
rdd1.leftOuterJoin(rdd2)
Sì, c'è. Dai uno sguardo allo DStream APIs e hanno fornito join esterni sinistro e destro.
Se si dispone di un flusso di di tipo diciamo 'Record', e si desidera unire due flussi di record, allora si può fare questo tipo:
var res: DStream[(Long, (Record, Option[Record]))] = left.leftOuterJoin(right)
Come dicono le API, la sinistra e i flussi giusti devono essere suddivisi in hash. vale a dire, puoi prendere alcuni attributi da un Record, (o potrebbe essere in qualsiasi altro modo) per calcolare un valore di hash e convertirlo per accoppiare il DStream. Gli stream left
e right
saranno di tipo DStream[(Long, Record)]
prima di chiamare questa funzione di join. (È solo un esempio. Il tipo di hash può essere di un altro tipo diverso da Long
.)
E 'semplice come rdd1.leftOuterJoin(rdd2)
ma bisogna assicurarsi che entrambe le RDD di sono in forma di (chiave, valore) per ogni elemento di il rdd's.
Spark SQL/dati API telaio supporta anche SINISTRA/DESTRA/FULL outer join direttamente:
https://spark.apache.org/docs/latest/sql-programming-guide.html
A causa di questo bug: https://issues.apache.org/jira/browse/SPARK-11111 outer join in Spark prima di 1.6 potrebbe essere molto lento (a meno che tu non abbia set di dati davvero piccoli da unire). Utilizzava il prodotto cartesiano e poi filtrava prima dell'1.6. Ora invece usa SortMergeJoin.
- 1. Spark: Gruppo concat equivalente in scala RDD
- 2. Apache Spark: Qual è l'implementazione equivalente di RDD.groupByKey() utilizzando RDD.aggregateByKey()?
- 3. Che cos'è UN SINISTRA SINISTRA in PostgreSQL
- 4. conta in SINISTRA SINISTRA e DOVE
- 5. utilizza una libreria esterna nel processo pyspark in un cluster Spark da google-dataproc
- 6. Sinistra inversa in numpy o scipy?
- 7. Icona sinistra in TextInputLayout
- 8. saveAsTextFile method in spark
- 9. supporto gzip in Spark
- 10. Understanding treeReduce() in Spark
- 11. riduttore concetto in Spark
- 12. RDD Aggregate in spark
- 13. NullPointerException in spark-sql
- 14. Funzione takeSample() in Spark
- 15. Flattening Rows in Spark
- 16. Campionamento stratificato in Spark
- 17. Elaborazione Xml in Spark
- 18. Libreria esterna in Postman
- 19. Doctrine2 SINISTRA SINISTRA con 2 condizioni
- 20. Aggiunta dell'ombra esterna a UITableView
- 21. equivalente CouchDB di Sql NOT IN?
- 22. destra a sinistra Bar in
- 23. T-SQL INSERISCI IN SINISTRA
- 24. Intellij ctrl w scorciatoia equivalente in Eclipse
- 25. sinistra si uniscono per ottenere una singola riga in laravel
- 26. Colonna Access Array in Spark
- 27. Utilizzando R in Apache Spark
- 28. Parsing json in spark-streaming
- 29. concomitante lavoro Esecuzione in Spark
- 30. NotSerializableException durante l'ordinamento in Spark
grazie..it sarà utile se si può dare un esempio di codice ... – user3279189