2015-03-04 13 views
12

Esistono implementazioni di Spark SQL DataSource che offrono join di Co-partizione, molto probabilmente tramite il CoGroupRDD? Non ho visto alcun uso all'interno della base di codici Spark esistente.Join co-partizionati in spark SQL

La motivazione sarebbe quella di ridurre notevolmente il traffico riordino nel caso in cui due tabelle hanno lo stesso numero e lo stesso gamme di chiavi di partizionamento: in quel caso ci sarebbe una Mx1 invece di un MxN riordino fanout.

L'unica implementazione su larga scala di join attualmente in Spark SQL sembra essere ShuffledHashJoin - che fa richiedono il riordino fanout MxN e quindi è costoso.

risposta

4

Penso che stiate cercando lo Bucket Join optimization che dovrebbe arrivare in Spark 2.0.

In 1.6 è possibile eseguire qualcosa di simile, ma solo memorizzando i dati nella cache. SPARK-4849

+0

Grazie Michael. In attesa di unirsi al secchio. – javadba