Spark SQL include un'ottimizzazione dello streaming della tabella per i join e, in caso affermativo, come decide quale tabella eseguire lo streaming?Spark SQL include un'ottimizzazione dello streaming della tabella per i join?
Durante l'unione, Hive presuppone che l'ultima tabella sia la più grande. Come ottimizzazione del join, tenterà di bufferizzare le tabelle di join più piccole e trasmettere l'ultima. Se l'ultima tabella nell'elenco di join non è la più grande, Hive ha l'hint /*+ STREAMTABLE(tbl) */
che indica la tabella che deve essere trasmessa in streaming. A partire dalla v1.4.1, Spark SQL non supporta l'hint STREAMTABLE.
Questa domanda è stata richiesta per l'elaborazione RDD normale, al di fuori di Spark SQL, here. La risposta non si applica a Spark SQL in cui lo sviluppatore non ha il controllo delle operazioni esplicite della cache.