Nel SparkSQL
1.6 API (scala) Dataframe
ha funzioni per intersecare e tranne, ma non uno per differenza. Ovviamente, una combinazione di unione e di eccezione può essere utilizzato per generare la differenza:Come ottenere la differenza tra due DataFrames?
df1.except(df2).union(df2.except(df1))
Ma questo sembra un po 'scomodo. Nella mia esperienza, se qualcosa sembra imbarazzante, c'è un modo migliore per farlo, specialmente in Scala.
Grazie. Se fosse lì, probabilmente farebbe comunque qualcosa di simile sotto le coperte. – WillD