Diciamo che ho i seguenti due RDD, con i seguenti valori di coppie di chiavi.Quale funzione nella scintilla viene usata per combinare due RDD con i tasti
rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]
e
rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]
Ora, voglio unirmi a loro per valori chiave, così per esempio che voglio restituire il seguente
ret = [ (key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ]
Come posso fare questo, in scintilla usando Python o Scala? Un modo è usare join, ma join creerebbe una tupla all'interno della tupla. Ma voglio avere solo una tupla per coppia di valori chiave.
Non funziona. 'union' non è noto. – nottinhill
@SirBenBenji Probabilmente intendeva rdd1.union (rdd2)? – Sai
@Sai Stessa cosa, giusto? Non si intende con certezza "non trovato" – maasg