Voglio raggruppare per un dato campo e ottenere l'output con i campi raggruppati. Di seguito è riportato un esempio di quello che sto cercando di realizzare: -Come ottenere array/bag di elementi dal gruppo Hive per operatore?
immaginare una tabella denominata 'sample_table' con due colonne, come di seguito: -
F1 F2
001 111
001 222
001 123
002 222
002 333
003 555
voglio scrivere Hive query che darà l'uscita in basso : -
001 [111, 222, 123]
002 [222, 333]
003 [555]
In Pig, questo può essere raggiunto facilmente da qualcosa di simile: -
grouped_relation = GROUP sample_table BY F1;
Qualcuno può suggerire se esiste un modo semplice per farlo in Hive? Quello che posso pensare è scrivere una User Defined Function (UDF) per questo, ma questa può essere un'opzione che richiede molto tempo.
In Hive 0.13 esiste una funzione 'collect_list' che restituisce i duplicati. –