Supponiamo che io ho una scheda file delimitato contenente i dati di attività utente formattato nel seguente modo:Hadoop - composito chiave
timestamp user_id page_id action_id
Voglio scrivere un lavoro Hadoop per contare le azioni degli utenti in ogni pagina, in modo che il file di output dovrebbe essere in questo modo:
user_id page_id number_of_actions
ho bisogno di qualcosa come chiave composta qui - conterrebbe id_utente e page_id. C'è un modo generico per farlo con hadoop? Non ho trovato nulla di utile. Finora sto chiave che emettono come questo nel mapper:
context.write(new Text(user_id + "\t" + page_id), one);
Funziona, ma sento che non è la soluzione migliore.
ComparisionChain rende davvero facile per questo caso d'uso. Grazie –