Mi chiedevo se esiste un modo per specificare una funzione di aggregazione personalizzata per i frame di dati spark su più colonne.Aggregazione di più colonne con funzione personalizzata nella scintilla
Ho una tabella come questa del tipo (nome, articolo, prezzo):
john | tomato | 1.99
john | carrot | 0.45
bill | apple | 0.99
john | banana | 1.29
bill | taco | 2.59
a:
vorrei aggregare la voce ed è il costo per ogni persona in un elenco In questo modo:
john | (tomato, 1.99), (carrot, 0.45), (banana, 1.29)
bill | (apple, 0.99), (taco, 2.59)
E 'possibile nei dataframes? Recentemente ho appreso su collect_list
ma sembra funzionare solo per una colonna.
Buona risposta! :) – eliasah
Ho usato 'col (...)' invece di '$" ... "' per una ragione - trovo 'col (...)' funziona con meno lavoro all'interno di cose come le definizioni di 'class' . –
Esiste una funzione per riallineare le colonne come ad esempio nella funzione zip dirlo di aggiungere prima un elemento dalla coda della colonna e rimuoverne uno dalla testa e poi comprimerlo? In questo caso puoi avere ad esempio il prossimo prezzo per gli articoli se leggi i prezzi ogni giorno e c'è una colonna temporale. –