Desidero utilizzare la libreria Spark mllib.recommendation
per creare un sistema di raccomandazione per prototipi. Tuttavia, il formato dei dati utili che ho è qualche cosa del seguente formato:Come utilizzare mllib.recommendation se gli ID utente sono una stringa anziché interi contigui?
AB123XY45678
CD234WZ12345
EF345OOO1234
GH456XY98765
....
Se voglio utilizzare la libreria mllib.recommendation
, secondo l'API della classe Rating
, gli ID utente devono essere interi (deve anche essere contiguo?)
Sembra che debba essere eseguita una sorta di conversione tra gli ID utente reali e quelli numerici utilizzati da Spark. Ma come dovrei farlo?
Questo non assegna un indice univoco a ciascuno dei rating, non a ciascuno degli utenti? Non penso che funzionerà se un utente ha più valutazioni. – PBJ
@PBJ, sì, hai ragione, ho aggiornato il codice in risposta –
L'approccio 'lookup' non è un codice Spark valido. Compilerà ma soffierà sul runtime. Puoi sistemarlo (rimuoverlo)? – zero323