Come valutare tutte le combinazioni prodotto-utente in Spark MatrixFactorizationModel?

Dato un MatrixFactorizationModel quale sarebbe il modo più efficiente per restituire la matrice completa delle previsioni del prodotto utente (in pratica, filtrata da qualche soglia per mantenere la scarsità)?Come valutare tutte le combinazioni prodotto-utente in Spark MatrixFactorizationModel?

Via l'API corrente, una volta potrebbe passare un prodotto cartesiano di facilità d'uso del prodotto alla funzione di prevedere, ma mi sembra che questo farà un sacco di elaborazione aggiuntiva.

Avrebbe accesso all'utente privatoCaratteristiche, le caratteristiche del prodotto sono l'approccio corretto e, in tal caso, c'è un buon modo per sfruttare altri aspetti del framework per distribuire questo calcolo in modo efficiente? In particolare, c'è un modo semplice per fare meglio di moltiplicare tutte le coppie di userFeature, productFeature "a mano"?

fonte

2014-10-12 cohoz

Spark 1.1 ha un metodo recommendProducts che può essere mappato a ciascun ID utente. Questo è meglio di niente, ma non è davvero ottimizzato per raccomandare a tutti gli utenti.

Vorrei ricontrollare che intendete davvero fare raccomandazioni per tutti; su scala, questa è intrinsecamente una grande operazione lenta. Considera di prevedere utenti che sono stati solo attivi di recente.

Altrimenti, la soluzione migliore è creare il proprio metodo. Il join cartesiano delle feature RDD è probabilmente troppo lento poiché mescola così tante copie dei vettori di feature. Scegli il più grande set di caratteristiche utente/prodotto e mappalo. In ciascun lavoratore, tenere in memoria l'altro prodotto/set di funzioni utente in ciascun lavoratore. Se ciò non è fattibile, è possibile renderlo più complesso e mappare più volte contro sottoinsiemi del RDD più piccolo in memoria.

fonte

2014-10-12 15:52:31

Sì, è una grande operazione che è il motivo per cui mi sembrava vale la pena di cercare di ottimizzare ulteriormente. Grazie per i suggerimenti! – cohoz

A partire da Spark 2.2, il metodo è recommendProductsForUsers(num).

raccomanda il numero superiore "numero" di prodotti per tutti gli utenti. Il numero di raccomandazioni restituite per utente può essere inferiore a "num".

https://spark.apache.org/docs/2.2.0/api/python/pyspark.mllib.html

fonte

2017-12-13 00:17:14 Nobu

Come valutare tutte le combinazioni prodotto-utente in Spark MatrixFactorizationModel?

risposta

Problemi correlati