Ho X come csr_matrix che ho ottenuto usando TFIDF vectorizer di scikit, ed y, che è un arrayCome si inizializza una variabile di gensim corpus con una csr_matrix?
Il mio piano è quello di creare funzioni utilizzando LDA, tuttavia, non sono riuscito a trovare il modo di inizializzare variabili corpus di un gensim con X come csr_matrix. In altre parole, non voglio scaricare un corpus come mostrato nella documentazione di gensim né convertire X in una matrice densa, dal momento che consumerebbe molta memoria e il computer potrebbe bloccarsi.
In breve, le mie domande sono le seguenti,
- Come si inizializza un corpus gensim dato che ho un csr_matrix (sparse) che rappresenta l'intero corpus?
- Come utilizzare LDA per estrarre le funzionalità?
Possiamo anche passare la matrice di frequenza del termine anche a questo metodo? – Shashank