Desidero creare un modello tf-idf basato su un corpus che non può essere contenuto nella memoria. Ho letto il tutorial, ma il corpus sembra essere caricato in una volta:TfidfVectorizer per corpi che non possono essere contenuti nella memoria
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["doc1", "doc2", "doc3"]
vectorizer = TfidfVectorizer(min_df=1)
vectorizer.fit(corpus)
Mi chiedo se posso caricare i documenti in memoria uno per uno invece di caricare tutti loro.
Quando si lavora con grandi corpora, potrebbe essere una buona idea di utilizzare una versione di sviluppo recente, piuttosto che una versione stabile, come 'TfidfVectorizer' è stato revisionato per l'utilizzo della memoria ridotto e una maggiore velocità. –