Ho un database MongoDB da 0,7 GB contenente tweet che sto tentando di caricare in un dataframe. Tuttavia, ottengo un errore.Un modo migliore per caricare dati MongoDB su un DataFrame usando Pandas e PyMongo?
MemoryError:
Il mio codice è simile al seguente:
cursor = tweets.find() #Where tweets is my collection
tweet_fields = ['id']
result = DataFrame(list(cursor), columns = tweet_fields)
Ho provato i metodi nei seguenti risposte, che ad un certo punto di creare un elenco di tutti gli elementi del database prima di caricarla.
Tuttavia, in un'altra risposta che parla di lista(), la persona che ha detto che è bene per piccoli insiemi di dati, perché tutto viene caricato in memoria.
Nel mio caso, penso che sia l'origine dell'errore. Sono troppi i dati da caricare nella memoria. Quale altro metodo posso usare?