Nel mio problema, ho un dataset molto grande che è fuori dalla mia memoria. Mi piacerebbe allenare il mio modello usando dati del disco come HDF5 o simili. Sklearn supporta questo o c'è qualche altra alternativa?C'è un modo per addestrare un modello sklearn con dati del disco come HDF5 o simili?
7
A
risposta
4
Quello che chiedi è chiamato out-of-core o streaming learning. È possibile solo con un sottoinsieme di modelli scikit-learn che implementano il metodo partial_fit
per il fitting incrementale.
C'è un example in the documentation. Non esiste un'utilità specifica per adattare i modelli ai dati in HDF5 in particolare, ma può adattare questo esempio per recuperare i dati da qualsiasi origine dati esterna (ad esempio dati HDF5 sul disco locale o un database sulla rete, ad esempio utilizzando l'adattatore SQL panda)).
Problemi correlati
- 1. Come addestrare un modello in C++ con tensorflow?
- 2. Rimozione di dati da un file HDF5
- 3. Calcola l'I/O del disco totale con un singolo processo
- 4. Un modo migliore per aprire i file HDF5 in C++
- 5. come identificare o ricodificare un modello nei dati con SQL
- 6. Come ridimensionare un array HDF5 con `h5py`
- 7. Quali algoritmi di apprendimento dovrei prendere in considerazione per addestrare un modello di regressione log-lineare?
- 8. sklearn: Come velocizzare un vettore (es. Tfidfvectorizer)
- 9. come salvare un modello con dati esistenti e nuovi dati?
- 10. Come addestrare un RNN con celle LSTM per la previsione delle serie temporali
- 11. regressione logistica sklearn con classi sbilanciate
- 12. Sklearn: Esiste un modo per eseguire il debug di Pipelines?
- 13. Come strutturare un indice per digitare avanti per un set di dati estremamente grande utilizzando Lucene o simili?
- 14. C# App.Config con array o dati simili a elenco
- 15. Sklearn Come salvare un modello creato da una pipeline e GridSearchCV utilizzando Joblib o Pickle?
- 16. Un modo per minify o uglify ES6 Stringhe modello
- 17. Esiste un contenitore stl per i dati del modello gerarchico?
- 18. HDF5 rowmajor o colmajor
- 19. Lettura dei dati HDF5 con ordine dell'asse numpico con Julia HDF5
- 20. ignorare una colonna mentre la costruzione di un modello con SKLearn
- 21. C'è un modo per invertire gli effetti Closure Compiler (o simili) sul codice?
- 22. Struttura dati per trovare chiavi vicine con bitvalues simili
- 23. Passando dati categorici per Sklearn Albero decisionale
- 24. Eliminazione del set di dati hdf5 utilizzando h5py
- 25. Discesa gradiente batch con scikit learn (sklearn)
- 26. Utilizzo di scikit: imparare ad addestrare un modello lineare di log NLP per NER
- 27. Come sottoclasse o ereditare un modello da un altro modello utilizzando brace-dati
- 28. C'è un modo per mantenere il delimitatore durante l'uso di php explode o altre funzioni simili?
- 29. Concatena un numero elevato di file HDF5
- 30. Utilizzo di un servizio Web come origine dati per un modello di dati di entità ado.net
Questa domanda presuppone che in linea di principio tutti i modelli possano essere addestrati senza avere tutti i dati in memoria. Dubito che questo sia il caso. – cel
Questo è perfettamente possibile, ad esempio, Caffe usa la struttura simile a db per recuperare i dati dal disco durante l'addestramento. – erogol
Ogrisel ha fornito una risposta ma hai trovato altri modi? Sto cercando di fare la stessa cosa. – KobeJohn