Ho un grande corpus di opinioni (2500) in testo non elaborato. Vorrei usare la libreria di scikit-learn per dividerli in set di test/treno. Quale potrebbe essere l'apice migliore per risolvere questo compito con scikit-learn ?. Qualcuno potrebbe fornirmi un esempio di suddivisione del testo grezzo in set di test/treno (probabilmente userò la rappresentazione di tf-idf).Come suddividere i dati (testo non elaborato) in set di test/treno con il modulo di crossvalidation scikit?
7
A
risposta
19
Supponiamo che il vostro dati è una lista di stringhe, cioè
data = ["....", "...", ]
Poi si può dividere in formazione (80%) e di prova (20%) delle formazioni con train_test_split esempio facendo:
from sklearn.cross_validation import train_test_split
train, test = train_test_split(data, train_size = 0.8)
Prima di correre a farlo, però, leggere those docs attraverso. 2500 non è un "corpus grande" e probabilmente vuoi fare qualcosa come una cross-validation k-fold piuttosto che una singola divisione holdout.
Problemi correlati
- 1. Come convertire un set di dati Scikit-learn in un set di dati di Pandas?
- 2. Come suddividere i dati in un convoglio e testarli casualmente?
- 3. Come importare il file di dati csv in scikit-learn?
- 4. Come caricare i set di dati di esempio in R?
- 5. Come visualizzare i set di dati pubblici?
- 6. dati di scala in scikit-learn SVM
- 7. Come aggiungere testo XML non elaborato all'elemento SOAPBody
- 8. Passare i dati POST tramite HTTP non elaborato
- 9. Come posso documentare i set di dati con roxygen?
- 10. montaggio dei dati vs trasformare i dati in scikit-learn
- 11. Set di dati per il rilevamento delle emozioni nel testo
- 12. Crystal Reports Wrapping campo di testo dal set di dati
- 13. Creazione di set di dati a intervallo fisso da set di dati casuali con dati obsoleti
- 14. Come suddividere un dato testo in parole dal dizionario?
- 15. Come riempire il set di dati con più tabelle?
- 16. Come ordinare il set di dati?
- 17. Set Fare clic in una casella di testo con zk
- 18. Come posso compilare il modulo con i dati dell'oggetto modello?
- 19. Come posso suddividere in hbase
- 20. I parametri del modulo non passano ma viene elaborato il file nello stesso formato?
- 21. caricare i dati in forma di testo di input
- 22. scikit-learn, aggiungi funzionalità a un set di documenti vettorizzati
- 23. Scikit: consente di selezionare la funzione per i dati di regressione
- 24. C# come si restituisce il set di dati da sqldatareader?
- 25. Compila modulo utilizzando i dati di Facebook
- 26. RecyclerView cambia set di dati
- 27. Il modulo incorporato Symfony2 non mantiene i dati nel database
- 28. Come posso dire a PHP di scaricare le eccezioni come testo non elaborato anziché HTML?
- 29. Get filtrati i dati dal set di dati al DataTable
- 30. Come ottenere il contenuto non elaborato di una risposta nelle richieste con Python?
Mi piacerebbe fare qualche analisi del sentimento in spagnolo. È un corretto approccio per dividere il set di dati? Ho una directory con 2500 file .txt (opinioni). – anon
Come ho detto, 2500 non è un numero elevato, quindi è meglio fare una verifica incrociata per valutare le prestazioni. Inoltre, potrebbe essere necessario prima dividere un "set di test finale" (ad esempio, 500 articoli), utilizzare il 2000 per la selezione del modello (utilizzando la convalida incrociata per selezionare il modello migliore) e una volta impostato su un modello, controllarne le prestazioni sul set di test originariamente trattenuto. Potrebbero esserci delle variazioni al tuo approccio, a seconda di un numero di fattori. –