Se sto allenando un SVM su un set di allenamento di lrge e se la variabile di classe è Vero o Falso, otterrei pochissimi valori Veri rispetto al numero di valori False nel set di allenamento influenzano il modello/i risultati del training? Dovrebbero essere uguali? Se il mio set di allenamento non ha una distribuzione equa di Vero e Falso, come posso prenderlo a cuore in modo tale che il mio allenamento sia svolto nel modo più efficiente possibile?Come gestite lo squilibrio dei dati in SVM?
risposta
È corretto disporre di dati sbilanciati, perché l'SVM dovrebbe essere in grado di assegnare una penalità maggiore agli errori di classificazione errata relativi all'istanza meno probabile (ad esempio "Vero" nel tuo caso), piuttosto che assegnare un peso di errore uguale che si traduce in il classificatore indesiderabile che assegna tutto alla maggioranza. Tuttavia, il numero probabilmente ottieni risultati migliori con dati bilanciati. Dipende tutto dai tuoi dati, davvero.
È possibile modificare i dati in modo artificiale per ottenere dati più bilanciati. Perché non controlli questo documento: http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.
La mia esperienza è che i classificatori SVM standard non funzionano davvero bene su dati non bilanciati. L'ho incontrato per il C-SVM ed è ancora peggio per il nu-SVM. Forse vuoi dare un'occhiata a P-SVM che offre una modalità particolarmente adatta per i dati sbilanciati.
- 1. squilibrio dei dati in SVM utilizzando libSVM
- 2. Squilibrio in scikit-learn
- 3. Come gestite i dati del risultato fetchxml?
- 4. Trattare con lo squilibrio di classe nella classificazione binaria
- 5. dati di scala in scikit-learn SVM
- 6. Normalizzazione dei valori delle funzioni per SVM
- 7. Come utilizzare SVM in Weka?
- 8. Come addestrare SVM in MATLAB per il riconoscimento dei caratteri?
- 9. Come gestite i thread separati durante il recupero dei dati in iOS?
- 10. Profilo SVM (e1071) in R
- 11. Approssimazione dell'istogramma per lo streaming dei dati
- 12. Visualizzazione SVM in MATLAB
- 13. Migrazione dei dati di base: come eliminare lo stack dei dati principali?
- 14. come eseguire lo streaming dei dati da una tabella cassandra?
- 15. Come gestite i dati R interni a un pacchetto?
- 16. Salvataggio dei dati del progetto. Come lo faresti?
- 17. Classificazione SVM multiclasse in Encog
- 18. SVM Classificazione testo multiclasse
- 19. Come gestite i nomi dei TLD dei codici paese nei vostri pacchetti/spazi dei nomi?
- 20. Come gestite i dati sensibili in un repository pubblico di Git?
- 21. ACRA Android con eccezioni gestite
- 22. Eccezioni gestite non gestite da asincrono
- 23. Python: Come trovare l'accuratezza dei risultati in SVM Testo Classificatore Algoritmo per Multilabel Classe
- 24. Come interpretare la previsione del risultato di SVM in R?
- 25. Un SVM può imparare in modo incrementale?
- 26. Come far sì che gli SVM funzionino bene con i dati mancanti in scikit-learn?
- 27. Eccezioni non gestite in BackgroundWorker
- 28. Come dovrei insegnare l'algoritmo di apprendimento automatico usando i dati con grande sproporzione di classi? (SVM)
- 29. Come gestite la pluralizzazione in Ember?
- 30. SVM di base implementato in MATLAB