LInearSVC vs SVC (kernel = 'linear'): argomenti in conflitto?

Dalla mia ricerca, ho trovato tre risultati contrastanti:LInearSVC vs SVC (kernel = 'linear'): argomenti in conflitto?

qualcuno può spiegarmi quando utilizzare LinearSVC vs. SVC(kernel="linear")?

Sembra che LinearSVC sia leggermente migliore di SVC e di solito è più schizzinoso. Ma se scikit ha deciso di dedicare del tempo a implementare un caso specifico per la classificazione lineare, perché il LinearSVC non dovrebbe superare il SVC?

fonte

2016-01-29 THIS USER NEEDS HELP

Non è che gli scikit-learn abbiano sviluppato un algoritmo dedicato per SVM lineare. Piuttosto hanno implementato le interfacce in aggiunta a due diffuse implementazioni esistenti. L'implementazione C sottostante per 'LinearSVC' è liblinear, e il risolutore per' SVC' è libsvm. Un terzo è l'implementazione 'SGDClassifier (loss =" hinge ")'. –

Possibile duplicato di [In quali parametri SVC e LinearSVC sono equivalenti in scikit-learn?] (Http: // stackoverflow.it/questions/33843981/under-what-parameters-are-svc-and-linearsvc-in-scikit-learn-equivalent) – lejlot

Matematicamente, l'ottimizzazione di un SVM è un problema di ottimizzazione convessa, in genere con un minimizzatore univoco. Ciò significa che esiste una sola soluzione a questo problema di ottimizzazione matematica.

Le differenze di risultati provengono da diversi aspetti: SVC e LinearSVC si suppone per ottimizzare lo stesso problema, ma in realtà tutti gli estimatori liblinear penalizzano l'intercetta, mentre quelli libsvm Non (IIRC). Ciò porta a un diverso problema di ottimizzazione matematica e quindi a risultati diversi. Potrebbero esserci anche altre sottili differenze come il ridimensionamento e la funzione di perdita di default (modifica: assicurati di impostare loss='hinge' in LinearSVC). Successivamente, nella classificazione multiclasse, liblinear fa uno-contro-pausa di default mentre libsvm fa uno contro uno.

SGDClassifier(loss='hinge') è diverso dagli altri due, nel senso che utilizza la discesa del gradiente stocastica e la discesa del gradiente non esatta e potrebbe non convergere nella stessa soluzione. Tuttavia la soluzione ottenuta può generalizzare meglio.

Tra SVC e LinearSVC, un importante criterio di decisione è che LinearSVC tende ad essere più veloce per convergere il più grande è il numero di campioni è. Ciò è dovuto al fatto che il kernel lineare è un caso speciale, che è ottimizzato per in Liblinear, ma non in Libsvm.

fonte

2016-01-29 10:12:52 eickenberg

Il vero problema è nel problema con approccio scikit, dove lo chiamano SVM qualcosa che non è SVM. LinearSVC è effettivamente minimizzando la perdita di cerniera quadrata, invece di cerniera perdita, inoltre, penalizza dimensione della polarizzazione (che non è SVM), per maggiori dettagli vedere altra domanda: Under what parameters are SVC and LinearSVC in scikit-learn equivalent?

Quindi quale usare ? È puramente problema specifico. Poiché a causa del teorema del pranzo libero non è possibile dire "questa funzione di perdita è il migliore, il periodo". A volte la perdita al quadrato funzionerà meglio, a volte normale cerniera.

fonte

2016-01-31 18:46:43 lejlot

hai ragione riguardo alla perdita di una cerniera al quadrato (cito che anche le perdite sono diverse). Ma impostarlo su un cardine ancora non gli fa ottenere la stessa risposta del SVC con kernel lineare. – eickenberg

come ho detto - si tratta anche di penalizzare il pregiudizio, si riferiscono alla mia altra risposta – lejlot

In effetti, questa domanda è praticamente un duplicato di ciò che hai già risposto. Ma è importante notare che 'LinearSVC' non è inutile - dovrebbe scalare meglio dei metodi generici del kernel. – eickenberg

LInearSVC vs SVC (kernel = 'linear'): argomenti in conflitto?

risposta

Problemi correlati