2014-04-29 11 views
6

Sto implementando una convalida incrociata di 10 volte per Naive Bayes su alcuni dati di test con 2 classi (0 e 1). Ho seguito i passaggi e ottenendo errori.tipo di modello errato per errore di regressione in convalida incrociata di 10 volte per Naive Bayes utilizzando R

data(testdata) 

attach(testdata) 

X <- subset(testdata, select=-Class) 

Y <- Class 

library(e1071) 

naive_bayes <- naiveBayes(X,Y) 

library(caret) 
library(klaR) 

nb_cv <- train(X, Y, method = "nb", trControl = trainControl(method = "cv", number = 10)) 

## Error: 
## Error in train.default(X, Y, method = "nb", trControl = trainControl(number = 10)) : 
## wrong model type for regression 


dput(testdata) 

structure(list(Feature.1 = 6.534088, Feature.2 = -19.050915, 
Feature.3 = 7.599378, Feature.4 = 5.093594, Feature.5 = -22.15166, 
Feature.6 = -7.478444, Feature.7 = -59.534652, Feature.8 = -1.587918, 
Feature.9 = -5.76889, Feature.10 = 95.810563, Feature.11 = 49.124086, 
Feature.12 = -21.101489, Feature.13 = -9.187984, Feature.14 = -10.53006, 
Feature.15 = -3.782506, Feature.16 = -10.805074, Feature.17 = 34.039509, 
Feature.18 = 5.64245, Feature.19 = 19.389724, Feature.20 = 16.450196, 
Class = 1L), .Names = c("Feature.1", "Feature.2", "Feature.3", 
"Feature.4", "Feature.5", "Feature.6", "Feature.7", "Feature.8", 
"Feature.9", "Feature.10", "Feature.11", "Feature.12", "Feature.13", 
"Feature.14", "Feature.15", "Feature.16", "Feature.17", "Feature.18", 
"Feature.19", "Feature.20", "Class"), class = "data.frame", row.names = c(NA, 
-1L)) 

Inoltre, come calculare piazza R o dell'AUC per questo modello

Dataset: Ci sono 10000 i record con 20 caratteristiche e classe di binario.

+0

prega 'dput (testdata)' se si desidera ottenere aiutare –

+0

Grazie David. Aggiunto dput (testdata) con 1 record. –

+0

Funziona dopo aver cambiato le etichette delle classi da (1, 0) a (sì, no) –

risposta

8

NaiveBayes è un classificatore e quindi convertendo Y per un fattore o booleana è il modo giusto per affrontare il problema. La tua formulazione originale utilizzava uno strumento di classificazione ma utilizzava valori numerici e quindi R era confuso.

Per quanto riguarda il quadrato R, anche in questo caso la metrica viene calcolata solo per problemi di regressione e non per problemi di classificazione. Per valutare i problemi di classificazione ci sono altre metriche come Precision e Recall.

prega di fare riferimento al link Wikipedia per ulteriori informazioni su questi parametri: http://en.wikipedia.org/wiki/Binary_classification

3

E funziona dopo aver cambiato etichetta vettore Y < - as.factor (Y)

Problemi correlati