2013-03-05 14 views
12

Scusa, sono nuovo di WEKA e sto imparando.Come leggere la matrice di confusione del classificatore in WEKA

Nel mio albero di decisione (J48) Uscita classificatore, c'è una matrice di confusione:

a b <----- classified as 
130 8  a = functional 
15 150 b = non-functional 
  • Come faccio a leggere questa matrice? Qual è la differenza tra uno & b?
  • Inoltre, qualcuno può spiegarmi quali valori di dominio sono?

risposta

20

Hai letto il wikipedia page on confusion matrices? Il testo attorno alla matrice è organizzato in modo leggermente diverso nel loro esempio (le etichette delle righe a sinistra anziché a destra), ma lo leggi lo stesso.

La riga indica la classe reale, la colonna indica l'output del classificatore. Ogni voce, quindi, indica il numero di istanze di <row> classificate come <column>. Nel tuo esempio, 15 Bs erano classificati erroneamente come As, 150 Bs erano classificati correttamente come Bs, ecc.

Come risultato, tutte le corrette sono le classificazioni nella diagonale in alto a sinistra in basso a destra. Tutto fuori da quella diagonale è una classificazione errata di qualche tipo.

+0

Sono corretto che il CM in WEKA è a: Riga 1: 'TP | FP' Riga 2: 'FN | TN' –

+0

@ user75782131: Non lo metterei così. La tua affermazione sui Veri Positivi ecc vale solo per i problemi di 2 classi in cui ci sono chiare classi positive e negative. Molti problemi di classificazione non sono così, ma hanno ancora matrici di confusione. – Junuxx

+0

E per il problema a 2 classi, se la classe positiva ha indice 0, significa che la prima riga è TP, FN e la seconda riga è FP, TN. – silmeth

7

avevo messo in questo modo:

matrice

La confusione è la segnalazione Weka su quanto è buono questo modello J48 è in termini di ciò che si ottiene a destra, e quello che si ottiene sbagliato.

Nei dati, la variabile di destinazione era "funzionale" o "non funzionale"; il lato destro della matrice indica che la colonna "a" è funzionale e "b" non è funzionale.

Le colonne indicano come il vostro modello classificato vostri campioni - è ciò che il modello ha predetto:

  • La prima colonna contiene tutti i campioni che il vostro modello pensa sono "a" - 145 di loro, totale
  • la seconda colonna contiene tutti i campioni che il vostro modello pensa sono "b" - 158 di loro

le righe, invece, rappresentare la realtà:

  • La prima riga contiene tutti i campioni che sono davvero "a" - 138 di loro, totale
  • La seconda riga contiene tutti i campioni che sono davvero "b" - 165 di loro

Conoscere il colonne e righe, si può scavare nei dettagli:

  • in alto a sinistra, 130, sono cose che il vostro modello pensa sono "a" che in realtà sono "a" < - questi erano corretto
  • in basso a sinistra, 15 , sono thi ngs vostro modello pensa sono "una", ma che sono davvero "b" < - un tipo di errore
  • alto a destra, 8, sono cose che il vostro modello pensa siano "b", ma che sono davvero "a" < - un altro tipo di errore
  • in basso a destra, 150 sono cose che il vostro modello pensa sono "b", che sono davvero "b"

Così in alto a sinistra e in basso a destra della matrice stanno mostrando cose che il vostro modello ottiene destra .

I pulsanti in basso a sinistra e in alto a destra della matrice mostrano dove il modello è confuso.

Problemi correlati