2012-12-12 15 views
6

Sono relativamente nuovo all'apprendimento automatico e sto cercando di inserire l'induzione dell'albero decisionale nel grande schema delle cose. Gli alberi decisionali (ad esempio quelli costruiti con C4.5 o ID3) sono considerati parametrici o non parametrici? Direi che potrebbero essere effettivamente parametrici perché la decisione di dividere i punti per i valori reali può essere determinata da una certa distribuzione dei valori delle caratteristiche, ad esempio la media. Tuttavia, non condividono la caratteristica non parametrica di dover conservare tutti i dati di allenamento originali (come si farebbe con kNN).Gli alberi decisionali (ad esempio C4.5) hanno considerato l'apprendimento non parametrico?

risposta

9

Il termine "parametrico" si riferisce ai parametri che definiscono la distribuzione dei dati. Poiché gli alberi decisionali come C4.5 non fanno un'ipotesi riguardo alla distribuzione dei dati, non sono parametrici. La Gaussian Maximum Likelihood Classification (GMLC) è parametrica perché presuppone che i dati seguano una distribuzione gaussiana multivariata (le classi sono caratterizzate da mezzi e covarianze). Per quanto riguarda la tua ultima frase, il mantenimento dei dati di addestramento (ad esempio, l'apprendimento basato sull'istanza) non è comune a tutti i classificatori non parametrici. Ad esempio, le reti neurali artificiali (ANN) sono considerate non parametriche ma non conservano i dati di allenamento.

+0

E l'idea dello split point dei nodi decisionali per determinare i valori reali attraverso una distribuzione? – stackoverflowuser2010

+1

Una distribuzione non è richiesta. È possibile ordinare tutte le istanze in base al valore dell'attributo continuo, quindi dividere tra i due valori che massimizzano il guadagno di informazioni. Nessuna ipotesi è stata presa in merito alla distribuzione dei dati (cioè, nessuna ipotesi che i dati siano normalmente o diversamente distribuiti). – bogatron

+0

Ma diciamo che una particolare implementazione di un albero decisionale utilizza una distribuzione per eseguire la divisione. Quindi questo renderebbe questa implementazione parametrica, giusto? – stackoverflowuser2010

Problemi correlati