Sto cercando di scoprire in che modo l'algoritmo C4.5 determina il valore soglia per gli attributi numerici. Ho cercato e non riesco a capire, nella maggior parte dei casi ho trovato queste informazioni:Come calcolare il valore soglia per gli attributi numerici nell'algoritmo C4.5 di Quinlan?
I campioni di addestramento vengono prima ordinati sui valori dell'attributo Y in considerazione. Ci sono solo un numero finito di questi valori, quindi denotiamoli nell'ordine ordinato come {v1, v2, ..., vm}. Qualsiasi valore di soglia compreso tra vi e vi + 1 avrà lo stesso effetto di dividere i casi in quelli il cui valore dell'attributo Y si trova in {v1, v2, ..., vi} e quelli il cui valore è in {vi + 1, vi + 2, ..., vm}. Ci sono quindi solo m-1 possibili divisioni su Y, che dovrebbero essere esaminate sistematicamente per ottenere una divisione ottimale.
È normale scegliere il punto medio di ciascun intervallo: (vi + vi + 1)/2 come soglia rappresentativa. C4.5 sceglie come soglia un valore minore vi per ogni intervallo {vi, vi + 1}, piuttosto che il punto medio stesso.
Sto studiando un esempio di Play/Dont PLAY (value table) e non capiscono come si ottiene il numero 75 (tree generated) per l'umidità attributo quando lo stato è di sole in quanto i valori di umidità al stato solare sono {70,85,90,95}.
Qualcuno sa?
Grazie per la risposta. E sì, sono d'accordo con il tavolo che hai scritto. Ma la domanda è: dove arriva il numero 75? Come si ottiene il numero 75 con i valori di umidità (con set: {70,85,90,95})? – Fabrizzio
Da quale libro proviene questo esempio? Sembra che il 70 dovrebbe essere il valore di divisione. – dan
Esistono diversi modi per calcolare il valore soglia? Guarda questo esempio su Internet: Nella seguente tabella di valori ([dati]: http://goo.gl/xphRz) si ottiene il seguente albero: [arbol]: http: //goo.gl/3ydq7 . L'esempio mostra il valore di soglia = 70 quando Att1 è A. Ma questo stesso esempio con l'algoritmo di Quinlan mostrato come 75 il valore di soglia. Come si calcola questo valore? – Fabrizzio