Ho sempre pensato che da quello che ho letto che la convalida incrociata viene eseguita in questo modo:Cross Validation in Weka
In convalida incrociata k-fold, il campione originale è a caso partizionato in sottocampioni k. Dei sottocampioni k, un singolo sottocampione viene mantenuto come dati di convalida per testare il modello e i sottocampioni k-1 rimanenti vengono utilizzati come dati di allenamento. Il processo di convalida incrociata viene quindi ripetuto k volte (le pieghe), con ciascuno dei sottocampioni utilizzati una sola volta come dati di convalida. I k risultati delle pieghe, allora possono essere mediati (o in altro modo combinato) per produrre una singola stima
Così modelli K sono costruiti e quella finale è la media di quelli. Nella guida di Weka è scritto che ogni modello è sempre costruito utilizzando TUTTI i set di dati. Quindi, come funziona la convalida incrociata in Weka? Il modello è stato creato da tutti i dati e la "convalida incrociata" significa che viene creato k fold, quindi ogni piega viene valutata su di essa e il risultato finale dell'output è semplicemente il risultato medio delle pieghe?
Ho 2 domande: 1) Se è come hai detto perché nella Guida di Weka è scritto che in ogni caso (set di allenamento e CV) il modello è sempre costruito da tutti i dati? Come hai scritto in CV il modello finale è una media di altri 10 modelli, giusto?2) Se "Il modello che ottieni a questo punto è la media di tutti i 10 modelli" come è possibile che usando il set di allenamento e il CV come validazione ho ottenuto gli stessi modelli? (Spero che queste domande non appaiano troppo sciocche!) –
1. Questo significa che per ogni piega viene considerato il set di dati completo. Ci sono alcune varianti di questo CV standard in cui parte dei set di dati sono tenuti fuori per un test separato. 2. Cosa intendi esattamente con "ottenere gli stessi modelli"? –
Per "stessi modelli" intendo che in uscita ho esattamente lo stesso albero –