Ho un set di dati di grandi dimensioni in R (1M + righe per 6 colonne) che desidero utilizzare per addestrare una foresta casuale (utilizzando il pacchetto randomForest
) ai fini della regressione. Sfortunatamente, ricevo un errore Error in matrix(0, n, n) : too many elements specified
quando provo a fare tutto in una volta e non è in grado di allocare abbastanza memoria tipi di errori durante l'esecuzione su un sottoinsieme di dati - fino a 10.000 circa osservazioni.Foresta casuale su un grande set di dati
Visto che non c'è possibilità di aggiungere più RAM sulla mia macchina e le foreste casuali sono molto adatte per il tipo di processo che sto cercando di modellare, mi piacerebbe davvero farlo funzionare.
Qualsiasi suggerimento o soluzione alternativa sono molto apprezzati.
Eseguire con 'proximity = FALSE' come [joran] (http://stackoverflow.com/users/324364/joran) suggerito e dirci se funziona. – smci
Un modo relativamente semplice per risolvere il problema potrebbe essere quello di impostare la matrice di input. Tutti i dati probabilmente non ti daranno un modello migliore di uno con un sottoinsieme di dimensioni 10K x 10K. –
Hai dato un'occhiata alla libreria (h2o)? Funziona bene per problemi molto grandi, vedi http://www.r-bloggers.com/benchmarking-random-forest-implementations/ –