Ho recentemente iniziato a utilizzare R per l'analisi dei dati. Ora ho un problema nel classificare un set di dati di una grande query (~ 1 GB in modalità ASCII, sulla RAM del mio portatile da 4 GB in modalità binaria). Utilizzando bigmemory::big.matrix
per questo insieme di dati è una bella soluzione, ma fornire tale matrice 'm' nei gbm()
o randomForest()
algoritmi causa l'errore:big.matrix as data.frame in R
cannot coerce class 'structure("big.matrix", package = "bigmemory")' into a data.frame
classe (m) emette il folowing:
[1] "big.matrix"
attr(,"package")
[1] "bigmemory"
C'è un modo per passare correttamente un'istanza in questi algoritmi?
se altre soluzioni non riescono, si consiglia di provare Revolutions. Non so se supporta 'randomForest' o no, ma penso che abbiano supporto per grandi necessità di memoria. Vedi, per esempio, 'http: // www.revolutionanalytics.com/products/enterprise-big-data.php'. Si noti che è un software proprietario. C'è una versione accademica gratuita. –
Puoi fornire le chiamate effettive di 'gbm' e' randomForest' che stai utilizzando? In particolare, stai usando l'interfaccia di formula per 'randomForest'? – joran