Ho un set di allenamento molto grande (~ 2 Gb) in un file CSV. Il file è troppo grande per leggere direttamente nella memoria (read.csv()
interrompe il computer) e vorrei ridurre la dimensione del file di dati utilizzando PCA. Il problema è che (per quanto posso dire) ho bisogno di leggere il file in memoria per eseguire un algoritmo PCA (ad es., princomp()
).facendo PCA su un set di dati molto grande in R
Ho provato il pacchetto bigmemory
di leggere il file come un big.matrix
, ma princomp
non funziona su big.matrix
oggetti e non sembrare big.matrix
può essere convertito in qualcosa di simile a un data.frame
.
C'è un modo per eseguire princomp
su un file di dati di grandi dimensioni che mi manca?
Sono un novizio relativo in R, quindi alcuni di questi possono essere ovvi per gli utenti più esperti (scuse in avance).
Grazie per qualsiasi informazione.
Fondamentalmente è necessario fare PCA, senza la stima della matrice di covarianza del campione. Esiste un'ampia letteratura sulla PCA ad alta risoluzione, in particolare con le applicazioni all'elaborazione delle immagini e ai mercati finanziari. Tuttavia, è più che probabile che non sia qualcosa di banale da fare. – John
Quante osservazioni e quante variabili contiene il file? – rolando2
@ rolando2 Contiene circa 50K righe e ~ 10000 colonne – user141146