Voglio raggruppare un set di dati (600000 osservazioni) e per ciascun cluster voglio ottenere i componenti principali. I miei vettori sono composti da una email e da 30 variabili qualitative. Ogni variabile quantitativa ha 4 classi: 0,1,2 e 3.R, problema con un clustering gerarchico dopo un'analisi di corrispondenza multipla
Quindi, prima cosa che sto facendo è quello di caricare il FactoMineR biblioteca e per caricare miei dati:
library(FactoMineR)
mydata = read.csv("/home/tom/Desktop/ACM/acm.csv")
Allora sono impostare i miei come variabili qualitative (sto escludendo la variabile 'e-mail' però):
for(n in 1:length(mydata)){mydata[[n]] <- factor(mydata[[n]])}
sto togliendo le e-mail dai miei vettori:
mydata2 = mydata[2:31]
e sto correndo un MCA in questo nuovo insieme di dati:
mca.res <- MCA(mydata2)
Ora voglio raggruppare il mio set di dati utilizzando la funzione di hcpc:
res.hcpc <- HCPC(mca.res)
Ma ho ottenuto il seguente messaggio di errore:
Error: cannot allocate vector of size 1296.0 Gb
Cosa pensi che dovrei fare? Il mio set di dati è troppo grande? Sto utilizzando bene la funzione hcpc?
Sono stato in grado di replicare il problema con un set di dati fittizio. Penso che tu stia usando HCPC nel modo corretto, così come nell'MCA. Penso che potresti voler esaminare gli algoritmi di clustering sparsi dal momento che HCPC è basato su agnes. CLARA può essere utile ma altri sono disponibili. –