Voglio sottoporre a serie un dataframe per fattore. Voglio solo mantenere i livelli dei fattori al di sopra di una certa frequenza.Un modo elegante per eliminare livelli di fattori rari dal frame dati
df <- data.frame(factor = c(rep("a",5),rep("b",5),rep("c",2)), variable = rnorm(12))
Questo codice crea frame di dati:
factor variable
1 a -1.55902013
2 a 0.22355431
3 a -1.52195456
4 a -0.32842689
5 a 0.85650212
6 b 0.00962240
7 b -0.06621508
8 b -1.41347823
9 b 0.08969098
10 b 1.31565582
11 c -1.26141417
12 c -0.33364069
E voglio far cadere i livelli di fattore che ripetono meno di 5 volte. Ho sviluppato un ciclo for e funziona:
for (i in 1:length(levels(df$factor))){
if(table(df$factor)[i] < 5){
df.new <- df[df$factor != names(table(df$factor))[i],]
}
}
Ma esistono soluzioni più rapide e più carine?
Probabilmente si desidera un semi join – hadley