2015-06-02 13 views
44

Prendere questa variabile campioneR diffusione più colonne con tidyr

df <- data.frame(month=rep(1:3,2), 
       student=rep(c("Amy", "Bob"), each=3), 
       A=c(9, 7, 6, 8, 6, 9), 
       B=c(6, 7, 8, 5, 6, 7)) 

posso usare spread da tidyr a cambiare questo formato.

> df[, -4] %>% spread(student, A) 
    month Amy Bob 
1  1 9 8 
2  2 7 6 
3  3 6 9 

Ma come posso diffondere due valori, ad es. sia A e B, in modo tale che l'uscita è qualcosa di simile

month Amy.A Bob.A Amy.B Bob.B 
1  1  9  8  6  5 
2  2  7  6  7  6 
3  3  6  9  8  7 

risposta

95

Ecco una soluzione semplice e molto efficiente possibile utilizzando data.table

library(data.table) ## v >= 1.9.6 
dcast(setDT(df), month ~ student, value.var = c("A", "B")) 
# month Amy_A Bob_A Amy_B Bob_B 
# 1:  1  9  8  6  5 
# 2:  2  7  6  7  6 
# 3:  3  6  9  8  7 

O una possibile soluzione tidyr

df %>% 
    gather(variable, value, -(month:student)) %>% 
    unite(temp, student, variable) %>% 
    spread(temp, value) 

# month Amy_A Amy_B Bob_A Bob_B 
# 1  1  9  6  8  5 
# 2  2  7  7  6  6 
# 3  3  6  8  9  7 
+0

devo lo stesso problema ma ho alcuni studenti di voci multiple, A e B per alcuni mesi. Il codice restituisce l'errore seguente: Errore: identificatori duplicati per le righe. Per favore aiuto. –

+1

@PolarBear Come si desidera gestire i duplicati? Vuoi sommare? significare? Prova la soluzione 'data.table' e aggiungi' fun.aggregate = sum' in 'dcast' –

+0

Voglio prendere la mediana dei duplicati con l'aiuto di tidyr –

Problemi correlati