Utilizzando dplyr per riepilogare un set di dati, voglio chiamare n_distinct per contare il numero di occorrenze univoche in una colonna. Tuttavia, voglio anche fare un altro riepilogo() per tutte le occorrenze univoche in una colonna in cui una condizione in un'altra colonna è soddisfatta.dplyr n_distinct con condizione
Esempio dataframe chiamato "a":
A B
1 Y
2 N
3 Y
1 Y
a %>% summarise(count = n_distinct(A))
Tuttavia voglio anche aggiungere un conteggio di n_distinct(A)
dove B == "Y"
il risultato dovrebbe essere:
count
3
quando aggiungi il cono dizione il risultato dovrebbe essere:
count
2
Il risultato finale che sto cercando di raggiungere è entrambe le affermazioni fuse in una chiamata che mi dà un risultato come
count_all count_BisY
3 2
Qual è il modo appropriato per andare su questo con dplyr?
Puoi provare utilizzando: un%>% sommari (count = n_distinct (A [B == 'Y']))? – Gopala
@ user3949008 Errore: l'input su n_distinct() deve essere un nome di singola variabile dal set di dati –
Spiacente, questo funziona n_distinct (df $ A [df $ B == 'Y']). – Gopala