Ecco lo link dei miei dati.Modificare le celle vuote su "NA"
Il mio obiettivo è assegnare "NA" a tutte le celle vuote indipendentemente dai valori categoriali o numerici. Sto usando na.strings = "". Ma non sta assegnando NA a tutte le celle vuote.
## reading the data
dat <- read.csv("data2.csv")
head(dat)
mon hr acc alc sex spd axles door reg cond1 drug1
1 8 21 No Control TRUE F 0 2 2 Physical Impairment (Eyes, Ear, Limb) A
2 7 20 No Control FALSE M 900 2 2 Inattentive D
3 3 9 No Control FALSE F 100 2 2 2004 Normal D
4 1 15 No Control FALSE M 0 2 2 Physical Impairment (Eyes, Ear, Limb) D
5 4 21 No Control FALSE 25 NA NA D
6 4 20 No Control NA F 30 2 4 Drinking Alcohol - Impaired D
inj1 PED_STATE st rac1
1 Fatal <NA> F <NA>
2 Moderate <NA> F <NA>
3 Moderate <NA> M <NA>
4 Complaint <NA> M <NA>
5 Complaint <NA> F <NA>
6 Moderate <NA> M <NA>
## using na.strings
dat2 <- read.csv("data2.csv", header=T, na.strings="")
head(dat2)
mon hr acc alc sex spd axles door reg cond1 drug1
1 8 21 No Control TRUE F 0 2 2 <NA> Physical Impairment (Eyes, Ear, Limb) A
2 7 20 No Control FALSE M 900 2 2 <NA> Inattentive D
3 3 9 No Control FALSE F 100 2 2 2004 Normal D
4 1 15 No Control FALSE M 0 2 2 <NA> Physical Impairment (Eyes, Ear, Limb) D
5 4 21 No Control FALSE 25 NA NA <NA> <NA> D
6 4 20 No Control NA F 30 2 4 <NA> Drinking Alcohol - Impaired D
inj1 PED_STATE st rac1
1 Fatal NA F NA
2 Moderate NA F NA
3 Moderate NA M NA
4 Complaint NA M NA
5 Complaint NA F NA
6 Moderate NA M NA
Come si aggiunge una nuova libreria, la creazione di una nuova funzione è più * eye-friendly *? E penso che avrai bisogno di 'ifelse (x% in% c (" "," "," NA "), NA, x)'. – zx8754
L'uso di una funzione insieme a 'mutate_each' offre maggiore flessibilità e un modello riutilizzabile. 'dplyr' è onnipresente nei flussi di lavoro di oggi ed è stato appena aggiunto per rendere la risposta autonoma. Penso che 'x! =" "' Sia corretto qui, poiché né "" né "NA" sono vuoti. Inoltre la risposta di @sclarky fallisce per i frame di dati contenenti numeri e @ Badoe non risolve il problema per i dataframes esistenti, quindi nessuna altra risposta sembra rispondere alla domanda in modo generico. Sono felice di conoscere soluzioni migliori. –
* dplyr è onnipresente nei flussi di lavoro di oggi R - no no.E che cosa "* e @ Badoe's non risolvono veramente il problema per i data.frames * esistenti" significa anche? Puoi espandere un po 'questa affermazione? –