Ho un insieme di dati .csv con molti valori mancanti, e mi piacerebbe R di riconoscere tutti allo stesso modo (il modo "corretto") quando ho letto la tavola in che ho usato:.Qual è il modo migliore per sostituire i valori mancanti con NA durante la lettura in un file .csv?
import = read.csv("/Users/dataset.csv",
header =T, na.strings=c(""))
Questo script riempie tutte le celle vuote con qualcosa, ma non è coerente. Quando guardo i dati con head(import)
, alcune celle mancanti sono riempite con <NA>
e alcune celle mancanti sono riempite con NA
. Temo che R tratti questi due modi di identificare i valori mancanti in modo diverso quando si inizia ad analizzare il set di dati, quindi mi piacerebbe che l'importazione venisse letta uniformemente in quei valori mancanti.
Infine, alcuni dei valori mancanti nel mio file csv sono rappresentati solo con un punto. Vorrei anche che quei periodi venissero rappresentati dalla corretta notazione del valore mancante quando importazione in R.
Il '' vs 'NA' significa solo che alcune delle colonne sono di carattere e alcune sono numeriche, tutto qui. Assolutamente non c'è niente di sbagliato in questo. Sarà difficile diagnosticare l'altro problema senza accedere al tuo csv (o ad alcune sue parti rappresentative). –
joran
Penso che tu possa semplicemente usare 'na.strings = c (" ",". "," NA ")' o qualcosa del genere (anche se sono d'accordo con @Joran che un piccolo esempio riproducibile [http://tinyurl.com/reproducible-000] sarebbe bello –