Ho un mucchio di file csv
che sto leggendo in R e incluso in una cartella pacchetto/dati nel formato .rdata
. Sfortunatamente i caratteri non ASCII nei dati falliscono il controllo. Il pacchetto tools
ha due funzioni per verificare i caratteri non ASCII (showNonASCII
e showNonASCIIfile
) ma non riesco a trovarne uno per rimuoverli/pulirli.Rimozione di caratteri non ASCII da file di dati
Prima di esplorare altri strumenti UNIX, sarebbe bello fare tutto questo in R, così posso mantenere un flusso di lavoro completo dai dati grezzi al prodotto finale. Esistono pacchetti/funzioni esistenti per aiutarmi a sbarazzarsi dei caratteri non ASCII?
Provare con espressioni regolari, ad esempio la funzione gsub. Controlla? Regexp – aatrujillob
Sei consapevole che 'read.csv()' accetta un argomento 'encoding', quindi puoi gestirli, almeno in R? Quale controllo specifico falliscono i caratteri non-ASCII, è in R (se così lo si può postare qui) o esterno? – smci