2015-04-29 12 views
5

Impossibile trovare la risposta corretta in domande precedenti e risposte al mio problema: 1. Ho un file csv di 2,3 GB che contiene 2,4 milioni di righe di testo ebraico, attualmente codificato in ASCII. Dal momento che stiamo parlando di file di grandi dimensioni, sarebbe preferibile definirlo, ma per quanto riguarda la codifica? Qualche idea su come leggere il file csv codificato in ASCII per evitare il famoso errore "embedded nul in string"?fread (data.table in R) con specifica di codifica

Grazie

+2

https://github.com/Rdatatable/data.table/issues/563 –

+0

ho provato la soluzione, ma tutto ciò che ottengo da R è> fread /classifier/phdcorpus2_processed/phdcorpus2_processed.csv ", encoding = 'UTF8') Errore in fread (" C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv ",: argomento inutilizzato (codifica = "UTF8") –

+1

Non è una soluzione, è FR su GitHub il che significa che il problema non può essere risolto correntemente usando la versione corrente 'data.table' ma gli sviluppatori ci lavorano –

risposta

4

A partire dal 25 agosto del case linked by David Arenburg è chiuso, e la funzionalità è inclusa nella versione attualmente disponibile di data.table. Il parametro di codifica può ora essere utilizzato al momento della chiamata fread:

text <- fread(file, encoding = 'UTF-8') 

ASCII non è un'opzione di codifica esplicita, ma ASCII è valido UTF-8, in modo da poter indicare UTF-8 quando si desidera leggere il testo ebraico.

+0

Sto usando data.table 1.9.7 (confermato con 'sessionInfo()') e ottengo questo errore: 'Errore in fread (" data.csv ", encoding =" UTF-8 "): argomento inutilizzato (encoding = "UTF-8") ' – Jeff