fread (data.table in R) con specifica di codifica

Impossibile trovare la risposta corretta in domande precedenti e risposte al mio problema: 1. Ho un file csv di 2,3 GB che contiene 2,4 milioni di righe di testo ebraico, attualmente codificato in ASCII. Dal momento che stiamo parlando di file di grandi dimensioni, sarebbe preferibile definirlo, ma per quanto riguarda la codifica? Qualche idea su come leggere il file csv codificato in ASCII per evitare il famoso errore "embedded nul in string"?fread (data.table in R) con specifica di codifica

Grazie

fonte

2015-04-29 Dmitry Leykin

https://github.com/Rdatatable/data.table/issues/563 –

ho provato la soluzione, ma tutto ciò che ottengo da R è> fread /classifier/phdcorpus2_processed/phdcorpus2_processed.csv ", encoding = 'UTF8') Errore in fread (" C:/Users/WINDOWS 7/IdeaProjects/PHD/classifier/phdcorpus2_processed/phdcorpus2_processed.csv ",: argomento inutilizzato (codifica = "UTF8") –

Non è una soluzione, è FR su GitHub il che significa che il problema non può essere risolto correntemente usando la versione corrente 'data.table' ma gli sviluppatori ci lavorano –

A partire dal 25 agosto del case linked by David Arenburg è chiuso, e la funzionalità è inclusa nella versione attualmente disponibile di data.table. Il parametro di codifica può ora essere utilizzato al momento della chiamata fread:

text <- fread(file, encoding = 'UTF-8')

ASCII non è un'opzione di codifica esplicita, ma ASCII è valido UTF-8, in modo da poter indicare UTF-8 quando si desidera leggere il testo ebraico.

fonte

2015-10-16 14:08:16

Sto usando data.table 1.9.7 (confermato con 'sessionInfo()') e ottengo questo errore: 'Errore in fread (" data.csv ", encoding =" UTF-8 "): argomento inutilizzato (encoding = "UTF-8") ' – Jeff

fread (data.table in R) con specifica di codifica

risposta

Problemi correlati