Sto provando a caricare un file di testo CSV creato con un'app OS X scritta in Objective-C (utilizzando XCode). Il file di testo (temp2.csv) ha un bell'aspetto in un editor ma c'è qualcosa di sbagliato in questo e ottengo questo errore quando lo leggo in un dataframe di Pandas. Se copio i dati in un nuovo file di testo (temp.csv) e salvo che funziona correttamente! I due file di testo sono chiaramente diversi (uno è di 74 byte, l'altro è di 150) - forse caratteri invisibili? - ma è molto fastidioso perché voglio che il codice Python carichi i file di testo prodotti dal codice C. I file sono allegati per riferimento.Errore durante la tokenizzazione dei dati. Errore C: EOF dopo il carattere di escape
Temp.csv
-3.132700,0.355885,9.000000,0.444416
-3.128256,0.444416,9.000000,0.532507
temp2.csv
-3.132700,0.355885,9.000000,0.444416
-3.128256,0.444416,9.000000,0.532507
(non riesco a trovare alcun aiuto su questo errore specifico su StackExchange).
Python 2.7.11 |Anaconda 2.2.0 (x86_64)| (default, Dec 6 2015, 18:57:58)
[GCC 4.2.1 (Apple Inc. build 5577)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Anaconda is brought to you by Continuum Analytics.
Please check out: http://continuum.io/thanks and https://anaconda.org
>>> import pandas as pd
>>> df = pd.read_csv("temp2.csv", header=None)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/billtubbs/anaconda/lib/python2.7/site-packages/pandas/io/parsers.py", line 498, in parser_f
return _read(filepath_or_buffer, kwds)
File "/Users/billtubbs/anaconda/lib/python2.7/site-packages/pandas/io/parsers.py", line 275, in _read
parser = TextFileReader(filepath_or_buffer, **kwds)
File "/Users/billtubbs/anaconda/lib/python2.7/site-packages/pandas/io/parsers.py", line 590, in __init__
self._make_engine(self.engine)
File "/Users/billtubbs/anaconda/lib/python2.7/site-packages/pandas/io/parsers.py", line 731, in _make_engine
self._engine = CParserWrapper(self.f, **self.options)
File "/Users/billtubbs/anaconda/lib/python2.7/site-packages/pandas/io/parsers.py", line 1103, in __init__
self._reader = _parser.TextReader(src, **kwds)
File "pandas/parser.pyx", line 515, in pandas.parser.TextReader.__cinit__ (pandas/parser.c:4948)
File "pandas/parser.pyx", line 717, in pandas.parser.TextReader._get_header (pandas/parser.c:7496)
File "pandas/parser.pyx", line 829, in pandas.parser.TextReader._tokenize_rows (pandas/parser.c:8838)
File "pandas/parser.pyx", line 1833, in pandas.parser.raise_parser_error (pandas/parser.c:22649)
pandas.parser.CParserError: Error tokenizing data. C error: EOF following escape character
>>> df = pd.read_csv("temp.csv", header=None)
>>> df
0 1 2 3
0 -3.132700 0.355885 9 0.444416
1 -3.128256 0.444416 9 0.532507
Nota: Penso ho individuato il problema.
>>> f = open('temp2.csv')
>>> contents = f.read()
>>> print contents
??-3.132700,0.355885,9.000000,0.444416
-3.128256,0.444416,9.000000,0.532507
>>> contents
'\xff\xfe-\x003\x00.\x001\x003\x002\x007\x000\x000\x00,\x000\x00.\x003\x005\x005\x008\x008\x005\x00,\x009\x00.\x000\x000\x000\x000\x000\x000\x00,\x000\x00.\x004\x004\x004\x004\x001\x006\x00\n\x00-\x003\x00.\x001\x002\x008\x002\x005\x006\x00,\x000\x00.\x004\x004\x004\x004\x001\x006\x00,\x009\x00.\x000\x000\x000\x000\x000\x000\x00,\x000\x00.\x005\x003\x002\x005\x000\x007\x00'
È pieno di personaggi di fuga! Come rimuoverli?