Ho bisogno di creare un frame di dati utilizzando i dati memorizzati in un file. Per questo voglio usare il metodo read_csv
. Tuttavia, il separatore non è molto regolare. Alcune colonne sono separate da tabulazioni (\t
), altre sono separate da spazi. Inoltre, alcune colonne possono essere separate da 2 o 3 o più spazi o anche da una combinazione di spazi e tabulazioni (ad esempio 3 spazi, due schede e quindi 1 spazio).Come rendere il separatore in read_csv più flessibile rispetto allo spazio bianco?
C'è un modo per dire ai panda di trattare questi file correttamente?
A proposito, non ho questo problema se utilizzo Python. Io uso:
for line in file(file_name):
fld = line.split()
E funziona perfettamente. Non importa se ci sono 2 o 3 spazi tra i campi. Anche le combinazioni di spazi e tabulazioni non causano alcun problema. I panda possono fare lo stesso?
Puoi anche usare 'skipinitialspace' per saltare lo spazio iniziale – jarondl