Python Panda non leggere la prima riga del file CSV

Ho un problema con la lettura CSV (o file txt) sul modulo panda Poiché la funzione di loadtxt NumPy richiede troppo tempo, ho deciso di usare i panda read_csv invece.Python Panda non leggere la prima riga del file CSV

Voglio creare una matrice numpy da file txt con quattro colonne separate da spazio e ha un numero molto elevato di righe (come, 256^3. In questo esempio, è 64^3).

Il problema è che non so perché, ma sembra che read_csv di panda salti sempre la prima riga (prima riga) del file csv (txt), risultando un dato in meno.

questo è il codice.

from __future__ import division 
import numpy as np 
import pandas as pd 
ngridx = 4 
ngridy = 4 
ngridz = 4 
size = ngridx*ngridy*ngridz 
f = np.zeros((size,4)) 
a = np.arange(size) 
f[:, 0] = np.floor_divide(a, ngridy*ngridz) 
f[:, 1] = np.fmod(np.floor_divide(a, ngridz), ngridy) 
f[:, 2] = np.fmod(a, ngridz) 
f[:, 3] = np.random.rand(size) 
print f[0] 
np.savetxt('Testarray.txt',f,fmt='%6.16f') 
g = pd.read_csv('Testarray.txt',delimiter=' ').values 
print g[0] 
print len(g[:,3])

f [0] eg [0] che viene visualizzato come uscita deve molto ma non, indicando che i panda è saltare la prima riga del Testarray.txt. Inoltre, la lunghezza del file caricato g è inferiore alla lunghezza dell'array f.

Ho bisogno di aiuto.

Grazie in anticipo.

fonte

2015-02-07 Tom

perché stai risparmiando in numpy e poi leggendo in panda? Potrebbe essere lento, invece convertire l'array in numpy in dataframe pandas quindi scrivere in csv. È molto più veloce. – pbu

oh, è solo un esempio. Sono interessato a leggerlo non salvandolo. grazie! – Tom

Per default, pd.read_csv utilizza header=0 (quando il parametro names è anche non specificato) che significa che il primo (cioè 0th indicizzati) riga viene interpretata come nomi di colonna.

Se i dati non ha alcuna intestazione, quindi utilizzare

pd.read_csv(..., header=None)

Per esempio,

import io 
import pandas as pd 

text = '''\ 
1 2 3 
4 5 6 
''' 

print(pd.read_csv(io.BytesIO(text), sep=' '))

Senza header, la prima linea, 1 2 3, imposta i nomi delle colonne:

1 2 3 
0 4 5 6

Con header=None, la prima riga è trattata come dati:

print(pd.read_csv(io.BytesIO(text), sep=' ', header=None))

stampe

0 1 2 
0 1 2 3 
1 4 5 6

fonte

2015-02-07 13:41:51 unutbu

oh! si! ha funzionato! Era confuso, che la documentazione di pandas su read_csv diceva che l'intestazione non è nulla per impostazione predefinita, quindi ero molto confuso. dopotutto era intestazione. Grazie mille per l'aiuto! – Tom

Se il file non ha una riga di intestazione è necessario informare in modo Pandas utilizzando intestazione = Nessuno nella vostra chiama a pd.read_csv().

fonte

2015-02-07 13:42:48

Python Panda non leggere la prima riga del file CSV

risposta

Problemi correlati