È possibile utilizzare read_csv per leggere solo righe specifiche?

Ho un file CSV che assomiglia a questo:È possibile utilizzare read_csv per leggere solo righe specifiche?

TEST 
2012-05-01 00:00:00.203 ON 1 
2012-05-01 00:00:11.203 OFF 0 
2012-05-01 00:00:22.203 ON 1 
2012-05-01 00:00:33.203 OFF 0 
2012-05-01 00:00:44.203 OFF 0 
TEST 
2012-05-02 00:00:00.203 OFF 0 
2012-05-02 00:00:11.203 OFF 0 
2012-05-02 00:00:22.203 OFF 0 
2012-05-02 00:00:33.203 OFF 0 
2012-05-02 00:00:44.203 ON 1 
2012-05-02 00:00:55.203 OFF 0

e non può sbarazzarsi della stringa "TEST".

E 'possibile verificare se una linea inizia con una data e leggere solo quelle che lo fanno?

fonte

2012-05-23 user1412286

from cStringIO import StringIO 
import pandas 

s = StringIO() 
with open('file.csv') as f: 
    for line in f: 
     if not line.startswith('TEST'): 
      s.write(line) 
s.seek(0) # "rewind" to the beginning of the StringIO object 

pandas.read_csv(s) # with further parameters…

fonte

2012-05-23 10:23:48 eumiro

Grazie! Questo funziona. – user1412286

Quando si ottiene il row dal csv.reader, e quando si può essere sicuri che il primo elemento è una stringa, quindi è possibile utilizzare

if not row[0].startswith('TEST'): 
    process(row)

fonte

2012-05-23 10:10:06 pepr

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html?highlight=read_csv#pandas.io.parsers.read_csv

skiprows: lista simile o interi numeri di riga per saltare (0-indicizzati) o il numero di righe da saltare (int)

Passare [0, 6] per saltare le righe con "TEST".

fonte

2012-05-23 10:17:15

Temo che sappia come appaiono tali linee, non i loro indici. – eumiro

Un'altra opzione, dato che ho appena incontrato questo problema anche:

import pandas as pd 
import subprocess 
grep = subprocess.check_output(['grep', '-n', '^TITLE', filename]).splitlines() 
bad_lines = [int(s[:s.index(':')]) - 1 for s in grep] 
df = pd.read_csv(filename, skiprows=bad_lines)

è meno portabile di @ di (leggi: probabilmente non funziona su Windows) eumiro e richiede la lettura del file per due volte, ma ha il vantaggio che non è necessario memorizzare l'intero contenuto del file in memoria.

Ovviamente potreste fare la stessa cosa di grep in Python, ma probabilmente sarebbe più lento.

fonte

2013-04-09 19:49:29 Dougal

È possibile utilizzare read_csv per leggere solo righe specifiche?

risposta

Problemi correlati