(Python) Contare le linee in un enorme (10 GB>) file più velocemente possibile

Ho uno script molto semplice in questo momento che conta le righe di un file di testo utilizzando enumerate():(Python) Contare le linee in un enorme (10 GB>) file più velocemente possibile

i = 0 
f = open("C:/Users/guest/Desktop/file.log", "r") 
for i, line in enumerate(f): 
     pass 
print i + 1 
f.close()

Questo richiede circa 3 e un mezzo minuto per passare attraverso un file di registro da 15 GB con ~ 30 milioni di righe. Sarebbe bello se potessi ottenere questo sotto due minuti o meno, perché questi sono registri giornalieri e vogliamo fare un'analisi mensile, quindi il codice dovrà elaborare 30 log di ~ 15 GB - più di un'ora e mezza forse e vorremmo ridurre al minimo il tempo di caricamento della memoria & sul server.

vorrei anche accontentarsi di un metodo di buona approssimazione/stima, ma ha bisogno di essere di circa 4 in ordine a fig accurata ...

Grazie!

fonte

2012-03-09 Adrienne

In generale, sarebbe probabilmente più veloce trattare il file come dati binari, leggerlo in blocchi di dimensioni ragionevoli (ad esempio 4KB alla volta) e contare i caratteri \ n in ogni blocco mentre si va. – aroth

Questo non è un risultato migliore della tua soluzione ingenua, ma fyi il modo pietonico di scrivere quello che hai qui sarebbe semplicemente 'con open (fname) come f: print sum (1 per line in f)' – wim

aroth: Grazie per il suggerimento, dovrei esaminarlo. wim: fantastico, grazie, è molto più breve ... – Adrienne

Ignacio's answer è corretto, ma potrebbe non riuscire se si dispone di un processo a 32 bit.

Ma forse potrebbe essere utile leggere il file in blocco e contare i caratteri \n in ciascun blocco.

def blocks(files, size=65536): 
    while True: 
     b = files.read(size) 
     if not b: break 
     yield b 

with open("file", "r") as f: 
    print sum(bl.count("\n") for bl in blocks(f))

farà il vostro lavoro.

Nota che non apro il file come file binario, pertanto \r\n verrà convertito in \n, rendendo il conteggio più affidabile.

fonte

2012-03-09 09:24:14 glglgl

Proprio come un punto dati, una lettura di un grande file di circa 51 MB è passata da circa un minuto utilizzando l'approccio naive a meno di un secondo utilizzando questo approccio. –

@MKatz Che ora, "un file di grandi dimensioni" o "un file di circa 51 MB"?;-) – glglgl

questa soluzione potrebbe perdere l'ultima riga ma potrebbe non essere importante per un file enorme. –

mmap il file e contare le nuove righe.

fonte

2012-03-09 05:09:10

So che è un po 'ingiusto, ma si potrebbe fare questo

int(subprocess.check_output("wc -l C:\\alarm.bat").split()[0])

Se la vostra sulle finestre Coreutils

fonte

2012-03-09 09:31:00

La mia soluzione richiede solo 1m37 in tempo reale. –

questo è molto più veloce –

Sembra che tu debba fare 'int (subprocess.check_output ("/usr/bin/wc -l cred ", shell = True) .split() [0])' per python3 – ZN13

Una soluzione veloce, 1-line è:

sum((1 for i in open(file_path, 'rb')))

Dovrebbe funzionare su file di dimensioni arbitrarie.

fonte

2016-06-02 19:56:20 AJSmyth

mi piacerebbe estendere la risposta di GL ed eseguire il suo/la sua codice utilizzando il modulo multiprocessing Python per conteggio veloce:

def blocks(f, cut, size=64*1024): # 65536 
    start, chunk =cut 
    iter=0 
    read_size=int(size) 
    _break =False 
    while not _break: 
     if _break: break 
     if f.tell()+size>start+chunk: 
      read_size=int(start+chunk- f.tell()) 
      _break=True 
     b = f.read(read_size) 
     iter +=1 
     if not b: break 
     yield b 


def get_chunk_line_count(data): 
    fn, chunk_id, cut = data 
    start, chunk =cut 
    cnt =0 
    last_bl=None 

    with open(fn, "r") as f: 
     if 0: 
      f.seek(start) 
      bl = f.read(chunk) 
      cnt= bl.count('\n') 
     else: 
      f.seek(start) 
      for i, bl in enumerate(blocks(f,cut)): 
       cnt += bl.count('\n') 
       last_bl=bl 

     if not last_bl.endswith('\n'): 
      cnt -=1 

     return cnt 
.... 
pool = multiprocessing.Pool(processes=pool_size, 
          initializer=start_process, 
          ) 
pool_outputs = pool.map(get_chunk_line_count, inputs) 
pool.close() # no more tasks 
pool.join()

Ciò permetterà di migliorare le prestazioni a contare 20 pieghe. L'ho spostato su un script e lo metto su Github.

fonte

2016-12-06 21:21:42 olekb

(Python) Contare le linee in un enorme (10 GB>) file più velocemente possibile

risposta

Problemi correlati