Come mantenere grandi quantità di dati leggendo da un file CSV (diciamo 20 milioni di righe). Questo è in corso da circa 1 1/2 giorni finora e ha persistito solo 10 milioni di righe, come posso eseguire il batch di questo in modo che diventi più veloce e ci sia la possibilità di eseguirlo in modo parallelo.Come mantenere grandi quantità di dati leggendo da un file CSV
Sto usando il codice qui per leggere il CSV, vorrei sapere se c'è un modo migliore per raggiungere questo obiettivo.
consultare: dealing with large CSV files (20G) in ruby
Qual è l'obiettivo di avere 20mil righe in memoria? Perché non basta leggere ogni riga e trasferirla in un database SQLite?(poi fai l'analisi lì) Se stai cercando di far funzionare una grande quantità di dati, allora vorrai dare un'occhiata a MapReduce. – Besto
Vorrei elaborare tutti i dati e archiviarli nel database MySQL per ulteriori elaborazioni. Fammi sapere se riesco a ottimizzare il modo in cui leggo i dati o il batch persiste nei dati. Apprezzare qualsiasi frammento di codice qui. Anche le file sono passate? – brisk
Puoi fornire uno schema di esempio? Metterò insieme un frammento. – Besto