Ho bisogno di analizzare decine di migliaia di righe di dati. I dati vengono importati da un file di testo. Ogni riga di dati ha otto variabili. Attualmente, utilizzo una classe per definire la struttura dei dati. Mentre leggo il file di testo, memorizzo ogni oggetto riga in un elenco generico, Elenco.Modo efficiente per analizzare grandi quantità di dati?
Mi chiedo se dovrei passare all'utilizzo di un database relazionale (SQL) poiché avrò bisogno di analizzare i dati in ogni riga di testo, cercando di metterlo in relazione con i termini di definizione che attualmente memorizzo anche in elenchi generici (Elenco).
L'obiettivo è tradurre una grande quantità di dati utilizzando le definizioni. Voglio che i dati definiti siano filtrabili, ricercabili, ecc. Usare un database ha più senso più ci penso, ma vorrei confermarlo con sviluppatori più esperti prima di apportare le modifiche, ancora una volta (stavo usando le strutture e arraylists in un primo momento).
L'unico inconveniente che posso pensare è che i dati non devono essere conservati dopo che sono stati tradotti e visualizzati dall'utente. Non è necessario per l'archiviazione permanente dei dati, quindi l'utilizzo di un database potrebbe essere un po 'eccessivo.
I file che sto importando tendono a contenere decine di migliaia di linee, alcuni possono estendersi su 100 mila linee. Ogni riga ha otto campi che devono essere analizzati e tradotti. Ad esempio, un campo potrebbe contenere il valore 'phy' e deve essere tradotto in 'Physical Layer' in base a un file di definizione. Sto cercando di capire il modo più efficiente per analizzare e tradurre questi dati. – Snooze
Hai intenzione di fare analisi aggregate sui dati o è elaborato solo linea per linea? Se la versione successiva, la lettura del file di testo e l'elaborazione man mano che si va, potrebbero essere abbastanza veloci rispetto al tentativo di ottenere i dati in SQL Express o Access. Tuttavia, metterlo in un database ti darà un certo grado di flessibilità, come la possibilità di creare indici che dovresti codificare tu stesso. – Thomas
Penso di non avere altra scelta che fare analisi aggregate perché alcune definizioni dipendono dalle righe precedenti nei file di testo. Inoltre, con analisi aggregate posso ristrutturare i dati per renderli più leggibili/più facili da comprendere. Anche se dovessi elaborare al volo, avrei comunque bisogno di una struttura dati in modo che l'utente possa filtrare/cercare i dati. – Snooze