Sto scrivendo un piccolo sistema in Java in cui estraggo la funzione n-gram dai file di testo e in seguito devo eseguire il processo di selezione delle caratteristiche per selezionare le funzionalità più discriminatorie.Best practice per contenere enormi elenchi di dati in Java
Il processo di estrazione feature per un singolo file restituisce una mappa che contiene per ogni caratteristica univoca, le sue occorrenze nel file. Unisco tutte le mappe del file (mappa) in una mappa che contiene la frequenza del documento (DF) di tutte le funzionalità uniche estratte da tutti i file. La mappa unificata può contenere oltre 10.000.000 voci.
Attualmente il processo di estrazione delle feature sta funzionando benissimo e voglio eseguire la selezione delle funzionalità in cui ho bisogno di implementare il guadagno delle informazioni o il rapporto di guadagno. Dovrò prima ordinare la mappa, eseguire calcoli e salvare i risultati per ottenere una lista (per ogni caratteristica, il suo punteggio di selezione delle caratteristiche)
La mia domanda è: Qual è la migliore pratica e la migliore struttura dati per contenere questa grande quantità di dati (~ 10M) ed eseguire calcoli?
Dai un'occhiata a HashMap. – Hungry