Negli ultimi giorni ho svolto ricerche approfondite, ho letto tante cose che ora sono più confuso che mai. Come si trova la sottostringa comune più lunga in un set di dati di grandi dimensioni? L'idea è di rimuovere il contenuto duplicato da questo set di dati (di varie lunghezze, quindi l'algo dovrà essere eseguito continuamente). Con set di dati di grandi dimensioni intendo circa 100mb di testo.Trovare la sottostringa comune più lunga in un set di dati di grandi dimensioni
Suffix tree? Matrice suffisso? Rabin-Karp? Qual è il modo migliore? E c'è una biblioteca là fuori che può aiutarmi?
Sperando davvero in una buona risposta, mi fa molto male la testa. Grazie! :-)
Perché è necessario eseguire continuamente? I dati cambiano? – jonderry
Perché non utilizzare un software di compressione pronto all'uso? –
jonderry: Probabilmente non ero chiaro, volevo dire che dopo ogni passaggio occorrerà trovare la sottostringa successiva più lunga, e così via. – diffuse