Ecco il problema: ho qualche migliaio di frammenti di testo piccoli, da poche parole a poche frasi: lo snippet più grande è circa 2k su disco. Voglio essere in grado di confrontare ciascuno con ciascuno, e calcolare un fattore di correlazione in modo che possa mostrare le informazioni relative agli utenti.Quali sono alcuni buoni metodi per trovare la "parentela" di due corpi di testo?
Quali sono alcuni buoni modi per farlo? Esistono algoritmi noti per fare ciò che sono utili, esistono soluzioni GPL, ecc.?
Non ho bisogno di questo per l'esecuzione in tempo reale, in quanto posso precalcolare tutto. Sono più interessato a ottenere buoni risultati rispetto al runtime.
Ho solo pensato di chiedere alla comunità di Stack Overflow prima di andare a scrivere le mie cose. Devono esserci persone là fuori che hanno trovato buone soluzioni a questo prima.
Domanda molto sottintesa. Su quali basi consideri che due testi sono collegati tra loro? Argomenti comuni? Frasi ripetute? Lunghezza? Complessità? Frequenza delle lettere? –