Quale pacchetto open source è il migliore per raggruppare un grande corpus di documenti? Dovrebbe decidere il numero di cluster da solo o anche accettarlo come parametro.Qual è il miglior pacchetto open source di clustering di documenti?
Abbiamo un grande corpus di documenti che non ruotano attorno a un argomento particolare: sono documenti prodotti da personale di vendita e di gestione su vari progetti e clienti dell'organizzazione. So che avere un corpus così diffuso ridurrà le prestazioni, ma stiamo cercando di vivere con il meglio che possiamo ottenere. Ora, qual è la migliore che possiamo ottenere :-)
Ciao, è qualcosa di profondamente cambiato nel frattempo? Ho trovato questo fantastico strumento: https://code.google.com/p/maui-indexer/ – Kiril