Qual è il miglior pacchetto open source di clustering di documenti?

Quale pacchetto open source è il migliore per raggruppare un grande corpus di documenti? Dovrebbe decidere il numero di cluster da solo o anche accettarlo come parametro.Qual è il miglior pacchetto open source di clustering di documenti?

Abbiamo un grande corpus di documenti che non ruotano attorno a un argomento particolare: sono documenti prodotti da personale di vendita e di gestione su vari progetti e clienti dell'organizzazione. So che avere un corpus così diffuso ridurrà le prestazioni, ma stiamo cercando di vivere con il meglio che possiamo ottenere. Ora, qual è la migliore che possiamo ottenere :-)

fonte

2011-10-13 London guy

un elenco di software di modellazione argomento dalla homepage di un esperto in materia: http://www.cs.princeton.edu/~blei/topicmodeling.html

Un gruppo concorrente principale (con codice sorgente aperto): http://nlp.stanford.edu/software/tmt/tmt-0.3/

Un altro progetto sorgente Java open: http://mallet.cs.umass.edu/topics.php

fonte

2011-10-16 23:29:06 cyborg

Ciao, è qualcosa di profondamente cambiato nel frattempo? Ho trovato questo fantastico strumento: https://code.google.com/p/maui-indexer/ – Kiril

Qual è il miglior pacchetto open source di clustering di documenti?

risposta

Problemi correlati