2010-03-17 20 views
8

Sono interessato a eseguire kmean raggruppando un elenco di parole con Leveshtein.Python KMeans parole di raggruppamento

1) So che ci sono molti framework disponibili, inclusi scipy e orange con implementazione di kmi. Tuttavia, tutti richiedono una sorta di vettore come i dati che non mi corrispondono veramente.

2) Ho bisogno di una buona implementazione di clustering. Ho osservato il clustering di python e mi sono reso conto che non a) restituisce la somma di tutte le distanze da ciascun centroide, e b) non ha alcun tipo di limite di iterazione o di interruzione che assicuri la qualità del clustering. python-clustering e l'algoritmo di clustering su daniweb non funzionano davvero per me.

Qualcuno può trovarmi una buona lib? Google non è stato il mio amico

+0

Avrei bisogno esattamente della stessa cosa. Hai trovato qualcosa da allora? – Jabba

risposta

0

Non è proprio una risposta alla tua domanda specifica, ma ti consiglio di dare un'occhiata a "Programming Collective Intelligence". Alla fine di ogni capitolo, ad esempio, raggruppamento, si spegne nel descrivere la migliore lettura sull'argomento.

1

Sì, penso che non ci sia una buona implementazione per quello di cui ho bisogno.

devo alcuni requisiti folli, come la distanza caching ecc

Quindi penso che mi limiterò a scrivere la mia lib e rilasciarlo come GPLv3 presto.

+1

Qualche aggiornamento su questo? grazie –

0

Forse dare un'occhiata a Weka. È una libreria Java con alcune implementazioni di apprendimento non supervisionate e strumenti di visualizzazione di qualità. È passato un po 'di tempo da quando l'ho usato, non sono sicuro che sia ottimo per un vero ambiente di produzione, ma sicuramente un buon punto di partenza.