2009-12-04 14 views
12

Sto leggendo che posso creare i vettori di mahout da un indice di lucene che può essere utilizzato per applicare gli algoritmi di clustering di mahout. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout lucene documento clustering howto?

vorrei applicare K-means algoritmo nei documenti in mio indice Lucene, ma non è chiaro in che modo posso applicare questo algoritmo (o clustering gerarchico) per estrarre cluster significativi con questi documenti.

In questa pagina http://cwiki.apache.org/confluence/display/MAHOUT/k-Means afferma che l'algoritmo accetta due directory di input: una per i punti di dati e una per i cluster iniziali. I miei punti dati sono i documenti? Come posso "dichiarare" che questi sono i miei documenti (oi loro vettori), semplicemente li prendo e lo fanno in cluster?

dispiace in anticipo per il mio povero grammatica

Grazie

risposta

3

Se si dispone di vettori, è possibile eseguire KMeansDriver. Ecco l'aiuto per lo stesso.

Usage: 
[--input <input> --clusters <clusters> --output <output> --distance <distance> 
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k> 
--vectorClass <vectorClass> --overwrite --help] 
Options 
    --input (-i) input    The Path for input Vectors. Must be a 
            SequenceFile of Writable, Vector 
    --clusters (-c) clusters   The input centroids, as Vectors. Must be a 
            SequenceFile of Writable, Cluster/Canopy. 
            If k is also specified, then a random set 
            of vectors will be selected and written out 
            to this path first 
    --output (-o) output    The Path to put the output in 
    --distance (-m) distance   The Distance Measure to use. Default is 
            SquaredEuclidean 
    --convergence (-d) convergence The threshold below which the clusters are 
            considered to be converged. Default is 0.5 
    --max (-x) max     The maximum number of iterations to 
            perform. Default is 20 
    --numReduce (-r) numReduce  The number of reduce tasks 
    --k (-k) k      The k in k-Means. If specified, then a 
            random selection of k Vectors will be 
            chosen as the Centroid and written to the 
            clusters output path. 
    --vectorClass (-v) vectorClass The Vector implementation class name. 
            Default is SparseVector.class 
    --overwrite (-w)     If set, overwrite the output directory 
    --help (-h)      Print out help 

Aggiornamento: ottenere la directory dei risultati da HDFS a fs locale. Quindi utilizzare l'utilità ClusterDumper per ottenere il cluster e l'elenco di documenti in tale cluster.

+0

sì che è Non riesco a capire. Qual è l'output? come posso vedere nell'output che ad esempio i documenti 5 e 8 si trovano nello stesso cluster? – maiky