mahout Lucene documento di clustering howto?

https://stackoverflow.com/questions/1846060

12-09-2019
|

Domanda

sto leggendo che io possa creare vettori mahout da un indice di Lucene che può essere utilizzato per applicare gli algoritmi di clustering mahout. http://cwiki.apache.org/confluence/display/ mahout / Creazione + Vettori + da + Testo

Vorrei applicare K-means algoritmo nei documenti in mio indice Lucene, ma non è chiaro in che modo posso applicare questo algoritmo (o clustering gerarchico) per estrarre i cluster significativi con questi documenti.

In questa pagina http://cwiki.apache.org/confluence/ display / mahout / k-Means dice che l'algoritmo accetta due directory di ingresso: uno per i punti dati e uno per i gruppi iniziali. I miei punti di dati sono i documenti? Come posso "dichiarare" che questi sono i miei documenti (o loro vettori), è sufficiente prendere e fare il raggruppamento?

scusate in anticipo per il mio povero grammatica

Grazie

Soluzione

Se si dispone di vettori, è possibile eseguire KMeansDriver. Qui è l'aiuto per lo stesso.

Usage:
 [--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
  --input (-i) input                The Path for input Vectors. Must be a
                                    SequenceFile of Writable, Vector
  --clusters (-c) clusters          The input centroids, as Vectors.  Must be a
                                    SequenceFile of Writable, Cluster/Canopy.
                                    If k is also specified, then a random set
                                    of vectors will be selected and written out
                                    to this path first
  --output (-o) output              The Path to put the output in
  --distance (-m) distance          The Distance Measure to use.  Default is
                                    SquaredEuclidean
  --convergence (-d) convergence    The threshold below which the clusters are
                                    considered to be converged.  Default is 0.5
  --max (-x) max                    The maximum number of iterations to
                                    perform.  Default is 20
  --numReduce (-r) numReduce        The number of reduce tasks
  --k (-k) k                        The k in k-Means.  If specified, then a
                                    random selection of k Vectors will be
                                    chosen as the Centroid and written to the
                                    clusters output path.
  --vectorClass (-v) vectorClass    The Vector implementation class name.
                                    Default is SparseVector.class
  --overwrite (-w)                  If set, overwrite the output directory
  --help (-h)                       Print out help

Aggiornamento: Prendi la directory risultato da HDFS a fs locali. Quindi utilizzare utility ClusterDumper per ottenere il cluster e l'elenco dei documenti in quel cluster.

Altri suggerimenti

Un buon howto è qui: integrazione apache mahout con Apache Lucene

@ maiky Si può leggere di più sulla lettura l'uscita e l'utilizzo di utilità clusterdump in questa pagina -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow