mahout Lucene documento di clustering howto?
-
12-09-2019 - |
Domanda
sto leggendo che io possa creare vettori mahout da un indice di Lucene che può essere utilizzato per applicare gli algoritmi di clustering mahout. http://cwiki.apache.org/confluence/display/ mahout / Creazione + Vettori + da + Testo
Vorrei applicare K-means algoritmo nei documenti in mio indice Lucene, ma non è chiaro in che modo posso applicare questo algoritmo (o clustering gerarchico) per estrarre i cluster significativi con questi documenti.
In questa pagina http://cwiki.apache.org/confluence/ display / mahout / k-Means dice che l'algoritmo accetta due directory di ingresso: uno per i punti dati e uno per i gruppi iniziali. I miei punti di dati sono i documenti? Come posso "dichiarare" che questi sono i miei documenti (o loro vettori), è sufficiente prendere e fare il raggruppamento?
scusate in anticipo per il mio povero grammatica
Grazie
Soluzione
Se si dispone di vettori, è possibile eseguire KMeansDriver. Qui è l'aiuto per lo stesso.
Usage:
[--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
--input (-i) input The Path for input Vectors. Must be a
SequenceFile of Writable, Vector
--clusters (-c) clusters The input centroids, as Vectors. Must be a
SequenceFile of Writable, Cluster/Canopy.
If k is also specified, then a random set
of vectors will be selected and written out
to this path first
--output (-o) output The Path to put the output in
--distance (-m) distance The Distance Measure to use. Default is
SquaredEuclidean
--convergence (-d) convergence The threshold below which the clusters are
considered to be converged. Default is 0.5
--max (-x) max The maximum number of iterations to
perform. Default is 20
--numReduce (-r) numReduce The number of reduce tasks
--k (-k) k The k in k-Means. If specified, then a
random selection of k Vectors will be
chosen as the Centroid and written to the
clusters output path.
--vectorClass (-v) vectorClass The Vector implementation class name.
Default is SparseVector.class
--overwrite (-w) If set, overwrite the output directory
--help (-h) Print out help
Aggiornamento: Prendi la directory risultato da HDFS a fs locali. Quindi utilizzare utility ClusterDumper per ottenere il cluster e l'elenco dei documenti in quel cluster.
Altri suggerimenti
Un buon howto è qui: integrazione apache mahout con Apache Lucene
@ maiky Si può leggere di più sulla lettura l'uscita e l'utilizzo di utilità clusterdump in questa pagina -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper