Mahout lucene Dokument Clustering Howto?

https://stackoverflow.com/questions/1846060

12-09-2019
|

Frage

Ich lese, dass ich Mahout Vektoren aus einem Lucene Index erstellen kann, die verwendet werden können, die Mahout Clustering-Algorithmen anwenden. http://cwiki.apache.org/confluence/display/ MAHOUT / Erstellen + Vektoren + von + Text

Ich möchte K-Means-Clustering-Algorithmus in den Dokumenten in meinem Lucene Index anzuwenden, aber es ist nicht klar, wie kann ich dieses Algorithmus (oder hierarchische Clustering) gelten sinnvolle Cluster mit diesen Dokumenten zu extrahieren.

Auf dieser Seite http://cwiki.apache.org/confluence/ Anzeige / MAHOUT / k-Means sagt, dass der Algorithmus zwei Eingangsverzeichnisse akzeptiert: eine für die Datenpunkte und eine für den ersten Cluster. Meine Datenpunkte sind die Dokumente? Wie kann ich „erklären“, dass diese meine Dokumente (oder deren Vektoren), nehmen sie einfach und das Clustering tun?

Entschuldigung im Voraus für meine schlechte Grammatik

Danke

Lösung

Wenn Sie Vektoren haben, können Sie KMeansDriver laufen. Hier ist die Hilfe für das gleiche.

Usage:
 [--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
  --input (-i) input                The Path for input Vectors. Must be a
                                    SequenceFile of Writable, Vector
  --clusters (-c) clusters          The input centroids, as Vectors.  Must be a
                                    SequenceFile of Writable, Cluster/Canopy.
                                    If k is also specified, then a random set
                                    of vectors will be selected and written out
                                    to this path first
  --output (-o) output              The Path to put the output in
  --distance (-m) distance          The Distance Measure to use.  Default is
                                    SquaredEuclidean
  --convergence (-d) convergence    The threshold below which the clusters are
                                    considered to be converged.  Default is 0.5
  --max (-x) max                    The maximum number of iterations to
                                    perform.  Default is 20
  --numReduce (-r) numReduce        The number of reduce tasks
  --k (-k) k                        The k in k-Means.  If specified, then a
                                    random selection of k Vectors will be
                                    chosen as the Centroid and written to the
                                    clusters output path.
  --vectorClass (-v) vectorClass    The Vector implementation class name.
                                    Default is SparseVector.class
  --overwrite (-w)                  If set, overwrite the output directory
  --help (-h)                       Print out help

Update: Holen Sie sich das Ergebnis Verzeichnis von HDFS lokalen fs. Dann ClusterDumper Dienstprogramm verwenden, um die Cluster und die Liste der Dokumente in diesem Cluster zu erhalten.

Andere Tipps

Eine ziemlich gute Anleitung ist hier: Integration von apache mahout mit apache Lucene

@ maiky Sie können mehr über die Ausgabe zu lesen und mit clusterdump Dienstprogramm auf dieser Seite lesen -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow