Mahout lucene Dokument Clustering Howto?
-
12-09-2019 - |
Frage
Ich lese, dass ich Mahout Vektoren aus einem Lucene Index erstellen kann, die verwendet werden können, die Mahout Clustering-Algorithmen anwenden. http://cwiki.apache.org/confluence/display/ MAHOUT / Erstellen + Vektoren + von + Text
Ich möchte K-Means-Clustering-Algorithmus in den Dokumenten in meinem Lucene Index anzuwenden, aber es ist nicht klar, wie kann ich dieses Algorithmus (oder hierarchische Clustering) gelten sinnvolle Cluster mit diesen Dokumenten zu extrahieren.
Auf dieser Seite http://cwiki.apache.org/confluence/ Anzeige / MAHOUT / k-Means sagt, dass der Algorithmus zwei Eingangsverzeichnisse akzeptiert: eine für die Datenpunkte und eine für den ersten Cluster. Meine Datenpunkte sind die Dokumente? Wie kann ich „erklären“, dass diese meine Dokumente (oder deren Vektoren), nehmen sie einfach und das Clustering tun?
Entschuldigung im Voraus für meine schlechte Grammatik
Danke
Lösung
Wenn Sie Vektoren haben, können Sie KMeansDriver laufen. Hier ist die Hilfe für das gleiche.
Usage:
[--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
--input (-i) input The Path for input Vectors. Must be a
SequenceFile of Writable, Vector
--clusters (-c) clusters The input centroids, as Vectors. Must be a
SequenceFile of Writable, Cluster/Canopy.
If k is also specified, then a random set
of vectors will be selected and written out
to this path first
--output (-o) output The Path to put the output in
--distance (-m) distance The Distance Measure to use. Default is
SquaredEuclidean
--convergence (-d) convergence The threshold below which the clusters are
considered to be converged. Default is 0.5
--max (-x) max The maximum number of iterations to
perform. Default is 20
--numReduce (-r) numReduce The number of reduce tasks
--k (-k) k The k in k-Means. If specified, then a
random selection of k Vectors will be
chosen as the Centroid and written to the
clusters output path.
--vectorClass (-v) vectorClass The Vector implementation class name.
Default is SparseVector.class
--overwrite (-w) If set, overwrite the output directory
--help (-h) Print out help
Update: Holen Sie sich das Ergebnis Verzeichnis von HDFS lokalen fs. Dann ClusterDumper Dienstprogramm verwenden, um die Cluster und die Liste der Dokumente in diesem Cluster zu erhalten.
Andere Tipps
Eine ziemlich gute Anleitung ist hier: Integration von apache mahout mit apache Lucene
@ maiky Sie können mehr über die Ausgabe zu lesen und mit clusterdump Dienstprogramm auf dieser Seite lesen -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper