mahout Lucene howto agrupamiento de documentos?
-
12-09-2019 - |
Pregunta
Estoy leyendo que yo pueda crear vectores mahout de un índice Lucene que se puede utilizar para aplicar los algoritmos de agrupamiento mahout. http://cwiki.apache.org/confluence/display/ MAHOUT / Creación de vectores + + + Texto de
Me gusta aplicar K-means algoritmo de agrupamiento en los documentos en mi índice Lucene, pero no está claro cómo puedo aplicar este algoritmo (o agrupación jerárquica) para extraer grupos significativos con estos documentos.
En esta página http://cwiki.apache.org/confluence/ display / MAHOUT / k-medias dice que el algoritmo acepta dos directorios de entrada: una para los puntos de datos y otro para los grupos iniciales. Mis puntos de datos son los documentos? ¿Cómo puedo "declaro" que estos son mis documentos (o vectores), sólo tiene que tomar y hacer el agrupamiento?
lo siento de antemano por mi mala gramática
Gracias
Solución
Si usted tiene vectores, puede ejecutar KMeansDriver. Aquí está la ayuda para la misma.
Usage:
[--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
--input (-i) input The Path for input Vectors. Must be a
SequenceFile of Writable, Vector
--clusters (-c) clusters The input centroids, as Vectors. Must be a
SequenceFile of Writable, Cluster/Canopy.
If k is also specified, then a random set
of vectors will be selected and written out
to this path first
--output (-o) output The Path to put the output in
--distance (-m) distance The Distance Measure to use. Default is
SquaredEuclidean
--convergence (-d) convergence The threshold below which the clusters are
considered to be converged. Default is 0.5
--max (-x) max The maximum number of iterations to
perform. Default is 20
--numReduce (-r) numReduce The number of reduce tasks
--k (-k) k The k in k-Means. If specified, then a
random selection of k Vectors will be
chosen as the Centroid and written to the
clusters output path.
--vectorClass (-v) vectorClass The Vector implementation class name.
Default is SparseVector.class
--overwrite (-w) If set, overwrite the output directory
--help (-h) Print out help
Actualización: Obtener el directorio resultado de HDFS a fs locales. A continuación, utilice la utilidad ClusterDumper para obtener el clúster y lista de documentos en ese grupo.
Otros consejos
Una muy buena Cómo es éste: integrar mahout Apache Apache Lucene con
@ maiky Puede leer más acerca de la lectura de la salida y el uso de la utilidad clusterdump en esta página -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper