mahout Lucene howto agrupamiento de documentos?

https://stackoverflow.com/questions/1846060

12-09-2019
|

Pregunta

Estoy leyendo que yo pueda crear vectores mahout de un índice Lucene que se puede utilizar para aplicar los algoritmos de agrupamiento mahout. http://cwiki.apache.org/confluence/display/ MAHOUT / Creación de vectores + + + Texto de

Me gusta aplicar K-means algoritmo de agrupamiento en los documentos en mi índice Lucene, pero no está claro cómo puedo aplicar este algoritmo (o agrupación jerárquica) para extraer grupos significativos con estos documentos.

En esta página http://cwiki.apache.org/confluence/ display / MAHOUT / k-medias dice que el algoritmo acepta dos directorios de entrada: una para los puntos de datos y otro para los grupos iniciales. Mis puntos de datos son los documentos? ¿Cómo puedo "declaro" que estos son mis documentos (o vectores), sólo tiene que tomar y hacer el agrupamiento?

lo siento de antemano por mi mala gramática

Gracias

Solución

Si usted tiene vectores, puede ejecutar KMeansDriver. Aquí está la ayuda para la misma.

Usage:
 [--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
  --input (-i) input                The Path for input Vectors. Must be a
                                    SequenceFile of Writable, Vector
  --clusters (-c) clusters          The input centroids, as Vectors.  Must be a
                                    SequenceFile of Writable, Cluster/Canopy.
                                    If k is also specified, then a random set
                                    of vectors will be selected and written out
                                    to this path first
  --output (-o) output              The Path to put the output in
  --distance (-m) distance          The Distance Measure to use.  Default is
                                    SquaredEuclidean
  --convergence (-d) convergence    The threshold below which the clusters are
                                    considered to be converged.  Default is 0.5
  --max (-x) max                    The maximum number of iterations to
                                    perform.  Default is 20
  --numReduce (-r) numReduce        The number of reduce tasks
  --k (-k) k                        The k in k-Means.  If specified, then a
                                    random selection of k Vectors will be
                                    chosen as the Centroid and written to the
                                    clusters output path.
  --vectorClass (-v) vectorClass    The Vector implementation class name.
                                    Default is SparseVector.class
  --overwrite (-w)                  If set, overwrite the output directory
  --help (-h)                       Print out help

Actualización: Obtener el directorio resultado de HDFS a fs locales. A continuación, utilice la utilidad ClusterDumper para obtener el clúster y lista de documentos en ese grupo.

Otros consejos

Una muy buena Cómo es éste: integrar mahout Apache Apache Lucene con

@ maiky Puede leer más acerca de la lectura de la salida y el uso de la utilidad clusterdump en esta página -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow