Pergunta

Estou lendo que eu possa criar mahout vetores de um índice lucene que pode ser usado para aplicar os algoritmos mahout agrupamento. http://cwiki.apache.org/confluence/display/ MAHOUT / Criação + vetores + de + Texto

Eu gostaria de aplicar K-means clustering algoritmo nos documentos em meu índice Lucene, mas não está claro como posso aplicar este algoritmo (ou agrupamento hierárquico) para extrair agrupamentos significativos com estes documentos.

Nesta página http://cwiki.apache.org/confluence/ exibir / MAHOUT / K-means diz que o algoritmo aceita dois diretórios de entrada: uma para os pontos de dados e um para os clusters iniciais. Meus pontos de dados são os documentos? Como pode i "declarar" que estes são os meus documentos (ou seus vetores), basta levá-los e fazer o agrupamento?

desculpe com antecedência para minha gramática pobre

Obrigado

Foi útil?

Solução

Se você tem vetores, você pode executar KMeansDriver. Aqui está a ajuda para o mesmo.

Usage:
 [--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
  --input (-i) input                The Path for input Vectors. Must be a
                                    SequenceFile of Writable, Vector
  --clusters (-c) clusters          The input centroids, as Vectors.  Must be a
                                    SequenceFile of Writable, Cluster/Canopy.
                                    If k is also specified, then a random set
                                    of vectors will be selected and written out
                                    to this path first
  --output (-o) output              The Path to put the output in
  --distance (-m) distance          The Distance Measure to use.  Default is
                                    SquaredEuclidean
  --convergence (-d) convergence    The threshold below which the clusters are
                                    considered to be converged.  Default is 0.5
  --max (-x) max                    The maximum number of iterations to
                                    perform.  Default is 20
  --numReduce (-r) numReduce        The number of reduce tasks
  --k (-k) k                        The k in k-Means.  If specified, then a
                                    random selection of k Vectors will be
                                    chosen as the Centroid and written to the
                                    clusters output path.
  --vectorClass (-v) vectorClass    The Vector implementation class name.
                                    Default is SparseVector.class
  --overwrite (-w)                  If set, overwrite the output directory
  --help (-h)                       Print out help

Update: Obter o diretório resultado do HDFS para fs locais. Em seguida, usar a utilidade ClusterDumper para obter o cluster e lista de documentos em que cluster.

Outras dicas

@ Maiky Você pode ler mais sobre a leitura de saída e usando o utilitário clusterdump nesta página -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top