mahout documento Lucene agrupamento howto?
-
12-09-2019 - |
Pergunta
Estou lendo que eu possa criar mahout vetores de um índice lucene que pode ser usado para aplicar os algoritmos mahout agrupamento. http://cwiki.apache.org/confluence/display/ MAHOUT / Criação + vetores + de + Texto
Eu gostaria de aplicar K-means clustering algoritmo nos documentos em meu índice Lucene, mas não está claro como posso aplicar este algoritmo (ou agrupamento hierárquico) para extrair agrupamentos significativos com estes documentos.
Nesta página http://cwiki.apache.org/confluence/ exibir / MAHOUT / K-means diz que o algoritmo aceita dois diretórios de entrada: uma para os pontos de dados e um para os clusters iniciais. Meus pontos de dados são os documentos? Como pode i "declarar" que estes são os meus documentos (ou seus vetores), basta levá-los e fazer o agrupamento?
desculpe com antecedência para minha gramática pobre
Obrigado
Solução
Se você tem vetores, você pode executar KMeansDriver. Aqui está a ajuda para o mesmo.
Usage:
[--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
--input (-i) input The Path for input Vectors. Must be a
SequenceFile of Writable, Vector
--clusters (-c) clusters The input centroids, as Vectors. Must be a
SequenceFile of Writable, Cluster/Canopy.
If k is also specified, then a random set
of vectors will be selected and written out
to this path first
--output (-o) output The Path to put the output in
--distance (-m) distance The Distance Measure to use. Default is
SquaredEuclidean
--convergence (-d) convergence The threshold below which the clusters are
considered to be converged. Default is 0.5
--max (-x) max The maximum number of iterations to
perform. Default is 20
--numReduce (-r) numReduce The number of reduce tasks
--k (-k) k The k in k-Means. If specified, then a
random selection of k Vectors will be
chosen as the Centroid and written to the
clusters output path.
--vectorClass (-v) vectorClass The Vector implementation class name.
Default is SparseVector.class
--overwrite (-w) If set, overwrite the output directory
--help (-h) Print out help
Update: Obter o diretório resultado do HDFS para fs locais. Em seguida, usar a utilidade ClusterDumper para obter o cluster e lista de documentos em que cluster.
Outras dicas
Um bom guia está aqui: integrando apache mahout com o Apache Lucene
@ Maiky Você pode ler mais sobre a leitura de saída e usando o utilitário clusterdump nesta página -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper