cornac Document Lucene howto de regroupement?
-
12-09-2019 - |
Question
Je lis que je peux créer des vecteurs de Mahout à partir d'un indice de Lucene qui peut être utilisé pour appliquer les algorithmes de regroupement de cornac. http://cwiki.apache.org/confluence/display/ MAHOUT / + vecteurs + Création de + texte
Je voudrais appliquer K-means algorithme des documents dans mon index Lucene, mais on ne sait pas comment puis-je appliquer cet algorithme (ou classification hiérarchique) pour extraire des clusters significatifs avec ces documents.
Dans cette page http://cwiki.apache.org/confluence/ affichage / MAHOUT / k-means dit que l'algorithme accepte deux répertoires d'entrée: un pour les points de données et un pour les groupes initiaux. Mes points de données sont les documents? Comment puis-je « déclare » que ce sont mes documents (ou leurs vecteurs), les prendre simplement et faire le regroupement?
désolé à l'avance pour ma pauvre grammaire
Merci
La solution
Si vous avez des vecteurs, vous pouvez exécuter KMeansDriver. Voici l'aide pour le même.
Usage:
[--input <input> --clusters <clusters> --output <output> --distance <distance>
--convergence <convergence> --max <max> --numReduce <numReduce> --k <k>
--vectorClass <vectorClass> --overwrite --help]
Options
--input (-i) input The Path for input Vectors. Must be a
SequenceFile of Writable, Vector
--clusters (-c) clusters The input centroids, as Vectors. Must be a
SequenceFile of Writable, Cluster/Canopy.
If k is also specified, then a random set
of vectors will be selected and written out
to this path first
--output (-o) output The Path to put the output in
--distance (-m) distance The Distance Measure to use. Default is
SquaredEuclidean
--convergence (-d) convergence The threshold below which the clusters are
considered to be converged. Default is 0.5
--max (-x) max The maximum number of iterations to
perform. Default is 20
--numReduce (-r) numReduce The number of reduce tasks
--k (-k) k The k in k-Means. If specified, then a
random selection of k Vectors will be
chosen as the Centroid and written to the
clusters output path.
--vectorClass (-v) vectorClass The Vector implementation class name.
Default is SparseVector.class
--overwrite (-w) If set, overwrite the output directory
--help (-h) Print out help
Mise à jour: Obtenez le répertoire des résultats de HDFS à fs locales. Ensuite, utilisez l'utilitaire ClusterDumper pour obtenir le cluster et la liste des documents dans ce groupe.
Autres conseils
Un très bon tutoriel est ici: intégration apache avec cornac apache Lucene
@ maiky Vous pouvez en savoir plus sur la lecture de la sortie et à l'aide de l'utilitaire clusterdump dans cette page -> https : //cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper