Comment travaillez-vous avec Latent Dirichlet Allocation dans la pratique

https://datascience.stackexchange.com/questions/16994

dirichlet

22-10-2019
|

Question

Un besoin de fournir LDA avec un nombre prédéfini de sujets latents. Disons que j'ai un corpus de texte dans lequel il y a je fais l'hypothèse de 10 grands thèmes, tous composés de 10 sous-thèmes mineurs. Mon objectif est d'être en mesure de définir la proximité entre les documents.

1) Comment évaluez-vous le nombre de sujets dans la pratique? De manière empirique? Avec une autre méthode comme processus hiérarchique Dirichlet (HDP)?

2) Avez-vous construire plusieurs modèles? Pour les sujets majeurs et mineurs? Y at-il un moyen de capturer la structure hiérarchique des sujets?

La solution

Il existe de nombreuses méthodes d'exécution de cette savoir Optimization, choisir le nombre optimal de sujets à fournir pour LDA et de nombreux articles ont été écrit sur le sujet.

Plusieurs de note, qui définissent chacune des mesures permettant d'évaluer les modèles LDA pour la qualité des sujets sont:

Rajkumar Arun, V. Suresh, C. E. Veni Madhavan, et M. N. Narasimha Murthy. 2010. trouver le nombre naturel de sujets avec l'allocation Dirichlet latente: Quelques observations. Dans Les progrès de la découverte des connaissances et l'exploration de données, Mohammed J. Zaki, Jeffrey Xu Yu, Balaraman Ravindran et Vikram Pudi (dir.). Springer Berlin Heidelberg, 391-402. http://doi.org/10.1007/978-3-642-13657- 3_43
Cao Juan, Xia Tian, ??Li Jintao, Zhang Yongdong et Tang Sheng. 2009. méthode basée sur la densité de A pour la sélection du modèle LDA adaptatif. Neurocomputing - 16e Symposium européen sur les réseaux de neurones artificiels 2008 72, 7-9: 1775-1781. http://doi.org/10.1016/j.neucom.2008.06.011
Romain Deveaud, Éric SanJuan et Patrice Bellot. 2014. notion latente précise et efficace pour la modélisation ad hoc recherche d'information. 17 document numérique, 1: 61-84. http://doi.org/10.3166/dn.17.1.61-84
Thomas L. Griffiths et Mark Steyvers. 2004. Trouver des sujets scientifiques. Actes de l'Académie nationale des sciences 101, Suppl 1: 5228-5235. http://doi.org/10.1073/pnas.0307752101

Comme par hasard, si vous utilisez R, ces paramètres pour vous ont déjà été compilés dans un package pratique appelé ldatuning qui fournit un ensemble d'utilitaires et de mesures pour régler la bonne aide nombre de sujets dans les modèles LDA.

Par ailleurs, si vous utilisez Python, gensim package peut vous fournir beaucoup de services publics pour aider. Par exemple, le paquet met en œuvre une mesure qu'ils appellent la « cohérence sujet » qu'ils prétendent correspond à peu près à clarté de distinction pour un sujet humain parmi d'autres

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange