您如何在实践中与潜在的Dirichlet分配合作

题

一个需要为LDA提供预定义的潜在主题。假设我有一个文本语料库，我假设有10个主要主题，所有主题均由10个次要次错组成。我的目标是能够定义文档之间的接近度。

1）您如何估计实践中的主题数量？经验上？使用另一种方法，例如层次dirichlet过程（HDP）？

2）您建立了几种型号吗？对于主要和次要主题？有没有办法捕获主题的层次结构？

解决方案

有许多执行此优化的方法，即选择为LDA提供的最佳主题，并且在该主题上已经撰写了许多论文。

值得注意的是，每个定义的指标可以评估LDA模型的主题质量：

Rajkumar Arun，V。Suresh，CE Veni Madhavan和Mn Narasimha Murthy。 2010年。关于潜在的Dirichlet分配的自然数量主题：一些观察。在知识发现和数据挖掘方面的进步中，穆罕默德·扎基（Mohammed J.施普林格柏林海德堡，391–402。 http://doi.org/10.1007/978-3-642-13657-3_43
Cao Juan，Xia Tian，Li Jintao，Zhang Yongdong和Tang Sheng。 2009。一种基于密度的自适应LDA模型选择的方法。神经计算 - 第16届欧洲人工神经网络研讨会2008年72，7-9：1775–1781。 http://doi.org/10.1016/j.neucom.2008.06.011
Romain Deveaud，Erric Sanjuan和Patrice Bellot。 2014年。临时信息检索的准确有效的潜在概念建模。文档Numérique17，1：61–84。 http://doi.org/10.3166/dn.17.1.61-84
Thomas L. Griffiths和Mark Steyvers。 2004年。寻找科学主题。美国国家科学院学院论文集101，增刊1：5228–5235。 http://doi.org/10.1073/pnas.0307752101

幸运的是，如果您使用r，这些指标已经在一个方便的包裹中为您编辑，称为 ldatuning 它提供了一组实用程序和指标，以帮助调整LDA模型中的正确数量的主题。

或者，如果您使用的是Python， Gensim 软件包可以为您提供很多公用事业。例如，包装实现了他们称其声称的“主题连贯性”的度量，大致相对应主题区分的人类明确性在众多其他用于调整的实用程序.

许可以下： CC-BY-SA 和归因