一个需要为LDA提供预定义的潜在主题。假设我有一个文本语料库,我假设有10个主要主题,所有主题均由10个次要次错组成。我的目标是能够定义文档之间的接近度。

1)您如何估计实践中的主题数量?经验上?使用另一种方法,例如层次dirichlet过程(HDP)?

2)您建立了几种型号吗?对于主要和次要主题?有没有办法捕获主题的层次结构?

有帮助吗?

解决方案

有许多执行此优化的方法,即选择为LDA提供的最佳主题,并且在该主题上已经撰写了许多论文。

值得注意的是,每个定义的指标可以评估LDA模型的主题质量:

  • Rajkumar Arun,V。Suresh,CE Veni Madhavan和Mn Narasimha Murthy。 2010年。关于潜在的Dirichlet分配的自然数量主题:一些观察。在知识发现和数据挖掘方面的进步中,穆罕默德·扎基(Mohammed J.施普林格柏林海德堡,391–402。 http://doi.org/10.1007/978-3-642-13657-3_43
  • Cao Juan,Xia Tian,Li Jintao,Zhang Yongdong和Tang Sheng。 2009。一种基于密度的自适应LDA模型选择的方法。神经计算 - 第16届欧洲人工神经网络研讨会2008年72,7-9:1775–1781。 http://doi.org/10.1016/j.neucom.2008.06.011
  • Romain Deveaud,Erric Sanjuan和Patrice Bellot。 2014年。临时信息检索的准确有效的潜在概念建模。文档Numérique17,1:61–84。 http://doi.org/10.3166/dn.17.1.61-84
  • Thomas L. Griffiths和Mark Steyvers。 2004年。寻找科学主题。美国国家科学院学院论文集101,增刊1:5228–5235。 http://doi.org/10.1073/pnas.0307752101

幸运的是,如果您使用r,这些指标已经在一个方便的包裹中为您编辑,称为 ldatuning 它提供了一组实用程序和指标,以帮助调整LDA模型中的正确数量的主题。

或者,如果您使用的是Python, Gensim 软件包可以为您提供很多公用事业。例如,包装实现了他们称其声称的“主题连贯性”的度量,大致相对应 主题区分的人类明确性 在众多 其他用于调整的实用程序.

许可以下: CC-BY-SA归因
scroll top