実際に潜在的なディリクレの割り当てでどのように協力しますか

質問

LDAに事前定義された数の潜在的なトピックを提供する必要があります。たとえば、10の主要なトピックがあり、すべて10のマイナーなサブトピックで構成される10の主要なトピックがあると仮定しているテキストコーパスを持っているとしましょう。私の目的は、ドキュメント間の近接性を定義できることです。

1）実際のトピックの数をどのように推定しますか？経験的に？ Hierarchical Dirichlet Process（HDP）のような別の方法で？

2）いくつかのモデルを構築していますか？主要なトピックとマイナーなトピックは？トピックの階層構造をキャプチャする方法はありますか？

解決

この最適化を実行するには多くの方法があります。つまり、LDAに提供する最適なトピックの数を選択し、このトピックに関する多くの論文が執筆されています。

それぞれが、トピックの品質についてLDAモデルを評価するためのメトリックを定義するメトリックを次のものにします。

Rajkumar Arun、V。Suresh、Ce Veni Madhavan、およびMn Narasimha Murthy。 2010.潜在的なディリクレの割り当てを備えた自然数のトピックを見つけることについて：いくつかの観察。知識発見とデータマイニングの進歩において、モハメッドJ.ザキ、ジェフリーXu Yu、バララマンラビンドラン、ヴィクラムプディ（編）。 Springer Berlin Heidelberg、391–402。 http://doi.org/10.1007/978-3-642-13657-3_43
Cao Juan、Xia Tian、Li Jintao、Zhang Yongdong、およびTang Sheng。 2009.適応LDAモデル選択の密度ベースの方法。 NeuroComputing - 人工ニューラルネットワークに関する第16回ヨーロッパシンポジウム2008 72、7–9：1775–1781。 http://doi.org/10.1016/j.neucom.2008.06.011
Romain Deveaud、éricSanjuan、およびPatrice Bellot。 2014.アドホック情報検索のための正確で効果的な潜在的概念モデリング。文書Numérique17、1：61–84。 http://doi.org/10.3166/DN.17.1.61-84
トーマス・L・グリフィスとマーク・ステイバーズ。 2004.科学的トピックを見つける。国立科学アカデミー101の議事録、Suppl 1：5228–5235。 http://doi.org/10.1073/pnas.0307752101

運がよければ、Rを使用している場合、これらのメトリックはすでにあなたのためにコンパイルされているパッケージに編集されています ldatuning これにより、LDAモデル内の正しい数のトピックを調整するのに役立つ一連のユーティリティとメトリックが提供されます。

または、Pythonを使用している場合、生成パッケージは、支援する多くのユーティリティを提供できます。たとえば、パッケージは、彼らが「トピックコヒーレンス」と呼ぶメトリックを実装しています。人間のトピックの区別の明確さ多くの中でチューニングのための他のユーティリティ.

ライセンス： CC-BY-SA と帰属