Frage

Eine bieten müssen, LDA mit einer vordefinierten Anzahl von latenter Themen.Lassen Sie sagen, ich habe ein Textkorpus, in dem ich nehme an, es gibt 10 großen Themen, die alle aus 10 kleinere Unterthemen.Mein Ziel ist es in der Lage sein zu definieren, die Nähe zwischen den Dokumenten.

1) Wie schätzen Sie die Zahl der Themen in der Praxis ?Empirisch ?Mit einer anderen Methode wie Hierarchical Dirichlet-Prozess (HDP) ?

2) Tun Sie mehrere Modelle erstellen ?Für große und kleine Themen ?Gibt es eine Möglichkeit zur Erfassung der hierarchischen Struktur der Themen ?

War es hilfreich?

Lösung

Es gibt viele Methoden der Durchführung dieser Optimierung - nämlich die Auswahl der optimalen Anzahl von Themen zu liefern, für die LDA und viele Dokumente wurden verfasst über das Thema.

Mehrere der Hinweis, die jeweils definieren Metriken, die durch die Bewertung des LDA-Modelle für die Qualität der Themen sind:

  • Arun Rajkumar, V.Suresh, C.E.Veni Madhavan, und M.N.Narasimha Murthy.2010.Auf der Suche nach dem natürlichen Zahl von Themen mit latent dirichlet allocation:Einige Beobachtungen.In Advances in knowledge discovery and data mining, Mohammed J.Zaki, Jeffrey Xu Yu, Balaraman Ravindran und Vikram Pudi (eds.).Springer, Berlin Heidelberg, 391-402. http://doi.org/10.1007/978-3-642-13657-3_43
  • Cao Juan, Xia Tian, Li, Jintao Zhang Yongdong, Tang Sheng.2009.Dichte-basierte Methode für die adaptive lDA Modell-Auswahl.Neurocomputing — 16th European Symposium on Artificial Neural Networks 2008 72, 7-9:1775-1781. http://doi.org/10.1016/j.neucom.2008.06.011
  • Romain Deveaud, Eric SanJuan, und Patrice Bellot.2014.Genaue und effektive latente Konzept für die Modellierung von ad-hoc-Informationen abrufen.Document numérique 17, 1:61-84. http://doi.org/10.3166/dn.17.1.61-84
  • Thomas L.Griffiths und Mark Steyvers.2004.Finden wissenschaftliche Themen.Proceedings of the National Academy of Sciences 101, suppl 1:5228-5235. http://doi.org/10.1073/pnas.0307752101

Wie Glück es haben würde, wenn Sie mit R, diese Metriken wurden bereits für Sie zusammengestellt-in einem praktischen Paket namens ldatuning das bietet eine Reihe von Dienstprogrammen und Metriken, um zu helfen Sie tune die richtige Anzahl von Themen, die innerhalb der LDA-Modelle.

Alternativ, wenn Sie mit Python, die gensim Paket kann bieten Sie mit eine Menge von Dienstprogrammen zu unterstützen.Für Beispiel, die Paket implementiert eine Metrik, die Sie nennen das Thema "Kohärenz", die behaupten Sie entspricht in etwa Klarheit von Thema Auszeichnung für eine menschliche unter vielen andere Dienstprogramme für die Optimierung.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top