Latent Dirichlet Allocation gegen hierarchische Dirichlet -Prozess

https://datascience.stackexchange.com/questions/128

16-10-2019
|

Frage

Latent Dirichlet Allocation (LDA) und Hierarchischer Dirichlet -Prozess (HDP) sind beide Themenmodellierungsprozesse. Der Hauptunterschied besteht darin, dass LDA die Anzahl der Themen festgelegt hat, und HDP nicht. Warum ist das so? Und was sind die Unterschiede, Vorschriften und Nachteile beider Themenmodellierungsmethoden?

Lösung

HDP ist eine Erweiterung von LDA, die den Fall angibt, in dem die Anzahl der Mischkomponenten (die Anzahl der "Themen" in Dokumentenmodell-Begriffen) a priori nicht bekannt ist. Das ist der Grund, warum es einen Unterschied gibt.

Mit LDA für die Modellierung von Dokumenten behandelt man jedes "Thema" als Verteilung von Wörtern in einigen bekannten Vokabeln. Für jedes Dokument wird eine Mischung von Themen aus einer Dirichlet -Verteilung entnommen, und dann ist jedes Wort im Dokument eine unabhängige Zeichnung aus dieser Mischung (dh ein Thema auswählt und dann ein Wort generiert).

Für HDP (angewendet auf die Dokumentmodellierung) verwendet man auch einen Dirichlet -Prozess, um die Unsicherheit in der Anzahl der Themen zu erfassen. Daher wird eine gemeinsame Basisverteilung ausgewählt, die den zählich eingebliebenen Satz möglicher Themen für das Korpus darstellt, und dann wird die endliche Verteilung der Themen für jedes Dokument aus dieser Basisverteilung abgetastet.

In Bezug auf Vor- und Nachteile hat HDP den Vorteil, dass die maximale Anzahl von Themen nicht aus den Daten und nicht aus dem Voraus angegeben werden kann. Ich nehme an, obwohl es komplizierter zu implementieren ist und in dem Fall, in dem eine begrenzte Anzahl von Themen akzeptabel ist, unnötig ist.

Andere Tipps

Anekdotisch war ich nie beeindruckt von der Ausgabe von hierarchischer LDA. Es scheint einfach kein optimales Granularitätsniveau für die Auswahl der Anzahl der Themen zu finden. Ich habe viel bessere Ergebnisse erzielt, indem ich ein paar Iterationen von regulärem LDA durchführte, die von ihm produzierten Themen manuell inspiziert und entschieden habe, ob die Anzahl der Themen erhöht oder verringert werden soll, und weiterhin iteriert, bis ich die Granularität bekomme, nach der ich suche.

Denken Sie daran: Hierarchische LDA kann Ihren Verstand nicht lesen ... es weiß nicht, wofür Sie das Themenmodellieren verwenden möchten. Genau wie bei K-Means Clustering sollten Sie das k auswählen, das für Ihren Anwendungsfall am sinnvollsten ist.

Ich wollte darauf hinweisen, da dies einer der besten Google -Hits für dieses Thema ist, diese latente Dirichlet -Zuweisung (LDA), hierarchische Dirichlet -Prozesse (HDP), und Hierarchische latente Dirichlet -Allokation (HLDA) sind alle unterschiedliche Modelle.

LDA-Modelle dokumentiert als Dirichlet-Mischungen einer festen Anzahl von Themen, die vom Benutzer als Parameter des Modells ausgewählt wurden- die wiederum Dirichlet-Mischungen von Wörtern sind. Dies erzeugt eine flache, weiche probabilistische Clusterbildung von Begriffen in Themen und Dokumente in Themen.

HDP -Modelle Themen als Mischung von Wörtern, ähnlich wie LDA, aber anstelle von Dokumenten, die eine feste Anzahl von Themen sind, wird die Anzahl der Themen durch einen Dirichlet -Prozess generiert, was dazu führt, dass die Anzahl der Themen auch eine zufällige Variable ist. Der "hierarchische" Teil des Namens bezieht sich auf eine andere Ebene, die dem generativen Modell hinzugefügt wird (der Dirichlet-Prozess, der die Anzahl der Themen erzeugt), nicht die Themen selbst- die Themen sind immer noch flache Cluster.

Hlda hingegen ist eine Anpassung von LDA, die Themen als Mischung aus einer neuen, unterschiedlichen Themenstufe aus Dirichlet modelliert Verteilungen und keine Prozesse. Es behandelt immer noch die Anzahl der Themen als Hyperparameter, dh unabhängig von den Daten. Der Unterschied besteht darin, dass das Clustering jetzt hierarchisch ist. Es lernt eine Clusterbildung der ersten Themen selbst und bietet eine allgemeinere, abstrakte Beziehungen zwischen Themen (und damit Wörtern und Dokumenten). Stellen Sie sich vor, Sie gruppieren den Stapelaustausch in Mathematik, Naturwissenschaften, Programmierung, Geschichte usw. im Gegensatz zu Datenwissenschaft und Überschreitung in ein abstraktes Statistik- und Programmierthem Der Austausch wird mit dem Informatik -Austausch auf einer konkreten Ebene zusammengefasst, und die Ähnlichkeit zwischen allen genannten Börsen erscheint erst so stark, wenn die obere Schicht der Cluster.

Ich habe eine Situation, in der HDP im Vergleich zu LDA gut funktioniert. Ich habe ungefähr 16000 Dokumente, die zu verschiedenen Klassen gehören. Da ich nicht weiß, wie viele verschiedene Themen ich für jede Klasse sammeln kann, ist HDP in diesem Fall sehr hilfreich.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange