Frage

Ich versuche Thema Modellierung mit Mallet zu verwenden, sondern eine Frage hat.

Wie kann ich wissen, wann ich das Modell neu erstellen müssen? Zum Beispiel habe ich diese Menge an Dokumenten, die ich aus dem Internet gekrochen, Thema Modellierung von Mallet I zur Verfügung gestellt mit vielleicht in der Lage, die Modelle und schließen Dokumente mit ihm zu schaffen. Aber Überstunden, mit neuen Daten, dass ich gekrochen, können neue Themen erscheinen. In diesem Fall ist, wie kann ich wissen, ob ich das Modell von Anfang bis Strom wieder aufbauen sollte?

Ich dachte, dies zu tun für Dokumente, die ich jeden Monat gekrochen. Kann jemand bitte beraten?

So ist Thema Modellierung besser geeignet für den Text unter einer festgelegten Menge von Themen (Eingangsparameter k, nein. Themen). Wenn nicht, wie kann ich feststellen, was wirklich Nummer zu benutzen?

War es hilfreich?

Lösung

Die Antworten auf Ihre Fragen hängen zu einem großen Teil von der Art der Daten, die Sie gerade arbeiten und die Größe des Korpus.

In Bezug auf Frequenz, ich fürchte, Sie müssen nur schätzen, wie oft Ihre Daten ändert sich in sinnvoller Weise und umgestalten zu diesem Satz. Sie könnten mit einer Woche beginnen und sehen, ob die neuen Daten zu einem deutlich anderen Modell führen. Falls nicht, versuchen Sie 2 Wochen und so weiter.

Die Anzahl der Themen, die Sie auswählen, wird bestimmt durch das, was Sie suchen in dem Modell. Je höher die Zahl, desto mehr die Ergebnisse feinkörnig. Wenn Sie einen umfassenden Überblick von dem, was in Ihrem Korpus möchten, können Sie wählen 10 Themen sagen. Für einen genaueren Blick, könnten Sie 200 oder eine andere geeignete hohe Zahl verwenden.

Ich hoffe, das hilft.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top