Frage

Ich mache ein Projekt über die Bergbau Blog Inhalt und ich brauche Hilfe, auf dem Werkzeug zu Anwendungen zu differenzieren. Wenn ich einen Parser verwenden, wenn verwende ich einen Tagger, und wann muss ich ein NER-Tool verwenden?

Zum Beispiel möchte ich die am meisten gesprochen, um sich über Themen / Themen zwischen mehreren Blogs; ich einen part-of-speech Tagger verwende die Substantive zu greifen und eine Frequenzzahl zu tun? Das wäre wahrscheinlich nicht ausreichen, weil sehr allgemeine Begriffe rechts auftauchen kann? Oder habe ich eine Liste von Kategorien und diesen Synonyme, dass ich passen kann?

BTW, ich bin mit nltk, aber bin auf der Suche an der Stanford-Tagger oder Parser da ein paar Jungs gesagt, dass es gut war.

War es hilfreich?

Lösung

Anstatt zu versuchen, das Rad neu zu erfinden, möchten Sie vielleicht auf Topic-Modelle lesen, die im Grunde Cluster von Wörtern erstellt, die häufig zusammen auftreten. Mallet hat eine leicht verfügbare Instrumentarium für eine solche Aufgabe zu tun: http: //mallet.cs.umass. edu / topics.php .

Um Ihre ursprüngliche Frage, POS-Tagger, Parser und NER Werkzeuge sind nicht typischerweise für Themenfindung zu beantworten, sind aber für Aufgaben wie Informationsextraktion stärker eingesetzt, wo das Ziel innerhalb eines Dokuments zu identifizieren, ist die spezifischen Akteure, Veranstaltungen, Orte, Zeiten, etc ... wenn Sie zum Beispiel einen einfachen Satz hat wie „John, den Apfel zu Mary gab.“ Sie könnte eine Abhängigkeit Parser verwenden, um herauszufinden, dass John das Thema ist, ist der Apfel das Objekt, und Maria ist die prepositional Objekt; so wissen Sie, Johannes der Geber ist und Mary ist der Empfänger und nicht umgekehrt.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top