Frage

Ich brauche deine Hilfe in den besten Ansatz Bestimmung für die Analyse von branchenspezifischen Sätzen (d Filmkritiken) für „positive“ vs „negativ“. Ich habe vor Bibliotheken wie OpenNLP gesehen, aber es ist zu Low-Level - es gibt mir nur die Grundsatzzusammensetzung; was ich brauche, ist eine übergeordnete Struktur: - hoffentlich mit Wordlisten - hoffentlich trainierbar auf meinem Satz von Daten

Danke!

War es hilfreich?

Lösung

Was Sie suchen, ist allgemein Sentiment Analysis genannt. Typischerweise ist Sentiment-Analyse zarte Feinheiten zu handhaben nicht in der Lage, wie Sarkasmus oder Ironie, aber es Tarife ziemlich gut, wenn Sie eine große Menge von Daten an ihn werfen.

Sentiment-Analyse muss in der Regel ziemlich viel Vorverarbeitung. Mindestens tokenization, Satzgrenze Erkennung und part-of-speech tagging. Manchmal kann syntaktische Analyse wichtig sein. Doing es richtig ist ein ganzer Forschungszweig in der Computerlinguistik, und ich möchte Sie nicht mit kommen mit Ihrer eigenen Lösung beraten, wenn Sie Ihre Zeit in Anspruch nehmen, das Feld zuerst zu studieren.

OpenNLP hat einige Werkzeuge Sentiment-Analyse zu helfen, aber wenn Sie etwas ernster wollen, sollten Sie die LingPipe Toolkit. Es hat einige integrierte SA-Funktionalität und eine schöne Tutorial . Und Sie können es auf Ihrem eigenen Satz von Daten trainieren, aber glaube nicht, dass es ganz trivial ist: -).

für den Begriff googeln wird wahrscheinlich auch einige Ressourcen geben, mit zu arbeiten. Wenn Sie weitere spezielle Fragen haben, fragen Sie einfach, ich beobachte die nlp-Tag eng; -)

Andere Tipps

Einige Ansätze zur Stimmungsanalyse Nutzungsstrategien populär auf anderen Textklassifikationsaufgaben. Die gebräuchlichste Ihre Filmkritik in einem Wort Vektor wird umgeformt und in einem Klassifizierer-Algorithmus als Trainingsdaten füttern. Die beliebtesten Data-Mining-Pakete können Ihnen dabei helfen. Sie konnten einen Blick auf diese Tutorial auf die Stimmung Klassifizierung rel="nofollow darstellt, wie ein Experiment zu tun, um die Open-Source mit Rapidminer Toolkit .

Im übrigen gibt es eine guten Datensatz für Forschungszwecke im Zusammenhang mit Nachweis Stellungnahme zu Filmkritiken gemacht. Es basiert auf User-Bewertungen IMDB, und Sie können viele Forschungsarbeit auf dem Gebiet und wie sie den Datensatz verwenden.

Es lohnt sich man bedenkt, dass die Wirksamkeit dieser Methoden nur aus statistischer Sicht beurteilt werden kann, so dass man ziemlich viel es davon ausgehen können, werden Fehlklassifikationen und Fälle, in denen Meinung schwer zu erkennen ist. Wie bereits in diesem Thread bemerkt hat, Dinge wie Ironie und Sarkasmus Nachweis kann in der Tat sehr schwierig sein.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top