Unüberwachten Sentiment Analysis

https://stackoverflow.com/questions/3920759

29-09-2019
|

Frage

Ich habe eine Menge von Artikeln gelesen, dass die Notwendigkeit für einen ersten Satz von Texten erklären, die entweder als klassifiziert sind ‚positiv‘ oder ‚negativ‘ vor einem Sentiment-Analyse-System wirklich arbeiten.

Meine Frage ist: Hat jemand versucht, nur eine rudimentäre Kontrolle von ‚positiv‘ Adjektiven vs ‚negativ‘ Adjektive zu tun, unter Berücksichtigung alle einfache Negatoren zu vermeiden classing ‚nicht glücklich‘ als positiv? Wenn ja, gibt es Artikel, die nur zu diskutieren, warum diese Strategie nicht realistisch ist?

Lösung

klassischer Aufsatz von Peter Turney (2002) erläutert ein Verfahren ohne Aufsicht Sentiment-Analyse zu tun (positive / negative Klassifizierung) nur mit den Worten ausgezeichnet und schlecht als Samenansatz. Turney nutzt die gegenseitige Information von anderen Wörtern rel="noreferrer">

Andere Tipps

Ich habe zu tun ungeübte Sentiment-Analyse nicht versucht, wie Sie beschreiben, aber aus der Spitze von meinem Kopf würde ich sagen, das Problem sind zu stark zu vereinfachen. Einfach Adjektive Analyse ist nicht genug, um ein gutes Gespür für die Stimmung eines Textes zu erhalten; Betrachten wir zum Beispiel das Wort ‚dumm‘. Allein, würden Sie das als negativ einstufen, aber wenn eine Produktbewertung haben war ‚... [x] Produkt macht ihre Konkurrenten dumm suchen nicht zuerst diese Funktion zu denken ...‘, dann die Stimmung dort auf jeden Fall positiv sein würde . Der größere Kontext, in dem Wort erscheinen zählt auf jeden Fall in so etwas wie diese. Aus diesem Grunde ist ein ungeübtes Tasche-of-Worte allein nähern (allein ein noch begrenzte Beutel-of-Adjektive lassen) ist nicht genug, um dieses Problem angemessen zu bewältigen.

Die vorge klassifizierten Daten ( ‚Trainingsdaten‘) hilft, dass das Problem verschiebt sich von dem Versuch, zu bestimmen, ob ein Text von positiven oder negativen Stimmung von Grund auf, um zu bestimmen, zu versuchen, wenn der Text ähnlicher positive Texte oder negative Texte und klassifizieren auf diese Weise es. Der andere große Punkt ist, dass Text solche Analysen als Stimmungsanalyse oft stark durch die Unterschiede der Eigenschaften von Texten betroffen ist je nach Domain. Aus diesem Grunde ist eine gute Menge von Daten, die zu trainieren (die genauen Daten von innerhalb der Domäne, in der Sie arbeiten, und ist hoffentlich repräsentativ für die Texte, die Sie klassifizieren gehen zu müssen, zu) ist ebenso wichtig wie ein gutes Gebäude System zur Klassifizierung mit.

Nicht gerade ein Artikel, aber die Hoffnung, das hilft.

Das Papier von Turney (2002) von larsmans erwähnt ist eine gute Basis ein. In einer neueren Forschung, Li und He [2009] vorstellen, einen Ansatz mit Latent Dirichlet Allocation (LDA), ein Modell zu trainieren, die allgemeine Stimmung und Thema eines Artikels in einer völlig unbeaufsichtigt Weise gleichzeitig klassifizieren kann. Die Genauigkeit sie erreichen, ist 84,6%.

Ich habe versucht, Spek Schlüsselwörter ein Wörterbuch der Einfluss auf die Stimmung Etikett auf Satzebene vorherzusagen. Angesichts der Allgemeinheit des Vokabulars (Domäne-nicht-abhängig), die Ergebnisse waren nur etwa 61%. Das Papier ist in meiner Homepage zur Verfügung.

In einer etwas verbesserten Version, Negation Adverbien wurden berücksichtigt. Das ganze System, mit dem Namen EmoLib, ist für Demo zur Verfügung:

http://dtminredis.housing.salle.url.edu:8080/EmoLib /

Grüße,

David

Ich bin nicht sicher, ob das hilft, aber Sie können in Jacob Perkins Blogbeitrag auf NLTK für Stimmungsanalyse.

habe ich versucht, verschiedene Methoden des Sentiment Analysis für Opinion Mining in Bewertungen. Was war das Beste für mich ist die Methode, in Liu Buch beschrieben: http: // www. cs.uic.edu/~liub/WebMiningBook.html In diesem Buch Liu und andere, viele Strategien und diskutiert verschiedene Papiere auf Sentiment Analysis und Opinion Mining verglichen.

Obwohl mein Hauptziel war Merkmale in den Meinungen zu extrahieren, implementiert ich ein Gefühl Klassifikator positive und negative Klassifizierung dieser Merkmale zu erkennen.

habe ich NLTK für die Vorverarbeitung (Word tokenization, POS-Tagging) und der Trigramme Schöpfung. Dann auch benutzen ich die Bayes-Klassifizierer in diesem Tookit mit anderen Strategien zu vergleichen Liu wurde ausfindig.

Eine der Methoden beruht wie po auf Tagging / neg jedes trigrram diese Informationen, die ausdrücken, und mit einigen Klassifikator auf diesen Daten. Andere Verfahren habe ich versucht, und arbeitete besser (rund 85% Genauigkeit in meinem Datensatz), wurde die Summe der Noten von PMI (pünktlich zum gegenseitigen Information) für jedes Wort in dem Satz zu berechnen und die Worte sehr gut / schlecht als Samen der pos / neg-Klasse.

Es gibt keine magischen „Abkürzungen“ in Sentiment-Analyse, wie bei jeder anderen Art von Textanalyse, die den Basiswert „aboutness“ von einem Stück Text zu entdecken sucht. Der Versuch, Abkürzungs bewährte Textanalyseverfahren durch verein „Adjektiv“ Überprüfung oder ähnliche Ansätze führt zu einer Mehrdeutigkeit, falsche Klassifizierung, usw., die Sie am Ende des Tages geben eine schlechte Genauigkeit auf die Stimmung lesen. Je mehr terse die Quelle (zum Beispiel Twitter), desto schwieriger wird das Problem.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow