Analyse de Unsupervised Sentiment

https://stackoverflow.com/questions/3920759

29-09-2019
|

Question

J'ai lu beaucoup d'articles qui expliquent la nécessité d'une première série de textes qui sont classés comme étant soit « positive » ou « négative » avant un système d'analyse de sentiment sera vraiment.

Ma question est la suivante: Quelqu'un at-il essayé de faire un chèque rudimentaire des adjectifs « positifs » vs adjectifs « négatifs » de, en tenant compte des négateurs simples pour éviter classage « pas heureux » comme positif? Si oui, sont-t-il des articles qui traitent juste pourquoi cette stratégie est pas réaliste?

La solution

papier classique par Peter Turney (2002) explique une méthode pour effectuer une analyse non supervisée de sentiment (de classement positif / négatif) en utilisant uniquement les mots excellente et pauvres comme un ensemble de semences. Turney utilise le d'autres termes avec ces deux adjectifs pour obtenir une précision de 74%.

Autres conseils

Je ne l'ai pas essayé de faire l'analyse des sentiments sans formation tels que vous décrivez, mais du haut de ma tête, je dirais que vous êtes le problème de trop simplifier. Il suffit d'analyser les adjectifs ne suffit pas d'obtenir une bonne compréhension du sentiment d'un texte; par exemple, considérer le mot « stupide ». Seul, vous classer cela comme négatif, mais si un examen des produits devaient avoir « ... [x] produit fait leurs concurrents l'air stupide pour ne pas penser à cette fonction première ... », puis le sentiment là-bas serait certainement positif . Le plus grand contexte dans lequel les mots sont des questions sans aucun doute quelque chose comme ça. Voilà pourquoi un sac sans formation de mots approche seul (et encore moins un sac de-adjectifs encore plus limitée) ne suffit pas d'aborder adéquatement ce problème.

Les données pré-classifiés ( « données de formation ») contribue à ce que le problème se déplace d'essayer de déterminer si un texte est du sentiment positif ou négatif à partir de zéro, pour essayer de déterminer si le texte est plus semblable à des textes positifs ou textes négatifs et classifient cette façon. L'autre point est que des analyses telles que l'analyse des sentiments textuelles sont souvent grandement affecté par les différences des caractéristiques des textes en fonction de domaine. C'est pourquoi avoir un bon ensemble de données pour former sur (qui est, des données précises à partir du domaine dans lequel vous travaillez, et espérons-le représentant des textes que vous allez devoir classer) est aussi importante que la construction d'une bonne système de classer avec.

Pas exactement un article, mais l'espoir qui aide.

Le papier de Turney (2002) mentionné par larsmans est une bonne base. Dans une étude plus récente, Li et il [2009] introduire une approche utilisant latent Dirichlet Allocation (LDA) pour former un modèle qui peut classer le sentiment et le sujet général d'un article en même temps d'une manière tout à fait sans supervision. La précision est qu'ils atteignent 84,6%.

J'ai essayé des mots-clés repérer à l'aide d'un dictionnaire de l'affect pour prédire l'étiquette de sentiment au niveau de la phrase. Compte tenu de la généralité du vocabulaire (non dépendant du domaine), les résultats sont à peu près 61%. Le document est disponible dans ma page d'accueil.

Dans une version améliorée quelque peu, ont été considérés comme adverbes de négation. Le système, nommé EmoLib, est disponible pour démonstration:

http://dtminredis.housing.salle.url.edu:8080/EmoLib /

Cordialement,

David,

Je ne sais pas si cela aide mais vous pouvez regarder dans Jacob Perkin Blog post sur l'utilisation NLTK pour l'analyse des sentiments.

J'ai essayé plusieurs méthodes de l'analyse pour l'exploitation minière sentiment d'opinion dans les revues. Ce qui a fonctionné le mieux pour moi est la méthode décrite dans le livre Liu: http: // www. cs.uic.edu/~liub/WebMiningBook.html Dans ce livre Liu et d'autres, de nombreuses stratégies par rapport et discuté différents documents sur l'analyse et l'exploitation minière sentiment avis.

Bien que mon principal objectif était d'extraire des caractéristiques dans les avis, je mis en œuvre un classificateur de sentiment pour détecter la classification positive et négative de ces caractéristiques.

je NLTK pour le pré-traitement (Word tokenization, marquage POS) et la création de trigrammes. Puis aussi je classificateurs bayésienne dans cette Tookit de comparer avec d'autres stratégies Liu a été localisant.

L'une des méthodes repose sur le marquage comme pos / neg chaque trigrram exprimant ces informations, et en utilisant certains classificateur sur ces données. Autre méthode que j'ai essayé et travaillé mieux (environ 85% de précision dans mon jeu de données), a été le calcul de la somme des scores de PMI (information mutuelle ponctuelle) pour chaque mot de la phrase et les mots excellent / pauvres comme les graines de pos / classe neg.

Il n'y a pas de magie « raccourcis » dans l'analyse des sentiments, comme avec tout autre type d'analyse de texte qui cherche à découvrir le sous-jacent « aboutness, » d'un morceau de texte. Toute tentative de court-circuiter les méthodes d'analyse de texte prouvé par simpliste « adjectif » vérification ou approches similaires conduit à l'ambiguïté, la classification erronée, etc., à la fin de la journée, vous donner une mauvaise précision lu sur le sentiment. Plus laconique la source (par exemple Twitter), plus le problème est difficile.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow