Question

Mon exigence prend dans les articles de presse et déterminer si elles sont positives ou négatives sur un sujet. Je prends l'approche décrite ci-dessous, mais je continue à lire la PNL peut être utile ici. Tout ce que j'ai lu a pointé avis détecter la PNL de fait, que je ne pense pas serait beaucoup d'importance dans mon cas. Je me demande deux choses:

1) Pourquoi ne pas mon travail d'algorithme et / ou comment puis-je l'améliorer? (Je sais que le sarcasme serait probablement un piège, mais encore une fois je ne vois pas que cela se produise beaucoup dans le type de nouvelles que nous allons recevoir)

2) Comment la PNL aide, pourquoi devrais-je utiliser?

Mon approche algorithmique (je dictionnaires de positif, négatif, et des mots de négation):

1) nombre de comptage de mots positifs et négatifs dans l'article

2) Si un mot de négation se trouve avec 2 ou 3 mots du mot positif ou négatif, (ex: le meilleur) infirment le score

.

3) multiplier le score de pondération qui ont été affectés manuellement à chaque mot. (1,0 à démarrer)

4) Additionnez les totaux positifs et négatifs pour obtenir le score de sentiment.

Était-ce utile?

La solution

Je ne pense pas qu'il y ait quoi que ce soit en particulier mauvais avec votre algorithme, il est une façon assez simple et pratique pour y aller, mais il y a beaucoup de situations où il sera se faire des erreurs.

  1. mots Ambigu de sentiment - "Ce produit fonctionne terriblement" contre "Ce produit est terriblement bon"

  2. Missed négations - "Je ne serais jamais en un millions d'années dire que ce produit est une valeur d'achat"

  3. Cité / texte indirect - "Mon père dit que ce produit est terrible, mais je suis en désaccord"

  4. Comparaisons - "Ce produit est aussi utile comme un trou dans la tête"

  5. Tout subtile - "Ce produit est laid, lent et sans intérêt, mais il est la seule chose sur le marché qui fait le travail"

J'utilise critique sur ce produit pour des exemples au lieu d'histoires nouvelles, mais vous voyez l'idée. En fait, les articles de nouvelles sont probablement plus difficile parce qu'ils essaient souvent de montrer les deux côtés d'un argument et ont tendance à utiliser un certain style pour transmettre un point. Le dernier exemple est assez fréquent dans les textes d'opinion, par exemple.

En ce qui concerne la PNL pour vous aider avec tout cela, mot sens homonymie (ou même seulement ) peut aider à (1), pourrait l'aide de l'analyse syntaxique avec les dépendances à longue portée dans (2), une sorte de chunking pourrait aider à (3). Il est tout le travail de niveau de recherche bien, il n'y a rien que je sache que vous pouvez utiliser directement. Questions (4) et (5) sont beaucoup plus difficiles, je jette mes mains et de renoncer à ce point.

Je coller avec l'approche que vous avez et regardez la sortie attentivement pour voir si elle est en train de faire ce que vous voulez. Bien sûr, cela pose alors la question de ce que vous voulez que vous comprenez la définition de « sentiment » d'être en premier lieu ...

Autres conseils

mon exemple favori est « juste lire le livre ». il ne contient pas de mot explicite de sentiment et il est fortement selon le contexte. Si elle apears dans une critique de film, cela signifie que le film-suce-un-une manière de déchets de-votre-temps mais-le-livre est-bon. Toutefois, si elle est une critique de livre, il livre un sentiment positif.

Et qu'en est - «c'est le plus petit téléphone [portable] sur le marché ». retour dans le '90, ce fut un grand éloge. Aujourd'hui, il peut indiquer qu'il est trop petit.

Je pense que c'est le point de départ afin d'obtenir la complexité de l'analyse des sentiments: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html (par Lillian Lee de Cornell).

Vous pouvez trouver le système OpinionFinder et les documents décrivant utile. Il est disponible à http://www.cs.pitt.edu/mpqa/ avec d'autres ressources pour l'analyse d'opinion.

Il va au-delà de la classification de polarité au niveau du document, mais essayer de trouver des avis individuels au niveau de la phrase.

Je crois que la meilleure réponse à toutes les questions que vous avez mentionnées est à lire le livre sous le titre de « Le sentiment d'analyse et de l'exploitation minière d'opinion » par le Professeur Bing Liu . Ce livre est le meilleur de son propre dans le domaine de l'analyse des sentiments. C'est étonnant. Il suffit de jeter un coup d'oeil et vous trouverez la réponse à tous vos « pourquoi » et « comment »!

techniques de la machine-learning sont probablement mieux.

Whitelaw, Garg et Argamon une technique qui permet d'atteindre une précision de 92%, en utilisant une technique similaire à la vôtre pour faire face à la négation, et les machines à vecteurs de classification texte.

Pourquoi ne pas essayer quelque chose de similaire à la façon dont SpamAsassin fonctionne filtre anti-spam? Il vraiment pas beaucoup de différence entre l'exploitation minière et l'exploitation minière intension d'opinion.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top