最佳情感分析算法方法[封闭

题

我的要求是收录新闻文章，并确定它们是正面还是对主题是正面的。我正在采用下面概述的方法，但是我继续阅读NLP可能在这里使用。我所读的所有内容都指向NLP检测到事实的意见，我认为这对我来说并不重要。我想知道两件事：

1）为什么我的算法不起作用和/或如何改进？（我知道讽刺可能是一个陷阱，但是我再也看不到我们会得到的新闻类型发生的太多）

2）NLP将如何帮助，为什么要使用它？

我的算法方法（我有正面，消极和否定词的字典）：

1）计算文章中正面和负面词的数量

2）如果发现否定词，带有2或3个单词的正或否定词，（即：不是最好的）否定得分。

3）将分数乘以手动分配给每个单词的权重。（1.0开始）

4）将积极和负数的总数添加到获得情感分数。

解决方案

我认为没有什么特别 错误的 有了您的算法，这是一种相当简单明了的方法，但是在很多情况下，它会犯错。

我正在使用产品评论示例而不是新闻报道，但是您明白了。实际上，新闻文章可能会更加困难，因为它们经常会试图展示争论的两面，并倾向于使用某种风格来传达一个观点。例如，最终的例子在意见文章中很普遍。

就NLP帮助您而言，单词感觉歧义（甚至只是言论的一部分标记）可以帮助（1），句法解析可能有助于（2）中的远程依赖性块可能会帮助（3）。不过，这都是研究水平的工作，我不知道您可以直接使用。问题（4）和（5）要困难得多，我在这一点上伸出双手并放弃。

我会坚持使用您的方法，并仔细查看输出，以查看它是否正在做您想要的事情。当然，这就提出了您想要的问题的问题，您就了解“情感”的定义首先是...

其他提示

我最喜欢的例子是“读书”。它不包含明确的情感词，它高度取决于上下文。如果它在电影评论中进行了评论，则意味着您的浪费了自己的时间，但书本很好。但是，如果是在书中，它会产生积极的情绪。

那 - “这是市场上最小的[手机]手机”。早在90年代，这是一个很好的称赞。今天，这可能表明这太小了。

我认为这是为了获得情感分析的复杂性的起点： http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html （由康奈尔的莉莲·李（Lillian Lee）撰写）。

您可能会发现舆论发现系统以及描述其有用的论文。它可以在 http://www.cs.pitt.edu/mpqa/ 与其他资源进行意见分析。

它超出了文档级别的极性分类，但尝试在句子级别找到个人意见。

我相信您提到的所有问题的最佳答案是阅读本书的标题 “情感分析和意见挖掘” 由教授 Bing Liu. 。这本书在情感分析领域中是最好的。太神奇了。只要看看它，您就会找到所有“为什么”和“如何”问题的答案！

机器学习技术可能更好。

Whitelaw，Garg和Argamon 拥有一种可以实现92％精度的技术，使用类似于您的技术来处理否定的技术，并支持向量机进行文本分类。

你为什么不尝试类似的方式 spamasassin 垃圾邮件过滤器有效吗？意图采矿和意见采矿之间确实没有太大区别。

许可以下： CC-BY-SA 和归因