我的要求是收录新闻文章,并确定它们是正面还是对主题是正面的。我正在采用下面概述的方法,但是我继续阅读NLP可能在这里使用。我所读的所有内容都指向NLP检测到事实的意见,我认为这对我来说并不重要。我想知道两件事:

1)为什么我的算法不起作用和/或如何改进? (我知道讽刺可能是一个陷阱,但是我再也看不到我们会得到的新闻类型发生的太多)

2)NLP将如何帮助,为什么要使用它?

我的算法方法(我有正面,消极和否定词的字典):

1)计算文章中正面和负面词的数量

2)如果发现否定词,带有2或3个单词的正或否定词,(即:不是最好的)否定得分。

3)将分数乘以手动分配给每个单词的权重。 (1.0开始)

4)将积极和负数的总数添加到获得情感分数。

有帮助吗?

解决方案

我认为没有什么特别 错误的 有了您的算法,这是一种相当简单明了的方法,但是在很多情况下,它会犯错。

  1. 模棱两可的话语 - “此产品非常有效”与“此产品非常好”

  2. 错过否定 - “我永远不会在数百万年内说这个产品值得购买”

  3. 引用/间接文字 - “我父亲说这个产品很糟糕,但我不同意”

  4. 比较 - “该产品与头部孔一样有用”

  5. 任何微妙的 - “该产品丑陋,缓慢且令人鼓舞,但这是市场上唯一可以完成工作的东西”

我正在使用产品评论示例而不是新闻报道,但是您明白了。实际上,新闻文章可能会更加困难,因为它们经常会试图展示争论的两面,并倾向于使用某种风格来传达一个观点。例如,最终的例子在意见文章中很普遍。

就NLP帮助您而言, 单词感觉歧义 (甚至只是 言论的一部分标记)可以帮助(1), 句法解析 可能有助于(2)中的远程依赖性 可能会帮助(3)。不过,这都是研究水平的工作,我不知道您可以直接使用。问题(4)和(5)要困难得多,我在这一点上伸出双手并放弃。

我会坚持使用您的方法,并仔细查看输出,以查看它是否正在做您想要的事情。当然,这就提出了您想要的问题的问题,您就了解“情感”的定义首先是...

其他提示

我最喜欢的例子是“读书”。它不包含明确的情感词,它高度取决于上下文。如果它在电影评论中进行了评论,则意味着您的浪费了自己的时间,但书本很好。但是,如果是在书中,它会产生积极的情绪。

那 - “这是市场上最小的[手机]手机”。早在90年代,这是一个很好的称赞。今天,这可能表明这太小了。

我认为这是为了获得情感分析的复杂性的起点: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html (由康奈尔的莉莲·李(Lillian Lee)撰写)。

您可能会发现舆论发现系统以及描述其有用的论文。它可以在 http://www.cs.pitt.edu/mpqa/ 与其他资源进行意见分析。

它超出了文档级别的极性分类,但尝试在句子级别找到个人意见。

我相信您提到的所有问题的最佳答案是阅读本书的标题 “情感分析和意见挖掘” 由教授 Bing Liu. 。这本书在情感分析领域中是最好的。太神奇了。只要看看它,您就会找到所有“为什么”和“如何”问题的答案!

机器学习技术可能更好。

Whitelaw,Garg和Argamon 拥有一种可以实现92%精度的技术,使用类似于您的技术来处理否定的技术,并支持向量机进行文本分类。

你为什么不尝试类似的方式 spamasassin 垃圾邮件过滤器有效吗?意图采矿和意见采矿之间确实没有太大区别。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top