无监督的情感分析

https://stackoverflow.com/questions/3920759

29-09-2019
|

题

我一直在阅读许多文章，这些文章解释了对一组初始文本的必要性，这些文本被归类为“正”或“负面”，然后才能真正起作用。

我的问题是：是否有人尝试过对“正面”形容词与“否定”形容词进行基本检查，并考虑到任何简单的否定者以避免将“不快乐”分类为正面的否定者？如果是这样，是否有任何文章讨论为什么这种策略不现实？

解决方案

一种彼得·特尼（Peter Turney）的经典纸（2002）解释了一种仅使用单词进行无监督情绪分析（正/负面分类）的方法 优秀的 和 贫穷的 作为种子。特尼使用相互信息其他两种形容词的词则达到74％的准确性。

其他提示

我没有尝试过像您所描述的未经训练的情感分析，但是我的头顶我会说您过度简化了问题。简单地分析形容词还不足以很好地了解文本的观点。例如，考虑“愚蠢”一词。一个人，您会将其归类为负面，但是如果要进行产品评论'... [x]产品使他们的竞争对手看上去很愚蠢，因为他们首先不考虑此功能...'那么，那里的情感肯定会是积极的。在这样的事情中，更大的语言绝对重要。这就是为什么一个未经训练的词袋方法（更不用说更有限的形容词袋）不足以充分解决这个问题的原因。

预先分类的数据（“培训数据”）有助于使问题从试图从头开始确定文本是正面或负面情绪的转变，而是试图确定文本是否与正面文本或负面文本更相似，并以这种方式进行分类。另一个重要的一点是，诸如情感分析之类的文本分析通常受到根据域的特征的差异的很大影响。这就是为什么要训练一组良好的数据（也就是说，从您正在工作的域内进行准确的数据，并希望代表您必须分类的文本）和建立良好的文本一样重要与之分类的系统。

不完全是一篇文章，但希望有所帮助。

拉斯曼人提到的特尼（Turney，2002）的论文是一个很好的基本论文。在一项较新的研究中李和他[2009 介绍一种方法潜在的dirichlet分配（LDA）培训一个模型，该模型可以完全无监督的方式同时对文章的整体情感和主题进行分类。他们实现的准确性为84.6％。

我尝试使用“情感”字典发现关键字，以在句子级别预测情感标签。鉴于词汇的一般性（非域依赖性），结果仅为61％。该纸在我的主页上可用。

在有些改进的版本中，考虑了否定副词。整个系统名为Emolib，可用于演示：

http://dtminredis.housing.salle.url.edu:8080/emolib/

问候，

大卫，

我不确定这是否有帮助，但是您可能想研究Jacob Perkin的博客文章关于使用NLTK进行情感分析。

我尝试了几种情感分析方法进行评论中的意见挖掘。最适合我的是Liu Book中描述的方法： http://www.cs.uic.edu/~liub/webminingbook.html 在本书中，刘和其他人比较了许多策略，并讨论了有关情感分析和意见挖掘的不同论文。

尽管我的主要目标是提取意见中的功能，但我实现了一个情感分类器来检测对此功能的正面和负面分类。

我使用NLTK进行预处理（单词令牌，POS标签）和Trigrams创建。然后，我还使用了此拍摄中的贝叶斯分类器与Liu的其他策略进行比较。

其中一种方法依靠标记为pos/neg每个表达此信息的trigrram，并在此数据上使用一些分类器。我尝试过的其他方法（在我的数据集中的精度约为85％），正在计算句子中每个单词的PMI（准时信息）的得分总和和单词 优秀/贫穷 作为pos/neg类的种子。

情绪分析中没有魔术“快捷方式”，就像任何其他类型的文本分析试图发现一部分文本的基本“关于性”。试图通过简单的“形容词”检查或类似的方法来缩短剪切验证的文本分析方法会导致歧义，不正确的分类等，这些方法在一天结束时会使您在情感上的准确性不佳。源头越多（例如Twitter），问题就越困难。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow