NLP - 意见挖掘与情感分析

题

有人告诉我，自然语言处理可能是研究人员推断一个人写作时的情感状态的关键。例如，通过对在线笔记使用 NLP 分析，您可以推断学生是否有压力。我从事教育认知科学工作，所以如果是这样的话，这对我来说将是一个宝贵的资源，但是我正在努力寻找证据证明情况确实如此。

我已经开始初步研究，并试图了解一些有关 nlp 的技术方面的知识 - 我正在学习 Jurafsky 和 Manning 的在线课程, 迈克尔·柯林斯的另一个作品 - 我一直在阅读有关使用 nlp 可以推断什么的内容，特别是围绕意见挖掘和情感分析。

我的问题分为两部分：

首先，我遇到的大多数资源都可以用NLP的方式来进行挖掘和情感分析，我们将讨论对意见采矿的影响。有人可以将我指向以情绪分析为导向的资源的方向吗？
其次，据我了解，情感分析正在推导指出文本中的情感，例如我感到高兴、我喜欢、美味、享受、讨厌、沮丧等等。可以使用NLP或其他东西来得出 未说明的 影响？这与情感分析相同吗？

[如果在错误的交流中提出这个问题，我们深表歉意。我一直在努力寻找最合适的人选，但有几个候选人，我不确定哪一个最合适。]

解决方案

我认为关键是大多数复发性神经网络问题是根据回归（低值表示负面情绪，高值阳性）或二进制分类（该文本阳性的？）来提出问题。

您似乎感兴趣的是对情感的更加细微的定义。这不会带来任何固有的问题，因为相同的算法可能会很好地预测更复杂的情感。问题简称为数据。由于这种分类即使对于人类来说也很困难，因此可靠地收集数据的数据是多么压力。

但是，如果您有兴趣组装该性质的数据集，则可以应用相同的方法（复发性神经网络是一个流行的选择）进行分类。该领域的许多研究人员使用亚马逊机械土耳其人或类似的东西以合理的成本收集标签数据。

其他提示

有人可以将我指向以情绪分析为导向的资源的方向吗？

有大量优秀论文情感分析，供大家参考。尤其是那些在 Twitter 等社交网站上。

然而，我认为曼宁的书和他的课程作为 NLP 和意见挖掘的参考是一个很好的开始。

nlp 或其他东西可以用来产生未言明的影响吗？

是的，可以。这就是我的方法：

（假设我已经有一个手工分类的训练数据）使用词袋方法，可以捕获最常用的情绪（压力、快活等）单词和短语，并且可以将后续训练数据相应地排序为（ 60% 有压力，40% 快乐）。

此外，您还可以定义获得单一情绪的阈值。喜欢：

if mood[score] > .5:
    current_mood = mood

情感分析, 情感检测 和 意见采矿 所有这些都涵盖了一组问题，通常可以被认为是一个又一个。

期限 情感分析 似乎在媒体和行业中更受欢迎。实际上，截至2015年，它主要是为了分数，在0.0到1.0之间给出分数，以实现积极的情绪。（严格来说，这只是一个子问题，也是许多可能的表述之一。）

但是，每当使用任何术语时，您都应定义或要求定义确切的问题。

许可以下： CC-BY-SA 和归因