我需要你的帮助,以确定分析行业特定句子(即电影评论)的最佳方法,以获得“积极”的评价。 vs“负面”。我以前见过像OpenNLP这样的图书馆,但它太低级了 - 它只是给了我基本的句子构成;我需要的是更高级别的结构: - 希望用单词表 - 希望我的数据集可以训练

谢谢!

有帮助吗?

解决方案

您所寻找的内容通常被称为情感分析。通常,情绪分析无法处理微妙的细微之处,例如讽刺或讽刺,但如果你扔掉大量的数据,情况就会很好。

情绪分析通常需要相当多的预处理。至少是标记化,句子边界检测和词性标注。有时,语法分析可能很重要。正确地完成它是计算语言学研究的一个完整分支,除非你花时间先研究这个领域,否则我不建议你提出自己的解决方案。

OpenNLP有一些辅助情绪分析的工具,但是如果你想要更严肃的事情,你应该查看 LingPipe 工具包。它有一些内置的SA功能和一个很好的教程。你可以用你自己的数据集训练它,但不要认为它完全是微不足道的: - )。

谷歌搜索该术语可能也会为您提供一些资源。如果您有任何更具体的问题,请问,我正在密切关注nlp-tag; - )

其他提示

情绪分析的一些方法使用在其他文本分类任务中流行的策略。最常见的是将您的电影评论转换为单词向量,并将其作为训练数据提供给分类器算法。最受欢迎的数据挖掘包可以帮助您。你可以看一下这个情感分类教程说明如何使用开源 RapidMiner工具包进行实验

顺便提一下,良好的数据集提供用于检测电影评论意见的研究目的。它基于IMDB用户评论,你可以检查很多关于该领域的相关研究工作以及他们如何使用该数据集。

值得注意的是,这些方法的有效性只能从统计学角度来判断,所以你几乎可以假设存在错误分类和难以发现意见的情况。正如在这个帖子中已经注意到的那样,检测诸如反讽和讽刺之类的事情确实非常困难。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top