我试图培养一个天真的贝斯分类有正/负话中提取一种情绪。例如:

我爱这部电影:))

我讨厌下雨的时候:(

这个想法是我提取正面或负面的句子根据emoctions使用,但为了培训的一个分类和存入数据库。

问题是,我已经超过1万这样的句子,因此,如果我训练这个字一个字,该数据库将去折腾。我要删除所有不相关的词语如'I','这个','当','它'这样,数次我要做一个数据库的查询较少。

请帮我解决这个问题的建议我更好的方式这样做

谢谢你

其他提示

有两个常见的办法:

  1. 编一个 禁止入境名单.
  2. POS标签 句子扔出去的那些部分演讲,你认为是不感兴趣。

在这两种情况下,确定该词/POS标签有关的可用措施,例如 PMI.

请注意:标准的停止列出了从信息检索可能或不可能工作情绪的分析。我最近读一个文件(没有参考,对不起)它被称,!和? 通常拆除在搜索引擎,是有价值的线索对情绪的分析。(因此可能'I'、esp。当你还有一个中立的类别。)

编辑:你也可以放心地抛弃一切,这仅发生一次训练集中(所谓 hapax legomena).话,一旦发生很少有信息价值为您分类,但可能需要长达一个很大的空间。

要减少从数据库中检索数据量,您可以在数据库中创建一个字典 - 映射字*为数字表** - 比仅检索培养了一批载体和手动完整的句子标记的情感。

| *没有科学出版物在我脑海中,但也许它足以只使用的茎或引理的代替文字。这将减少字典的大小。

| **如果此操作杀死你的数据库,你可以创建一个本地应用程序的字典 - 一个使用文本索引引擎(例如Apache的Lucene的) - 只有结果存储在数据库中。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top