1万句，保存在数据库中除去非相关的英文单词

题

我试图培养一个天真的贝斯分类有正/负话中提取一种情绪。例如：

我爱这部电影:))

我讨厌下雨的时候:(

这个想法是我提取正面或负面的句子根据emoctions使用，但为了培训的一个分类和存入数据库。

问题是，我已经超过1万这样的句子，因此，如果我训练这个字一个字，该数据库将去折腾。我要删除所有不相关的词语如'I','这个','当','它'这样，数次我要做一个数据库的查询较少。

请帮我解决这个问题的建议我更好的方式这样做

谢谢你

解决方案

其他提示

有两个常见的办法：

在这两种情况下，确定该词/POS标签有关的可用措施，例如 PMI.

请注意：标准的停止列出了从信息检索可能或不可能工作情绪的分析。我最近读一个文件(没有参考，对不起)它被称，!和? 通常拆除在搜索引擎，是有价值的线索对情绪的分析。(因此可能'I'、esp。当你还有一个中立的类别。)

编辑:你也可以放心地抛弃一切，这仅发生一次训练集中(所谓 hapax legomena).话，一旦发生很少有信息价值为您分类，但可能需要长达一个很大的空间。

要减少从数据库中检索数据量，您可以在数据库中创建一个字典 - 映射字*为数字表** - 比仅检索培养了一批载体和手动完整的句子标记的情感。

| *没有科学出版物在我脑海中，但也许它足以只使用的茎或引理的代替文字。这将减少字典的大小。

| **如果此操作杀死你的数据库，你可以创建一个本地应用程序的字典 - 一个使用文本索引引擎（例如Apache的Lucene的） - 只有结果存储在数据库中。

许可以下： CC-BY-SA 和归因