比较文档中的文本频率与语料库中的频率
-
09-10-2019 - |
题
我想分析一份文档,例如字母,大型,单词等,并比较它们在我的文档中的频率与它们在大量文档上的频率。
这个想法是,诸如“ if”和“”之类的词在所有文档中都是常见的,但是在本文档中,某些词比语料库的典型单词更为普遍。
这一定是非常标准的。这叫什么?这样做的明显方式我总是在文档中使用新颖的单词遇到问题,但在语料库评级中却没有无限的意义。如何处理?
解决方案
您很可能已经检查了 TF-IDF或其他一些来自 OKAPI_BM25 家庭。
您也可以检查 自然语言处理工具包NLTK 对于一些现成的解决方案
更新:至于新颖的单词,应应用平滑: 好趣味, ,拉普拉斯等
其他提示
它属于线性分类器的标题,而天真的贝叶斯分类器是最著名的形式(由于其在攻击现实世界分类问题时非常简单和鲁棒性)。
不隶属于 StackOverflow