我想分析一份文档,例如字母,大型,单词等,并比较它们在我的文档中的频率与它们在大量文档上的频率。

这个想法是,诸如“ if”和“”之类的词在所有文档中都是常见的,但是在本文档中,某些词比语料库的典型单词更为普遍。

这一定是非常标准的。这叫什么?这样做的明显方式我总是在文档中使用新颖的单词遇到问题,但在语料库评级中却没有无限的意义。如何处理?

有帮助吗?

解决方案

您很可能已经检查了 TF-IDF或其他一些来自 OKAPI_BM25 家庭。

您也可以检查 自然语言处理工具包NLTK 对于一些现成的解决方案

更新:至于新颖的单词,应应用平滑: 好趣味, ,拉普拉斯等

其他提示

它属于线性分类器的标题,而天真的贝叶斯分类器是最著名的形式(由于其在攻击现实世界分类问题时非常简单和鲁棒性)。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top