比较文档中的文本频率与语料库中的频率

https://stackoverflow.com/questions/4372661

09-10-2019
|

题

我想分析一份文档，例如字母，大型，单词等，并比较它们在我的文档中的频率与它们在大量文档上的频率。

这个想法是，诸如“ if”和“”之类的词在所有文档中都是常见的，但是在本文档中，某些词比语料库的典型单词更为普遍。

这一定是非常标准的。这叫什么？这样做的明显方式我总是在文档中使用新颖的单词遇到问题，但在语料库评级中却没有无限的意义。如何处理？

解决方案

您很可能已经检查了 TF-IDF或其他一些来自 OKAPI_BM25 家庭。

您也可以检查自然语言处理工具包NLTK 对于一些现成的解决方案

更新：至于新颖的单词，应应用平滑：好趣味, ，拉普拉斯等

其他提示

它属于线性分类器的标题，而天真的贝叶斯分类器是最著名的形式（由于其在攻击现实世界分类问题时非常简单和鲁棒性）。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow