ドキュメント内のテキスト頻度をコーパスの頻度と比較する

質問

文字、bigrams、単語などのアイテムのドキュメントを分析し、ドキュメント内の頻度がどれだけ頻繁であるかを、ドキュメントの大きなコーパスの上にどれだけ頻繁にいるかを比較したいと思います。

アイデアは、「if」、「」、「」、「」などの単語はすべてのドキュメントで一般的であるが、このドキュメントではコーパスの典型よりもはるかに一般的であるということです。

これはかなり標準でなければなりません。それはなんと呼ばれていますか？それをすることは、私のドキュメントでは常に新しい単語に問題がありましたが、コーパスの評価は無限に重要ではありませんでした。これはどのように対処されていますか？

解決

おそらくあなたはすでにチェックしています TF-IDFまたはからの他のメトリック okapi_bm25 家族。

また、確認することもできます自然言語処理ツールキットNLTK いくつかの準備が整ったソリューションのために

更新：新しい単語については、スムージングを適用する必要があります。グッドダーリング, 、ラプラスなど

他のヒント

それは、ナイーブなベイジアン分類器が最もよく知られている形である線形分類器の見出しの下にあります（実際の分類の問題を攻撃する際の非常にシンプルで堅牢性のため）。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow