英語のテキストレキシコン比較

https://stackoverflow.com/questions/4771679

22-10-2019
|

質問

想像してみましょう。統計テーブルを構築できます。各単語が英語のテキストや本で使用されているものです。ライブラリで各テキスト/本の統計を収集できます。これらの統計を互いに比較する最も簡単な方法は何ですか？非常に統計的に類似したレキシコンを持つテキストのグループ/クラスターを見つけるにはどうすればよいですか？

解決

まず、レキシコンを正常化する必要があります（つまり、両方のレキシコンがあることを確認してください同じ単語）。

次に、次のような類似性メトリックを使用できます地獄の距離またはコサインの類似性 2つのレキシコンを比較します。

また、ような機械学習パッケージを調べることも良い考えかもしれませんウェカ.

この本機械学習の優れた情報源であり、便利だと思うかもしれません。

他のヒント

Lucene（http://lucene.apache.org/java/docs/index.html）が提供しなければならないものを見ることから始めます。その後、機械学習方法を使用して、 http://en.wikipedia.org/wiki/information_retrieval.

Kullback Leiblerの距離を考慮するかもしれません。参照については、CoverとThomasの18ページを参照してください。

第2章、カバーとトーマス

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow