英語のテキストレキシコン比較
-
22-10-2019 - |
質問
想像してみましょう。統計テーブルを構築できます。各単語が英語のテキストや本で使用されているものです。ライブラリで各テキスト/本の統計を収集できます。これらの統計を互いに比較する最も簡単な方法は何ですか?非常に統計的に類似したレキシコンを持つテキストのグループ/クラスターを見つけるにはどうすればよいですか?
他のヒント
Lucene(http://lucene.apache.org/java/docs/index.html)が提供しなければならないものを見ることから始めます。その後、機械学習方法を使用して、 http://en.wikipedia.org/wiki/information_retrieval.
Kullback Leiblerの距離を考慮するかもしれません。参照については、CoverとThomasの18ページを参照してください。
所属していません StackOverflow