質問

想像してみましょう。統計テーブルを構築できます。各単語が英語のテキストや本で使用されているものです。ライブラリで各テキスト/本の統計を収集できます。これらの統計を互いに比較する最も簡単な方法は何ですか?非常に統計的に類似したレキシコンを持つテキストのグループ/クラスターを見つけるにはどうすればよいですか?

役に立ちましたか?

解決

まず、レキシコンを正常化する必要があります(つまり、両方のレキシコンがあることを確認してください 同じ 単語)。

次に、次のような類似性メトリックを使用できます 地獄の距離 または コサインの類似性 2つのレキシコンを比較します。

また、ような機械学習パッケージを調べることも良い考えかもしれません ウェカ.

この本 機械学習の優れた情報源であり、便利だと思うかもしれません。

他のヒント

Lucene(http://lucene.apache.org/java/docs/index.html)が提供しなければならないものを見ることから始めます。その後、機械学習方法を使用して、 http://en.wikipedia.org/wiki/information_retrieval.

Kullback Leiblerの距離を考慮するかもしれません。参照については、CoverとThomasの18ページを参照してください。

第2章、カバーとトーマス

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top