Question

Imaginons, nous pouvons construire un tableau de statistiques, combien chaque mot est utilisé dans un texte anglais ou un livre. Nous pouvons recueillir des statistiques pour chaque texte / livre dans la bibliothèque. Quelle est la façon la plus simple de comparer ces statistiques avec l'autre? Comment pouvons-nous trouver le groupe / groupe de textes avec lexique très statistiquement similaires?

Était-ce utile?

La solution

Tout d'abord, vous aurez besoin de normaliser le lexique (i.e. faire en sorte que les deux lexiques ont le même vocabulaire).

Ensuite, vous pouvez utiliser une mesure de similarité comme la distance Hellenger ou cosinus similitude pour comparer les deux lexiques.

Il peut aussi être une bonne idée de regarder en paquets d'apprentissage de la machine, tels que Weka .

Ce livre est une excellente source pour l'apprentissage de la machine et vous trouverez peut-être utile.

Autres conseils

Je commencer par voir ce que Lucene (http://lucene.apache.org/java/docs/index.html) avait à offrir. Après cela, vous aurez besoin d'utiliser une méthode d'apprentissage machine et à regarder http://en.wikipedia.org/wiki / Information_retrieval .

Vous pourriez envisager Kullback Leibler. Pour référence, voir page 18 de couverture et Thomas:

Chapitre 2, Couverture et Thomas

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top