Comparaison des fréquences de texte dans un document à la fréquence dans un corpus

https://stackoverflow.com/questions/4372661

09-10-2019
|

Question

Je souhaite analyser un document pour des éléments tels que des lettres, des bigrams, des mots, etc. et comparer la fréquence de mon document à leur fréquence sur un grand corpus de documents.

L'idée est que des mots tels que "IF" et "," sont communs dans tous les documents, mais certains mots seront beaucoup plus courants dans ce document que typique du corpus.

Cela doit être assez standard. Ça s'appelle comment? Le faisant de la manière évidente, j'ai toujours eu un problème avec de nouveaux mots dans mon document mais pas dans la note de Corpus infiniment significative. Comment cela est-il traité?

La solution

Très probablement, vous avez déjà vérifié le tf-idfou d'autres mesures de OKAPI_BM25 famille.

Vous pouvez également vérifier Boîte à outils de traitement du langage naturel NLTK Pour certaines solutions prêtes

MISE À JOUR: Quant aux mots nouveaux, le lissage doit être appliqué: Bon-deur, Laplace, etc.

Autres conseils

Il relève de la rubrique des classificateurs linéaires, les classificateurs bayésiens naïfs étant la forme la plus connue (en raison de sa simplicité et de sa robustesse remarquablement en attaquant les problèmes de classification du monde réel).

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow