Que représente un score du classificateur bayésien?

https://stackoverflow.com/questions/4894167

28-10-2019
|

Question

J'utilise le Gemme du classificateur Ruby dont la méthode de classifications renvoie les scores pour une chaîne donnée classée par rapport au modèle formé.

Le score est-il un pourcentage? Si oui, la différence maximale est-elle 100 points?

La solution

C'est le logarithme d'une probabilité. Avec un grand ensemble formé, les probabilités réelles sont de très petits nombres, donc les logarithmes sont plus faciles à comparer. Théoriquement, les scores vont aller de l'infini à zéro à l'infini négatif. 10**score * 100.0 vous donnera la probabilité réelle, qui a en effet une différence maximale de 100.

Autres conseils

En fait, pour calculer la probabilité d'un classificateur de Bayes naïf typique où B est la base, c'est B ^ score / (1 + b ^ score). C'est le logit inverse (http://en.wikipedia.org/wiki/logit) cependant, étant donné les hypothèses d'indépendance du NBC, ces scores ont tendance à être trop élevés ou trop faibles et les probabilités calculées de cette façon s'accumuleront aux limites . Il est préférable de calculer les scores dans un ensemble de conservation et de faire une régression logistique de précis (1 ou 0) sur le score pour mieux comprendre la relation entre le score et la probabilité.

D'après un article de Jason Rennie: 2.7 Les sorties naïves de Bayes sont souvent des bases de données de texte surexprimées ont fréquemment 10 000 à 100 000 mots de vocabulaire distincts; Les documents contiennent souvent 100 termes ou plus. Par conséquent, il y a une excellente opportunité de duplication. Pour avoir une idée de la quantité de duplication, nous avons formé un modèle de Map Naive Bayes avec 80% des 20 documents de groupe de discussion. Nous avons produit des valeurs de P (CJD; D) (postérieures) sur les 20% restantes des données et affiché des statistiques sur MAXC P (CJD; D) dans le tableau 2.3. Les valeurs sont très excessives. 60% des documents de test se voient attribuer un postérieur de 1 lorsqu'ils sont arrondis à 9 chiffres décimaux. Contrairement à la régression logistique, les Bayes naïfs ne sont pas optimisés pour produire des valeurs de probabilité raisonnables. La régression logistique effectue une optimisation conjointe des coéciteurs linéaires, convergeant vers les valeurs de probabilité appropriées avec des données d'entraînement sucrées. Naive Bayes optimise les coéciteurs un par un. Il ne produit des résultats réalistes que lorsque l'hypothèse d'indépendance est vraie. Lorsque les fonctionnalités incluent des informations en double significatives (comme c'est généralement le cas avec le texte), les postérieurs fournis par les Bayes naïfs sont très excessives.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow