Comment tester la qualité d'un estimateur de probabilités?

https://stackoverflow.com/questions/1622371

06-07-2019
|

Question

J'ai créé une heuristique (une ANN, mais ce n'est pas important) pour estimer les probabilités d'un événement (les résultats de jeux sportifs, mais ce n'est pas important non plus). Compte tenu de certaines entrées, cette heuristique me dit quelles sont les probabilités de l'événement. Quelque chose comme: À partir de ces entrées, l’équipe B a 65% de chances de gagner.

J'ai un grand ensemble de données d'entrée pour lesquelles j'ai maintenant le résultat (jeux précédemment joués). Quelle formule / métrique pourrais-je utiliser pour qualifier la précision de mon estimateur.

Le problème, c’est que si l’estimateur dit que l’événement a une probabilité de 20% et que l’événement se produit réellement. Je n'ai aucun moyen de savoir si mon estimateur a raison ou non. Peut-être que c'est faux et que l'événement était plus probable que cela. Peut-être que c'est vrai, l'événement a environ 20% de chances de se produire et s'est produit. Peut-être que c'est faux, l'événement a très peu de chances de se produire, disons 1 sur 1000, mais s'est produit cette fois.

Heureusement, j'ai beaucoup de données de test réelles, il existe donc probablement un moyen de les utiliser pour qualifier mon heuristique.

quelqu'un a une idée?

La solution

Vous pouvez utiliser un certain nombre de mesures pour quantifier les performances d'un classificateur binaire.

Voulez-vous que votre estimateur (ANN, par exemple) génère ou non une probabilité calibrée?

Si ce n’est pas le cas, c’est-à-dire que tout ce qui compte est l’ordre des rangs, l’aire maximisée sous courbe ROC (AUROC) est un très bon résumé de la performance de la métrique. D'autres sont " KS " statistique, ascenseur. Ils sont nombreux et mettent l’accent sur différentes facettes de la performance.

Si vous vous souciez des probabilités calibrées, les mesures les plus courantes sont les suivantes: "entropie croisée". (également connu sous le nom de probabilité de Bernoulli / maximum de vraisemblance, mesure typique utilisée dans la régression logistique) ou "score de Brier". Le score de Brier n’est autre que l’erreur quadratique moyenne comparant les probabilités prédites continues aux résultats réels binaires.

La bonne chose à utiliser dépend de l'application ultime du classificateur. Par exemple, votre classificateur peut très bien estimer la probabilité des éruptions, mais ne pas respecter les normes pour les résultats proches.

Généralement, la véritable mesure que vous essayez d'optimiser est "dollars en dollars". C'est souvent difficile à représenter mathématiquement, mais à partir de là, vous avez tout intérêt à proposer une métrique appropriée et calculable.

Autres conseils

D'une certaine manière, cela dépend de la fonction de décision que vous utilisez.

Dans le cas d'une tâche de classification binaire (prédisant si un événement s'est produit ou non [ex: win]), une implémentation simple consiste à prédire 1 si la probabilité est supérieure à 50%, < code> 0 sinon.

Si vous rencontrez un problème multiclass (prédisant lequel des K événements se sont produits [ex: gagner / dessiner / perdre]), vous pouvez prédire la classe avec la probabilité la plus élevée.

Et pour évaluer votre heuristique, vous devez calculer l'erreur de prédiction en comparant la classe réelle de chaque entrée à la prédiction de votre heuristique pour cette instance.

Notez que vous diviserez généralement vos données en parties de train / tests pour améliorer ( non biaisé ) estimations de la performance.

Il existe d'autres outils d'évaluation tels que Courbes ROC , qui est un moyen de décrire la performance en ce qui concerne les vrais / faux postitifs.

Comme vous l'avez dit, si vous prédisez qu'un événement survient à 20% - et 80% ne le sera pas - l'observation d'un seul événement isolé ne vous dirait pas si votre estimateur était bon ou médiocre. Cependant, si vous avez un grand échantillon d'événements pour lesquels vous avez prédit 20% de succès, mais observez que sur cet échantillon, 30% ont réussi, vous pouvez commencer à suspecter que votre estimateur est désactivé.
Une approche serait de regrouper vos événements en fonction de la probabilité d'occurrence prédite, d'observer la fréquence réelle par groupe et de mesurer la différence. Par exemple, en fonction de la quantité de données dont vous disposez, regroupez tous les événements pour lesquels vous prévoyez une occurrence de 20% à 25%, calculez la fréquence réelle d'occurrence par groupe et mesurez la différence pour chaque groupe. Cela devrait vous donner une bonne idée de savoir si votre estimateur est biaisé et éventuellement pour quelles plages il est désactivé.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow