¿Cómo probar la calidad de un estimador de probabilidades?

https://stackoverflow.com/questions/1622371

06-07-2019
|

Pregunta

Creé una heurística (una ANN, pero eso no es importante) para estimar las probabilidades de un evento (los resultados de los juegos deportivos, pero tampoco es importante). Dadas algunas entradas, esta heurística me dice cuáles son las probabilidades del evento. Algo así como: Dadas las entradas de estas tesis, el equipo B tiene 65% de posibilidades de ganar.

Tengo un gran conjunto de datos de entrada para los que ahora soy el resultado (juegos jugados anteriormente). ¿Qué fórmula / métrica podría usar para calificar la precisión de mi estimador?

El problema que veo es, si el estimador dice que el evento tiene una probabilidad del 20% y el evento realmente ocurre. No tengo forma de saber si mi estimador es correcto o incorrecto. Tal vez está mal y el evento fue más probable que eso. Tal vez sea correcto, el evento tiene un 20% de probabilidad de ocurrir y ocurrió. Tal vez está mal, el evento tiene muy pocas posibilidades de ocurrir, digamos 1 de cada 1000, pero sucedió esta vez.

Afortunadamente, tengo muchos de estos datos de prueba reales, por lo que probablemente haya una forma de usarlos para calificar mi heurística.

alguien tiene una idea?

Solución

Hay varias medidas que puede usar para cuantificar el rendimiento de un clasificador binario.

¿Le importa si su estimador (ANN, por ejemplo) genera una probabilidad calibrada o no?

Si no es así, es decir, todo lo que importa es el orden de rango, maximizar el área bajo la curva ROC (AUROC) es un resumen bastante bueno del rendimiento de la métrica. Otros son "KS" estadística, ascensor. Hay muchos en uso y enfatizan diferentes facetas del rendimiento.

Si le interesan las probabilidades calibradas, las métricas más comunes son la "entropía cruzada". (también conocido como probabilidad de Bernoulli / máxima verosimilitud, la medida típica utilizada en la regresión logística) o "puntuación de Brier". El puntaje de Brier no es otro que un error cuadrático medio que compara las probabilidades pronosticadas continuas con los resultados reales binarios.

Cuál es el uso correcto depende de la aplicación final del clasificador. Por ejemplo, su clasificador puede estimar muy bien la probabilidad de reventones, pero puede ser inferior a los resultados cercanos.

Por lo general, la métrica real que está tratando de optimizar es "dólares hechos". Eso es a menudo difícil de representar matemáticamente, pero a partir de eso es su mejor opción para llegar a una métrica adecuada y computacionalmente manejable.

Otros consejos

De alguna manera, depende de la función de decisión que esté utilizando.

En el caso de una tarea de clasificación binaria (prediciendo si un evento ocurrió o no [ej: win]), una implementación simple es predecir 1 si la probabilidad es mayor al 50%, < code> 0 de lo contrario.

Si tiene un problema multiclase (prediciendo cuál de los eventos K ocurrió [ej .: ganar / empatar / perder]), puede predecir la clase con la mayor probabilidad.

Y la forma de evaluar su heurística es calcular el error de predicción comparando la clase real de cada entrada con la predicción de su heurística para esa instancia.

Tenga en cuenta que generalmente dividiría sus datos en partes del tren / prueba para mejorar ( imparcial ) estimaciones del rendimiento.

Existen otras herramientas para la evaluación, como curvas ROC , que es una forma de representar el rendimiento con respecto a los positivos / falsos positivos.

Como usted dijo, si predice que un evento tiene un 20% de suceso, y un 80% de no suceder, observar un solo evento aislado no le dirá cuán bueno o malo fue su estimador. Sin embargo, si tuviera una muestra grande de eventos para los cuales predijo un 20% de éxito, pero observe que sobre esa muestra, el 30% tuvo éxito, podría comenzar a sospechar que su estimador está apagado.
Un enfoque sería agrupar sus eventos por la probabilidad pronosticada de ocurrencia, observar la frecuencia real por grupo y medir la diferencia. Por ejemplo, dependiendo de la cantidad de datos que tenga, agrupe todos los eventos en los que predice la ocurrencia del 20% al 25%, y calcule la frecuencia real de ocurrencia por grupo, y mida la diferencia para cada grupo. Esto debería darle una buena idea de si su estimador está sesgado, y posiblemente para qué rangos está desactivado.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow