Como testar a qualidade de um estimador de probabilidades?

https://stackoverflow.com/questions/1622371

06-07-2019
|

Pergunta

Eu criei uma heurística (uma RNA, mas isso não é importante) para estimar as probabilidades de um evento (os resultados de jogos de esportes, mas isso não é importante, quer). Dado alguns insumos, essa heurística me dizer quais são as probabilidades do evento. Algo como: entradas teses Dadas, equipe B até 65% de chances de ganhar

Eu tenho um grande conjunto de dados entradas para o qual eu agora o resultado (jogos anteriormente). Que fórmula / métrica que eu poderia usar para qualificar a precisão do meu estimador.

O problema que vejo é que, se o estimador diz que o evento tem uma probabilidade de 20% eo evento realmente fazem ocorre. Eu não tenho nenhuma maneira de saber se o meu estimador é certo ou errado. Talvez seja errado e o evento era mais provável que isso. Talvez seja isso mesmo, o evento como cerca de 20% de chance de ocorrer e não ocorreu. Talvez seja errado, o evento tem realmente baixos chances de ocorrer, dizem 1 em 1000, mas passou a ocorrer neste momento.

Felizmente tenho muitas teses reais de dados de teste, então provavelmente há uma maneira de usá-los para se qualificar meu heurística.

Alguém tem uma idéia?

Solução

Há uma série de medidas que você poderia usar para quantificar o desempenho de um classificador binário.

Você se importa se ou não seu estimador (RNA, por exemplo) gera uma probabilidade calibrado ou não?

Se não, isto é, tudo o que importa é ordem hierárquica, área maximização sob a curva ROC (AUROC) é um resumo muito bom do desempenho da métrica. Outros são estatística "KS", elevador. Há muitos em uso, e enfatizar as diferentes facetas de desempenho.

Se você se preocupa com probabilidades calibradas, em seguida, a maioria das métricas comuns são a "entropia cruz" (também conhecido como Bernoulli probabilidade / máxima verossimilhança, a medida típico usado na regressão logística) ou "pontuação Brier". pontuação Brier não é outro senão erro quadrado médio comparando probabilites previstos contínuos para resultados reais binários.

Qual é a coisa certa a utilização depende da aplicação final do classificador. Por exemplo, o classificador pode estimar probabilidade de rupturas muito bem, mas ser substandard em resultados próximos.

Normalmente, o verdadeiro métrica que você está tentando otimizar é "dólares feitas". Isso é muitas vezes difícil de representar matematicamente, mas a partir de que é a sua melhor chance de chegar com uma apropriada e computacionalmente tratáveis ??métrica.

Outras dicas

De certa forma, depende da função de decisão que você está usando.

No caso de uma tarefa de classificação binária (predizer se um evento ocorreu ou não [ex: vitória])., Uma implementação simples é prever 1 se a probabilidade é maior do que 50%, 0 caso contrário

Se você tem um problema multiclasse (prever quais um dos eventos K ocorreu [ex: Vitória / Empate / lose])., É possível prever a classe com a maior probabilidade

E a maneira de avaliar a sua heurística é calcular o erro previsão comparando a classe real de cada entrada com a previsão de sua heurística para essa instância.

Note que você normalmente seria dividir os dados em partes comboio / teste para obter melhor ( imparcial ) estima da performance.

Outras ferramentas de avaliação existem como curvas ROC , que é uma maneira de descrever o desempenho em relação ao verdadeiro / falso postitives.

Como você disse, se prever que um evento tem um 20% de acontecer - e 80% não acontecer - observando um único evento isolado não iria dizer-lhe quão bom ou ruim o seu estimador foi. No entanto, se você teve uma grande amostra de eventos para os quais você previu 20% de sucesso, mas observar que ao longo dessa amostra, 30% conseguiram, você poderia começar a suspeitar que o estimador está desligado.
Uma abordagem seria para agrupar os eventos de probabilidade prevista de ocorrência, e observar a frequência real por grupo, e medir a diferença. Por exemplo, dependendo da quantidade de dados que você tem, grupo todos os eventos onde você prever a ocorrência de 20% para 25%, e calcular a frequência real de ocorrência por grupo - e medir a diferença para cada grupo. Isso deve lhe dar uma boa idéia se o seu estimador é tendenciosa e, possivelmente, para o qual varia ele está fora.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow