Come testare la qualità di uno stimatore di probabilità?

https://stackoverflow.com/questions/1622371

06-07-2019
|

Domanda

Ho creato un euristico (un ANN, ma questo non è importante) per stimare le probabilità di un evento (i risultati dei giochi sportivi, ma non è nemmeno importante). Dati alcuni input, questa euristica mi dice quali sono le probabilità dell'evento. Qualcosa del tipo: dati questi input, la squadra B ha il 65% di possibilità di vincere.

Ho una grande serie di dati di input per i quali ora ho il risultato (giochi precedentemente giocati). Quale formula / metrica posso usare per qualificare l'accuratezza del mio stimatore.

Il problema che vedo è che se lo stimatore dice che l'evento ha una probabilità del 20% e l'evento si verifica effettivamente. Non ho modo di dire se il mio stimatore è giusto o sbagliato. Forse è sbagliato e l'evento era più probabile di così. Forse è giusto, l'evento con circa il 20% di probabilità si è verificato e si è verificato. Forse è sbagliato, l'evento ha probabilità molto basse di accadere, diciamo 1 su 1000, ma questa volta è successo.

Fortunatamente ho molti di questi dati di test effettivi, quindi c'è probabilmente un modo per usarli per qualificare la mia euristica.

qualcuno ha avuto un'idea?

Soluzione

Esistono diverse misure che è possibile utilizzare per quantificare le prestazioni di un classificatore binario.

Ti interessa se il tuo stimatore (ANN, ad es.) genera o meno una probabilità calibrata?

In caso contrario, vale a dire che tutto ciò che conta è l'ordinamento dei ranghi, l'ottimizzazione dell'area sotto la curva ROC (AUROC) è un buon riassunto delle prestazioni della metrica. Altri sono " KS " statistica, ascensore. Ce ne sono molti in uso e sottolineano diversi aspetti della performance.

Se ti interessano le probabilità calibrate, le metriche più comuni sono la "entropia incrociata" (noto anche come probabilità / massima probabilità di Bernoulli, la misura tipica utilizzata nella regressione logistica) o "Punteggio di Brier". Il punteggio di Brier non è altro che un errore quadratico medio che confronta le probabilità continue previste con i risultati binari effettivi.

Qual è la cosa giusta da usare dipende dall'applicazione definitiva del classificatore. Ad esempio, il tuo classificatore può stimare molto bene la probabilità di scoppi, ma essere scadente su risultati ravvicinati.

Di solito, la vera metrica che stai tentando di ottimizzare è "dollari fatti". Questo è spesso difficile da rappresentare matematicamente, ma a partire da quello è il tuo colpo migliore per arrivare a una metrica appropriata e trattabile dal punto di vista computazionale.

Altri suggerimenti

In un certo senso dipende dalla funzione decisionale che si sta utilizzando.

Nel caso di un'attività di classificazione binaria (prevedere se si è verificato un evento o meno [ex: win]), una semplice implementazione prevede la previsione di 1 se la probabilità è superiore al 50%, < codice> 0 altrimenti.

Se hai un problema multiclasse (prevedere quale degli eventi K si è verificato [es: vincere / pareggiare / perdere]), puoi prevedere la classe con la più alta probabilità.

E il modo per valutare la tua euristica è calcolare errore di previsione confrontando la classe effettiva di ciascun input con la previsione della tua euristica per quell'istanza.

Tieni presente che di solito dividi i tuoi dati in parti del treno / test per migliorare ( imparziale ) stime della performance.

Esistono altri strumenti per la valutazione come curve ROC , che è un modo per rappresentare la performance rispetto ai veri / falsi postitivi.

Come hai affermato, se prevedi che un evento ha un 20% di eventi - e l'80% non si verifica - l'osservazione di un singolo evento isolato non ti direbbe quanto fosse buono o scarso il tuo stimatore. Tuttavia, se hai avuto un ampio campione di eventi per i quali hai previsto il 20% di successo, ma osserva che su quel campione, il 30% ha avuto successo, potresti iniziare a sospettare che il tuo stimatore sia spento.
Un approccio potrebbe essere quello di raggruppare i tuoi eventi in base alla probabilità di occorrenza prevista, osservare la frequenza effettiva per gruppo e misurare la differenza. Ad esempio, a seconda della quantità di dati che hai, raggruppa tutti gli eventi in cui prevedi un'occorrenza dal 20% al 25% e calcola la frequenza effettiva dell'evento per gruppo - e misura la differenza per ciascun gruppo. Questo dovrebbe darti una buona idea se il tuo stimatore è distorto e possibilmente per quali intervalli è spento.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow