확률 추정기의 품질을 테스트하는 방법은 무엇입니까?

https://stackoverflow.com/questions/1622371

06-07-2019
|

문제

나는 이벤트의 확률을 추정하기 위해 휴리스틱 (Ann, 그것이 중요하지 않음)을 만들었습니다 (스포츠 게임의 결과는 중요하지 않습니다). 일부 투입물을 감안할 때,이 휴리스틱은 사건의 확률이 무엇인지 알려줍니다. 같은 것 : 이들 입력을 주어 주면 팀 B는 65%의 승리 기회입니다.

결과는 큰 입력 데이터 세트가 있습니다 (이전 게임이 이전 게임). 추정기의 정확도를 높이기 위해 사용할 수있는 공식/메트릭을 사용할 수 있습니다.

내가 보는 문제는 추정기가 이벤트의 확률이 20%이고 이벤트가 실제로 발생한다고 말하면. 내 추정기가 옳고 그름인지 알 수있는 방법이 없습니다. 어쩌면 그것은 잘못되었고 이벤트는 그보다 더 가능성이 높았습니다. 어쩌면 맞습니다. 이벤트는 약 20%의 기회가 발생하여 발생했습니다. 어쩌면 잘못되었을 수도 있습니다. 이벤트는 1000 명 중 1 명 (100)이지만 이번에는 일어날 가능성이 실제로 낮습니다.

다행스럽게도 실제 테스트 데이터가 많기 때문에 휴리스틱을 자격을 갖추기 위해 사용할 수있는 방법이있을 수 있습니다.

아무도 아이디어가 있습니까?

해결책

이진 분류기의 성능을 정량화하는 데 사용할 수있는 여러 측정 값이 있습니다.

당신은 당신의 추정기 (예 : 앤, 예를 들어)가 보정 된 확률을 출력하는지 아닌지에 관심이 있습니까?

그렇지 않다면, 즉, 중요한 모든 것은 순위 순서이며, ROC 곡선 (AUROC)에서 영역을 최대화하는 것은 메트릭의 성능에 대한 매우 좋은 요약입니다. 다른 것들은 "KS"통계, 리프트입니다. 사용 중이며 다양한 성능 측면을 강조합니다.

교정 확률에 관심이 있다면 가장 일반적인 메트릭은 "크로스 엔트로피"(Bernoulli 확률/최대 가능성, 로지스틱 회귀에 사용되는 일반적인 측정) 또는 "Brier Score"입니다. Brier 점수는 연속 예측 확률 라이트를 이진 실제 결과와 비교하는 평균 제곱 오차 외에는 없습니다.

사용해야 할 옳은 것은 분류기의 궁극적 인 적용에 달려 있습니다. 예를 들어, 분류기는 폭발 확률을 실제로 잘 추정 할 수 있지만 근접 결과에 비해 표준이 될 수 있습니다.

일반적으로 최적화하려는 진정한 메트릭은 "달러 만든"입니다. 그것은 종종 수학적으로 표현하기가 어렵지만, 그로부터 시작하는 것은 적절하고 계산적으로 다루기 쉬운 메트릭을 제시하는 가장 좋은 샷입니다.

다른 팁

어떤 방식 으로든 사용하는 의사 결정 기능에 따라 다릅니다.

이진 분류 작업의 경우 (이벤트가 발생했는지 여부 예측 [예 : WIN]). 간단한 구현은 예측하는 것입니다. 1 확률이 50%보다 큰 경우 0 그렇지 않으면.

멀티 클래스 문제가있는 경우 (어떤 K 이벤트 중 하나가 발생했는지 예측 [예 : Win/Draw/Lose]). 확률이 가장 높은 클래스를 예측할 수 있습니다.

그리고 당신의 휴리스틱을 평가하는 방법은 예측 오류 각 입력의 실제 클래스를 해당 인스턴스에 대한 휴리스틱의 예측과 비교함으로써.

일반적으로 데이터를 열차/테스트 부품으로 나누어 더 나아질 것입니다 (편견이 없습니다) 성능 추정.

다음과 같은 평가를위한 다른 도구가 있습니다 ROC 곡선, 이는 참/거짓 우편 제목과 관련하여 성능을 묘사하는 방법입니다.

당신이 언급했듯이, 이벤트에 20%의 발생이 있고 80%가 발생하지 않을 것으로 예측하면, 단일 격리 된 이벤트를 관찰하면 견적이 얼마나 좋았거나 열악한지를 말하지 않을 것입니다. 그러나 20% 성공을 예측 한 많은 이벤트 샘플이 있지만, 그 샘플에서 30%가 성공했음을 알면 추정기가 꺼져 있다고 의심 할 수 있습니다.
한 가지 방법은 예측 된 발생 확률에 의해 이벤트를 그룹화하고 실제 빈도를 그룹별로 관찰하고 차이를 측정하는 것입니다. 예를 들어, 데이터의 양에 따라 20%에서 25%의 발생을 예측하는 모든 이벤트를 그룹화하고 그룹별로 실제 발생 빈도를 계산하고 각 그룹의 차이를 측정하십시오. 이것은 당신의 추정기가 편향되어 있는지, 그리고 아마도 그것이 꺼져 있는지에 대한 좋은 아이디어를 제공해야합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow