كيفية اختبار نوعية من الاحتمالات مقدر?

https://stackoverflow.com/questions/1622371

06-07-2019
|

سؤال

أنا خلقت ارشادي (أي آن ، ولكن هذا ليس مهم) لتقدير احتمالات الحدث (نتائج الألعاب الرياضية, ولكن هذا ليس مهما سواء).بالنظر إلى بعض المدخلات هذا الاستدلال قل لي ما هي احتمالات الحدث.شيء من هذا القبيل :بالنظر إلى أطروحات المدخلات فريق ب 65% من فرص الفوز.

لدي مجموعة كبيرة من مدخلات البيانات التي أنا الآن النتيجة (ألعاب لعب سابقا).والتي الصيغة/طن متري يمكنني استخدام للتأهل دقة بلدي مقدر.

المشكلة أراه هو, إذا كان مقدر يقول الحدث احتمال 20% و الحدث في الواقع لا يحدث.ليس لدي أي وسيلة لمعرفة ما إذا كان بلدي مقدر هو صواب أو خطأ.ربما هذا خطأ وهذا الحدث كان من المرجح أن.ربما هذا صحيح, الحدث حوالي 20% فرصة أن تحدث ولم تحدث.ربما هو خطأ الحدث منخفضة حقا فرص حدوث أقول 1 في 1000, ولكن حدث أن تحدث هذه المرة.

لحسن الحظ لدي الكثير من الأطروحات الاختبار الفعلي البيانات ، وبالتالي ربما هناك طريقة استخدامها للتأهل بلدي الكشف عن مجريات الأمور.

هل لدى أحدكم فكرة ؟

المحلول

هناك عدد من القياسات التي يمكن استخدامها لقياس أداء الثنائي المصنف.

لا يهمني ما إذا كان أو لم يكن مقدر (آن ، على سبيل المثال) النواتج معايرة احتمال أو لا ؟

إذا لم يكن كذلك ، أيكل ما يهم هو رتبة طلب زيادة المساحة تحت منحنى (AUROC) هو جيد جدا ملخص أداء متري.والبعض الآخر "KS" إحصائية, مصعد.هناك العديد من الاستخدام ، والتأكيد على جوانب مختلفة من الأداء.

إذا كنت الرعاية حول معايرة الاحتمالات ثم الأكثر شيوعا المقاييس "عبر الكون" (المعروف أيضا باسم برنولي احتمال/أقصى الاحتمالات ، نموذجية القياس المستخدمة في الانحدار اللوجستي) أو "برير النتيجة".برير النتيجة ليست سوى الخطأ التربيعي مقارنة مستمرة وتوقع probabilites الثنائية النتائج الفعلية.

الذي هو الشيء الصحيح الذي يعتمد على استخدام التطبيق النهائي من المصنف.على سبيل المثال ، المصنف تقدير احتمالات التفجر بشكل جيد حقا, ولكن تكون دون المستوى المطلوب على وثيقة النتائج.

عادة الحقيقي متري أنك تحاول تحسين هو "دولار مصنوعة".هذا هو في كثير من الأحيان من الصعب أن تمثل رياضيا ولكن بدءا من هذا هو أفضل فرصة إلى الخروج مع مناسبة و حسابيا لين العريكة متري.

نصائح أخرى

في طريقة ذلك يعتمد على قرار وظيفة تستخدمه.

في حالة تصنيف ثنائي المهمة (التنبؤ ما إذا حدث حدث أو لا [السابق:الفوز]), تطبيق بسيط هو التنبؤ 1 إذا كان الاحتمال أكبر من 50 ٪ ، 0 خلاف ذلك.

إذا كان لديك multiclass المشكلة (توقع أي واحد من ك الأحداث وقعت [السابق:الفوز/التعادل/تفقد]) ، يمكنك التنبؤ فئة أعلى الاحتمالات.

وطريقة تقييم مجريات الأمور هو لحساب خطأ التنبؤ بمقارنة الدرجة الفعلية لكل إدخال مع التنبؤ الخاص بك ارشادي لذلك المثيل.

ملاحظة عادة ما تقسم البيانات الخاصة بك في قطار/اختبار أجزاء للحصول على أفضل (غير منحازة) تقديرات الأداء.

أدوات أخرى للتقييم موجودة مثل روك المنحنيات, الذي هو وسيلة لتصوير الأداء فيما يتعلق true/false postitives.

وكما ذكرتم، إذا كنت تتوقع أن الحدث له 20٪ من يحدث - و 80٪ لا يحدث - يراقب حدثا معزولا واحد لن اقول لكم كيف جيدة أو الفقراء كان مقدر الخاص بك. ومع ذلك، إذا كان لديك عينة كبيرة من الأحداث التي يمكنك توقع 20٪ النجاح، ولكن نلاحظ أن أكثر من تلك العينة، نجحت 30٪، هل يمكن أن تبدأ للشك في أن مقدر هو خارج.
ويتمثل أحد النهج في مجموعة الأحداث عن طريق الاحتمال المتوقع حدوثها، ومراقبة التردد الفعلي من قبل المجموعة، وقياس الفرق. على سبيل المثال، وهذا يتوقف على مقدار البيانات التي لديك، تجميع كافة الأحداث حيث كنت تتوقع 20٪ إلى 25٪ ما يحدث، وحساب التردد الفعلي للحدوث من قبل مجموعة - وقياس الفرق في كل مجموعة. هذا يجب أن تعطيك فكرة جيدة عن ما إذا كان مقدر الخاص بك هو منحاز، وربما لوالتي تتراوح أنه خارج.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow