سؤال

أنا أعمل على تطبيق ويب التي سيتم استخدامها لتصنيف الصور من السيارات.المستخدمين سيتم تقديمك مع الصور من المركبات المختلفة, و سوف يطلب منك الإجابة على سلسلة من الأسئلة حول ما يرونه.سوف تكون النتائج المسجلة على قاعدة البيانات ، متوسط ، وعرضها.

أنا أبحث عن خوارزميات مساعدتي في تحديد المستخدمين والتي في كثير من الأحيان لا تصوت مع الفريق, مشيرا إلى أنهم على الأرجح إما عدم الالتفات إلى الصور ، أو أنهم الكذب حول ما يرونه.ثم تريد استبعاد هؤلاء المستخدمين و حساب النتائج ، مثل أن يمكن أن أقول, مع مبالغ معروفة من الثقة أن هذا خاص يظهر في الصورة مركبة غير هذا وذاك.

هذا السؤال يخرج كل ما عليك علوم الحاسوب الرجال, أين تجد مثل هذه الخوارزميات أو أن أعطي نفسي الخلفية النظرية لتصميم مثل هذه الخوارزميات.أفترض أنا ذاهب إلى تعلم بعض الاحتمالات و السكون, ربما بعض البيانات التعدين.بعض الكتاب توصيات من شأنها أن تكون كبيرة.وذلك بفضل!

P. S.هذه هي أسئلة الاختيار من متعدد.

كل هذه هي اقتراحات جيدة.شكرا لك!أتمنى لو كانت هناك طريقة على تجاوز سعة مكدس لتحديد متعددة الإجابات الصحيحة لذلك أكثر من أن يكون الاعتراف مساهماتكم!!

هل كانت مفيدة؟

المحلول

أعتقد أن ما وصفته تم حله باستخدام كشف الحساب / الشذوذوبعد عدد من التقنيات موجودة:

  • الأساليب القائمة على الإحصاء
  • الطرق المستندة إلى المسافة
  • الأساليب القائمة على النموذج

أقترح عليك إلقاء نظرة على هذه منزلقات من كتاب ممتاز مقدمة في تعدين البيانات

نصائح أخرى

اقرأ عناصر التعلم الإحصائي, إنه خلاصة كبيرة على تعدين البيانات.

يمكنك أن تكون مهتما خاصة في الخوارزميات غير المنشورة، على سبيل المثال التجميع. على افتراض أن معظم الناس لا يكذبون، فإن أكبر كتلة هو الصحيح والباقي خطأ. وضع علامة على الناس وفقا لذلك، ثم قم بتطبيق بعض إحصائيات Bayesian وستنجز.

بطبيعة الحال، فإن معظم تقنيات تعدين البيانات تجربة جميلة، لذلك لا تعتمد على ذلك سيكونون دائما على حق ... أو حتى في معظم الحالات.

إذا كنت تعرف ما هي الإجابات التي تتوقعها لماذا تسأل الناس التصويت؟ من خلال استبعاد بعض القيم، فأنت تقوم بتحويل التصويت في شيء ما أنت مثل. السيارات تجعل انطباعا مختلفا لأفراد مختلفين. إذا أحببت 100 شركته تنوي السيارة ثم عندما يأتي شخص ما ويقول إنه / هي لا يعجبك، فأنت تستبعد التصويت؟

ولكن على أي حال، بالنظر إلى أنك لا تزال ترغب في القيام بذلك، أولا وقبل كل شيء ستحتاج إلى مجموعة كبيرة من البيانات من الناخبين "الموثوق بهم". هذا سوف يمنحك فكرة عن إجابة "جيدة" ومن هذه النقطة يمكنك اختيار عتبة الاستبعاد.

بدون مجموعة بيانات أولية لا يمكنك تطبيق أي خوارزمية لأنك ستحصل على نتائج خاطئة. النظر في صوت واحد فقط من 100 من على نطاق من 0 إلى 100. التصويت الثاني هو "1" ستبذل هذا التصويت لأنه بعيد جدا عن المتوسط.

أعتقد أن الخوارزمية البسيطة الجميلة يمكن أن تحقق هذا من أجلك. يمكنك محاولة الحصول على موازن من خلال حساب الانحرافات المعيارية، لكنني لن أزعجني.

إليك نهج بسيط يجب أن يكون كافيا:

لكل مستخدمين من المستخدمين، احسب عدد الأسئلة التي أجابوا فيها وعدد المرات التي اختاروا الإجابة الأكثر شعبية للسؤال. المستخدمين الذين لديهم أدنى نسبة من اختيار الإجابة الشعبية مقابل الإجابات الإجمالية التي يمكنك تخمينها توفر بيانات وهمية.

ربما لن ترغب في إلقاء بيانات المستخدمين من المستخدمين حيث أجابوا فقط على عدد قليل من الأسئلة لأنهم لا يختلفون فقط على عدد قليل مقابل وضع بيانات وهمية.

أي نوع من الأسئلة هي (نعم/لا أو 1 إلى 10؟).

كنت قد تكون قادرة على الحصول على بعيدا مع عدم إغفال أي شيء باستخدام يعني بدلا من المتوسط.مع المتوسطات إذا كان هناك المدقع المتطرفة في الاستجابة يمكن أن تؤثر على متوسط, ولكن إذا كنت تستخدم وسيط يمكنك الحصول على أفضل إجابة.هكذا على سبيل المثال إذا كان لديك 5 إجابات ترتيبها واختيار الأوسط.

أعتقد أن ما تقوله هو أن كنت تشعر بالقلق من أن بعض الناس "المتطرفة" ، مضيفا أنهم الضوضاء إلى البيانات الخاصة بك, مما يجعل التصنيفات أقل موثوقية.لذا, إذا كان لديك تشيفي كامارو, و معظم الناس يقولون ذلك إما أن يكون المهر السيارات, سيارة العضلات, أو سيارة رياضية ، ولكن لديك بعض الغبي الذي يقول انها سيارة سيدان العائلية ، قد ترغب في تقليل أثر له التصويت.

شيء واحد يمكنك القيام به هو توفير تجاوز سعة مكدس مثل سمعة درجة للمستخدمين:

  • وأكثر المستخدم هو "بالاتفاق" مع المستخدمين الآخرين ، أفضل له أو لها وستكون النتيجة.معين (المستخدم X), هذا يمكن أن يكون تحديدها من خلال عملية حسابية بسيطة من ما هي النسبة المئوية من المستخدمين الذين ردوا على سؤال اختار نفس فئة المستخدم X, ثم المتوسط هذه القيمة على جميع الأسئلة.
  • قد ترغب في أن تتضاعف هذه القيمة من قبل عدد من سؤال أجاب لتشجيع الناس على الإجابة على العديد من الأسئلة ممكن.(ملاحظة:إذا اخترت القيام بذلك ، سيكون أي ما يعادل فقط تلخيص نسبة اتفاق درجات بدلا من المتوسط لهم.)
  • هل يمكن تقديم النهائي سمعة درجة للمستخدمين التأكد من أن تفسر أنها سوف يكافأ على مدى ردودهم أتفق مع أولئك المستخدمين الآخرين.وهذا سوف يشجع الناس على الإجابة على المزيد من الأسئلة ولكن أيضا أن تأخذ الرعاية في إجاباتهم.
  • وأخيرا, هل يمكن حساب اليقين درجة معينة التصنيف عن طريق إضافة ما يصل مجموع سمعة درجة من جميع الناس الذين اختاروا فئة معينة.

بعض هذه الأفكار قد تحتاج إلى بعض الصقل ، خصوصا أنني لا أعرف وضعك بالضبط.بالتأكيد, إذا كان الناس يمكن أن نرى ما اختار قبل التصويت أنه سيكون من السهل جدا أن لعبة النظام.

إذا كنت تقوم بجمع الأصوات مثل "على نطاق من 1 إلى 10، فماذا تقيم هذه السيارة"، فربما يمكن أن تستخدم متوسطا بسيطا وانحرافا معيانا: أصغر الانحراف المعياري، كلما زاد إجماع الإجماع العام هو من بين الناخبين ، ويمكنك العلم المستخدمين الذين هم على سبيل المثال 3 قياسي ديفس من المتوسط.

لاختيارات متعددة، يجب أن تكون أكثر حذرا. ببساطة تجاهل كل ما عدا الخيار الأكثر صوتا لن يفعل شيئا سوى الناخبين. تحتاج إلى إنشاء مقياس لكيفية كتابة الفائز بالخيارات الأخرى، مثل علم المستخدمين الذين صوتوا لخيارات أقل من 1/3 من عدد الخيارات الفائزة.

لاحظ أنني كتبت "مستخدمي العلم"، ليس تجاهل الأصوات. إذا تجاهلت الأصوات، فلا يمكنك معرفة مدى واثق من أنك حول النتيجة ("صوت 91٪ صوت أن يكون من فورد موستانج"). إذا كان لدى المستخدم أكثر من نسبة مئوية معينة من أصواته العلمية - حسنا، الأمر متروك لك.

ومع ذلك، من المحتمل أن تكون مشكلتك الأكثر صعوبة في جمع أصوات كافية. اعتمادا على مدى سهولة مشكلة الاختيار المتعدد، ربما تحتاج إلى عدة أضعاف عدد الخيارات كأصوات، لكل صورة. وإلا فإن الإحصاءات لا معنى لها.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top