مجموعة التدريب - نسبة من نقاط البيع / سالب / جمل محايدة

https://stackoverflow.com/questions/2058790

20-09-2019
|

سؤال

أنا من ناحية علامات تويتر رسائل إيجابية أو سلبية أو محايدة.أنا أحاول أن نقدر أن هناك بعض المنطق واحد يمكن أن تستخدم لتحديد من مجموعة التدريب ما نسبة الرسالة يجب أن تكون إيجابية / سلبية المحايدة ؟

لذلك على سبيل المثالإذا أنا التدريب ساذجة Bayes المصنف مع 1000 رسائل تويتر أن نسبة من نقاط البيع :سالب :محايد أن 33 % :33% :33% أو أن يكون 25 % :25 % :50 %

منطقيا في رأسي يبدو أن القطار (أيإعطاء المزيد من عينات محايد) أن النظام سيكون أفضل في تحديد محايد الجمل ثم سواء كانت إيجابية أو سلبية - هل هذا صحيح ؟ أو أنا في عداد المفقودين بعض نظرية هنا ؟

شكرا راهول

المحلول

والمشكلة كنت في اشارة الى ما يعرف مشكلة الخلل. العديد من تعلم آلة الخوارزميات أداء سيئا عندما يواجه بيانات التدريب متوازن، أي عندما تكون حالات فئة واحدة بشكل كبير يفوق عدد تلك الطبقة الأخرى. قراءة هذه المقالة للحصول على نظرة عامة جيدة من المشكلة وكيفية التعامل معها. لتقنيات مثل بايز ساذج أو أشجار القرار هو دائما فكرة جيدة لتحقيق التوازن بين البيانات الخاصة بك بطريقة أو بأخرى، على سبيل المثال من الإفراط العشوائي (أوضح في ورقة المراجع). أنا لا أتفق مع اقتراح MJV لديك مجموعة التدريب تطابق النسب في العالم الحقيقي. وهذا قد يكون مناسبا في بعض الحالات ولكن أنا واثق تماما انها ليست في الإعداد. لمشكلة تصنيف مثل واحد تصفون، والمزيد من أحجام مجموعات الطبقة تختلف، فإن المزيد من معظم خوارزميات ML لديهم مشاكل التمييز الطبقات بشكل صحيح. ومع ذلك، يمكنك دائما استخدام المعلومات حول الفئة التي هي الأكبر في الواقع من خلال اتخاذ أنها مثل تراجع انه عندما الثقة المصنف لحالة معينة منخفضة أو لا يمكن تصنيفها هذه الحالة على الإطلاق، وكنت تعيينه في أكبر الدرجة.

واحد مزيد من ملاحظة: العثور على إيجابية / سلبية / الحياد في رسائل تويتر ويبدو لي أن مسألة درجة. على هذا النحو، قد يكون viewes كما تراجعا وليس مشكلة تصنيف، أي بدلا من نظام الدرجات الثلاث التي ربما قد ترغب حساب النتيجة التي يخبرك <م> كيف إيجابية / سلبية الرسالة.

نصائح أخرى

هناك العديد من العوامل الأخرى...لكن مهم (في تحديد مناسبة نسبة وحجم بيانات التدريب) هو التوزيع المتوقع من كل رسالة فئة (إيجابية أو محايدة أو سلبية) في العالم الحقيقي.على نحو فعال ، جيد الأساس مجموعة التدريب (و سيطرة مجموعة) ،

[نوعيا] ممثلا ممكن الجامع "السكان"
[الكمية] كبيرة بما يكفي أن القياسات التي أجريت من هذه المجموعات ذات دلالة إحصائية.

تأثير [قريب] وفرة من فئة معينة من الرسائل في مجموعة التدريب من الصعب لتحديد ؛ هو في أي حال أقل عامل -أو بالأحرى واحد هو حساسة للغاية إلى عوامل أخرى.تحسينات في دقة المصنف ككل ، أو فيما يتعلق فئة معينة ، وعادة ما تعادل أكثر إلى تنفيذ محددة من المصنف (على سبيل المثال.هو بايزي ، ما هي الرموز ، الضوضاء رمزية القضاء هو القرب عامل ، نحن باستخدام ثنائية غرام... الخ) من بحتة الكمية الخصائص من مجموعة التدريب.

في حين سبق هو عموما واقعية ولكن باعتدال مفيدة لاختيار مجموعة التدريب هو حجم وتكوين هناك طرق تحديد رجعي, ، عندما كاف حجم وتكوين بيانات التدريب تم توفيره.
إحدى الطرق لتحقيق ذلك هو إدخال مجموعة التحكم ، أيواحد يدويا المسمى ولكن ليس هذا هو جزء من مجموعة التدريب وقياس لمختلف الاختبار يعمل مع مختلف مجموعات فرعية من مجموعة التدريب ، أذكر والدقة التي تم الحصول عليها لكل فئة (أو ما شابه ذلك من دقة القياسات) ، لهذا التصنيف من السيطرة على المجموعة.عند هذه القياسات لا تحسن أو تدهور, أبعد ما إحصائيا ممثل حجم وتكوين التدريب [الباطن]مجموعة هو على الارجح واحدة حق (إلا إذا كان الإفراط في تركيب مجموعة: - (ولكن هذا موضوع آخر تماما...)

هذا النهج يعني أن واحد يستخدم مجموعة التدريب التي يمكن أن تكون 3 إلى 5 أضعاف حجم التدريب فرعية بشكل فعال الحاجة ، بحيث يمكن للمرء أن بناء عشوائيا (داخل كل فئة) ، العديد من مجموعات فرعية مختلفة لمختلف الاختبارات.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow