اختر خوارزمية التصنيف المناسبة. خطي أو غير خطي؟ [مغلق

https://stackoverflow.com/questions/2414030

19-09-2019
|

سؤال

أجد هذا السؤال صعبة بعض الشيء. ربما شخص يعرف نهج للإجابة على هذا السؤال. تخيل أن لديك مجموعة بيانات (بيانات تدريبية) التي لا تعرفها. ما هي ميزات بيانات التدريب التي تنظر إليها من أجل اختصار خوارزمية التصنيف لتصنيف هذه البيانات؟ هل يمكن أن نقول أي شيء ما إذا كان ينبغي لنا استخدام خوارزمية تصنيف غير خطية أو خطية؟

بالمناسبة، أنا أستخدم Weka لتحليل البيانات.

أي اقتراحات؟ شكرا لك.

المحلول

نجاح باهر، لذلك لديك بعض البيانات التدريبية ولا تعرف ما إذا كنت تبحث في ميزات تمثل الكلمات في وثيقة أو جينز في خلية وتحتاج إلى ضبط مصنف. حسنا، نظرا لأنك لا تملك أي معلومات دهالية، فسوف تضطر إلى القيام بذلك الوحش من خلال النظر في الخصائص الإحصائية لمجموعات البيانات.

أولا، صياغة المشكلة، هذا أكثر من مجرد خطي مقابل غير خطي. إذا كنت تبحث حقا عن تصنيف هذه البيانات، فما الذي تحتاجه حقا للقيام به هو تحديد وظيفة Kernel للمعدل الذي قد يكون خطيا أو غير خطي (Gaussian، متعدد الحدود، القطعي، إلخ. بالإضافة إلى ذلك، قد تأخذ كل وظيفة kernel واحد أو أكثر من المعلمات التي ستحتاج إلى تعيين. تحديد وظيفة kernel المثلى ومجموعة المعلمة لمشكلة تصنيف معينة ليست مشكلة حل حقا، وهناك فقط الاستدلال المفيدة وإذا كنت تقوم بتحديد وظيفة النواة "أو" اختيار kernel " وظيفة "، سوف تعامل مع العديد من الأوراق البحثية التي تقترح واختبار النهج المختلفة. في حين أن هناك العديد من الأساليب، فإن أحد أبسط وسافر جيدا هو القيام بنحيل التدرج على المعلمات - أساسا يمكنك تجربة طريقة نواة مجموعة المعلمة، وتدريب على نصف نقاط البيانات الخاصة بك ومعرفة كيفية القيام به. ثم يمكنك تجربة مجموعة مختلفة من المعلمات ومعرفة كيفية القيام به. أنت تحريك المعلمات في اتجاه أفضل تحسن في الدقة حتى تحصل على رضي نتائج حزب المحافظين.

إذا كنت لا تحتاج إلى الذهاب إلى كل هذا التعقيد للعثور على وظيفة نواة جيدة، فما ببساطة تريد إجابة على خطي أو غير خطي. ثم يأتي السؤال بشكل رئيسي إلى شيئين: سيكون من غير الخطي أن يكون لها خطر أعلى من التجاوز (النهري) لأن لديهم المزيد من أبعاد الحرية. يمكن أن يعانون من المصنف فقط حفظ مجموعات من نقاط البيانات الجيدة، بدلا من الخروج بتعميم جيد. من ناحية أخرى، فإن المصنف الخطي لديه حرية أقل تناسبه، وفي حالة البيانات غير القابلة للانفجار الخطية، سوف تفشل في العثور على وظيفة قرارات جيدة وتعاني من معدلات خطأ عالية.

لسوء الحظ، لا أعرف حلا أفضل للرياضيات للإجابة على السؤال "هل هذه البيانات Seperable خطيا" بخلاف لمجرد تجربة المصنف نفسه ومعرفة كيفية أدائها. لأنك ستحتاج إلى إجابة أكثر ذكاء من الألغام.

تحرير: تصف هذه الورقة البحثية خوارزمية تبدو وكأنها يمكن أن تكون قادرة على تحديد مدى إغلاق مجموعة بيانات معينة لتكون Seperable خطيا.

http://www2.ift.ulaval.ca/~mmarchand/publications/wcnn93aa.pdf.

نصائح أخرى

هذا في الواقع اثنين أسئلة واحدة ؛-)

اختيار ميزة
خطي أم لا

أضف "اختيار الخوارزمية"، وربما يكون لديك ثلاثة أسئلة أساسية من تصميم المصنف.

كملاح جانبا، إنه شيء جيد لا تملك أي خبرة مجال قد سمح لك بترشيد اختيار الميزات و / أو لتأكيد خطي مساحة الميزة. هذا هو المتعة من التعدين البيانات: استنتاج مثل هذه المعلومات دون خبرة مسبقة. (راجع للشغل، وعلى الرغم من خبرات المجال جيدة للتحقق من نتائج المصنف، فإن الكثير من البصيرة البائسة قد تجعلك تفوت فرص تعدين جيدة). دون أي معرفة مسبحة من هذا القبيل، تضطر إلى إنشاء منهجيات سليمة وتطبيق التدقيق الدقيق للنتائج.

من الصعب تقديمها محدد إرشادات، جزئيا نظرا لأن العديد من التفاصيل يتم تركها في السؤال، وأيضا لأنني بات في طريقي إلى حد ما في طريقي ؛-). أبدا أقل آمل أن تكون المشورة العامة التالية ستكون مفيدة

بالنسبة لكل خوارزمية تحاول (أو أكثر دقة لكل مجموعة من المعلمات لخوارزمية معينة)، ستحتاج إلى تشغيل العديد من الاختبارات. وبعد النظرية يمكن أن تكون مفيدة للغاية، ولكن ستبقى الكثير من "المحاكمة والخطأ". ستجد عبر المصادقة تقنية قيمة.
باختصار، [واعتمادا على حجم البيانات التدريبية المتاحة]، تقوم بتقسيم بيانات التدريب بشكل عشوائي في عدة أجزاء وتدريب المصنف على واحد [أو عدة] من هذه الأجزاء، ثم قم بتقييم المصنف على أدائه على آخر [أو عدة] أجزاء. لكل من هذا القبيل، قم بقياس مؤشرات مختلفة للأداء مثل خطأ تصنيف MIS (MCE) وبصرف النظر عن إخبارك كيف ينفذ المصنف أو هذه المقاييس، أو بدلا من ذلك تقلبي التلميحات فيما يتعلق بأهمية الميزات المحددة و / أو عدم وجود نطاق أو خطي.
بشكل مستقل عن الافتراض الخطي، من المفيد تطبيع القيم من رقمي الميزات. هذا يساعد في ميزات لها مجموعة فردية وما إلى ذلك.
ضمن كل بعد، حدد النطاق داخل، على سبيل المثال، 2.5 الانحرافات المعيارية على جانبي الوسيط، وتحويل قيم الميزات إلى نسبة مئوية على أساس هذا النطاق.
تحويل السمات الاسمية إلى تلك الثنائية, ، إنشاء أكبر عدد ممكن من الأبعاد قيم مميزة للسمة الاسمية. (أعتقد أن العديد من محسنات الخوارزمية ستقوم بذلك من أجلك)
بمجرد تحديد واحد أو عدد قليل من المصنفين بأداء لائق نسبيا (يقول 33٪ MCE)، قم بتنفيذ نفس سلسلة الاختبار، مع مثل هذا المصنف عن طريق تعديل معلمة واحدة فقط في وقت واحد. على سبيل المثال، قم بإزالة بعض الميزات، ومعرفة ما إذا كانت مصنف الأبعاد الناتجة أو انخفاض الأبعاد يتحسن أو يمتد.
ال عامل الخسارة هو معلمة حساسة للغاية. وبعد حاول أن تلتصق بأحالة "مادلة" ولكنها ذات قيمة نفسية من أجل الجزء الأكبر من الاختبارات، بغرامة لحن الخسارة في النهاية.
تعلم استغلال معلومات "التفريغ" المقدمة من محسنات SVM. توفر هذه النتائج معلومات قيمة للغاية فيما يتعلق بما يفكر "يفكر"
تذكر أن ما كان يعمل بشكل جيد للغاية مع مجموعة بيانات معينة في مجال معين قد يؤدي بشكل سيء للغاية مع البيانات من مجال آخر ...
القهوة جيدة، وليس أكثر من اللازم. عندما يفشل كل شيء، اجعلها الأيرلندية ؛-)

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow