سؤال

أحاول استخدام حزمة الغابات العشوائية للتصنيف في R.

تدابير الأهمية المتغيرة المدرجة هي:

  • يعني درجة الأهمية الخام المتغير x للفئة 0
  • يعني درجة الأهمية الخام المتغير x للفئة 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

الآن أعرف ما هي هذه "تعني" كما تعلمون تعاريفهم. ما أريد أن أعرفه هو كيفية استخدامها.

ما أريد حقا أن أعرف هو ما تعنيه هذه القيم في سياق مدى دقة مدى دقة هي، ما هي قيمة جيدة، ما هي قيمة سيئة، ما هي الحد الأقصى والحد الأدنى، إلخ.

إذا كان متغير لديه عالية MeanDecreaseAccuracy أو MeanDecreaseGini هل هذا يعني أنه مهم أو غير مهم؟ كما يمكن أن تكون أي معلومات عن الدرجات الخام مفيدة أيضا. أريد أن أعرف كل شيء هناك لمعرفة هذه الأرقام ذات الصلة بتطبيقها.

إن التفسير الذي يستخدم الكلمات "الخطأ"، "التلخيص"، أو "المسموح به" سيكون أقل فائدة، ثم شرح أبسط لم ينطوي على أي مناقشة حول كيفية عمل الغابات العشوائية.

كما لو كنت أرغب في أن يشرح لي شخص ما لي كيفية استخدام راديو، فلن أتوقع أن ينطوي التفسير على كيفية تحويل الراديو موجات الراديو إلى صوت.

هل كانت مفيدة؟

المحلول

إن التفسير الذي يستخدم الكلمات "الخطأ"، "التلخيص"، أو "المسموح به" سيكون أقل فائدة، ثم شرح أبسط لم ينطوي على أي مناقشة حول كيفية عمل الغابات العشوائية.

كما لو كنت أرغب في أن يشرح لي شخص ما لي كيفية استخدام راديو، فلن أتوقع أن ينطوي التفسير على كيفية تحويل الراديو موجات الراديو إلى صوت.

كيف تشرح ما هي الأرقام الموجودة في WKRP 100.5 FM "يعني" دون الذهاب إلى التفاصيل الفنية المزعجة لترددات الموجة؟ من الصعب الحصول على المعلمات بصراحة ومشاكل الأداء ذات الصلة مع الغابات العشوائية على رأسك حتى إذا فهمت بعض المصطلحات الفنية.

ها هي لقطة في بعض الإجابات:

-Mean أهمية الأهمية الخام لمتغير x للفئة 0

-mean أهمية الأهمية الخام للمتغير x للفئة 1

تبسيط من الغابات العشوائية صفحة ويب, ، تدابير درجة الأهمية الخام مقدار أكثر فائدة من متغير تنبؤ معين عشوائي في تصنيف البيانات بنجاح.

MeandecreaseCuracy.

أعتقد أن هذا هو فقط في ص الوحدة النمطية, وأعتقد أنه يقيس ما مقدار تضمين هذا التوقع في النموذج يقلل من خطأ التصنيف.

-meandecreationgini.

جيني يتم تعريفه على أنه "عدم المساواة" عند استخدامه في وصف توزيع مجتمع الدخل، أو مقياس من "شوائب العقدة" في التصنيف القائم على الأشجار. تعني Gini المنخفض (أي descrease أعلى في Gini) أن متغير تنبؤ معين يلعب دورا أكبر في تقسيم البيانات في الفئات المحددة. إنه من الصعب أن يصف أحد دون الحديث عن حقيقة أن البيانات في أشجار التصنيف يتم تقسيمها في العقد الفردية بناء على قيم التنبؤات. أنا لست واضحا للغاية حول كيفية ترجمة هذا الأداء بشكل أفضل.

نصائح أخرى

بالنسبة لقلقتك الفورية: تعني القيم العليا أن المتغيرات أكثر أهمية. يجب أن يكون هذا صحيحا لجميع التدابير التي تذكرها.

الغابات العشوائية تعطيك نماذج معقدة جدا، لذلك يمكن أن تكون صعبة لتفسير الإجراءات الأهمية. إذا كنت تريد أن تفهم بسهولة ما تفعله المتغيرات الخاصة بك، فلا تستخدم RFS. استخدم النماذج الخطية أو شجرة القرار (غير الفرعية) بدلا من ذلك.

أنت قلت:

إن التفسير الذي يستخدم الكلمات "الخطأ"، "التلخيص"، أو "المسموح به" سيكون أقل فائدة، ثم شرح أبسط لم ينطوي على أي مناقشة حول كيفية عمل الغابات العشوائية.

ستكون صعبة للغاية لشرح أكثر بكثير مما سبق ما لم تحفر ومعرفة ما عن الغابات العشوائية. أفترض أنك تشكو من الدليل، أو القسم من دليل Breiman:

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp.

لمعرفة مدى أهمية المتغير، يملأها مع غير مرغوب عشوائي ("تصريح" ذلك)، ثم نرى مقدار الدقة التنبؤية تنخفض. MeandDecreaseCuracyCuracy و MeandDeasgini العمل بهذه الطريقة. لست متأكدا من الدرجات ذات الأهمية الخام.

الترجمة الترجمة الشخصية هي كيندا صعبة مع الغابات العشوائية. بينما RF هو مصنف قوي للغاية يجعل تنبؤاته ديمقراطيا. من خلال ذلك أقصد أن تقوم ببناء مئات أو آلاف الأشجار من خلال أخذ مجموعة فرعية عشوائية من المتغيرات الخاصة بك ومجموعة فرعية عشوائية من بياناتك وبناء شجرة. ثم قم بإجراء تنبؤ لجميع البيانات غير المحددة وحفظ التنبؤ. إن القوية لأنها تتعامل بشكل جيد مع الإغراق في مجموعة البيانات الخاصة بك، (أي أنها تنعسل على قيم عالية / منخفضة عشوائيا، قطع / عينات حظية، قياس نفس الشيء 4 طرق مختلفة، إلخ). ومع ذلك، إذا كان لديك بعض المتغيرات المرتبطة بشدة، فقد يبدو كلاهما مهما لأنها غير مدرجة دائما في كل نموذج.

قد يكون نهج واحد محتمل مع الغابات العشوائية هو المساعدة في التقليل إلى أسفل المتنبئين ثم التبديل إلى العربة العادية أو جرب حزمة الحفلات لنماذج الأشجار القائمة على الاستدلال. ومع ذلك، يجب أن تكون حذرا حول مشكلات تعدين البيانات، وتقديم استنتاجات حول المعلمات.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top