الخير وظائف الملاءمة في ص

https://stackoverflow.com/questions/1181025

19-09-2019
|

سؤال

ما هي الوظائف التي تستخدمها في R لتناسب منحنى لبياناتك واختبار مدى جودة المنحنى؟ ما هي النتائج التي تعتبر جيدة؟

المحلول

فقط الجزء الأول من هذا السؤال يمكن أن يملأ الكتب بأكمله. فقط بعض الخيارات السريعة:

lm() لنماذج خطية قياسية
glm() للنماذج الخطية المعممة (مثل الانحدار اللوجستي)
rlm() من كتلة الحزمة لنماذج خطية قوية
lmrob() من حزمة Robustbase لنماذج خطية قوية
loess() للنماذج غير الخطية / غير المعلمة

ثم هناك طرز خاصة بالمجال على سبيل المثال، سلسلة زمنية، الاقتصاد الصغير، الآثار المختلطة وغير ذلك الكثير. العديد من وجهات النظر المهمة على سبيل المثال الاقتصاد القياسي ناقش هذا بمزيد من التفصيل. بالنسبة لخير الملاءمة، فإن هذا هو أيضا شيء يمكن للمرء أن ينفق بسهولة كتاب كامل مناقشة.

نصائح أخرى

عملات المنحنى الكنسي المناسب في ص هي lm(), glm() و nls(). وبعد بالنسبة لي، يجب أن يكون الخير من الملاءمة مشكلة فرعية في مشكلة اختيار النموذج الأكبر. يمكن أن يؤدي Infact، باستخدام الخير من الملاءمة بشكل غير صحيح (على سبيل المثال، عبر الانحدار الشديد) إلى نموذج أخطاء ميمين بشكل خطير (انظر كتاب Harrell في "استراتيجيات النمذجة الانحدارية"). بدلا من مناقشة هذه المسألة من نقطة الصفر، أوصي كتاب هاريل ل lm و glm. وبعد الكتاب الوردي والكتاب المقدس Ripley هو TERSE، ولكن لا يزال يستحق القراءة. "تمديد النموذج الخطي مع R" بواسطة Faraway شامل وقابل للقراءة. لا يتم تغطية NLS في هذه المصادر، ولكن "الانحدار غير الخطي مع R" بواسطة Ritz & Streibig يملأ الفجوة وهو عملي للغاية.

ال nls() وظيفة (http://sekhon.berkeley.edu/stats/html/nls.html.) هو المعيار الجميل لتركيب منحنى المربعات الأقل غير الخطية. Chi Squared (مجموع المتبقيات المربعة) هو المقدي الذي تم تحسينه في هذه الحالة، لكنه لا يتسم بحيث لا يمكنك استخدامه بسهولة لتحديد مدى جودة الملاءمة. الشيء الرئيسي الذي يجب أن تضمنه هو أن المتبقية التي يتم توزيعها عادة. لسوء الحظ، لست متأكدا من طريقة آلية للقيام بذلك.

يحتوي موقع R Quick R على ملخص جيد معقول للوظائف الأساسية المستخدمة للنماذج المناسب واختبار FITS، إلى جانب رمز R Sample R:

http://www.statmethods.net/stats/regression.html.

الشيء الرئيسي الذي يجب أن تضمنه هو أن المتبقية التي يتم توزيعها عادة. لسوء الحظ، لست متأكدا من طريقة آلية للقيام بذلك.

qqnorm() ربما يمكن تعديلها للعثور على الارتباط بين كميات العينة والكميات النظرية. في الأساس، سيكون هذا مجرد تفسير رقمي للمؤامرة القياسية العادية. ربما توفير العديد من القيم لمعامل الارتباط لنطاقات مختلفة من الكميات مفيدة. على سبيل المثال، إذا كان معامل الارتباط مقربا من 1 في منتصف 97٪ من البيانات وأقل بكثير في ذيول، فإن هذا يخبرنا بتوزيع المتبقية أمر طبيعي تقريبا، مع استمرار بعض النزاع في ذيول.

من الأفضل الحفاظ على بسيطة، ومعرفة ما إذا كانت الأساليب الخطية تعمل "حسنا enuff". يمكنك الحكم على صلاحك من الملاءمة بشكل عام من خلال النظر إلى R Squared و F الإحصائيات، معا، أبدا منفصلة. يمكن أن يؤدي إضافة المتغيرات إلى النموذج الخاص بك والتي لا تتحمل المتغير التابع الخاص بك R2، لذلك يجب عليك أيضا التفكير في إحصائيات F.

يجب عليك أيضا مقارنة النموذج الخاص بك إلى الطرز الأخرى المتداخلة أو أكثر بساطة. قم بذلك باستخدام اختبار نسبة Log Logliood، طالما أن المتغيرات المعتمدة هي نفسها.

اختبار Jarque-Bera جيد لاختبار الحياة الطبيعية للتوزيع المتبقي.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow