كيفية مقارنة توزيع مختلفة يعني مع الإشارة القيمة الحقيقة في Matlab?

StackOverflow https://stackoverflow.com/questions/3732096

سؤال

لدي الإنتاج (س) القيم من 4 طرق مختلفة تخزينها في 4 المصفوفات.كل من 4 مصفوفات يحتوي على قيم س من طريقة مختلفة مثل:

Matrix_1 = 1 row x 20 column 

Matrix_2 = 100 rows x 20 columns 

Matrix_3 = 100 rows x 20 columns 

Matrix_4 = 100 rows x 20 columns 

عدد الأعمدة الإشارة إلى عدد من السنوات.الصف 1 تحتوي على قيم الإنتاج الموافق 20 عاما.99 صفوف المصفوفة 2 و 3 و 4 فقط مختلفة انجازاتهم (أو محاكاة تشغيل).وذلك أساسا الأخرى 99 صفوف المصفوفة 2 ، 3 و 4 هي تكرار الحالات (ولكن ليس مع القيم بالضبط لأن من الأرقام العشوائية).

النظر في Matrix_1 مرجعا الحقيقة (أو الأساسية ).الآن أريد مقارنة أخرى 3 المصفوفات مع Matrix_1 لمعرفة أي واحد من بين هؤلاء الثلاثة المصفوفات (مع كل 100 يكرر) يقارن أفضل ، أو عن كثب يقلد ، Matrix_1.

كيف يمكن أن يتم ذلك في Matlab?

أعلم يدويا ، أن نستخدم فاصل الثقة (CI) من خلال التآمر على mean of Matrix_1, و رسم كل توزيع mean of Matrix_2, mean of Matrix_3 و mean of Matrix_4.أكبر CI بين مصفوفة 2 و 3 و 4 الذي يحتوي على مرجع الحقيقة (أو mean of Matrix_1) سوف يكون الجواب.

mean of Matrix_1 = (1 row x 1 column)

mean of Matrix_2 = (100 rows x 1 column)

mean of Matrix_3 = (100 rows x 1 column)

mean of Matrix_4 = (100 rows x 1 column)

أتمنى السؤال واضح و ذات الصلة بذلك.وإلا فلا تتردد في تعديل/تشير إلى أي شيء في السؤال.وذلك بفضل!

تحرير: لي ثلاث طرق تحدثت عنها هي a1 و a2 و a3 على التوالي.هنا هي النتيجة:

ci_a1 =

  1.0e+008 *

   4.084733001497999
   4.097677503988565

ci_a2 =

  1.0e+008 *

   5.424396063219890
   5.586301025525149

ci_a3 =

  1.0e+008 *

   2.429145282593182
   2.838897116739112

p_a1 =

    8.094614835195452e-130

p_a2 =

    2.824626709966993e-072

p_a3 =

    3.054667629953656e-012

h_a1 = 1; h_a2 = 1;  h_a3 = 1

لا CI من ثلاث طرق ، ويشمل mean ( = 3.454992884900722e+008) في داخله.لذلك نحن لا تزال تنظر p-value لاختيار أفضل نتيجة ؟

هل كانت مفيدة؟

المحلول

إذا فهمت بشكل صحيح حساب في MATLAB جدا المضيق إلى الأمام.

الخطوات 1-2 (يعني الحساب):

k1_mean = mean(k1);
k2_mean = mean(k2);
k3_mean = mean(k3);
k4_mean = mean(k4);

الخطوة 3, استخدام HIST إلى مؤامرة توزيع رسوم بيانية:

hist([k2_mean; k3_mean; k4_mean]')

الخطوة 4.يمكنك أن تفعل اختبار t مقارنة ناقلات 2 و 3 و 4 ضد التوزيع الطبيعي مع يعني k1_mean وغير معروف الفرق.انظر TTEST للحصول على التفاصيل.

[h,p,ci] = ttest(k2_mean,k1_mean);

نصائح أخرى

تحرير :لقد أسأت فهم السؤال.ترى الجواب من يوك و التعليقات التالية.جوابي هو ما تحتاجه إذا كنت ترغب في مقارنة توزيعات اثنين من ناقلات بدلا من ناقلات ضد قيمة واحدة.على ما يبدو, هذا الأخير هو الحال هنا.

فيما يتعلق t-الاختبارات ، يجب أن نأخذ في الاعتبار أنها اختبار ضد "صحيح" يعني.نظرا لعدد من القيم لكل مصفوفة و فترات الثقة ليس من الصعب جدا تخمين الانحراف المعياري على النتائج الخاصة بك.هذا هو مقياس "انتشار" من النتائج الخاصة بك.الآن الخطأ على الخاص يعني يحسب الانحراف المعياري النتائج مقسوما على عدد من الملاحظات.و فاصل الثقة يحسب بضرب هذا الخطأ القياسي مع appx.2.

هذا فاصل الثقة يحتوي على صحيح يعني في 95% من الحالات.حتى لو كان صحيح يعني هو بالضبط في حدود تلك الفترة ، p-value 0.05 أخرى بعيدا يعني انخفاض قيمة p.هذا يمكن أن تفسر على أنها فرصة أن القيم في مصفوفة 2 ، 3 أو 4 تأتي من السكان يعني كما في المصفوفة 1.إذا كنت ترى ف-قيم هذه الفرص يمكن أن يقال أن تكون غير موجودة.

لذلك ترى أنه عندما يكون عدد القيم الحصول عالية ، فاصل الثقة يصبح أصغر و t-test يصبح حساس جدا.ما هذا يقول لك شئ أكثر من ثلاث مصفوفات تختلف كثيرا عن المتوسط.إذا كان لديك لاختيار واحد ، أود أن نلقي نظرة على توزيعات على أي حال.وإلا واحد مع أقرب يعني يبدو تخمين جيد.إذا كنت ترغب في الحصول على أعمق في هذا أيضا يمكن أن تسأل على stats.stackexchange.com


سؤالك الطريقة ليست واضحة :

  • هو توزيع متساو في جميع الأعمدة?هذا هو المهم ، اثنين التوزيعات يمكن أن يكون لها نفس متوسط ، ولكن تختلف بشكل كبير :

alt text

  • هل هناك سبب لماذا لا يمكنك استخدام نظرية الحد المركزي?هذا يبدو لي معقدة جدا طريقة الحصول على النتيجة التي يمكن العثور عليها بسهولة باستخدام حقيقة أن توزيع تعني نهج التوزيع الطبيعي حيث sd(يعني) = sd(الملاحظات)/عدد من الملاحظات.يوفر لك بعض العمل -إذا كان التوزيع على حد سواء!-

الآن إذا كان السؤال هو حقا المقارنة بين التوزيعات ، يجب النظر في qqplot على فكرة عامة ، و في 2-sample kolmogorov-سميرنوف الاختبار من أجل اختبار رسمي.ولكن يرجى قراءة هذا الاختبار ، كما عليك أن تفهم ما يفعله من أجل interprete النتائج بشكل صحيح.

على sidenote :إذا كنت تفعل هذا الاختبار في حالات متعددة ، تأكد من أنك تفهم المشكلة من عدة مقارنات واستخدام التصحيح المناسب ، على سبيل المثال.Bonferroni أو دن-Sidak.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top