ما هي الخوارزميات الفعالة والدقيقة لاستبعاد القيم المتطرفة من مجموعة من البيانات؟

StackOverflow https://stackoverflow.com/questions/2069793

  •  20-09-2019
  •  | 
  •  

سؤال

لقد قمت بتعيين 200 صف بيانات (يتضمن مجموعة صغيرة من البيانات).أريد إجراء بعض التحليلات الإحصائية، ولكن قبل ذلك أريد استبعاد القيم المتطرفة.

ما هي الخوارزميات المحتملة لهذا الغرض؟الدقة هي مسألة مثيرة للقلق.

أنا جديد جدًا على الإحصائيات، لذا أحتاج إلى المساعدة في الخوارزميات الأساسية جدًا.

هل كانت مفيدة؟

المحلول

ابدأ بتخطيط تأثير ايجابي من القيم المتطرفة ثم انتقل إلى بعض الصدمات المسبقة الجيدة (المعروفة أيضًا باسم إلقاء نظرة على scatterplot).

تحتوي الكثير من الحزم الإحصائية على تشخيصات خارجية/متبقية ، لكنني أفضل Cook D. يمكنك حسابها باليد إذا كنت ترغب في استخدام هذه الصيغة من mtsu.edu (الرابط الأصلي قد مات ، يتم الحصول على هذا من Archive.org).

نصائح أخرى

بشكل عام، الشيء الذي يجعل سؤالًا كهذا صعبًا هو أنه لا يوجد تعريف صارم للقيمة المتطرفة.أوصي في الواقع بعدم استخدام عدد معين من الانحرافات المعيارية كحد أقصى للأسباب التالية:

  1. يمكن أن تحتوي بعض القيم المتطرفة على ضخم التأثير على تقديرك للانحراف المعياري، حيث أن الانحراف المعياري ليس إحصائية قوية.
  2. يعتمد تفسير الانحراف المعياري بشكل كبير على توزيع بياناتك.إذا كانت بياناتك موزعة بشكل طبيعي، فإن 3 انحرافات معيارية تعد كثيرًا، ولكن إذا كانت، على سبيل المثال، موزعة بشكل طبيعي، فإن 3 انحرافات معيارية ليست كثيرة.

هناك عدة طرق جيدة للمضي قدمًا:

  1. احتفظ بجميع البيانات، واستخدم إحصائيات قوية فقط (الوسيط بدلاً من المتوسط، واختبار ويلكوكسون بدلاً من اختبار T، وما إلى ذلك).ربما يكون جيدًا إذا كانت مجموعة البيانات الخاصة بك كبيرة.

  2. تقليم أو Winsoize البيانات الخاصة بك.التشذيب يعني إزالة الجزء العلوي والسفلي x%.Winsorizing يعني تعيين أعلى وأسفل x% على القيمة المئوية xth و1xth على التوالي.

  3. إذا كانت لديك مجموعة بيانات صغيرة، فيمكنك فقط رسم بياناتك وفحصها يدويًا بحثًا عن قيم غير معقولة.

  4. إذا كانت بياناتك تبدو قريبة إلى حد معقول من التوزيع الطبيعي (بدون ذيول ثقيلة ومتماثلة تقريبًا)، فاستخدم متوسط ​​الانحراف المطلق بدلاً من الانحراف المعياري كإحصائية الاختبار الخاصة بك وقم بالتصفية إلى 3 أو 4 انحرافات مطلقة متوسطة بعيدًا عن المتوسط.

ربما سمعت تعبير "ستة سيغما".

يشير هذا إلى Plus و Minus 3 Sigma (أي الانحرافات المعيارية) حول الوسط.

يمكن أن يكون أي شيء خارج نطاق "Six Sigma" يعالج كخارج.

عند التفكير ، أعتقد أن "Six Sigma" واسع جدًا.

هذه المقالة يصف كيف يصل إلى "3.4 أجزاء معيبة لكل مليون فرص".

يبدو وكأنه شرط صارم جدا لأغراض التصديق. يمكنك فقط أن تقرر ما إذا كان يناسبك.

اعتمادًا على بياناتك ومعناها ، قد ترغب في النظر فيها رانساك (عينة عشوائية إجماع). يستخدم هذا على نطاق واسع في رؤية الكمبيوتر ، ويعطي بشكل عام نتائج ممتازة عند محاولة احتواء البيانات مع الكثير من القيم المتطرفة على النموذج.

ومن السهل جدًا تصوره وشرحه. من ناحية أخرى ، فهو غير حتمي ، مما قد يسبب مشاكل اعتمادًا على التطبيق.

حساب الانحراف المعياري على المجموعة ، واستبعاد كل شيء خارج الانحراف المعياري الأول أو الثاني أو الثالث.

إليك كيفية القيام بذلك في SQL Server

سيحصل الاستعلام أدناه على متوسط ​​الوزن من جدول مقياس خيالي يحتوي على وزن واحد لكل شخص مع عدم السماح لأولئك الذين يعانون من السمنة المفرطة أو النحافة بالتخلص من المتوسط ​​الأكثر واقعية:

  select w.Gender, Avg(w.Weight) as AvgWeight
    from ScaleData w
    join ( select d.Gender, Avg(d.Weight) as AvgWeight, 
                  2*STDDEVP(d.Weight) StdDeviation
             from ScaleData d
            group by d.Gender
         ) d
      on w.Gender = d.Gender
     and w.Weight between d.AvgWeight-d.StdDeviation 
                      and d.AvgWeight+d.StdDeviation
   group by w.Gender  

قد تكون هناك طريقة أفضل للقيام بذلك، لكنها تعمل وتعمل بشكل جيد.إذا صادفت حلاً آخر أكثر فعالية، فيسعدني أن أسمع عنه.

ملحوظة:ما ورد أعلاه يزيل أعلى وأسفل 5٪ من القيم المتطرفة خارج الصورة لغرض المتوسط.يمكنك ضبط عدد القيم المتطرفة التي تمت إزالتها عن طريق ضبط 2* في 2*STDDEVP وفقًا لما يلي: http://en.wikipedia.org/wiki/Standard_deviation

إذا كنت ترغب في تحليله فقط ، فقل أنك تريد حساب الارتباط بمتغير آخر ، فمن الجيد استبعاد القيم المتطرفة. ولكن إذا كنت ترغب في تصميم / التنبؤ ، فليس من الأفضل دائمًا استبعادها على الفور.

حاول أن تعاملها بطرق مثل السد أو إذا كنت تشك في أن القيم المتطرفة تحتوي على معلومات/نمط ، ثم استبدلها بفقدانها ، ونموذج/تنبؤ بها. لقد كتبت بعض الأمثلة على كيفية القيام بذلك هنا باستخدام R.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top