كيف تحصل على نتائج علمية من البيانات غير التجريبية (التنقيب عن البيانات؟)

StackOverflow https://stackoverflow.com/questions/105996

  •  01-07-2019
  •  | 
  •  

سؤال

  • أريد الحصول على أقصى قدر من الأداء من عملية تحتوي على العديد من المتغيرات، والتي لا يمكن التحكم في الكثير منها.
  • لا أستطيع إجراء آلاف التجارب، لذا سيكون من الجيد لو تمكنت من إجراء مئات التجارب و
    • تختلف العديد من المعلمات التي يمكن السيطرة عليها
    • جمع البيانات عن العديد من المعلمات التي تشير إلى الأداء
    • "صحيح"، قدر الإمكان، لتلك المعلمات التي لا أستطيع التحكم فيها
    • اكتشف القيم "الأفضل" لتلك الأشياء التي يمكنني التحكم فيها، ثم ابدأ من جديد

يبدو أن هذا سيُسمى "تنقيب البيانات"، حيث تمر عبر الكثير من البيانات التي لا يبدو أنها مرتبطة على الفور، ولكنها تظهر ارتباطًا بعد بذل بعض الجهد.

لذا...من أين أبدأ بالنظر إلى الخوارزميات والمفاهيم والنظرية لهذا النوع من الأشياء؟وحتى المصطلحات ذات الصلة لأغراض البحث ستكون مفيدة.

خلفية:أحب ركوب الدراجات في الماراثون الفائق، والاحتفاظ بسجلات لكل رحلة.أرغب في الاحتفاظ بمزيد من البيانات، وبعد مئات الرحلات سأتمكن من الحصول على معلومات حول كيفية أدائي.

ومع ذلك، كل شيء يختلف - الطرق، البيئة (درجة الحرارة، الضغط، الهمهمة، حمل الشمس، الرياح، هطول الأمطار، إلخ)، الوقود، الموقف، الوزن، حمل الماء، إلخ، إلخ، إلخ.يمكنني التحكم في بعض الأشياء، لكن تشغيل نفس المسار 20 مرة لاختبار نظام جديد للوقود سيكون أمرًا محبطًا، وسيستغرق سنوات لإجراء جميع التجارب التي أود القيام بها.ومع ذلك، يمكنني تسجيل كل هذه الأشياء وأكثر (القياس عن بعد على دراجة FTW).

هل كانت مفيدة؟

المحلول

يبدو أنك تريد أن تفعل بعض تحليل الانحدار.لديك بالتأكيد الكثير من البيانات!


تحليل الانحدار هو أسلوب نمذجة شائع للغاية في الإحصاء والعلوم.(يمكن القول أن الإحصائيات هي فن وعلم تحليل الانحدار.) هناك العديد من حزم الإحصائيات المتوفرة لإجراء العمليات الحسابية التي ستحتاج إليها.(أوصي بواحدة، ولكني عفا عليها الزمن منذ سنوات.)

لقد اكتسب استخراج البيانات سمعة سيئة لأن الناس يفترضون في كثير من الأحيان أن الارتباط يساوي السببية.لقد وجدت أن الأسلوب الجيد هو البدء بالمتغيرات التي تعرف أن لها تأثيرًا وبناء نموذج إحصائي حولها أولاً.لذا، فأنت تعلم أن الرياح والوزن والتسلق لها تأثير على مدى سرعة السفر ويمكن للبرامج الإحصائية أن تأخذ مجموعة البيانات الخاصة بك وتحسب العلاقة بين تلك العوامل.سيعطيك ذلك نموذجًا إحصائيًا أو معادلة خطية:

speed = x*weight + y*wind + z*climb + constant

عندما تستكشف متغيرات جديدة، ستتمكن من معرفة ما إذا كان النموذج قد تم تحسينه أم لا من خلال مقارنة جودة مقياس الملاءمة مثل R-squared.لذلك يمكنك التحقق مما إذا كانت درجة الحرارة أو الوقت من اليوم تضيف أي شيء إلى النموذج.

قد ترغب في تطبيق تحويل على بياناتك.على سبيل المثال، قد تجد أنك تؤدي أداءً أفضل في الأيام الباردة.لكن الأيام الباردة جدًا والأيام الحارة جدًا قد تضر بالأداء.في هذه الحالة، يمكنك تعيين درجات الحرارة إلى صناديق أو شرائح:<0 درجة مئوية؛0 درجة مئوية إلى 40 درجة مئوية؛> 40 درجة مئوية، أو ما شابه ذلك.والمفتاح هنا هو تحويل البيانات بطريقة تتطابق مع النموذج العقلاني لما يحدث في العالم الحقيقي، وليس فقط البيانات نفسها.


في حالة اعتقاد شخص ما أن هذا ليس موضوعًا متعلقًا بالبرمجة، لاحظ أنه يمكنك استخدام نفس هذه الأساليب لتحليل أداء النظام.

نصائح أخرى

مع هذا العدد الكبير من المتغيرات، يكون لديك أبعاد كثيرة جدًا وقد ترغب في إلقاء نظرة عليها تحليل المكونات الرئيسية.إنه يأخذ بعض "الفن" من تحليل الانحدار ويتيح للبيانات التحدث عن نفسها.يتم عرض بعض البرامج للقيام بهذا النوع من التحليل في أسفل الرابط.

لقد استخدمت وحدة بيرل الإحصائيات::الانحدار لمشاكل مماثلة إلى حد ما في الماضي.ومع ذلك، كن حذرًا من أن تحليل الانحدار هو بالتأكيد فن.كما يقول التحذير في وحدة Perl، لن يكون الأمر منطقيًا بالنسبة لك إذا لم تتعلم الرياضيات المناسبة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top