سؤال

لقد كنت مستخدمًا طويلًا لـ R وبدأت مؤخرًا العمل مع Python. باستخدام أنظمة RDBMS التقليدية لتخزين البيانات ، و R/Python لارتكاب الأرقام ، أشعر بالحاجة الآن للحصول على يدي متسخ مع تحليل البيانات الكبيرة.

أود أن أعرف كيفية البدء في تشجيع البيانات الكبيرة. - كيف تبدأ بسيطة مع الخريطة/تقليل واستخدام Hadoop

  • كيف يمكنني الاستفادة من مهاراتي في R و Python للبدء في تحليل البيانات الضخمة. باستخدام مشروع بيثون ديسكو على سبيل المثال.
  • باستخدام حزمة Rhipe وإيجاد مجموعات بيانات الألعاب ومناطق المشكلات.
  • العثور على المعلومات الصحيحة للسماح لي بتحديد ما إذا كنت بحاجة إلى الانتقال إلى NOSQL من قواعد بيانات نوع RDBMS

الكل في الكل ، أود أن أعرف كيفية البدء في صغار وأبني مهاراتي تدريجيًا ومعرفتي في تحليل البيانات الضخمة.

شكرا لك على اقتراحاتك وتوصياتك. أعتذر عن الطبيعة العامة لهذا الاستعلام ، لكنني أتطلع إلى الحصول على مزيد من المنظور فيما يتعلق بهذا الموضوع.

  • صارِم
هل كانت مفيدة؟

المحلول

باستخدام مشروع بيثون ديسكو على سبيل المثال.

جيد. العب مع ذلك.

باستخدام حزمة Rhipe وإيجاد مجموعات بيانات الألعاب ومناطق المشكلات.

بخير. العب مع ذلك أيضًا.

لا تعرق العثور على مجموعات بيانات "كبيرة". حتى مجموعات البيانات الصغيرة تمثل مشاكل مثيرة للاهتمام للغاية. في الواقع ، أي مجموعة بيانات هي نقطة انطلاق.

لقد بنيت مرة واحدة من النجوم الصغيرة لتحليل ميزانية 60 مليون دولار من المنظمة. كانت بيانات المصدر في جداول البيانات ، وغير مفهومة بشكل أساسي. لذلك قمت بتفريغها في مخطط النجوم وكتبت العديد من البرامج التحليلية في بيثون لإنشاء تقارير مبسطة عن الأرقام ذات الصلة.

العثور على المعلومات الصحيحة للسماح لي بتحديد ما إذا كنت بحاجة إلى الانتقال إلى NOSQL من قواعد بيانات نوع RDBMS

هذا سهل.

أولاً ، احصل على كتاب عن تخزين البيانات (مجموعة أدوات Data Warehouse's Ralph Kimball) على سبيل المثال.

ثانياً ، ادرس "مخطط النجوم" بعناية - لا سيما جميع المتغيرات والحالات الخاصة التي يشرحها كيمبال (بعمق)

ثالثًا ، أدرك ما يلي: SQL هو للتحديثات والمعاملات.

عند إجراء المعالجة "التحليلية" (كبيرة أو صغيرة) ، لا يوجد أي تحديث تقريبًا من أي نوع. SQL (والتطبيع ذي الصلة) لم يعد مهمًا حقًا.

نقطة Kimball (وغيرها أيضًا) هي أن معظم مستودعات البيانات الخاصة بك ليست في SQL ، إنها في ملفات مسطحة بسيطة. قد يكون Mart Data (لتحليل Ad-thoc و Slice-and Dice) في قاعدة بيانات علائقية للسماح بمعالجة سهلة ومرنة مع SQL.

لذلك "القرار" تافهة. إذا كانت المعاملات ("OLTP") ، فيجب أن تكون في علائقية أو DB. إذا كان التحليل ("OLAP") لا يتطلب SQL باستثناء تحليلات الشريحة والخطو ؛ وحتى مع ذلك يتم تحميل DB من الملفات الرسمية حسب الحاجة.

نصائح أخرى

شيء واحد يمكنك التفكير فيه هو DMELT (http://jwork.org/dmelt/) برنامج تحليل البيانات. إحدى الميزات البارزة هي أنه يحتوي على مئات الأمثلة باستخدام لغة Python ، وبعض الكتب. السبب في أنني كنت أستخدمه هو أنه يعمل على نظام التشغيل Windows 10 الخاص بي (نظرًا لأنه يستخدم Java VM) ، بالإضافة إلى أنه يحتوي على رسومات جيدة جدًا في ثنائي الأبعاد/3D والتي يمكن تصديرها إلى تنسيق رسومات المتجه.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top