سؤال

أنا على وشك أن أبدأ مشروع جديد الذي يجب أن يكون بدلا من قاعدة بيانات كبيرة.

عدد الجداول لن تكون كبيرة (<15), الغالبية العظمى من البيانات (99%) سوف يكون الواردة في جدول كبير ، وهو ما يقرب من إدراج/قراءة فقط (لا توجد تحديثات).

وتقدر كمية البيانات في هذا الجدول سوف تنمو في 500.000 يسجل اليوم, و يجب أن نستمر على الأقل 1 سنة منها أن تكون قادرة على القيام التقارير المختلفة.

يجب أن يكون هناك (للقراءة فقط) تكرارها قاعدة بيانات النسخ الاحتياطي/الفشل, و ربما من أجل تفريغ التقارير في وقت الذروة.

ليس لدي خبرة مع قواعد البيانات الكبيرة, لذا أطلب منها أن يكون الذي DB هو الخيار الأفضل في هذه الحالة.وأنا أعلم أن أوراكل هو رهان آمن ، ولكن أنا أكثر اهتماما إذا كان أي شخص لديه تجربة مع كيو أو الخلية مع الإعداد مماثل.

هل كانت مفيدة؟

المحلول

لقد استعملت كيو في بيئة حيث نراه 100K-2M صفوف جديدة في اليوم الواحد أكثر تضاف إلى جدول واحد.غير أن هذه الصفوف تميل إلى أن تكون خفضت إلى عينات ومن ثم حذف في غضون أيام قليلة, لذلك لا أستطيع أن أتكلم عن الأداء طويل الأجل مع أكثر من ~100 متر الصفوف.

لقد وجدت أن إدراج أداء معقول جدا, خاصة إذا كنت تستخدم نسخ كبيرة الحجم.الاستعلام أداء جيد على الرغم من أن الخيارات مخطط يجعل في بعض الأحيان لغز لي ؛ لا سيما عند القيام ينضم / موجود.لدينا قاعدة بيانات يتطلب جميلة الصيانة العادية (فراغ/تحليل) للحفاظ على تشغيله بسلاسة.لا يمكن تجنب بعض من هذه قبل أكثر بعناية تحسين autovacuum وغيرها من الإعدادات, و هو ليس ذلك بكثير من قضية إذا كنت لا تفعل العديد من حذف.عموما ، هناك بعض المناطق حيث أشعر أنه من الصعب تكوين وصيانة مما ينبغي.

أنا لم تستخدم Oracle و MySQL فقط الصغيرة البيانات, لذلك أنا لا يمكن مقارنة الأداء.ولكن الإنترنت لا العمل غرامة على مجموعات كبيرة من البيانات.

نصائح أخرى

هل لديك نسخة من "مستودع البيانات أدوات"?

اقتراح هناك هو أن تفعل ما يلي.

  1. فصل الحقائق (قابلة للقياس ، رقمية) القيم من الأبعاد التي التأهل أو تنظيم تلك الوقائع.كبير ليس حقا أفضل فكرة.انها حقيقة الجدول الذي يهيمن على التصميم, بالإضافة إلى عدد من البعد الصغيرة الجداول السماح "تشريح وتقطيع" الوقائع.

  2. نضع الحقائق في شقة بسيطة الملفات حتى تريد أن تفعل SQL نمط التقارير.لا إنشاء نسخة احتياطية من قاعدة البيانات.إنشاء نسخة احتياطية من الملفات ؛ تحميل قاعدة بيانات فقط على التقارير يجب أن تفعل من SQL.

  3. حيث من الممكن إنشاء ملخص أو إضافية datamarts للتحليل.في بعض الحالات, قد تحتاج إلى تحميل كل شيء إلى قاعدة البيانات الخاصة بنا.إذا الملفات الخاصة بك تعكس الجدول الخاص بك تصميم جميع قواعد البيانات الأكبر محمل الأدوات التي يمكن أن تعيش و فهرس الجداول SQL من الملفات.

جوجل BigTable قاعدة البيانات و Hadoop نوعان من محركات قاعدة بيانات التي يمكن التعامل مع كمية كبيرة من البيانات.

كمية البيانات (200m السجلات في السنة) ليست كبيرة حقا ينبغي أن تذهب مع أي معيار محرك قاعدة البيانات.

القضية هي الآن أسهل إذا كنت لا تحتاج إلى تقارير حية على ذلك.كنت مرآة preaggregate البيانات على الخادم في مثليوميا دفعة واحدة.مثل S. لوت المقترحة قد ترغب في قراءة على تخزين البيانات.

بعض النقاط المثيرة للاهتمام فيما يتعلق جوجل BigTable في هناك...

Bigtable مقابل DBMS

  • سريع الاستعلام معدل
  • لا ينضم, لا دعم SQL, العمود المنحى قاعدة البيانات
  • يستخدم أحد Bigtable بدلا من أن العديد من تطبيع الجداول
  • ليست حتى في 1NF في وجهة النظر التقليدية
  • تهدف إلى دعم التاريخية الاستفسارات الزمني مجال => ماذا فعلت هذه الصفحة تبدو وكأنها بالأمس ؟
  • ضغط البيانات أسهل –الصفوف متفرق

أبرزت ينضم ولا SQL الدعم المذكور سوف تحتاج إلى تشغيل سلسلة من التقارير.أنا لا أعرف كم (إن وجدت) لا وجود abililty أن تفعل هذا سوف يكون عليك تشغيل التقارير إذا كنت تستخدم هذا.

نستخدم فايربيرد حقا بيانات ضخمة (حفظ البيانات لأكثر من 30 عاما الآن) و المقاييس بشكل جيد جدا.

أفضل حول هذا الموضوع هو أن لديك خصائص تكوين ، ولكن على عكس أيأوراكل تثبيته ويعمل بشكل جيد جدا دون الحاجة إلى بدء تشغيل تكوين قبل أن تتمكن من استخدامه.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top