أنظمة مستودعات البيانات المجانية-على وجه التحديد ، لتخزين البيانات

https://stackoverflow.com/questions/1616266

06-07-2019
|

سؤال

أقوم ببناء بعض الأشياء الإبلاغ عن موقعنا على الويب (موقع محدد الحجم يحصل على عدة ملايين مشاهد في اليوم) ، وأتساءل عما إذا كان هناك أي أنظمة مستودعات مجانية/مفتوحة المصدر جيدة هناك.

على وجه التحديد ، أنا أبحث عن شيء فقط لتخزين البيانات-أخطط لإنشاء واجهة أمامية مخصصة لها بحيث تعرض المعلومات التي نهتم بها. ومع ذلك ، لا أريد إنشاء قاعدة بيانات مخصصة لهذا ، وبينما أنا متأكد من أن قاعدة بيانات SQL لن تعمل هنا ، لست متأكدًا مما يجب استخدامه بالضبط. أي مؤشرات للمقالات المفيدة سيكون موضع تقدير.

تحرير: يجب أن أذكر-واحد ديسيبل نظرت إليه لفترة وجيزة كان mongodb. يبدو أنه قد ينجح ، لكن "حالات الاستخدام" الخاصة بهم تذكر على وجه التحديد تخزين البيانات باعتبارها "أقل ملاءمة": http://www.mongodb.org/display/docs/use+cases . أيضًا ، لا يبدو أنه مستهدف على وجه التحديد تجاه مستودع البيانات.

المحلول

http://www.hypertable.org/ قد يكون ما تبحث عنه هو (وسأمر بأوصافك أعلاه) شيء لتخزين كميات كبيرة من البيانات المسجلة مع التطبيع. أي سجل زائر.

يعتمد Hypertable على مشروع Google Bigtable. نرى http://code.google.com/p/hypertable/wiki/performancetestaolquerylog للمعايير

تفقد القدرات العلائقية لـ DBS المستندة إلى SQL ولكنك تكتسب الكثير في الأداء. يمكنك بسهولة استخدام Hypertable لتخزين ملايين الصفوف في الساعة (مساحة محرك أقراص ثابتة مع معرض).

امل ان يساعد

نصائح أخرى

قد لا أفهم المشكلة بشكل صحي الكلمات التي يمكنك بناء DW لائق مع MySQL باستخدام Myisam لمحرك التخزين. السؤال هو فقط في الحبيبات المطلوبة للمعلومات - ما تريد الاحتفاظ به وإلى متى. إذا كانت تقاريرك دورية في الغالب ، وقمت بتطبيق تخزين أو ذاكرة التخزين المؤقت للتقرير ، فلا تحتاج إلى تخزين التجميعات المحسوبة مسبقًا (لا حاجة إلى مكعبات). وبعبارة أخرى ، يمكن أن توفر نجم Kimball مع التقارير المخزنة مؤقتًا أداءً لائقًا في كثير من الحالات. يمكنك أيضًا النظر إلى الإصدار المجتمعي لـ "Pentaho Bi Suite" (المصدر المفتوح) للحصول على بداية سريعة مع ETL والتحليلات والإبلاغ - وتجربة بعض الشيء لتقييم الأداء قبل الغوص في التطوير المخصص. على الرغم من أن هذا قد لا يكون ما كنت تتوقعه ، فقد يكون من المفيد النظر.

بنتاهو موندريان

المصدر المفتوح
يستخدم قاعدة البيانات العلائقية القياسية
MDX (فكر في الجدول المحوري)
ETL (عبر غلاية)

انا استعمل هذا.

بالإضافة إلى إجابة Mike عن Hypertable ، قد ترغب في إلقاء نظرة على مشروع Apache's Hadoop:

http://hadoop.apache.org/

إنها توفر عددًا من الأدوات التي قد تكون مفيدة لتطبيقك ، بما في ذلك HBase ، وهو تطبيق آخر لمفهوم Bigtable. أتصور الإبلاغ ، قد تجد تنفيذ MapReduce مفيد أيضًا.

كل هذا يتوقف على البيانات وكيف تخطط للوصول إليها. monetdb هو محرك قاعدة بيانات موجه نحو الأعمدة من أكثر الفريق ثوريا على تقنيات قاعدة البيانات. أنهم حصلت للتو على جائزة VLDB لأفضل الورق لمدة 10 سنوات. DB مفتوح المصدر وهناك الكثير من المراجعات عبر الإنترنت مدحهم.

ربما يجب أن تلقي نظرة على TPC ومعرفة أي من مجموعات بيانات مشكلة الاختبار الخاصة بهم تتطابق مع أفضل حالتك والعمل من هناك.

ضع في اعتبارك أيضًا الحاجة إلى التزامن ، فإنه يضيف نقاطًا كبيرة لأي نوع من النهج وأحيانًا لا يكون مطلوبًا حقًا. على سبيل المثال ، يمكنك قبل هضم بعض بيانات الملخص أو الفهرس وأن يكون لديك محمية فقط من أجل التزامن العالي. تحديد استفسارات البيانات الخاصة بك هو الخطوة التالية.

حول SQL ، أنا لا أحب ذلك أيضًا ، لكنني لا أعتقد أنه من الذكاء استبعاد محرك لمجرد اللغة الأمامية.

أرى مشكلة مماثلة والتفكير في استخدام Myisam العادي مع http://www.jitterbit.com/ كطبقة الوصول إلى البيانات. يبدو Jitterbit (أو أداة حرة أخرى على حد سواء) لطيفًا جدًا لهذا النوع من التحولات.

آمل أن يساعد هذا قليلا.

الكثير من الناس يستخدمون mysql أو postgres :)

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow