Netezza ، Teradata ، DB2 Parallel/Enterprise ، ... مقابل Hadoop أو غيرها؟

https://stackoverflow.com/questions/2087646

21-09-2019
|

سؤال

أنا أبحث في بناء بعض البنية التحتية لتخزين البيانات/الاستعلام ، على رأس حلول الخريطة/تقليل الخريطة مثل Hadoop.

ومع ذلك ، فإنه يذهلني أن كل عمل M/R هو مجرد تكرار ما حله رجال RDBMS على مدار العشرين عامًا الماضية مع قواعد بيانات SQL المتوازية. يقرأ مقياس تطبيقات SQL المتوازي ويكتب عبر العقد ، تمامًا مثل M/R ، ولكنه يحتوي بالفعل على مجموعة من قواعد البيانات العادية (SQL ، مكتبات التكامل الحالية ، إلخ).

المشكلة هي: لا يبدو أنك تجد عملاء تلك الشركات التي تنشر الكثير عبر الإنترنت. لذلك ، هل لدى أي شخص هنا خبرة مع هذه الأنواع من الحلول ، ويمكن أن يعطيني بعض الرؤية و/أو الروابط؟

المحلول

لقد استخدمت Netezza و Hadoop. ولديها معرفة مستعملة من Infobright ، قاعدة بيانات العمود.

Netezza هي قاعدة بيانات حقيقية وتنفذ خصائص الحمض ، والتي لها تكلفة وفائدة. تتحرك Netezza نحو السماح بمزيد من رمز M/R للتشغيل على بيانات الجدول الخاصة به مع بنية Twinfin الجديدة. في الإصدار السابق من الجهاز ، دعموا الوظائف والتجمعات المعرفة من قبل المستخدم. في الإصدار الجديد ، الذي يعمل على تشغيل Linux على الناسفة ويستخدم معالجات Intel ، يفتح الباب للقيام بمزيد من التعليمات البرمجية المخصصة بالقرب من البيانات. كانت تجربتي مع Netezza إيجابية للغاية - كل من التكنولوجيا والشركة.

Hadoop هو الحوسبة النقية لخريطة. لا يتحمل تكلفة خصائص قاعدة بيانات الحمض. لذلك ، إنه حقًا وحش مختلف عن Netezza. اعتمادًا على نمط الاستخدام ، قد يكون أفضل وبالتأكيد أرخص من Netezza. كان Hadoop يدعم HBase و Hive الذي قد يمنحك راحة الاستعلام التي تحتاجها بتكلفة أقل.

قام مطور آخر في فريقنا بتقييم InfoBright ، لذلك هذا مستعملة ، ووجد أن أداء الحمل ضعيف وبعض التجميعات بطيئة. يحتوي على بعض أوجه التشابه مع Netezza (يتم استخدام خرائط المنطقة في Netezza للمساعدة في تضييق نطاق المسح). InfoBright مفتوح المصدر مع كل من المجتمع وإصدار Enterprise المدعوم.

هناك الكثير مما يمكن قوله في سياق مشكلتك الخاصة - ربما خارج نطاق هذا المنتدى. أتمنى أن يساعدك هذا.

نصائح أخرى

لم تحدد الأسئلة التي تحاول الإجابة عليها مع استفساراتك ، أو كيفية تنظيم بياناتك. قبل أن تختار الحل الذي يجب استخدامه ، ربما تحتاج إلى التفكير في هذين الأمرين.

أنت على صواب: يقدم بائعي RDBMS الرئيسيين حلول التجميع ؛ سواء للمعالجة الموازية وارتفاع توافر. لقد كان لديهم هذه التكنولوجيا لفترة من الوقت وأي مؤسسة مع الكثير من البيانات ربما تستخدمها. عندما تشتري ($$$) المنتج الذي سيعطيك الكثير من الوثائق ويساعدك على إعداده (المزيد من $$$) إذا كنت تستطيع تحمله.

RDBMS جيدة للمعاملات عبر الإنترنت (OLTP) ؛ الإجابة على الأسئلة حول صفوف محددة (أين تعيش ماري؟) ؛ الإجابة على بعض الأسئلة من النوع الموجز (كم بيعنا في الربع الأول ، وما إلى ذلك) على الرغم من أنه يمكن إجراؤها لأداء أسئلة موجزة مفصلة (كم بيعنا في الربع الأول ، تم تقسيمها بواسطة المنتج ، مندوب مبيعات ، شهر ، والمنطقة؟) ، عادة ما تبدأ في فرض ضرائب على حدودها (أي استعلام يحتاج إلى زيارة جميع الصفوف سيكون بطيئًا).

بالنسبة لتلك الأنواع من الاستعلامات ، لدى معظم المؤسسات مستودع بيانات تقوم بتكليف البيانات في "مكعبات" متعددة الأبعاد. (انظر Cognos ، Hyperion ، آخرون). قد يكون ذلك مناسبًا لما تحاول القيام به.

ليس لدي أي خبرة مع MapReduce لكنني قرأت قسم Wikipedia على الاستخدامات وهكذا إذا كان ما تحاول القيام به يندرج في تلك الفئات ، فسوف أستمر في ذلك.

إذا كنت في منظمة متزايدة سريعة الخطى ، فيجب عليك استخدام Teradata. لدينا حقا تجربة جيدة مع Teradata. يمنحك قابلية التوسع التي لا يمكن أن يعطها أي بائع آخر. بمجرد أن تعتاد على SQL وأسلوب العمل ، ستقدر حقًا تصميم وهندسة Teradata.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow