سؤال

هل يمكن لأي شخص توضيح الاختلافات المختلفة بين توزيعات Hadoop المختلفة المتاحة:

باستخدام توزيعة Apache Hadoop كخط أساس.

هل يوجد سبب جيد لاستخدام أحد هذه التوزيعات عبر توزيعة Apache Hadoop القياسية؟

هل كانت مفيدة؟

المحلول

تنصل:لقد تدربت في Cloudera هذا الصيف (لكن بعض أفضل أصدقائي موجودون في Yahoo!:-))

توزيع Yahoo هو إصدار من Hadoop 20 الذي يقومون بتشغيله (تشغيله؟) على مجموعة فرعية من مجموعاتهم.يتضمن مجموعة من التصحيحات لتحقيق الاستقرار وإصلاحات الأخطاء وما إلى ذلك.إنه إصدار مصدر.لا يحتوي على ميزات سهلة الاستخدام للمسؤول مثل حزم rpm أو دبيان، وما إلى ذلك.

توزيع Cloudera عبارة عن حزم مثل rpms وdebs (المصدر متاح أيضًا).هذا يعني أنه يمكنك الحصول على التحديثات عبر الطرق القياسية، وما إلى ذلك.ويتضمن أيضًا تصحيحات الاستقرار وإصلاح الأخطاء.تتم صيانته باستمرار (لا يعني أن Yahoo ليست كذلك - أفترض أنه يمكن للمرء الذهاب إلى github والتحقق من آخر مرة قاموا فيها بتحديثه).كما أنه يحزم Pig and Hive.

توزيع Cloudera لـ Hadoop 20 هو في مرحلة تجريبية، ويعتبر 18 مستقرًا (المزيد حول هذا في مدونة كلاوديرا).يتضمن الإصدار 18 أيضًا حزمًا لـ Hive and Pig؛مقابل 20، عليك أن تبنيها بنفسك (لا توجد إصدارات رسمية من Pig أو Hive تدعم 20 حتى الآن، على الرغم من وجود تصحيحات).قد يكون هناك تداخل كبير بين إصدارات Cloudera وYahoo 20؛كلاهما يقدم بيانات، حتى تتمكن من التحقق.أحدث توثيق لتوزيعات Cloudera موجود في http://archive.cloudera.com

لا تقدم Yahoo الدعم لتوزيعها؛إنهم يقدمون نسختهم المصححة كخدمة للمجتمع، لذلك يمكن للأشخاص المهتمين بناء ما تديره Yahoo داخليًا.نظرًا لحجم مجموعات Yahoo، تعد هذه مساهمة كبيرة، خاصة إذا لم تكن مطور Hadoop ويتابع JIRAs طوال الوقت.تدعم Cloudera توزيعها تجاريًا، بالإضافة إلى توفير بعض الدعم المجتمعي عبر قوائم Hadoop البريدية، وللمشكلات الخاصة بالتوزيع، على صفحة GetSatisfaction الخاصة بهم.

كلاهما مختلفان تمامًا عن توزيعة Vanilla Apache نظرًا لأنهما يقومان بتصحيحها بين الإصدارات (يحتوي الإصدار 20 من cloudera على أكثر من 60 تصحيحًا!).

نصائح أخرى

توقفت شركة Yahoo عن التوزيع الخاص بها وركزت على Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-dependent-to-the-apache-hadoop-project/

في الآونة الأخيرة، تم فصل HortonWorks (www.hortonworks.com) عن شركة Yahoo.والآن ستوفر HortonWorks أيضًا الدعم على عكس Yahoo.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera على نفس المنوال مثل HortonWorks

http://www.cloudera.com/products-services/

يتمثل الاختلاف الرئيسي في رغبة HortonWorks في جعل توزيعات Apache مستقرة وسهلة التثبيت وغيرها.في حين أن Cloudera لديها توزيع CDH* خاص بها استنادًا إلى Apache Hadoop.

هناك أسباب مختلفة لاختيار توزيع Hadoop مثل Cloudera أو Hortonworks أو MapR بدلاً من Apache Hadoop.هناك ميزتان كبيرتان هما دعم الأدوات والدعم التجاري.لديك أيضًا الكثير من المتاعب في "جمع ودمج" جميع أطر عمل Hadoop مثل Pig وHive وما إلى ذلك.في الإصدارات الصحيحة والمتوافقة.

ألق نظرة على مقالتي في InfoQ.وهو يشرح الاختلافات بين توزيعات Apache Hadoop وHadoop ومجموعات البيانات الضخمة، ومتى يتم استخدام أي منها:

http://www.infoq.com/articles/BigDataPlatform

أطيب التحيات،

كاي فانر (@KaiWaehner، www.kai-waehner.de/blog)

SquareCog على حق في جميع النقاط تقريبًا باستثناء:ياهو!التوزيع هو ما يتم تشغيله في جميع مجموعات الإنتاج في Yahoo!، وليس مجموعة فرعية منها.هذا هو أكثر من 25000 آلة في المجموع.ياهو!خضع التوزيع للاختبار الشامل والشامل اللازم لضمان التشغيل الموثوق والمتسق.أما التوزيع الآخر فهو أكثر ليبرالية فيما يتعلق بتطبيق التصحيحات وبالتالي قد يحتوي على المزيد من الميزات، ولكن لم يتم اختباره على نطاق واسع.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top