Вопрос

Может ли кто-нибудь обрисовать различные различия между различными доступными дистрибутивами Hadoop:

используя дистрибутив Apache Hadoop в качестве основы.

Есть ли хорошая причина использовать один из этих дистрибутивов поверх стандартного дистрибутива Apache Hadoop?

Это было полезно?

Решение

Отказ от ответственности:Этим летом я проходил стажировку в Cloudera (но некоторые из моих лучших друзей работают в Yahoo!:-))

Дистрибутив Yahoo — это версия Hadoop 20, которую они запускают (запускали?) в некотором подмножестве своих кластеров.Включает в себя набор патчей для стабильности, исправления ошибок и т.д.Это исходный код;у него нет удобных для администратора функций, таких как пакеты rpm или debian и т. д.

Дистрибутив Cloudera представляет собой пакеты в виде rpms и debs (исходники также доступны).Это означает, что вы можете получать обновления стандартными методами и т. д.Он также включает исправления стабильности и исправления ошибок.Он постоянно поддерживается (не говоря уже о том, что Yahoo не поддерживает его — я полагаю, можно просто зайти на github и проверить, когда они в последний раз его обновляли).Он также упаковывает Pig и Hive.

Дистрибутив Hadoop 20 компании Cloudera находится в стадии бета-тестирования, а версия 18 считается стабильной (подробнее об этом см. Блог Клаудеры).Версия 18 также включает пакеты для Hive и Pig;для 20 вам придется собрать их самостоятельно (официальных выпусков Pig или Hive, поддерживающих 20, пока нет, хотя патчи существуют).Вполне возможно, что между версиями Cloudera и Yahoo 20 существует значительное совпадение;оба предоставляют манифесты, так что вы можете проверить.Последняя документация по дистрибутивам Cloudera находится по адресу. http://archive.cloudera.com

Yahoo не обеспечивает поддержку их распространения;они предоставляют свою исправленную версию в качестве услуги сообществу, поэтому заинтересованные люди могут создавать то, что Yahoo использует внутри себя.Учитывая размер кластеров Yahoo, это значительный вклад, особенно если вы не являетесь разработчиком Hadoop, который постоянно следует JIRA.Cloudera поддерживает их распространение на коммерческой основе, а также предоставляет некоторую поддержку сообщества через списки рассылки Hadoop и, по вопросам, связанным с дистрибутивом, на своей странице GetSatisfaction.

Оба сильно отличаются от ванильного дистрибутива Apache, поскольку они исправляют его между выпусками (версия Cloudera 20 имеет более 60 патчей!).

Другие советы

Yahoo прекратила собственное распространение и сосредоточилась на Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Недавно компания HortonWorks (www.hortonworks.com) была выделена из Yahoo.И теперь HortonWorks также будет оказывать поддержку, в отличие от Yahoo.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera работает по тому же принципу, что и HortonWorks.

http://www.cloudera.com/products-services/

Основное отличие заключается в том, что HortonWorks хочет сделать дистрибутивы Apache стабильными, простыми в установке и т. д.В то же время у Cloudera есть собственный дистрибутив CDH*, основанный на Apache Hadoop.

Существуют разные причины для выбора дистрибутива Hadoop, например Cloudera, Hortonworks или MapR вместо Apache Hadoop.Два больших преимущества — это поддержка инструментов и коммерческая поддержка.У вас также есть много проблем со «собором и интеграцией» всех фреймворков Hadoop, таких как Pig, Hive и т. д.в правильных и совместимых версиях.

Взгляните на мою статью на InfoQ.В нем объясняются различия между Apache Hadoop, дистрибутивами Hadoop и пакетами больших данных, а также когда какой из них использовать:

http://www.infoq.com/articles/BigDataPlatform

С наилучшими пожеланиями,

Кай Венер (@KaiWaehner, www.kai-waehner.de/blog)

SquareCog прав почти по всем пунктам, кроме:Yahoo!Распределение — это то, что работает во всех производственных кластерах Yahoo!, а не в какой-то их части.Всего это более 25 000 машин.Yahoo!дистрибутив прошел обширное комплексное тестирование, необходимое для обеспечения надежной и стабильной работы.Другой дистрибутив более либерален в применении патчей и поэтому может иметь больше функций, но не тестировался так тщательно.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top