Pregunta

¿Puede alguien esbozar las distintas diferencias entre las distintas distribuciones de Hadoop disponibles?

usando la distribución Apache Hadoop como línea de base.

¿Existe una buena razón para usar una de estas distribuciones sobre la distribución estándar Apache Hadoop?

¿Fue útil?

Solución

Descargo de responsabilidad: hice una pasantía en Cloudera este verano (pero algunos de mis mejores amigos están en Yahoo! :-))

La distribución de Yahoo es una versión de Hadoop 20 que ejecutaron (¿corrieron?) en algún subconjunto de sus clusters. Incluye un conjunto de parches para la estabilidad, corrección de errores, etc. Es una versión fuente; no tiene funciones fáciles de usar como paquetes rpm o debian, etc.

La distribución de Cloudera son paquetes como rpms y debs (la fuente también está disponible). Esto significa que puede obtener actualizaciones a través de métodos estándar, etc. También incluye parches de estabilidad y corrección de errores. Se mantiene constantemente (por no decir que no es de Yahoo, supongo que uno podría simplemente ir al github y verificar cuándo se actualizó por última vez). También los paquetes de cerdo y colmena.

La distribución de Heraop 20 de Cloudera está en beta, y 18 se considera estable (más sobre esto en blog de Cloudera ). La versión 18 también incluye paquetes para Hive y Pig; para 20, debe crearlos usted mismo (aún no hay versiones oficiales de Pig o Hive que soporten 20, aunque existen parches). Bien puede haber una superposición significativa entre las versiones de Cloudera y Yahoo de 20; Ambos proporcionan manifiestos, para que puedas comprobarlos. La documentación más reciente de las distribuciones de Cloudera se encuentra en http://archive.cloudera.com

Yahoo no proporciona soporte para su distribución; proporcionan su versión parcheada como un servicio a la comunidad, por lo que las personas interesadas pueden crear lo que Yahoo ejecuta internamente. Dado el tamaño de los clústeres de Yahoo, esa es una contribución significativa, especialmente si no eres un desarrollador de Hadoop que sigue las JIRA todo el tiempo. Cloudera admite su distribución comercialmente, además de brindar cierto apoyo de la comunidad a través de las listas de correo de Hadoop y, para problemas específicos de la distribución, en su página GetSatisfaction.

Ambos son bastante diferentes de la distro vainilla de Apache, ya que se parchean entre versiones (la versión de Cloudera de 20 tiene más de 60 parches).

Otros consejos

Yahoo ha descontinuado su propia distribución y se centra en Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of -hadoop /

http: / /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Recientemente, HortonWorks (www.hortonworks.com) se sacó de Yahoo. Y ahora, HortonWorks también brindará soporte a diferencia de Yahoo.

http://www.hortonworks.com/about-us/our-manifesto /

Cloudera está en la misma línea que HortonWorks

http://www.cloudera.com/products-services/

La principal diferencia es que HortonWorks quiere que las distribuciones de Apache sean estables, fáciles de instalar y otras. Mientras, Cloudera tiene su propia distribución CDH * basada en Apache Hadoop.

Hay diferentes razones para elegir una distribución de Hadoop como Cloudera, Hortonworks o MapR en lugar de Apache Hadoop. Dos grandes ventajas son las herramientas de soporte y el soporte comercial. También tiene muchos problemas para " recopilar e integrar " todos los marcos de trabajo de Hadoop como Pig, Hive, etc. en versiones correctas y compatibles.

Eche un vistazo a mi artículo en InfoQ. Explica las diferencias entre las distribuciones de Apache Hadoop, Hadoop y Big Data, y cuándo usar cuál:

http://www.infoq.com/articles/BigDataPlatform

Saludos cordiales,

Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

SquareCog tiene razón en casi todos los puntos excepto en: Yahoo! la distribución es lo que se ejecuta en todos los clústeres de producción en Yahoo !, no un subconjunto de ellos. Esto es más de 25,000 máquinas en total. El Yahoo! La distribución ha tenido las extensas pruebas de extremo a extremo necesarias para garantizar un funcionamiento confiable y consistente. La otra distribución es más liberal sobre la aplicación de parches y, por lo tanto, puede tener más funciones, pero no se ha probado de forma tan exhaustiva.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top