Question

Quelqu'un peut-il décrire les différentes différences entre les différentes distributions Hadoop disponibles:

en utilisant la distribution Apache Hadoop comme base.

Existe-t-il une bonne raison d'utiliser l'une de ces distributions par rapport à la distribution standard Apache Hadoop?

Était-ce utile?

La solution

Disclaimer: J'ai effectué un stage chez Cloudera cet été (mais certains de mes meilleurs amis sont chez Yahoo!: -))

La distribution Yahoo est une version de Hadoop 20 qu’ils ont exécutée sur un sous-ensemble de leurs clusters. Il inclut un ensemble de correctifs pour la stabilité, les corrections de bugs, etc. Il s’agit d’une version source; il n’a pas de fonctionnalités conviviales pour l’administrateur comme les paquets rpm ou debian, etc.

La distribution Cloudera est constituée de packages tels que rpms et debs (le source est également disponible). Cela signifie que vous pouvez obtenir des mises à jour via des méthodes standard, etc. Il inclut également des correctifs de stabilité et de correction de bugs. Il est constamment maintenu (pour ne pas dire que Yahoo n'est pas - je suppose qu'on pourrait simplement aller sur github et vérifier quand ils l'ont mis à jour). Il emballe également Pig et Hive.

La distribution de Hadoop 20 par Cloudera est en version bêta et 18 est considérée comme stable (plus de détails à ce sujet sur la blog Cloudera ). La version 18 inclut également des packages pour Hive et Pig; pour 20, vous devez les construire vous-même (il n'y a pas encore de versions officielles de Pig ou Hive qui prennent en charge 20, bien que des correctifs existent). Il pourrait y avoir un chevauchement important entre les versions Cloudera et Yahoo de 20; les deux fournissent des manifestes, donc vous pouvez vérifier. La documentation la plus récente sur les distributions de Cloudera est disponible à l'adresse http://archive.cloudera.com

.

Yahoo ne fournit pas de support pour leur distribution; ils fournissent leur version corrigée en tant que service à la communauté, afin que les personnes intéressées puissent créer ce que Yahoo exécute en interne. Compte tenu de la taille des clusters Yahoo, c'est une contribution importante, surtout si vous n'êtes pas un développeur Hadoop qui suit les JIRAs tout le temps. Cloudera prend en charge leur distribution sur le plan commercial, propose également une assistance à la communauté via les listes de diffusion Hadoop et, pour les problèmes liés à la distribution, sur leur page GetSatisfaction.

Les deux versions sont assez différentes de la distribution Apache vanilla puisqu'elles la corrigent entre deux parutions (la version 20 de Cloudera contient plus de 60 correctifs!).

Autres conseils

Yahoo a cessé sa propre distribution et s'est concentré sur Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of -hadoop /

http: / /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Récemment, HortonWorks (www.hortonworks.com) a été créé par Yahoo. Et maintenant, HortonWorks fournirait également une assistance contrairement à Yahoo.

http://www.hortonworks.com/about-us/our-manifesto /

Cloudera va dans le même sens que HortonWorks

http://www.cloudera.com/products-services/

La principale différence est que HortonWorks veut rendre les distributions Apache stables, faciles à installer et autres. Cloudera a sa propre distribution CDH * basée sur Apache Hadoop.

Il existe différentes raisons de choisir une distribution Hadoop, telle que Cloudera, Hortonworks ou MapR au lieu d’Apache Hadoop. Les deux principaux avantages sont le support des outils et le support commercial. Vous avez également beaucoup de mal à "collecter et intégrer" tous les frameworks Hadoop tels que Pig, Hive, etc. dans des versions correctes et compatibles.

Consultez mon article sur InfoQ. Il explique les différences entre Apache Hadoop, les distributions Hadoop et les suites Big Data, et indique le type d’utilisation:

http://www.infoq.com/articles/BigDataPlatform

Cordialement,

Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

SquareCog a raison sur presque tous les points sauf: le compte Yahoo! la distribution est ce qui est exécuté sur tous les clusters de production chez Yahoo !, pas un sous-ensemble d’entre eux. Cela représente plus de 25 000 machines au total. Le Yahoo! la distribution a subi les nombreux tests de bout en bout nécessaires pour assurer un fonctionnement fiable et cohérent. L’autre distribution est plus libérale à propos de l’application de correctifs et peut donc avoir plus de fonctionnalités, mais n’a pas été testée aussi complètement.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top