Frage

Kann jemand die verschiedenen Unterschiede zwischen den verschiedenen Hadoop Distributions umreißen zur Verfügung:

, um die Apache Hadoop-Distribution als Basis verwenden.

Gibt es einen Grund , um mit einem der folgenden Verteilungen über die Standard-Apache Hadoop-Distribution?

War es hilfreich?

Lösung

Disclaimer: Ich bei Cloudera interniert in diesem Sommer (aber einige meiner besten Freunde sind bei Yahoo!: -))

Die Yahoo-Verteilung ist eine Version von Hadoop 20, dass sie (RAN?) Auf einer Teilmenge ihrer Cluster ausgeführt werden. Es enthält eine Reihe von Patches für Stabilität, Fehlerbehebung usw. Es ist eine Source-Version ist; es muss nicht Admin-Features wie rpm oder Debian-Pakete, etc.

Die Cloudera Distribution Pakete als RPMs und Debs (die Quelle ist ebenfalls verfügbar). Dies bedeutet, dass Sie Updates über Standardmethoden bekommen, usw. Es beinhaltet auch die Stabilität und Bug-Fix-Patches. Es wird ständig gepflegt (nicht zu sagen, Yahoo ist nicht - ich denke, man könnte nur auf Github gehen und überprüfen, wenn sie es zuletzt aktualisiert). Es ist auch Pakete Pig und Hive.

Cloudera Distribution von Hadoop 20 ist in der Beta, und 18 ist als stabil (mehr dazu auf der Cloudera Blog ). Die 18-Version enthält auch Pakete für Hive und Pig; 20, haben Sie sie selbst (es gibt keine offiziellen Releases von Schwein oder Hive, die mit 20 unterstützen noch, obwohl Patches vorhanden sind) zu bauen. Es auch erhebliche Überschneidungen zwischen der Cloudera und Yahoo-Versionen von 20 sein können; beide bieten Manifeste, so können Sie überprüfen. Die neueste Dokumentation von Cloudera distros ist unter http://archive.cloudera.com

Yahoo bietet keine Unterstützung für ihre Verteilung; sie bieten ihre gepatchte Version als Dienst an der Gemeinschaft, so dass die Leute, die interessiert sind, können bauen, was Yahoo läuft intern. Angesichts der Größe der Yahoo-Cluster, das ist ein wichtiger Beitrag, vor allem wenn Sie nicht ein Hadoop-Entwickler sind, die die Jiras die ganze Zeit folgt. Cloudera unterstützt ihre Verteilung im Handel, sowie einige Community-Support über die Hadoop Mailinglisten bereitstellt und für Distro-spezifische Fragen, auf ihre Get Satisfaction Seite.

Beide sind ziemlich verschieden von der Vanille Apache-Distribution, da sie es zwischen den Veröffentlichungen (die cloudera Version 20 hat 60+ Patches!) Patch in.

Andere Tipps

Yahoo hat seine eigene Verteilung eingestellt und die Konzentration auf Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of -hadoop /

http: / /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Vor kurzem Hortonworks (www.hortonworks.com) wurde aus Yahoo gesponnen. Und jetzt Hortonworks wären auch die Unterstützung im Gegensatz zu Yahoo bieten.

http://www.hortonworks.com/about-us/our-manifesto /

Cloudera ist auf der gleichen Linie wie Hortonworks

http://www.cloudera.com/products-services/

Der Hauptunterschied ist Hortonworks will, dass die Apache-Distributionen stabil, einfach zu installieren und andere machen. Während hat Cloudera seine eigene Verteilung CDH * basierend auf dem Apache Hadoop.

Es gibt verschiedene Gründe für die Wahl eines Hadoop Distribution wie Cloudera, Hortonworks oder MapR statt Apache Hadoop. Zwei große Vorteile sind Werkzeuge, Unterstützung und kommerzielle Unterstützung. Sie haben auch eine Menge Ärger „zu sammeln und zu integrieren“, um all Hadoop-Frameworks wie Schwein, Hive, usw. in Recht und kompatible Versionen.

Werfen Sie einen Blick auf meine Artikel zu InfoQ. Es erklärt Unterschiede zwischen Apache Hadoop, Hadoop-Distributionen und große Daten-Suiten, und wenn zu verwenden, die ein:

http://www.infoq.com/articles/BigDataPlatform

Mit freundlichen Grüßen,

Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

SquareCog liegt direkt an fast allen Punkten mit Ausnahme: Die Yahoo! Verteilung ist das, was auf allen Produktionscluster bei Yahoo !, ausgeführt wird nicht eine Teilmenge von ihnen. Das ist mehr als 25.000 Maschinen insgesamt. Die Yahoo! Verteilung hat die umfassenden End-to-End-Tests hat notwendig zuverlässigen, konsistenten Betrieb zu gewährleisten. Die andere Verteilung ist liberalere über Patches und so mehr Funktionen haben kann, hat aber nicht so ausgiebig getestet worden.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top