質問

利用可能なさまざまなHadoopディストリビューションのさまざまな違いを誰かが概説できますか:

ベースラインとしてApache Hadoopディストリビューションを使用する。

標準のApache Hadoopディストリビューションでこれらのディストリビューションの1つを使用する正当な理由はありますか?

役に立ちましたか?

解決

免責事項:私はこの夏、Clouderaでインターンを務めました(ただし、私の親友の何人かはYahoo!にいます:-))

Yahooディストリビューションは、クラスターの一部のサブセットで実行(実行?)されたHadoop 20のバージョンです。安定性、バグ修正などのための一連のパッチが含まれています。これはソースリリースです。 rpmやdebianパッケージなどの管理者フレンドリーな機能はありません。

Clouderaディストリビューションは、rpmおよびdebsとしてパッケージ化されています(ソースも入手可能です)。これは、標準的な方法などで更新を取得できることを意味します。また、安定性とバグ修正パッチも含まれます。これは常に維持されています(Yahooがそうではないことは言うまでもありません-githubに行って最後に更新した日時を確認できると思います)。また、PigとHiveもパッケージ化します。

ClouderaのHadoop 20のディストリビューションはベータ版であり、18は安定していると見なされています(詳細については、 Clouderaブログ)。 18バージョンには、HiveとPigのパッケージも含まれています。 20については、自分でビルドする必要があります(パッチは存在しますが、20をサポートするPigまたはHiveの公式リリースはまだありません)。 ClouderaとYahooのバージョン20の間にはかなりの重複があるかもしれません。どちらもマニフェストを提供するため、確認できます。 Clouderaのディストリビューションの最新ドキュメントは、 http://archive.cloudera.com

にあります。

Yahooは、配布のサポートを提供していません。パッチを適用したバージョンをサービスとしてコミュニティに提供するため、興味のある人はYahooが内部で実行するものを構築できます。 Yahooクラスターのサイズを考えると、特にJIRAを常にフォローしているHadoop開発者でない場合、これは大きな貢献です。 Clouderaは商業的に配布をサポートし、Hadoopメーリングリストや、ディストリビューション固有の問題についてはGetSatisfactionページでコミュニティサポートを提供しています。

どちらも、リリースの間にパッチを当てているため、バニラApacheディストリビューションとはかなり異なります(20のclouderaバージョンには60以上のパッチがあります!)。

他のヒント

Yahooは独自の配布を中止し、Apache Hadoopに焦点を当てています。

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of -hadoop /

http:/ /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

最近、HortonWorks(www.hortonworks.com)はYahooから分離されました。そして現在、HortonWorksはYahooとは異なりサポートも提供しています。

http://www.hortonworks.com/about-us/our-manifesto /

ClouderaはHortonWorksと同じラインに沿っています

http://www.cloudera.com/products-services/

>

主な違いは、HortonWorksはApacheディストリビューションを安定させ、インストールを簡単にし、他のものを作りたいということです。 Clouderaには、Apache Hadoopに基づく独自のディストリビューションCDH *があります。

Apache Hadoopの代わりにCloudera、Hortonworks、MapRなどのHadoopディストリビューションを選択する理由はさまざまです。 2つの大きな利点は、ツールサポートと商用サポートです。また、「収集と統合」という多くの問題もあります。互換性のある正しいバージョンのPig、HiveなどのすべてのHadoopフレームワーク。

InfoQでの私の記事をご覧ください。 Apache Hadoop、Hadoopディストリビューション、およびビッグデータスイートの違いと、どちらを使用するかについて説明します。

http://www.infoq.com/articles/BigDataPlatform

よろしく、

Kai Wä hner(@ KaiWaehner、www.kai-waehner.de / blog)

SquareCogは、以下を除くほぼすべてのポイントで使用できます。配布は、Yahoo!のすべての運用クラスターで実行されるものであり、それらのサブセットではありません。これは合計で25,000台を超えるマシンです。 Yahoo!配布には、信頼性の高い一貫した動作を確保するために必要な、広範囲にわたるエンドツーエンドのテストがあります。他のディストリビューションはパッチの適用に関してより寛大なので、より多くの機能を備えているかもしれませんが、広範囲にテストされていません。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top