質問
利用可能なさまざまなHadoopディストリビューションのさまざまな違いを誰かが概説できますか:
- Cloudera - http://www.cloudera.com/hadoop
- Yahoo - http://developer.yahoo.net/blogs/ hadoop /
ベースラインとしてApache Hadoopディストリビューションを使用する。
標準のApache Hadoopディストリビューションでこれらのディストリビューションの1つを使用する正当な理由はありますか?
解決
免責事項:私はこの夏、Clouderaでインターンを務めました(ただし、私の親友の何人かはYahoo!にいます:-))
Yahooディストリビューションは、クラスターの一部のサブセットで実行(実行?)されたHadoop 20のバージョンです。安定性、バグ修正などのための一連のパッチが含まれています。これはソースリリースです。 rpmやdebianパッケージなどの管理者フレンドリーな機能はありません。
Clouderaディストリビューションは、rpmおよびdebsとしてパッケージ化されています(ソースも入手可能です)。これは、標準的な方法などで更新を取得できることを意味します。また、安定性とバグ修正パッチも含まれます。これは常に維持されています(Yahooがそうではないことは言うまでもありません-githubに行って最後に更新した日時を確認できると思います)。また、PigとHiveもパッケージ化します。
ClouderaのHadoop 20のディストリビューションはベータ版であり、18は安定していると見なされています(詳細については、 Clouderaブログ)。 18バージョンには、HiveとPigのパッケージも含まれています。 20については、自分でビルドする必要があります(パッチは存在しますが、20をサポートするPigまたはHiveの公式リリースはまだありません)。 ClouderaとYahooのバージョン20の間にはかなりの重複があるかもしれません。どちらもマニフェストを提供するため、確認できます。 Clouderaのディストリビューションの最新ドキュメントは、 http://archive.cloudera.com
にあります。Yahooは、配布のサポートを提供していません。パッチを適用したバージョンをサービスとしてコミュニティに提供するため、興味のある人はYahooが内部で実行するものを構築できます。 Yahooクラスターのサイズを考えると、特にJIRAを常にフォローしているHadoop開発者でない場合、これは大きな貢献です。 Clouderaは商業的に配布をサポートし、Hadoopメーリングリストや、ディストリビューション固有の問題についてはGetSatisfactionページでコミュニティサポートを提供しています。
どちらも、リリースの間にパッチを当てているため、バニラApacheディストリビューションとはかなり異なります(20のclouderaバージョンには60以上のパッチがあります!)。
他のヒント
Yahooは独自の配布を中止し、Apache Hadoopに焦点を当てています。
http:/ /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/
最近、HortonWorks(www.hortonworks.com)はYahooから分離されました。そして現在、HortonWorksはYahooとは異なりサポートも提供しています。
http://www.hortonworks.com/about-us/our-manifesto /
ClouderaはHortonWorksと同じラインに沿っています
http://www.cloudera.com/products-services/
>主な違いは、HortonWorksはApacheディストリビューションを安定させ、インストールを簡単にし、他のものを作りたいということです。 Clouderaには、Apache Hadoopに基づく独自のディストリビューションCDH *があります。
Apache Hadoopの代わりにCloudera、Hortonworks、MapRなどのHadoopディストリビューションを選択する理由はさまざまです。 2つの大きな利点は、ツールサポートと商用サポートです。また、「収集と統合」という多くの問題もあります。互換性のある正しいバージョンのPig、HiveなどのすべてのHadoopフレームワーク。
InfoQでの私の記事をご覧ください。 Apache Hadoop、Hadoopディストリビューション、およびビッグデータスイートの違いと、どちらを使用するかについて説明します。
http://www.infoq.com/articles/BigDataPlatform
よろしく、
Kai Wä hner(@ KaiWaehner、www.kai-waehner.de / blog)
SquareCogは、以下を除くほぼすべてのポイントで使用できます。配布は、Yahoo!のすべての運用クラスターで実行されるものであり、それらのサブセットではありません。これは合計で25,000台を超えるマシンです。 Yahoo!配布には、信頼性の高い一貫した動作を確保するために必要な、広範囲にわたるエンドツーエンドのテストがあります。他のディストリビューションはパッチの適用に関してより寛大なので、より多くの機能を備えているかもしれませんが、広範囲にテストされていません。