有人可以概述一下可用的各种 Hadoop 发行版之间的各种差异吗:

使用 Apache Hadoop 发行版作为基准。

有没有 好理由 在标准 Apache Hadoop 发行版上使用这些发行版之一?

有帮助吗?

解决方案

免责声明:今年夏天我在 Cloudera 实习(但我最好的一些朋友在 Yahoo!:-))

Yahoo 发行版是 Hadoop 20 的一个版本,他们在其集群的某些子集上运行(运行?)。它包括一组用于稳定性、错误修复等的补丁。它是一个源代码版本;它没有管理员友好的功能,如 rpm 或 debian 软件包等。

Cloudera 发行版以 rpm 和 deb 形式打包(源代码也可用)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它是不断维护的(并不是说雅虎不是——我想人们可以去 github 上检查他们上次更新它的时间)。它还封装了 Pig 和 Hive。

Cloudera 的 Hadoop 20 发行版处于测试阶段,18 被认为是稳定的(有关更多信息,请访问 Cloudera 博客)。18版本还包含Hive和Pig的包;对于 20,您必须自己构建它们(Pig 或 Hive 还没有支持 20 的官方版本,尽管存在补丁)。Cloudera 和 Yahoo 版本 20 之间很可能存在重大重叠;两者都提供清单,因此您可以检查。Cloudera 发行版的最新文档位于 http://archive.cloudera.com

雅虎不为其分发提供支持;他们将修补版本作为服务提供给社区,因此感兴趣的人可以构建雅虎内部运行的内容。考虑到 Yahoo 集群的规模,这是一个重大贡献,特别是如果您不是一直遵循 JIRA 的 Hadoop 开发人员。Cloudera 在商业上支持他们的发行版,并通过 Hadoop 邮件列表提供一些社区支持,对于发行版特定的问题,在他们的 GetSatisfaction 页面上提供。

两者与普通的 Apache 发行版有很大不同,因为它们在版本之间进行修补(cloudera 版本 20 有 60 多个补丁!)。

其他提示

雅虎已经停止了自己的发行版并专注于 Apache Hadoop。

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-lated-to-the-apache-hadoop-project/

最近,HortonWorks (www.hortonworks.com) 从雅虎中分离出来。现在 HortonWorks 也将提供与雅虎不同的支持。

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera 与 HortonWorks 有着相同的路线

http://www.cloudera.com/products-services/

主要区别是 HortonWorks 希望使 Apache 发行版稳定、易于安装等。同时,Cloudera 拥有自己的基于 Apache Hadoop 的发行版 CDH*。

选择 Hadoop 发行版(例如 Cloudera、Hortonworks 或 MapR)而不是 Apache Hadoop 有不同的原因。两大优势是工具支持和商业支持。您在“收集和集成”所有 Hadoop 框架(例如 Pig、Hive 等)时也会遇到很多麻烦。正确且兼容的版本。

看看我在 InfoQ 上的文章。它解释了 Apache Hadoop、Hadoop 发行版和大数据套件之间的差异,以及何时使用哪一个:

http://www.infoq.com/articles/BigDataPlatform

此致,

Kai Wähner(@KaiWaehner,www.kai-waehner.de/blog)

SquareCog 在几乎所有方面都是正确的,除了:雅虎!分发是在 Yahoo! 的所有生产集群上运行的集群,而不是其中的一个子集。机器总数超过 25,000 台。雅虎!发行版已进行了必要的广泛的端到端测试,以确保可靠、一致的运行。另一个发行版在应用补丁方面更加自由,因此可能具有更多功能,但尚未经过广泛测试。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top