我在看一些建设数据仓库/查询基础设施,现在在地图上的顶部/减少Hadoop等解决方案。

不过,这让我感到所有的M / R的工作只是在重复什么RDBMS家伙已经解决了过去20年的并行SQL数据库。并行SQL实现规模读取和跨节点写入,就像M / R,但附加地已经包含从常规数据库(SQL,现有的集成库,等等)。

的细微

问题是:你似乎还没有找到这些公司发布在网上很多的客户。因此,没有人在这里有这些类型的解决方案的经验,可以给我一些见解和/或链接?

有帮助吗?

解决方案

我已经使用的Netezza和Hadoop。并有Infobright的,列数据库的二手知识。

Netezza公司是一个真正的数据库,并实现ACID属性,其既具有成本和益处。 Netezza的朝向允许更多M / R代码与TwinFin的新体系结构在其表数据运行移动。在以前版本的设备的他们支持用户自定义函数和聚合。在新版本中,这对业务板运行Linux操作系统,并使用英特尔处理器,门被打开,以接近数据做更多的自定义代码。我与Netezza公司的经验是非常积极的 - 无论是技术和公司

Hadoop是纯地图减少计算。它不会产生ACID数据库属性的成本。所以,这真是一个不同的野兽比Netezza公司。根据不同的使用模式可能比Netezza公司更好,更便宜的肯定。 Hadoop的支持了HBase的和蜂巢,可能会给你你需要以较低的成本查询方便。

我们团队另一个显影剂评价Infobright的,所以这是秒针,发现负载性能变差并且一些聚集的要慢。它有一些相似之处Netezza公司(例如区映射中的Netezza用于帮助窄扫描范围)。 Infobright的是开源的同时具有社会和支持的企业版。

还有很多,可以在您的特定问题的背景下说的 - 或许超出了本次论坛的范围。希望这有助于。

其他提示

您还没有指定你想什么样的问题与您的疑问解答,或者你的数据是如何构成的。在您选择使用什么样的解决方案,你可能需要考虑这两件事情。

您是正确的:主要的RDBMS供应商提供的集群解决方案;既用于并行处理和高可用性。他们已经有这个技术了一段时间,有很多数据是可能使用它的任何企业。当你买($$$)的产品,他们会给你大量的文件,并帮助您设置(更多$$$),如果你能负担得起。

RDBMS是良好的在线交易(OLTP);回答关于特定行(其中不玛丽住?)的问题;回答一些总结型题(了多少钱,我们在第一季度销售等),虽然它们可以制成进行详细的总结题(了多少钱,我们在第一季度销售,按产品,销售人员,按月细分,和区域?),你通常开始征税了极限(即需要访问所有行的任何查询将是缓慢的)。

有关的那些类型的查询大多数企业具有数据仓库,所述数据结构转换成多维“立方体”。 (见COGNOS,海波,其他)。这可能是适合你想要做什么。

我没有与任何的MapReduce经验,但我读过关于使用维基百科部分所以如果你想要做什么属于这些类别我会继续使用它。

如果您是在快节奏的不断发展的组织,你应该使用Teradata的。我们真的有Teradata的一个很好的经验。它给你不能通过任何其他供应商给出的可扩展性。一旦你习惯了它的SQL和工作方式,你会真正体会到Teradata解决方案的设计和架构。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top