可以有效的MapReduce在共享的元组空间（例如：数据库）的工作？

https://stackoverflow.com/questions/2407588

mapreduce

18-09-2019
|

题

我要求此作为我想知道如果它可能是有效的，以在数据库或共享存储键值运行MapReduce的查询？

例如，要实现web拖网渔船，该指标的互联网和计算不同网页上的所有条款，这哪是一个数据库作为后台高效地完成？

解决方案

不确定。 HBase的和其他的NoSql存储非常适合这个任务。

请参阅此文章一个使用的HBase用的MapReduce的一般概述。

HBase的是Hadoop的数据库。用它   当你需要随机的，实时   读给你的大数据/写访问。   该项目的目标是托管   非常大的表 - 数十亿行的   X百万列 - 集群之上   商品硬件。

HBase的是一个开放源码的，分布式的，   面向列存储仿照   谷歌”的Bigtable：一个分布式   通过结构化数据存储系统   Chang等。就像Bigtable的   利用分布式数据存储   由谷歌文件系统提供，   HBase的提供Bigtable的样   在Hadoop之上的能力。 HBase的   包括：

•的 便利基类为后盾   Hadoop的MapReduce作业与HBase的   表

•查询谓词下推经由   服务器侧扫描并获得滤波器

•优化即时查询

•高性能节俭网关   •休息-FUL Web服务网关   支持XML，的Protobuf和二进制   数据编码选项

•级联源和宿的模块

•可扩展的jruby基（JIRB）壳

•用于经由所述出口的Hadoop度量支持   度量子系统文件或神经节;   或通过JMX

其他提示

一个数据库不是反手的风格的WebCrawler适当的解决方案。

您可能需要阅读这篇文章。

http://highscalability.com /如何-Rackspace公司-现在用途-MapReduce的和Hadoop的查询兆兆字节数据

谢谢， Ñ

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow