可以有效的MapReduce在共享的元组空间(例如:数据库)的工作?
-
18-09-2019 - |
题
我要求此作为我想知道如果它可能是有效的,以在数据库或共享存储键值运行MapReduce的查询?
例如,要实现web拖网渔船,该指标的互联网和计算不同网页上的所有条款,这哪是一个数据库作为后台高效地完成?
解决方案
不确定。 HBase的和其他的NoSql存储非常适合这个任务。
请参阅此文章一个使用的HBase用的MapReduce的一般概述。
HBase的是Hadoop的数据库。用它 当你需要随机的,实时 读给你的大数据/写访问。 该项目的目标是托管 非常大的表 - 数十亿行的 X百万列 - 集群之上 商品硬件。
HBase的是一个开放源码的,分布式的, 面向列存储仿照 谷歌”的Bigtable:一个分布式 通过结构化数据存储系统 Chang等。就像Bigtable的 利用分布式数据存储 由谷歌文件系统提供, HBase的提供Bigtable的样 在Hadoop之上的能力。 HBase的 包括:
•的 便利基类为后盾 Hadoop的MapReduce作业与HBase的 表 强>
•查询谓词下推经由 服务器侧扫描并获得滤波器
•优化即时查询
•高性能节俭网关 •休息-FUL Web服务网关 支持XML,的Protobuf和二进制 数据编码选项
•级联源和宿的模块
•可扩展的jruby基(JIRB)壳
•用于经由所述出口的Hadoop度量支持 度量子系统文件或神经节; 或通过JMX
其他提示
一个数据库不是反手的风格的WebCrawler适当的解决方案。
您可能需要阅读这篇文章。
http://highscalability.com /如何-Rackspace公司-现在用途-MapReduce的和Hadoop的查询兆兆字节数据
谢谢, Ñ