可以有效的MapReduce在共享的元组空间(例如:数据库)的工作?

StackOverflow https://stackoverflow.com/questions/2407588

  •  18-09-2019
  •  | 
  •  

我要求此作为我想知道如果它可能是有效的,以在数据库或共享存储键值运行MapReduce的查询?

例如,要实现web拖网渔船,该指标的互联网和计算不同网页上的所有条款,这哪是一个数据库作为后台高效地完成?

有帮助吗?

解决方案

不确定。 HBase的和其他的NoSql存储非常适合这个任务。

请参阅此文章一个使用的HBase用的MapReduce的一般概述。

  

HBase的是Hadoop的数据库。用它   当你需要随机的,实时   读给你的大数据/写访问。   该项目的目标是托管   非常大的表 - 数十亿行的   X百万列 - 集群之上   商品硬件。

     

HBase的是一个开放源码的,分布式的,   面向列存储仿照   谷歌”的Bigtable:一个分布式   通过结构化数据存储系统   Chang等。就像Bigtable的   利用分布式数据存储   由谷歌文件系统提供,   HBase的提供Bigtable的样   在Hadoop之上的能力。 HBase的   包括:

     

•的 便利基类为后盾   Hadoop的MapReduce作业与HBase的   表

     

•查询谓词下推经由   服务器侧扫描并获得滤波器

     

•优化即时查询

     

•高性能节俭网关   •休息-FUL Web服务网关   支持XML,的Protobuf和二进制   数据编码选项

     

•级联源和宿的模块

     

•可扩展的jruby基(JIRB)壳

     

•用于经由所述出口的Hadoop度量支持   度量子系统文件或神经节;   或通过JMX

其他提示

一个数据库不是反手的风格的WebCrawler适当的解决方案。

您可能需要阅读这篇文章。

http://highscalability.com /如何-Rackspace公司-现在用途-MapReduce的和Hadoop的查询兆兆字节数据

谢谢, Ñ

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top