我想知道是否有一种方法可以在HBase中获取以前版本的特定Rowkey,而无需编写MapReduce程序并将值平均出来。我很奇怪这是否可以使用蜂巢或飞羚(或其他类似程序)以及你将如何做到这一点。

我的桌子如下所示:

  Composite keys          Values 
  (md5 + date + id) | (value)
.

我想平均所有版本的特定日期和id的子字符串的所有值。

提前谢谢。

有帮助吗?

解决方案

impala使用蜂巢转移来将表的逻辑概念映射到物理存储在HDFS或HBase中的数据(有关更多详细信息,请参阅 cloudera文档)。

要了解有关如何讲述存储在HBase中的数据的蜂巢转移的信息,请参阅 Hive文档

不幸的是,如上所述链接的Hive文档所指出的:

目前无法访问HBASE TIMESTAMP属性,以及 查询总是使用最新时间戳

访问数据

有一些工作要在 Hive-中添加了此功能2828 ,虽然不幸的是,这项工作尚未合并为树干。

因此,对于您的应用程序,您必须重新设计HBase Schema以包含“版本”列,告诉Hive Metastore关于此新列,并使您的应用程序意识到此列。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top