Hive / Impala选择和平均所有RowKey版本
题
我想知道是否有一种方法可以在HBase中获取以前版本的特定Rowkey,而无需编写MapReduce程序并将值平均出来。我很奇怪这是否可以使用蜂巢或飞羚(或其他类似程序)以及你将如何做到这一点。
我的桌子如下所示:
Composite keys Values
(md5 + date + id) | (value)
.
我想平均所有版本的特定日期和id的子字符串的所有值。
提前谢谢。
解决方案
impala使用蜂巢转移来将表的逻辑概念映射到物理存储在HDFS或HBase中的数据(有关更多详细信息,请参阅 cloudera文档)。
要了解有关如何讲述存储在HBase中的数据的蜂巢转移的信息,请参阅 Hive文档。 不幸的是,如上所述链接的Hive文档所指出的:目前无法访问HBASE TIMESTAMP属性,以及 查询总是使用最新时间戳
访问数据
有一些工作要在 Hive-中添加了此功能2828 ,虽然不幸的是,这项工作尚未合并为树干。
因此,对于您的应用程序,您必须重新设计HBase Schema以包含“版本”列,告诉Hive Metastore关于此新列,并使您的应用程序意识到此列。
不隶属于 StackOverflow