第 31 卷 第 3 期
2014 年 9 月
广东工业大学学报
Journal of Guangdong University of Technology
Vol. 31 No. 3
September 2014
收稿日期: 2014-04-09
基金项目: 广东省自然科学基金资助项目(S2011040004281,S2013010014457)
作者简介: 陈磊(1989-),男,硕士研究生,主要研究方向为时态信息处理和粒度计算.
doi:10. 3969 / j. issn. 1007-7162. 2014. 03. 018
HBase 下时态信息索引策略研究
陈 磊,封朝永
(广东工业大学 计算机学院,广州 510006)
摘要: 针对海量非结构化时态信息存储与快速检索的需求,提出使用 Hadoop 平台下的分布式、非结构化数据库
HBase 对海量时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;设计了多级分布式哈希索
引表算法(tDHT),实现对时态列族的时态属性值的高效、快速的检索. 通过将时态属性值向二维空间映射,实现时
态数据向空间对象的转化,采用对空间数据的处理方法对时态数据区域进行划分,生成多级时态数据子区域,利用
分布式哈希表思想设计 HBase 存储的多级索引表目录. 实验结果表明,该索引策略具有较高的性能,可以在一定程
度上加快对 HBase 中时态信息的检索速度.
关键词: 时态信息;HBase;数据存储;时态索引;分布式哈希表
中图分类号: TP301 文献标志码: A 文章编号: 1007-7162(2014)03-0102-07
Research on the Strategy for Temporal Information Index Based on HBase
Chen Lei, Feng Chao-yong
(School of Computers,Guangdong University of Technology,Guangzhou 510006,China)
Abstract: To meet the needs for storing and quick retrieving mass unstructured temporal information, it
proposed using the distributed and unstructured database HBase, which was on the Hadoop platform, to
store temporal data. Then, it built the temporal data storage model with the store unit as the temporal set,
and designed a Multi level indexed Distributed Hash Table (tDHT) algorithm to realize the retrieval for
the temporal attribute value of temporal column quickly and efficiently. By mapping from temporal attrib-
ute value to the two-dimensional space, the conversion from temporal data to space object was achieved,
the temporal data area was divided by using the processing method for spatial data, Multi level temporal
data sub-areas were generated, and the Multi level indexed DHT directory was constructed, which was
stored by HBase, using the methodology of DHT. The experiment results show that the index strategy can
achieve a good performance, and it can be used to accelerate temporal data retrieval in the HBase table to
a certain extent.
Key words: temporal information; HBase; data storage; temporal index; distributed hash table (DHT)
随着互联网技术的不断发展演变,信息呈现爆
炸性增长,如何在信息的海洋中提取、挖掘有效信息
成为各个领域和行业分析、处理以及应用的关键. 几
乎所有信息都显式或隐式地具备时态特征,如当前
热点事件“马航客机失联”,就是按照时间节点呈现
事件发展最新动态的. 在海量信息库中按照时间属
性快速、高效地检索到用户所需要的时态信息成为
研究的焦点,目前的研究主要集中于在时态数据库
理论基础上对时态属性构建索引,对此学者们从不
同角度进行了大量的研究. 文献[1] 提出 3 层结构
的针对有效时间的树形索引模型 VTIDM;文献[2]
扩展了时态数据库中对于不确定时态信息的表示方
法并创建索引机制;文献[3]给出了一种以 B + 树为
基本存储结构基于结构摘要的时态索引方法 CMap-
tree;文献[4]提出一种基于签名的索引方法来优化
存储和检索海量的相对时态模式;文献[5 - 6]针对
时态 XML 数据,构建不同的时态索引模型以支持时
态查询;对于快速活动产生大量、随机的时间戳数据