基于Hadoop的海量数据统一存取优化技术

需积分: 8 105 浏览量更新于2024-08-11 收藏 1.67MB PDF 举报

"多格式海量数据统一存取的索引结构 (2013年) 是一篇关于提高海量数据存取效率的论文，主要探讨如何在Hadoop环境下优化非主键索引结构，并通过分布式数据读取模式、层次索引结构、缓冲策略和查询处理策略来改善性能。该文提出了基于HDFS的层次索引结构，适用于B-树和R-树变种，以解决键-值存储的不足，并通过新数据传输模型和查询处理策略减少数据传输开销，提高查询响应速度。实验结果证实了这些方法的有效性。" 这篇论文主要关注以下几个核心知识点： 1. **基于Hadoop的分布式数据读取模式**：为了处理多格式海量数据，作者提出了一种新的分布式数据读取模式，利用Hadoop的分布式计算能力，优化了数据的存取流程。 2. **非主键索引结构研究**：传统键-值存储在处理非主键索引时可能存在效率低下的问题，论文对此进行了深入研究，并寻找解决方案。 3. **基于HDFS的层次索引结构**：为了克服键-值存储的局限，提出了一个层次索引结构，这个结构可以适应B-树和R-树等索引算法，从而提供更高效的检索能力。 4. **Hadoop缓冲策略**：设计了特定的Hadoop缓冲策略，以减少数据读取和处理过程中的I/O操作，从而降低系统开销。 5. **随机读取的新数据传输模型**：针对大数据环境下的随机访问需求，创建了一个新的数据传输模型，旨在优化数据传输效率。 6. **查询处理策略**：为了进一步提高查询效率，论文还提出了相应的查询处理策略，这些策略能够减少查询响应时间，提高系统的整体性能。 7. **实验验证**：通过实验，证明了所提出的索引结构和策略能够在多格式海量数据统一存取中有效提升性能，具体表现为随机存取效率的优化、查询响应时间的减少以及数据传输开销的降低。这篇论文的贡献在于为大数据环境下不同格式数据的统一存取提供了一套综合的解决方案，这对于处理日益增长的数据量和复杂的数据结构具有重要的实践意义。

　　收稿日期：２０１２０９１７；修回日期：２０１２１１０９　　基金项目：国家科技重大专项资助项目（２０１１ＺＸ０５０２３００５０１２）

作者简介：冯亚丽（１９５８），女，甘肃榆中人，教授，主要研究方向为数据库理论与应用；丁良奎（１９８７），男，黑龙江伊春人，硕士研究生，主要

研究方向为软件工程与集成技术（ｄｉｎｇｌｉａｎｇｋｕｉ＠１６３．ｃｏｍ）；刘永江（１９６５），男，天津人，高级工程师，主要研究方向为高性能计算；王兴兆（１９７６），

男，黑龙江大庆人，工程师，主要研究方向为企业级移动应用．

多格式海量数据统一存取的索引结构



冯亚丽

１

，丁良奎

１

，刘永江

２

，王兴兆

３

（１．东北石油大学计算机与信息技术学院，黑龙江大庆１６３３１８；２．中海油研究中心技术研究部地球物理重点

实验室，北京１０００２７；３．中国石油管道公司信息中心，河北廊坊０６５０００）

摘　要：为提高多格式海量数据统一存取效率，提出了一种基于Ｈａｄｏｏｐ的分布式数据读取模式。并通过对海

量数据非主键索引结构的研究，结合统一存取的描述理念，提出了基于ＨＤＦＳ的一种可适用于Ｂ树和Ｒ树及其

变种的层次索引结构，改变了原键—值存储在非主键索引结构中的劣势。通过提出Ｈａｄｏｏｐ缓冲策略、基于随机

读取的新数据传输模型以及相应的查询处理策略，进一步降低了数据传输开销。实验表明，该系列方法优化了

统一存取中随机存取效率，减少了相应的查询响应时间和数据传输开销，提高了多格式海量数据统一存取的

性能。

关键词：Ｒ树；索引；海量数据；查询处理

中图分类号：ＴＰ３１１；ＴＰ３０１６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１３）０６１６６４０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１３．０６．０１５

Ｉｎｄｅｘｓｔｒｕｃｔｕｒｅｏｆｕｎｉｆｉｅｄａｃｃｅｓｓｉｎｂｉｇｄａｔａｏｆｍｕｌｔｉｆｏｒｍａｔ

ＦＥＮＧＹａｌｉ

１

，ＤＩＮＧＬｉａｎｇｋｕｉ

１

，ＬＩＵＹｏｎｇｊｉａｎｇ

２

，ＷＡＮＧＸｉｎｇｚｈａｏ

３

（１．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒ＆ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＮｏｒｔｈｅａｓｔＰｅｔｒｏｌｅｕｍＵｎｉｖｅｒｓｉｔｙ，ＤａｑｉｎｇＨｅｉｌｏｎｇｊｉａｎｇ１６３３１８，Ｃｈｉｎａ；２．ＧｅｏｐｈｙｓｉｃａｌＬａｂｏ

ｒａｔｏｒｙ，Ｄｅｐｔ．ｏｆＴｅｃｈｎｏｌｏｇｙＲｅｓｅａｒｃｈ，ＣＮＯＯＣＲｅｓｅａｒｃｈＣｅｎｔｅｒ，Ｂｅｉｊｉｎｇ１０００２７，Ｃｈｉｎａ；３．ＩｎｆｏｒｍａｔｉｏｎＣｅｎｔｅｒ，ＣｈｉｎａＰｅｔｒｏｌｅｕｍＰｉｐｅｌｉｎｅＣｏｍ

ｐａｎｙ，ＬａｎｇｆａｎｇＨｅｂｅｉ０６５０００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｄｉｓｔｒｉｂｕｔｅｄｄａｔａａｃｃｅｓｓｍｏｄｅｂａｓｅｄｏｎＨａｄｏｏｐｕｎｄｅｒｌｙｉｎｇｔｈｅｕｎｉｆｉｅｄａｃｃｅｓｓｄｅｓｉｇｎｏｆｔｈｅ

ｂｉｇｄａｔａｏｆｍｕｌｔｉｆｏｒｍａｔ．Ｔｈｒｏｕｇｈｔｈｅｒｅｓｅａｒｃｈｏｎｔｈｅｓｔｒｕｃｔｕｒｅｏｆｔｈｅｂｉｇｄａｔａｗｉｔｈｎｏｎｐｒｉｍａｒｙｋｅｙｉｎｄｅｘ，ｃｏｍｂｉｎｉｎｇｗｉｔｈｔｈｅ

ｔｈｅｏｒｙｏｆｔｈｅｕｎｉｆｉｅｄａｃｃｅｓｓ，ｔｈｉｓｐａｐｅｒｇａｖｅａＨＤＦＳｂａｓｅｄｈｉｅｒａｒｃｈｉｃａｌｉｎｄｅｘｓｔｒｕｃｔｕｒｅ，ｗｈｉｃｈｗａｓａｐｐｌｉｅｄｔｏｂｏｔｈＢｔｒｅｅａｎｄ

Ｒｔｒｅｅａｎｄｔｈｅｉｒｖａｒｉａｎｔｓ

，ｔｈｅｒｅｂｙｃｈａｎｇｉｎｇｔｈｅｄｉｓａｄｖａｎｔａｇｅｏｆｔｈｅｏｒｉｇｉｎａｌｋｅｙｖａｌｕｅｓｔｏｒａｇｅｉｎｔｈｅｓｔｒｕｃｔｕｒｅｗｉｔｈｎｏｎｐｒｉｍａｒｙ

ｋｅｙｉｎｄｅｘ．Ｔｏｆｕｒｔｈｅｒｒｅｄｕｃｅｔｈｅｄａｔａｔｒａｎｓｆｅｒｏｖｅｒｈｅａｄ，ｉｔｐｕｔｆｏｒｗａｒｄＨａｄｏｏｐｂｕｆｆｅｒｉｎｇｓｔｒａｔｅｇｙ，ａｎｅｗｄａｔａｔｒａｎｓｆｅｒｍｏｄｅｌ

ｂａｓｅｄｏｎｒａｎｄｏｍｒｅａｄａｎｄｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｑｕｅｒｙｐｒｏｃｅｓｓｉｎｇｓｔｒａｔｅｇｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｓｅｒｉｅｓａｂｏｖｅｗｅｌｌｉｍ

ｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｕｎｉｆｉｅｄａｃｃｅｓｓａｎｄｒｅｄｕｃｅｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｑｕｅｒｙｒｅｓｐｏｎｓｅｔｉｍｅａｎｄｄａｔａｔｒａｎｓｆｅｒｏｖｅｒｈｅａｄ．

Ｋｅｙｗｏｒｄｓ：Ｒｔｒｅｅ；ｉｎｄｅｘｅｓ；ｂｉｇｄａｔａ；ｑｕｅｒｙｐｒｏｃｅｓｓｉｎｇ

　引言

在当前各领域信息处理中均存在着海量的大数据文件

（很多达到ＴＢ级），这些大数据文件均以某种存储格式存储

在不同的存储介质中，不同格式的数据也需要不同的处理方

法。文献［

１］提出了一种按照物理数据的格式建立数据体的

逻辑结构，将逻辑层的接口标准化，通过对逻辑层的统一操

作来实现对物理数据统一访问的数据处理方法。这种设计

在缩短了开发周期、节约了软件运行成本的同时，也由于在

物理层与应用层间添加了逻辑层，从而增加了操作步骤，影

响了访问速度，存在着效率降低的弊端。因此，基于这种统

一存取设计的思想，本文把逻辑层的部分索引工作抽取出来

交由新的索引机制去完成，并优化原有的索引结构以加快数

据的访问速度。

并行计算是在大数据处理中提高索引性能的有效方

式

［２］

。与当前大数据领域中对数据的组织与存储一致的是，

单机存储已经不能满足大数据集处理的需求。本文改变了原

设计单节点交互模式的数据处理方式，将大数据集存储在

ＨＤＦＳ（Ｈａｄｏｏｐｄｉｓｔｒｉｂｕｔｅｄｆｉｌｅｓｙｓｔｅｍ）下，并提出一个基于块的

可适用于

Ｂ树和Ｒ树及其变种的层次索引结构。该结构利用

ＨＤＦＳ本身的属性，并结合了统一存取的描述理念，在数据集

的非主键索引中较键—值存储结构有明显的优势。同时提出

了Ｈａｄｏｏｐ缓冲策略、新数据传输模型及查询处理策略。通过

实验表明，该方法很好地提高了统一存取的索引速度，减少了

相应的查询响应时间和数据传输开销，提高了数据的存取

效率。

　相关工作



　统一存取基本思想的分析

基于逻辑层的统一存取框架如图１所示。最上层接口为

应用层，最下层是存放数据的物理层，通常的数据存取方法都

第３０卷第６期

２０１３年６月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３０Ｎｏ６

Ｊｕｎ２０１３

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38704857

粉丝: 10
资源: 895

基于Hadoop的海量数据统一存取优化技术

HashMap模块源码—— 高效随机存取数据结构 ,文本索引必备

易语言-HashMap模块源码—— 高效随机存取数据结构 ,文本索引必备

HDFS海量小文件存取优化1

HDFS海量小文件存取优化3

matlab存取Raw格式图像数据

基于微机的三维地震资料可视化系统的数据格式及数据存取

Hadoop支持的多格式大数据统一存取索引优化

HBase+ElasticSearch：海量交通数据实时存取优化方案

"HDFS海量小文件存取优化：项目背景、元数据节点和文件系统功能属性总结

随机存取顺序存取索引存取散列存取区别

最新资源