没有合适的资源?快使用搜索试试~ 我知道了~
首页集合运算驱动的数据立方体结构提升区域查询性能
集合运算驱动的数据立方体结构提升区域查询性能
需积分: 9 0 下载量 109 浏览量
更新于2024-09-07
收藏 57KB PDF 举报
本文档深入探讨了一种新颖的数据立方体结构,该结构特别针对区域查询进行了优化设计。传统的数据立方体处理方式通常涉及将查询区域分解成多个点,然后逐一进行点查询,这在处理大规模数据时效率较低,且可能导致存储空间浪费。作者吴杰和蒋外文提出的创新方法则是通过引入集合运算,如索引和集合的交并操作,直接对数据立方体进行处理,避免了繁琐的分解过程。 这种新结构的优势在于能够减少磁盘空间的占用,因为通过集合运算,数据的存储更为紧凑,且在进行点查询时,由于算法优化,响应时间得到提升。特别是对于区域查询,这种方法显著提高了性能,实现了在保持较低存储成本和良好点查询速度的前提下,显著地提升了查询效率。 论文详细阐述了数据立方体的生成算法,以及如何利用集合运算来高效执行查询操作。生成算法旨在构建一个结构化的数据模型,使得集合运算可以有效地应用到数据检索过程中。此外,作者还通过合成数据和实际数据的实验验证了这一方法的有效性和优越性。实验结果显示,新结构在处理各种类型的查询请求时,无论是点查询还是区域查询,都能展现出显著的性能提升。 这篇论文为数据仓库和在线分析处理领域提供了一个创新的解决方案,特别是在面对大量数据和复杂查询需求时,展示了其在空间效率、查询速度和性能优化方面的潜力。这对于数据密集型应用,如商业智能和大数据分析等领域具有重要的实际意义。
资源详情
资源推荐
收 稿日期 : 2006-09-17; 修 返日期 : 2006-12-31
作 者简介 : 吴杰( 1973- ) , 男 , 湖南株 洲人, 硕 士研究 生, 主要 研究 方向 为 数据 仓 库( wujieh@ 163. com) ; 蒋 外文 ( 1948- ) , 男 , 湖 南 长沙 人 , 教授 ,
主要研 究方向 为大 型数据 库技 术及应 用.
基 于 集 合 运 算 的 数 据 立 方 体 结 构
吴 杰, 蒋外文
( 中南 大学 信 息科 学与 工程学 院, 长沙 410083)
摘 要: 提 出一 种新 的数 据立 方体 结构 , 通 过索 引和 集合 的 交并 运 算 来 获 得 查 询结 果 , 特 别 是 在进 行 区 域 查 询
时, 避免 了将 区域 分解 为点 后再 依次进 行点 查询 的方 式, 从 而 在保 持 较 少 的磁 盘 空 间 和 较 好 的 点查 询 响 应 速 度
的情 况下 , 改 善区 域查 询的 性能 ; 同 时给 出其 生成和 查询 算法 , 并使用 合成 数据 和实 际数 据进 行了 实验 验证。
关键 词: 数 据仓 库; 数 据立 方体 ; 联机分析 处理 ; 区域 查询 ; 集合 运算
中图 分类 号: TP311 文 献标 志码: A 文 章编 号: 1001-3695( 2007) 11-0225-03
Data cube structure based on operation of sets
WU Jie, JIANG Wai-wen
( School of Information Science & Engineering, Central South University, Changsha 410083, China)
Abstract: This paper proposed anewdata cube structure to avoid the model that firstly decomposed the range to alot of points
and then performed the point queries one by one. By means of index and intersection and union operations of sets, it notonly
also had lowdisk storage costand comparativelygood performance of pointqueries, butalso improved the performance of range
query. Then gave the algorithms of computing the datacube and queries also. Inthe end, the results of experiments by using
both the synthetic and real data sets.
Key words: data warehouse; data cube; on-line analytical processing; range queries; operation of sets
0 引言
Date cube
[ 1]
是 OLAP一个 非常 重要 的操 作符。虽 然数 据
立方体预计算并保存查询结 果, 能够提 高查询 响应速 度, 但 也
存在着很大的问题: 占用 巨大的 磁盘空 间、维 护工作 量大且 不
能很好地适用于高维的情况。到目前为止, 研究者们提出了四
类解决方法: a) 部分 视 图型 数据 立 方体。在 给 定的 存储 空 间
约束或维护时间约束下, 有选择地实例化数据立方体中的部分
视图, 但查询响应时 间比 数据 立方 体 长。 b) 近 似计 算型 数 据
立方体。利用柱状图和小波变换技术压缩数据立方体, 但得到
的查询结果是近似的。c) 元组共 享型数 据立方 体。 例如 con-
densed cube
[ 2]
、quotient cube
[ 3]
、封闭立 方体
[ 4]
、FreeCube
[ 5]
, 利
用元组共享原理只实例化数据立方体视图中的某些元组, 对稀
疏型 数 据立 方 体 有很 高 的 压缩 比, 但 查 询 响应 时 间 仍较 长。
d) 特殊存储结构型数据立方体。采用 R-tree 或 prefix tree 结构
来组织数据立方体中的元组, 如 cubetrees
[ 6]
和 dwarf
[ 7]
, 然 而维
数越大, 其查询性能越不好。
在上述四类方法中, 元组共享型数据立方体具有较好的综
合性能: 精确的查询结果; 很高的数据压缩比; 较短的查询响应
时间。然而它们在进行区域 查询时, 将 区域分 解为点, 然后 进
行点查询, 使得一个区域 查询相 当于大 量的点 查询, 也就导 致
了查询效率较低。为此, 本文提出一种部分视图的数据立方体
的概念, 在保持与它们类似的空间性能和点查询响应速度的情
况下, 提高区域查询的速度。
1 基本概念和生成算法
1. 1 基本概念
假设 多 维 数 据 空 间 为 ( D
1
, D
2
, …, D
n
, M
1
, M
2
, …, M
m
) 。
其中: D
i
是维属性; M
i
为度量 属性; 设 第 i 个 维的 取值 数目 表
示为 D
i
。首先依 据维 的基 数, 对维 按降 序进 行 排序。假 设 排
列后的维顺序为 D
1
, D
2
, …, D
n
, 之 所以要 如此 对维 排序, 是 为
了减少后面的集合运算时间。
该结构只存储整个数据立 方体格 中的一 维方体 和在预 设
维顺序排列中相邻的二维方体, 其他方体在查询时通过集合运
算或索引得出, 即 Set( d
i
d
j
d
k
) = Set( d
i
) ∩ Set( d
i
) ∩ Set( d
k
) 。 其
中: d
i
、d
j
、d
k
分别为 D
i
D
j
D
k
上的具体维值; Set( d
i
) 表示方体 d
i
所对应的基本元组索引集。如果 d
i
和 d
j
分别处在两个相邻的
维上, 那么有 Set( d
i
d
j
d
k
) =Set( d
i
d
j
) ∩Set( d
k
) 。
例如, 对表 1 中的基本元组表所 对应的 数据立 方体格 ( 图
1) , 只存储 S、P、Q、SP、PQ、SPQ 六个 方体。对于 方体 SQ 可 以
通过 S 和 Q 所 对 应 的 基 本 元 组 集 进 行 交 运 算 得 出, 即
Set( SQ) = Set( S) ∩Set( Q) 。
图 1 数据 立方体 格
表 1 基本元 组表
S P Q M
S
1
P
1
Q
1
10
S
1
P
2
Q
1
30
S
1
P
3
Q
2
20
S
2
P
2
Q
2
40
第 24 卷第 11 期
2007 年 11 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 24 No. 11
Nov. 2007
S P Q
Level3
Level2
Level1
Level0
all
SP SQ PQ
SPQ
下载后可阅读完整内容,剩余3页未读,立即下载
weixin_39841882
- 粉丝: 444
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功