并行处理Skyline查询：PAPSQ算法

68 浏览量更新于2024-09-01 收藏 957KB PDF 举报

"一种并行处理Skyline查询的有效方法，通过结合多维数据对象的特性与通用多处理机系统的优点，使用搜索偏序格作为基础结构，并利用同胚评估值和偏序格加权技术提高并行处理效率。PAPSQ算法在实验中表现出高效性和实用性，特别适用于CPU敏感的Skyline查询，克服了单处理机环境下处理Skyline查询的局限性。" Skyline查询是数据库领域的研究热点，主要因为它在数据分析、决策支持和信息检索等多个领域有广泛应用。Skyline查询的目标是从多维数据集中找出那些不被其他任何数据点在所有维度上全面优于的数据点集合，这些数据点被称为 skyline点。然而，由于Skyline查询涉及到大量的比较操作，它对CPU的依赖度高，导致在单处理机环境下处理大规模数据时，计算时间开销很大，限制了其在实际应用中的效果。针对这一问题，提出的PAPSQ（Parallel Algorithm for Processing Skyline Queries）并行算法旨在有效降低处理Skyline查询的时间成本。PAPSQ算法巧妙地利用了多维数据对象自身的特性，结合通用多处理机系统的优势，构建了一个基于搜索偏序格的框架。偏序格是一种数学结构，用于表示数据之间的部分顺序关系，能有效地组织和比较数据点，从而减少不必要的计算。在PAPSQ算法中，多维数据对象的同胚评估值是一个关键概念，它允许算法快速判断两个数据点是否在所有维度上具有可比性。此外，通过引入偏序格加权技术，算法能够更加智能地分配计算任务，优化并行处理的负载平衡，进一步提升效率。实验结果证实，PAPSQ算法在性能上表现优秀，不仅提高了查询速度，而且具有很好的实用性，适应于大规模数据集的Skyline查询。该研究对于处理CPU敏感的Skyline查询具有重大意义，尤其是在大数据时代，对数据处理速度和效率的要求日益增高。通过并行计算，PAPSQ算法能够显著减少计算时间，提高系统的响应能力，为实时数据分析和决策支持提供了有力工具。同时，这种算法也为未来并行处理和分布式计算在数据库领域的应用提供了新的思路和方法。

第 36 卷第 7 期自动化学报 Vol. 36, No. 7

2010 年 7 月 ACTA AUTOMATICA SINICA July, 2010

一种并行处理 Skyline 查询的有效方法

黄震华

1, 2

向阳

薛永生

赵杠

摘要 Skyline 查询是近年来数据库领域的一个研究重点和热点, 这主要是因为 Skyline 查询在许多领域有着广泛的应

用. 现有的工作大都集中于单处理机环境, 然而, 由于 Skyline 查询是 CPU 敏感的, 因此, 在实际应用中, 现有的方法具有很

大的局限性. 基于此, 提出一种有效降低处理 Skyline 查询时间开销的并行算法 PAPSQ (Parallel algorithm for processing

skyline queries). 算法有机结合多维数据对象的自身特性和通用多处理机系统的实施优点, 以 Skyline 查询搜索偏序格为底层

结构, 利用多维数据对象的同胚评估值和偏序格加权技术来有效提高并行处理 Skyline 查询的效率. 实验评估表明, PAPSQ

算法具有有效性和实用性.

关键词 Skyline 查询, 并行处理, 搜索偏序格, 查询优化, 性能评估

DOI 10.3724/SP.J.1004.2010.00968

An Eﬃcient Method for Parallel Processing of Skyline Queries

HUANG Zhen-Hua

1,2

XIANG Yang

XUE Yong-Sheng

ZHAO Gang

Abstract Skyline query processing has recently received a lot of attention in database community. Most related works

fo cus on the single processor environment. However, since skyline queries are CPU-sensitive and time costly, the existing

metho ds have prodigious limitations in real applications. Motivated by the ab ove fact, in this paper, we propose an eﬃcient

metho d for parallel processing of skyline queries, called parallel algorithm for processing skyline queries (PAPSQ). The

PAPSQ algorithm seamlessly combines the speciality of multidimensional data objects and the implementary advantage

of universal multiprocessor systems. Specially, the PAPSQ algorithm takes the partial order lattice of skyline queries

as substrate structure, and utilizes the homeomorphism evaluation of multidimensional data objects and the weighted

technology to markedly improve the performance of parallel processing of skyline queries. Furthermore, detailed theoretical

analyses and extensive experiments are given to demonstrate that the algorithm is both eﬃcient and eﬀective.

Key words Skyline queries, parallel processing, search lattice, query optimization, performance evaluation

Skyline 查询处理技术是近年来数据库领域的

一个研究重点和热点. 这主要是因为 Skyline 查询

在许多领域有着广泛的应用, 如: 多标准决策支持

系统

[1]

, 城市导航系统

[2]

, 数据挖掘和可视化

[3]

以

及用户偏好查询

[4]

等. 给定有限规模的对象集合

收稿日期 2008-09-22 录用日期 2010-03-17

Manuscript received September 22 2008; accepted March 17,

2009

国家高技术研究发展计划 (863 计划) (2008AA04Z106), 国家自然科

学基金 (60903032), 教育部博士点基金 (20090072120056), 同济大学

青年优秀人才基金 (0800219093) 资助

Supported by National High Technology Research and De-

velopment Program of China (863 Program) (2008AA04Z106),

National Natural Science Foundation of China (60903032), the

Ph. D. Program Foundation of Ministry of Education of China

(20090072120056), and the Outstanding Young Foundation of

Tongji University (0800219093)

1. 同济大学电子与信息工程学院上海 200092 2. 同济大学嵌入式

系统与服务计算教育部重点实验室上海 200092 3. 厦门大学信息科

学与技术学院厦门 361005 4. 复旦大学信息科学与工程学院上海

200433

1. School of Electronics and Information, Tongji University,

Shanghai 200092 2. Key Laboratory of Embedded System

and Service Computing, Ministry of Education, Tongji Univer-

sity, Shanghai, 200092 3. School of Information Science and

Technology, Xiamen University, Xiamen 361005 4. School of

Information Science and Engineering, Fudan University, Shang-

hai 200433

SO = O

, · · · , O

, 其中 O

(i ∈ [0, n]) 具有 δ 维属

性, 每维属性衡量它的一个子特征 (比如距离、价格

等); Skyline 查询就是在 SO 中找出满足如下条件

的每个对象 p: 不存在 SO 中的某一对象 r, 使得 r

在所有 δ 维上的取值均不比 p 差, 并且至少在一个

维上的取值比 p 优. 显然, 不在 Skyline 查询结果中

的那些对象不影响用户的最终选择. 　　

Skyline 查询最早由 Borzsonyi 等

[1]

引进到数

据库领域中, 并提出两个可行的查询算法: 块嵌套

循环 (Block nested loop, BNL) 算法以及分区回归

(Divide and conquer, DC) 算法. 随后, Chomicki

等

[2, 5]

在 BNL 算法的基础上提出一种先进行对象

排序, 再进行比较的查询方法, 即排序过滤 (Sort

ﬁlter skyline, SFS) 算法. 基于索引的方法最早由

Kossmann 等

[3]

提出. 在文中, 作者给出一种基于

R-树索引的计算方法, 即最邻近 (Nearest neighbor,

NN) 算法. 而 Papadias 等

[4, 6]

指出 NN 算法的缺

陷, 并提出一种基于排序 R-树节点的方法: 分支约

束 (Branch and bound skyline, BBS) 算法. BBS

算法克服了 NN 算法冗余比较节点的不足, 且比 NN

算法具有更强的剪枝能力. 实验评估表明, BBS 算

法具有最好的查询效率. Sharifzadeh 等

[7]

首次在空

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38689041

粉丝: 1
资源: 963

并行处理Skyline查询：PAPSQ算法

xxl.rar_skyline algorithm_skyline java_skyline查询_skyline查询算法_xxl

基于MapReduce的增广动态Skyline查询处理方法

一种采用预排序策略的多核并行skyline算法

MulticoreStreams:这是一个关于多核架构上的并行数据流处理的项目。 以 Skyline 查询为例

面向大规模数据集的并行化Top-k Skyline查询算法* (2015年)

弹性可扩展的并行n-of-N Skyline查询处理算法

预排序多核并行Skyline算法提升大数据处理效率

并行化Top-k Skyline查询算法在大规模数据集上的应用

Skyline:这个存储库是关于我研究的一些代码——Skyline 查询

Explanations-for-Skyline-Demo:Skyline 查询结果解释 (S. Chester & I. Assent) 论文的演示

最新资源

MulticoreStreams:这是一个关于多核架构上的并行数据流处理的项目。以 Skyline 查询为例