并行数据仓库：数据划分与操作策略

需积分: 0 140 浏览量更新于2024-09-07 收藏 219KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文探讨了在数据仓库环境中基于关系的并行数据处理技术，重点关注数据划分和操作，特别是Join操作的并行实现方法。作者吕成和金登男来自华东理工大学计算机系，该研究发表于2006年，旨在解决大数据量处理的需求，以提高数据仓库的性能和效率。" 在当前的信息时代，数据仓库已经成为企业决策支持系统的重要组成部分，处理着海量的数据。并行数据操作是解决大数据量处理的有效手段，它将数据分割并在多处理器或分布式系统上同时处理，从而显著提高处理速度。论文指出，随着并行计算技术的发展，这一领域已进入实际应用阶段，对于数据仓库来说，这种并行处理能力尤为重要。论文提出了一种可操作的并行化数据划分策略，这是构建高效并行数据仓库的关键步骤。数据划分旨在将大型表分成较小、更易管理的部分，以便在多个处理器之间分配工作负载。有效的数据划分可以优化I/O性能，减少数据传输，提高整体查询效率。作者还讨论了与这种数据存储方案相关的物理存储方案，考虑了如何有效地存储和访问这些划分后的数据块。论文的重点在于对Join操作的并行处理方法进行了详细分类和论述。Join操作是数据仓库中最常见的复杂操作之一，它涉及两个或更多表的连接，通常在数据分析和报表生成中使用。并行Join处理可以显著减少执行时间，通过并发执行Join任务的不同部分，使得大规模数据集的Join变得可能。论文可能涵盖了不同的Join类型，如Nested Loop Join、Hash Join和Sort-Merge Join，并讨论了如何在并行环境中优化这些操作的性能。此外，论文还可能涉及了并行数据操作的其他方面，如并行查询优化、并发控制和故障恢复策略。并行查询优化涉及如何调度并行任务以最小化资源竞争和最大化整体吞吐量。并发控制确保在多用户环境下数据的一致性和完整性，而故障恢复机制则保证了系统的高可用性。总体而言，这篇论文为并行数据仓库提供了深入的理解，特别是在处理大数据量时如何利用并行计算提升性能。对于从事数据库系统设计、开发和优化的专业人员来说，这是一个宝贵的资源，有助于他们设计更高效的并行数据处理解决方案。

资源详情

资源推荐

收稿日期: 2005-05-02; 修返日期: 2005-09-09

基于关系的并行数据仓库的数据划分和操作

吕成, 金登男

( 华东理工大学计算机系, 上海 200237)

摘要: 目前并行数据库的研究已经进入了实际应用阶段, 而数据仓库的大数据量处理更需要并行处理能力的

支持。针对数据仓库的特点, 提出了一种可操作的并行化数据划分方法和物理存储方案 , 同时对基于该种数据

存储的数据操作做了详细的讨论, 并对各种 Join 操作的具体处理方法进行了归类论述。

关键词: 并行数据操作; 数据仓库 ; 数据划分 ; Join 操作

中图法分类号 : TP311. 13 文献标识码 : A 文章编号: 1001-3695( 2006) 08-0212-04

Data Placement and Operation of Relation-based Parallel Data Warehouse

LV Cheng, JIN Deng-nan

( Dept. of Computer, East China University of Science & Technology, Shanghai 200237, China)

Abstract: Parallelize has already been used in DBMS, and is more useful in data warehouse which must handle the massive

data processing. The paper gives operable parallel ways for data placement and store in data warehouse environment, and also

discuss the data operation based this physical structure, especially the parallel implementing methods of Join operation.

Key words: Parallel Data Processing; Data Warehouse; Data Placement; Join Processing

1 引言

20 世纪 70 ～80 年代, 国外不少工作者潜心研究数据库机

器

[ 1]

, 其中很重要的一点就是致力于实现数据操作并行化的

专用硬件的设计。由于种种原因, 数据库机器最终没有进入实

用阶段, 但却为数据库系统的发展指明了方向。随着通用并行

计算机系统的发展和成熟, 并行数据库的研究取得了极大的进

展, 并已成为并行计算机研究的主要应用之一。目前各大主流

的商用数据库产品都成功地增加了并行处理能力, 如 Oracle 公

司的 OPS( Oracle Parallel Server) 、Informix 公司的 On-line Dy-

namic Server 和 Sybase 公司的 VSA( Virtual Server Architecture)

等。虽然这些产品大都还是在原有系统的基础上进行的并行

化改进, 但这足以说明并行技术的运用是目前高性能数据处理

的必由之路。

数据仓库的自身特点决定了对大规模数据进行有效的管

理和操作是技术层面的核心所在。目前世界上大型的数据仓

库系统( 如 WalMart, SBC) 的数据量已接近 200TB, 所以数据仓

库的应用对并行化技术提出了更高的要求。同时, 由于其数据

仓库一般专注于 OLAP和 DSS 等类型的操作, 因此可以在体系

结构上作具有针对性的优化或简化。

尽管现在主流的数据仓库解决工具提供了新的数据模型

解决方案, 如星型、立方体模型等, 它们对特定的 OLAP应用确

实起到了很好的效果, 但是如果以数据仓库作为企业信息系统

的基础, 绝对是一个适合于使用规范化方法的领域

[ 2]

。而其

他模型则可以用于以数据仓库为基础建立主题明确的数据集

市。本文以基于关系的数据仓库为对象, 在体系结构、数据存

储和操作性能方面, 在已有方法的基础上提出了可操作的解决

方案。

2 一种基于容错的体系架构

并行数据库系统的研究从一开始就与体系结构密切相关,

文献[ 3] 中归纳了四种典型的并行计算机结构: SE( Share Eve-

rything) , SM( Share Memory) , SD( Share Disk) , SN( Share Noth-

ing) 。1986 年, 美国学者 M. Stonebraker 提出 SN结构是支持并

行数据库系统的最好并行结构

[ 5]

, 它具有共享资源少、系统开

销小、加速比高等优点和近乎线形的可扩充性。早期的 Ga-

mma, Bubba 和 Tandem 均是 SN 结构的例子, 而国内的 PARO

等并行数据库原型系统也采用该结构。

图 1、图 2 就是使用最广泛的 SE 结构和 SN结构的模型。

一般来讲, 在处理机数目较少的并行系统中, SE 结构的性能超

过 SN和 SD 结构, 但是在高端的并行数据库系统中, 首选的还

是 SN结构。通过在每个 Note 上进行数据划分, 结合关系查询

固有的并行性, 实现以数据划分为基础的并行数据流方法

[ 3]

。

实际上, 现在的技术趋势是将这两种并行性结合起来, 实

现分层的结构模型, 即将基于 SE 结构的工作站运用到 SN 结

构的每个节点中去, 增强单个节点的处理能力, 形成超级节点

( Supernodes) , 而高速光纤互连技术在节点的连接方面提供了

·212· 计算机应用研究 2006 年

共享内存

噎

孕

员

孕

圆

孕

灶

连接网络

渊

总线

冤

阅蚤泽噪

粤则则葬赠泽

酝

员

孕

员

高速网络

晕

ote

酝

圆

孕

噎

酝

灶

孕

灶

图

员杂耘

结构图

圆杂晕

结构

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39840650

粉丝: 409
资源: 1万+

并行数据仓库：数据划分与操作策略

基于手语回译方法的符号序列生成与并行数据训练

r-Train: 一种基于并行系统的新型动态数据结构的研究与应用

基于并行聚类和无监督特征选择的数据集集成方法

"基于并行机器学习的区块链框架研究概要

基于hue和Hadoop的数据仓库架构设计

ad7606-fpga-并行,ad7606并行数据读取,verilog

计算机的毕业论文有哪些，各是什么意思

并行计算导论.pdf

mpi并行计算 pdf

vxe-table 两个数据并行展示

基于gpu的bwa序列比对算法分析与加速.pdf

将20个并行10位数据转为串行数据

并行程序设计导论.中文扫描版.pdf

并行数据与非并行数据的区别

并行数据和串行数据的相互转换过程

java并行计算π_并行计算--Java--求π并行实现

spark调优之 -- spark的并行度深入理解（别再让资源浪费了）

并行计算_mpi编程手册.pdf

vxe-table 两数据表数据并行展示

fpga并行编程pdf

最新资源