动态Hash连接：解决并行数据库的数据偏斜问题

下载需积分: 0 | PDF格式 | 303KB | 更新于2024-09-12 | 198 浏览量 | 举报

"本文介绍了一种名为DHJ (Dynamic Hash Join)的新方法，旨在解决并行数据库查询中数据偏斜问题的动态哈希连接技术。该方法通过在数据划分阶段添加附加桶来平衡输出，然后根据计算决定附加桶如何映射到处理器上，最终在连接阶段完成操作。DHJ避免了预处理阶段可能导致的高成本，并考虑了连接属性值分布不均和处理器间隐含的负载不平衡导致的数据偏斜。文章还提到了其他处理偏斜的连接算法，如GRACE和BSJ，但DHJ的独特之处在于其动态性和对不平衡负载的实时调整能力。" 在并行数据库系统中，哈希连接是一种常见的查询优化策略，用于执行两个或更多表之间的连接操作。然而，由于在连接操作前通常会进行选择和投影操作，这使得原始数据的分布难以预测，导致哈希函数难以实现工作负载的均匀分配。数据偏斜，即数据在各个处理单元上的不均匀分布，是并行计算环境中的一大挑战。它可能导致某些处理器过载，而其他处理器则处于空闲状态，极大地降低了系统效率。 DHJ方法首先在数据划分阶段引入附加桶，通过这种方式，即使面对未知的数据分布，也能尽可能地平衡输出。这种方法的关键在于，它不是在预处理阶段就固定桶的分配，而是在运行时根据实际数据分布进行动态调整。这样可以有效地应对内在固有偏斜（Intrinsic Skew）和划分偏斜（Partition Skew）这两种数据偏斜类型。在DHJ算法中，计算过程会确认哪些附加桶应该分配给哪个处理器，以确保每个处理器都能获得大致相等的工作量。在连接操作的最后阶段，实际的连接操作会在各个处理器之间进行，利用之前确定的桶分配来实现负载平衡。文献中提到的其他方法，如GRACE和BSJ算法，虽然也试图解决数据偏斜问题，但它们依赖于预处理步骤，或者需要在数据划分后重新分配桶。相比之下，DHJ算法提供了一种更灵活、更适应动态环境的解决方案。性能分析部分，作者可能详细讨论了DHJ算法在不同数据偏斜情况下的表现，包括时间复杂度、空间利用率以及与传统哈希连接方法相比的性能优势。这些分析对于理解DHJ在实际应用中的效果至关重要，帮助数据库管理员和系统设计者更好地评估和选择合适的连接策略。 DHJ方法是对并行数据库中哈希连接算法的重要贡献，它通过动态调整和负载平衡机制，有效地解决了数据偏斜问题，提高了并行查询的效率。这种方法对于处理大规模、分布不均的数据集具有显著的优势，尤其是在实时或近实时的查询环境中。

第

卷第

期

1 9 9 7

年

月

软件学报

JO U

N R

SOF T

AE R

主9 9 7

一种

避免数据偏斜的动态

a s

连接方

法

洪晓光

王

新军董

继

润

(

山

东大

学

计算机

系

济南

2 5 0 1 0

摘要本文提

出了一种

新

的

动

态

H as h

连接

方法

—

D H J ( d

m ic h as h

以

解决并行数据

库连接操作中

的

数据偏斜现象

为避

免

目

前某

些

算

法

提

出的预处

理中隐

含的

高

额

费

用

该

方

法

在划分阶段

通

过

增添

附加桶

的

方法来平衡输

出

然

后

依据计算确认

哪些

附加桶被映射到

处

理器

上并

确

定

处

理

器

分

配

在最后阶段

完

成连

接

本

文

最

后

给

出了

该算

法的

性能分

析

关键

词连

接

数

据偏

斜

动态

H as h

桶

平

衡

输出

中

图

法分类号

T P 3 1 1

1 3

连

接在并行数据库查询中得到大量运用

许多文章对此进行

了

讨论

并给出

了

相

应算法

一

〕

通常在连接之前

为减少参与连接的关系元组的数

目

可

先进行选择

和

投影操

作

因

此无法预知这些关系的分布情况

同时尚无一

种

函

数能够在此前提下得到均匀

的工作负载

不

平衡负载对并行操作会产

生

很大的负面影响

因

此为

了

充分利

用

连接

算法

研究负载平衡是很

重

要的

数据偏斜

导

致

不

平衡负载有很多原

因

连接

属

性值的不均

匀分布会导致内在

固

有偏斜

(

n s

w )

处理器间隐含着的连接中的负载不平衡将会

导致划分偏斜 (P

itt

o n

w )

因

此负载

的不

平衡

可

能发生在

连

接算法的

不

同阶段

有关偏斜处理

的连

接算法

已

有许多

如

G R A C

〕

它们大多是通过在

源

数据分布中获

得知识

以

减少连接阶段

不

平衡的发生

为此需要进行有效的预处理

如文献仁

」中

的

SJ 算

法是在数据划分处理结束之

后

在

已

知桶

的

大小的基

础

上再将桶分配到各处理器上

ol f

在文献 [

〕中提出

了

一种排序

算法

读取两个源关系

运用

局

部选择

和

投影

并将结果

当作一个粗

( C

) H

桶

的

集合

回

写

另

外基

于

一个细化

(

) H

函

数的统计被保

存在每个桶中

然后

一

个协处理器收集所有

和

。

的统计集合

并且计算出一个桶

的分配给各处理器

文献 [

] 中给出

了

一种动态

连接算法

它是通过在划分阶段动态

计算各处理器的当前负载量

发现不平衡

即

进行调整

划分阶段结束

即

进人连接阶段

不象

前面两种方法在划分

和

连接阶段之间增加

一

个

hc ed

阶段来平衡负载

不过

该方法虽

能对全局的数据进行平衡

但它要求更多

的

数据通信

和

消息传递

因

为它在划分阶段随时计

本

文

得

到国

家自然科学基金资

助

作者洪晓光

1 9 6 4

年生

讲师

主

要研究领域为分布式数据库

并行数据库

王新军

1 9 6

年

生

讲师

主

要研究领域为分布式数据库

并行数据库

, 继润

1 9 3 5

年

生

教授

主

要研究领域为分布式

数据库

并行数据库

演绎数据库

面

向对象数据库

本文通讯联系人

洪晓光

济南

。

山

东大学计算机系

本文

1 9

一

收

到

修改稿

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_43715967

粉丝: 0

动态Hash连接：解决并行数据库的数据偏斜问题

hash树的建立和在数据挖掘中的应用

行业分类-物理装置-一种实现数据负载均衡的方法、系统及电子设备.zip

NoSQL数据库之Redis数据库管理一(string类型和hash类型)

spark如何避免数据倾斜？

spark 如何避免数据倾斜

oracle中hash join 哈希连接的原理和案例 再换一种方法解释

hive full join 数据倾斜

hash 数据结构 脑图

hive中数据清洗倾斜

redis hashkey 方法

最新资源

oracle中hash join 哈希连接的原理和案例再换一种方法解释

hash 数据结构脑图