Spark作业执行优化：渐进填充分区映射与分配适应度算法

143 浏览量更新于2024-07-15 收藏 1.17MB PDF 举报

"该文基于Spark的作业执行机制，提出了一种新的分区映射算法——渐进填充分区映射算法（PFPM），旨在优化数据分配，减少Shuffle过程的同步延迟，提升集群计算效率。文章首先分析了Spark的工作原理，然后构建了执行效率模型和Shuffle过程模型，并定义了分配适应度（AFD）这一概念，作为算法优化的目标。通过扩展式分区和渐进填充映射策略，PFPM算法能够根据Reducer的计算能力制定适应性的数据分配方案。实验结果证明了该算法能有效改善Shuffle阶段的数据分配合理性，从而提高Spark作业的执行效率。" Spark是一种流行的分布式内存计算框架，其主要特点是支持快速迭代计算和容错性。在Spark中，Shuffle是一个关键操作，它发生在不同Stage之间，用于重新组织数据以满足后续计算的需求。然而，Shuffle过程可能导致大量的数据传输和I/O操作，成为性能瓶颈。本文的核心贡献是提出了分配适应度（Allocation Fitness Degree, AFD）的概念，这是一种评估数据分配是否适合Reducer计算能力的度量。分配适应度越高，表示数据分配越能充分利用Reducer的计算资源，减少等待时间。通过AFD，作者们设计了PFPM算法，该算法动态地进行数据分区和映射，以渐进的方式填充分区，确保数据分布更加均衡，从而减少Shuffle过程中的数据同步延迟。实验部分展示了PFPM算法的有效性，它显著提升了Shuffle过程的数据分配合理性，减少了不必要的网络传输，进而优化了Spark作业的整体执行效率。这对于大规模并行计算环境中的应用尤其重要，因为它可以减少计算资源的浪费，提高系统吞吐量。这项工作为Spark的性能优化提供了一个新的视角，即从数据分配的适应性角度出发，通过改进分区映射策略来提升整体计算效率。这种方法对于其他类似的并行计算框架也可能具有借鉴意义。

第 9 期卞琛等：基于分配适应度的 Spark 渐进填充分区映射算法 ·135·

由于会在作业执行过程中进行数据的二次迁移，因

此，相比于设计分区策略解决数据均衡问题的方

法，SkewTune 具有较大的计算代价。文献[26]在系

统中添加 Sketch-based 数据结构，用于分区容量的

实时统计和动态调配，并通过设计的分组算法将分

区指派给相应的 Reduce 端，达到数据均衡分配的

目标。

另外，一些研究成果期望通过了解近似的数据

分布制定合理的分区策略解决数据均衡问题。文献[27]

提出一种基于采样的分区策略。该策略通过在 Map

端增加独立的采样进程获得近似数据分布，采样达

到阈值后对已生成的分区进行拆分和重组，从而提

高数据分配的均衡性。文献[28,29]提出精细分区和

动态拆分 2 种算法，系统首先通过精细分区算法生

成固定数量的分区，同时进行采样获得近似数据分

布，当 Map 任务完成一定比例后，触发动态拆分函

数，达到数据合理分配的目标。但与上一研究成果

不同的是，系统将采样函数附加到 Map 任务中，避

免了复杂的通信开销。上述 2 种方法都是先采用原

生的散列方法生成分区，当采样达到阈值后进行有

且仅有一次的分区调整，因此，阈值的设定非常关

键，如果调整时机过早，由于数据分布的精确度不

足，数据分配的合理性难以保证，而调整时机过晚

则会延迟数据传输，影响计算效率。文献[30]提出

SCID 策略，该策略首先基于蓄水池采样法获得近

似的数据分布，在 Map 端根据数据量大小对元组进

行排序，然后将数据迭代填充到所有分区，若填充

数据量超过分区容量阈值，则启动一次拆分过程，

从而确保每个分区数据量相对均匀。文献[31,32]提

出基于数据块的采样分区方法，该方法将原生的键

值对转换为<blocking_key,entity>形式，通过设计评

估函数对块内数据进行评估，对不符合条件的数据

块进行调整，但分区调整仅有一次，没有解决如何

定义分区调整时机的问题。文献[33]提出 LIBRA 策

略，该策略通过系统空闲资源槽执行采样程序，从

而以更轻量级的方式获取近似数据分布，分区策略

仍采用二次划分机制，对超限数据元组进行拆分，

保障数据分配的均衡性。文献[34]提出先通过采样

制定分区函数，再执行任务填充分区的方法。该方

法在 Map 任务执行前先运行采样进程，对输入数据

进行 25%的随机采样，通过采样结果获得数据分布

并制定分区函数，然后启动 Map 任务，采用制定的

分区函数填充数据。文献[35]提出 LEEN 策略，通

过对输入数据的预扫描获取数据分布，在 Map 任务

执行过程中对 key 值的频率进行统计，然后综合数

据分布和 key 频率统计设定合理的分区函数。该策

略有效提高了数据分配的均衡性，但由于在原生系

统上嵌入了多个功能模块，算法的时间复杂度较

高。

其他一些研究成果则考虑不同的工作场景和

应用需求。文献[36]没有在即有的分区策略上做任

何改进，而是通过调整 HDFS 即有的副本策略，提

高数据访问本地性，缓解数据倾斜的影响。文献[37]

通过采样感知数据的近似分布，综合距离判定和开

销矩阵制定最优的调度策略，以减少通信开销的方

法缓解数据倾斜的影响。文献[38]

通过支持向量机

模型对集群环境进行性能预测，并设计结构感知的

数据分区方法。文献[39]针对进化采样方法样本密

度不均衡问题，将高密度样本和低密度样本分类管

理和采样，保障采样集的均衡性。文献[40]提出实

体匹配应用中的数据均衡方案，通过自适应调整的

数据窗口，实现近邻排序数据的均匀分配。

上述研究成果普遍以数据的均衡分配为目标，

未考虑节点计算能力差异和当前工作负载状况，仅

适用于同构且任务分布相对均匀计算集群。本文与

以上研究成果的不同之处在于，充分考虑分区映射

算法在异构集群和虚拟集群的适应性问题，从并行

计算模型的基本原理入手，将节点计算能力和当前

工作状况作为 Shuffle 过程数据分配的主要依据，设

计了渐进填充分区映射算法，提高数据分配与节点

计算能力的匹配度，优化作业执行效率。通过分析

作业的执行过程，建立了执行效率模型，提出了

RDD 计算代价和作业执行时间的定义，建立 Shuffle

过程模型，提出了分配适应度的定义，并证明定义

与作业执行效率的逻辑关系。根据渐进填充分区映

射算法的问题定义进行求解，提出了分区扩展算

法、分区筛选算法和分区映射算法，通过扩展式分

区，为数据的渐进填充奠定基础。通过适度倾斜的

数据分配，充分利用高效工作节点的计算能力，减

少 Reduce 任务的同步开销，从而从整体上优化作

业执行效率，改进系统性能。

3 问题的建模与分析

分析作业的并行执行机制，建立执行效率模型

和 Shuffle 过程模型，提出渐进填充分区映射的问题

定义，为渐进填充分区映射算法提供理论基础。

2017188-3

剩余14页未读，继续阅读

weixin_38618140

粉丝: 9
资源: 908

Spark作业执行优化：渐进填充分区映射与分配适应度算法

操作系统-动态分区分配算法代码

Sparkshuffle优化：基于分配适应度的渐进填充分区映射算法

基于遗传算法的矩形排样

C语言实现最佳适应算法及动态分区分配

"动态分区分配C语言代码模拟：首次适应和最佳适应算法实验

C语言动态分区首次适应与最佳适应算法详解

C++模拟操作系统动态分区：首次适应与最佳适应算法

遗传算法优化：适应度函数设计与性能提升

云计算环境下的双适应度遗传算法任务调度优化

最坏适应算法：空闲分区管理与JCB查找优化

最新资源