Cloudera与Intel合作优化Apache Spark shuffle性能：迈向更高可扩展与稳定性

24 浏览量更新于2024-08-28 收藏 326KB PDF 举报

本文探讨了如何通过Cloudera和英特尔公司的合作来优化Apache Spark的排序性能，特别是针对shuffle阶段的可扩展性和稳定性。Apache Spark与MapReduce这类Embarrassingly Parallel系统的主要区别在于其对"all-to-all"操作的支持，即处理整个数据集而非局部子集。在Spark中，常见的shuffle操作如groupByKey、sortByKey和reduceByKey需要跨数据片进行数据交换和聚合。 Spark的shuffle过程是分布式计算中的关键瓶颈，它涉及数据在多个节点之间的大规模复制和重新分布，这可能导致性能瓶颈和不稳定。为了改善这一点，工程师们专注于提升这一阶段的效率，借鉴MapReduce的经验，优化数据的写入和读取操作。具体来说，他们关注于以下几个方面： 1. **Shuffle实现模式**：当前的Spark shuffle包含两个步骤：一是map tasks负责生成shuffle数据，二是reduce tasks负责接收和处理这些数据。任务角色并非固定不变，同一个任务可以在不同的shuffle阶段中转换角色。 2. **性能瓶颈分析**：性能问题主要集中在shuffle阶段，由于数据的全局移动和处理，需要优化数据传输和处理速度，减少网络延迟和内存消耗。 3. **优化策略**：工程师们提出通过改进数据分布策略、利用更高效的通信协议、减少不必要的数据复制以及利用英特尔硬件加速等方式来提升shuffle性能。 4. **技术改进**：参考SPARK-2926等正在进行中的项目，研究人员正在探索新的算法和技术，如使用更有效的排序算法，或者通过分区和合并策略减少数据交换次数。 5. **可扩展性和稳定性**：目标是确保Spark在处理大规模数据集时能够保持良好的扩展性和稳定性，避免因为shuffle导致的整体性能下降。本文深入剖析了Spark现有shuffle机制的局限，并提出了通过技术创新和最佳实践来双倍提升排序性能的具体措施，以期解决实际生产环境中的性能瓶颈问题。

双倍提升双倍提升ApacheSpark排序性能排序性能

Cloudera和英特尔公司的工程师们正在通力合作，旨在使Spark shuffle阶段具有更高的可扩展性和稳定性。本文对相关方法的

设计进行了详细描述。

区别常见的Embarrassingly Parallel系统，类似MapReduce和Apache Spark（Apache Hadoop的下一代数据处理引擎）这样

的计算引擎主要区别在于对“all-to-all” 操作的支持上。和许多分布式引擎一样，MapReduce和Spark的操作通常针对的是被分

片数据集的子分片，很多操作每次只处理单个数据节点，同时这些操作所涉及到的数据往往都只存在于这个数据片内。all-to-

all操作必须将数据集看作一个整体，而每个输出结果都可以总结自不同分片上的记录。Spark的groupByKey、sortByKey，还

有reduceByKey这些shuffle功能都属于这方面常见的操作。

在这些分布式计算引擎中，shuffle指的是在一个all-to-all操作中将数据再分割和聚合的操作。显而易见，在实践生产中，我们

在Spark部署时所发现的大多性能、可扩展性及稳定性问题都是在shuffle过程中产生的。

Cloudera和英特尔的工程师们正通力合作以扩展Spark的shuffle，使得shuffle可以更加快速与稳定地处理大量的数据集。

Spark在很多方面相较MapReduce有更多优势，同时又在稳定性与可扩展性上相差无几。在此，我们从久经考验的

MapReduce shuffle部署中吸取经验，以提高排序数据输出的shuffle性能。

在本文中，我们将会逐层解析——介绍目前Spark shuffle的运作实现模式，提出修改建议，并对性能的提高方式进行分析。更

多的工作进展可以于正在进行中的SPARK-2926发现。

Spark目前的运作实现模式

一个shuffle包含两组任务：1. 产生shuffle数据的阶段；2.使用shuffle数据的阶段。鉴于历史原因，写入数据的任务被称

做“map task”，而读取数据的任务被称做“reduce tasks”，但是以上角色分配只局限于单个job的某个具体shuffle过程中。在一

个shuffle中扮演reduce的task，在另一个shuffle中可能就是map了，因为它在前者里面执行的是读取操作，而在后者中执行的

是数据写入任务，并在随后的阶段中被消费。

MapReduce和Spark的shuffle都使用到了“pull”模式。在每个map任务中，数据被写入本地磁盘，然后在reduce任务中会远程

请求读取这些数据。由于shuffle使用的是all-to-all模式，任何map任务输出的记录组都可能用于任意reduce。一个job在map时

的shuffle操作基于以下原则：所有用于同一个reduce操作的结果都会被写入到相邻的组别中，以便获取数据时更为简单。

Spark默认的shuffle实现（即hash-based shuffle）是map阶段为每个reduce任务单独打开一个文件，这种操作胜在简单，但实

际中却有一些问题，比如说实现时Spark必须维持大量的内存消耗，或者造成大量的随机磁盘I/O。此外，如果M和R分别代表

着一个shuffle操作中的map和reduce数量，则hash-based shuffle需要产生总共M*R个数量的临时文件，Shuffle consolidation

将这个数量减至C*R个（这里的C代表的是同时能够运行的map任务数量），但即便是经过这样的修改之后，在运行的reducer

数量过多时还是经常会出现“文件打开过多”的限制。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38550834

粉丝: 4
资源: 964

Cloudera与Intel合作优化Apache Spark shuffle性能：迈向更高可扩展与稳定性

快速排序算法及其改进算法的分析与评价.doc

博通组合芯片提供双倍Wi-Fi性能.pdf

微捷码帮助ziiLABS实现双倍性能和减半功耗的100核心ZMS-40处理器.pdf

对非教条软件开发的调查。 一项实验表明，与等效的本机 C 代码相比，在 JVM 上运行的代码具有双倍的性能。

Cloudera与英特尔优化Apache Spark：提升shuffle性能与稳定性

Java排序算法实践：冒泡与双倍冒泡排序

CAD双倍加速插件提升绘图效率

利用网卡链路聚合技术提升双倍带宽

提升同步静态RAM性能的关键技术概述

提升快递员心情：自定义双倍小费应用介绍

最新资源

对非教条软件开发的调查。一项实验表明，与等效的本机 C 代码相比，在 JVM 上运行的代码具有双倍的性能。