Spark高级性能优化：数据倾斜与shuffle调优策略

110 浏览量更新于2024-07-15 收藏 2.75MB PDF 举报

"Spark性能优化指南——高级篇深入探讨了数据倾斜和shuffle调优，旨在解决大数据计算中的复杂性能问题。文章首先介绍了数据倾斜调优的重要性，指出数据倾斜可能导致部分task执行异常缓慢，甚至造成内存溢出。接着，解释了数据倾斜的原理，即在shuffle操作中，大量数据集中在特定key的task上，导致处理不均衡。通过示例展示了数据倾斜现象，并指出定位数据倾斜代码的关键在于识别触发shuffle操作的算子。" 在《Spark性能优化指南》的高级篇中，作者首先强调了数据倾斜调优的必要性。数据倾斜是Spark作业性能下降的一个主要因素，表现为大部分task执行快速，但少数task耗时过长。这种不平衡可能导致整体作业执行时间显著延长，甚至出现OOM异常。理解数据倾斜的原理是解决这个问题的第一步。当执行涉及到key分组的操作如groupByKey、reduceByKey等时，如果某些key对应的记录数量远超平均值，就会引发数据倾斜。例如，某个key有大量数据，而其他key只有少量数据，那么拥有大量数据的task在处理时会遇到性能瓶颈。为了解决数据倾斜，首先需要定位导致倾斜的代码段。这通常涉及查找应用中触发shuffle操作的Spark算子。除了上述的distinct、groupByKey、reduceByKey和aggregate，还有join、coalesce、repartition等算子也可能引发数据倾斜。一旦找到这些操作，可以采取多种策略来优化，如增加分区数以分散数据、使用更高级的聚合操作（如combineByKey或foldByKey）来减少数据集中，或者采用预处理的方式平衡数据分布。此外，shuffle调优也是提高Spark性能的关键。优化shuffle包括调整shuffle.write.buffer.size以控制shuffle写入缓冲区大小，使用HashPartitioner或CustomPartitioner来改善数据分布，以及启用压缩以减少网络传输的数据量。通过合理配置这些参数，可以有效缓解数据倾斜问题，提高作业的执行效率。 Spark性能优化的高级篇提供了深入的数据倾斜和shuffle调优策略，帮助开发者针对大数据处理中的性能挑战找到解决方案，确保Spark作业能够高效稳定地运行。通过细致的分析和实践指导，开发者可以更好地理解和应对Spark在处理大规模数据时可能出现的性能问题。

时间以及分配的数据量，才能确定是否是由于数据倾斜才导致了这次内存溢出。

查看导致数据倾斜的key的数据分布情况

知道了数据倾斜发生在哪里之后，通常需要分析一下那个执行了shuffle操作并且导致了数据倾斜的RDD/Hive表，查看一下其

中key的分布情况。这主要是为之后选择哪一种技术方案提供依据。针对不同的key分布与不同的shuffle算子组合起来的各种

情况，可能需要选择不同的技术方案来解决。

此时根据你执行操作的情况不同，可以有很多种查看key分布的方式：

如果是Spark SQL中的group by、join语句导致的数据倾斜，那么就查询一下SQL中使用的表的key分布情况。

如果是对Spark RDD执行shuffle算子导致的数据倾斜，那么可以在Spark作业中加入查看key分布的代码，比如

RDD.countByKey()。然后对统计出来的各个key出现的次数，collect/take到客户端打印一下，就可以看到key的分布情况。

举例来说，对于上面所说的单词计数程序，如果确定了是stage1的reduceByKey算子导致了数据倾斜，那么就应该看看进行

reduceByKey操作的RDD中的key分布情况，在这个例子中指的就是pairs RDD。如下示例，我们可以先对pairs采样10%的样

本数据，然后使用countByKey算子统计出每个key出现的次数，最后在客户端遍历和打印样本数据中各个key的出现次数。

val sampledPairs = pairs.sample(false, 0.1)

val sampledWordCounts =

sampledPairs.countByKey()

sampledWordCounts.foreach(println(_))

数据倾斜的解决方案

解决方案一：使用Hive ETL预处理数据

方案适用场景：导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个key对应了100万数据，其他key才

对应了10条数据），而且业务场景需要频繁使用Spark对Hive表执行某个分析操作，那么比较适合使用这种技术方案。

方案实现思路：此时可以评估一下，是否可以通过Hive来进行数据预处理（即通过Hive ETL预先对数据按照key进行聚合，或

者是预先和其他表进行join），然后在Spark作业中针对的数据源就不是原来的Hive表了，而是预处理后的Hive表。此时由于

数据已经预先进行过聚合或join操作了，那么在Spark作业中也就不需要使用原先的shuffle类算子执行这类操作了。

方案实现原理：这种方案从根源上解决了数据倾斜，因为彻底避免了在Spark中执行shuffle类算子，那么肯定就不会有数据倾

斜的问题了。但是这里也要提醒一下大家，这种方式属于治标不治本。因为毕竟数据本身就存在分布不均匀的问题，所以Hive

ETL中进行group by或者join等shuffle操作时，还是会出现数据倾斜，导致Hive ETL的速度很慢。我们只是把数据倾斜的发生

提前到了Hive ETL中，避免Spark程序发生数据倾斜而已。

方案优点：实现起来简单便捷，效果还非常好，完全规避掉了数据倾斜，Spark作业的性能会大幅度提升。

方案缺点：治标不治本，Hive ETL中还是会发生数据倾斜。

方案实践经验：在一些Java系统与Spark结合使用的项目中，会出现Java代码频繁调用Spark作业的场景，而且对Spark作业

的执行性能要求很高，就比较适合使用这种方案。将数据倾斜提前到上游的Hive ETL，每天仅执行一次，只有那一次是比较

慢的，而之后每次Java调用Spark作业时，执行速度都会很快，能够提供更好的用户体验。

项目实践经验：在美团·点评的交互式用户行为分析系统中使用了这种方案，该系统主要是允许用户通过Java Web系统提交数

据分析统计任务，后端通过Java提交Spark作业进行数据分析统计。要求Spark作业速度必须要快，尽量在10分钟以内，否则

速度太慢，用户体验会很差。所以我们将有些Spark作业的shuffle操作提前到了Hive ETL中，从而让Spark直接使用预处理的

Hive中间表，尽可能地减少Spark的shuffle操作，大幅度提升了性能，将部分作业的性能提升了6倍以上。

解决方案二：过滤少数导致倾斜的key

方案适用场景：如果发现导致倾斜的key就少数几个，而且对计算本身的影响并不大的话，那么很适合使用这种方案。比如

99%的key就对应10条数据，但是只有一个key对应了100万数据，从而导致了数据倾斜。

方案实现思路：如果我们判断那少数几个数据量特别多的key，对作业的执行和计算结果不是特别重要的话，那么干脆就直接

过滤掉那少数几个key。比如，在Spark SQL中可以使用where子句过滤掉这些key或者在Spark Core中对RDD执行filter算子过

滤掉这些key。如果需要每次作业执行时，动态判定哪些key的数据量最多然后再进行过滤，那么可以使用sample算子对RDD

进行采样，然后计算出每个key的数量，取数据量最多的key过滤掉即可。

方案实现原理：将导致数据倾斜的key给过滤掉之后，这些key就不会参与计算了，自然不可能产生数据倾斜。

方案优点：实现简单，而且效果也很好，可以完全规避掉数据倾斜。

方案缺点：适用场景不多，大多数情况下，导致倾斜的key还是很多的，并不是只有少数几个。

方案实践经验：在项目中我们也采用过这种方案解决数据倾斜。有一次发现某一天Spark作业在运行的时候突然OOM了，追查

之后发现，是Hive表中的某一个key在那天数据异常，导致数据量暴增。因此就采取每次执行前先进行采样，计算出样本中数

剩余14页未读，继续阅读

weixin_38730977

粉丝: 6
资源: 873

Spark高级性能优化：数据倾斜与shuffle调优策略

Spark性能优化指南——基础篇 -.pdf

Spark性能优化：数据倾斜调优

spark性能优化指南——高级篇 (很详细)

深度剖析：Spark性能优化高级策略——数据倾斜与shuffle调优

深度剖析：Spark性能优化高级策略—数据倾斜与shuffle调优

Spark性能优化基础入门：开发与资源调优策略

深入学习Spark：权威指南

深度剖析：美团Spark高级性能调优策略

掌握Spark核心技术与实战高级应用

探索Apache Spark权威指南：实战大数据简易之道

最新资源