深度剖析：Spark性能优化高级策略—数据倾斜与shuffle调优

Spark进阶

需积分: 43 155 浏览量更新于2024-07-18 收藏 2.85MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Spark性能优化指南——高级篇深入探讨了在大数据计算中面对的重要挑战——数据倾斜问题及其调优策略。数据倾斜是指在Spark作业中，部分任务处理的数据量远大于其他任务，导致整体性能显著下降甚至引发内存溢出。本文首先介绍了数据倾斜的常见现象，如大部分任务快速执行，少数任务执行时间极长，或者作业突然出现内存溢出，通过异常栈追踪发现源头。数据倾斜的原理在于，Spark在shuffle阶段依据键值(key)进行数据分布，如果某个键值对应的数据量过大，会导致处理该键值的任务接收过多数据，进而拖慢整个作业。例如，一个键可能有100万条数据，而其他键只有少量数据，这就造成了严重的数据不平衡。定位数据倾斜的代码关键在于识别哪些操作可能导致shuffle。常见的可能触发shuffle的算子包括： 1. `map`和`flatMap`：这些操作通常会产生新的键值对，如果没有正确的键值分区策略，可能导致数据倾斜。 2. `reduceByKey`、`groupByKey`：键值对的聚合操作会触发shuffle，若键的分布不均匀，就会出现问题。 3. `join`：两个数据集按键连接时，如果键值分布不一致，可能会出现数据倾斜。 4. `aggregateByKey`：类似的键值聚合操作也可能导致数据不平衡。为了优化，开发者可以采取以下措施： - **调整分区策略**：合理设置`repartition`函数，确保数据均匀分布在各个分区，减少单个任务的负载。 - **使用`coalesce`**：减少分区数量，降低每个任务处理的数据量。 - **动态分区**：根据数据大小动态调整分区数，避免一开始就过度分区。 - **键值对的范围控制**：对于数据倾斜严重的键值对，可以考虑预先进行筛选或采样，减轻处理压力。 - **使用`bucketed`模式**：对于范围划分的键值，如日期或数值范围，可以使用桶化来均衡数据分布。 - **监控和诊断**：通过Spark的性能监控工具（如Web UI）持续跟踪作业的运行状态，及时发现倾斜问题。 Spark性能优化高级篇不仅涉及基础调优，还着重于理解和解决数据倾斜这一核心性能瓶颈。通过合理的代码设计和配置，以及深入了解Spark的内部工作机制，可以显著提升Spark作业的执行效率和稳定性。

资源详情

资源推荐

100万数据，其他key才对应了10条数据），而且业务场景需要频繁使用Spark对Hive表执行某个分析操

作，那么比较适合使用这种技术方案。

方案实现思路：此时可以评估一下，是否可以通过Hive来进行数据预处理（即通过Hive ETL预先对数据

按照key进行聚合，或者是预先和其他表进行join），然后在Spark作业中针对的数据源就不是原来的

Hive表了，而是预处理后的Hive表。此时由于数据已经预先进行过聚合或join操作了，那么在Spark作业

中也就不需要使用原先的shuffle类算子执行这类操作了。

方案实现原理：这种方案从根源上解决了数据倾斜，因为彻底避免了在Spark中执行shuffle类算子，那

么肯定就不会有数据倾斜的问题了。但是这里也要提醒一下大家，这种方式属于治标不治本。因为毕竟

数据本身就存在分布不均匀的问题，所以Hive ETL中进行group by或者join等shuffle操作时，还是会出

现数据倾斜，导致Hive ETL的速度很慢。我们只是把数据倾斜的发生提前到了Hive ETL中，避免Spark程

序发生数据倾斜而已。

方案优点：实现起来简单便捷，效果还非常好，完全规避掉了数据倾斜，Spark作业的性能会大幅度提

升。

方案缺点：治标不治本，Hive ETL中还是会发生数据倾斜。

方案实践经验：在一些Java系统与Spark结合使用的项目中，会出现Java代码频繁调用Spark作业的场

景，而且对Spark作业的执行性能要求很高，就比较适合使用这种方案。将数据倾斜提前到上游的Hive

ETL，每天仅执行一次，只有那一次是比较慢的，而之后每次Java调用Spark作业时，执行速度都会很

快，能够提供更好的用户体验。

项目实践经验：在美团·点评的交互式用户行为分析系统中使用了这种方案，该系统主要是允许用户通

过Java Web系统提交数据分析统计任务，后端通过Java提交Spark作业进行数据分析统计。要求Spark作

业速度必须要快，尽量在10分钟以内，否则速度太慢，用户体验会很差。所以我们将有些Spark作业的

shuffle操作提前到了Hive ETL中，从而让Spark直接使用预处理的Hive中间表，尽可能地减少Spark的

shuffle操作，大幅度提升了性能，将部分作业的性能提升了6倍以上。

解决方案二：过滤少数导致倾斜的key

方案适用场景：如果发现导致倾斜的key就少数几个，而且对计算本身的影响并不大的话，那么很适合

使用这种方案。比如99%的key就对应10条数据，但是只有一个key对应了100万数据，从而导致了数据倾

斜。

方案实现思路：如果我们判断那少数几个数据量特别多的key，对作业的执行和计算结果不是特别重要

的话，那么干脆就直接过滤掉那少数几个key。比如，在Spark SQL中可以使用where子句过滤掉这些key

或者在Spark Core中对RDD执行filter算子过滤掉这些key。如果需要每次作业执行时，动态判定哪些key

的数据量最多然后再进行过滤，那么可以使用sample算子对RDD进行采样，然后计算出每个key的数量，

取数据量最多的key过滤掉即可。

方案实现原理：将导致数据倾斜的key给过滤掉之后，这些key就不会参与计算了，自然不可能产生数据

倾斜。

剩余23页未读，继续阅读

linke1183982890

粉丝: 11
资源: 25

深度剖析：Spark性能优化高级策略—数据倾斜与shuffle调优

Spark性能优化指南——基础篇 -.pdf

spark调优.rar

Spark性能优化指南

spark性能优化指南——高级篇 (很详细)

spark性能优化指南——基础篇（开发调优、资源调优--设置参数）

spark数据分析实战——奥运会

spark性能优化之道——解决spark数据倾斜（data skew）的n种姿势

spark踩坑系列1——spark streaming+kafka

spark学习之路——1.初识spark

spark调优 | spark性能优化实战手册

spark性能优化 (2) | 算子调优

spark从入门到放弃——初识spark（一）

简单搞定spark性能优化:常见异常解决（二）

spark基本概念——spark core

spark sql性能优化

spark 系列（十一）—— spark sql 聚合函数 aggregations

高性能spark pdf

spark sql 笔记(16)—— spark on yarn

spark练习案例_spark练习——影评案例

Spark存储原理——数据写入过程

最新资源