Spark性能优化全攻略：基础篇与高级技巧

需积分: 9 8 浏览量更新于2024-07-14 收藏 6.82MB PDF 举报

Spark性能优化指南深入探讨了在大数据计算领域中使用Spark时如何实现高效性能的关键策略。Spark作为一个功能全面的计算平台，支持多种计算任务，如批处理、SQL查询、流处理、机器学习和图计算等，但在实际应用中，如果不对作业进行优化，其性能优势可能无法充分发挥。性能优化涉及多个方面，包括开发调优、资源调优、数据倾斜调优和shuffle调优。 1. 开发调优： - 调优原则：Spark作业开发的核心在于遵循基本性能原则，如RDD（Resilient Distributed Datasets）的线性化设计、算子的合理使用和特殊操作的优化。开发者需要在编程过程中始终考虑这些原则，并灵活运用到具体业务场景中，以提高作业执行效率。 - 1.1概述：优化的起点是理解并应用这些基本原则，确保代码结构清晰，数据流高效，从而减少不必要的计算和内存消耗。 2. 资源调优： - 优化资源分配：针对Spark作业，合理配置集群的内存、CPU和存储资源至关重要。这可能涉及到调整任务的并行度、分区策略以及缓存策略，以充分利用硬件资源，避免瓶颈。 - 任务调度：Spark的作业调度策略，如YARN或Mesos，也需要适配应用需求，优化任务的启动和停止，减少调度开销。 3. 数据倾斜调优： - 数据分布不均可能导致性能下降，数据倾斜调优主要关注如何平衡输入数据在各个分区间的分布，例如使用Hash分桶或者动态分区策略。 4. Shuffle调优： - Shuffle操作在Spark工作流程中扮演核心角色，它是数据交换的阶段，直接影响性能。优化shuffle包括减少数据传输量、优化shuffle阶段的数据存储和压缩，以及利用合理的shuffle策略如Shuffle partitioner和溢写策略。 Spark性能优化是一门细致而复杂的艺术，需要开发者对Spark原理有深入理解，并结合具体业务场景进行精细化调优。只有这样才能最大化利用Spark的潜力，确保大数据计算任务高效、快速地完成。作者Kungs在自己的博客<https://blog.csdn.net/yanpenggong>上分享了更多关于Spark性能优化的实际经验和技巧。

1.6 使⽤map-side预聚合的shuffle操作

如果因为业务需要，⼀定要使⽤shuffle操作，⽆法⽤map类的算⼦来替代，那么尽量使⽤可以map-

side预聚合的算⼦。

所谓的map-side预聚合，说的是在每个节点本地对相同的key进⾏⼀次聚合操作，类似于

MapReduce中的本地combiner。map-side预聚合之后，每个节点本地就只会有⼀条相同的key，因为

多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时，就会⼤⼤减少需要拉取的数

据数量，从⽽也就减少了磁盘IO以及⽹络传输开销。通常来说，在可能的情况下，建议使⽤

reduceByKey或者aggregateByKey算⼦来替代掉groupByKey算⼦。因为reduceByKey和

aggregateByKey算⼦都会使⽤⽤户⾃定义的函数对每个节点本地的相同key进⾏预聚合。⽽groupByKey

算⼦是不会进⾏预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说⽐较差。

⽐如如下两幅图，就是典型的例⼦，分别基于reduceByKey和groupByKey进⾏单词计数。其中第⼀

张图是groupByKey的原理图，可以看到，没有进⾏任何本地聚合时，所有数据都会在集群节点之间传

输；第⼆张图是reduceByKey的原理图，可以看到，每个节点本地的相同key数据，都进⾏了预聚合，然

后才传输到其他节点上进⾏全局聚合。

1.7 使⽤⾼性能的算⼦

除了shuffle相关的算⼦有优化原则之外，其他的算⼦也都有着相应的优化原则。

使⽤reduceByKey/aggregateByKey替代groupByKey

详情⻅“使⽤map-side预聚合的shuffle操作”。

使⽤mapPartitions替代普通map

mapPartitions类的算⼦，⼀次函数调⽤会处理⼀个partition所有的数据，⽽不是⼀次函数调⽤处理

⼀条，性能相对来说会⾼⼀些。但是有的时候，使⽤mapPartitions会出现OOM（内存溢出）的问题。

因为单次函数调⽤就要处理掉⼀个partition所有的数据，如果内存不够，垃圾回收时是⽆法回收掉太多

对象的，很可能出现OOM异常。所以使⽤这类操作时要慎重！

使⽤foreachPartitions替代foreach

原理类似于“使⽤mapPartitions替代map”，也是⼀次函数调⽤处理⼀个partition的所有数据，⽽不

是⼀次函数调⽤处理⼀条数据。在实践中发现，foreachPartitions类的算⼦，对性能的提升还是很有帮

助的。⽐如在foreach函数中，将RDD中所有数据写MySQL，那么如果是普通的foreach算⼦，就会⼀条

数据⼀条数据地写，每次函数调⽤可能就会创建⼀个数据库连接，此时就势必会频繁地创建和销毁数据

库连接，性能是⾮常低下；但是如果⽤foreachPartitions算⼦⼀次性处理⼀个partition的数据，那么对

于每个partition，只要创建⼀个数据库连接即可，然后执⾏批量插⼊操作，此时性能是⽐较⾼的。实践

中发现，对于1万条左右的数据量写MySQL，性能可以提升30%以上。

使⽤filter之后进⾏coalesce操作

通常对⼀个RDD执⾏filter算⼦过滤掉RDD中较多数据后（⽐如30%以上的数据），建议使⽤

coalesce算⼦，⼿动减少RDD的partition数量，将RDD中的数据压缩到更少的partition中去。因为filter

之后，RDD的每个partition中都会有很多数据被过滤掉，此时如果照常进⾏后续的计算，其实每个task

处理的partition中的数据量并不是很多，有⼀点资源浪费，⽽且此时处理的task越多，可能速度反⽽越

慢。因此⽤coalesce减少partition数量，将RDD中的数据压缩到更少的partition之后，只要使⽤更少的

task即可处理完所有的partition。在某些场景下，对于性能的提升会有⼀定的帮助。

使⽤repartitionAndSortWithinPartitions替代repartition与sort类操作

repartitionAndSortWithinPartitions是Spark官⽹推荐的⼀个算⼦，官⽅建议，如果需要在

repartition重分区之后，还要进⾏排序，建议直接使⽤repartitionAndSortWithinPartitions算⼦。因为

该算⼦可以⼀边进⾏重分区的shuffle操作，⼀边进⾏排序。shuffle与sort两个操作同时进⾏，⽐先

shuffle再sort来说，性能可能是要⾼的。

1.8 ⼴播⼤变量

有时在开发过程中，会遇到需要在算⼦函数中使⽤外部变量的场景（尤其是⼤变量，⽐如100M以上

的⼤集合），那么此时就应该使⽤Spark的⼴播（Broadcast）功能来提升性能。

在算⼦函数中使⽤到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过⽹络传输到

task中，此时每个task都有⼀个变量副本。如果变量本身⽐较⼤的话（⽐如100M，甚⾄1G），那么⼤量

的变量副本在⽹络中传输的性能开销，以及在各个节点的Executor中占⽤过多内存导致的频繁GC，都会

极⼤地影响性能。

剩余37页未读，继续阅读

Kungs8

粉丝: 6642
资源: 12

Spark性能优化全攻略：基础篇与高级技巧

spark性能优化手册

Spark性能优化指南——基础篇 -.pdf

3-2-最优化 Spark 应用的性能——使用低成本的层次化方案加速大数据处理-俞育才.pdf

ApacheSpark设计与实现.pdf+ApacheSpark源码剖析.pdf+Spark原著中文版.pdf

Spark开发指南.pdf

Spark快速数据处理.pdf

大数据Spark技术分享 在规模上使用Spark-Solr为搜索生成Spark 共38页.pdf

Spark性能优化指南——高级篇

编程指南快速入门 - Spark 2.4.0文档.pdf

hadoop入门指南.pdf

最新资源

大数据Spark技术分享在规模上使用Spark-Solr为搜索生成Spark 共38页.pdf