优化Spark任务并行度：提升性能与资源利用

需积分: 46 44 浏览量更新于2024-07-17 收藏 607KB DOC 举报

Spark个人总结主要关注于性能调优和资源分配策略。在生产环境中，使用spark-submit命令来提交Spark作业时，参数设置至关重要。首先，`--num-executors`用于配置executor的数量，这是决定Spark作业并发执行的核心因素，过多或过少都会影响资源利用率。例如，在Standalone模式下，应根据每台机器的实际可用资源（如4GB内存和2个CPU核心）来设置，而在YARN上则需查看资源队列的资源分配。 `--executor-memory`和`--executor-cores`分别控制每个executor的内存和CPU核心数，合理的配置可以避免内存溢出和提高任务执行效率。官方建议，executor的CPU核心数量应与Spark应用的总核心数相当，以确保任务能同时启动并充分利用所有核心，减少等待时间。理想情况下，例如有150个CPU核心，分配150个任务，可以实现更高效的并行执行。然而，实际操作中，任务的运行速度并不总是均匀的，有些任务可能较快，有些较慢。因此，如果task数量设置得与CPU核心数相同，可能会导致资源浪费，因为当一部分任务快速完成时，其他任务可能仍在执行。为了最大化利用资源，推荐将task数量设置为CPU核心数的2到3倍，这样即使有任务提前完成，其他任务也能立即接手，降低CPU空闲时间，从而提升Spark作业的整体性能和速度。并行度的提升是通过调整每个stage的task数量实现的，合理设置并行度有助于充分利用集群资源，降低单个任务数据处理负担，从而加快作业运行速度。在实际操作中，要根据应用需求和集群资源情况进行细致调整，以达到最佳性能效果。总结来说，Spark性能调优的关键在于合理配置executor数量、内存、CPU核心数以及任务并行度，以确保资源的有效利用，同时考虑到任务的执行速度差异，避免资源浪费，提高整体作业执行效率。

1、如果算子函数使用了外部变量；那么第一，你可以使用 Broadcast 广播变量

优化；第二，可以使用 Kryo 序列化类库，提升序列化性能和效率；第三，如果

外部变量是某种比较大的集合，那么可以考虑使用 fastutil 改写外部变量，首先

从源头上就减少内存的占用，通过广播变量进一步减少内存占用，再通过 Kryo

序列化类库进一步减少内存占用。

2、在你的算子函数里，也就是 task 要执行的计算逻辑里面，如果有逻辑中，出

现，要创建比较大的 Map、List 等集合，可能会占用较大的内存空间，而且可

能涉及到消耗性能的遍历、存取等集合操作；那么此时，可以考虑将这些集合

类型使用 fastutil 类库重写，使用了 fastutil 集合类以后，就可以在一定程度上，

减少 task 创建出来的集合类型的内存占用。避免 executor 内存频繁占满，频繁

唤起 GC，导致性能下降。

c、fastutil 的使用：

第一步：在 pom.xml 中引用 fastutil 的包

<groupId>fastutil</groupId>

<artifactId>fastutil</artifactId>

</dependency>

List<Integer> => IntList

7、调节数据本地化等待时长(s)

PROCESS_LOCAL：进程本地化，代码和数据在同一个进程中，也就是在同

一个 executor 中；

计算数据的

task

由

executor

执行，数据在

executor

的

BlockManager

中；

性能最好

。

NODE_LOCAL：节点本地化，代码和数据在同一个节点中；比如说，数据作

为一个 HDFS block 块，就在节点上，而 task 在节点上某个 executor 中运行；或

者是，数据和 task 在一个节点上的不同 executor 中；数据需要在进程间进行传

输。

NO_PREF：对于 task 来说，数据从哪里获取都一样，没有好坏之分。

RACK_LOCAL：机架本地化，数据和 task 在一个机架的两个节点上；数据需

要通过网络在节点之间进行传输。

ANY：数据和 task 可能在集群中的任何地方，而且不在一个机架中，性能最差。

spark.locality.wait，默认是 3s

a、介绍

Spark 在 Driver 上，对 Application 的每一个 stage 的 task，进行分配之前，

都会计算出每个 task 要计算的是哪个分片数据，RDD 的某个 partition；Spark 的

task 分配算法，优先，会希望每个 task 正好分配到它要计算的数据所在的节点，

这样的话，就不用在网络间传输数据；

但是呢，通常来说，有时，事与愿违，可能 task 没有机会分配到它的数据

所在的节点，为什么呢，可能那个节点的计算资源和计算能力都满了；所以呢，

这种时候，通常来说，Spark 会等待一段时间，默认情况下是 3s 钟（不是绝对

的，还有很多种情况，对不同的本地化级别，都会去等待），到最后，实在是

等待不了了，就会选择一个比较差的本地化级别，比如说，将 task 分配到靠它

要计算的数据所在节点，比较近的一个节点，然后进行计算。

但是对于第二种情况，通常来说，肯定是要发生数据传输，task 会通过其

所在节点的 BlockManager 来获取数据，BlockManager 发现自己本地没有数据，

会通过一个 getRemote()方法，通过 TransferService（网络数据传输组件）从数

据所在节点的 BlockManager 中，获取数据，通过网络传输回 task 所在节点。

对于我们来说，当然不希望是类似于第二种情况的了。最好的，当然是

task 和数据在一个节点上，直接从本地 executor 的 BlockManager 中获取数据，

纯内存，或者带一点磁盘 IO；如果要通过网络传输数据的话，那么实在是，性

能肯定会下降的，大量网络传输，以及磁盘 IO，都是性能的杀手。

b、如何调节参数

观察日志：spark 作业的运行日志，推荐大家在测试的时候，先用 client 模

式，在本地就直接可以看到比较全的日志。

日志里面会显示，starting task。。。， PROCESS LOCAL、NODE LOCAL

观察大部分 task 的数据本地化级别

如果大多都是 PROCESS_LOCAL，那就不用调节了

如果是发现，好多的级别都是 NODE_LOCAL、ANY，那么最好就去调节一下

数据本地化的等待时长。调节完，应该是要反复调节，每次调节完以后，再来

运行，观察日志看看大部分的 task 的本地化级别有没有提升；看看，整个 spark

作业的运行时间有没有缩短。

你别本末倒置，本地化级别倒是提升了，但是因为大量的等待时长，spark 作业

的运行时间反而增加了，那就还是不要调节了

参数调节：

spark.locality.wait，默认是 3s；6s，10s

剩余37页未读，继续阅读

若淼

粉丝: 0
资源: 31

优化Spark任务并行度：提升性能与资源利用

spark学习总结

spark以及mr的个人心得

Spark2学习总结

新员工学习总结范文.doc

基于mongodb和网络爬虫的数据管理项目总结报告.doc

java工程师年终总结及明年计划范文.doc

AR.doc.zip

个人使用计算机专业简历大数据开发工程师.doc

大数据简历模板.doc

数据库的发展方向.doc

最新资源