没有合适的资源?快使用搜索试试~ 我知道了~
首页spark性能调优的几大原则
资源详情
资源评论
资源推荐

Spark的性能调优
Experience is the mother of wisdom.

性能优化
Spark的性能调优实际上是由很多部分组成的,不是调节几个参数就可
以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况,
对Spark作业进行综合性的分析,然后进行多个方面的调节和优化,才能获
得最佳性能。
Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用
一些性能优化的基本原则。
Spark基本开发原则,包括:RDD设计、算子的合理使用、特殊操作的优
化等。在开发过程中,时时刻刻都应该注意这些原则,并将这些原则根据具
体的业务以及实际的应用场景,灵活地运用到Spark作业中。

八大原则
•
原则一:避免创建重复的RDD
• 原则二:尽可能复用同一个RDD
•
原则三:对多次使用的RDD进行持久化
•
原则四:尽量避免使用shuffle类算子
•
原则五:使用map端预聚合的shuffle操作
•
原则六:使用高性能的算子
•
原则七:广播大变量
•
原则八:优化数据结构
剩余11页未读,继续阅读



















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0