Spark开发调优：避免重复RDD与性能提升策略

3 浏览量更新于2024-07-15 收藏 268KB PDF 举报

Spark优化是提高Spark应用程序性能的关键步骤，特别是在开发阶段。Spark性能优化的基本原则主要包括以下几个方面： 1. RDD lineage设计： RDD (Resilient Distributed Dataset) 是Spark的核心数据结构，其线性依赖关系（lineage）决定了数据处理的效率。理解并管理好RDD lineage至关重要，因为它描述了数据如何在整个工作流中被处理。开发者应避免不必要的数据复制，确保每个RDD只包含计算所必需的数据，减少重复计算。 2. 算子的合理使用：在Spark编程中，算子如map、filter、reduce等是基础操作。正确选择和组合算子可以显著提升性能。例如，如果一个操作可以一步完成，就避免多次迭代。同时，应尽可能减少Shuffle操作，因为Shuffle会触发数据重新分区和传输，消耗大量网络带宽。 3. 避免创建重复的RDD：重复创建RDD会导致不必要的I/O和计算资源浪费。对于相同的输入数据，应确保只创建一个RDD。比如，在示例代码中，作者提到错误地两次调用`textFile`方法，导致数据被读取两次，这在大规模数据处理中会造成不必要的性能损耗。 4. 特殊操作的优化：特殊操作如join、union等也可能带来性能问题。优化这些操作的方法包括使用更高效的数据分区策略、使用Broadcast变量减少网络通信，以及利用Spark的内置优化如Caching和pipelining。 5. 实践经验与场景适应：开发者在实践中应灵活运用这些原则，根据具体业务需求和应用场景调整优化策略。例如，如果数据分布均匀，可能可以通过Shuffle操作的合并来减少网络开销；如果数据量巨大，可能需要考虑使用外部排序或者分区策略。通过遵循这些基本原则，开发者能够有效地减少Spark作业的计算成本，提高执行效率，从而更好地利用Spark的强大功能。在实际开发中，不断监控性能指标，持续优化代码，是实现高性能Spark应用的关键。

使用foreachPartitions替代foreach

　　原理类似于“使用mapPartitions替代map”，也是一次函数调用处理一个partition的所有数据，而不是一次函数调用处理一

条数据。在实践中发现，foreachPartitions类的算子，对性能的提升还是很有帮助的。比如在foreach函数中，将RDD中所有数

据写MySQL，那么如果是普通的foreach算子，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此

时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数

据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。实践中发现，对

于1万条左右的数据量写MySQL，性能可以提升30%以上。

使用filter之后进行coalesce操作

　　通常对一个RDD执行filter算子过滤掉RDD中较多数据后（比如30%以上的数据），建议使用coalesce算子，手动减少

RDD的partition数量，将RDD中的数据压缩到更少的partition中去。因为filter之后，RDD的每个partition中都会有很多数据被

过滤掉，此时如果照常进行后续的计算，其实每个task处理的partition中的数据量并不是很多，有一点资源浪费，而且此时处

理的task越多，可能速度反而越慢。因此用coalesce减少partition数量，将RDD中的数据压缩到更少的partition之后，只要使

用更少的task即可处理完所有的partition。在某些场景下，对于性能的提升会有一定的帮助。

使用repartitionAndSortWithinPartitions替代repartition与sort类操作

　　repartitionAndSortWithinPartitions是Spark官网推荐的一个算子，官方建议，如果需要在repartition重分区之后，还要进

行排序，建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行重分区的shuffle操作，一边进行排

序。shuffle与sort两个操作同时进行，比先shuffle再sort来说，性能可能是要高的。

原则七：广播大变量

　　有时在开发过程中，会遇到需要在算子函数中使用外部变量的场景（尤其是大变量，比如100M以上的大集合），那么此

时就应该使用Spark的广播（Broadcast）功能来提升性能。

　　在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task

都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及

在各个节点的Executor中占用过多内存导致的频繁GC，都会极大地影响性能。

　　因此对于上述情况，如果使用的外部变量比较大，建议使用Spark的广播功能，对该变量进行广播。广播后的变量，会保

证每个Executor的内存中，只驻留一份变量副本，而Executor中的task执行时共享该Executor中的那份变量副本。这样的话，

可以大大减少变量副本的数量，从而减少网络传输的性能开销，并减少对Executor内存的占用开销，降低GC的频率。

广播大变量的代码示例

// 以下代码在算子函数中，使用了外部的变量。

// 此时没有做任何特殊操作，每个task都会有一份list1的副本。

val list1 = …

rdd1.map(list1…)

// 以下代码将list1封装成了Broadcast类型的广播变量。

// 在算子函数中，使用广播变量时，首先会判断当前task所在Executor内存中，是否有变量副本。

// 如果有则直接使用；如果没有则从Driver或者其他Executor节点上远程拉取一份放到本地Executor内存中。

// 每个Executor内存中，就只会驻留一份广播变量副本。

val list1 = …

val list1Broadcast = sc.broadcast(list1)

rdd1.map(list1Broadcast…)

原则八：使用Kryo优化序列化性能

　　在Spark中，主要有三个地方涉及到了序列化：

　　1、在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输（见“原则七：广播大变量”中的讲解）。

　　2、将自定义的类型作为RDD的泛型类型时（比如JavaRDD，Student是自定义类型），所有自定义类型对象，都会进行

序列化。因此这种情况下，也要求自定义的类必须实现Serializable接口。

　　3、使用可序列化的持久化策略时（比如MEMORY_ONLY_SER），Spark会将RDD中的每个partition都序列化成一个大

的字节数组。

　　对于这三种出现序列化的地方，我们都可以通过使用Kryo序列化类库，来优化序列化和反序列化的性能。Spark默认使用

的是Java的序列化机制，也就是ObjectOutputStream/ObjectInputStream API来进行序列化和反序列化。但是Spark同时支持

使用Kryo序列化库，Kryo序列化类库的性能比Java序列化类库的性能要高很多。官方介绍，Kryo序列化机制比Java序列化机

制，性能高10倍左右。Spark之所以默认没有使用Kryo作为序列化类库，是因为Kryo要求最好要注册所有需要进行序列化的自

定义类型，因此对于开发者来说，这种方式比较麻烦。

　　以下是使用Kryo的代码示例，我们只要设置序列化类，再注册要序列化的自定义类型即可（比如算子函数中使用到的外

部变量类型、作为RDD泛型类型的自定义类型等）：

// 创建SparkConf对象。

val conf = new SparkConf().setMaster(…).setAppName(…)

// 设置序列化器为KryoSerializer。

conf.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)

// 注册要序列化的自定义类型。

conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))

原则九：优化数据结构

Java中，有三种类型比较耗费内存：

　　1、对象，每个Java对象都有对象头、引用等额外的信息，因此比较占用内存空间。

　　2、字符串，每个字符串内部都有一个字符数组以及长度等额外信息。

　　3、集合类型，比如HashMap、LinkedList等，因为集合类型内部通常会使用一些内部类来封装集合元素，比如

Map.Entry。

　　因此Spark官方建议，在Spark编码实现中，特别是对于算子函数中的代码，尽量不要使用上述三种数据结构，尽量使用

字符串替代对象，使用原始类型（比如Int、Long）替代字符串，使用数组替代集合类型，这样尽可能地减少内存占用，从而

降低GC频率，提升性能。

剩余17页未读，继续阅读

weixin_38694674

粉丝: 6

Spark开发调优：避免重复RDD与性能提升策略

深入理解Spark优化：最佳实践

Apache Spark优化：加载与细节探究

Apache Spark优化实践：高性能指南

spark 优化

Spark优化解析

Apache Spark优化1

spark优化.mmap

Spark优化.rar

mips-spark-optimization：Mips Spark优化

大数据技术之Spark优化

最新资源