"Spark调优1：广播变量与持久化策略最佳实践"

需积分: 0 8 浏览量更新于2024-01-10 收藏 394KB DOCX 举报

Spark调优是指在使用Spark进行大数据处理时，对Spark应用程序进行性能优化和资源管理。在Spark调优的过程中，可以采用多种策略和技术手段来提高Spark应用程序的执行效率和容错性。其中，使用广播变量是一种常见的优化技术，在开发过程中，当需要在算子函数中使用外部变量时，尤其是大变量（比如100M以上的大集合）时，使用广播变量可以提高程序的性能。广播变量将变量的值广播到每个Spark执行节点上，减少了数据的传输开销和内存占用，从而提高了程序的执行效率。代码调优是在Spark应用程序开发过程中，针对代码逻辑和数据处理流程进行优化，以提高程序的执行效率。常见的代码调优技术包括避免创建重复的RDD和对多次使用的RDD进行持久化。避免创建重复的RDD是指在代码中尽量复用同一个RDD，避免重复创建和计算相同的RDD。这样可以减少计算和数据传输的开销，提高程序的执行效率。对多次使用的RDD进行持久化是指对经常被多个算子使用的RDD进行缓存，以避免重复计算。持久化策略的选择需要根据实际情况进行考虑。默认情况下，MEMORY_ONLY是性能最高的持久化策略，适用于内存充足的情况。由于不进行序列化和反序列化操作，减少了性能开销。同时，后续对该RDD的算子操作也是基于内存中的数据的操作，不需要从磁盘读取数据，性能也较高。然而，在实际生产环境中，直接使用MEMORY_ONLY策略可能会导致内存溢出异常，特别是当RDD中的数据很大时（比如几十亿）。这种情况下，建议尝试使用MEMORY_ONLY_SER策略。该策略将RDD数据序列化后保存在内存中，每个partition仅是一个字节数组，减少了对象数量和内存占用。虽然相比MEMORY_ONLY策略会有额外的序列化和反序列化开销，但可以避免内存溢出的问题。综上所述，Spark调优涉及到多个方面，包括使用广播变量优化大变量的传输，代码调优避免创建重复的RDD和对多次使用的RDD进行持久化优化。这些优化策略可以提高Spark应用程序的执行效率和容错性，减少计算和数据传输的开销，从而提高数据处理的速度和质量。在实际开发中，根据具体情况选择适当的优化策略，结合监控和测试，不断优化和调整Spark应用程序，以获得更好的性能和效果。

的 Executor 中占用过多内存导致的频繁 GC，都会极大地影响性能。如

果使用的外部变量比较大，建议使用 Spark 的广播功能，对该变量进行

广播。广播后的变量，会保证每个 Executor 的内存中，只驻留一份变

量副本，而 Executor 中的 task 执行时共享该 Executor 中的那份变量

副本。这样的话，可以大大减少变量副本的数量，从而减少网络传输的

性能开销，并减少对 Executor 内存的占用开销，降低 GC 的频率。

广播大变量发送方式：Executor 一开始并没有广播变量，而是 task 运

行需要用到广播变量，会找 executor 的 blockManager 要，

bloackManager 找 Driver 里面的 blockManagerMaster 要。

使用广播变量可以大大降低集群中变量的副本数。不使用广播变量，变

量的副本数和 task 数一致。使用广播变量变量的副本和 Executor 数一

致。

7. 使用 Kryo 优化序列化性能

在 Spark 中，主要有三个地方涉及到了序列化：

1) 在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输。

2) 将自定义的类型作为 RDD 的泛型类型时（比如 JavaRDD<SXT>，

SXT 是自定义类型），所有自定义类型对象，都会进行序列化。因此

这种情况下，也要求自定义的类必须实现 Serializable 接口。

3) 使用可序列化的持久化策略时（比如 MEMORY_ONLY_SER），

Spark 会将 RDD 中的每个 partition 都序列化成一个大的字节数组。

Kryo 序列化器介绍：

Spark 支持使用 Kryo 序列化机制。Kryo 序列化机制，比默认的 Java 序

列化机制，速度要快，序列化后的数据要更小，大概是 Java 序列化机制

的 1/10。所以 Kryo 序列化优化以后，可以让网络传输的数据变少；在

集群中耗费的内存资源大大减少。

对于这三种出现序列化的地方，我们都可以通过使用 Kryo 序列化类库，

来优化序列化和反序列化的性能。Spark 默认使用的是 Java 的序列化机

制，也就是 ObjectOutputStream/ObjectInputStream API 来进行序

列化和反序列化。但是 Spark 同时支持使用 Kryo 序列化库，Kryo 序列

剩余19页未读，继续阅读

SeaNico

粉丝: 26
资源: 320

"Spark调优1：广播变量与持久化策略最佳实践"

Spark_开发调优1

Spark_资源调优1

Spark性能调优

spark 调优解析 spark 企业调优

【Spark调优篇04】Spark之JVM调优1

【Spark调优篇02】Spark之算子调优1

【Spark调优篇03】Spark之Shuffle调优1

【Spark调优篇01】Spark之常规性能调优1

spark调优测试

spark调优指导

最新资源