Spark调优指南：Executor与Driver内存配置及RDD分区策略

5星 · 超过95%的资源需积分: 5 79 浏览量更新于2024-09-09 收藏 5KB TXT 举报

"Spark调优涉及到多个关键配置参数的调整，以优化其性能和资源利用率。主要关注点包括Executor的数量、内存分配、任务调度以及数据处理策略。" 在Spark中，调优是确保应用程序高效运行的关键步骤。以下是一些重要的调优策略： 1. **Executor配置**：`SPARK_EXECUTOR_INSTANCES` 和 `SPARK_EXECUTOR_CORES` 决定了Spark作业可以并行执行的任务数量。增加Executor实例和每个Executor的核数可以提高并发处理能力。同时，`SPARK_EXECUTOR_MEMORY` 用于设置Executor内存，而 `spark.yarn.executor.memoryOverhead` 是额外的内存开销，通常默认为executor内存的7%。 2. **Driver内存**：类似地，`SPARK_DRIVER_MEMORY` 控制Driver进程的内存，`spark.yarn.driver.memoryOverhead` 是Driver的内存开销，默认为driver内存的7%。确保Driver有足够的内存来管理作业的元数据和结果。 3. **任务调度**：合理设置任务粒度，例如，如果一个Stage有100个任务，但Executor只有50个核心，那么任务调度可能会变得低效。应尽量保持任务数量与Executor核心数的平衡，以避免过多的上下文切换。 4. **数据分区**：Spark作业的输入数据会被划分为多个分区，每个分区对应一个任务。`mapred.min.split.size` 可以影响HDFS中的最小分区大小，这将决定数据的读取效率。优化数据分区可以减少网络传输和提高并行度。 5. **内存管理**：Spark默认使用Java堆内存，这可能导致垃圾回收问题。为了优化，可以考虑使用off-heap存储，如Tachyon或Alluxio。此外，使用更高效的集合类，如fastutil，可以减少对象创建和内存占用。 6. **数据结构**：Spark默认使用Java序列化，但效率较低。可以改用Kryo序列化，它更快速且占用更少的内存。对于大数据集，使用特定长度的数组（如固定长度的字符串）可以进一步节省内存。 7. ** Shuffle操作**：Shuffle是Spark性能瓶颈之一，可以通过减少shuffle操作，或者使用更高效的shuffle算法（如Hash Shuffling或Sort Shuffling）来优化。 8. **持久化策略**：对中间结果进行缓存（如使用内存或磁盘），可以避免重复计算，提高整体性能。选择合适的持久化级别（如MEMORY_ONLY, MEMORY_AND_DISK等）也很关键。 9. **网络通信**：调整`spark.network.timeout`等网络超时设置，以及`spark.rpc.askTimeout`，可以避免由于网络延迟导致的作业失败。 10. **资源调度**：在YARN或Mesos上运行Spark时，合理配置资源分配策略，如公平调度器或FIFO调度器，可以提高集群的整体利用率。以上策略需要根据具体应用和硬件环境进行调整。在实际操作中，可以使用Spark的动态资源调整功能，如动态分配Executors，以应对不同工作负载的变化。同时，持续监控和日志分析也是调优过程中的重要环节，可以帮助识别性能瓶颈并做出相应的优化决策。

spark配置文件：
/usr/hdp/current/spark-client/conf/spark-defaults.conf：
/usr/hdp/current/spark-client/conf/spark-env.sh

Spark调优：

【Spark集群并行度】
修改配置：/usr/hdp/current/spark-historyserver/conf/spark-defaults.conf
1.集群task并行度：SPARK_ EXECUTOR_INSTANCES* SPARK_EXECUTOR_CORES；

2.集群内存总量：(executor个数) * (SPARK_EXECUTOR_MEMORY+spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)。

Spark对Executor和Driver额外添加堆内存大小：
Executor端：由spark.yarn.executor.memoryOverhead设置，默认值executorMemory * 0.07与384的最大值。
Driver端：由spark.yarn.driver.memoryOverhead设置，默认值driverMemory * 0.07与384的最大值。

通过调整上述参数，可以提高集群并行度，让系统同时执行的任务更多，那么对于相同的任务，并行度高了，可以减少轮询次数。举例说明：如果一个stage有100task，并行度为50，那么执行完这次任务，需要轮询两次才能完成，如果并行度为100，那么一次就可以了。

但是在资源相同的情况，并行度高，相应的Executor内存就会减少，所以需要根据实际实况协调内存和core。

【Spark任务数量调整】
Spark的任务数由stage中的起始的所有RDD的partition之和数量决定，所以需要了解每个RDD的partition的计算方法。以Spark应用从HDFS读取数据为例，HadoopRDD的partition切分方法完全继承于MapReduce中的FileInputFormat，具体的partition数量由HDFS的块大小、mapred.min.split.size的大小、文件的压缩方式等多个因素决定，详情需要参见FileInputFormat的代码。

【Spark内存调优】
1. 对象所占内存，优化数据结构
Spark 默认使用Java序列化对象，虽然Java对象的访问速度更快，但其占用的空间通常比其内部的属性数据大2-5倍。参考Spark官方文档（http://spark.apache.org/docs/latest/tuning.html#tuning-data-structures）
（1）使用对象数组以及原始类型（primitive type）数组以替代Java或者Scala集合类（collection class)。fastutil 库为原始数据类型提供了非常方便的集合类，且兼容Java标准类库。

（2）尽可能地避免采用含有指针的嵌套数据结构来保存小对象。

下载后可阅读完整内容，剩余2页未读，立即下载

曹宇飞丶

粉丝: 90
资源: 33

Spark调优指南：Executor与Driver内存配置及RDD分区策略

spark调优.rar

Spark 调优攻略上册

Spark调优与性能优化

spark性能调优

spark性能调优参数总结

spark单节点调优

02-Spark性能调优与故障处理.doc

spark原理与调优详解

"Spark调优1：广播变量与持久化策略最佳实践

Spark性能调优与并行度详解

最新资源