Spark On YARN：动态资源分配策略实践

135 浏览量更新于2024-08-28 收藏 1.86MB PDF 举报

"Spark动态资源分配-DynamicResourceAllocation" 在Spark中，资源管理是一个关键的组成部分，特别是当它运行在YARN（Hadoop的资源调度器）之上时。动态资源分配（Dynamic Resource Allocation，DRA）是Spark 1.2之后引入的一个特性，主要目的是优化集群资源利用率，特别是在处理批处理和交互式查询（如Spark SQL）时。这个功能允许Spark应用根据实际任务负载动态地增减Executor数量，从而避免不必要的资源浪费。在传统的静态资源配置中，用户在提交Spark应用时需要预先指定Executor的数量、内存和CPU核心数。例如，使用`--num-executors`、`--executor-memory`和`--executor-cores`参数。这种做法在多用户环境中可能会造成资源的过度分配，比如在Spark SQL的交互式使用场景下，每个用户启动时都会预占固定数量的Executor，即使它们没有执行任何任务，这些资源也无法释放。与之相反，Hive在处理类似场景时更加高效。只有当用户执行Hive SQL时，才会向YARN申请资源，不执行时则不会占用。Spark SQL想要实现类似的功能，即执行SQL时申请资源，不执行时释放资源，这就需要用到动态资源分配。动态资源分配的工作原理是：Spark应用在启动时会分配一个最小数量的Executor，然后根据作业的Task数量和当前Executor的负载情况，自动扩展或收缩Executor的数量。这样，系统可以更好地应对波动的工作负载，提高资源的利用率，尤其适用于需要持续运行的Spark SQL服务。要在Spark on YARN中启用动态资源分配，除了在Spark应用的配置中设置相应的参数（如`spark.dynamicAllocation.enabled=true`）外，还需要对YARN集群进行一些配置。例如，要支持Spark的ShuffleService，需要在YARN的NodeManager配置文件`yarn-site.xml`中添加相关配置。此外，还需要确保ResourceManager和NodeManager之间的通信能够支持动态资源调整。 Spark的动态资源分配是一项强大的功能，能够帮助管理和优化集群资源，特别是在高并发和混合工作负载的环境中。通过合理配置和使用这一特性，可以提升Spark应用的性能，减少资源浪费，同时增强系统的响应能力和弹性。

Spark动态资源分配动态资源分配-DynamicResourceAllocation

Spark中，所谓资源单位一般指的是executors，和Yarn中的Containers一样，在Spark On Yarn模式下，通常使用–num-

executors来指定Application使用的executors数量，而–executor-memory和–executor-cores分别用来指定每个executor所使用

的内存和虚拟CPU核数。相信很多朋友至今在提交Spark应用程序时候都使用该方式来指定资源。

假设有这样的场景，如果使用Hive，多个用户同时使用hive-cli做数据开发和分析，只有当用户提交执行了Hive SQL时候，才

会向YARN申请资源，执行任务，如果不提交执行，无非就是停留在Hive-cli命令行，也就是个JVM而已，并不会浪费YARN的

资源。现在想用Spark-SQL代替Hive来做数据开发和分析，也是多用户同时使用，如果按照之前的方式，以yarn-client模式运

行spark-sql命令行（http://lxw1234.com/archives/2015/08/448.htm），在启动时候指定–num-executors 10，那么每个用户启

动时候都使用了10个YARN的资源（Container），这10个资源就会一直被占用着，只有当用户退出spark-sql命令行时才会释

放。

spark-sql On Yarn，能不能像Hive一样，执行SQL的时候才去申请资源，不执行的时候就释放掉资源呢，其实从Spark1.2之

后，对于On Yarn模式，已经支持动态资源分配（Dynamic Resource Allocation），这样，就可以根据Application的负载

（Task情况），动态的增加和减少executors，这种策略非常适合在YARN上使用spark-sql做数据开发和分析，以及将spark-

sql作为长服务来使用的场景。

本文以Spark1.5.0和hadoop-2.3.0-cdh5.0.0，介绍在spark-sql On Yarn模式下，如何使用动态资源分配策略。

YARN的配置

首先需要对YARN的NodeManager进行配置，使其支持Spark的Shuffle Service。

修改每台NodeManager上的yarn-site.xml：

##修改

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle,spark_shuffle</value>

</property>

##增加

<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>

<value>org.apache.spark.network.yarn.YarnShuffleService</value>

</property>

<name>spark.shuffle.service.port</name>

</property>

将$SPARK_HOME/lib/spark-1.5.0-yarn-shuffle.jar拷贝到每台NodeManager的${HADOOP_HOME}/share/hadoop/yarn/lib/

下。

重启所有NodeManager。

Spark的配置

配置$SPARK_HOME/conf/spark-defaults.conf，增加以下参数：

spark.shuffle.service.enabled true //启用External shuffle Service服务

spark.shuffle.service.port 7337 //Shuffle Service服务端口，必须和yarn-site中的一致

spark.dynamicAllocation.enabled true //开启动态资源分配

spark.dynamicAllocation.minExecutors 1 //每个Application最小分配的executor数

spark.dynamicAllocation.maxExecutors 30 //每个Application最大并发分配的executor数

spark.dynamicAllocation.schedulerBacklogTimeout 1s

spark.dynamicAllocation.sustainedSchedulerBacklogTimeout 5s

动态资源分配策略：

开启动态分配策略后，application会在task因没有足够资源被挂起的时候去动态申请资源，这种情况意味着该application现有

的executor无法满足所有task并行运行。spark一轮一轮的申请资源，当有task挂起或等待

spark.dynamicAllocation.schedulerBacklogTimeout(默认1s)时间的时候，会开始动态资源分配；之后会每隔

spark.dynamicAllocation.sustainedSchedulerBacklogTimeout(默认1s)时间申请一次，直到申请到足够的资源。每次申请的资

源量是指数增长的，即1,2,4,8等。

之所以采用指数增长，出于两方面考虑：其一，开始申请的少是考虑到可能application会马上得到满足；其次要成倍增加，是

为了防止application需要很多资源，而该方式可以在很少次数的申请之后得到满足。

资源回收策略：

当application的executor空闲时间超过spark.dynamicAllocation.executorIdleTimeout（默认60s）后，就会被回收。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38720461

粉丝: 9
资源: 923

Spark On YARN：动态资源分配策略实践

Spark 1.2+动态资源分配：提升YARN上SQL开发效率

ECS上快速部署与管理Spark集群的aliyun-spark-deploy-tool

sbt-spark-ec2-plugin：Sbt插件助力Spark作业部署至EC2

spark资源 spark-2.3.2-bin-hadoop2.7 tgz文件

spark2.2.0源码------

Spark期中测试题---2019-附件资源

Spark-Source-Code-Tutorial:该项目记录了我的Spark学习资源-spark source code

北风网spark课程源码spark-study-scala.rar

Spark系统与开发--2019-- zzti---期末考试-附件资源

Spark-SourceCode-Customization-spark source code

最新资源