Spark on YARN 实现深度解析

0 下载量 82 浏览量 更新于2024-08-30 收藏 82KB PDF 举报
"Spark源码解析,探讨Spark on YARN的实现细节,主要基于Spark 1.0.0版本。" Spark on YARN是Apache Spark与Hadoop YARN(资源调度器)集成的一种方式,允许Spark应用在YARN集群上运行。在Spark源码系列的第七部分,我们将深入研究Spark如何在YARN上提交和执行任务。 首先,当使用`spark-submit`命令提交一个Spark作业时,在cluster模式下,主要的入口点是`org.apache.spark.deploy.yarn.Client`类。这个类的`run`方法是整个流程的起点。`run`方法包含了三个主要步骤:提交应用、监控应用状态和最终退出。 1. **提交应用**: - `runApp()`方法首先验证提交参数,确保内存设置和executor数量的合理性。 - 初始化并启动`Client`,这涉及到与YARN集群的交互准备。 - `logClusterResourceDetails()`收集并记录集群资源信息,如NodeManager的数量和队列信息。 - 调用`createApplication()`创建一个新的应用程序实例,并通过`getNewApplicationResponse()`获取应用ID。 - 验证集群资源是否满足作业需求,确保分配的内存等资源足够。 2. **准备资源和环境**: - 为应用创建一个临时工作目录,通常位于`.sparkStaging/appId/`下,用于存储作业相关的文件。 - 设置应用程序的资源需求,如executor的数量、内存和CPU核心数。 - 准备环境变量,这些变量将传递给executor以启动它们。 3. **提交和启动应用**: - `submitApplication()`方法将所有配置信息打包成一个申请资源的请求,发送给YARN的ResourceManager。 - ResourceManager接收到请求后,为Spark作业分配Container,并将作业的启动信息(包括JAR包、主类等)发送给对应的NodeManager。 - NodeManager在容器内启动`ApplicationMaster`进程,负责协调executor的启动和资源管理。 - ApplicationMaster与ResourceManager进行心跳通信,报告资源使用情况并请求更多资源。 4. **监控应用**: - `monitorApplication(appId)`方法持续监控ApplicationMaster的状态,确保作业的正常运行。 - 如果ApplicationMaster失败,`Client`会尝试重新提交,直到达到最大重试次数。 5. **结束流程**: - 作业完成或达到最大重试次数后,`Client`退出,结束整个提交和执行流程。 以上是对Spark on YARN在1.0.0版本中的基本实现概述。尽管随着时间的推移,Spark版本不断更新,但这些基本原理和流程在后续版本中依然保持了一定的一致性,只是在性能优化和功能增强上有所改进。理解这些核心概念对于深入学习Spark和YARN的集成至关重要,也有助于开发者更好地调试和优化分布式Spark作业。