Spark on YARN 实现深度解析
188 浏览量
更新于2024-08-30
收藏 82KB PDF 举报
"Spark源码解析,探讨Spark on YARN的实现细节,主要基于Spark 1.0.0版本。"
Spark on YARN是Apache Spark与Hadoop YARN(资源调度器)集成的一种方式,允许Spark应用在YARN集群上运行。在Spark源码系列的第七部分,我们将深入研究Spark如何在YARN上提交和执行任务。
首先,当使用`spark-submit`命令提交一个Spark作业时,在cluster模式下,主要的入口点是`org.apache.spark.deploy.yarn.Client`类。这个类的`run`方法是整个流程的起点。`run`方法包含了三个主要步骤:提交应用、监控应用状态和最终退出。
1. **提交应用**:
- `runApp()`方法首先验证提交参数,确保内存设置和executor数量的合理性。
- 初始化并启动`Client`,这涉及到与YARN集群的交互准备。
- `logClusterResourceDetails()`收集并记录集群资源信息,如NodeManager的数量和队列信息。
- 调用`createApplication()`创建一个新的应用程序实例,并通过`getNewApplicationResponse()`获取应用ID。
- 验证集群资源是否满足作业需求,确保分配的内存等资源足够。
2. **准备资源和环境**:
- 为应用创建一个临时工作目录,通常位于`.sparkStaging/appId/`下,用于存储作业相关的文件。
- 设置应用程序的资源需求,如executor的数量、内存和CPU核心数。
- 准备环境变量,这些变量将传递给executor以启动它们。
3. **提交和启动应用**:
- `submitApplication()`方法将所有配置信息打包成一个申请资源的请求,发送给YARN的ResourceManager。
- ResourceManager接收到请求后,为Spark作业分配Container,并将作业的启动信息(包括JAR包、主类等)发送给对应的NodeManager。
- NodeManager在容器内启动`ApplicationMaster`进程,负责协调executor的启动和资源管理。
- ApplicationMaster与ResourceManager进行心跳通信,报告资源使用情况并请求更多资源。
4. **监控应用**:
- `monitorApplication(appId)`方法持续监控ApplicationMaster的状态,确保作业的正常运行。
- 如果ApplicationMaster失败,`Client`会尝试重新提交,直到达到最大重试次数。
5. **结束流程**:
- 作业完成或达到最大重试次数后,`Client`退出,结束整个提交和执行流程。
以上是对Spark on YARN在1.0.0版本中的基本实现概述。尽管随着时间的推移,Spark版本不断更新,但这些基本原理和流程在后续版本中依然保持了一定的一致性,只是在性能优化和功能增强上有所改进。理解这些核心概念对于深入学习Spark和YARN的集成至关重要,也有助于开发者更好地调试和优化分布式Spark作业。
250 浏览量
142 浏览量
点击了解资源详情
610 浏览量
239 浏览量
144 浏览量
602 浏览量
261 浏览量
333 浏览量
weixin_38637144
- 粉丝: 4
- 资源: 925