Spark on YARN 实现深度解析

188 浏览量更新于2024-08-30 收藏 82KB PDF 举报

"Spark源码解析，探讨Spark on YARN的实现细节，主要基于Spark 1.0.0版本。" Spark on YARN是Apache Spark与Hadoop YARN（资源调度器）集成的一种方式，允许Spark应用在YARN集群上运行。在Spark源码系列的第七部分，我们将深入研究Spark如何在YARN上提交和执行任务。首先，当使用`spark-submit`命令提交一个Spark作业时，在cluster模式下，主要的入口点是`org.apache.spark.deploy.yarn.Client`类。这个类的`run`方法是整个流程的起点。`run`方法包含了三个主要步骤：提交应用、监控应用状态和最终退出。 1. **提交应用**： - `runApp()`方法首先验证提交参数，确保内存设置和executor数量的合理性。 - 初始化并启动`Client`，这涉及到与YARN集群的交互准备。 - `logClusterResourceDetails()`收集并记录集群资源信息，如NodeManager的数量和队列信息。 - 调用`createApplication()`创建一个新的应用程序实例，并通过`getNewApplicationResponse()`获取应用ID。 - 验证集群资源是否满足作业需求，确保分配的内存等资源足够。 2. **准备资源和环境**： - 为应用创建一个临时工作目录，通常位于`.sparkStaging/appId/`下，用于存储作业相关的文件。 - 设置应用程序的资源需求，如executor的数量、内存和CPU核心数。 - 准备环境变量，这些变量将传递给executor以启动它们。 3. **提交和启动应用**： - `submitApplication()`方法将所有配置信息打包成一个申请资源的请求，发送给YARN的ResourceManager。 - ResourceManager接收到请求后，为Spark作业分配Container，并将作业的启动信息（包括JAR包、主类等）发送给对应的NodeManager。 - NodeManager在容器内启动`ApplicationMaster`进程，负责协调executor的启动和资源管理。 - ApplicationMaster与ResourceManager进行心跳通信，报告资源使用情况并请求更多资源。 4. **监控应用**： - `monitorApplication(appId)`方法持续监控ApplicationMaster的状态，确保作业的正常运行。 - 如果ApplicationMaster失败，`Client`会尝试重新提交，直到达到最大重试次数。 5. **结束流程**： - 作业完成或达到最大重试次数后，`Client`退出，结束整个提交和执行流程。以上是对Spark on YARN在1.0.0版本中的基本实现概述。尽管随着时间的推移，Spark版本不断更新，但这些基本原理和流程在后续版本中依然保持了一定的一致性，只是在性能优化和功能增强上有所改进。理解这些核心概念对于深入学习Spark和YARN的集成至关重要，也有助于开发者更好地调试和优化分布式Spark作业。

Spark源码系列（七）源码系列（七）Sparkonyarn具体实现具体实现

本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经

是一个stable的版本了，可是1.0.1也出来了，离1.0.0发布才一个月的时间，更新太快了，节奏跟不上啊，这里仍旧是讲1.0.0

的代码，所以各位朋友也不要再问我讲的是哪个版本，目前为止发布的文章都是基于1.0.0的代码。

在第一章《spark-submit提交作业过程》的时候，我们讲过Spark on yarn的在cluster模式下它的main class是

org.apache.spark.deploy.yarn.Client。okay，这个就是我们的头号目标。

提交作业

找到main函数，里面调用了run方法，我们直接看run方法。

val appId = runApp()

monitorApplication(appId)

System.exit(0)

运行App，跟踪App，最后退出。我们先看runApp吧。

def runApp(): ApplicationId = {

// 校验参数，内存不能小于384Mb，Executor的数量不能少于1个。

validateArgs()

// 这两个是父类的方法，初始化并且启动Client

init(yarnConf)

start()

// 记录集群的信息(e.g, NodeManagers的数量，队列的信息).

logClusterResourceDetails()

// 准备提交请求到ResourcManager (specifically its ApplicationsManager (ASM)// Get a new

client application.

val newApp = super.createApplication()

val newAppResponse = newApp.getNewApplicationResponse()

val appId = newAppResponse.getApplicationId()

// 检查集群的内存是否满足当前的作业需求

verifyClusterResources(newAppResponse)

// 准备资源和环境变量.

//1.获得工作目录的具体地址: /.sparkStaging/appId/

val appStagingDir = getAppStagingDir(appId)

　　//2.创建工作目录，设置工作目录权限，上传运行时所需要的jar包

val localResources = prepareLocalResources(appStagingDir)

//3.设置运行时需要的环境变量

val launchEnv = setupLaunchEnv(localResources, appStagingDir)

　　//4.设置运行时JVM参数，设置SPARK_USE_CONC_INCR_GC为true的话，就使用CMS的

垃圾回收机制

val amContainer = createContainerLaunchContext(newAppResponse, localResources,

launchEnv)

// 设置application submission context.

val appContext = newApp.getApplicationSubmissionContext()

appContext.setApplicationName(args.appName)

appContext.setQueue(args.amQueue)

appContext.setAMContainerSpec(amContainer)

appContext.setApplicationType("SPARK")

// 设置ApplicationMaster的内存，Resource是表示资源的类，目前有CPU和内存两种.

val memoryResource = Records.newRecord(classOf[Resource]).asInstanceOf[Resource]

memoryResource.setMemory(args.amMemory +

YarnAllocationHandler.MEMORY_OVERHEAD)

appContext.setResource(memoryResource)

// 提交Application.

submitApp(appContext)

appId

}

monitorApplication就不说了，不停的调用getApplicationReport方法获得最新的Report，然后调用getYarnApplicationState获

取当前状态，如果状态为FINISHED、FAILED、KILLED就退出。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38637144

粉丝: 4
资源: 925

Spark on YARN 实现深度解析

spark初始化源码阅读sparkonyarn的client和cluster区别

【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

Spark亚太研究院：Spark on Yarn大数据实践经历

Spark源码深度解读

SparkCore源码阅读

word源码java-spark_demo:spark_demo

spark yarn模式的搭建.docx

Hive on Spark实施笔记1

Hive on Spark安装配置详解.pdf

"深入理解Spark on Yarn的启动流程与源码编译

最新资源