"深入理解Spark on Yarn的启动流程与源码编译"

需积分: 11 132 浏览量更新于2024-01-31 收藏 2.49MB DOCX 举报

Spark的初始化源码阅读主要涉及到SparkOnYARN中的client和cluster区别以及编译源码包和启动流程。首先，要进行Spark初始化源码阅读，需要下载Spark源码并在Linux系统上进行编译。在编译之前，需要安装JDK(1.8)和Maven3.3.9，然后解压源码包并调整Maven编译时的内存大小。接下来，执行编译普通包命令和编译可执行的安装包命令，以便开始Spark的初始化。在编译完成后，可以进行Spark的启动流程。启动流程包括使用sbin/start-all.sh命令来启动Spark并调用start-master.sh和start-slaves.sh来启动master节点和slaves节点。start-master.sh之后会调用spark-daemon.sh来启动org.apache.spark.deploy.master.Master。这一系列的操作是为了确保Spark的启动流程能够顺利进行并且各个节点能够正常工作。此外，在进行Spark初始化源码阅读的过程中，需要注意SparkOnYARN中的client和cluster区别。在SparkOnYARN中，client模式是指客户端模式，这种模式下驱动程序运行在客户端机器上，而不是集群中。而cluster模式是指集群模式，这种模式下驱动程序运行在集群中。理解client和cluster区别对于源码的阅读和理解非常重要，因为不同的模式下Spark的工作机制和流程会有所不同。因此，在源码阅读过程中要特别关注这两种模式下的区别和影响。在总结上述内容时，需要注意到编译源码包和启动流程是Spark初始化的关键步骤，而理解client和cluster区别是源码阅读的重点。通过深入分析源码，可以更好地理解Spark的工作原理和内部机制，从而为应用开发和调优提供参考和帮助。因此，在进行Spark初始化源码阅读时，需要着重关注这些内容，并通过实际操作和调试来加深理解和掌握。

Worker.scala

1.接收到 master 的启动任务消息,封装到 ExecutorRunner 中

2.调用 manager.start()启动一个 java 子进程;并更新 worker 的资源数

ExecutorRunner.scala 调用自己的 fetchAndRunExecutor()方法

2.1 方法中 CommandUtils.buildProcessBuilder 调用 CommandUtils.scala 的 buildCommandSeq()

方法 2.2 启动 java 进程(java -jar 注意命令不一定在 xxRunner.scala 文件里)

4.启动 Executor 过程

CoarseGrainedExecutorBackend.scala:Executor 执行的入口引用 master 跟 worker,DriverActor 通信

1.创建 ExecutorEnv(创建 actorSystem,创建 actor 跟 driverActor 通信(跟 driverActor(da)建立连接,

向 da 注册 Executor 信息))

ReceiveWithLogging 方法模式匹配

//DriverActor 发送给 Executor 的消息

Case RegisterExecutor {new Executor()//()里面是 Executor 发送给 Driverd 注册计算的

Executor 信息.创建 executor(里面有一个线程池)}

创建 Executor 的核心过程第一步通信如下图 !!

第二步是启动过程调用线程池和 run 方法如上 4.1!! 为的是使用该 executor; 实际上

CoarseGrainedExecutorBackend.scala 执行做两件事就是 1.创建 executor,2 启动 executor!

第一天复习

剩余16页未读，继续阅读

Sahag321

粉丝: 34
资源: 4

"深入理解Spark on Yarn的启动流程与源码编译"

Spark实验：On Yarn模式安装部署（带答案）1

【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

Spark on Yarn模式部署.docx

spark client和cluster区别

sparkstreaming读写kerberos kafka（yarn client、yarn cluster）

yarn-cluster和yarn-client的对比

spark on yarn

spark on yarn 和spark on hive

Spark on YARN 部署方式的url

spark on yarn还是spark on k8s

最新资源