spark on yarn 执行流程
时间: 2023-11-05 10:03:25 浏览: 99
1. 将 spark 应用程序提交到 YARN 集群。YARN ResourceManager 接收应用程序请求,并将其转发给 NodeManager。
2. NodeManager 为应用程序启动一个 ApplicationMaster,ApplicationMaster 是负责管理应用程序的主要组件。
3. ApplicationMaster 向 ResourceManager 请求资源,ResourceManager 分配资源并将其返回给 ApplicationMaster。
4. ApplicationMaster 启动 Executor,Executor 是负责执行任务的组件。
5. Executor 从 HDFS 或其他数据源读取数据,并将其分发给应用程序中的任务。
6. 任务执行完毕后,Executor 将结果返回给 ApplicationMaster。
7. ApplicationMaster 将结果汇总并将其返回给应用程序。
8. 应用程序执行完毕后,ApplicationMaster 释放资源并向 ResourceManager 发送释放资源的请求,然后退出。
相关问题
Spark On Yarn执行流程
Spark On Yarn执行流程大致如下:
1. 用户提交Spark应用程序到Yarn集群
2. Yarn ResourceManager接收到应用程序请求后,为该应用程序分配一个ApplicationMaster(AM)。
3. AM向ResourceManager申请资源,包括CPU、内存等,并启动Driver程序。
4. Driver程序向ResourceManager申请Executor资源,并将任务分配给Executor。
5. Executor执行任务,并将结果返回给Driver。
6. Driver将结果返回给用户。
spark on yarn提交流程
提交 Spark on YARN 的流程为:
1. 准备环境:安装配置好 Hadoop 和 Spark,以及相关的配置参数(如内存、CPU 等)。
2. 准备应用程序:将应用程序打包成 jar 包,其中包含了所有依赖的库和配置信息。
3. 准备提交脚本:创建一个配置文件,指定运行的参数,如需要使用的队列、资源等等。
4. 提交应用程序:使用 Hadoop 提供的命令行工具提交应用程序,提交后可以通过 yarn 在后台进行监控和管理。
5. 监控和管理:可以使用 Hadoop 提供的 Web 界面或命令行工具来查看应用程序的运行状态,包括已完成的任务、正在运行的任务、以及失败的任务等信息。
注意:以上流程只是一般情况,实际使用中还需要根据具体的应用场景做相应的调整。
阅读全文