Yarn工作机制与作业提交全解析:从MR到RM的流程详解
需积分: 0 196 浏览量
更新于2024-08-05
收藏 1.75MB PDF 举报
YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的一个重要组成部分,它作为分布式资源管理平台,为大数据处理框架如MapReduce提供了高效的服务器运算资源调度服务。本文将深入解析YARN的工作机制以及作业提交流程。
在YARN架构中,主要包括以下几个关键组件:
1. **ResourceManager (RM)**: 是YARN的核心组件,负责总体资源管理和调度决策。当用户通过客户端(如Job Client)提交MapReduce作业时,首先会向RM申请一个新的Application(作业)。
2. **NodeManager**: 每个节点上的一个进程,负责监控和管理单个计算节点的资源,包括内存、CPU等,并与RM进行通信,接收和执行来自ApplicationMaster的任务。
3. **ApplicationMaster (AM)**: 在每个作业中,有一个独立的AM实例,它负责协调任务执行,与RM交互并获取所需的资源。对于MapReduce,MapTask和ReduceTask都是由AM来调度的。
4. **Container**: 是YARN中的最小执行单元,用于承载应用程序的各个任务。
作业提交流程如下:
- **步骤1**:客户端(例如Hadoop的JobClient)通过`job.waitForCompletion`方法发起作业提交,向整个集群提交MapReduce作业。
- **步骤2**:客户端向RM申请一个作业ID,以便后续跟踪作业状态。
- **步骤3**:RM确认申请后,返回作业资源提交路径和作业ID给客户端。
- **步骤4**:客户端将作业所需的JAR包、切片信息(数据划分)和配置文件上传到指定的资源提交路径。
- **步骤5**:资源提交完成后,客户端向RM申请运行MrAppMaster,即作业的起点。
在作业初始化阶段,MrAppMaster开始启动:
- **步骤6**:MrAppMaster获取到运行所需的资源后,将任务提交给NodeManager。
- **步骤7-12**:NodeManager接收任务,创建Container,下载作业资源,然后启动MapTask,对数据进行分区排序。
- **步骤13**:当所有MapTask完成后,MrAppMaster再次向RM申请资源,启动ReduceTask,负责数据的合并和结果输出。
- **步骤14**:ReduceTask从MapTask获取分区数据,执行reduce操作。
- **步骤15**:作业执行完毕后,MrAppMaster向RM申请注销,释放资源。
这个过程中,YARN的核心机制在于其分层的资源管理和任务调度,确保了系统的灵活性、可扩展性和效率。理解并掌握YARN的工作原理对于开发和优化大数据处理应用至关重要。
130 浏览量
点击了解资源详情
点击了解资源详情
101 浏览量
点击了解资源详情
371 浏览量
点击了解资源详情
点击了解资源详情
点击了解资源详情
梁肖松
- 粉丝: 32
- 资源: 300
最新资源
- 易语言BASS音乐盒
- Draft 2020-10-26 09:34:16-数据集
- Мотолькулятор-crx插件
- 作品答辩PPT指导模版.rar
- Dockboard-开源
- nativescript-fb-analytics:轻量级NativeScript插件,可将Facebook Analytics添加到iOS和Android应用程序
- 视频商店:Guia Objetos IV
- NotNews!-crx插件
- 易语言Beep卡农
- SFE_CC3000_Library:用于 TI CC3000 WiFi 模块的 Arduino 库
- FogPlacementWithSelfLearning
- mpu6050_姿态传感器_姿态解算_TI_
- Unfixed google search form-crx插件
- lipyd:用于脂质组学LC MSMS数据分析的Python模块
- java图书管理系统实现代码
- nativescript-disable-bitcode:禁用CocoaPods位码的NativeScript插件