Yarn工作机制与作业提交全解析:从MR到RM的流程详解

需积分: 0 3 下载量 161 浏览量 更新于2024-08-05 收藏 1.75MB PDF 举报
YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的一个重要组成部分,它作为分布式资源管理平台,为大数据处理框架如MapReduce提供了高效的服务器运算资源调度服务。本文将深入解析YARN的工作机制以及作业提交流程。 在YARN架构中,主要包括以下几个关键组件: 1. **ResourceManager (RM)**: 是YARN的核心组件,负责总体资源管理和调度决策。当用户通过客户端(如Job Client)提交MapReduce作业时,首先会向RM申请一个新的Application(作业)。 2. **NodeManager**: 每个节点上的一个进程,负责监控和管理单个计算节点的资源,包括内存、CPU等,并与RM进行通信,接收和执行来自ApplicationMaster的任务。 3. **ApplicationMaster (AM)**: 在每个作业中,有一个独立的AM实例,它负责协调任务执行,与RM交互并获取所需的资源。对于MapReduce,MapTask和ReduceTask都是由AM来调度的。 4. **Container**: 是YARN中的最小执行单元,用于承载应用程序的各个任务。 作业提交流程如下: - **步骤1**:客户端(例如Hadoop的JobClient)通过`job.waitForCompletion`方法发起作业提交,向整个集群提交MapReduce作业。 - **步骤2**:客户端向RM申请一个作业ID,以便后续跟踪作业状态。 - **步骤3**:RM确认申请后,返回作业资源提交路径和作业ID给客户端。 - **步骤4**:客户端将作业所需的JAR包、切片信息(数据划分)和配置文件上传到指定的资源提交路径。 - **步骤5**:资源提交完成后,客户端向RM申请运行MrAppMaster,即作业的起点。 在作业初始化阶段,MrAppMaster开始启动: - **步骤6**:MrAppMaster获取到运行所需的资源后,将任务提交给NodeManager。 - **步骤7-12**:NodeManager接收任务,创建Container,下载作业资源,然后启动MapTask,对数据进行分区排序。 - **步骤13**:当所有MapTask完成后,MrAppMaster再次向RM申请资源,启动ReduceTask,负责数据的合并和结果输出。 - **步骤14**:ReduceTask从MapTask获取分区数据,执行reduce操作。 - **步骤15**:作业执行完毕后,MrAppMaster向RM申请注销,释放资源。 这个过程中,YARN的核心机制在于其分层的资源管理和任务调度,确保了系统的灵活性、可扩展性和效率。理解并掌握YARN的工作原理对于开发和优化大数据处理应用至关重要。