MR on yarn运行流程
时间: 2023-08-25 18:06:18 浏览: 119
MR on yarn的运行流程如下:
1. 提交作业:用户将MapReduce作业提交给YARN集群的资源管理器(ResourceManager)。
2. 作业分割:ResourceManager将作业分割成多个任务(Tasks),包括一个或多个Map任务和一个或多个Reduce任务。
3. 分配资源:ResourceManager根据集群中的可用资源情况,将任务分配给不同的节点管理器(NodeManager)。
4. 启动容器:每个节点管理器接收到任务后,会为每个任务启动一个容器(Container),容器是任务运行的隔离环境。
5. 运行Map任务:容器中的Map任务会读取输入数据进行处理,并生成中间结果。
6. 拷贝中间结果:Map任务将生成的中间结果拷贝到本地磁盘,并通知ResourceManager。
7. 运行Reduce任务:容器中的Reduce任务会从不同的Map任务所在节点上获取中间结果,并进行合并、排序和归约操作,生成最终结果。
8. 输出结果:Reduce任务将最终结果写入输出目录,并通知ResourceManager。
9. 完成作业:ResourceManager接收到所有任务完成的通知后,将作业标记为完成,并通知用户。
以上就是MapReduce作业在YARN上的运行流程。YARN提供了资源管理和调度的功能,使得多个作业可以并发运行在集群上,并有效地利用集群资源。
阅读全文