探索MapReduce1运行机制与YARN架构升级

版权申诉

53 浏览量更新于2024-07-07 收藏 1.06MB DOCX 举报

本章深入探讨了大数据技术教程中的关键部分——MapReduce运行机制和YARN介绍。MapReduce1是Hadoop早期版本中的核心组件，它构成了Hadoop2.0之前的基础作业调度模型。这一章节首先回顾了MapReduce1的基本工作原理，强调其主要包括客户端、JobTracker、TaskTracker和HDFS四个核心组件。客户端是作业提交者，负责编写的包含main方法的程序，它负责提交Job任务并获取JobID，随后将作业所需的资源（如JAR文件、配置文件和作业信息）上传到HDFS。JobTracker作为全局调度和监控中心，它创建一个专门的文件夹存储对应JobID的资源文件，并管理整个作业的生命周期。在MapReduce1的调度流程中，作业调度器基于数据本地化原则，即将Map任务分配给存储有相应数据的节点，以优化性能。当JobTracker接到任务调度请求后，会创建多个Map和Reduce任务，并根据输入数据分布情况分配给TaskTracker执行。TaskTracker在接收到任务后，执行具体的map和reduce操作，期间将任务状态更新和结果报告回JobTracker。然而，随着Hadoop的演进，MapReduce1的调度模型被YARN（Yet Another Resource Negotiator）所取代。YARN是一个更加模块化和可扩展的资源管理系统，它引入了资源抽象和容器的概念，使得系统能够更好地支持多种计算框架。与MapReduce1相比，YARN提供了一个通用的资源调度平台，允许用户灵活选择作业执行引擎，如Spark或Tez，而不仅仅是MapReduce。总结来说，本章不仅介绍了MapReduce1的运行机制，还为理解YARN的出现和发展背景奠定了基础，帮助读者深入了解分布式计算框架的核心原理。通过理解这些原理，开发者能更好地设计和优化大数据处理流程，以适应不断变化的技术需求。

5000 个任务，则单个 JobTracker 进程将需要跟踪所有 20,000 个任务，这种情况下集群就

有可能出问题，JobTracker 成为集群的瓶颈。YARN 解决了 JobTracker 的局限性。YARN 最

基本的想法是将原JobTracker主要的资源管理器和Job调度/监视功能分开作为两个单独的

守护进程，一个全局的 ResourceManger 和每个应用有一个单独的 ApplicationMaster 跟踪

自己的任务。虽然 YARN 仍然有一个 ResourceManager 的集中式服务器，但它比 JobTracker

的压力要少得多，因此可以显着改善。

2. 效率

Hadoop1.x 资源模型基于槽(slot)的抽象概念。槽(Slot)代表一片计算资源，一旦定

义了它们，就不会在没有进程重新启动的情况下更改它们。基于槽的资源管理方法可能导致

资源利用率较低。例如，由于槽需要被定义为 Map Slot 或 Reduce Slot，可能有 Reduce Slot

空闲，而成千上万的 Map 任务坐在队列中等待可用的 map 槽。

计算资源包括 CPU、内存、磁盘 IO、网络 IO 等多维度的资源，Hadoop 1.X 将各个节

点的多维度资源抽象成为一种一维度的 Slot 资源，当某些作业需要大量 CPU，而其他作业

需要大量内存时，而基于槽的资源管理方法假设所有进程都被创建为相等的资源，不考虑不

同任务的资源需求，这可能导致一些节点被 CPU 消耗大的任务占用，而其他节点被内存密集

型任务困扰。

在 YARN 中，节点管理器管理一个资源池，而不是固定数目的 Slot，并且不再划分 Map

Slot 和 Reduce Slot，并且 YARN 能够做到更加精细化的管理，不再划分一个固定的不可分

割的 Slot，而是按需请求资源。

3. 集群通用性

前面已介绍 YARN 成为了具有足够的通用性，不仅支持 MapReduce 计算，同时也支持

其他计算框架的应用计算。不同的计算框架的应用可以直接运行在 YARN 集群上，这种运行

模式下，会将资源的管理与协调统一交给 YARN 集群去处理，这样 YARN 集群之上能够实现应

用的多样性。

在 YARN 上可以运行 MapReduce 程序，也可以运行 Spark 应用，也可以运行 Storm 集

群，还可以运行使用 Python 开发机器学习应用程序。

凭借 YARN 运行多个框架的能力，使得单个集群就能满足不同的应用要求，而无需使

用者构建专用的集群的需求。同时，YARN 的调度程序和细粒度资源管理模型可以确保为每

个框架提供足够的资源，同时确保使用集群上的每个资源可用循环使用。

剩余15页未读，继续阅读

春哥111

粉丝: 1w+
资源: 5万+

探索MapReduce1运行机制与YARN架构升级

大数据技术之Hadoop(MapReduce&Yarn).docx

大数据技术基础-安装-hadoop-过程 (2).docx

大数据初次窥探---第一节.docx

南开大学复习资料-大数据开发技术(二).docx

Hadoop大数据平台-建设要求及应答方案.docx

03_MapReduce 和Spark on YARN.docx

史上最全的大数据面试题-大数据开发者必看.docx

大数据面试题-.docx

CDH-HDP-MAPR-DKH-星环组件比较.docx

实验3-MapReduce编程初级实践.docx

最新资源