Hadoop YARN 概述与架构解析

版权申诉

68 浏览量更新于2024-07-17 收藏 851KB PPTX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"Yarn是Hadoop集群的资源管理系统，旨在改进Hadoop1.x中的MapReduce框架，实现资源管理和任务调度的分离，以支持更多类型的计算应用。Yarn由ResourceManager、ApplicationMaster、Scheduler、Container和NodeManager等关键组件构成，提供统一的集群资源管理和调度。" 在Hadoop 1.x中，MapReduce作业的管理和调度集中在一个单一的JobTracker上，这导致了系统扩展性和效率的问题。随着Hadoop2.0的引入，Yarn（Yet Another Resource Negotiator）成为核心组成部分，它将资源管理和任务调度的功能分离，显著提高了系统的可扩展性和灵活性。 **ResourceManager（RM）** 是Yarn的核心，全局管理集群的资源，包括Scheduler和ApplicationsManager。Scheduler负责根据应用需求公平地分配资源，而ApplicationsManager则处理应用程序的提交、初始化和监控。 **ApplicationMaster（AM）** 每个应用程序都有一个对应的AM，它负责与ResourceManager协商获取资源，然后分配给内部的任务。AM还负责监控应用的执行进度，如果任务失败，它会请求ResourceManager重新启动任务。 **Scheduler** 根据应用的需求，将集群的资源以**Container** 的形式分配出去。Container是一个抽象概念，代表了一个包含CPU、内存、磁盘等资源的单元，确保每个应用在预定的资源限制内运行。Scheduler会尽可能地将任务调度到包含所需数据的节点上，以减少数据传输，提高性能。 **NodeManager（NM）** 是每个节点上的守护进程，负责节点的本地资源管理。NM监控其所在节点的资源使用情况，接收并执行ResourceManager分配的Container任务，同时处理ApplicationMaster的请求，如启动或停止任务。 Yarn的这一设计允许不同的应用程序（如MapReduce、Hive、Hbase、Pig、Spark等）在相同的集群上并行运行，且互不干扰，有效地利用了集群资源。通过这样的架构，Yarn为大数据处理提供了更强大的支撑，不仅提高了集群利用率，还降低了不同应用之间的耦合性。总结来说，Yarn是Hadoop生态系统中一个至关重要的组件，它通过模块化的架构设计，实现了资源的有效管理和任务的高效调度，为大数据处理带来了更优的性能和更广泛的适用性。

资源详情

资源推荐