YARN组件详解：Hadoop 2.x的Hadoop-YARN架构

需积分: 25 169 浏览量更新于2024-08-13 收藏 12.67MB PPT 举报

Hadoop是一个开源的大数据处理框架，由Doug Cutting在2003年至2006年间开发并逐渐发展起来。其灵感源于Google的分布式计算模型，特别是GFS（Google File System）和MapReduce。Hadoop2.x是Hadoop的后续版本，相较于1.x版本，它在架构上进行了优化，引入了Yet Another Resource Negotiator (YARN) 服务组件，使得Hadoop更加健壮和可扩展。 YARN服务组件主要包括以下几个关键部分： 1. **Client**：负责与资源管理器（ResourceManager）交互，提交作业和监控任务执行。用户通过客户端接口提交MapReduce任务，这些任务会被拆分成一系列小的可执行单元（Containers）。 2. **ResourceManager**：整个集群的调度中心，负责资源分配和管理工作，如内存、CPU等。它协调Application Master进程，并维护着队列管理和应用程序的状态。 3. **Application Master**：每个MapReduce作业都有一个Application Master，它是用户提交作业的核心代表，与ResourceManager通信，获取资源，管理任务。 4. **NodeManager**：运行在各个节点上的进程，负责管理本地资源（如内存、CPU、磁盘空间）以及执行来自Application Master的Container任务。 5. **Container**：YARN最小的可执行单元，可以在NodeManager上动态分配和回收，以满足作业的需求。 6. **JobHistoryServer**：记录作业的历史信息，便于故障恢复和性能分析。 7. **TimelineServer**：提供了一个统一的时间线服务，用于存储和查询Hadoop系统的运行时元数据，如任务状态、资源使用情况等。在Hadoop的发展历程中，从Lucene的全文搜索引擎框架到Nutch的网页抓取工具，再到Hadoop的分布式文件系统和MapReduce模型，这些技术的融合使得Hadoop能够处理大规模的数据处理需求。Hadoop的引入不仅解决了Google式的数据存储和计算难题，还为大数据处理提供了标准化的解决方案，推动了大数据时代的到来。目前，Hadoop已经成为大数据领域的核心技术，被广泛应用在许多企业和研究机构中，用于海量数据的存储、处理和分析。它的成功证明了分布式计算在现代信息技术中的核心地位，也为后续的云计算和大数据生态系统奠定了基础。随着技术的不断迭代，Hadoop将继续扮演着关键角色，推动数据科学和人工智能的进步。

小婉青青

粉丝: 28
资源: 2万+

YARN组件详解：Hadoop 2.x的Hadoop-YARN架构

flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar.tar.gz

flink-shaded-hadoop-2-uber-2.7.5-10.0.jar.zip

spark2.1.0-bin-hadoop2.7

flink-shaded-hadoop3 和 flink-shaded-hadoop3-uber

Hadoop Yarn - Apache - Cloudera - APIs

hadoop-yarn-server-resourcemanager-2.3.0.zip

hadoop-yarn-common-0.23.9.zip

大数据工作者--Hadoop进阶版hadoop创建

计算机专业基础理论电子书合集10----hadoop

董西城-Hadoop技术内幕-深入理解YARN架构设计与实现原理----带完整书签--完整版共394页

最新资源