YARN组件详解:Hadoop 2.x的Hadoop-YARN架构
需积分: 25 169 浏览量
更新于2024-08-13
收藏 12.67MB PPT 举报
Hadoop是一个开源的大数据处理框架,由Doug Cutting在2003年至2006年间开发并逐渐发展起来。其灵感源于Google的分布式计算模型,特别是GFS(Google File System)和MapReduce。Hadoop2.x是Hadoop的后续版本,相较于1.x版本,它在架构上进行了优化,引入了Yet Another Resource Negotiator (YARN) 服务组件,使得Hadoop更加健壮和可扩展。
YARN服务组件主要包括以下几个关键部分:
1. **Client**:负责与资源管理器(ResourceManager)交互,提交作业和监控任务执行。用户通过客户端接口提交MapReduce任务,这些任务会被拆分成一系列小的可执行单元(Containers)。
2. **ResourceManager**:整个集群的调度中心,负责资源分配和管理工作,如内存、CPU等。它协调Application Master进程,并维护着队列管理和应用程序的状态。
3. **Application Master**:每个MapReduce作业都有一个Application Master,它是用户提交作业的核心代表,与ResourceManager通信,获取资源,管理任务。
4. **NodeManager**:运行在各个节点上的进程,负责管理本地资源(如内存、CPU、磁盘空间)以及执行来自Application Master的Container任务。
5. **Container**:YARN最小的可执行单元,可以在NodeManager上动态分配和回收,以满足作业的需求。
6. **JobHistoryServer**:记录作业的历史信息,便于故障恢复和性能分析。
7. **TimelineServer**:提供了一个统一的时间线服务,用于存储和查询Hadoop系统的运行时元数据,如任务状态、资源使用情况等。
在Hadoop的发展历程中,从Lucene的全文搜索引擎框架到Nutch的网页抓取工具,再到Hadoop的分布式文件系统和MapReduce模型,这些技术的融合使得Hadoop能够处理大规模的数据处理需求。Hadoop的引入不仅解决了Google式的数据存储和计算难题,还为大数据处理提供了标准化的解决方案,推动了大数据时代的到来。
目前,Hadoop已经成为大数据领域的核心技术,被广泛应用在许多企业和研究机构中,用于海量数据的存储、处理和分析。它的成功证明了分布式计算在现代信息技术中的核心地位,也为后续的云计算和大数据生态系统奠定了基础。随着技术的不断迭代,Hadoop将继续扮演着关键角色,推动数据科学和人工智能的进步。
2021-11-14 上传
2021-05-27 上传
139 浏览量
2023-09-03 上传
2024-06-22 上传
2019-10-13 上传
2019-10-15 上传
2022-01-05 上传
2016-08-24 上传
小婉青青
- 粉丝: 28
- 资源: 2万+
最新资源
- express-simple-template:是一个简单的模板,用于日志记录和测试bdd
- flopbox:通过 HTTP 传输文件,只需将您的文件翻过来
- 待办事项清单:待办事项清单
- 界面专业的VC++流量监控程序
- 这是一个仅供个人学习的电商项目(Spring Cloud 2+MySql+JPA+Redis+ Golang+Gin.zip
- 物联网湿度和温度显示-项目开发
- blog-template
- AndreyC101-GAME2005-F2020-FinalTest-101255069:GAME2005-游戏物理决赛
- meteor-mailchimp-custom:自定义和添加的表单字段操作
- 这是我在学习java时候写的一个最最简单的小爬虫,用来爬知乎的标题,然后存储的在mysql.zip
- VC++ TCP 方式实现MYQQ
- action-notify:涡轮行动通知
- react-reality-holokit:Holokit绑定用于React现实
- riemann-test-prototype:编写和测试 Riemann 配置的另一种方法
- terraform-azure-poc
- haku0x666