Hadoop2.0中的YARN:集群资源调度框架解析
需积分: 9 140 浏览量
更新于2024-08-05
收藏 662KB DOCX 举报
"Hadoop-Yarn是一个重要的分布式集群资源调度框架,是Hadoop 2.x的核心组件,用于管理和分配集群资源。YARN旨在解决Hadoop 1.x中JobTracker职责过重的问题,提高集群资源利用率,并支持多种计算框架如MapReduce、Spark、Hive等在同一平台上运行。"
在Hadoop 1.x版本中,MapReduce是主要的分布式计算框架。JobTracker是系统的核心,负责接收并分配计算任务,同时跟踪监控TaskTracker的任务执行状态。TaskTracker则执行由JobTracker分配的任务。然而,这种设计存在几个显著问题:
1. **JobTracker职责过重**:JobTracker既要管理资源分配,又要监控任务执行,这导致了单点性能瓶颈和资源浪费。
2. **资源利用率低**:由于JobTracker的限制,实时任务和批处理任务需要在不同的集群环境中运行,无法充分利用集群资源。
3. **不适用于多计算框架**:Hadoop 1.x仅专注于MapReduce,不便于其他计算模型如Spark或Hive的集成。
为了解决这些问题,Hadoop 2.x引入了YARN(Yet Another Resource Negotiator)。YARN将JobTracker的功能拆分为两个独立的服务:
- **Resource Manager (RM)**:全局资源管理器,负责整个集群的资源管理和分配,它接受应用程序的申请,决定哪个应用程序可以使用多少资源,并将资源分配给各个应用程序的AppMaster。
- **Application Master (AM)**:每个应用程序特有的AppMaster,负责与RM协商获取资源,以及监控和管理应用程序内部的任务。
YARN的这种设计使得资源管理与任务执行分离,提高了系统的可扩展性和资源利用率。此外,它支持运行多种计算框架,因为每个框架可以有自己的AppMaster来协调其任务执行,无需关心底层的资源调度细节。
在YARN架构中,当用户提交一个应用程序,RM会启动一个容器来运行该应用程序的AM。AM与RM交互以获取执行任务所需的资源,然后AM根据任务需求进一步向RM申请容器,并监控这些容器的状态。Container是YARN中的基本资源单位,包含CPU、内存等资源,可以用来运行任务。
总结来说,Hadoop YARN是Hadoop生态系统的关键组成部分,它通过将资源管理和任务执行分离,提升了系统的效率和灵活性,支持了多样化的计算框架,优化了集群资源利用率,是大数据处理领域的一个重要进步。
2023-06-25 上传
2019-10-25 上传
2020-09-01 上传
介绍hadoop的core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、 yarn-env.sh、yarn-site.xml文件1200字
2023-05-24 上传
2023-05-24 上传
2023-09-23 上传
2023-06-13 上传
2024-10-17 上传
2023-10-23 上传
lune_Lucky
- 粉丝: 4635
- 资源: 14
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能