Apache Hadoop YARN:超越MapReduce的批量处理
需积分: 22 69 浏览量
更新于2024-07-19
收藏 8.17MB PDF 举报
"Apache Hadoop YARN 完整版(英文)"
Apache Hadoop YARN,全称为Yet Another Resource Negotiator,是Hadoop 2.0版本引入的一个核心组件,它作为Hadoop集群的资源管理系统,彻底改变了Hadoop的架构。在Hadoop 1.0时代,MapReduce和任务调度与数据存储(HDFS)紧密耦合,而在Hadoop 2.0即MRv2或YARN中,MapReduce被分解为两个主要部分:一个全局的资源管理器(ResourceManager)和每个应用的本地化应用程序管理器(ApplicationMaster)。这种分离使得YARN能够支持多种计算框架,而不仅仅局限于批处理的MapReduce。
YARN的主要目标是提高集群资源的利用率和灵活性,以及提升系统的整体性能。它通过将集群资源的管理和任务执行分开,实现了更细粒度的资源调度和更好的并行性。ResourceManager负责整个集群的资源分配,接收来自各个应用程序的资源请求,并根据当前的系统状态进行调度。而ApplicationMaster则负责协调其应用程序的任务执行,与ResourceManager协商获取所需的资源,并监控任务的进度。
在YARN中,NodeManager是运行在每个集群节点上的代理,它负责管理本节点的资源,如内存、CPU等,与ResourceManager通信,报告节点状态,并根据ApplicationMaster的指令启动和停止容器(Container),这些容器就是实际执行任务的单元。
YARN的出现使得Hadoop平台能够支持更多类型的计算模型,如交互式查询(如Apache Tez,Apache Spark)、实时流处理(如Apache Storm)和图形处理等。这极大地扩展了Hadoop的应用范围,使得大数据处理不仅限于批处理任务,也能够更好地适应实时分析和复杂计算的需求。
此外,YARN还引入了容器的概念,容器是资源分配的基本单位,可以包含内存、CPU、磁盘和网络资源。每个应用程序的ApplicationMaster会为它的任务申请容器,然后在这些容器中运行任务。这种方式提高了资源的隔离性和安全性,确保不同应用程序之间的相互独立。
Apache Hadoop YARN是Hadoop生态系统中的关键组件,它通过提供一个统一的资源管理平台,促进了大数据处理的多样化和高效性。YARN的引入,不仅优化了MapReduce的执行效率,也为其他计算框架提供了在Hadoop集群上运行的基础,从而推动了大数据技术的发展和广泛应用。
2018-11-16 上传
2014-06-19 上传
点击了解资源详情
2024-06-22 上传
点击了解资源详情
2016-03-17 上传
点击了解资源详情
点击了解资源详情
apollyon1226sdo
- 粉丝: 1
- 资源: 31
最新资源
- 自动夜灯:自动夜灯在天黑时打开 - 使用 Arduino 和 LDR-matlab开发
- RadarEU-crx插件
- torchinfo:在PyTorch中查看模型摘要!
- FFT的应用,所用数据为局部放电信号,实测可用。matalab代码有详细注释
- 邦德游戏
- LTI 系统的 POT:LTI 系统的参数化[非线性]优化工具-matlab开发
- Information-System-For-Police:警务协助申请系统
- Mondkalender-crx插件
- 麦田背景的商务下载PPT模板
- tsdat:时间序列数据实用程序,用于将标准化,质量控制和转换声明性地应用于数据流
- ubersicht-quote-of-the-day:他们说Übersicht的当日行情
- intensivao_python:主题标签treinamentosintensivãopython
- 豆瓣网小说评论爬虫程序
- bdf_ChanOps:在 BDF 上读、写和执行任何数学运算的函数。-matlab开发
- 幕墙节点示意图
- Shalini-Blue55:蓝色测试55