Hadoop2.x:AM与RM交互详解

需积分: 25 33 下载量 171 浏览量 更新于2024-08-13 收藏 12.67MB PPT 举报
"了解AM与RM在Hadoop中的交互过程以及Hadoop2.x的基本概念和起源" 在Hadoop中,Application Master (AM) 和ResourceManager (RM) 的交互是整个分布式计算框架的关键部分。当用户提交一个应用程序到YARN (Yet Another Resource Negotiator) 的ResourceManager时,RM首先会向资源调度器申请资源来启动AM。一旦资源被分配,ApplicationMasterLauncher会与相应的NodeManager通信,以在选定的节点上启动AM。这个过程中,ApplicationMasterLaucher会启动对新启动的AM的心跳监控。 AM启动后,它会向ApplicationMasterService注册,并提供其所在的主机名和端口号等信息。在运行期间,AM会定期向ApplicationMasterService发送心跳信息,这些信息包含了AM当前需要的资源描述。RM的ApplicationMasterService接收到这些心跳信息后,会通知AMLivelinessMonitor更新应用程序的最新心跳时间,以确保AM的活动状态。 当应用程序执行完毕,AM会向AMService发送注销请求,表明任务已完成。AMService收到请求后,会标记该应用程序的状态为完成,并通知AMLivelinessMonitor停止对AM的心跳监控。 现在转向Hadoop2.x的概述。Hadoop2.x是对最初Hadoop的重大升级,它引入了YARN作为资源管理层,以改善原来的MapReduce架构。Hadoop的起源可以追溯到Doug Cutting创建的全文搜索引擎Lucene,后来发展为Nutch,一个基于Google GFS和MapReduce理念的搜索引擎项目。最终,Nutch的这部分组件独立出来,形成了现在的Hadoop项目,其中包含了分布式文件系统HDFS和MapReduce计算模型。 Hadoop的设计灵感来自Google的低成本、高可用性的数据中心策略,以及Google处理海量数据和复杂计算问题的技术,如GFS(Google File System)和MapReduce。随着Hadoop的发展,它已经成为了大数据处理和分析的核心工具,广泛应用于各种场景,包括日志分析、数据挖掘、机器学习等。如今,Hadoop已经形成了一个庞大的生态系统,包括许多配套工具和服务,如HBase、Hive、Pig等,共同构成了大数据处理的基石。