Apache Hadoop YARN: 深入解析资源调度器

需积分: 10 22 下载量 80 浏览量 更新于2024-07-23 收藏 801KB PDF 举报
"Apache Hadoop YARN - Yet Another Resource Negotiator" Apache Hadoop YARN,全称为Yet Another Resource Negotiator,是Hadoop生态系统中的一个核心组件,主要负责管理和调度分布式计算集群的资源。自Hadoop 1.x版本起,Hadoop的设计主要针对大规模的MapReduce作业执行,然而随着Hadoop在各种不同行业的广泛采用,其原始设计逐渐无法满足日益多样化的需求。这促使了YARN的诞生,旨在解决Hadoop的两个关键问题:编程模型与资源管理的紧密耦合以及作业控制流的集中处理。 1. 紧耦合的编程模型与资源管理: 在Hadoop 1.x中,MapReduce是与资源管理基础设施紧密耦合的。这意味着所有计算任务都必须通过MapReduce模型来实现,即使某些任务并不适合这种模型。例如,如果开发者想要运行基于迭代或流式处理的算法,他们不得不将这些任务强制转换为MapReduce的形式,导致代码复杂且效率低下。YARN的出现打破了这一限制,它提供了一个通用的资源管理系统,使得不同的计算框架(如Spark、Tez、Flink等)可以在同一平台上运行,无需与特定的编程模型绑定。 2. 作业控制流的中央处理与可扩展性问题: 在早期的Hadoop中,JobTracker既是作业的调度器,也是任务的跟踪器,这种集中式的架构在面临大量作业时会导致严重的性能瓶颈。JobTracker需要处理所有作业的提交、调度、监控和错误恢复,随着作业数量的增加,其压力成倍增长,影响整个系统的扩展性。YARN引入了新的架构,将调度和资源分配的功能分离出来,由ResourceManager(RM)负责全局资源的管理和分配,而ApplicationMaster(AM)则专注于单个应用的调度和监控,这样显著提高了系统的可扩展性。 3. YARN架构详解: - ResourceManager (RM):作为集群的全局资源管理者,RM负责接收应用程序的请求,决定哪个应用程序应该获得多少资源,并与NodeManagers (NM)通信,协调资源的分配。 - NodeManager (NM):每个节点上的NM管理本地资源,如内存、CPU等,并向RM报告节点状态,同时处理RM的资源分配指令,启动或停止Container(资源容器)。 - ApplicationMaster (AM):每个应用程序都有自己的AM,它负责与RM协商资源,然后与NM通信来启动和监控任务。 - Container:容器是YARN中资源分配的基本单位,包含一定的内存、CPU等资源,用于运行应用程序的任务。 4. 提高性能和资源利用率: YARN通过分离资源管理和应用程序控制,使得系统能够更好地并行处理多个应用程序,从而提高了集群的资源利用率和整体性能。此外,YARN还支持预分配和动态资源调整,进一步优化了资源分配策略。 5. 安全与隔离: YARN提供了安全机制,包括认证、授权和审计,确保只有授权的用户和应用可以访问集群资源。此外,每个应用程序都在独立的Container中运行,实现了计算任务的隔离,防止一个任务的故障影响到其他任务。 总结,Apache Hadoop YARN是Hadoop生态系统中的一次重大革新,它的设计目标是提高资源管理的灵活性、可扩展性和安全性,以适应大数据时代多样化的计算需求。通过引入YARN,Hadoop成功地从单一的MapReduce平台转变为一个支持多种计算框架的分布式计算平台,极大地推动了大数据处理的发展。

[2023-07-04 17:11:29.952]Exception when trying to cleanup container container_e10_1661450914423_18596_01_000003: java.io.IOException: Problem signalling container 97181 with SIGTERM; output: null and exitCode: -1 at org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor.signalContainer(LinuxContainerExecutor.java:750) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.sendSignal(ContainerLaunch.java:908) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.signalProcess(ContainerLaunch.java:922) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.cleanupContainer(ContainerLaunch.java:774) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainersLauncher.handle(ContainersLauncher.java:173) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainersLauncher.handle(ContainersLauncher.java:62) at org.apache.hadoop.yarn.event.AsyncDispatcher.dispatch(AsyncDispatcher.java:221) at org.apache.hadoop.yarn.event.AsyncDispatcher$1.run(AsyncDispatcher.java:143) at java.lang.Thread.run(Thread.java:748) Caused by: org.apache.hadoop.yarn.server.nodemanager.containermanager.runtime.ContainerExecutionException: Signal container failed at org.apache.hadoop.yarn.server.nodemanager.containermanager.linux.runtime.DefaultLinuxContainerRuntime.signalContainer(DefaultLinuxContainerRuntime.java:163) at org.apache.hadoop.yarn.server.nodemanager.containermanager.linux.runtime.DelegatingLinuxContainerRuntime.signalContainer(DelegatingLinuxContainerRuntime.java:159) at org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor.signalContainer(LinuxContainerExecutor.java:739) ... 8 more | org.apache.flink.yarn.YarnResourceManager (ResourceManager.java:822)

2023-07-12 上传