Hadoop MapReduce 架构详解：JobClient 和 JobTracker 的角色

118 浏览量更新于2024-08-28 收藏 133KB PDF 举报

MapReduce\Yarn架构 MapReduce架构是Hadoop分布式计算框架的核心组件之一，它提供了一个可靠、可扩展、可维护的计算模型。MapReduce架构主要由以下几个组件组成： 1. JobClient：作为MapReduce程序的入口点，JobClient负责将用户编写的MapReduce程序提交到JobTracker端，同时提供了一些接口来查看作业的运行状态。在Hadoop内部，用“作业”（Job）表示MapReduce程序。 2. JobTracker：作为MapReduce架构的中心组件，JobTracker负责资源监控和作业调度。JobTracker监控所有TaskTracker与作业Job的健康状况，一旦发现失败情况后，其会将相应的任务转移到其他节点；同时，JobTracker会跟踪任务的执行进度、资源使用量等信息，并将这些信息告知任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。 3. TaskTracker：作为MapReduce架构的执行组件，TaskTracker负责执行MapTask和ReduceTask。TaskTracker会将任务分发到各个节点上执行，并将执行结果返回给JobTracker。在MapReduce架构中，JobClient提交Job的详细流程主要如下： * JobClient在获取了JobTracker为Job分配的id之后，会在JobTracker的系统目录（HDFS）下为该Job创建一个单独的目录，目录的名字即是Job的id，该目录下会包含文件job.xml、job.jar、job.split等。 * job.xml文件记录了Job的详细配置信息，job.jar保存了用户定义的关于Job的map、reduce操作，job.split保存了Job任务的切分信息。 JobTracker为作业的提交做了两件事：一、为作业生成一个Job；二、接受该作业。客户端的JobClient把作业的所有相关信息都保存到了JobTracker的系统目录下（当然是HDFS了），这样做的一个最大的好处就是客户端干了它所能干的事情同时也减少了服务器端JobTracker的负载。在MapReduce架构中，JobTracker还提供了一个可插拔的调度器模块，用戶可以根据自己的需要设计相应的调度器。这使得MapReduce架构具有高度的灵活性和可扩展性。 MapReduce架构提供了一个可靠、可扩展、可维护的计算模型，为大规模数据处理提供了一个强有力的解决方案。

MapReduce\Yarn架构架构

MapReduce 1.x

MapReduce 1.x重点概念

JobClient

用戶編寫的MapReduce程序通過Client提交到JobTracker端；同時，用戶可通過Client提供的一些接口查看作業運行狀態。在

Hadoop內部用“作業” （Job）表示MapReduce程序。每一個Job都會在用戶端通過Client類將應用程序以及參數配置

Configuration打包成Jar文件存儲在HDFS，並把路徑提交到JobTracker，然後由JobTracker創建每一個Task（即MapTask和

ReduceTask），將它們分發到各個TaskTracker服務中去執行。

JobClient提交Job的詳細流程主要如下：

JobClient在獲取了JobTracker為Job分配的id之後，會在JobTracker的系統目錄(HDFS)下為該Job創建一個單獨的目錄，目錄

的名字即是Job的id，該目錄下會包含文件job.xml、job.jar、job.split等，其中，job.xml文件記錄了Job的詳細配置信

息，job.jar保存了用戶定義的關於job的map、reduce操縱，job.split保存了job任務的切分信息。

JobTracker

JobTracker 主要負責資源監控和作業調度。JobTracker 監控所有 TaskTracker 與作業Job的健康狀況，一旦發現失敗情況

後，其會將相應的任務轉移到其他節點；同時，JobTracker 會跟蹤任務的執行進度、資源使用量等信息，並將這些信息告訴

任務調度器，而調度器會在資源出現空閒時，選擇合適的任務使用這些資源。在Hadoop 中，任務調度器是一個可插拔的模

塊，用戶可以根據自己的需要設計相應的調度器。

以下引用 www.aboutyun.com/thread-7778…

JobTracker為作業的提交做了兩件事：一.為作業生成一個Job；二.接受該作業。

我們都知道，客戶端的JobClient把作業的所有相關信息都保存到了JobTracker的系統目錄下(當然是HDFS了)，這樣做的一個

最大的好處就是客戶端幹了它所能幹的事情同時也減少了服務器端JobTracker的負載。下面就來看看JobTracker是如何來完成

客戶端作業的提交的吧！哦。對了，在這裡我不得不提的是客戶端的JobClient向JobTracker正式提交作業時直傳給了它一個

改作業的JobId，這是因為與Job相關的所有信息已經存在於JobTracker的系統目錄下，JobTracker只要根據JobId就能得到這

個Job目錄。

對於上面的Job的提交處理流程，我將簡單的介紹以下幾個過程：

創建Job的JobInProgress

JobInProgress對象詳細的記錄了Job的配置信息，以及它的執行情況，確切的來說應該是Job被分解的map、reduce任務。在

JobInProgress對象的創建過程中，它主要乾了兩件事，一是把Job的job.xml、job.jar文件從Job目錄copy到JobTracker的本地

文件系統(job.xml->/jobTracker/jobid.xml，job.jar->/jobTracker/jobid.jar)；二是創建JobStatus和Job的mapTask、reduceTask

存隊列來跟蹤Job的狀態信息。

檢查客戶端是否有權限提交Job

JobTracker驗證客戶端是否有權限提交Job實際上是交給QueueManager來處理的。

檢查當前mapreduce集群能夠滿足Job的內存需求

客戶端提交作業之前，會根據實際的應用情況配置作業任務的內存需求，同時JobTracker為了提高作業的吞吐量會限製作業任

務的內存需求，所以在Job的提交時，JobTracker需要檢查Job的內存需求是否滿足JobTracker的設置。

上面流程已經完畢，可以總結為下圖：

TaskTracker

TaskTracker會週期性地通過心跳機制將本節點上資源的使用情況和任務的運行進度彙報給JobTracker，同時接收JobTracker

發送過來的命令並執行相應的操作（如啟動新任務、殺死任務等）。TaskTracker 使用“slot”等量劃分本節點上的資源量。

“slot”代表計算資源（CPU、內存等）。一個 Task 獲取到一個slot 後才有機會運行，而Hadoop調度器的作用就是將各個

TaskTracker上的空閒slot分配給Task使用。slot分為Map slot和Reduce slot 兩種，分別供Map Task和Reduce Task使用。

TaskTracker通過slot數目（可配置參數）限定Task的併發度。

這裡可能有人會混淆JobTracker、TaskTracker和Hadoop學習（一）——hdfs架構中所講的的DataNode、NameNode。其實

JobTracker對應於NameNode，TaskTracker對應於DataNode。DataNode和NameNode是針對數據存放來而言

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38558655

粉丝: 4
资源: 957

Hadoop MapReduce 架构详解：JobClient 和 JobTracker 的角色

大数据MapReduce和YARN架构原理.pdf

《Hadoop技术内幕深入解析YARN架构设计与实现原理》.(董西成).[PDF]@ckook

Yarn架构解析1

yarn架构与讲解

Hadoop新MapReduce框架Yarn详解

HadoopYARN架构设计要点

探索MapReduce1运行机制与YARN架构升级

MapReduce Shuffle过程解析与YARN架构深度探讨

YARN架构与作业调度：解决MapReduce痛点

深入解析Hadoop MapReduce：架构设计与实现

最新资源