Hadoop Map-Reduce深度解析：从客户端到任务提交

2星需积分: 9 75 浏览量更新于2024-07-29 收藏 374KB PDF 举报

"本文档详细介绍了Map-Reduce的实现细节，主要关注在Hadoop环境中Map-Reduce的工作流程，包括客户端如何提交任务，JobTracker如何管理任务，以及Mapper和Reducer的执行过程。" Map-Reduce是Hadoop分布式计算模型的核心组件，主要用于处理海量数据的并行计算。以下是Map-Reduce的主要知识点： 1. **客户端提交任务**： - 客户端通过`JobClient.runJob(JobConf job)`方法提交任务，该方法会创建一个JobClient实例。 - `submitJob()`方法用于实际的任务提交，它从JobTracker获取新的JobID，并将任务所需的资源（如JAR文件、输入分片信息和配置文件）上传到HDFS。 2. **任务ID与作业目录**： - 每个提交的任务都会获得一个唯一的JobID，基于此ID在HDFS上创建一个提交作业的目录（`submitJobDir`）。 - 任务的相关文件，如`job.jar`（包含任务代码）、`job.split`（输入分片信息）和`job.xml`（任务配置），会被存放在这个目录下。 3. **命令行选项配置**： - `-libjars`选项允许用户指定额外的JAR包，这些依赖会被上传到HDFS，以便任务执行时使用。 4. **JobTracker的角色**： - JobTracker接收任务提交请求，分配TaskTracker进行任务执行。 - 它负责监控任务状态，处理失败的任务，以及调度新任务。 5. **Mapper阶段**： - 输入数据由InputFormat类切分成多个Split，每个Split对应一个Mapper任务。 - Mapper执行用户自定义的map()函数，将键值对转换为新的键值对，通常生成中间结果。 6. **Shuffle与Reduce阶段**： - Shuffle阶段，Mapper产生的中间结果按键排序，并被分区，准备传输给Reducer。 - Reduce阶段，Reducer执行用户自定义的reduce()函数，聚合相同键的值，生成最终结果。 7. **JobTracker与TaskTracker的通信**： - JobTracker通过心跳机制与TaskTracker保持通信，监控任务进度，同时接收TaskTracker的汇报。 - 如果TaskTracker报告任务失败，JobTracker会重新调度任务。 8. **任务状态监控**： - 客户端通过`while`循环不断获取任务状态，直到任务完成或失败，并在控制台打印状态更新。 9. **容错机制**： - Hadoop的Map-Reduce框架具有内置的容错机制，能够自动处理任务失败并重新调度，确保数据完整性。 10. **优化策略**： - 用户可以通过调整参数（如Map和Reduce任务的数量、内存设置等）来优化Map-Reduce的性能。 Map-Reduce是Hadoop处理大数据的核心工具，它通过分解大任务到小任务，使得并行计算成为可能。理解并掌握Map-Reduce的工作原理对于高效地利用Hadoop生态系统至关重要。

State offerService() throws Exception {

long lastHeartbeat = 0;

//TaskTracker 进行是一直存在的

while (running && !shuttingDown) {

……

long now = System.currentTimeMillis();

//每隔一段时间就向 JobTracker 发送 heartbeat

long waitTime = heartbeatInterval - (now - lastHeartbeat);

if (waitTime > 0) {

synchronized(finishedCount) {

if (finishedCount[0] == 0) {

finishedCount.wait(waitTime);

}

finishedCount[0] = 0;

}

……

//发送 Heartbeat 到 JobTracker，得到 response

HeartbeatResponse heartbeatResponse = transmitHeartBeat(now);

……

//从 Response 中得到此 TaskTracker 需要做的事情

TaskTrackerAction[] actions = heartbeatResponse.getActions();

……

if (actions != null){

for(TaskTrackerAction action: actions) {

if (action instanceof LaunchTaskAction) {

//如果是运行一个新的 Task，则将 Action 添加到任务队列中

addToTaskQueue((LaunchTaskAction)action);

} else if (action instanceof CommitTaskAction) {

CommitTaskAction commitAction = (CommitTaskAction)action;

if (!commitResponses.contains(commitAction.getTaskID())) {

commitResponses.add(commitAction.getTaskID());

}

} else {

tasksToCleanup.put(action);

}

return State.NORMAL;

}

其中 transmitHeartBeat 主要逻辑如下：

剩余22页未读，继续阅读

wangyueryuer

粉丝: 0
资源: 2

Hadoop Map-Reduce深度解析：从客户端到任务提交

hadoop map-reduce turorial

Map-Reduce原理体系架构和工作机制，eclipse与Hadoop集群连接

使用Map-Reduce对大规模图进行排名和半监督分类

设计一个符合map-reduce的案例

“谁是大V”算法设计 （Map-Reduce TopN）

map-reduce

写出map输入、map输出，reduce输入，reduce输出的数据类型

mapreduce是等map结束以后再进行reduce吗

hive使用 map样例

最新资源

“谁是大V”算法设计（Map-Reduce TopN）