Hadoop作业提交流程详解

面试题

需积分: 10 195 浏览量更新于2024-07-20 1 收藏 280KB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"Hadoop作业提交流程详解" 在Hadoop生态系统中，MapReduce是核心的分布式计算框架，负责处理大规模数据的并行计算。当开发者编写好MapReduce程序后，需要将其提交到Hadoop集群上执行。以下是Hadoop1版本中MapReduce作业（Job）的提交流程，这个流程在Hadoop后续版本中虽有所调整，但基本原理保持一致。 1. **启动JobClient**：开发者通过编程调用`runJob()`方法启动JobClient实例，这是提交作业的起点。 2. **获取JobID和工作目录**：JobClient通过`getNewJobId()`接口向JobTracker发送请求，JobTracker返回一个唯一的作业ID（例如job_201101281410_0001）以及作业的存放目录，该目录通常与用户的用户名相关联。 3. **数据源切片**：JobClient根据输入数据进行切片（split），每个split代表一部分输入数据，每个split对应一个map任务。split文件不包含实际数据，而是数据的引用。 4. **上传资源文件**：JobClient将作业所需的资源文件（如JAR包、配置文件、job.split文件等）上传至HDFS的JobTracker工作目录下的特定jobid目录。这些文件会被冗余地存储在多个节点上，以确保高可用性。 5. **提交作业**：JobClient通过远程过程调用（RPC）将作业ID和HDFS中的文件路径等基本信息提交给JobTracker，而不是直接传输计算数据或资源数据，因为两者都可直接访问HDFS。 6. **作业调度**：JobTracker收到请求后，将作业放入队列等待。当有可用资源时，JobTracker从队列中取出作业进行初始化。 7. **任务分配**：JobTracker读取HDFS上的job.split文件，根据split信息分配任务给TaskTracker。每个split对应一个map任务。 8. **心跳机制**：TaskTracker通过心跳机制（默认每3秒一次）向JobTracker报告状态并请求新的任务。 9. **获取并执行任务**：TaskTracker从HDFS下载作业的资源文件，启动新的Java进程（child JVM）来执行maptask和reducetask。每个TaskTracker可以同时处理多个map和reduce任务。 10. **任务执行**：在child JVM中，map任务处理其对应的split数据，生成中间结果；reduce任务接收并合并这些中间结果，最终产生作业的输出。 11. **进度与状态更新**：在整个过程中，TaskTracker会持续向JobTracker报告任务的进度和状态，JobTracker会将这些信息反馈给JobClient，使开发者能够监控作业的执行情况。这个流程描述了Hadoop1中MapReduce作业的基本提交和执行步骤。随着Hadoop版本的演进，如YARN（Yet Another Resource Negotiator）的引入，JobTracker的角色被Resource Manager取代，而TaskTracker被NodeManager替代，但作业提交和执行的核心逻辑大体保持不变，只是管理和调度层面变得更加精细和灵活。理解这一流程对于理解和优化Hadoop MapReduce应用至关重要。

资源详情

资源推荐

Shuffle 是 MapReduce 过程的核心，指的是 map 的结果输出到 reduce 的输入的过程，包括

map 端的 shuffle 和 reduce 端的 shuffle

Map 会把数据输出到环形缓存区中（100m），当到了一定的阀值 0.8，会把数据输出到磁

盘（一个后台线程就把内容写到(spill)Linux 本地磁盘中的指定目录（mapred.local.dir）下的新建的一个

溢出写文件。），写磁盘前，要先 partition,然后 sort。通过分区，每个分区对应不同的 reduce，

之后对不同分区的数据进行排序，如果有 Combine，还要对排序后的数据进行 combine（相

当于本机的 reduce），这个过程成为 spill（Spill 过程包括输出、排序、溢写、合并等步骤），当

整个 map 输出完成之后会进行 merge 多路归并排序（最大归并路数由 io.sort.factor 控制(默认是

10)），排序是先对 partition 排序，然后在一个 partition 里再排序的，最终 map 会输出一个

分区且排序的文件，等 map 完成之后（一个 Map 任务完成， Reduce 就开始复制输出，从

JobTracker 获得有哪些 map task 已执行结束，当 Map 任务完成之后，会通知他们的父 TaskTracker，告

知状态更新，然后 TaskTracker 再转告 JobTracker 或者 Application Master，这些通知信息是通过心跳通

信机制传输的），当 spill 文件归并完毕后，Map 将删除所有的临时 spill 文件，reduce 会拉

去数据（Http 方式得到输出文件的分区）， copy 到 reduce 上面，同一个分区的数据会 copy 到

同一个 reduce 上面，然后对拷过来的文件排序，也会有 spill 的过程，（对于经过压缩的 Map

输出，系统会自动把它们解压到内存方便对其执行归并），多路归并和分组（只要 key 相同就属于同一

个组，放在一个 value 迭代器）merge 生成一个最终文件，（merge 有三种形式：1)内存到内存ˆ 2)

内存到磁盘ˆ 3)磁盘到磁盘。默认情况下第一种形式不启用，让人比较困惑，是吧。当内存中的数据量到

达一定阈值，就启动内存到磁盘的 merge（这过程会进行排序）。与 map 端类似，这也是溢写的过程，

这个过程中如果你设置有 Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。第二种

merge 方式一直在运行，直到没有 map 端的数据时才结束，然后启动第三种磁盘到磁盘的 merge 方式生

成最终的那个文件）然后给 reduce 处理，再输出

主要函数是 fetchOutputs(),功能就是将 map 阶段的输出，copy 到 reduce 节点。

环形 buffer：首尾相连的数据结构，专门用来存储 Key-Value 格式的数据，其实就是一个字

节数组。

Buffer 索引是对 key-value 在 kvbuffer 中的索引，是个四元组，占用四个 Int 长度，包括：

value 的起始位置

key 的起始位置

partition 值

value 的长度

分区内的数据排序：快速排序算法（QuickSort）对 key 排序

Spill 文件名像 sipll0.out，spill1.out 等

剩余21页未读，继续阅读

cs1049281836

粉丝: 0
资源: 11

Hadoop作业提交流程详解

10万字总结java面试题和答案(八股文之一)Java面试题指南

java面试题，J2EE面试题 笔试题

牛客大数据面试题集锦+答案，共523道，46W+字。大厂必备

大数据面试题2023

软件工程师面试题整理

给我推荐java面试题资料

Spring cloud gateway 面试题

c++面试题文档下载

python面试题下载

springcloud组件面试题

android 面试题 pdf

金九银十java面试题

springCloud面试题

spring cloud面试题

python面试题10道

linux面试题下载

springcloud 关于eureka 面试题

东软开发工程师面试题

java 10k面试题

java面试题在线做题

最新资源

java面试题，J2EE面试题笔试题