Hadoop 0.20.2源码详解与MapReduce核心类库入门

4星 · 超过85%的资源需积分: 9 190 浏览量更新于2024-09-17 收藏 331KB DOC 举报

Hadoop0.20.2源码深入解析 Hadoop是一个开源的大数据处理框架，其0.20.2版本提供了对MapReduce编程模型的强大支持。本文将带你探索Hadoop的核心组件及其源码，特别是关注于MapReduce中的关键类库，这对于初学者来说是一份宝贵的入门指南。首先，让我们从核心组件开始理解。Hadoop的整体结构由客户端（Client）、主节点（Master）和工作节点（Worker Node）组成： 1. **客户端（Client）**： - `Configuration` 类是Hadoop的基础，用于管理全局配置。其中的`quietmode`变量控制配置加载过程中的日志输出，当设置为`true`时，加载过程更高效，减少日志噪音。`defaultResources`和`resources`列表存储配置文件名和其他资源，`loadDefaults`标识是否加载预设的配置，而`REGISTRY`是一个弱哈希映射，用于存储自定义配置。 2. **主节点（Master）**： - `JobTracker` 是JobMaster的主要组件，负责协调作业的执行。`JobInProgress`和`TaskInProgress`对象分别代表正在进行的作业和任务状态。 3. **工作节点（Worker Node）**： - `TaskTracker` 负责执行具体的Map和Reduce任务。`Task` 类分为`MapTask`和`ReduceTask`，它们是任务实例，由`JvmManager`管理和`Child`进程执行。 - `overlay` 是`Configuration`中的另一个重要概念，它允许用户覆盖或添加配置文件中的特定参数，确保了配置的灵活性。在MapReduce的工作流程中，源码的关键类库包括： - **JobSubmitter**：客户端负责提交作业，调用`JobClient`与`JobTracker`交互，设置作业属性如输入/输出路径、Mapper和Reducer类等。 - **InputFormat/OutputFormat**：接口定义了如何读取和写入数据源，如HDFS或文本文件。 - **Mapper/Reducer**：用户编写的函数，Mapper处理输入数据并产生中间键值对，Reducer则对这些对进行汇总。 - **Partitioner**：负责将键值对分发到不同的TaskTracker，确保数据分布均匀。理解这些类库的实现细节有助于开发人员优化性能，比如了解`shuffle`和`sort`操作的机制，以及如何正确配置内存管理策略。此外，源码分析还包括对内存管理、任务调度、错误处理和监控系统的剖析，这些都是Hadoop集群运行效率的关键因素。通过深入学习Hadoop0.20.2的源码，你可以建立起对整个框架的扎实基础，从而更好地进行大数据处理和分布式计算。 Hadoop0.20.2源码的学习是理解大数据处理技术不可或缺的一部分，通过理解各个组件的功能、类库的工作原理，开发者可以更好地设计和优化自己的分布式系统。无论是对于初次接触Hadoop的新手，还是希望深入了解其内部机制的高级工程师，这份资料都极具价值。

submitJob(job)方法，此时作业已经提交完成。

关键代码流程解析：

jobClient.submit();调用 jobClient.submitJobInternal(conf);在这个函数中利用 jobId 建立提

交根路径，jar 文件路径，job 分割文件的路径，job.xml 路径。代码如下：

JobID jobId = jobSubmitClient.getNewJobId();//生成 jobId rpc

Path submitJobDir = new Path(getSystemDir(), jobId.toString());//用 jobId 来

建立 job 任务的提交根路径

Path submitJobFile = new Path(submitJobDir, "job.xml");//生成 job.xml，这个 xml 将要记

录 Configuration 中的所有配置信息，这个貌似与我们的 NEMR 的 xml 配置功能相似。

….

configureCommandLineOptions()；//其中按 job 提交路径调用 FileSystem 在其中建立虚

拟路径并，并把要执行的自定义程序打包成 jar 然后传到 FileSystem 中已定义的 jar 文件路

径中。

…..

job.getOutputFormat().checkOutputSpecs(getFs(), job);//从这里去 FileSystem 中查看输出

路径是否已存在，如果已存在则报已存在异常。否则继续执行。

…..

maps = writeNewSplits(context, submitSplitFile); // 这一步的主要目标是将分割好的

inputsplit 数组信息写到 Dfs 中，然后把写入的路径添加到 Configuration 中

{

…..

input=ReflectionUtils.newInstance(job.getInputFormatClass(), job.getJobConf());//获取已定

义的 inputformat 类，如果未定义默认为 TextInputFormat。

…..

splits=input.getSplits(job);//获取分配好的的 InputSplit 集合。与我们的 NEMR 一样这里

同样需要输入文件的 wn 地址，以 TextInputFormat 举例， TextInputFormat 需要继承

FileInputFormat 类，FileInputFormat 类中已实现 getSplits()方法，在 getSplits()方法中需要用

到 FileSystem,来获取输入文件的主机地址、长度、起点信息。

…..

DataOutputStream out = writeSplitsFileHeader(conf, submitSplitFile, array.length);//这一步

的目标是讲分割好的 InputSplit 信息写入到 DFS 中，包括头文件、版本号、数组长度

……

Serializer<T> serializer = factory.getSerializer((Class<T>) array[0].getClass());//在这里主要

目标是将已经分割好的 InputSplit 信息写到 Configuration 中。

}

…..

FSDataOutputStream out = FileSystem.create(getFs(), submitJobFile, new FsPermission

(JOB_FILE_PERMISSION));

try {

job.writeXml(out);

} finally {

剩余12页未读，继续阅读

schaha_2015

粉丝: 0
资源: 3

Hadoop 0.20.2源码详解与MapReduce核心类库入门

hbase-0.90.5.tar.gz与hadoop0.20.2版本匹配

hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码 hadoop 源码

Hadoop-0.20.2

hadoop0.20.2集群安装

cp /opt/hadoop/hadoop-0.20.2.tar.gz /usr/local/ tar –zxvf hadoop-0.20.2.tar.gz

apache hadoop项目源码说明

一些Hadoop的源码，然后梳理一下

git clone hadoop源码

hadoop-eclipse插件各版本

Linux hadoop配置eclipse环境

最新资源