深入剖析Hadoop源代码：从HDFS到MapReduce

需积分: 12 99 浏览量更新于2024-07-27 收藏 5.91MB DOC 举报

"Hadoop源代码分析" Hadoop作为开源的分布式计算框架，是大数据处理领域的重要组成部分。其设计灵感来源于Google发布的几篇论文，包括GoogleCluster、Chubby、GFS、BigTable和MapReduce。Hadoop的核心组件主要包括两个：HDFS（Hadoop Distributed File System）和MapReduce，它们在开源社区的推动下得到了广泛的应用和发展。 HDFS是Hadoop的分布式文件系统，模仿了Google的GFS。它是一个高度容错性的系统，适合部署在廉价硬件上。HDFS提供高吞吐量的数据访问，适合大规模数据集的应用。在源代码分析中，理解HDFS的工作原理，包括NameNode和DataNode的角色，以及Block的分配与复制策略，是深入学习Hadoop的基础。 MapReduce是Hadoop的并行计算模型，受到Google MapReduce的启发。它将大型数据集分割成小块，然后在分布式集群上的多台机器上并行处理，最后将结果合并。Map阶段负责数据的预处理，Reduce阶段负责汇总和聚合结果。在源代码中，解析Mapper和Reducer的执行流程，以及作业调度器如何高效地分配任务，对于优化Hadoop作业性能至关重要。 Hadoop还包含了其他关键组件，例如ZooKeeper（类似于Chubby），用于分布式协调服务，确保集群中的节点间能够进行可靠的通信。HBase是基于HDFS的分布式数据库，类似于BigTable，提供了实时读写操作支持。在源代码分析中，会发现Hadoop包间的依赖关系复杂，这是因为Hadoop不仅要提供分布式文件系统，还要支持多种存储系统（如S3），以及提供高级服务，如配置管理。例如，conf包中的配置读取可能会依赖于fs包的文件系统接口。这种相互依赖的结构增加了理解和调试的难度，但也反映了Hadoop的灵活性和可扩展性。 Hadoop源代码分析通常会涉及以下几个关键点： 1. **HDFS架构**：包括NameNode和DataNode的交互，以及客户端如何与HDFS通信。 2. **HDFS的数据块**：理解Block的概念，包括大小设置，复制策略和故障恢复机制。 3. **MapReduce模型**：Map函数和Reduce函数的实现，shuffle和sort过程，以及JobTracker和TaskTracker的角色。 4. **容错机制**：如何保证在节点故障时系统的高可用性和数据完整性。 5. **性能优化**：如数据本地化、压缩、I/O优化等提升处理效率的方法。 6. **ZooKeeper的使用**：在Hadoop集群中的角色，如元数据管理和集群状态同步。 7. **扩展性和配置**：Hadoop如何支持与其他存储系统的集成，以及如何通过配置文件定制行为。深入学习Hadoop源代码可以帮助开发者更有效地使用Hadoop，解决实际问题，优化性能，并为开发自定义工具和插件打下基础。通过分析，我们可以掌握分布式系统的设计原则，了解大数据处理背后的逻辑，这对于任何想要在大数据领域深化的人来说都是宝贵的经验。



有了这些状态，就可以对系统进行恢复（通过方法 ）。恢复的动作如下（结合上面的状态转移图）：

(+344@F+!'4：#$

4(D4@F+!'4：#$)

(+344@,;!3,%4：E)- 

(+344@(33!&： 

4(D4@(33!&： #$)

(+344@"4&+(,;：*)#$*)

4(D4@"4&+(,;：*)#$)



我们以 RECOVER_UPGRADE 为例，分析一下。根据升级的过程，

1. current->previous.tmp

2. 重建 current

3. previous.tmp->previous



当我们发现  存在，) 不存在，我们知道只需要将  改为 )，就能恢复到未升级时的

状态。

' 还管理着文件系统的元信息，就是我们上面提过 ,) 信息，当然，' 还保存每

个具体用途自己的信息。这些信息，其实都存储在 D4,(; 文件中，' 中的  1 方法，就是用于对

这个文件进行读写。下面是某一个 ';  的 D4,(; 文件的例子：



配置文件代码

 J372-"5<22.

 *&40"200-0#.

  *&4&6#0-#-6-226"2226##0#""2#

 <42

"  <4&><>K7'&+

# L46#



对 ' 的排他操作需要锁，还记得我们在分析系统目录时提到的 )@* 文件吗？它就是用来给整个系统

加解锁用的。' 提供了对应的 * 和 )* 方法。

分析完 ' 以后， 类就很简单了。基本上都是对一系列 ' 的操作，同时 

提供一些辅助方法。

' 是  的子类，专门应用于 '; 。上面我们对 ';  的升级回滚提交过程，就是对

' 的 F  * )- 分析得到的。

' 提供了  方法，用于创建 ';  上的 ，同时，利用 '，' 管

理存储系统的状态。

Hadoop

源代码分析（一二）

分析完  相关的类以后，我们来看下一个大家伙，' 相关的类。

上面介绍  时，我们并没有涉及到数据块 * 的操作，所有和数据块相关的操作，都在 ' 相关的类中进行

处理。下面是类图：



* 是对一个数据块的抽象，通过前面的讨论我们知道一个 * 对应着两个文件，其中一个存数据，一个存校验信息，如

下：

*@.A8676B9.7C98.CA.A.

*@.A8676B9.7C98.CA.A.@B8B6AB

上面的信息中，*, 是 .A8676B9.7C98.CA.A.，B8B6AB 是数据块的版本号，当然，系统还会保存数据块的大小，在

类中是属性 )。* 提供了一系列的方法来操作对象的属性。

') *,) 存放的是 * 在文件系统上的信息。它保存了 * 存放的卷（D），文件名和  状

态。这里有必要解释一下  状态：我们前面分析过，系统在升级时会创建一个 )，) 的文件和

) 里的数据块文件和数据块元文件是通过硬链接，指向了相同的内容。当我们需要改变 ) 里的文件时，如果不进

行  操作，那么，修改的内容就会影响 ) 里的文件，这时，我们需要将对应的硬链接解除掉。方法很简单，就

是在临时文件夹里，复制文件，然后将临时文件改名成为 ) 里的对应文件，这样的话，) 里的文件和 )

里的文件就  了。这样的技术，也叫 copy-on-write，是一种有效提高系统性能的方法。') *,) 中的

*，能够对 * 对应的数据文件和元数据文件进行  操作。

介绍完类 * 和 ') *,) 后，我们来看 D，D 和 '。我们知道在一个 '; 

上可以指定多个  来存储数据块，由于 "' 规定了一个目录能存放 * 的数目，所以一个  上存在多个目

录。对应的，' 中用 D 来对应一个 ，' 对应一个目录，所有的 D 由 D

管理，' 中通过一个 D 对象，就可以管理它的所有存储空间。

' 对应着 "' 中的一个目录，目录里存放着数据块文件和它的元文件。' 的一个重要的操作，就是在添加一个

* 时，根据需要有时会扩展目录结构，上面提过，一个  上存在多个目录，所有的目录，都对应着一个 '，目

录的关系，也由 ' 保存。' 的 *,) 方法分析目录下的所有数据块文件信息，生成 * 对象，存放到一个

集合中。D 方法能，则会建立 * 和 ') *,) 的关系。以上两个方法，用于系统启动时搜集所

有的数据块信息，便于后面快速访问。

D 对应着是某一个 。数据块文件，  文件和临时文件都是通过 D 来管理的，这个其实很自

然，在同一个存储系统上移动文件，往往只需要修改文件存储信息，不需要搬数据。D 有一个

' * 的方法，用于恢复  文件。和  的状态管理一样，  文件有可能在复制文件时

系统崩溃，需要对  的操作进行回复。D 还会启动一个线程，不断更新 D 所在文件系统的剩余容量。

创建 * 的时候，系统会根据各个 D 的容量，来确认 * 的存放位置。

D 就不讨论了，它管理着所有的 D。

"' 中，对一个 )* 的写会使文件处于活跃状态，' 中引入了类 !。! 对象保存了一个文件，

和操作这个文件的线程。注意，线程有可能有多个。! 的构造函数会自动地把当前线程加入其中。

有了上面的基础，我们可以开始分析 '。' 实现了接口 ',)。',) 是

';  对底层存储的抽象。

下面给出了 ' 的关键成员变量：

FSVolumeSet volumes;

private HashMap<Block,ActiveFile> ongoingCreates = new HashMap<Block,ActiveFile>();

private HashMap<Block,DatanodeBlockInfo> volumeMap = null;

其中， 就是 ' 使用的所有 ，)) 是 * 到 ! 的映射，也就是说，说有

正在创建的 *，都会记录在 )) 里。

下面我们讨论 ' 中的方法。

public long getMetaDataLength(Block b) throws IOException;

得到一个 F 的元数据长度。通过 F 的 *&，找对应的元数据文件，返回文件长度。



public&* &*%DF(throws*'+,!

得到一个 block 的元数据输入流。通过 F 的 *&，找对应的元数据文件，在上面打开输入流。下面对于类似的简单方法，我们就不再仔细讨论

了。



publicboolean3+,%DF(throws*'+,!

判断 block 的元数据的元数据文件是否存在。简单方法。



publiclong / )%DF(throws*'+,!

F 的长度。简单方法。



publicDF DF%longF(throws*'+,!

通过 DF 的 *&，找到对应的 DF。简单方法。



public* DF*%DF(throws*'+,!

public* DF*%DF:longF'M(throws*'+,!

得到 DF 数据的输入流。简单方法。



publicDF* <*%DF:longFM:longFM(throws*'+,!

得到 DF 的临时输入流。注意，临时输入流是指对应的文件处于  目录中。新创建块时，块数据应该写在  目录中，直到写操作成功，文

件才会被移动到  目录中，如果失败，就不会影响  目录了。简单方法。



publicDF$<DF%DF:boolean=(throws*'+,!

得到一个 F 的输出流。DF 既包含了数据输出流，也包含了元数据（校验文件）输出流，这是一个相当复杂的方法。

参数  说明这次写是不是对以前失败的写的一次恢复操作。我们先看正常的写操作流程：首先，如果输入的 *

是个正常的数据块，或当前的 * 已经有线程在写，1* 会抛出一个异常。否则，将创建相应的临时数据文件和

临时元数据文件，并把相关信息，创建一个 ! 对象，记录到 )) 中，并创建返回的

*0。前面我们已经提过，建立新的 ! 时，当前线程会自动保存在 ! 的   中。

我们以 *@.A8676B9.7C98.CA.A. 为例，当 ';  需要为 *,' 为 .A8676B9.7C98.CA.A. 创建写流时，

';  创建文件 *@.A8676B9.7C98.CA.A. 做为临时数据文件，对应的  文件是 

*@.A8676B9.7C98.CA.A.@GGGGGG。其中 GGGGGG 是版本号。

 为  时，表明我们需要从某一次不成功的写中恢复，流程相对于正常流程复杂。如果不成功的写是由于提交

（参考 E)-* 方法）后的确认信息没有收到，先创建一个  文件（备份）。接着，1* 检查是否

有还有对文件写的线程，如果有，则通过线程的 ) 方法，强制结束线程。这就是说，如果有线程还在写对应的文件块，

该线程将被终止。同时，从 )) 中移除对应的信息。接下来将根据临时文件是否存在，创建复用临时数据文件

和临时数据元文件。后续操作就和正常流程一样，根据相关信息，创建一个 ! 对象，记录到 ))

中……

由于这块涉及了一些 "' 写文件时的策略，以后我们还会继续讨论这个话题。



publicvoidDF%DFF:DF$F(throws*'+,!

更新一个 F。这也是一个相当复杂的方法。

 * 的最外层是一个死循环，循环的结束条件，是没有任何和这个数据块相关的写线程。每次循环， *

都会去调用一个叫 F * 的内部方法。F * 发现已经没有线程在写这个块，就会跟新和这个数据块相

剩余63页未读，继续阅读

刘璟宇

粉丝: 0
资源: 8

深入剖析Hadoop源代码：从HDFS到MapReduce

Hadoop源代码分析完整版.pdf

Hadoop源代码分析(完整版).pdf

Hadoop源代码分析完整版.doc

Hadoop源码分析 完整版 共55章

Hadoop源代码分析(完整版

Hadoop源码分析（完整版）

Hadoop源代码分析(完整版)

Hadoop 源代码分析 [完整版]

Hadoop源代码分析(完整版).doc

Hadoop源码分析完整版

最新资源

Hadoop源码分析完整版共55章