深入剖析Hadoop源代码：分布式处理基石

需积分: 3 199 浏览量更新于2024-07-24 收藏 5.84MB DOC 举报

"Hadoop源代码分析" Hadoop是一个开源的分布式计算框架，它允许在廉价硬件上处理大规模数据集。这个框架主要由两个核心组件组成：Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是分布式文件系统，灵感来源于Google的GFS，它能高效地存储和处理大量数据；而MapReduce是并行处理和计算模型，灵感来源于Google的MapReduce，用于在分布式环境中执行大数据处理任务。在Hadoop源代码分析中，我们可以看到Hadoop的设计理念和实现细节。例如，HDFS的设计目标是高容错性和高吞吐量的数据访问。它通过数据复制机制确保数据的可靠性，并通过将大文件分割成块并在多台机器上存储来实现并行处理。ZooKeeper在Hadoop中扮演了类似于Google Chubby的角色，提供分布式协调服务，保证系统中各个节点的同步和一致性。 MapReduce组件则负责任务调度和数据处理。它将大任务分解为多个小的Map任务和Reduce任务，这些任务可以在集群中的不同节点上并行执行。Map阶段将输入数据分片，应用用户定义的函数进行预处理，而Reduce阶段则聚合Map阶段的结果，生成最终输出。Hadoop的MapReduce实现还包括一个JobTracker，它负责监控和调度任务，以及TaskTrackers，它们在工作节点上运行Map和Reduce任务。 Hadoop的源代码结构复杂，各个包之间存在复杂的依赖关系。例如，`conf`包负责读取系统配置，它依赖于`fs`包来访问文件系统，而`fs`包又包含了一些抽象的文件系统操作。这种设计使得Hadoop能够透明地支持多种存储系统，包括本地文件系统、HDFS和Amazon S3。在分析Hadoop源代码时，重点关注的部分包括HDFS的文件块管理、NameNode和DataNode的交互、MapReduce的作业生命周期管理以及容错机制等。Hadoop的工具包提供了许多实用工具，如用于数据迁移、格式化NameNode、检查HDFS健康状况等。此外，Hadoop生态系统还包括了其他组件，如HBase，它是基于BigTable设计的分布式数据库，用于存储非结构化和半结构化数据；Hive则是Facebook开发的一种数据仓库工具，它允许用户使用SQL语法查询和分析存储在Hadoop上的数据。深入理解Hadoop的源代码有助于开发者更好地优化和定制Hadoop集群，解决实际问题，如提高数据处理性能、优化资源分配，以及开发新的分布式应用程序。通过分析Hadoop的实现，我们可以学习到分布式系统设计的关键原则和最佳实践，这对于构建大规模分布式应用具有重要的指导意义。



有了这些状态，就可以对系统进行恢复（通过方法 ）。恢复的动作如下（结合上面的状态转移图）：

(+344@F+!'4：#$

4(D4@F+!'4：#$)

(+344@,;!3,%4：E)- 

(+344@(33!&： 

4(D4@(33!&： #$)

(+344@"4&+(,;：*)#$*)

4(D4@"4&+(,;：*)#$)



我们以 RECOVER_UPGRADE 为例，分析一下。根据升级的过程，

1. current->previous.tmp

2. 重建 current

3. previous.tmp->previous



当我们发现  存在，) 不存在，我们知道只需要将  改为 )，就能恢复到未升级时的

状态。

' 还管理着文件系统的元信息，就是我们上面提过 ,) 信息，当然，' 还保存每

个具体用途自己的信息。这些信息，其实都存储在 D4,(; 文件中，' 中的  1 方法，就是用于对

这个文件进行读写。下面是某一个 ';  的 D4,(; 文件的例子：



配置文件代码

 J372-"5<22.

 *&40"200-0#.

  *&4&6#0-#-6-226"2226##0#""2#

 <42

"  <4&><>K7'&+

# L46#



对 ' 的排他操作需要锁，还记得我们在分析系统目录时提到的 )@* 文件吗？它就是用来给整个系统

加解锁用的。' 提供了对应的 * 和 )* 方法。

分析完 ' 以后， 类就很简单了。基本上都是对一系列 ' 的操作，同时 

提供一些辅助方法。

' 是  的子类，专门应用于 '; 。上面我们对 ';  的升级回滚提交过程，就是对

' 的 F  * )- 分析得到的。

' 提供了  方法，用于创建 ';  上的 ，同时，利用 '，' 管

理存储系统的状态。

Hadoop

源代码分析（一二）

分析完  相关的类以后，我们来看下一个大家伙，' 相关的类。

上面介绍  时，我们并没有涉及到数据块 * 的操作，所有和数据块相关的操作，都在 ' 相关的类中进行

处理。下面是类图：



* 是对一个数据块的抽象，通过前面的讨论我们知道一个 * 对应着两个文件，其中一个存数据，一个存校验信息，如

下：

*@.A8676B9.7C98.CA.A.

*@.A8676B9.7C98.CA.A.@B8B6AB

上面的信息中，*, 是 .A8676B9.7C98.CA.A.，B8B6AB 是数据块的版本号，当然，系统还会保存数据块的大小，在

类中是属性 )。* 提供了一系列的方法来操作对象的属性。

') *,) 存放的是 * 在文件系统上的信息。它保存了 * 存放的卷（D），文件名和  状

态。这里有必要解释一下  状态：我们前面分析过，系统在升级时会创建一个 )，) 的文件和

) 里的数据块文件和数据块元文件是通过硬链接，指向了相同的内容。当我们需要改变 ) 里的文件时，如果不进

行  操作，那么，修改的内容就会影响 ) 里的文件，这时，我们需要将对应的硬链接解除掉。方法很简单，就

是在临时文件夹里，复制文件，然后将临时文件改名成为 ) 里的对应文件，这样的话，) 里的文件和 )

里的文件就  了。这样的技术，也叫 copy-on-write，是一种有效提高系统性能的方法。') *,) 中的

*，能够对 * 对应的数据文件和元数据文件进行  操作。

介绍完类 * 和 ') *,) 后，我们来看 D，D 和 '。我们知道在一个 '; 

上可以指定多个  来存储数据块，由于 "' 规定了一个目录能存放 * 的数目，所以一个  上存在多个目

录。对应的，' 中用 D 来对应一个 ，' 对应一个目录，所有的 D 由 D

管理，' 中通过一个 D 对象，就可以管理它的所有存储空间。

' 对应着 "' 中的一个目录，目录里存放着数据块文件和它的元文件。' 的一个重要的操作，就是在添加一个

* 时，根据需要有时会扩展目录结构，上面提过，一个  上存在多个目录，所有的目录，都对应着一个 '，目

录的关系，也由 ' 保存。' 的 *,) 方法分析目录下的所有数据块文件信息，生成 * 对象，存放到一个

集合中。D 方法能，则会建立 * 和 ') *,) 的关系。以上两个方法，用于系统启动时搜集所

有的数据块信息，便于后面快速访问。

D 对应着是某一个 。数据块文件，  文件和临时文件都是通过 D 来管理的，这个其实很自

然，在同一个存储系统上移动文件，往往只需要修改文件存储信息，不需要搬数据。D 有一个

' * 的方法，用于恢复  文件。和  的状态管理一样，  文件有可能在复制文件时

系统崩溃，需要对  的操作进行回复。D 还会启动一个线程，不断更新 D 所在文件系统的剩余容量。

创建 * 的时候，系统会根据各个 D 的容量，来确认 * 的存放位置。

D 就不讨论了，它管理着所有的 D。

"' 中，对一个 )* 的写会使文件处于活跃状态，' 中引入了类 !。! 对象保存了一个文件，

和操作这个文件的线程。注意，线程有可能有多个。! 的构造函数会自动地把当前线程加入其中。

有了上面的基础，我们可以开始分析 '。' 实现了接口 ',)。',) 是

';  对底层存储的抽象。

下面给出了 ' 的关键成员变量：

FSVolumeSet volumes;

private HashMap<Block,ActiveFile> ongoingCreates = new HashMap<Block,ActiveFile>();

private HashMap<Block,DatanodeBlockInfo> volumeMap = null;

其中， 就是 ' 使用的所有 ，)) 是 * 到 ! 的映射，也就是说，说有

正在创建的 *，都会记录在 )) 里。

下面我们讨论 ' 中的方法。

public long getMetaDataLength(Block b) throws IOException;

得到一个 F 的元数据长度。通过 F 的 *&，找对应的元数据文件，返回文件长度。



public&* &*%DF(throws*'+,!

得到一个 block 的元数据输入流。通过 F 的 *&，找对应的元数据文件，在上面打开输入流。下面对于类似的简单方法，我们就不再仔细讨论

了。



publicboolean3+,%DF(throws*'+,!

判断 block 的元数据的元数据文件是否存在。简单方法。



publiclong / )%DF(throws*'+,!

F 的长度。简单方法。



publicDF DF%longF(throws*'+,!

通过 DF 的 *&，找到对应的 DF。简单方法。



public* DF*%DF(throws*'+,!

public* DF*%DF:longF'M(throws*'+,!

得到 DF 数据的输入流。简单方法。



publicDF* <*%DF:longFM:longFM(throws*'+,!

得到 DF 的临时输入流。注意，临时输入流是指对应的文件处于  目录中。新创建块时，块数据应该写在  目录中，直到写操作成功，文

件才会被移动到  目录中，如果失败，就不会影响  目录了。简单方法。



publicDF$<DF%DF:boolean=(throws*'+,!

得到一个 F 的输出流。DF 既包含了数据输出流，也包含了元数据（校验文件）输出流，这是一个相当复杂的方法。

参数  说明这次写是不是对以前失败的写的一次恢复操作。我们先看正常的写操作流程：首先，如果输入的 *

是个正常的数据块，或当前的 * 已经有线程在写，1* 会抛出一个异常。否则，将创建相应的临时数据文件和

临时元数据文件，并把相关信息，创建一个 ! 对象，记录到 )) 中，并创建返回的

*0。前面我们已经提过，建立新的 ! 时，当前线程会自动保存在 ! 的   中。

我们以 *@.A8676B9.7C98.CA.A. 为例，当 ';  需要为 *,' 为 .A8676B9.7C98.CA.A. 创建写流时，

';  创建文件 *@.A8676B9.7C98.CA.A. 做为临时数据文件，对应的  文件是 

*@.A8676B9.7C98.CA.A.@GGGGGG。其中 GGGGGG 是版本号。

 为  时，表明我们需要从某一次不成功的写中恢复，流程相对于正常流程复杂。如果不成功的写是由于提交

（参考 E)-* 方法）后的确认信息没有收到，先创建一个  文件（备份）。接着，1* 检查是否

有还有对文件写的线程，如果有，则通过线程的 ) 方法，强制结束线程。这就是说，如果有线程还在写对应的文件块，

该线程将被终止。同时，从 )) 中移除对应的信息。接下来将根据临时文件是否存在，创建复用临时数据文件

和临时数据元文件。后续操作就和正常流程一样，根据相关信息，创建一个 ! 对象，记录到 ))

中……

由于这块涉及了一些 "' 写文件时的策略，以后我们还会继续讨论这个话题。



publicvoidDF%DFF:DF$F(throws*'+,!

更新一个 F。这也是一个相当复杂的方法。

 * 的最外层是一个死循环，循环的结束条件，是没有任何和这个数据块相关的写线程。每次循环， *

都会去调用一个叫 F * 的内部方法。F * 发现已经没有线程在写这个块，就会跟新和这个数据块相

剩余63页未读，继续阅读

weichengxing168

粉丝: 1
资源: 15

深入剖析Hadoop源代码：分布式处理基石

Hadoop源代码分析完整版.pdf

Hadoop源代码分析(完整版).pdf

Hadoop源代码分析完整版.doc

搭建Hadoop运行环境

hadoop@ubuntu:/usr/local/hadoop$ ./bin/hadoop version ERROR: Cannot execute /usr/local/hadoop-3.1.3/libexec/hadoop-config.sh.

Apache Hadoop下载

hadoop伪分布式安装启动hdfs

Hadoop如何找回VERSION文件

hadoop3.1.3下载

Hadoop Submarine

最新资源