Hadoop源码解析：核心技术与架构详解

需积分: 4 24 浏览量更新于2024-07-21 1 收藏 5.85MB DOC 举报

Hadoop源代码分析深入探讨了Google的分布式云计算核心技术，包括GFS（Google File System）、BigTable、Chubby和MapReduce，这些技术为Google的计算平台奠定了基础。Apache社区随后开发了Hadoop项目，将这些理念开源化，其中： 1. Chubby的安全性服务在Hadoop中被替换为ZooKeeper，后者成为分布式协调服务的代表。 2. Google的GFS演变成Hadoop Distributed File System (HDFS)，它是Hadoop生态系统的核心组件，提供了分布式文件存储和管理能力，支持大数据处理。 3. BigTable的分布式数据存储概念催生了HBase，专注于NoSQL数据库和实时数据处理。 4. MapReduce的并行编程模型在Hadoop中得以实现，成为处理大规模数据的主要工具。 Hadoop的包结构复杂，尤其是HDFS与MapReduce之间的紧密关联。HDFS为上层应用提供了统一的接口，使得系统能够透明地处理本地文件、分布式文件系统和云存储。这种设计导致了包间的深度依赖关系，例如，配置管理模块conf依赖于文件系统fs，因为配置文件的读取涉及到文件操作。 Hadoop的核心组件主要集中在图示中的蓝色部分，主要包括HDFS和MapReduce。HDFS负责数据的存储和访问，而MapReduce则提供了数据处理和计算的能力。理解这两个组件对于掌握整个Hadoop框架至关重要。此外，Hadoop生态还包括其他开源项目，如Facebook的Hive，它扩展了Hadoop的数据分析能力，特别适用于用户行为分析等场景。在深入学习Hadoop源码时，开发者需要关注这些核心组件的内部实现细节，包括数据分片、副本策略、数据一致性以及分布式任务调度等，这些都是构建高效、可靠的大数据处理平台的基础。通过阅读源代码，可以洞悉分布式系统的设计原则，提升对分布式计算和云计算的理解。



有了这些状态，就可以对系统进行恢复（通过方法 ）。恢复的动作如下（结合上面的状态转移图）：

(+344@F+!'4：#$

4(D4@F+!'4：#$)

(+344@,;!3,%4：E)- 

(+344@(33!&： 

4(D4@(33!&： #$)

(+344@"4&+(,;：*)#$*)

4(D4@"4&+(,;：*)#$)



我们以 RECOVER_UPGRADE 为例，分析一下。根据升级的过程，

1. current->previous.tmp

2. 重建 current

3. previous.tmp->previous



当我们发现  存在，) 不存在，我们知道只需要将  改为 )，就能恢复到未升级时的

状态。

' 还管理着文件系统的元信息，就是我们上面提过 ,) 信息，当然，' 还保存每

个具体用途自己的信息。这些信息，其实都存储在 D4,(; 文件中，' 中的  1 方法，就是用于对

这个文件进行读写。下面是某一个 ';  的 D4,(; 文件的例子：



配置文件代码

 J372-"5<22.

 *&40"200-0#.

  *&4&6#0-#-6-226"2226##0#""2#

 <42

"  <4&><>K7'&+

# L46#



对 ' 的排他操作需要锁，还记得我们在分析系统目录时提到的 )@* 文件吗？它就是用来给整个系统

加解锁用的。' 提供了对应的 * 和 )* 方法。

分析完 ' 以后， 类就很简单了。基本上都是对一系列 ' 的操作，同时 

提供一些辅助方法。

' 是  的子类，专门应用于 '; 。上面我们对 ';  的升级回滚提交过程，就是对

' 的 F  * )- 分析得到的。

' 提供了  方法，用于创建 ';  上的 ，同时，利用 '，' 管

理存储系统的状态。

Hadoop

源代码分析（一二）

分析完  相关的类以后，我们来看下一个大家伙，' 相关的类。

上面介绍  时，我们并没有涉及到数据块 * 的操作，所有和数据块相关的操作，都在 ' 相关的类中进行

处理。下面是类图：



* 是对一个数据块的抽象，通过前面的讨论我们知道一个 * 对应着两个文件，其中一个存数据，一个存校验信息，如

下：

*@.A8676B9.7C98.CA.A.

*@.A8676B9.7C98.CA.A.@B8B6AB

上面的信息中，*, 是 .A8676B9.7C98.CA.A.，B8B6AB 是数据块的版本号，当然，系统还会保存数据块的大小，在

类中是属性 )。* 提供了一系列的方法来操作对象的属性。

') *,) 存放的是 * 在文件系统上的信息。它保存了 * 存放的卷（D），文件名和  状

态。这里有必要解释一下  状态：我们前面分析过，系统在升级时会创建一个 )，) 的文件和

) 里的数据块文件和数据块元文件是通过硬链接，指向了相同的内容。当我们需要改变 ) 里的文件时，如果不进

行  操作，那么，修改的内容就会影响 ) 里的文件，这时，我们需要将对应的硬链接解除掉。方法很简单，就

是在临时文件夹里，复制文件，然后将临时文件改名成为 ) 里的对应文件，这样的话，) 里的文件和 )

里的文件就  了。这样的技术，也叫 copy-on-write，是一种有效提高系统性能的方法。') *,) 中的

*，能够对 * 对应的数据文件和元数据文件进行  操作。

介绍完类 * 和 ') *,) 后，我们来看 D，D 和 '。我们知道在一个 '; 

上可以指定多个  来存储数据块，由于 "' 规定了一个目录能存放 * 的数目，所以一个  上存在多个目

录。对应的，' 中用 D 来对应一个 ，' 对应一个目录，所有的 D 由 D

管理，' 中通过一个 D 对象，就可以管理它的所有存储空间。

' 对应着 "' 中的一个目录，目录里存放着数据块文件和它的元文件。' 的一个重要的操作，就是在添加一个

* 时，根据需要有时会扩展目录结构，上面提过，一个  上存在多个目录，所有的目录，都对应着一个 '，目

录的关系，也由 ' 保存。' 的 *,) 方法分析目录下的所有数据块文件信息，生成 * 对象，存放到一个

集合中。D 方法能，则会建立 * 和 ') *,) 的关系。以上两个方法，用于系统启动时搜集所

有的数据块信息，便于后面快速访问。

D 对应着是某一个 。数据块文件，  文件和临时文件都是通过 D 来管理的，这个其实很自

然，在同一个存储系统上移动文件，往往只需要修改文件存储信息，不需要搬数据。D 有一个

' * 的方法，用于恢复  文件。和  的状态管理一样，  文件有可能在复制文件时

系统崩溃，需要对  的操作进行回复。D 还会启动一个线程，不断更新 D 所在文件系统的剩余容量。

创建 * 的时候，系统会根据各个 D 的容量，来确认 * 的存放位置。

D 就不讨论了，它管理着所有的 D。

"' 中，对一个 )* 的写会使文件处于活跃状态，' 中引入了类 !。! 对象保存了一个文件，

和操作这个文件的线程。注意，线程有可能有多个。! 的构造函数会自动地把当前线程加入其中。

有了上面的基础，我们可以开始分析 '。' 实现了接口 ',)。',) 是

';  对底层存储的抽象。

下面给出了 ' 的关键成员变量：

FSVolumeSet volumes;

private HashMap<Block,ActiveFile> ongoingCreates = new HashMap<Block,ActiveFile>();

private HashMap<Block,DatanodeBlockInfo> volumeMap = null;

其中， 就是 ' 使用的所有 ，)) 是 * 到 ! 的映射，也就是说，说有

正在创建的 *，都会记录在 )) 里。

下面我们讨论 ' 中的方法。

public long getMetaDataLength(Block b) throws IOException;

得到一个 F 的元数据长度。通过 F 的 *&，找对应的元数据文件，返回文件长度。



public&* &*%DF(throws*'+,!

得到一个 block 的元数据输入流。通过 F 的 *&，找对应的元数据文件，在上面打开输入流。下面对于类似的简单方法，我们就不再仔细讨论

了。



publicboolean3+,%DF(throws*'+,!

判断 block 的元数据的元数据文件是否存在。简单方法。



publiclong / )%DF(throws*'+,!

F 的长度。简单方法。



publicDF DF%longF(throws*'+,!

通过 DF 的 *&，找到对应的 DF。简单方法。



public* DF*%DF(throws*'+,!

public* DF*%DF:longF'M(throws*'+,!

得到 DF 数据的输入流。简单方法。



publicDF* <*%DF:longFM:longFM(throws*'+,!

得到 DF 的临时输入流。注意，临时输入流是指对应的文件处于  目录中。新创建块时，块数据应该写在  目录中，直到写操作成功，文

件才会被移动到  目录中，如果失败，就不会影响  目录了。简单方法。



publicDF$<DF%DF:boolean=(throws*'+,!

得到一个 F 的输出流。DF 既包含了数据输出流，也包含了元数据（校验文件）输出流，这是一个相当复杂的方法。

参数  说明这次写是不是对以前失败的写的一次恢复操作。我们先看正常的写操作流程：首先，如果输入的 *

是个正常的数据块，或当前的 * 已经有线程在写，1* 会抛出一个异常。否则，将创建相应的临时数据文件和

临时元数据文件，并把相关信息，创建一个 ! 对象，记录到 )) 中，并创建返回的

*0。前面我们已经提过，建立新的 ! 时，当前线程会自动保存在 ! 的   中。

我们以 *@.A8676B9.7C98.CA.A. 为例，当 ';  需要为 *,' 为 .A8676B9.7C98.CA.A. 创建写流时，

';  创建文件 *@.A8676B9.7C98.CA.A. 做为临时数据文件，对应的  文件是 

*@.A8676B9.7C98.CA.A.@GGGGGG。其中 GGGGGG 是版本号。

 为  时，表明我们需要从某一次不成功的写中恢复，流程相对于正常流程复杂。如果不成功的写是由于提交

（参考 E)-* 方法）后的确认信息没有收到，先创建一个  文件（备份）。接着，1* 检查是否

有还有对文件写的线程，如果有，则通过线程的 ) 方法，强制结束线程。这就是说，如果有线程还在写对应的文件块，

该线程将被终止。同时，从 )) 中移除对应的信息。接下来将根据临时文件是否存在，创建复用临时数据文件

和临时数据元文件。后续操作就和正常流程一样，根据相关信息，创建一个 ! 对象，记录到 ))

中……

由于这块涉及了一些 "' 写文件时的策略，以后我们还会继续讨论这个话题。



publicvoidDF%DFF:DF$F(throws*'+,!

更新一个 F。这也是一个相当复杂的方法。

 * 的最外层是一个死循环，循环的结束条件，是没有任何和这个数据块相关的写线程。每次循环， *

都会去调用一个叫 F * 的内部方法。F * 发现已经没有线程在写这个块，就会跟新和这个数据块相

剩余63页未读，继续阅读

frank_20080215

粉丝: 166
资源: 1776

Hadoop源码解析：核心技术与架构详解

hadoop源码编译.doc|hadoop源码编译.doc

大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

hadoop2.x和hadoop3.x的区别

java: 不兼容的类型: org.apache.hadoop.mapreduce.Job无法转换为org.apache.hadoop.mapred.JobConf

Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExi

hadoop.zip和hadoop.tar.gz区别

spark-3.3.0-bin-hadoop3.tg和spark-3.3.0-bin-without-hadoop.tgz

spark-3.2.0.tgz和spark-3.2.0-bin-hadoop2.tar.gz的区别

最新资源