Hadoop源代码深度解析：HDFS与MapReduce关键组件

需积分: 10 9 浏览量更新于2024-07-30 1 收藏 5.78MB PDF 举报

Hadoop源代码分析是一份深入研究Apache Hadoop项目内部结构和核心组件的资料，特别关注其分布式云计算技术在实际应用中的关键实现。Hadoop源自Google的五个核心技术：Google Cluster、Chubby、GFS、BigTable和MapReduce，其中Google的这些技术在开源社区得到了发展和扩展，成为Hadoop项目下的ZooKeeper、HDFS、HBase和Hadoop MapReduce。 HDFS（Hadoop Distributed File System）作为Hadoop生态系统的基础，是一个分布式文件系统，它为其他组件提供了一个统一的接口来处理数据存储和访问。HDFS的设计允许数据在多台服务器之间分布，增强了系统的可扩展性和容错性。HDFS的复杂性体现在包间依赖关系上，因为高层功能如配置管理（conf）依赖于底层文件系统（fs），形成了一种蜘蛛网式的依赖模式。 Hadoop MapReduce则是Hadoop的重要组成部分，它是一种编程模型，用于处理大规模数据集，通过分片数据并行执行任务，然后将结果合并。MapReduce的顶层包图和依赖关系显示了Hadoop项目的结构，主要关注的是蓝色部分，即核心功能模块，如工具包（提供如DistCp和archive等实用工具）、MapReduce框架本身以及与分布式文件系统交互的相关组件。在分析Hadoop源代码时，开发者需要理解这些组件的工作原理，包括数据块的存储和复制策略、数据一致性保障机制（如ZooKeeper在Hadoop中的角色）、任务调度和数据划分算法，以及如何处理错误和恢复。此外，熟悉Hadoop的配置文件和API调用流程也是至关重要的，因为它们直接影响到系统的性能和可用性。对于那些对大数据处理和分布式计算感兴趣的开发者或研究人员来说，这份PDF文字版的Hadoop源代码分析提供了深入且实用的学习资源，帮助他们更好地理解和优化Hadoop平台。通过深入剖析源码，用户不仅可以提升技术水平，还能发现新的创新点和潜在的优化空间。

Block 是对一个数据块的抽象，通过前面的讨论我们知道一个 Block 对应着两个文件，其中一个存数据，一个存校验信息，

如下：

blk_3148782637964391313

blk_3148782637964391313_242812.meta

上面的信息中，blockId 是 3148782637964391313，242812 是数据块的版本号，当然，系统还会保存数据块的大小，

在类中是属性 numBytes。Block 提供了一系列的方法来操作对象的属性。

DatanodeBlockInfo 存放的是 Block 在文件系统上的信息。它保存了 Block 存放的卷（FSVolume），文件名和 detach

状态。这里有必要解释一下 detach 状态：我们前面分析过，系统在升级时会创建一个 snapshot，snapshot 的文件和 current

里的数据块文件和数据块元文件是通过硬链接，指向了相同的内容。当我们需要改变 current 里的文件时，如果不进行 detach

操作，那么，修改的内容就会影响 snapshot 里的文件，这时，我们需要将对应的硬链接解除掉。方法很简单，就是在临时文

件夹里，复制文件，然后将临时文件改名成为 current 里的对应文件，这样的话，current 里的文件和 snapshot 里的文件就

了。这样的技术，也叫 copy-on-write，是一种有效提高系统性能的方法。DatanodeBlockInfo 中的 detachBlock，能够对

Block 对应的数据文件和元数据文件进行 detach 操作。

介绍完类 Block 和 DatanodeBlockInfo 后，我们来看 FSVolumeSet，FSVolume 和 FSDir。我们知道在一个 DataNode

上可以指定多个 Storage 来存储数据块，由于 HDFS 规定了一个目录能存放 Block 的数目，所以一个 Storage 上存在多个目

录。对应的，FSDataset 中用 FSVolume 来对应一个 Storage，FSDir 对应一个目录，所有的 FSVolume 由 FSVolumeSet

管理，FSDataset 中通过一个 FSVolumeSet 对象，就可以管理它的所有存储空间。

FSDir 对应着 HDFS 中的一个目录，目录里存放着数据块文件和它的元文件。FSDir 的一个重要的操作，就是在添加一个

Block 时，根据需要有时会扩展目录结构，上面提过，一个 Storage 上存在多个目录，所有的目录，都对应着一个 FSDir，目

录的关系，也由 FSDir 保存。FSDir 的 getBlockInfo()方法分析目录下的所有数据块文件信息，生成 Block 对象，存放到一个

集合中。getVolumeMap()方法则会建立 Block 和 DatanodeBlockInfo 的关系。以上两个方法，用于系统启动时搜集所有的

数据块信息，便于后面快速访问。

FSVolume 对应着是某一个 Storage。数据块文件，detach 文件和临时文件都是通过 FSVolume 来管理的，这个其实很

自然，在同一个存储系统上移动文件，往往只需要修改文件存储信息，不需要搬数据。FSVolume 有一个

recoverDetachedBlocks 的方法，用于恢复 detach 文件。和 Storage 的状态管理一样，detach 文件有可能在复制文件时系

统崩溃，需要对 detach 的操作进行回复。FSVolume 还会启动一个线程，不断更新 FSVolume 所在文件系统的剩余容量。创

建 Block 的时候，系统会根据各个 FSVolume 的容量，来确认 Block 的存放位臵。

FSVolumeSet 就不讨论了，它管理着所有的 FSVolume。

HDFS 中，对一个 chunk 的写会使文件处于活跃状态，FSDataset 中引入了类 ActiveFile。ActiveFile 对象保存了一个

文件，和操作这个文件的线程。注意，线程有可能有多个。ActiveFile 的构造函数会自动地把当前线程加入其中。

有了上面的基础，我们可以开始分析 FSDataset。FSDataset 实现了接口 FSDatasetInterface。FSDatasetInterface

是 DataNode 对底层存储的抽象。

下面给出了 FSDataset 的关键成员变量：

FSVolumeSet volumes;

private HashMap<Block,ActiveFile> ongoingCreates = new HashMap<Block,ActiveFile>();

private HashMap<Block,DatanodeBlockInfo> volumeMap = null;

其中，volumes 就是 FSDataset 使用的所有 Storage，ongoingCreates 是 Block 到 ActiveFile 的映射，也就是说，说

有正在创建的 Block，都会记录在 ongoingCreates 里。

下面我们讨论 FSDataset 中的方法。

public long getMetaDataLength(Block b) throws IOException;

得到一个 block 的元数据长度。通过 block 的 ID，找对应的元数据文件，返回文件长度。

public MetaDataInputStream getMetaDataInputStream(Block b) throws IOException;

得到一个 block 的元数据输入流。通过 block 的 ID，找对应的元数据文件，在上面打开输入流。下面对于类似的简单方法，我们就不再仔细讨

论了。

public boolean metaFileExists(Block b) throws IOException;

判断 block 的元数据的元数据文件是否存在。简单方法。

public long getLength(Block b) throws IOException;

block 的长度。简单方法。

public Block getStoredBlock(long blkid) throws IOException;

通过 Block 的 ID，找到对应的 Block。简单方法。

public InputStream getBlockInputStream(Block b) throws IOException;

public InputStream getBlockInputStream(Block b, long seekOffset) throws IOException;

得到 Block 数据的输入流。简单方法。

public BlockInputStreams getTmpInputStreams(Block b, long blkoff, long ckoff) throws IOException;

得到 Block 的临时输入流。注意，临时输入流是指对应的文件处于 tmp 目录中。新创建块时，块数据应该写在 tmp 目录中，直到写操作成功，

文件才会被移动到 current 目录中，如果失败，就不会影响 current 目录了。简单方法。

public BlockWriteStreams writeToBlock(Block b, boolean isRecovery) throws IOException;

得到一个 block 的输出流。BlockWriteStreams 既包含了数据输出流，也包含了元数据（校验文件）输出流，这是一个相当复杂的方法。

参数 isRecovery 说明这次写是不是对以前失败的写的一次恢复操作。我们先看正常的写操作流程：首先，如果输入的 block

是个正常的数据块，或当前的 block 已经有线程在写，writeToBlock 会抛出一个异常。否则，将创建相应的临时数据文件和

临时元数据文件，并把相关信息，创建一个 ActiveFile 对象，记录到 ongoingCreates 中，并创建返回的 BlockWriteStreams。

前面我们已经提过，建立新的 ActiveFile 时，当前线程会自动保存在 ActiveFile 的 threads 中。

我们以 blk_3148782637964391313 为例，当 DataNode 需要为 Block ID 为 3148782637964391313 创建写流时，

DataNode 创建文件 tmp/blk_3148782637964391313 做为临时数据文件，对应的 meta 文件是

tmp/blk_3148782637964391313_XXXXXX.meta。其中 XXXXXX 是版本号。

isRecovery 为 true 时，表明我们需要从某一次不成功的写中恢复，流程相对于正常流程复杂。如果不成功的写是由于提

交（参考 finalizeBlock 方法）后的确认信息没有收到，先创建一个 detached 文件（备份）。接着，writeToBlock 检查是否

有还有对文件写的线程，如果有，则通过线程的 interrupt 方法，强制结束线程。这就是说，如果有线程还在写对应的文件块，

该线程将被终止。同时，从 ongoingCreates 中移除对应的信息。接下来将根据临时文件是否存在，创建/复用临时数据文件和

临时数据元文件。后续操作就和正常流程一样，根据相关信息，创建一个 ActiveFile 对象，记录到 ongoingCreates 中……

由于这块涉及了一些 HDFS 写文件时的策略，以后我们还会继续讨论这个话题。

public void updateBlock(Block oldblock, Block newblock) throws IOException;

更新一个 block。这也是一个相当复杂的方法。

updateBlock 的最外层是一个死循环，循环的结束条件，是没有任何和这个数据块相关的写线程。每次循环，updateBlock

都会去调用一个叫 tryUpdateBlock 的内部方法。tryUpdateBlock 发现已经没有线程在写这个块，就会跟新和这个数据块相

关的信息，包括元文件和内存中的映射表 volumeMap。如果 tryUpdateBlock 发现还有活跃的线程和该块关联，那么，

updateBlock 会试图结束该线程，并等在 join 上等待。

public void finalizeBlock(Block b) throws IOException;

提交（或叫：结束 finalize）通过 writeToBlock 打开的 block，这意味着写过程没有出错，可以正式把 Block 从 tmp 文件夹放到 current 文件

夹。

在 FSDataset 中，finalizeBlock 将从 ongoingCreates 中删除对应的 block，同时将 block 对应的 DatanodeBlockInfo，

放入 volumeMap 中。我们还是以 blk_3148782637964391313 为例，当 DataNode 提交 Block ID 为

3148782637964391313 数据块文件时，DataNode 将把 tmp/blk_3148782637964391313 移到 current 下某一个目录，

以 subdir12 为例，这是 tmp/blk_3148782637964391313 将会挪到 current/subdir12/blk_3148782637964391313。

对应的 meta 文件也在目录 current/subdir12 下。

剩余107页未读，继续阅读

kainvey

粉丝: 0
资源: 12

Hadoop源代码深度解析：HDFS与MapReduce关键组件

Hadoop源代码分析(完整版).pdf

《Hadoop源代码分析》PDF

Hadoop源代码分析

Hadoop资料

Getting Started with Storm-带书签目录超清文字版.pdf

[Agile.Data.Science(2013.10)].Russell.Jurney.文字版.pdf

MapReduce2.0源码分析与实战编程 文字注释版

【大数据开发】Python大数据笔记讲义代码合集PDF

apache-solr-ref-guide-7.4(官方英文-文字版本)

优秀简历的编写思路.pdf

最新资源

MapReduce2.0源码分析与实战编程文字注释版