深入剖析Hadoop：HDFS与MapReduce源码解析

需积分: 10 139 浏览量更新于2024-07-28 收藏 5.16MB PDF 举报

"Hadoop源码分析-HDFS部分" 在深入探讨Hadoop源码之前，我们首先理解一下HDFS（Hadoop Distributed File System）的基本概念。HDFS是一个分布式文件系统，设计用于跨大量廉价硬件节点运行，提供高容错性和高吞吐量的数据访问。它是Google GFS（Google文件系统）的一个开源实现，是Hadoop生态系统的基石。 HDFS的核心设计原则包括数据的冗余存储（通过数据块复制）以确保容错性，以及优化大文件的读写操作。在HDFS中，文件被分割成固定大小的数据块，并且这些数据块会在集群的不同节点上进行复制，通常默认是3份，以提高可用性和可靠性。 Hadoop MapReduce是与HDFS紧密关联的并行计算框架，它将大规模数据处理任务分解为许多小的独立任务（Map任务）并在集群中的各个节点上并行执行，然后由Reduce任务汇总结果。MapReduce和HDFS的集成使得大数据处理变得更加高效。在Hadoop的源码分析中，我们可以看到HDFS的实现主要分布在以下几个关键包中： 1. **hadoop.common**: 这个包包含了Hadoop的通用组件，比如配置管理、网络通信、安全机制等。其中，`conf`包用于读取和管理系统配置，`fs`包提供了文件系统的抽象层，支持本地文件系统、HDFS和其他分布式文件系统。 2. **hadoop.hdfs**: 这是HDFS的主要实现，包含了文件系统接口、数据块管理、NameNode（元数据管理）和DataNode（数据存储）的实现。`DFSClient`是客户端与HDFS交互的主要类，负责文件的打开、关闭、读写等操作。 3. **hadoop.mapreduce**: 包含MapReduce框架的核心组件，如JobTracker（调度器）、TaskTracker（任务执行器）和Task（Map任务和Reduce任务）。`mapred`和`mapreduce`这两个包分别对应Hadoop 1.x和2.x版本的MapReduce实现。 4. **hadoop.yarn**: YARN（Yet Another Resource Negotiator）是Hadoop 2.x引入的资源管理系统，它分离了原本在MapReduce中的任务调度和资源管理功能。YARN提供了统一的资源管理和调度平台，使得其他计算框架（如Spark、Tez）也能在Hadoop上运行。在分析源码时，我们需要关注以下几个关键点： - **NameNode**的元数据管理，包括文件系统命名空间的维护和数据块信息的存储。 - **DataNode**如何存储和复制数据块，以及心跳机制确保节点间的通信和健康检查。 - **BlockPlacementPolicy**是如何决定数据块的副本位置，以优化数据访问性能和容错性。 - **DFSClient**的实现，特别是文件读写的流程，包括数据流的短路读和文件缓存的使用。 - **MapReduce**的作业生命周期管理，包括作业提交、任务调度、失败恢复等机制。 - **YARN**的资源分配和任务调度算法，以及Container的概念，如何保证资源的有效利用。通过对这些核心组件的源码分析，我们可以更深入地理解Hadoop的工作原理，从而更好地优化和定制Hadoop集群，解决实际问题。同时，这也有助于了解其他基于Hadoop生态系统的项目，如HBase（分布式数据库）和Hive（数据仓库工具）。

有了这些状态，就可以对系统进行恢复（通过方法 doRecover ）。恢复的动作如下（结合上面的状态转移图）：

COMPLETE_UPGRADE ： mv previous.tmp -> previous

RECOVER_UPGRADE ： mv previous.tmp -> current

COMPLETE_FINALIZE ： rm finaliz ed.tmp

COMPLETE_ROLLBACK ： rm removed.tmp

RECOVER_ROLLBACK ： mv removed.tmp -> current

COMPLETE_CHECKPOINT ： mv lastcheckpoint.tmp -> previous.checkpoint

RECOVER_CHECKPOINT ： mv lastcheckpoint.tmp -> current

我们以 RECOVER_UPGRADE 为例，分析一下。根据升级的过程，

1. current->previous.tmp

2. 重建 current

3. previous.tmp->previous

当我们发现 previous.tmp

存在，

current 不存在，我们知道只需要将 previous.tmp 改为 current ，就能恢复到未升级时的状

态。

StorageDirectory 还管理着文件系统的元信息，就是我们上面提过 StorageInfo 信息，当然， StorageDirectory 还保存每个具

体用途自己的信息。这些信息，其实都存储在 VERSION 文件中， StorageDirectory 中的 read/write 方法，就是用于对这个文

件进行读 / 写。下面是某一个 DataNode 的 VERSION 文件的例子：

配置文件代码

1. #Fri Nov 14 10 : 27 : 35 CST 2008

2. namespaceID= 1950997968

3. storageID=DS- 697414267 - 127.0 . 0.1 - 50010 - 1226629655026

4. cTime= 0

5. storageType=DATA_NODE

6. layoutVersion=- 16

对 StorageDirectory 的排他操作需要锁，还记得我们在分析系统目录时提到的 in_use.lock 文件吗？它就是用来给整个系统加

/ 解锁用的。 StorageDirectory 提供了对应的 lock 和 unlock 方法。

分析完 StorageDirectory 以后， Storage 类就很简单了。基本上都是对一系列 StorageDirectory 的操作，同时 Storage 提供

一些辅助方法。

DataStorage 是 Storage 的子类，专门应用于 DataNode 。上面我们对 DataNode 的升级 / 回滚 / 提交过程，就是对 DataStorage 的

doUpgrade/doRollback/doFinaliz e 分析得到的。

DataStorage 提供了 format 方法，用于创建 DataNode 上的 Storage ，同时，利用 StorageDirectory

，

DataStorage 管理存储系

统的状态。

2008-12-01

Hadoop 的升级和回滚

当升级某个集群的 Hadoop 的时候，正如任何软件的升级一样，可能会引入新的 bug 或者不兼容的修改导致现有的应用出现

过去没有发现的问题。在所有重要的 HDFS 安装应用中，是不允许出现因丢失任何数据需要从零开始重启 HDFS 的情况。 HDFS 允

许管理员恢复到 Hadoop 的早期版本，并且将集群的状态回滚到升级前。 HDFS 的升级细节请参考 upgrade wiki 。 HDFS 在任何

时间只能有一个备份，因此在升级前，管理员需要通过 'bin/hadoop dfsadmin -finalizeUpgrade' 命令移除现有的备份。下面

简要描述了典型的升级过程：

块文件和数据块元文件是通过硬链接，指向了相同的内容。当我们需要改变 current 里的文件时，如果不进行 detach 操作，那

么，修改的内容就会影响 snapshot 里的文件，这时，我们需要将对应的硬链接解除掉。方法很简单，就是在临时文件夹里，复

制文件，然后将临时文件改名成为 current 里的对应文件，这样的话， current 里的文件和 snapshot 里的文件就 detach

了。

这样的技术，也叫 copy-on-write ，是一种有效提高系统性能的方法。 DatanodeBlockInfo 中的 detachBlock ，能够对 Block 对

应的数据文件和元数据文件进行 detach 操作。

介绍完类 Block 和 DatanodeBlockInfo 后，我们来看 FSVolumeSet ， FSVolume 和 FSDir 。我们知道在一个 DataNode 上可以指定

多个 Storage 来存储数据块，由于 HDFS 规定了一个目录能存放 Block 的数目，所以一个 Storage 上存在多个目录。对应的，

FSDataset 中用 FSVolume 来对应一个 Storage ， FSDir 对应一个目录，所有的 FSVolume 由 FSVolumeSet 管理， FSDataset 中通

过一个 FSVolumeSet 对象，就可以管理它的所有存储空间。

FSDir 对应着 HDFS 中的一个目录，目录里存放着数据块文件和它的元文件。 FSDir 的一个重要的操作，就是在添加一个 Block

时，根据需要有时会扩展目录结构，上面提过，一个 Storage 上存在多个目录，所有的目录，都对应着一个 FSDir ，目录的关

系，也由 FSDir 保存。 FSDir 的 getBlockInfo 方法分析目录下的所有数据块文件信息，生成 Block 对象，存放到一个集合中。

getVolumeMap 方法能，则会建立 Block 和 DatanodeBlockInfo 的关系。以上两个方法，用于系统启动时搜集所有的数据块信

息，

便于后面快速访问。

FSVolume 对应着是某一个 Storage 。数据块文件， detach 文件和临时文件都是通过 FSVolume 来管理的，这个其实很自然，在

同一个存储系统上移动文件，往往只需要修改文件存储信息，不需要搬数据。 FSVolume 有一个 recoverDetachedBlocks 的方

法，

用于恢复 detach 文件。和 Storage 的状态管理一样， detach 文件有可能在复制文件时系统崩溃，需要对 detach 的操作进行回

复。

FSVolume 还会启动一个线程，不断更新 FSVolume 所在文件系统的剩余容量。创建 Block 的时候，系统会根据各个 FSVolu me

的容量，来确认 Block 的存放位置。

FSVolumeSet 就不讨论了，它管理着所有的 FSVolume 。

HDFS 中，对一个 chunk 的写会使文件处于活跃状态， FSDataset 中引入了类 ActiveFile

。

ActiveFile 对象保存了一个文件，和

操作这个文件的线程。注意，线程有可能有多个。 ActiveFile 的构造函数会自动地把当前线程加入其中。

有了上面的基础，我们可以开始分析 FSDataset

。

FSDataset 实现了接口 FSDatasetInterface

。

FSDatasetInterface 是 DataN ode

对底层存储的抽象。

下面给出了 FSDataset 的关键成员变量：

FSVolumeSet volumes

;

private

private HashMap<Block,ActiveFile> ongoingCreates = new

new

new HashMap<Block,ActiveFile>();

private

private HashMap<Block,DatanodeBlockInfo> volumeMap = null

null

;

其中， volumes 就是 FSDataset 使用的所有 Storage ， ongoingCreates 是 Block 到 ActiveFile 的映射，也就是说，说有正在创

建的 Block ，都会记录在 ongoingCreates 里。

下面我们讨论 FSDataset 中的方法。

public

public long

long

long getMetaDataLength(Block b) throws

throws

throws IOException;

得到一个 block 的元数据长度。通过 block 的 ID ，找对应的元数据文件，返回文件长度。

public

public MetaDataInputStream getMetaDataInputStream(Block b) throws

throws

throws IOException;

得到一个 block 的元数据输入流。通过 block 的 ID ，找对应的元数据文件，在上面打开输入流。下面对于类似的简单方法，我们就不再仔细讨论了

。

public

public boolean

boolean

boolean metaFileExists(Block b) throws

throws

throws IOException;

判断 block 的元数据的元数据文件是否存在。简单方法。

public

public long

long

long getLength(Block b) throws

throws

throws IOException;

block 的长度。简单方法。

public

public Block getStoredBlock( long

long

long blkid) throws

throws

throws IOException;

通过 Block 的 ID ，找到对应的 Block 。简单方法。

public

public InputStream getBlockInputStream(Block b) throws

throws

throws IOException;

public

public InputStream getBlockInputStream(Block b, long

long

long seekOffset) throws

throws

throws IOException;

得到 Block 数据的输入流。简单方法。

public

public BlockInputStreams getTmpInputStreams(Block b, long

long

long blkoff, long

long

long ckoff) throws

throws

throws IOException;

得到 Block 的临时输入流。注意，临时输入流是指对应的文件处于 tmp 目录中。新创建块时，块数据应该写在 tmp 目录中，直到写操作成功，文件才

会被移动到 current 目录中，如果失败，就不会影响 current 目录了。简单方法。

public

public BlockWriteStreams writeToBlock(Block b, boolean

boolean

boolean isRecovery) throws

throws

throws IOException;

得到一个 block 的输出流。 BlockWriteStreams 既包含了数据输出流，也包含了元数据（校验文件）输出流，这是一个相当复杂的方法。

剩余66页未读，继续阅读

驰驰的老爸

粉丝: 344
资源: 47

深入剖析Hadoop：HDFS与MapReduce源码解析

Hadoop源码深度解析：HDFS关键模块与依赖揭秘

HDFS深度剖析：Apache Hadoop核心技术基石

Hadoop源码解析：HDFS与MapReduce核心剖析

hadoop源码分析-HDFS&MapReduce

hadoop源码分析-mapreduce部分.doc

hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码 hadoop 源码

实战Hadoop源码--刘鹏

Hadoop源码解析---MapReduce之InputFormat

Hadoop源码分析HDFS数据流

百度翻译源码java-Big-Data-Hadoop-and-Spark-Developer:大数据/SCALA/HADOOP

最新资源