深入解析Hadoop源码：从HDFS到MapReduce

5星 · 超过95%的资源需积分: 9 178 浏览量更新于2024-07-30 收藏 6.2MB PDF 举报

"这篇文档详细介绍了Hadoop的源码分析，涵盖了Hadoop、HDFS、Hive等多个组件，以及它们与Google的相关技术的对应关系。Hadoop是基于Google的计算平台理念发展起来的开源项目，其中包括分布式文件系统HDFS、分布式计算框架MapReduce以及其他的关联项目如HBase和Hive。" 在深入理解Hadoop源码之前，我们首先需要对Hadoop的组成和工作原理有一个基本的了解。Hadoop是由两个主要组件构成的：HDFS（Hadoop Distributed File System）和MapReduce。HDFS是一个高容错性的分布式文件系统，它设计的目标是能够在普通的硬件上运行，提供大规模的数据存储能力。HDFS将大文件分割成多个块，并在集群中的多台机器上存储，确保数据的冗余和可靠性。 MapReduce是Hadoop的计算模型，它将复杂的并行计算任务分解为两个阶段：Map阶段和Reduce阶段。Map阶段将输入数据切分成键值对，然后在各个节点上并行处理；Reduce阶段则负责聚合Map阶段的结果，输出最终的计算结果。这种模型使得Hadoop能够处理PB级别的数据。文档中提到的Hadoop与其他开源项目的对应关系如下： - Chubby -> ZooKeeper：Chubby是Google的一个分布式锁服务，ZooKeeper在Hadoop生态系统中扮演了类似的角色，提供协调服务，如命名服务、配置管理、组服务等。 - GFS (Google File System) -> HDFS：GFS是Google的分布式文件系统，HDFS是其开源实现，提供高可用性和容错性。 - BigTable -> HBase：BigTable是Google的分布式数据库，HBase是面向列的NoSQL数据库，建立在HDFS之上，适合实时读写操作。 - MapReduce -> Hadoop：Hadoop的MapReduce框架实现了Google MapReduce的编程模型。 Hadoop包之间的依赖关系复杂，比如conf包依赖于fs包来读取配置文件，而fs包又包含了文件系统功能的抽象。这种相互引用导致了复杂的依赖结构，但也是为了实现高度的灵活性和适应性。文档的后续部分可能会详细分析各个包的功能，例如提供命令行工具的tool包，以及处理数据输入输出的input和output包，还有负责作业调度和任务分配的mapred包等。通过这些深入的源码分析，开发者可以更好地理解和优化Hadoop的性能，以及根据需求定制Hadoop相关组件。 Hive是基于Hadoop的数据仓库工具，它允许用户使用SQL-like语言（HQL）查询存储在HDFS上的大数据集，将SQL查询转换为一系列的MapReduce作业执行。Hive提供了元数据管理、查询解析、优化和结果物化等功能，使得非程序员也能方便地处理大数据。这个文档为深入理解Hadoop的内部工作机制提供了宝贵的资料，对于想要学习和研究Hadoop源码的开发者来说，是非常有价值的参考资料。通过这份文档，读者可以逐步剖析Hadoop的每一个组成部分，从而掌握分布式计算和大数据处理的核心技术。

（为了简单起见，BlockSender 和 BlockReceiver 的成员变量没有进入 UML 模型中）

DataXceiverServer 很简单，它打开一个端口，然后每接收到一个连接，就创建一个 DataXceiver，服务于该连接，并记录该连

接的 socket，对应的实现在 DataXceiverServer 的 run 方法里。当系统关闭时，DataXceiverServer 将关闭监听的 socket 和所

有 DataXceiver 的 socket，这样就导致了 DataXceiver 出错并结束线程。

DataXceiver 才是真正干活的地方，目前，DataXceiver 支持的操作总共有六条，分别是：

OP_WRITE_BLOCK (80)：写数据块

OP_READ_BLOCK (81)：读数据块

OP_READ_METADATA (82)：读数据块元文件

OP_REPLACE_BLOCK (83)：替换一个数据块

OP_COPY_BLOCK (84)：拷贝一个数据块

OP_BLOCK_CHECKSUM (85)：读数据块检验码

DataXceiver 首先读取客户端的版本号并检验，然后再读取一个字节的操作码，并转入相关的子程序进行处理。我们先看一下

读数据块的过程吧。

首先看输入，下图是读数据块时，客户端发送过来的信息：

包括了要读取的 Block 的 ID，时间戳，开始偏移和读取的长度，最后是客户端的名字（貌似只是在写日志的时候用到了）。根

据上面的信息，我们可以创建一个 BlockSender，如果 BlockSender 没有出错，返回客户端一个正确指示后，否则，返回错误

码。成功创建 BlockSender 以后，就可以开始通过 BlockSender.sendBlock 发送数据。

下面我们就来分析 BlockSender。BlockSender 的构造函数看似很复杂，其实就是根据需求（特别是在处理 checksum 上，因为

checksum 是基于块的），打开相应的数据流。close()用于释放各种资源，如已经打开的数据流。sendBlock 用于发送数据，数

据发送包括应答头和后续的数据包。应答头如下（包含 DataXceiver 中发送的成功标识）：

然后后面的数据就组织成数据包来发送，包结构如下：

各个字段含义：

packetLen：包长度，包括包头

offset：偏移量

seqno：包序列号

tail：是否是最后一个包

len：数据长度

checksum：检验数据

data：数据块数据

需要注意的，在写数据前，BlockSender 会校验数据，保证数据包中的 checksum 和数据的一致性。同时，如果数据出错，将会

有 ChecksumException 抛出。

数据传输结束的标志，是一个 packetLen 长度为 0 的包。客户端可以返回一个两字节的应答

OP_STATUS_CHECKSUM_OK

(5)

Hadoop 源代码分析（一四）

继续 DataXceiver 分析，下一块硬骨头是写数据块。HDFS 的写数据操作，比读数据复杂 N 多倍。读数据的时候，只需要在多个

数据块文件的选一个读，就可以了；但是，写数据需要同时写到多个数据块文件上，这就比较复杂了。HDFS 实现了了 Google

写文件时的机制，如下图：

数据流从客户端开始，流经一系列的节点，到达最后一个 DataNode。图中的所有 DataNode 只需要写一次硬盘，DataNode1 和

DataNode2 会将从 socket 上接受到的数据，直接写到到下个节点的 socket 上。

我们来看一下写数据块的请求。

首先是客户端的版本号和一个字节的操作码，接下来是我们熟悉的 blockId 和 generationStamp。参数 pipelineSize 是整个数

据流链的长度，以上面为例，pipelineSize=3。isRecovery 指示这次写是否是一次恢复操作，还记得我们在讨论

FSDataset.writeToBlock 时的那个参数吗？isRecovery 来自客户端。client 是客户端的名字，就是发起请求的节点名，需要

特别注意的是，如果是从 NameNode 来的复制请求，client 为空。hasSrcDataNode 是一个标志位，如果被设置，表明源节点是

个 DataNode，接下来读取的数据就是 DataNode 的信息。numTargets 是目标节点的数目，包括当前节点，以上面的图为例，

DataNode1 上这个参数值为 3，到了 DataNode3，就只有 1 了。targets 包含了目标节点的相关信息，根据这些信息，就可以创

建到它们上面的 socket 连接。targets 后跟着的是校验头。

writeBlock 最开始是处理上面提到的消息包，然后创建一个 BlockReceiver。接下来就是创建一堆用于读写的流，如下图（图

中除了 in 外，都是在 writeBlock 中创建，这个图还不涉及在 BlockReceiver 对本地文件读写的流）：

在进行实际的数据写之前，上面的这些流会被建立起来（也就是说，DataNode1 到 DataNode3 都可写以后，才开始处理写数据）。

如果其中某一个点出错了，那么，出错的节点名会通过 mirrorIn 发送回来，一直沿着这条链，传播到客户端。

如果一切正常，那么，BlockReceiver.receiveBlock 就开始干活了。

BlockReceiver 的构造函数会创建写数据块和校验数据的输出流。剩下的就交给 receiveBlock 这个大家伙了。首先 receiveBlock

会再启动一个线程（一般来说，BlockReceiver 就跑在它自己的线程上），用于处理应答（内部类 PacketResponder 定义了该

线程），然后就不断调用 receivePacket 读数据。

数据是以分块的形式传送，格式和读 Block 的时候是一样的。如下图（很奇怪，为啥不抽象为类）：

应答很简单，应答码（如 OP_STATUS_SUCCESS），文件长度（int），数据。

拷贝数据块和替换数据块是一对相对应操作。

替换数据块的请求如图（操作码 83）。这个比起上面的读数据块元文件请求，有点复杂。替换一个数据块是系统平衡操作的一

部分，用于接收一个数据块。它和普通的数据块写的差别是，它只发生在两个节点上，一个写，一个读，而不需要建立数据链。

我们可以比较一下它们在创建 BlockReceiver 对象时的差别：

Java 代码

1. blockReceiver = new BlockReceiver(block, proxyReply,

2. proxySock.getRemoteSocketAddress().toString(),

3. proxySock.getLocalSocketAddress().toString(),

4. false, "", null, datanode); //OP_REPLACE_BLOCK

5. blockReceiver = new BlockReceiver(block, in,

6. s.getRemoteSocketAddress().toString(),

7. s.getLocalSocketAddress().toString(),

8. isRecovery, client, srcDataNode, datanode); //OP_WRITE_BLOCK

首先，proxyReply 和 in 不一样，这是因为发起请求的节点和提供数据的节点并不是同一个。写数据块发起请求方也提供数据，替换数据块请求方

不提供数据，而是提供了一个数据源（proxySource 参数），由 replaceBlock 发起一个拷贝数据块的请求，建立数据源。对于拷贝数据块操作，

isRecovery=false，client=””， srcDataNode=null。注意，我们在分析 BlockReceiver 是，讨论过 client=””的情况，就是应用于这种场景。

在创建 BlockReceiver 对象前，需要利用下面介绍的拷贝数据块的请求建立到数据源的 socket 连接并发送拷贝数据块请求。然

后通过 BlockReceiver.receiveBlock 接收数据。任务成功后将结果通知 notifyNamenodeReceivedBlock。

拷贝数据块的请求如图（操作码 84）。和读数据块操作请求类似，但是读取的是整个数据块，所以少了很多参数。

读数据块检验码的请求如图（操作码 85）。它能够读取某个数据块的检验和的 MD5 结果，实现的方法很简单。

Hadoop 源代码分析（一六）

通过上面的讨论，DataNode 上的读/写流程已经基本清楚了。我们来看下一个非主流流程，

DataBlockScanner 用于定时对数据块文件进行校验。类图如下：

剩余82页未读，继续阅读

蔡林

粉丝: 1
资源: 13

深入解析Hadoop源码：从HDFS到MapReduce

Hadoop源码分析（完整版）

Hadoop源码分析视频下载

hadoop源码分析

Hadoop源码分析

hadoop 源码分析 文档

hadoop-2.7.1：Hadoop源码分析

Hadoop源码分析完整版

Hadoop源码分析.rar

java+sql server项目之科帮网计算机配件报价系统源代码.zip

【java毕业设计】智慧社区老人健康监测门户.zip

最新资源

hadoop 源码分析文档