Hadoop源码深度解析：HDFS与MapReduce核心组件

需积分: 9 13 浏览量更新于2024-07-29 1 收藏 6.2MB PDF 举报

Hadoop源码分析深入探讨了Google的分布式计算技术在开源社区的发展，特别是其核心组件HDFS和MapReduce。Hadoop源于Google Cluster、Chubby、GFS、BigTable和MapReduce等技术，其中Chubby被Apache的ZooKeeper所继承，GFS演变为Hadoop Distributed File System (HDFS)，BigTable的开源版本是HBase，而MapReduce则成为Hadoop的主要计算模型。 HDFS是Hadoop生态系统的基础，作为分布式文件系统，它负责存储大规模数据并提供高可用性和容错性。HDFS的设计使得它能够处理大量数据，适合批量处理和数据分析场景。在Hadoop的顶层包图中，依赖关系复杂，反映了HDFS的分布式特性以及与底层系统交互的灵活性。例如，包conf依赖于fs，因为系统配置的读取需要文件系统支持，这种设计允许HDFS无缝集成各种存储解决方案。 Hadoop的关键部分集中在图中的蓝色区域，主要包括HDFS和MapReduce框架。HDFS的组件包括NameNode（主节点）和DataNode（数据节点），前者管理文件系统的元数据，后者存储实际的数据块。MapReduce则由Mapper、Reducer和JobTracker组成，提供了编程模型来执行并行计算任务，将复杂的任务分解为一系列小的子任务。深入Hadoop源码分析不仅有助于理解分布式计算的工作原理，还能洞察其优化策略，如数据块复制、数据块调度和容错机制。此外，理解MapReduce的Shuffle和Sort-Reduce过程对性能优化至关重要。通过学习Hadoop源码，开发者可以更好地利用其在大数据处理和云计算领域的优势，并根据具体需求进行定制或扩展。在后续的分析中，将深入剖析Hadoop的工具包，如工具模块（如DistCp和archive），以及MapReduce的编程接口，包括InputFormat、OutputFormat、Mapper和Reducer接口的实现细节。通过这些分析，读者可以全面掌握Hadoop的运作机制和应用实践，为进一步的开发和优化奠定坚实基础。

（为了简单起见，BlockSender 和 BlockReceiver 的成员变量没有进入 UML 模型中）

DataXceiverServer 很简单，它打开一个端口，然后每接收到一个连接，就创建一个 DataXceiver，服务于该连接，并记录该连

接的 socket，对应的实现在 DataXceiverServer 的 run 方法里。当系统关闭时，DataXceiverServer 将关闭监听的 socket 和所

有 DataXceiver 的 socket，这样就导致了 DataXceiver 出错并结束线程。

DataXceiver 才是真正干活的地方，目前，DataXceiver 支持的操作总共有六条，分别是：

OP_WRITE_BLOCK (80)：写数据块

OP_READ_BLOCK (81)：读数据块

OP_READ_METADATA (82)：读数据块元文件

OP_REPLACE_BLOCK (83)：替换一个数据块

OP_COPY_BLOCK (84)：拷贝一个数据块

OP_BLOCK_CHECKSUM (85)：读数据块检验码

DataXceiver 首先读取客户端的版本号并检验，然后再读取一个字节的操作码，并转入相关的子程序进行处理。我们先看一下

读数据块的过程吧。

首先看输入，下图是读数据块时，客户端发送过来的信息：

包括了要读取的 Block 的 ID，时间戳，开始偏移和读取的长度，最后是客户端的名字（貌似只是在写日志的时候用到了）。根

据上面的信息，我们可以创建一个 BlockSender，如果 BlockSender 没有出错，返回客户端一个正确指示后，否则，返回错误

码。成功创建 BlockSender 以后，就可以开始通过 BlockSender.sendBlock 发送数据。

下面我们就来分析 BlockSender。BlockSender 的构造函数看似很复杂，其实就是根据需求（特别是在处理 checksum 上，因为

checksum 是基于块的），打开相应的数据流。close()用于释放各种资源，如已经打开的数据流。sendBlock 用于发送数据，数

据发送包括应答头和后续的数据包。应答头如下（包含 DataXceiver 中发送的成功标识）：

然后后面的数据就组织成数据包来发送，包结构如下：

各个字段含义：

packetLen：包长度，包括包头

offset：偏移量

seqno：包序列号

tail：是否是最后一个包

len：数据长度

checksum：检验数据

data：数据块数据

需要注意的，在写数据前，BlockSender 会校验数据，保证数据包中的 checksum 和数据的一致性。同时，如果数据出错，将会

有 ChecksumException 抛出。

数据传输结束的标志，是一个 packetLen 长度为 0 的包。客户端可以返回一个两字节的应答

OP_STATUS_CHECKSUM_OK

(5)

Hadoop 源代码分析（一四）

继续 DataXceiver 分析，下一块硬骨头是写数据块。HDFS 的写数据操作，比读数据复杂 N 多倍。读数据的时候，只需要在多个

数据块文件的选一个读，就可以了；但是，写数据需要同时写到多个数据块文件上，这就比较复杂了。HDFS 实现了了 Google

写文件时的机制，如下图：

数据流从客户端开始，流经一系列的节点，到达最后一个 DataNode。图中的所有 DataNode 只需要写一次硬盘，DataNode1 和

DataNode2 会将从 socket 上接受到的数据，直接写到到下个节点的 socket 上。

我们来看一下写数据块的请求。

首先是客户端的版本号和一个字节的操作码，接下来是我们熟悉的 blockId 和 generationStamp。参数 pipelineSize 是整个数

据流链的长度，以上面为例，pipelineSize=3。isRecovery 指示这次写是否是一次恢复操作，还记得我们在讨论

FSDataset.writeToBlock 时的那个参数吗？isRecovery 来自客户端。client 是客户端的名字，就是发起请求的节点名，需要

特别注意的是，如果是从 NameNode 来的复制请求，client 为空。hasSrcDataNode 是一个标志位，如果被设置，表明源节点是

个 DataNode，接下来读取的数据就是 DataNode 的信息。numTargets 是目标节点的数目，包括当前节点，以上面的图为例，

DataNode1 上这个参数值为 3，到了 DataNode3，就只有 1 了。targets 包含了目标节点的相关信息，根据这些信息，就可以创

建到它们上面的 socket 连接。targets 后跟着的是校验头。

writeBlock 最开始是处理上面提到的消息包，然后创建一个 BlockReceiver。接下来就是创建一堆用于读写的流，如下图（图

中除了 in 外，都是在 writeBlock 中创建，这个图还不涉及在 BlockReceiver 对本地文件读写的流）：

在进行实际的数据写之前，上面的这些流会被建立起来（也就是说，DataNode1 到 DataNode3 都可写以后，才开始处理写数据）。

如果其中某一个点出错了，那么，出错的节点名会通过 mirrorIn 发送回来，一直沿着这条链，传播到客户端。

如果一切正常，那么，BlockReceiver.receiveBlock 就开始干活了。

BlockReceiver 的构造函数会创建写数据块和校验数据的输出流。剩下的就交给 receiveBlock 这个大家伙了。首先 receiveBlock

会再启动一个线程（一般来说，BlockReceiver 就跑在它自己的线程上），用于处理应答（内部类 PacketResponder 定义了该

线程），然后就不断调用 receivePacket 读数据。

数据是以分块的形式传送，格式和读 Block 的时候是一样的。如下图（很奇怪，为啥不抽象为类）：

应答很简单，应答码（如 OP_STATUS_SUCCESS），文件长度（int），数据。

拷贝数据块和替换数据块是一对相对应操作。

替换数据块的请求如图（操作码 83）。这个比起上面的读数据块元文件请求，有点复杂。替换一个数据块是系统平衡操作的一

部分，用于接收一个数据块。它和普通的数据块写的差别是，它只发生在两个节点上，一个写，一个读，而不需要建立数据链。

我们可以比较一下它们在创建 BlockReceiver 对象时的差别：

Java 代码

1. blockReceiver = new BlockReceiver(block, proxyReply,

2. proxySock.getRemoteSocketAddress().toString(),

3. proxySock.getLocalSocketAddress().toString(),

4. false, "", null, datanode); //OP_REPLACE_BLOCK

5. blockReceiver = new BlockReceiver(block, in,

6. s.getRemoteSocketAddress().toString(),

7. s.getLocalSocketAddress().toString(),

8. isRecovery, client, srcDataNode, datanode); //OP_WRITE_BLOCK

首先，proxyReply 和 in 不一样，这是因为发起请求的节点和提供数据的节点并不是同一个。写数据块发起请求方也提供数据，替换数据块请求方

不提供数据，而是提供了一个数据源（proxySource 参数），由 replaceBlock 发起一个拷贝数据块的请求，建立数据源。对于拷贝数据块操作，

isRecovery=false，client=””， srcDataNode=null。注意，我们在分析 BlockReceiver 是，讨论过 client=””的情况，就是应用于这种场景。

在创建 BlockReceiver 对象前，需要利用下面介绍的拷贝数据块的请求建立到数据源的 socket 连接并发送拷贝数据块请求。然

后通过 BlockReceiver.receiveBlock 接收数据。任务成功后将结果通知 notifyNamenodeReceivedBlock。

拷贝数据块的请求如图（操作码 84）。和读数据块操作请求类似，但是读取的是整个数据块，所以少了很多参数。

读数据块检验码的请求如图（操作码 85）。它能够读取某个数据块的检验和的 MD5 结果，实现的方法很简单。

Hadoop 源代码分析（一六）

通过上面的讨论，DataNode 上的读/写流程已经基本清楚了。我们来看下一个非主流流程，

DataBlockScanner 用于定时对数据块文件进行校验。类图如下：

剩余82页未读，继续阅读

ccqjs

粉丝: 1
资源: 7

Hadoop源码深度解析：HDFS与MapReduce核心组件

Hadoop介绍，HDFS和MapReduce工作原理

《hadoop-HDFS+MapReduce+Hive+Hbase快速入门》

基于hadoop的电商销售预测分析系统HDFS+MapReduce

基于hadoop的电商销售预测分析系统HDFS+MapReduce+springboot或springcloud+Echarts

HDFS+MapReduce+Hive十分钟快速入门

Hadoop快速入门：HDFS+MapReduce+Hive+HBase

十分钟快速入门Hadoop：HDFS+MapReduce+Hive+HBase

Hadoop快速入门：HDFS+MapReduce+Hive+HBase解析

Hadoop快速入门：HDFS+MapReduce+Hive+HBase实战

十分钟快速入门：Hadoop生态HDFS+MapReduce+Hive+HBase搭建指南

最新资源