Hadoop源码精析：HDFS模块详解与关键功能研究

5星 · 超过95%的资源 | 下载需积分: 9 | PDF格式 | 1.84MB | 更新于2024-07-25 | 58 浏览量 | 举报

1 收藏

在本篇文章中，作者深入剖析Hadoop源代码，专注于HDFS（Hadoop分布式文件系统）部分的讲解。首先，作者明确分析目标：简化复杂性，专注于构建一个能够运行的基本HDFS版本，不涉及系统升级细节，同时强调理解和模块间交互关系，从外部接口和内部实现两方面进行探讨。文章旨在帮助读者从使用者的角度理解模块功能，并寻找具有研究价值的代码段，如块放置策略和MapReduce调度策略。文章详细介绍了Hadoop的主要包及其功能： 1. `tool` 包提供了实用的命令行工具，如DistCp和archive，用于数据管理和操作。 2. `mapreduce` 是Hadoop的MapReduce实现模块，支持并行计算任务的调度和执行。 3. `filecache` 用于提高MapReduce对HDFS数据的访问速度，通过本地缓存优化性能。 4. `fs` 提供了文件系统的抽象接口，支持多种文件系统的一致性访问。 5. `hdfs` 实现了Hadoop的核心分布式文件系统功能，负责存储和管理大量数据。 6. `ipc` 是一个简单的RPC（远程过程调用）实现，利用io包的编码和解码功能。 7. `io` 包负责数据的序列化和网络传输，确保数据在不同节点间的高效交换。 8. `net` 模块封装网络功能，如DNS查询和套接字通信。 9. `security` 管理用户和用户组信息，涉及权限管理和认证。 10. `conf` 存储系统的配置参数，允许灵活调整系统行为。 11. `metrics` 收集和展示系统运行统计信息，有助于监控和管理。 12. `util` 包含各种工具类，简化开发者的日常任务。 13. `record` 自动根据DDL生成编解码函数，支持C++和Java编程。 14. `http` 基于Jetty的HTTPServlet，提供Web界面，让用户查看文件系统状态和日志。文章参考了LinuxIDC.com网站的一些技术博客，但并未详述所有细节，特别是NameNode部分的分析仍处于初级阶段。总体上，本文是对Hadoop HDFS源代码的深入解读，旨在帮助读者理解系统架构和关键组件的工作原理，为后续的研究和开发提供有价值的信息。

replication)

生成该块的元数据，BlockInfo 类型的对象。

DatanodeDescriptor

getDatanode(int index)

获得该块的第 index 个 Datanode 的信息，返回

DatanodeDescriptor 类型的对象

private int ensureCapacity(int

num)

private int getCapacity()

获的块的所有的副本个数，因为可能会增大副本个数

private int ensureCapacity(int

num)

多增加 num 个单元

上面的图，给出了类型是 object 的 triplets 数组，如果一个块设置的副本个数是 3，那么该块的 3 个相

应的元数据信息 BlockInfo 可以通过 triplets[index*3]来访问。

BlockInfo 类写得好像很怪异，不知道为什么这么写？应该很简单，用一个 list 结构保存块的所有的元数据

信息就可以了，好像在实现上用了一个内部的数组来实现链表的功能？

BlockMap 类

成员变量与方法含义

private Map<Block, BlockInfo> map = new

HashMap<Block, BlockInfo>()

哈希表，key 是 block，value 是 BlockInfo，即块的元

数据。

类（从上到下依次继承）用途位置

DatanodeID 配置信息 org.apache.hadoop.hdfs.protocol 包下

DatanodeInfo 进一步，增加了一些动态信息 org.apache.hadoop.hdfs.protocol 包下

DatanodeDescriptor 再进一步，包含了 DataNode 上一

些 Block 的动态信息。

org.apache.hadoop.hdfs.server.namenode

包下

 DatanodeDescriptor 类

保存指定 DataNode 的状态（如可用的存储空间大小、上次的更新时间等）、维护 DataNode 上的块。

内存中的数据结构，并不持久化到 fsImage 中，并且只在 NameNode 内部使用。

DatanodeDescriptor 类内部有两个内部类：BlockTargetPair 和 BlockQueue

BlockTargetPair 保存 Block 和对应 DatanodeDescriptor 的关联

成员变量含义

public final Block block

public final DatanodeDescriptor[]

targets

BlockQueue 是 BlockTargetPair 队列。

private final Queue<BlockTargetPair> blockq = new LinkedList<BlockTargetPair>();

www.linuxidc.com

Linux公社(LinuxIDC.com) 是包括Ubuntu,Fedora,SUSE技术，最新IT资讯等Linux专业类网站。

成员变量含义

private volatile BlockInfo blockList =

null

该 Datanode 上包含的数据块元数据的列表

protected boolean isAlive = false

private BlockQueue replicateBlocks = new

BlockQueue()

该 DataNode 上正在复制（replicateBlocks）的块

private BlockQueue recoverBlocks = new

BlockQueue()

该 DataNode 上正在 Lease 恢复（recoverBlocks）

的 Block

private Set<Block> invalidateBlocks = new

TreeSet<Block>()

该 DataNode 上已经失效的 Block

private int currApproxBlocksScheduled

private int prevApproxBlocksScheduled = 0;

private long lastBlocksScheduledRollTime

= 0;

private static final int

BLOCKS_SCHEDULED_ROLL_INTERVAL

600*1000;

10 分钟

成员方法含义

public DatanodeDescriptor(DatanodeID

nodeID, String networkLocation,

String hostName,

long capacity,

long dfsUsed,

long remaining,

int xceiverCount)

Capacity：datanode 的容量，包括非 DFS 使用

的空间。

dfsUsed：datanode 中被 DFS 使用的容量。

Remaining：datanode 剩下的容量。

xceiverCount ： datanode 中数据传输的

xceiverCount 次数。？

DatanodeDescriptor 提供一系列方法，用于操作上面保存的队列和集合。也提供 get*Command 方法，用于生

成发送到 DataNode 的命令。

当 NameNode 收到 DataNode 对现在管理的 Block 状态的汇报是，会调用 reportDiff，找出和现在 NameNode

上的信息差别，以供后续处理用。

readFieldsFromFSEditLog 方法用于从日志中恢复 DatanodeDescriptor。

前面我们提过关系：文件名  数据块持久化在磁盘上，所有对目录树的更新和文件名  数据块关系的修

改，都必须能够持久化。为了保证每次修改不需要从新保存整个结构，HDFS 使用操作日志，保存更新。

现在我们可以得到 NameNode 需要存储在 Disk 上的信息了，包括：

[hadoop@localhost dfs]$ ls -R name

name:

current image in_use.lock

name/current:

edits fsimage fstime VERSION

name/image:

fsimage

www.linuxidc.com

Linux公社(LinuxIDC.com) 是包括Ubuntu,Fedora,SUSE技术，最新IT资讯等Linux专业类网站。

剩余45页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

haiyuanstick

粉丝: 0

Hadoop源码精析：HDFS模块详解与关键功能研究

Hadoop源代码分析之HDFS篇.

hadoop源码分析-HDFS部分

Hadoop源代码解析：HDFS与MapReduce

Hadoop源代码解析：HDFS与MapReduce入门

Hadoop源码解析：HDFS与MapReduce核心剖析

hadoop源码分析-HDFS&MapReduce

Hadoop源码深度解析：HDFS与MapReduce

深入解析Hadoop源代码：从HDFS到MapReduce

深入解析Hadoop源代码：HDFS与MapReduce

Hadoop源码深度解析：HDFS与MapReduce核心组件

最新资源