HDFS DataNode机制：存储、心跳与数据完整性

90 浏览量更新于2024-08-29 收藏 247KB PDF 举报

本文档主要探讨了Hadoop分布式文件系统(HDFS)中的DataNode工作机制及其数据存储特性，重点集中在以下几个方面： 1. **DataNode工作机制**： - DataNode将每个数据块以文件形式存储，包含数据文件和元数据文件，元数据包括数据块长度、校验和和时间戳，确保数据的完整性和一致性。 - 启动后，DataNode会向NameNode注册，成为集群的一部分，并定期（每小时）向NameNode汇报所有块信息。 - 心跳机制是每3秒一次，DataNode接收来自NameNode的命令，如复制数据块、删除数据等。若超过10分钟未接收到心跳，NameNode会认为节点不可用。 - 集群运行中允许动态添加和移除DataNode，但需保证数据的稳定性。 2. **数据完整性保障**： - DataNode在读取和写入数据时会进行校验和计算，确认数据块的完整性。如果校验和不符，表明数据可能已损坏。 - 客户端可以从其他可用的DataNode节点读取数据，并且DataNode在文件创建后会定期进行自我校验。 3. **掉线时限设置**： - 当DataNode失去与NameNode通信时，会经历一个超时阶段。默认情况下，超时时间是10分钟加上30秒，这是通过dfs.namenode.heartbeat.recheck-interval（默认5分钟）和dfs.heartbeat.interval（默认3秒）计算得出的。 4. **目录结构**： - DataNode的存储目录由系统自动创建，无需人工干预，不同于NameNode的管理方式。默认路径可能是"/kkb/install/hadoop-2.6"，但具体位置依赖于Hadoop的安装配置。本文详细解释了HDFS中DataNode的工作流程，强调了数据存储的细节、数据完整性检查以及节点失效处理机制。这对于理解HDFS的核心组件及其在大数据存储和管理中的作用至关重要。

大数据大数据-HDFS（七）（七）

DataNode工作机制以及数据存储工作机制以及数据存储

DataNode工作机制工作机制

1）一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时

间戳。

2）DataNode启动后向namenode注册，通过后，周期性（1小时）的向namenode上报所有的块信息。

3）心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某

个datanode的心跳，则认为该节点不可用。

4）集群运行中可以安全加入和退出一些机器

数据完整性数据完整性

1）当DataNode读取block的时候，它会计算checksum

2）如果计算后的checksum，与block创建时值不一样，说明block已经损坏。

3）client读取其他DataNode上的block.

4）datanode在其文件创建后周期验证checksum

掉线时限参数设置掉线时限参数设置

DataNode进程死亡或者网络故障造成datanode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超

时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：timeout = 2 *

dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval。而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分

钟，dfs.heartbeat.interval默认为3秒。需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位

为秒。

dfs.namenode.heartbeat.recheck-interval

300000

dfs.heartbeat.interval

和namenode不同的是，datanode的存储目录是初始阶段自动创建的，不需要额外格式化。

在/kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/datanodeDatas/current这个目录下查看版本号

[root@node01 current]# cat VERSION

#Thu Mar 14 07:58:46 CST 2019

storageID=DS-47bcc6d5-c9b7-4c88-9cc8-6154b8a2bf39

clusterID=CID-dac2e9fa-65d2-4963-a7b5-bb4d0280d3f4

cTime=0

datanodeUuid=c44514a0-9ed6-4642-b3a8-5af79f03d7a4

storageType=DATA_NODE

layoutVersion=-56

具体解释

（1）storageID：存储id号

（2）clusterID集群id，全局唯一

（3）cTime属性标记了datanode存储系统的创建时间，对于刚刚格式化的存储系统，这个属性为0；但是在文件系统升级之后，该值会更新到新的时间

戳。

（4）datanodeUuid：datanode的唯一识别码

（5）storageType：存储类型

（6）layoutVersion是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。

DataNode也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本。具体配置如下：

cd /kkb/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop

vim hdfs-site.xml

dfs.datanode.data.dir

file:///kkb/install/hadoop-2.6.0-cdh5.14.2/hadoopDatas/datanodeDatas

HDFS 的小文件治理的小文件治理

有没有问题有没有问题

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38626242

粉丝: 6
资源: 950

HDFS DataNode机制：存储、心跳与数据完整性

HDFS文件的查看

大数据--Hadoop HDFS

hadoop-hdfs-client-2.9.1-API文档-中文版.zip

尚硅谷大数据：Hadoop-HDFS详解

Hadoop-HDFS：初学者实践指南

手动搭建Hadoop集群：Hadoop-HDFS的详细安装教程

星环大数据平台HDFS：详解与实战

华为OBSA-HDFS使用指南：对接大数据计算与对象存储

大数据HDFS如何实现高可用性

大数据HDFS中快速恢复与故障处理

最新资源