HDFS原理详解：副本机制与系统架构

需积分: 50 171 浏览量更新于2024-09-07 收藏 584KB DOCX 举报

"本文主要介绍了HDFS(Hadoop Distributed File System)的基本原理，包括其特点、系统结构以及数据存储策略。HDFS是一个分布式文件系统，设计用于处理和存储大量数据，尤其适合大规模数据处理任务。其核心特性包括保存多个副本以提供容错能力，运行在低成本硬件上，以及通过将文件分割成固定大小的块进行存储。同时，文章指出HDFS不适合存储大量小文件，因为这会导致内存负担过重。" HDFS是Apache Hadoop项目的关键组件，它为分布式计算提供了可靠的数据存储基础。HDFS的核心设计理念是高可用性和容错性，通过在集群中的不同节点上保存数据的多个副本来实现。默认情况下，每个文件的每个数据块都会有三个副本，这样即使某个节点出现故障，系统也能自动恢复，保证服务的连续性。在HDFS的系统架构中，NameNode是核心管理节点，负责元数据的管理和维护。NameNode的内存中存储了fsimage和edits两部分信息。fsimage是文件系统的静态元数据快照，包含了文件系统的目录树和所有文件及目录的详细信息，如数据块位置、时间戳和权限等。edits则是记录了自fsimage创建以来的所有更新操作的日志，确保在NameNode启动时能够将最新的元数据状态加载到内存中。 DataNode是HDFS的工作者节点，它们实际存储数据块并执行读写操作。当客户端写入文件时，HDFS会根据预设的块大小（默认为64MB）将文件切分成多个块，并在不同的DataNode上分散存储，通常遵循“复制因子”策略，即每个数据块有三份副本，分别位于不同的机架上，以提高容错性和网络效率。 SecondaryNameNode并非NameNode的热备份，而是一个辅助角色，它定期合并fsimage和edits，减轻NameNode的负担，防止edits文件过大导致NameNode重启时元数据加载时间过长。然而，在Hadoop 2.x版本及以上，这个角色被 Federation 和 Checkpoint Node 替代，以提供更灵活和可靠的NameNode管理。 HDFS的这种设计特别适合大数据处理场景，因为它能够高效地处理大规模数据的读写操作，同时也允许并行计算。然而，由于HDFS优化了处理大文件的能力，对于大量小文件的存储并不理想，因为每个文件的元数据都需要在NameNode的内存中存储，大量的小文件会显著增加NameNode的内存压力，影响系统性能。 HDFS是为处理海量数据而设计的分布式文件系统，通过冗余副本、机架感知等策略保证了数据的安全性和可用性，但同时也需要注意其在处理小文件时的局限性。理解和掌握这些原理对于有效利用HDFS进行大数据分析和存储至关重要。

特点：

1. 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存 3 份。 2. 运行在廉

价的机器上。 3. 适合大数据的处理。HDFS 默认会将文件分割成 block，64M 为 1 个

block。然后将 block 按键值对存储在 HDFS 上，并将键值对的映射存到内存中。如果小文件

太多，那内存的负担会很重。 (笔记：HDFS 不适合小文件存储：小文件多，造成内存负担。)

系统结构：

NameNode：

namenode 内存中存储的是 = fsimage + edits。

fsimage：元数据镜像文件：包含（文件系统的目录树）文件的 indoe 信息。对于文件来说

包括了数据块描述信息、修改时间、访问时间等；对于目录来说包括修改时间、访问权限

控制信息(目录所属用户，所在组等)等

edits:元数据的操作日志（针对文件系统做的修改操作记录）：主要是在 NameNode 已经

启动情况下对 HDFS 进行的各种更新操作进行记录，HDFS 客户端执行所有的写操作都会

被记录到 edit 文件中。

在 NameNode 启动的时候，它会将 fsimage 文件中的内容加载到内存中，之后再执行 edits 文件中的

各项操作，使得内存中的元数据和实际的同步，存在内存中的元数据支持客户端的读操作。

存储地址：hdfs-site.xml 上的 dfs.name.dir 项，具体目录为$dfs.name.dir/current

/hadoop/hdfs/namenode/current

SecondaryNameNode：

小弟，分担大哥 namenode 的工作量。 SecondaryNameNode 负责定时默认 1 小时，从

namenode 上，获取 fsimage 和 edits 来进行合并，然后再发送给 namenode。减少

namenode 的工作量。

NameNode 的冷备份。

注意：在 hadoop2.x 版本，当启用 hdfs ha 时，将没有这一角色。

b 是 a 的冷备份，如果 a 坏掉。那么 b 不能马上代替 a 工作。但是 b 上存储 a 的一些信息，减

少 a 坏掉之后的损失。

DataNode：

Slave 节点，奴隶，干活的。 1. 存储 client 发来的数据块 block； 2. 执行数据块的读

写操作。

下载后可阅读完整内容，剩余6页未读，立即下载

不想长大的敏

粉丝: 1
资源: 8

HDFS原理详解：副本机制与系统架构

HDFS应用场景、原理、基本架构及使用方法

分布式存储系统中数据副本管理机制

Hadoop2.2.0中HDFS的高可用性实现原理.pdf )

HDFS原理图

Hadoop HDFS原理

HDFS原理、架构与特性介绍

6HDFS原理篇.zip

Hadoop HDFS原理分析，技术详解

分布式文件系统HDFS原理与操作

HDFS原理和体系结构.pptx

最新资源