HDFS架构详解：关键特性与工作模式解析

99 浏览量更新于2024-08-27 收藏 511KB PDF 举报

HDFS，全称Hadoop Distributed File System，是Apache Hadoop生态系统的核心组成部分，专为大规模分布式存储而设计。本文旨在为对HDFS有一定基础但尚存疑惑的读者提供深入理解其架构和设计的关键知识点。首先，当数据集规模超出单台物理机的存储能力时，HDFS通过将数据分散存储在多台独立的计算机上，实现分布式存储。这种设计允许处理海量数据，适合于流式数据访问，例如数据分析或批量处理，可以存储PB级别的数据。 HDFS的工作模式基于主从架构，由一个名称节点（NameNode）和多个数据节点（DataNode）组成。名称节点是整个系统的中心，负责维护文件系统的命名空间，包括目录结构和文件信息，这些信息以命名空间镜像文件和编辑日志的形式存储。数据节点负责实际的数据存储，它们接收和响应客户端的读写请求。数据复制是HDFS的重要特性，默认情况下，每个文件会被复制三份，分布在不同的数据节点上，以提高数据的可用性和容错性。这虽然增加了存储需求，但也提供了高数据吞吐量和冗余保护。此外，HDFS采用块的概念，每个文件被划分为固定大小的块，通常是128MB，这样有助于减少寻址开销，优化MapReduce等并行处理任务的性能。然而，HDFS并不适合对低延迟数据访问有严格要求的应用，因为它注重数据处理速度而非实时响应。文件数量受名称节点内存限制，过多的文件可能导致性能下降。HDFS文件系统仅支持单个写入，不支持在文件内部任意位置的修改，这对于需要频繁更新的小文件处理来说可能不太友好。存储空间回收是通过定期删除不再需要的副本来实现的，以释放空间。数据组织策略使得数据在磁盘上分布均匀，有助于提高数据访问效率。总结起来，HDFS是一个为大数据处理优化的分布式文件系统，它的设计重点在于处理大规模数据、提供高可用性和容错性，以及与MapReduce等计算框架的高效协同。对于希望深入了解HDFS工作原理和优化策略的用户，本文提供了一个全面而简洁的概述。

浅析浅析HDFS架构和设计架构和设计

hdfs是hadoop的分布式文件系统，即Hadoop Distributed Filesystem。下面主要讲下HDFS设计中的比较重要的点，使读者能

通过简短的文章一窥HDFS的全貌，适合对HDFS有一点了解，但是对HDFS又感到困惑的初学者。本文主要参考的是hadoop

3.0的官方文档。

当数据集的大小超过了一台物理机所能存储的能力时，就需要将它进行分区并存储到若干不同的独立的计算机上，其中管理跨

多台计算机存储的文件系统称为分布式文件系统。

使用HDFS的场景

HDFS的工作模式

文件系统命名空间（namespace）

数据复制

文件系统元数据的持久化

通讯协议

健壮性

数据组织

可访问性

存储空间回收

1、使用HDFS的场景

HDFS适合于以流式数据访问模式来存储超大的文件。即一次写入，多次读取，在数据集上长时间进行各种分析，每次分析都

涉及该数据集数据的大部分甚至全部，对于超大文件，hadoop目前以支持存储PB级数据。

HDFS并不适合要求低时间延迟数据访问的应用，因为HDFS是为高数据吞吐量应用而优化的，这就有可能以时间延迟大为代

价。

HDFS文件系统所能存储的文件总数受限于namenode的内存容量，根据经验，100百万的文件，且每个文件占一个数据块，

那至少需要300MB的内存。

目前hadoop文件可能只有一个writer,而且写操作总是将数据添加在文件末尾，不支持在文件的任意位置进行修改。

相对于普通文件系统的数据块，HDFS也有块的概念，默认是128MB，HDFS上的文件也被划分成块大小的多个分块，作为独

立的存储单元，不过HDFS中小于一个块大小的文件不会占据整个块的空间。如果没有特别指出，文中提到的块特指HDFS的

块。

为何HDFS的块如此之大，其目的是为了最小化寻址开销。这个数也不能设置的过大，mapreduce中的map任务通常一次只处

理一个块中的数据，因此如果任务数太少，作业的运行速度就会比较慢。

2、HDFS的工作模式

HDFS采用master/slave架构，即一个namenode(管理者)多个datanode(工作者)。

namenode负责管理文件系统的命名空间。维护着文件系统树和整个树内所有的文件和目录，这些信息都保存在两个文件中，

命名空间镜像文件和编辑日志文件。namenode也记录了每个文件中各个块所在的数据节点信息。datanode是文件系统的工作

节点，它们需要存储并检索数据块（受客户端或namenode调度），并定期向namenode发送它们所存储的块的列表。

如果没有namenode,文件系统将无法使用，因为我们不知道如何根据datanode的块重建文件，所以对namenode进行容错是非

常重要的。为此hadoop提供了两种机制。

第一种机制是备份那些组成文件系统元数据持久状态的文件。一般，在将持久化文件写入本地磁盘的同时，写入远程挂载的

NFS。

第二种方法是运行一个辅助namenode，这个辅助namenode定期通过编辑日志合并命名空间镜像，并在本地保存合并后的命

名空间镜像的副本，在namenode发生故障时启用。但是在主节点失效时，难免会丢失部分数据，这时可以把存储在NFS的

namenode元数据复制到辅助的namenode上作为新的namenode运行。这其中涉及到故障转移的机制。稍后会做一点分析。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38502292

粉丝: 5
资源: 965

HDFS架构详解：关键特性与工作模式解析

Hadoop+HDFS和MapReduce架构浅析

(hadoop HDFS 和 Mapreduce 架构浅析

Hadoop HDFS和MapReduce架构浅析.pdf

数字运政大数据管理平台功能架构浅析.zip

浅析云计算安全技术.pdf

浅析云计算及其关键技术.pdf

浅析云计算的五大关键技术.docx

浅析云计算支持下的数据挖掘算法及其应用.pdf

海量图片的分布式存储及负载均衡研究(浅析)

基于Hadoop的气象云储存与数据处理应用浅析.pdf

最新资源