HDFS深度解析：构建高可靠性的分布式文件系统

160 浏览量更新于2024-08-31 收藏 1.67MB PDF 举报

"深入理解HDFS：Hadoop分布式文件系统" Hadoop分布式文件系统（HDFS）是Apache Hadoop项目的核心组件之一，旨在解决大规模数据存储和处理的问题。HDFS是为了解决传统网络文件系统（如NFS）的局限性而设计的，它通过将文件分布在多台计算机上，实现了高可用性和容错性。 1. HDFS概述 HDFS是一种高度容错的分布式文件系统，特别适合存储大型文件，如几百MB、GB乃至TB级别的数据。它支持流式数据访问模式，即一旦数据写入，就很少进行修改，而是频繁进行读取。这种设计使得HDFS能够高效地支持大数据分析任务，如MapReduce。HDFS可以在廉价的商业硬件上运行，降低了部署成本。 2. HDFS设计原则 - 存储大文件：HDFS的目标是处理大规模的数据，支持PB级的数据存储。 - 流式访问：数据处理模型通常是写入一次，多次读取，重视读取整个数据集的速度而非单个记录的访问速度。 - 商业硬件：HDFS设计时考虑了普通硬件的不可靠性，通过数据冗余和自动故障恢复来确保系统的稳定运行。 3. HDFS架构 - 主/从结构：HDFS由一个NameNode（主节点）和多个DataNode（从节点）组成。NameNode负责元数据管理，如文件系统的命名空间和文件块信息。DataNode则实际存储数据，并向NameNode和客户端报告存储块的状态。 - 数据冗余：HDFS通过复制数据块来保证可靠性，通常每个文件块有三个副本。如果某个DataNode故障，HDFS会自动将副本迁移到其他节点。 - 块大小：HDFS将大文件分割成固定大小的块，以便于分布和并行处理。通常，块大小为128MB或256MB。 4. 写入流程 - 客户端选择一个DataNode开始写入数据块。 - 当数据块写满时，客户端将该块的信息发送给NameNode，NameNode指示客户端将数据块的副本写入其他DataNodes。 - 完成所有副本的写入后，客户端通知NameNode，文件写入完成。 5. 读取流程 - 客户端从NameNode获取文件的块位置信息。 - 客户端直接从最近或最健康的DataNode读取数据，减少延迟。 - 如果读取的DataNode出现故障，客户端可以从其他副本中继续读取。 6. 故障恢复 - NameNode监控DataNode的状态，当检测到故障时，会从其他DataNode中重新分配文件块的副本。 - 如果NameNode故障，有备份的Secondary NameNode可以接管，确保服务不中断。 7. 扩展性 - HDFS通过增加更多的DataNode来扩展存储容量，通过增加更多的NameNode实例（通过HDFS Federation）来扩展元数据管理能力。总结，HDFS是为了解决大规模数据存储和处理需求而设计的，它提供了高可用性、容错性和可扩展性，是大数据领域不可或缺的基础工具。通过理解HDFS的设计原理和工作流程，我们可以更好地利用这个系统来处理和分析海量数据。

但是持久化数据中不包括Block所在的节点列表，及文件的Block分布在集群中的哪些节点上，这些信息是在系统重启的时候重

新构建（通过Datanode汇报的Block信息）。

在HDFS中，Namenode可能成为集群的单点故障，Namenode不可用时，整个文件系统是不可用的。HDFS针对单点故障提

供了2种解决机制：

1）备份持久化元数据

将文件系统的元数据同时写到多个文件系统，例如同时将元数据写到本地文件系统及NFS。这些备份操作都是同步的、原子

的。

2）Secondary Namenode

Secondary节点定期合并主Namenode的namespace image和edit log，避免edit log过大，通过创建检查点checkpoint来合

并。它会维护一个合并后的namespace image副本，可用于在Namenode完全崩溃时恢复数据。下图为Secondary

Namenode的管理界面：

Secondary Namenode通常运行在另一台机器，因为合并操作需要耗费大量的CPU和内存。其数据落后于Namenode，因此当

Namenode完全崩溃时，会出现数据丢失。通常做法是拷贝NFS中的备份元数据到Second，将其作为新的主Namenode。

在HA中可以运行一个Hot Standby，作为热备份，在Active Namenode故障之后，替代原有Namenode成为Active

Namenode。

Datanode

数据节点负责存储和提取Block，读写请求可能来自namenode，也可能直接来自客户端。数据节点周期性向Namenode汇报

自己节点上所存储的Block相关信息。

3.3 Block Caching

DataNode通常直接从磁盘读取数据，但是频繁使用的Block可以在内存中缓存。默认情况下，一个Block只有一个数据节点会

缓存。但是可以针对每个文件可以个性化配置。

作业调度器可以利用缓存提升性能，例如MapReduce可以把任务运行在有Block缓存的节点上。

用户或者应用可以向NameNode发送缓存指令（缓存哪个文件，缓存多久），缓存池的概念用于管理一组缓存的权限和资

源。

3.4 HDFS Federation

我们知道NameNode的内存会制约文件数量，HDFS Federation提供了一种横向扩展NameNode的方式。在Federation模式

中，每个NameNode管理命名空间的一部分，例如一个NameNode管理/user目录下的文件，另一个NameNode管理/share目

录下的文件。

每个NameNode管理一个namespace volumn，所有volumn构成文件系统的元数据。每个NameNode同时维护一个Block

Pool，保存Block的节点映射等信息。各NameNode之间是独立的，一个节点的失败不会导致其他节点管理的文件不可用。

客户端使用mount table将文件路径映射到NameNode。mount table是在Namenode群组之上封装了一层，这一层也是一个

Hadoop文件系统的实现，通过viewfs:协议访问。

3.5 HDFS HA

在HDFS集群中，NameNode依然是单点故障（SPOF）。元数据同时写到多个文件系统以及Second NameNode定期

checkpoint有利于保护数据丢失，但是并不能提高可用性。

剩余11页未读，继续阅读

weixin_38606404

粉丝: 3
资源: 874

HDFS深度解析：构建高可靠性的分布式文件系统

深入解析HDFS HA：Hadoop分布式文件系统实战指南

HDFS深度解析：Hadoop的高可靠分布式文件系统

HDFS：Hadoop分布式文件系统的核心理念与架构

hadoop-hdfs:Hadoop分布式文件系统hdfs代码分析

HDFS：Hadoop 分布式文件系统简介

HDFS：Hadoop分布式文件系统的详解

高可用性的HDFS：Hadoop分布式文件系统深度实践

高可用性的HDFS:Hadoop分布式文件系统深度实践

HDFS：Hadoop分布式文件系统详解与实践

理解HDFS：经典分布式文件系统详解

最新资源