Hadoop HDFS：架构解析与设计重点

需积分: 11 62 浏览量更新于2024-09-12 收藏 460KB PDF 举报

"Hadoop分布式文件系统 - 架构与设计要点" Hadoop分布式文件系统（HDFS）是一种专为处理大规模数据而设计的分布式存储系统。它的设计目标和架构核心在于处理硬件错误、支持大数据处理、优化高吞吐量访问，并提供一种write-once-read-many的访问模型。一、前提和设计目标 1. 针对硬件故障的容错性：HDFS假设硬件错误是常态，因此构建了强健的错误检测和快速恢复机制。 2. 高吞吐量访问：适合流式读取和批量处理，牺牲部分低延迟访问以提高整体性能。 3. 支持大数据集合：文件通常在GB到TB之间，系统可存储数千万个文件。 4. write-once-read-many模型：文件写入后不修改，简化一致性问题，提高读取效率。 5. 计算向数据靠拢：通过将计算任务移动到数据附近，减少大规模数据移动的开销。 6. 软硬件平台的可移植性：适应不同的硬件和软件环境。二、Namenode和Datanode HDFS采用主从结构，由一个Namenode和多个Datanode组成： - Namenode：作为中心服务器，管理文件系统的命名空间和客户端访问，负责文件的创建、删除、重命名以及block到Datanode的映射。 - Datanode：每个节点一个，存储数据块，执行Namenode指令，如数据块的读写和复制。三、文件系统的namespace Namenode维护文件系统树状结构，确保文件和目录的唯一性，处理namespace的操作。四、数据复制文件被分割成多个block，每个block在集群中的多个Datanode上复制，通常默认为3份，提高数据可用性和容错性。五、文件系统元数据的持久化 Namenode的元数据（如文件名、文件位置等）定期保存到磁盘，确保系统重启后能恢复状态。六、通讯协议 HDFS使用特定的协议，如ClientProtocol和DatanodeProtocol，实现Namenode与客户端及Datanode之间的通信。七、健壮性通过心跳机制和BlockReport，Namenode可以监控Datanode的状态，及时发现并处理失效节点，保证数据的可靠性。八、数据组织文件的block按照一定的策略分布在Datanode上，如通过 rack-awareness 策略跨机架分配，提高网络效率。九、可访问性 HDFS提供POSIX-like接口，使得应用程序能够方便地读写数据，同时也支持Hadoop MapReduce等工具进行大数据处理。总结来说，HDFS是一个高度容错、高吞吐量的分布式文件系统，适合大规模数据分析和处理。其核心设计考虑了大数据处理的特性，如硬件故障的容忍、高并发的读取能力、数据的安全性和高效的数据访问模式。通过Namenode和Datanode的协同工作，实现了对大规模数据的高效管理和存储。

Hadoop 分布式文件系统：架构和设计要点

Hadoop 分布式文件系统：架构和设计要点 .......................................................................... 1

一、前提和设计目标 ....................................................................................................................... 1

二、Namenode 和 Datanode ........................................................................................................... 2

三、文件系统的 namespace ........................................................................................................... 3

四、数据复制 ................................................................................................................................... 3

五、文件系统元数据的持久化 ....................................................................................................... 5

六、通讯协议 ................................................................................................................................... 6

七、健壮性....................................................................................................................................... 6

八、数据组织 ................................................................................................................................... 7

九、可访问性 ................................................................................................................................... 8

一、前提和设计目标

1、硬件错误是常态，而非异常情况，HDFS 可能是有成百上千的 server 组成，任何

一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是 HDFS 的核心架构目标。

2、跑在 HDFS 上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；

比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。

3、HDFS 以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至

T 字节，一个单一 HDFS 实例应该能支撑数以千万计的文件。

4、 HDFS 应用对文件要求的是 write-one-read-many 访问模型。一个文件经过创

建、写，关闭之后就不需要改变。这一假设简化了数据一致性问题，使高吞吐量的数据访问

成为可能。典型的如 MapReduce 框架，或者一个 web crawler 应用都很适合这个模型。

5、移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越

近就越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据附近，比之将数据

移动到应用所在显然更好，HDFS 提供给应用这样的接口。

6、在异构的软硬件平台间的可移植性。

下载后可阅读完整内容，剩余8页未读，立即下载

ydlzk0

粉丝: 0
资源: 2

Hadoop HDFS：架构解析与设计重点

Hadoop分布式文件系统——翻译

高可用性的HDFS-Hadoop分布式文件系统深度实践.part1.rar

Hadoop分布式文件系统算法怎么写

hadoop如何把两个不同的本地文件复制到Hadoop分布式文件系统input/中

试论述Hadoop分布式文件系统中Hmaster和Hgionserver职责

Hadoop分布式文件系统（HDFS）

头哥大数据hadoop分布式文件系统

统计Hadoop分布式文件系统中指定目录下每个子目录的文件大小的命令

Hadoop分布式文件系统（HDFS）设计

最新资源