HDFS深度解析：架构设计与核心特性

3星 · 超过75%的资源需积分: 10 80 浏览量更新于2024-10-30 收藏 171KB PDF 举报

“Hadoop分布式文件系统：探讨其架构和设计要点” Hadoop分布式文件系统（HDFS）是一种专为处理大规模数据集而设计的开源文件系统。它的设计目标和架构特性使其成为大数据处理领域的基石。以下是对HDFS的详细解析：一、设计目标与前提 1. 高容错性：HDFS假定硬件故障频繁，因此其核心设计考虑了错误检测和快速自我修复机制。整个系统能够优雅地处理节点失败，确保服务的连续性。 2. 高吞吐量：HDFS面向批量处理，强调数据的流式读取，而非低延迟访问。这意味着它更适合大数据分析任务，而非实时查询。 3. 大规模存储：HDFS旨在支持存储数十亿个文件，每个文件的大小可能从几GB到TB不等。 4. 写一次，读多次模型：HDFS鼓励一次性写入数据，然后进行多次读取。这种模式简化了数据一致性问题，提高了读取效率，适用于批处理作业，如MapReduce。 5. 数据局部性：HDFS通过将计算任务调度到数据附近，减少数据传输的开销，提高效率。 6. 跨平台兼容性：HDFS采用Java实现，能够在各种软硬件平台上运行，保证了良好的可移植性。二、Namenode与Datanode HDFS采用主从（master/slave）架构，由Namenode和Datanode组成。Namenode作为中心节点，负责维护文件系统的命名空间，包括文件和目录的操作，以及文件块到Datanode的映射。Datanode是工作节点，它们存储实际的数据块，并在Namenode的控制下执行数据块的创建、删除和复制。在一个典型的部署中，Namenode运行在一个单独的服务器上，而集群中的其他机器每个运行一个Datanode实例。虽然一个机器可以运行多个Datanode，但这不是常规配置，因为这可能会增加单点故障的风险。三、文件分块与冗余文件在HDFS内部被划分为固定大小的块（通常是128MB或256MB），这些块被复制到多个Datanode上以提供容错能力。默认情况下，每个块都有三个副本，这样即使在一个或两个Datanode故障时，数据仍然是可用的。四、副本策略与故障恢复当某个Datanode故障时，Namenode会检测到这种情况并重新安排该节点上的数据块副本到其他健康的Datanode上，确保数据的完整性。这种动态的故障恢复机制是HDFS高可用性的关键。五、读写操作读操作通常从最近的或者数据最初写入的Datanode开始，利用数据局部性原则提高效率。写操作涉及与Namenode交互以确定块的位置，然后将数据顺序写入选定的Datanode。 Hadoop分布式文件系统通过其独特的架构和设计策略，解决了大数据处理中的存储、容错和性能问题，为大数据分析提供了强大的基础平台。

Hadoop 分布式文件系统：架构和设计要点

一、前提和设计目标

1、硬件错误是常态，而非异常情况，HDFS 可能是有成百上千的 server 组成，任何一个组件都有可能一

直失效，因此错误检测和快速、自动的恢复是 HDFS 的核心架构目标。

2、跑在 HDFS 上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问

的低延迟问题，更关键的在于数据访问的高吞吐量。

3、HDFS 以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至 T 字节，一个单一

HDFS 实例应该能支撑数以千万计的文件。

4、 HDFS 应用对文件要求的是 write-one-read-many 访问模型。一个文件经过创建、写，关闭之后就不需

要改变。这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。典型的如 MapReduce 框架，

或者一个 web crawler 应用都很适合这个模型。

5、移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在

数据达到海量级别的时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好，

HDFS 提供给应用这样的接口。

6、在异构的软硬件平台间的可移植性。

二、Namenode 和 Datanode

HDFS 采用 master/slave 架构。一个 HDFS 集群是有一个 Namenode 和一定数目的 Datanode 组成。

Namenode 是一个中心服务器，负责管理文件系统的 namespace 和客户端对文件的访问。Datanode 在

集群中一般是一个节点一个，负责管理节点上它们附带的存储。在内部，一个文件其实分成一个或多个

block，这些 block 存储在 Datanode 集合里。Namenode 执行文件系统的 namespace 操作，例如打开、

关闭、重命名文件和目录，同时决定 block 到具体 Datanode 节点的映射。Datanode 在 Namenode 的指挥

下进行 block 的创建、删除和复制。Namenode 和 Datanode 都是设计成可以跑在普通的廉价的运行 linux

的机器上。HDFS 采用 java 语言开发，因此可以部署在很大范围的机器上。一个典型的部署场景是一台

机器跑一个单独的 Namenode 节点，集群中的其他机器各跑一个 Datanode 实例。这个架构并不排除一

台机器上跑多个 Datanode，不过这比较少见。

下载后可阅读完整内容，剩余6页未读，立即下载

benny52317

粉丝: 0
资源: 3

HDFS深度解析：架构设计与核心特性

Hadoop分布式文件系统 架构和设计

Hadoop分布式文件系统：架构和设计要点.pdf

Hadoop分布式文件系统：架构与设计深度解析

Hadoop分布式文件系统-架构和设计要点

Hadoop分布式文件系统-架构和设计要点(翻译).pdf

Hadoop分布式文件系统-架构和设计要点[定义].pdf

Hadoop分布式文件系统架构和设计要点.pdf

"Hadoop分布式文件系统架构设计要点详解

Hadoop分布式计算详解：从入门到实践

Hadoop HDFS：架构解析与设计重点

最新资源

Hadoop分布式文件系统架构和设计