HDFS深度解析：架构设计与错误恢复

134 浏览量更新于2024-08-27 收藏 159KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Hadoop分布式文件系统：架构和设计要点" Hadoop分布式文件系统（HDFS）是Apache Hadoop项目的核心组件之一，旨在处理和存储大量数据。它的设计目标和架构特性使其特别适合大规模数据处理应用。一、设计目标 1. 高容错性：HDFS假设硬件故障频繁，因此其设计重点在于错误检测和快速自我恢复。通过冗余存储，当某个节点故障时，数据仍能被访问。 2. 高吞吐量：HDFS优化了批量数据处理，而不是追求低延迟访问。这使得它适合于大数据分析任务，如MapReduce。 3. 支持大数据：HDFS旨在存储GB至TB级别的大文件，并能容纳数千万个文件在一个实例中。 4. write-once-read-many模型：文件一旦写入并关闭，就不再修改，简化了数据一致性管理，保证了高效率的读取操作。 5. 计算向数据靠拢：HDFS允许计算靠近数据，减少大规模数据传输的开销，提高性能。 6. 跨平台兼容性：HDFS的设计考虑了在不同软硬件环境下的可移植性。二、HDFS架构 HDFS采用了主从结构（master/slave），由Namenode和Datanode组成。 - Namenode：作为中心服务器，它维护文件系统的命名空间（namespace）和文件块的映射信息。Namenode负责文件的创建、删除、重命名等操作，以及决定文件块如何分配到各个Datanode。 - Datanode：在每个节点上运行，管理本地存储的文件块。它们响应Namenode的指令，执行文件块的创建、删除和复制。Datanode还会定期向Namenode发送心跳信息，报告其状态和存储信息。 HDFS是用Java编写，因此可以在各种操作系统上运行。通常，Namenode部署在单独的机器上，而Datanode则在集群中的所有其他机器上运行，每个机器运行一个Datanode实例。虽然理论上一台机器可以运行多个Datanode，但实际部署中这种情况并不多见。在HDFS中，文件被分割成多个固定大小的块（默认128MB或256MB），这些块会被复制到多个Datanode上以确保容错性。通常，默认的复制因子是3，这意味着每个文件块都会在集群中的三个不同的Datanode上存在副本。总结来说，Hadoop分布式文件系统通过其独特的架构设计，实现了大规模数据存储、高容错性和高效的批处理能力，为大数据处理提供了坚实的基础。

资源详情

资源推荐

Hadoop分布式文件系统：架构和设计要点分布式文件系统：架构和设计要点

一、前提和设计目标一、前提和设计目标

1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检

测和快速、自动的恢复是HDFS的核心架构目标。

2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关

键的在于数据访问的高吞吐量。

3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑

数以千万计的文件。

4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写，关闭之后就不需要改变。这一假设简

化了数据一致性问题，使高吞吐量的数据访问成为可能。典型的如MapReduce框架，或者一个web crawler应用都很适合这个

模型。

5、移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别的

时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好，HDFS提供给应用这样的接口。

6、在异构的软硬件平台间的可移植性。

二、二、Namenode和和Datanode

HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务

器，负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个，负责管理节点上它们

附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。Namenode执行文件系统的

namespace操作，例如打开、关闭、重命名文件和目录，同时决定block到具体Datanode节点的映射。Datanode在Namenode

的指挥下进行block的创建、删除和复制。Namenode和Datanode都是设计成可以跑在普通的廉价的运行linux的机器上。

HDFS采用java语言开发，因此可以部署在很大范围的机器上。一个典型的部署场景是一台机器跑一个单独的Namenode节

点，集群中的其他机器各跑一个Datanode实例。这个架构并不排除一台机器上跑多个Datanode，不过这比较少见。

单一节点的Namenode大大简化了系统的架构。Namenode负责保管和管理所有的HDFS元数据，因而用户数据就不需要通过

Namenode（也就是说文件数据的读写是直接在Datanode上）。

三、文件系统的三、文件系统的namespace

HDFS支持传统的层次型文件组织，与大多数其他文件系统类似，用户可以创建目录，并在其间创建、删除、移动和重命名文

件。HDFS不支持user quotas和访问权限，也不支持链接（link)，不过当前的架构并不排除实现这些特性。Namenode维护文

件系统的namespace，任何对文件系统namespace和文件属性的修改都将被Namenode记录下来。应用可以设置HDFS保存的

文件的副本数目，文件副本的数目称为文件的 replication因子，这个信息也是由Namenode保存。

四、数据复制四、数据复制

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38582793

粉丝: 6
资源: 888

HDFS深度解析：架构设计与错误恢复

Hadoop分布式文件系统：架构和设计要点.pdf

Hadoop分布式文件系统-架构和设计要点

Hadoop分布式文件系统算法怎么写

试论述Hadoop分布式文件系统中Hmaster和Hgionserver职责

hadoop如何把两个不同的本地文件复制到Hadoop分布式文件系统input/中

Hadoop分布式文件系统（HDFS）设计

Hadoop分布式实例展示

使用分布式文件系统：使用分布式文件系统（如Hadoop HDFS）将数据分散存储在多个节点上，从而增加总的存储容量。

Hadoop分布式文件系统（HDFS）

HDFS（Hadoop分布式文件系统）与传统文件系统的区别

头哥大数据hadoop分布式文件系统

Hadoop分布式文件系统（HDFS）的优化技巧

hadoop分布式安装步骤

Hadoop分布式文件系统（HDFS）的特点和优势

将包含数值数据的文件存储到 Hadoop 分布式文件系统（HDFS）中。

设计一个包含分布式文件系统、分布式计算系统、分布式数据存储、一致性检查系统、数据备份与容错设计的系统

统计Hadoop分布式文件系统中指定目录下每个子目录的文件大小的命令

简述Hadoop分布式存储和计算框架？

Hadoop分布式安装和配置1.Hadoop分布式安装方式； 2.掌握Linux中JDK安装方法； 3.掌握Linux中Hadoop安装方法、步骤； 4.掌握SSH免秘钥配置。

最新资源