HDFS深度解析：架构设计与核心特性

146 浏览量更新于2024-08-27 收藏 159KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Hadoop分布式文件系统(HDFS)的设计目标是应对大规模数据处理，强调高容错性和高吞吐量。它的核心架构目标包括错误检测和快速恢复、流式读取、大数据集支持、write-once-read-many模型以及计算向数据移动。HDFS采用主从结构，由Namenode和Datanode组成，Namenode管理文件系统命名空间和客户端访问，Datanode负责数据存储和管理。文件被分割成块存储在Datanode上，Namenode维护块的映射信息。HDFS是用Java开发的，确保跨平台兼容性。" Hadoop分布式文件系统（HDFS）是为了解决大规模数据处理需求而设计的，它假设硬件故障是常见的，因此其架构重点在于错误检测和快速自动恢复。这种设计理念使得HDFS能够容忍服务器故障，并保持服务的连续性。 HDFS上的应用程序通常执行批量处理任务，侧重于数据的流式读取和高吞吐量，而不是低延迟。这种特性使得HDFS非常适合大数据分析，如MapReduce框架，其中大量数据需要被并行处理。文件大小通常在GB到TB之间，单个HDFS实例应能支持数千万个文件，满足大数据存储需求。 HDFS遵循write-once-read-many的访问模式，这意味着文件一旦写入并关闭，就不再更改。这种模式简化了数据一致性问题，有助于实现高效率的数据访问。例如，网页爬虫应用，它们需要大量存储和检索网页，而不需要频繁修改已抓取的数据。 HDFS的设计还强调了计算向数据移动的原则，即为了提高效率，计算应该在数据所在的位置进行，而不是将大量数据传输到计算节点。这一策略减少了网络带宽的需求，尤其在处理海量数据时更为重要。系统架构上，HDFS采用主从（Namenode-Datanode）架构。Namenode作为中心服务器，负责文件系统的命名空间管理、文件操作和block的映射。Datanode则分布在整个集群中，每个节点管理自己的存储，执行block的存储和复制。Namenode通过心跳机制与Datanode通信，监控其状态，并在需要时执行数据恢复操作。由于HDFS是用Java编写的，它可以跨各种不同的硬件和操作系统平台运行。通常，Namenode在一个独立的节点上运行，而集群中的其他机器上运行Datanode。尽管不常见，但一台机器上也可以运行多个Datanode实例。 HDFS是一个为大规模分布式计算设计的、具有高容错性和高吞吐量的文件系统，其核心设计原则和架构特征使其成为大数据处理的首选解决方案。

资源详情

资源推荐

Hadoop分布式文件系统：架构和设计要点分布式文件系统：架构和设计要点

一、前提和设计目标一、前提和设计目标

1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检

测和快速、自动的恢复是HDFS的核心架构目标。

2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关

键的在于数据访问的高吞吐量。

3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑

数以千万计的文件。

4、 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写，关闭之后就不需要改变。这一假设简

化了数据一致性问题，使高吞吐量的数据访问成为可能。典型的如MapReduce框架，或者一个web crawler应用都很适合这个

模型。

5、移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别的

时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好，HDFS提供给应用这样的接口。

6、在异构的软硬件平台间的可移植性。

二、二、Namenode和和Datanode

HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务

器，负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个，负责管理节点上它们

附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。Namenode执行文件系统的

namespace操作，例如打开、关闭、重命名文件和目录，同时决定block到具体Datanode节点的映射。Datanode在Namenode

的指挥下进行block的创建、删除和复制。Namenode和Datanode都是设计成可以跑在普通的廉价的运行linux的机器上。

HDFS采用java语言开发，因此可以部署在很大范围的机器上。一个典型的部署场景是一台机器跑一个单独的Namenode节

点，集群中的其他机器各跑一个Datanode实例。这个架构并不排除一台机器上跑多个Datanode，不过这比较少见。

单一节点的Namenode大大简化了系统的架构。Namenode负责保管和管理所有的HDFS元数据，因而用户数据就不需要通过

Namenode（也就是说文件数据的读写是直接在Datanode上）。

三、文件系统的三、文件系统的namespace

HDFS支持传统的层次型文件组织，与大多数其他文件系统类似，用户可以创建目录，并在其间创建、删除、移动和重命名文

件。HDFS不支持user quotas和访问权限，也不支持链接（link)，不过当前的架构并不排除实现这些特性。Namenode维护文

件系统的namespace，任何对文件系统namespace和文件属性的修改都将被Namenode记录下来。应用可以设置HDFS保存的

文件的副本数目，文件副本的数目称为文件的 replication因子，这个信息也是由Namenode保存。

四、数据复制四、数据复制

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38556822

粉丝: 2
资源: 974

HDFS深度解析：架构设计与核心特性

Hadoop分布式文件系统：架构和设计要点.pdf

Hadoop分布式文件系统-架构和设计要点

Hadoop分布式文件系统算法怎么写

试论述Hadoop分布式文件系统中Hmaster和Hgionserver职责

hadoop如何把两个不同的本地文件复制到Hadoop分布式文件系统input/中

Hadoop分布式文件系统（HDFS）设计

Hadoop分布式实例展示

使用分布式文件系统：使用分布式文件系统（如Hadoop HDFS）将数据分散存储在多个节点上，从而增加总的存储容量。

Hadoop分布式文件系统（HDFS）

HDFS（Hadoop分布式文件系统）与传统文件系统的区别

头哥大数据hadoop分布式文件系统

Hadoop分布式文件系统（HDFS）的优化技巧

hadoop分布式安装步骤

Hadoop分布式文件系统（HDFS）的特点和优势

将包含数值数据的文件存储到 Hadoop 分布式文件系统（HDFS）中。

设计一个包含分布式文件系统、分布式计算系统、分布式数据存储、一致性检查系统、数据备份与容错设计的系统

统计Hadoop分布式文件系统中指定目录下每个子目录的文件大小的命令

简述Hadoop分布式存储和计算框架？

Hadoop分布式安装和配置1.Hadoop分布式安装方式； 2.掌握Linux中JDK安装方法； 3.掌握Linux中Hadoop安装方法、步骤； 4.掌握SSH免秘钥配置。

最新资源