Hadoop HDFS架构设计与读写流程解析

需积分: 9 118 浏览量更新于2024-09-11 1 收藏 166KB DOCX 举报

"HDFS构架设计和读写流程" Hadoop Distributed FileSystem（HDFS）是一种分布式文件系统，专为处理大规模数据集而设计。它旨在将超大型数据集分散存储在集群中的普通商用计算机上，同时确保高可靠性和高吞吐量。HDFS的核心设计理念包括对超大文件的支持、流式数据访问、容错机制、简单的一致性模型以及计算向数据的移动。设计前提和目标： 1. 大文件支持：HDFS设计时考虑了GB级别的文件，能扩展到数以千计的节点，支持数千万文件。 2. 流式访问：适合批处理而非交互式应用，强调高吞吐量而非低延迟。 3. 容错能力：通过冗余备份提供高可用性。 4. 一致性模型：采用一次写入多次读取（WORM）策略，文件一旦写入，不频繁变动。 5. 计算与数据亲和性：允许应用程序计算靠近数据的位置，提高效率。 6. 平台兼容性：适应多种硬件和软件环境。不适合的场景： 1. 大量小文件：小文件会导致NameNode内存负担过重。 2. 低延迟访问：HDFS优化了大数据传输，而非快速响应。 3. 多用户写入和任意修改：HDFS支持单一写入者，不适合多用户同时修改同一文件。 HDFS架构设计： HDFS由NameNode、SecondaryNameNode和DataNode三个主要组件构成。NameNode作为主节点负责元数据管理，SecondaryNameNode辅助NameNode进行定期备份，DataNode则是实际存储数据的从节点。数据块： HDFS文件被分割成固定大小的数据块，默认为64MB。这个大小是为了平衡寻址时间和传输时间，提高效率。数据块会以多个副本（默认3个）分布在不同DataNode上，以实现容错。这样设计的好处包括： - 支持超大文件，无需担心单个节点容量不足。 - 简化文件系统的复杂性，便于管理和扩展。读写流程： 1. 写入：客户端将文件分成数据块，然后将每个块发送到DataNode，同时将元数据发送给NameNode。NameNode记录文件块的位置信息。 2. 读取：当读取文件时，客户端向NameNode查询文件块位置，然后直接从相应的DataNode读取数据。总结来说，HDFS通过其独特的架构和设计原则，成功地解决了大数据存储和处理的问题，成为了大数据分析领域的基础工具。然而，对于特定的应用场景，如需要低延迟访问或处理大量小文件，HDFS可能不是最佳选择。

HDFS 构架设计和读写流程

概述：HDFS 即 HadoopDistributed File System 分布式文件系统，它的设计目标是

把超大数据集存储到分布在网络中的多台普通商用计算机上，并且能够提供高可靠性和高

吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂，因为它要引入网络编程，分

布式文件系统要容忍节点故障也是一个很大的挑战。

设计前提和目标

1. 专为存储超大文件而设计：hdfs 应该能够支持 GB 级别大小的文件；它应该能够

提供很大的数据带宽并且能够在集群中拓展到成百上千个节点；它的一个实例应该

能够支持千万数量级别的文件。

2. 适用于流式的数据访问：hdfs 适用于批处理的情况而不是交互式处理；它的重点

是保证高吞吐量而不是低延迟的用户响应

3. 容错性：完善的冗余备份机制

4. 支持简单的一致性模型：HDFS 需要支持一次写入多次读取的模型，而且写入过程

文件不会经常变化

5. 移动计算优于移动数据：HDFS 提供了使应用计算移动到离它最近数据位置的接口

6. 兼容各种硬件和软件平台

不适合的场景

1. 大量小文件：文件的元数据都存储在 NameNode 内存中，大量小文件会占用大量

内存。

2. 低延迟数据访问：hdfs 是专门针对高数据吞吐量而设计的

3. 多用户写入，任意修改文件

hdfs 架构设计

HDFS 主要由 3 个组件构成，分别是 NameNode、SecondaryNameNode 和

DataNode，HSFS 是以 master/slave 模式运行的，其中

NameNode、SecondaryNameNode 运行在 master 节点，DataNode 运行 slave 节

点。

数据块

磁盘数据块是磁盘读写的基本单位，与普通文件系统类似，hdfs 也会把文件分块来存储。

hdfs 默认数据块大小为 64MB，磁盘块一般为 512B，hdfs 块为何如此之大呢？块增大可

以减少寻址时间与文件传输时间的比例，若寻址时间为 10ms，磁盘传输速率为

100MB/s，那么寻址与传输比仅为 1%。当然，磁盘块太大也不好，因为一个

MapReduce 通常以一个块作为输入，块过大会导致整体任务数量过小，降低作业处理速

度。

数据块是存储在 DataNode 中的，为了能够容错数据块是以多个副本的形式分布在集群中

的，副本数量默认为 3，后面会专门介绍数据块的复制机制。

下载后可阅读完整内容，剩余8页未读，立即下载

Nemo_Wang'

粉丝: 0
资源: 1

Hadoop HDFS架构设计与读写流程解析

HDFS原理图

《Hadoop大数据技术与应用》-HDFS常用方法和MapReduce程序.docx

Hadoop存储系统HDFS的文件是分块存储.docx

bash: hdfs: 未找到命令...

Hadoop中下载文件linux.docx

在hdfs上执行start-all.sh时，发生如下错误，请改正ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.

Path does not exist on HDFS or WebHDFS is disabled. Please check your path or enable WebHDFS

org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:2315)

最新资源