Hadoop HDFS架构详解：超大文件存储与高可用设计

需积分: 9 106 浏览量更新于2024-07-15 收藏 998KB DOCX 举报

Hadoop分布式文件系统（HDFS）是Hadoop框架中的核心组件，专为大规模数据集提供分布式存储和处理服务。HDFS的设计目标是支持超大文件、流式数据访问、低成本、数据一致性、高吞吐率、易扩展以及高容错性。下面我们将深入剖析HDFS的架构和工作原理。首先，HDFS的核心概念是将大文件分割成固定大小的块，通常每个块大小为128MB，这是可配置的，如在Hadoop v2.7.7中。这种块的划分允许数据分布在多个DataNode节点上，每个节点负责存储一个或多个数据块的副本，以提高数据的冗余和可用性。默认情况下，HDFS会创建三个副本，以增强数据的安全性。当需要存储一个10GB的文件时，文件会被切分成80个块，并由NameNode（命名节点）进行管理。 NameNode作为全局名称空间的管理者，负责存储元数据，如文件块的位置和数量信息。它通过心跳机制监控DataNode的状态，并根据存储需求动态地分配块的存放位置。当所有数据块存储完毕后，DataNode会通知NameNode其成功存储的结果。对于非整数倍大小的最后一块，HDFS会将其作为一个单独的数据块处理，磁盘占用量以实际大小为准，确保精确度。为了防止因数据分布不均导致性能问题，可以在DataNode上配置多个磁盘目录，通过配置文件指定这些目录，如`dfs.datanode.data.dir`，可以指定`file:///hadoop/tmp/dfs/data1`和`file:///hadoop/tmp/dfs/data2`这样的路径。在生产环境中，为了应对故障恢复和提高可用性，除了基本的单副本存储，HDFS通常会设置多个副本。这不仅增强了数据的冗余，也简化了故障恢复过程，因为当某个DataNode失效时，可以从其他副本中恢复丢失的数据。 HDFS通过块式存储、元数据管理和冗余副本等设计策略，实现了大规模数据的高效存储和访问。理解HDFS的工作原理是深入学习大数据技术的基础，对后续的学习和项目实践具有重要意义。如果你希望了解更多关于Hadoop和大数据的知识，可以关注“学点儿编程”公众号，获取更多实用的干货文章。

第二步：NameNode 会记录当前待存储文件的分块信息，并根据 DataNode 各

个节点的存储情况，给出每个数据块的存储位置。

第三步：根据 NameNode 的分配策略，80 个数据块分别存储到对应的

DataNode 节点，并向 NameNode 汇报存储结果。



说明：

（1）上面示意图只是描述了每个数据块 1 个副本的存储情况，生产环境中为提

高数据的可用性，一般会设置 1 个以上的副本（默认是 3 份）。多副本存储思

路和上面思路类似。

（2）有朋友估计在想，如果不够 128MB 的整数倍怎么办。

HDFS 的处理思路是，最后一块仍然会作为一个独立的数据块，但磁盘的实际

占用以最后一块实际大小为准。

（3）每个 DataNode 可指定 1 个或多个磁盘目录，当指定多个磁盘目录时，随

着写入数据越来越多，容易出现各目录下数据不均衡的问题。为避免不均衡问

题，可参考以下配置策略：

 多目录配置方法

<property><name>dfs.datanode.data.dir</name><value>file:///$

{hadoop.tmp.dir}/dfs/data1,file:///${hadoop.tmp.dir}/dfs/data2</

value></property>

 hadoop 写入文件有两种策略：

剩余19页未读，继续阅读

arno_wzk

粉丝: 20
资源: 10

Hadoop HDFS架构详解：超大文件存储与高可用设计

sqoop-1.4.6.bin__hadoop-2.0.4-alpha.zip

sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

hadoop-hdfs-2.4.1.jar

hadoop-hdfs-1.docx

02-Hadoop-HDFS.docx

hadoop-hdfs-2.7.2.jar

hadoop-hdfs-2.2.0.jar

hadoop-hdfs-3.2.0.jar

hadoop-hdfs-2.7.7.jar

完全分布式搭建(VMware_Hadoop - Zookeeper - HBase).docx

最新资源