Hadoop HDFS深度解析：大数据存储与容错机制

版权申诉

5星 · 超过95%的资源 186 浏览量更新于2024-09-13 收藏 732KB PDF 举报

Hadoop是一个开源的大数据处理框架，其主要由三个关键组件构成：HDFS（Hadoop Distributed File System）、MapReduce以及YARN（Yet Another Resource Negotiator）。本文将以HDFS作为核心焦点进行深入解析。首先，HDFS是Hadoop的核心组件，它是一个分布式文件存储系统，专为处理大规模数据而设计。HDFS的主要特点如下： 1. **大数据文件存储**：HDFS针对的是TB级别甚至PB级别的大文件，对于小文件的存储优势并不明显，因为其设计目标是高效地存储和管理海量数据。 2. **文件分块存储**：HDFS将每个大文件划分为多个固定大小的数据块（通常为64MB或128MB），然后将这些块分布在不同的DataNode节点上。这样的设计使得并行读取成为可能，极大地提高了数据访问速度。 3. **流式数据访问**：HDFS支持一次性写入、多次读取的模式，不支持文件内容的动态修改，仅允许在文件末尾追加新内容，这有助于保持数据的一致性和完整性。 4. **廉价硬件适用**：HDFS利用普通PC机构建分布式集群，通过低廉的硬件成本实现了大数据处理的能力，降低了运维成本。 5. **容错性**：考虑到硬件故障的常见性，HDFS采用冗余存储策略，即在一个文件块上创建多个副本，分散存储在不同的DataNode节点上。这样即使某个节点失效，仍可以从其他副本恢复数据，保证了系统的高可用性。 HDFS的管理主要由NameNode负责，它是整个文件系统的名称节点，承担着关键职责： - 维护文件系统的元数据，如目录树、文件与block的关系。 - 记录DataNode节点的心跳和block信息。 - NameNode通过EditsLog（日志文件）记录所有更改操作，确保系统的版本控制。 - 启动时，NameNode从FsImage（镜像文件）加载集群状态，并在安全模式下重建丢失的block位置信息。当NameNode面临单点故障时，可以通过以下方式解决： - 重启时，NameNode首先读取FsImage和EditsLog，合并并更新系统状态。 - DataNode会持续向NameNode发送心跳信息，提供实时的block位置信息。 - 通过新的EditsLog和FsImage，NameNode重建系统的完整性。 HDFS是Hadoop生态系统中的基石，它通过分布式的文件存储、数据块复制和容错机制，为大数据处理提供了可靠且高效的环境。理解并掌握HDFS的工作原理对深入理解和使用Hadoop至关重要。

Hadoop各组件详解（各组件详解（HDFS篇）篇）

一、一、Hadoop三大组件三大组件

1.HDFS 分布式文件存储系统

2.MapReduce 分布式离线计算框架

3.Yarn Hadoop资源调度器

1.HDFS

HDFS的设计特点是：的设计特点是：

1、大数据文件，非常适合上T级别的大文件或者一堆大数据文件的存储，如果文件只有几个G甚至更小就没啥意思了

2、文件分块存储，HDFS会将一个完整的大文件平均分块存储到不同计算器上，

它的意义在于读取文件时可以同时从多个主机取不同区块的文件，多主机读取比单主机读取效率要高得多得都。

3、流式数据访问，一次写入多次读写，这种模式跟传统文件不同，

它不支持动态改变文件内容，而是要求让文件一次写入就不做变化，要变化也只能在文件末添加内容。

4、廉价硬件，HDFS可以应用在普通PC机上，这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。

5、硬件故障，HDFS认为所有计算机都可能会出问题，为了防止某个主机失效读取不到该主机的块文件，

它将同一个文件块副本分配到其它某几个主机上，如果其中一台主机失效，可以迅速找另一块副本取文件

管理者：管理者：NameNode

1）作用）作用

1.维护整个文件系统的元数据/名字空间/目录树

2.维护每一个路径/文件所对应的block块信息

3.维护DataNode的心跳日志

4.客户端与DataNode之间的桥梁

2））NameNode元数据持久化的元数据持久化的2种形式种形式

1.EditsLog（日志文件）

对于文件系统的每一次更改，例如，增加文件，删除文件等操作都会被写入Edit Log

2.FsImage（镜像文件）

 集群最近一次关机前的状态（HDFS目录树），NameNode在启动时会加载镜像文件的信息

eg：持久化数据中不包括Block所在的节点列表，及文件的Block分布在集群中的哪些节点上，这些信息是在系统重启的时候，在安全模式下重新构建（通过DataNode做心跳，汇报

的Block信息）

3））NameNode启动过程发生了什么？启动过程发生了什么？

1、从硬盘读取FsImage 和EditLog文件

2、将EditLog文件中的所有操作信息写入FsImage中，产生一个新的FsImage文件，这一操作被称为 checkpoint

3、DataNode汇报心跳信息

4、产生一个新的空的EditLog文件

4））NameNode单点故障解决方案单点故障解决方案

在HDFS中，Namenode可能成为集群的单点故障，Namenode不可用时，整个文件系统是不可用的。 HDFS针对单点故障提供了以下2种解决机制：

1、备份持久化元数据备份持久化元数据

 将文件系统的元数据同时写到多个文件系统，例如同时将元数据写到本地文件系统及NFS。这些备份操作都是同步的、原子的

2、Secondary NameNode

 Secondary节点定期合并主NameNode的namespace image和edit log，避免edit log过大，通过创建检查点 checkpoint 来合并；它会维护一个合并后的namespace image副本，可

用于在Namenode完全崩溃时恢复数据。

Secondary Namenode通常运行在另一台机器，因为合并操作需要耗费大量的CPU和内存。其数据落后于Namenode，因此当Namenode完全崩溃时，会出现数据丢失。通常做法是

拷贝NFS中的备份元数据到Second Namenode，将其作为新的主Namenode

在HA（High Availability高可用性）中可以运行一个Hot Standby，作为热备份，在Active Namenode故障之后，替代原有Namenode成为Active Namenode。

工作者：工作者：DataNode

1）作用）作用

1.负责数据的存储与读写

2.周期性的向NameNode做心跳报告（节点状态、数据的状态和校验和）

3.执行数据的流水线复制

辅助管理者：辅助管理者：SecondaryNameNode

1）作用）作用

合并NameNode的Edits log和fsimage成新的fsimage，防止Edits log过大，加快集群二次启动的速度

2）工作流程）工作流程

日志与镜像的定期合并总共分五步：

1.SecondaryNameNode通知NameNode准备合并文件，此时NameNode节点产生edits.new，之后的所有操作日志写入edits.new中

2.SecondaryNameNode通过http get方式获取NameNode的fsimage与edits文件（在 SecondaryNameNode的current同级目录下可见到 temp.check-point或者previous-checkpoint目

录，这些目录中存储着从namenode拷贝来的镜像文件）

3.SecondaryNameNode将edits和fsimage加载到内存中进行合并操作，产生一个新的fsimage文件fsimage.ckpt

4.SecondaryNameNode用http post方式发送fsimage.ckpt至NameNode

5.NameNode将fsimage.ckpt与edits.new文件分别重命名为fsimage与edits，然后更新fstime，整个checkpoint过程到此结束。在新版本的hadoop中

（hadoop0.21.0）,SecondaryNameNode两个作用被两个节点替换， checkpoint node与backup node. SecondaryNameNode备份由三个参数控制fs.checkpoint.period控制周

期，fs.checkpoint.size控制日志文件超过多少大小时合并， dfs.http.address表示http地址，这个参数在SecondaryNameNode为单独节点时需要设置。

3）触发）触发secondarynameNode合并文件的条件合并文件的条件

1、时间维度，默认一小时合并一次；自定义需要添加如下配置进行修改

dfs.namenode.checkpoint.period

3600

2、次数维度，默认100万次合并一次；自定义需要添加如下配置进行修改

dfs.namenode.checkpoint.txns

1000000

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38609693

粉丝: 8
资源: 961

Hadoop HDFS深度解析：大数据存储与容错机制

Hadoop各组件详解（MapReduce篇）

Hadoop各个组件大概介绍

Hadoop各组件详解（Hive篇）

Hadoop各组件详解（Hbase篇 持续更新版）

Hadoop组件详解：HDFS、MapReduce与Hbase入门

Hadoop核心组件详解：HDFS

Hadoop 分布式存储系统 HDFS的实例详解

Hadoop项目详解：HDFS与MapReduce

Hadoop技术详解：HDFS数据块复制与分布

Hadoop架构详解：HDFS与YARN的功能与协作

最新资源

Hadoop各组件详解（Hbase篇持续更新版）