Hadoop入门：理解HDFS数据块与元数据节点

需积分: 17 79 浏览量更新于2024-09-08 收藏 604KB DOC 举报

HDFS（Hadoop Distributed File System）是Apache Hadoop项目的核心组件，用于在分布式环境中大规模地存储和处理数据。HDFS的基本概念围绕数据块、元数据节点和数据节点展开。 1. 数据块 (Block)： - HDFS的基础存储单元是64MB的数据块，每个文件会被分割成多个这样的数据块来提高容错性和并行读写能力。 - 与传统文件系统相似，文件被分割存储，但不同之处在于，小文件不会占用整个数据块，这样能更有效地利用存储空间。 2. 元数据节点 (NameNode)： - NameNode负责管理文件系统的命名空间，它维护着文件和目录的元数据，如文件属性、数据块分布等。 - 元数据信息存储在命名空间镜像（Namespace Image）和修改日志（Edit Log）中，前者记录文件系统状态，后者记录所有操作历史。 - NameNode收集数据节点的元数据信息，但不存储实际数据，确保高可用性。 3. 数据节点 (DataNode)： - DataNode是实际存储数据的节点，它们响应NameNode的请求进行数据块的读写操作。 - 定期向NameNode汇报自身存储的块信息，保持数据一致性。 4. 从元数据节点 (Secondary NameNode)： - 作为辅助角色，Secondary NameNode定期合并NameNode的命名空间镜像和修改日志，减轻主节点压力，并备份重要信息，以备主节点故障时快速恢复。 5. 文件系统命名空间映像和修改日志： - 当客户端执行写操作时，改动首先记录在修改日志中。这些更改只有在NameNode确认后才会应用到命名空间映像，保证数据的一致性。通过理解HDFS的这些核心概念，学习者能够更好地设计和优化大规模数据存储和处理的Hadoop生态系统。掌握HDFS对于深入研究Hadoop技术栈，构建分布式应用程序以及大数据处理至关重要。

一、HDFS 的基本概念

1.1、数据块(block)

 HDFS(Hadoop Distributed File System)默认的最基本的存储单位是 64M 的数

据块。

 和普通文件系统相同的是，HDFS 中的文件是被分成 64M 一块的数据块存储的。

 不同于普通文件系统的是，HDFS 中，如果一个文件小于一个数据块的大小，并不

占用整个数据块存储空间。

1.2、元数据节点(Namenode)和数据节点(datanode)

 元数据节点用来管理文件系统的命名空间

o 其将所有的文件和文件夹的元数据保存在一个文件系统树中。

o 这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespace

image)及修改日志(edit log)

o 其还保存了一个文件包括哪些数据块，分布在哪些数据节点上。然而这些

信息并不存储在硬盘上，而是在系统启动的时候从数据节点收集而成的。

 数据节点是文件系统中真正存储数据的地方。

o 客户端(client)或者元数据信息(namenode)可以向数据节点请求写入或者

读出数据块。

o 其周期性的向元数据节点回报其存储的数据块信息。

 从元数据节点(secondary namenode)

o 从元数据节点并不是元数据节点出现问题时候的备用节点，它和元数据节

点负责不同的事情。

o 其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并，

以防日志文件过大。这点在下面会相信叙述。

o 合并过后的命名空间镜像文件也在从元数据节点保存了一份，以防元数据

节点失败的时候，可以恢复。

1.2.1、元数据节点文件夹结构

下载后可阅读完整内容，剩余5页未读，立即下载

tan___5

粉丝: 0
资源: 5

Hadoop入门：理解HDFS数据块与元数据节点

hadoop学习总结

Hadoop学习总结

【Hadoop离线基础总结】HDFS详细介绍

Hadoop学习总结之二：HDFS读写过程解析.doc

实验2常用的HDFS操作.doc

大数据技术基础实验报告-调用Java API实现HDFS操作.doc

数据存储实验2-熟悉常用的HDFS操作.doc（实验报告）

大数据技术之Hadoop（HDFS文件系统）.doc

Hadoop学习总结.doc

2大数据技术之Hadoop（HDFS文件系统）.doc

最新资源