Hadoop分布式文件系统HDFS详解及角色解析

需积分: 0 189 浏览量更新于2024-08-04 收藏 1.73MB DOCX 举报

"分布式文件系统-HDFS1" Hadoop是一个开源框架，主要由分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce编程模型组成，为大数据处理提供了一个可靠的、可扩展的分布式计算环境。Hadoop的核心优势在于其高容错性和高伸缩性，使得用户能够在普通硬件上构建大规模的分布式系统，有效利用集群的计算和存储资源。 HDFS，全称为Hadoop分布式文件系统，是Hadoop生态中的关键组件，设计目标是提供高吞吐量的数据访问，适合大规模数据集的批量处理。HDFS遵循主从结构，由三个主要角色构成：NameNode、Secondary NameNode和DataNode。 NameNode是HDFS的主节点，负责管理文件系统的命名空间，维护文件到数据块的映射关系，处理客户端的读写请求，并负责副本策略的配置。NameNode保存的数据包括fsimage（元数据镜像文件，记录了文件系统的所有目录和文件信息）和fsedits（元数据的操作日志，记录所有对文件系统的改动）。 Secondary NameNode并非NameNode的热备份，而是辅助角色，它定期与NameNode同步，合并fsimage和fsedits，减少NameNode重启时恢复元数据的时间，防止单点故障风险。 DataNode是HDFS的从节点，负责实际的数据存储。每个DataNode都会接收来自客户端或NameNode的数据块，并执行读写操作。DataNode会向NameNode报告其持有的数据块信息，同时执行NameNode指派的复制任务，以保持数据的冗余和可用性。 MapReduce是Hadoop的并行计算模型，由JobTracker和TaskTracker组成。JobTracker负责作业调度，管理TaskTracker，分配Map任务和Reduce任务，监控任务状态，并在TaskTracker失败时重新分配任务。TaskTracker运行在DataNode上，执行JobTracker分配的任务，既可以处理数据，也可以执行计算。 Hadoop通过HDFS实现了数据的分布式存储，通过MapReduce实现了数据的分布式处理，二者结合，构建了一套完整的分布式计算解决方案。Hadoop的这种设计使得它可以高效地处理PB级别的大数据，广泛应用于互联网行业的数据分析、日志处理、推荐系统等领域。了解并掌握Hadoop的HDFS和MapReduce，对于从事大数据处理的IT专业人士至关重要。

概述

以 HDFS 和 MapReduce 为核心的 hadoop 为用户提供了系统底层细节透明的

分布式基础架构。利用 HDFS 的高容错性、高伸缩性等的点，用户可把 hadoop

部署在廉价的机器上，形成分布式系统；MapReduce 分布式编程模型允许用户在

不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用

hadoop 轻松的组织计算机资源，搭建自己的分布式计算平台，并且充分利用集

群的计算和存储能力。

HDFS：实现分布式存储的底层的支持；

MapReduce：实现分布式并行任务处理的程序支持。

HDFS

https://www.cnblogs.com/laov/p/3434917.html

HDFS 使应用程序流式的访问集群中的数据集，HDFS 被设计成适合进行批

处理，而不是用户交互式处理。它重视的是数据的吞吐量，而不是数据访问的反

应速度。

HDFS 也是采用 Master 和 Slave 结构，在系统中分为 NameNode 、

SecondaryNameNode 和 DataNode 这三个角色。

NameNode

也称为 Master 节点。在集群中的主要任务有：管理数据块映射；处理客户

端的读写请求；配置副本策略；管理 HDFS 的名称空间。

SecondaryNameNode

从命名就可以看出在系统中的作用，主要重要是分担 NameNode 的工作量，

是作为 NameNode 的冷备份，合并 fsimage（元数据镜像文件，是文件系统的目

录树）和 fsedits（元数据的操作日志）然后再发给 namenode。

Commented [ZZ1]: 但是 hadoop 依然是受限的，主要是

因为 MapReduce 计算框架，并不是所有的任务都可以使

用 MapReduce 这个框架来计算（比如 Fibonacci 数列，

这种数据前后依赖的）。而 HDFS 相比以前的存储还是

有很大的进步，在 HDFS 之前出现的云存储系统只解决

的存储的问题，比如 NFS，这些系统只起到了网络磁盘

的作用，是没有考虑分布式、容错等等的，而 HDFS 这

些天生就带有分布式的特点，冗余数据、容灾等等。

下载后可阅读完整内容，剩余9页未读，立即下载

阿玫小酱当当囧

粉丝: 19
资源: 324

Hadoop分布式文件系统HDFS详解及角色解析

第3章-分布式文件系统HDFS.pdf

分布式存储系统-HDFS.docx

hadoop-hdfs:Hadoop分布式文件系统hdfs代码分析

3 分布式文件系统：3-HDFS JAVA接口03FileSystem目录.pptx

Hadoop-HDFS-基于Hadoop的hdfs-分布式文件系统架构

Hadoop分布式文件系统-架构和设计要点

分布式文件系统hdfs - 副本.zip

Hadoop+分布式文件系统（HDFS）简介

一种分布式文件系统—HDFS.pdf

Hadoop分布式文件系统(HDFS)运行测试

最新资源