Hadoop HDFS详解：概念、特性与操作

需积分: 0 200 浏览量更新于2024-08-05 收藏 1.93MB PDF 举报

"HDFS详解，包括HDFS的概念、特性、系统组成、副本存放策略、路由规则、命令行接口、Java接口和工作原理。" HDFS，全称Hadoop Distributed File System，是Apache Hadoop项目的核心组件之一，是一个高度可扩展的分布式文件系统。它的设计目标是处理和存储大规模数据集，尤其适用于那些不适合在传统的关系型数据库中处理的大数据应用场景。HDFS遵循“分而治之”的原则，将大文件分割成多个块，并在多台服务器上分布式存储，从而实现并行处理。 HDFS有两个主要的角色：NameNode和DataNode。NameNode作为主节点，负责管理文件系统的元数据，包括文件的目录结构、文件到数据块的映射以及数据块的位置信息。DataNode则是从节点，它们实际存储数据块，并向NameNode报告存储状态。 HDFS的重要特性包括： 1. 文件分块存储：每个文件被分割成固定大小的数据块，通常默认为128MB，以适应网络传输和并行处理。 2. 统一命名空间：通过目录树结构，客户端可以像操作本地文件系统一样访问HDFS上的文件。 3. 多副本存储：文件的每个数据块都有多个副本，以提高容错性和可用性，副本数量可通过配置项`dfs.replication`调整。 4. 一次写入，多次读取：HDFS设计时考虑的是批处理场景，不支持文件的频繁修改，一旦文件写入完成，就不允许修改。 HDFS的基本操作主要通过命令行客户端（shell）和Java API进行。在命令行客户端中，用户可以执行如`hadoop fs`开头的一系列命令，例如`ls`查看目录、`put`上传文件、`get`下载文件、`rm`删除文件等。Java API则为开发者提供了编程接口，使得应用程序可以直接与HDFS交互，进行更复杂的文件操作。理解HDFS的工作原理至关重要，当NameNode接收到客户端的写请求时，它会分配数据块的位置，并将这些信息返回给客户端。客户端然后将文件数据块写入到指定的DataNode上，并在所有副本都成功写入后，返回确认信息。读取操作则由客户端向NameNode询问文件块的位置，然后直接从相应的DataNode读取数据。 HDFS是大数据处理的关键基础设施，它提供了高可靠性和高可伸缩性的存储解决方案，为MapReduce、Spark等分布式计算框架提供了坚实的基础。学习和掌握HDFS的操作和原理，对于理解和开发大数据应用至关重要。

HDFS原理篇

4. hdfs的工作机制

（

工

作

机

制

的

学

习主

要

是

为

加

深

对

分

布式

系统的

理

解

，

以

及增

强

遇

到

各

种

问题

时

的

分

析

解

决

能

力

，

形成

一

定

的

集

群

运

维

能

力

）

注

：

很

多

不

是

真

正理

解

hadoop

技术

体

系的

人会

常常

觉

得

HDFS

可

用

于

网盘类

应

用

，

但

实

际

并

非

如

此

。

要

想将

技术

准

确用

在

恰当

的

地

方

，

必

须

对

技术有

深

刻

的

理

解

4.1 概述

1. HDFS集群分为两大角色：NameNode、DataNode

2. NameNode 负责管理整个文件系统的元数据

3. DataNode 负责管理用户的文件数据块

4. 文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上

5. 每一个文件块可以有多个副本，并存放在不同的 datanode 上

6. Datanode 会定期向 Namenode 汇报自身所保存的文件 block 信息，而 namenode 则会负责保持文件的副

本数量

7. HDFS 的内部工作机制对客户端保持透明，客户端请求访问 HDFS 都是通过向 namenode 申请来进行

4.2 HDFS写数据流程

4.2.1 概述

# hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-mv 功能：在hdfs目录中移动文件

# hadoop fs -mv /aaa/jdk.tar.gz /

-get # 功能：等同于copyToLocal，就是从hdfs下载文件到本地示例

# hadoop fs -get /aaa/jdk.tar.gz

-getmerge # 功能：合并下载多个文件

# hadoop fs -getmerge /aaa/log.* ./log.sum

-put # 功能：等同于copyFromLocal

# hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-rm # 功能：删除文件或文件夹

# hadoop fs -rm -r /aaa/bbb/

-rmdir # 功能：删除空目录

# hadoop fs -rmdir /aaa/bbb/ccc

-df #功能：统计文件系统的可用空间信息

# hadoop fs -df -h /

-du # 功能：统计文件夹的大小信息

# hadoop fs -du -s -h /aaa/

-count # 功能：统计一个指定目录下的文件节点数量

# hadoop fs -count /aaa/

-setrep # 功能：设置hdfs中文件的副本数量

# hadoop fs -setrep 3 /aaa/jdk.tar.gz

# <这里设置的副本数只是记录在namenode的元数据中，是否真的会有这么多副本，还得看datanode的数量>

剩余12页未读，继续阅读

航知道

粉丝: 32
资源: 301

Hadoop HDFS详解：概念、特性与操作

apache_hdfs_broker.tgz

doris 0.15版本 中的 apache_hdfs_broker 插件

[案例]从冷备份的hdfs数据中恢复到原来的hbase表

Storm编程模型详解：Spout与Bolt实战

【HDFS数据一致性监控工具】：专家推荐的有效状态跟踪方法

Python数据分析利器：Pandas、NumPy和Matplotlib详解

MapReduce案例分析：从理论到实践的10个应用实例详解

大数据特征工程：处理海量数据的7大策略与技巧

SL-ST 差速器3D模型 SL-ST 差速器

C#大型药品进销存管理系统源码数据库 Access源码类型 WinForm

最新资源

doris 0.15版本中的 apache_hdfs_broker 插件