Hadoop-HDFS：分布式文件系统详解

需积分: 0 77 浏览量更新于2024-07-15 收藏 1.76MB DOCX 举报

"Hadoop-HDFS.docx 是关于Hadoop分布式文件系统HDFS的文档，主要介绍了HDFS的背景、定义、优缺点以及组成架构。" Hadoop 分布式文件系统 (HDFS) 是一个设计用于处理和存储大量数据的开源框架。在数据量日益增长的背景下，传统的单机文件系统无法满足需求，因此诞生了分布式文件系统如HDFS。HDFS的核心特性在于它的分布式特性，将文件分布在多台服务器上，通过目录结构定位文件，确保了数据的高可用性和容错性。 HDFS的主要优点包括： 1. 高容错性：通过数据冗余备份，当某个副本丢失时，系统能自动恢复，保证服务的连续性。 2. 处理大数据的能力：能够处理从GB到PB级别的大数据量，以及百万级以上的文件数量。 3. 廉价硬件支持：可在普通商用机器上构建，通过多副本机制提高系统的可靠性。然而，HDFS也存在明显的缺点： 1. 不适合低延迟数据访问：对于需要毫秒级响应速度的应用场景，HDFS可能不是最佳选择。 2. 大量小文件存储效率低：小文件会占用NameNode大量内存，影响性能，而且寻址时间较长。 3. 写入和修改限制：HDFS不支持并发写入和文件的随机修改，只允许单个写入和数据追加。 HDFS的架构由NameNode、DataNode和Secondary NameNode等组件构成： 1. NameNode：作为主节点，负责管理HDFS的命名空间，配置副本策略，维护数据块映射信息，并处理客户端的读写请求。 2. DataNode：作为从节点，实际存储数据块，执行读写操作，是HDFS存储数据的基石。 3. Secondary NameNode：并非NameNode的热备份，而是辅助角色，定期合并NameNode的编辑日志，帮助减轻NameNode的压力，防止数据丢失。 HDFS是为大规模数据分析而设计的，特别适用于批处理和流处理任务，但不适用于需要高速随机访问或频繁更新的小型文件系统。理解HDFS的优缺点和工作原理，对于优化大数据处理流程和设计高效的Hadoop集群至关重要。

2．配置 JAVA_HOME 和 HADOOP_HOME 环境变量，如图所示

配置 HADOOP_HOME 环境变量

3. 配置 Path 环境变量，如图所示

配置 Path 环境变量

4．创建一个 Maven 工程 HdfsClientDemo

5．导入相应的依赖坐标+日志添加



6

#E F#!#E

!!E F#!!!E

: %.1.*8.:

6

6

#E DF#E

!!E DF!!E

: G:

6

6

#E #E

!!E $$!!E

: :

6

6

#E #E

!!E !!!E

: :

6

6

#E #E

!!E !!E

: :

6 



注意：如果 Idea 打印不出日志，在控制台上只显示

DF53*%4H4HH#HH#HHHI

#!8JHH

DF53*%4H)H!>H!HDFH6!$H6HH

?DF53*%4H8H!!5DF

7!$KHH$H

需要在项目的 src/main/resources 目录下，新建一个文件，命名为“log4j.properties”，在

文件中填入

DF!1LE4'/!#!

DF!#!LDF"*

DF!#!6#!LDF)!!16#!

DF!#!6#!":)!!LMMMM$

M

DFLDF*

DFL!!

DF6#!LDF)!!16#!

DF6#!":)!!LM  M  M  

M$M

6．创建包名：com.kgg.hdfs

7．创建 HdfsClient 类

#+"!;

!

剩余50页未读，继续阅读

YuBx

粉丝: 26

Hadoop-HDFS：分布式文件系统详解

本地Hadoop调试必备包：hadoop-common-bin-master与winutils.exe

大数据技术课程设计.docx；任务一：Hadoop集群部署前环境的准备

Hadoop集群运行模式与配置详解

02-Hadoop-HDFS.docx

hadoop-hdfs-1.docx

个人笔记_hadoop-hdfs架构详解.docx

对Hadoop-HDFS性能造成重大影响的杀手-Shell.docx

Hadoop（HDFS).docx

hadoop-ms.docx

Apache Hadoop---Flume.docx

最新资源