深入理解Hadoop：HDFS文件系统详解

需积分: 5 136 浏览量更新于2024-07-09 收藏 4.53MB DOC 举报

"本文档主要介绍了大数据技术中的Hadoop HDFS文件系统，包括HDFS的概念、组成、文件块大小，以及HDFS的命令行操作。" Hadoop HDFS（Hadoop Distributed File System）是Apache Hadoop项目的核心组件之一，设计用于处理和存储大规模数据集。HDFS是一个分布式文件系统，它允许数据在多台服务器之间进行冗余存储，以提高容错性和整体性能。 1.1 HDFS概念 HDFS被设计为一次写入、多次读取的系统，即数据一旦写入，除非特殊操作，一般不允许修改。这种模式使得HDFS非常适合大数据分析任务，而不适合需要频繁修改的在线服务。HDFS通过目录结构来组织文件，并利用NameNode和DataNode来管理和存储数据。 1.2 HDFS组成 - **NameNode**：作为HDFS的主节点，负责维护整个文件系统的元数据，包括文件到数据块的映射、目录结构等。它还处理客户端的所有文件系统操作请求。 - **DataNode**：分布在集群中的工作节点，存储实际的数据块。每个DataNode都存储着一部分文件的数据块，并提供数据读写服务。 - **Secondary NameNode**：并非NameNode的备份，而是帮助NameNode定期合并编辑日志（edits log）和镜像文件（fsimage），以减少NameNode的重启时间并保持元数据的一致性。 1.3 HDFS文件块大小文件在HDFS中被分割成固定大小的块进行存储，块的大小可以通过配置参数`dfs.blocksize`设定，通常默认为128MB或64MB。较大的块大小有助于减少文件操作中的寻址开销，因为对于大数据传输来说，寻址时间相对于数据传输时间可以忽略不计。 2. HDFS命令行操作 Hadoop提供了丰富的命令行工具用于与HDFS交互，包括： - `-appendToFile`：追加本地文件到HDFS文件末尾。 - `-cat`：显示文件内容，可忽略CRC校验。 - `-checksum`：显示文件的校验和信息。 - `-chgrp`，`-chmod`，`-chown`：分别用于改变文件或目录的组、权限和所有者。 - `-copyFromLocal`，`-copyToLocal`：将本地文件复制到HDFS，反之亦然。 - `-delete`，`-mkdir`，`-moveFromLocal`，`-moveToLocal`，`-put`，`-rename`等：其他常用的文件和目录操作命令。这些命令使得用户能够方便地管理HDFS中的文件和目录，进行数据的上传、下载、查看、移动和删除等操作。总结来说，Hadoop HDFS是一种针对大数据处理优化的分布式文件系统，通过NameNode、DataNode和Secondary NameNode的协同工作，实现了高效、可靠的文件存储。同时，用户可以通过命令行工具便捷地进行各种文件操作，确保数据的可用性和易用性。

大数据技术之 Hadoop（HFDS 文件系统）

—————————————————————————————

//2 创建目录

fs.mkdirs(new Path("hdfs://hadoop102:9000/user/hqx/output"));

}

3.2.5 HDFS 文件夹删除

@Test

public void deleteAtHDFS() throws Exception{

// 1 创建配置信息对象

Configuration configuration = new Configuration();

FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration,

"hqx");

//2 删除文件夹，如果是非空文件夹，参数 2 必须给值 true

fs.delete(new Path("hdfs://hadoop102:9000/user/hqx/output"), true);

}

3.2.6 HDFS 文件名更改

@Test

public void renameAtHDFS() throws Exception{

// 1 创建配置信息对象

Configuration configuration = new Configuration();

FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration,

"hqx");

//2 重命名文件或文件夹

fs.rename(new Path("hdfs://hadoop102:9000/user/hqx/hello.txt"), new

Path("hdfs://hadoop102:9000/user/hqx/hellonihao.txt"));

}

3.2.7 HDFS 文件详情查看

@Test

public void readListFiles() throws Exception {

// 1 创建配置信息对象

Configuration configuration = new Configuration();

FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"),configuration,

"hqx");

剩余49页未读，继续阅读

hqx_2008

粉丝: 1
资源: 22

深入理解Hadoop：HDFS文件系统详解

大数据技术之Hadoop(入门).docx

大数据技术之Hadoop（HDFS文件系统）.doc

大数据技术之Hadoop（入门）.doc

1大数据技术之Hadoop（入门）.doc

大数据技术Hadoop笔试题.doc.docx

大数据技术Hadoop笔试题.doc.pdf

大数据技术原理及应用习题集.doc

大数据教程之搭建Hadoop集群.zip_大数据环境搭建hadoop

(完整word)大数据技术原理与应用课程标准.doc

全网最新尚学堂hadoop大数据视频教程.doc

最新资源