HDFS操作详解：上传、下载、移动与删除

版权申诉

30 浏览量更新于2024-08-17 收藏 358KB PDF 举报

"大数据平台实践，重点讲解了HDFS（Hadoop Distributed File System）的常用操作，包括列出文件列表、上传文件/目录、下载文件/目录、拷贝文件、移动文件和删除文件/目录等基本操作，同时提到了在增加HDFS节点时的一些实践要点。" 在大数据处理中，HDFS作为分布式文件系统，是Apache Hadoop项目的核心组件，它能够存储和处理海量数据。本部分主要介绍了在实际操作中如何与HDFS进行交互。 1. **列出文件列表**：使用`hadoopfs -ls`命令可以查看HDFS上的文件和目录。添加`-h`选项可以让文件大小以人类可读的格式显示，而`-R`选项则用于递归显示所有子目录的内容。 2. **上传文件/目录**： `hadoopfs -put`命令用于将本地文件或目录上传到HDFS。可以通过`-f`选项强制覆盖已存在的文件，避免因文件已存在而报错。 3. **下载文件/目录**：使用`hadoopfs -get`命令将HDFS上的文件或目录下载到本地文件系统。 4. **拷贝文件/目录**：虽然`cp`命令可以用于从本地到HDFS的拷贝，但推荐使用`put`命令，因为`cp`在本地文件系统中的用法更为复杂，需要加上`file:`前缀来指定本地路径。 5. **移动文件**： `hadoopfs -mv`命令用于在HDFS内部移动文件或目录。 6. **删除文件/目录**： `hadoopfs -rm`命令删除文件，但默认会将其移到用户回收站`.Trash/Current`，然后根据配置的周期进行清理。如果需要立即删除，可以使用`-skipTrash`选项。在大数据平台的实践中，当需要扩展HDFS的存储能力时，可能需要增加新的数据节点（DataNodes）。这个过程通常涉及到节点的硬件配置、安装软件、配置HDFS参数以及加入集群等步骤。在添加新节点后，需要进行数据均衡，确保数据在整个集群中的分布均匀，以保持系统的高效运行。总结来说，理解并熟练掌握这些HDFS操作对于管理和维护大数据平台至关重要，它们是日常数据处理工作中的基础工具。通过合理运用，可以有效地管理HDFS中的数据，保证大数据应用的稳定性和效率。

11.3 下载文件/目录 get

从集群HDFS到本地文件系统，默认左面是hdfs，右面是linux本地

11.4 拷贝文件/目录 cp

1）从本地到HDFS，同put，【此种方式推荐用put】

如果是本地文件，要以绝对路径表示，本地路径需要加file:

hadoop fs -cp file:/home/hadoop/test/f2 /test_f2

2）从HDFS到HDFS

11.5 移动文件 mv

hadoop fs -mv /test_f2 /test

11.6 删除文件/目录 rm

执行-rm 命令后，默认是把文件移动到 user/hadoop/.Trash/Current 下，会根据配置文件

配置的清理周期定期清理。

1）删除指定文件

#1）下载hdfs文件到本地目录

hadoop fs -get /test.txt /home/hadoop

#2）下载hdfs文件到本地目录并重命名

hadoop fs -get /test.txt /home/hadoop/test2.txt

# 如果是不同hdfs集群间copy用标准写法

hadoop fs -cp hdfs://ns1/haha.sh hdfs://ns1/test

hadoop fs -cp hdfs:/exe.sh hdfs:/test

# 如果是同集群，用简写

hadoop fs -cp /haha.sh /data

剩余10页未读，继续阅读

WHOT.

粉丝: 6

HDFS操作详解：上传、下载、移动与删除

HDFS常用操作实践指南与Java编程应用

大数据集群搭建：从HDFS到Hive的全面实践

深入HDFS编程：文件操作示例代码解析

大数据高频面试题.docx

大数据高频面试题库.docx

大数据技术大实验.docx

【提升大数据集群IO效能的HDFS读写性能调优实践】：专家教你如何操作

第2章 大数据实验环境搭建.zip

大数据技术原理与应用 课程实验报告 熟悉HDFS常用操作 word文件

基于Hadoop的高速公路工程大数据平台搭建.zip

最新资源

第2章大数据实验环境搭建.zip

大数据技术原理与应用课程实验报告熟悉HDFS常用操作 word文件