Hadoop大数据操作指令全攻略

需积分: 33 120 浏览量更新于2024-09-09 1 收藏 34KB DOCX 举报

"这篇文档详述了在Hadoop环境下进行大数据操作的一系列常用命令，包括启动和关闭Hadoop集群，以及文件系统的管理操作，如查看、读取、上传、下载、删除、移动、创建和重命名文件等。此外，还包括终止运行中的Hadoop作业的命令。" 在大数据处理中，Hadoop是一个关键的开源框架，它提供了分布式存储和计算的能力。本文档主要关注的是Hadoop文件系统（HDFS）的日常操作命令，这些命令对于数据工程师、数据科学家和系统管理员来说至关重要。 1. **启动和关闭Hadoop**： - 启动Hadoop集群时，需要进入Hadoop的安装目录，然后执行`bin/start-all.sh`脚本，这将启动所有Hadoop相关的服务，包括NameNode、DataNode和ResourceManager等。 - 而关闭Hadoop集群则同样需要在Hadoop的安装目录下执行`bin/stop-all.sh`，以停止所有服务。 2. **查看目录内容**： - 使用`hadoop dfs -ls [文件目录]`可以查看指定HDFS目录下的文件和子目录。例如，`hadoop dfs -ls /user/wangkai.pt`会列出wangkai.pt用户目录下的内容。 3. **读取文件**： - `hadoop dfs -cat [file_path]`命令用于显示HDFS上的文件内容，如`hadoop dfs -cat /user/wangkai.pt/data.txt`。 4. **上传文件**： - 通过`hadoop fs -put [本地地址] [hadoop目录]`可以将本地文件或文件夹上传到HDFS。例如，`hadoop fs -put /home/t/file.txt /user/t`将把本地的file.txt文件上传到HDFS的/user/t目录下。 5. **下载文件**： - 使用`hadoop fs -get [文件目录] [本地目录]`可以将HDFS上的文件下载到本地。如`hadoop fs -get /user/t/ok.txt /home/t`将ok.txt文件下载到本地的/home/t目录。 6. **删除文件**： - `hadoop fs -rm [文件地址]`用于删除单个文件，如`hadoop fs -rm /user/t/ok.txt`。 - 如果需要删除目录及其所有内容，使用`hadoop fs -rmr [目录地址]`，如`hadoop fs -rmr /user/t`。 7. **创建目录**： - `hadoop fs -mkdir [目录路径]`用于在HDFS上创建目录，例如`hadoop fs -mkdir /user/t`。 8. **新建空文件**： - 使用`hadoop fs touchz [文件路径]`可以在HDFS上创建一个新的空文件，如`hadoop fs touchz /user/new.txt`。 9. **重命名文件**： - 文件重命名通过`hadoop fs -mv [源路径] [目标路径]`实现，例如`hadoop fs -mv /user/test.txt /user/ok.txt`。 10. **合并文件并下载**： - `hadoop dfs -getmerge [目录路径] [本地文件名]`可将HDFS上的一个目录下的所有文件合并成一个文件并下载到本地。 11. **杀死运行中的作业**： - `hadoop job -kill [job-id]`用于终止正在运行的Hadoop作业，这里的job-id是作业的唯一标识。以上就是Hadoop大数据常用的一些命令，理解并熟练运用这些命令是高效管理和操作Hadoop集群的基础。需要注意的是，所有的Hadoop命令都是通过`bin/hadoop`脚本调用的，没有指定参数运行此脚本会显示所有可用命令的说明。

COMMAND_OPTIONS
两组。
常规选项
下面的选项被 dfsadmin,'fs,'fsck 和 job 支持。 应用程序要实现 Tool 来支持 常规选项。
GENERIC_OPTION
描述
-conf <configuration file>
指定应用程序的配置文件。
-D <property=value>
为指定 property 指定值 value。
-fs <local|namenode:port>
指定 namenode。
-jt <local|jobtracker:port>
指定 job tracker。只适用于 job。
-files <逗号分隔的文件列表>
指定要拷贝到 map reduce 集群的文件的逗号分隔的列表。 只适用于
job。
-libjars <逗号分隔的 jar 列表>
指定要包含到 classpath 中的 jar 文件的逗号分隔的列表。 只适用于
job。
-archives <逗号分隔的 archive 列表
>
指定要被解压到计算节点上的档案文件的逗号分割的列表。 只适用于
job。

用户命令
hadoop 集群用户的常用命令。
archive
创建一个 hadoop 档案文件。参考 Hadoop Archives.
用法：hadoop archive -archiveName NAME <src>* <dest>
命令选项 描述
-archiveName NAME
要创建的档案的名字。
src
文件系统的路径名，和通常含正则表达的一样。
dest
保存档案文件的目标目录。
distcp
递归地拷贝文件或目录。参考 DistCp 指南以获取等多信息。
用法：hadoop distcp <srcurl> <desturl>
命令选项 描述