请扮演一个终端，（6）查看input中的文件列表（7）删除本地系统的input文件夹（8）分布式运行 MapReduce 作业——grep例子 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar （9）查看位于 HDFS 中的output文件夹中的输出结果（10）将分布式运行结果取回到本地的output文件夹（11）查看本地的output文件夹结果（12）删除分布式文件系统中的output文件夹（12）关闭Hadoop

时间: 2024-01-13 12:03:33 浏览: 87

Hadoop学习全程记录-在Eclipse中运行第一个MapReduce程序.docx

在本文中，我们将深入探讨如何在Eclipse环境中编写并运行你的第一个MapReduce程序，这是一个针对Hadoop初学者的教程。Hadoop是一个开源框架，用于处理和存储大量数据，而MapReduce是Hadoop的核心计算模型，它将大数据集分割成小块并在集群中并行处理。确保你的开发环境已准备就绪。在这个例子中，操作系统是通过Wubi在Windows上安装的Ubuntu 10.10，Hadoop版本为hadoop-0.20.2，Eclipse版本为eclipse-jee-helios-SR1-linux-gtk。为了简化学习过程，我们将在“伪分布式模式”下运行Hadoop，这意味着所有Hadoop守护进程都在单个节点上运行。 **步骤一：启动Hadoop守护进程** 在开始编写MapReduce程序之前，必须启动Hadoop的NameNode、DataNode和TaskTracker等守护进程。这通常涉及修改配置文件，然后通过命令行启动服务。 **步骤二：在Eclipse中安装Hadoop插件** 1. 将`hadoop-installation-directory/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar`复制到Eclipse的`plugins`目录下。 2. 重启Eclipse，然后在`Window > Preferences`中配置Hadoop安装目录。选择`Hadoop Map/Reduce`，指定Hadoop的安装路径。 **步骤三：配置Map/Reduce Locations** 1. 打开`Window > Show View > Map/Reduce Locations`。 2. 右键点击，选择`New Hadoop Location`，填写Location name，如“myubuntu”，并配置Map/Reduce Master和DFS Master的Host和Port。这些信息应与`mapred-site.xml`和`core-site.xml`中的设置匹配。例如： - Map/Reduce Master: localhost, 9001 - DFS Master: localhost, 9000 **步骤四：创建MapReduce项目** 1. 使用`File > New > Other > Map/Reduce Project`创建新项目，例如命名为"hadoop-test"。 2. 将Hadoop安装目录下的`src/example/org/apache/hadoop/example/WordCount.java`复制到新项目中。`WordCount`是一个基础的MapReduce示例，用于计算文本文件中单词的频率。 **步骤五：准备输入数据** 1. 创建一个名为`input`的文件夹，并在其中放入两个文件`file01`和`file02`，每个文件包含不同的文本内容。 2. 使用Hadoop命令行工具将`input`文件夹上传到分布式文件系统中： ``` bin/hadoop fs -put input input01 ``` **步骤六：运行MapReduce程序** 1. 在Eclipse中，右键点击`WordCount.java`，选择`Run As > Run Configurations`。 2. 新建一个Java应用程序配置，名为`WordCount`。 3. 在`Program arguments`中输入输入文件夹和输出文件夹的路径，例如： ``` hdfs://localhost:9000/user/panhuizhi/input01 hdfs://localhost:9000/user/panhuizhi/output01 ``` 完成上述步骤后，点击运行按钮，Eclipse将编译并执行`WordCount`程序。计算完成后，可以在Hadoop的分布式文件系统中查看`output01`文件夹，里面包含了处理后的结果，即每个单词及其出现次数。通过这个过程，你不仅学会了如何在Eclipse中设置Hadoop开发环境，还掌握了如何创建、配置MapReduce项目，以及如何处理输入数据和运行MapReduce任务。这为后续的Hadoop开发奠定了坚实的基础。记得在实践中不断尝试和优化，熟悉Hadoop的生态系统和MapReduce的工作原理，以便更好地处理大数据挑战。

好的，以下是操作的指令： 6. 查看input中的文件列表： ``` $ hdfs dfs -ls /user/用户名/input ``` 该命令会列出HDFS中“/user/用户名/input”目录下的所有文件和文件夹。 7. 删除本地系统的input文件夹： ``` $ rm -r input ``` 该命令会删除本地系统中的“input”文件夹。 8. 分布式运行MapReduce作业： ``` $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar grep /user/用户名/input /user/用户名/output 'hello' ``` 该命令会在Hadoop集群中分布式运行MapReduce作业，对“/user/用户名/input”目录中包含“hello”的文件进行查找，并将结果输出到“/user/用户名/output”目录中。 9. 查看位于HDFS中的output文件夹中的输出结果： ``` $ hdfs dfs -cat /user/用户名/output/* ``` 该命令会将HDFS中“/user/用户名/output”目录下的所有文件内容输出到终端中。 10. 将分布式运行结果取回到本地的output文件夹： ``` $ hdfs dfs -get /user/用户名/output output ``` 该命令会将HDFS中“/user/用户名/output”目录下的所有文件取回到本地的“output”文件夹中。 11. 查看本地的output文件夹结果： ``` $ cat output/* ``` 该命令会将“output”文件夹中的所有文件内容输出到终端中。 12. 删除分布式文件系统中的output文件夹： ``` $ hdfs dfs -rm -r /user/用户名/output ``` 该命令会删除HDFS中“/user/用户名/output”目录及其所有内容。 13. 关闭Hadoop： ``` $ stop-all.sh ``` 该命令会停止Hadoop集群中所有节点的进程。通过以上操作，我们可以在HDFS中查看文件列表、删除本地文件夹、分布式运行MapReduce作业、查看输出结果、将结果取回到本地、删除分布式文件系统中的文件夹，以及关闭Hadoop集群。这些操作都是Hadoop中常用的基本操作，对于Hadoop的使用和应用具有重要的意义。

阅读全文

相关推荐

三 Hadoop运行模式之本地运行模式和伪分布式模式

hadoop2.5.2的本地模式、伪分布式集群、分布式集群和HDFS系统的高可用的环境搭建.docx

Hadoop平台搭建(单节点,伪分布,分布式文件系统及其上MapReduce程序测试)

MapReduce分布式计算框架-任务4.pdf

C#实现MapReduce：分布式计算详解

Hadoop分布式集群部署与MapReduce实践

Hadoop MapReduce解析：分布式计算的核心机制

e-mapreduce中的分布式文件系统介绍

MapReduce框架在分布式存储系统中的数据处理流程

MapReduce中的分布式缓存机制详解

理解MapReduce框架中的分布式缓存

【分布式解决方案】：MapReduce小文件问题的7个实用策略及案例分析

基于MapReduce的分布式计算模型

MapReduce 如何实现分布式数据处理

MapReduce：Hadoop分布式计算框架的介绍

MapReduce与分布式计算：如何实现数据并行处理

mapreduce分布式计算框架底层思想

怎么在hadooo分布式文件系统根目录下创建一个叫input的目录

在IDEA中编码，实现基于hadoop mapreduce分布式计算框架的单词统计，将代码，并打印统计结果截图上传。待分析数据在“news.txt”文件

最新推荐

毕业设计&课设_百脑汇商城管理系统：Java 毕设项目.zip

【品牌价值-2024研报】最有价值和最强大的NFL品牌的2024年度报告（英）.pdf

【环球律师事务所-2024研报】《云计算（2024版）》之中国篇（英）.pdf

【招商期货-2024研报】招期农产品棉花周报：棉价重新开始寻底.pdf

【联合国贸易发展委员-2024研报】联合国贸易发展委员会-2024年贸易优惠展望（英）.pdf

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用