Hadoop入门：搭建与运行WordCount示例

需积分: 20 108 浏览量更新于2024-09-11 收藏 204KB DOCX 举报

在Hadoop学习过程中，运行第一个实例通常涉及对Hadoop分布式文件系统（HDFS）和MapReduce框架的理解与操作。这个例子主要围绕如何在一个已经搭建好的Hadoop环境中执行WordCount，这是Hadoop最经典的示例之一。首先，你需要确保Hadoop环境已经正确安装并配置。这包括启动Hadoop的核心组件，如Hadoop Distributed File System (HDFS) 和 YARN（Yet Another Resource Negotiator）。在命令行中，通过运行`sbin/start-dfs.sh`和`sbin/start-yarn.sh`命令启动这两个服务，它们必须能成功启动并运行，这样才能保证后续操作的顺利进行。接下来，你需要进入Hadoop的安装目录，例如`/usr/hadoop`。在这个目录下，创建一个名为`input`的文件夹，用于存放输入数据。使用`hadoopfs-mkdir/input`命令创建这个文件夹，它表示在HDFS上创建一个新的目录。然后，将测试文件（例如`test.txt`）传输到这个输入文件夹，使用命令`hadoopfs-put test.txt/input`。这会把本地的`test.txt`文件复制到HDFS的`input`目录下。确认文件已成功上传，你可以通过`hadoopfs-ls/input`命令查看`input`目录的内容。接着，你可以执行WordCount任务，这通常涉及到运行Hadoop的MapReduce应用程序。命令`hadoopjar /usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount/input/output`被用来提交作业，指定输入和输出目录。注意，这里的路径可能需要根据你的实际安装位置进行调整。运行WordCount后，你会在HDFS中看到一个新的`output`文件夹。进一步检查输出目录，可以看到`part-r-00000`等文件，这些都是MapReduce任务产生的中间结果。最后，使用`hadoopfs-cat/output/part-r-00000`命令查看处理后的输出结果。此外，Hadoop的Web界面也提供了便利的监控和管理功能。访问Hadoop的ResourceManager的Web UI，可以通过`http://<master_ip>:50070`来查看作业状态，包括输入和输出文件。在这个界面，你可以观察到`input`文件夹中上传的`test.txt`文件。这个Hadoop初学者的例子涵盖了HDFS的基本操作，如文件系统管理、文件上传和下载，以及MapReduce任务的提交和结果查看。这对于理解Hadoop的分布式存储和计算模型至关重要，也是深入学习Hadoop技术的基础步骤。

kjdw2

粉丝: 0
资源: 20

Hadoop入门：搭建与运行WordCount示例

Apache Hadoop---Ambari.docx

Apache Hadoop---Yarn.docx

Apache Hadoop---Solr.docx

Apache Hadoop---Elasticsearch.docx

Hadoop平台技术 模块1 Hadoop概述-单元设计.docx

Hadoop平台搭建及实例运行.docx

Hadoop环境搭建及wordcount实例运行.docx

对Hadoop-HDFS性能造成重大影响的杀手-Shell.docx

Hadoop部署实践-教学实施方案.docx

Hadoop专业解决方案-第13章Hadoop的发展趋势.docx

最新资源

Hadoop平台技术模块1 Hadoop概述-单元设计.docx