Hadoop入门:搭建与运行WordCount示例

需积分: 20 3 下载量 42 浏览量 更新于2024-09-11 收藏 204KB DOCX 举报
在Hadoop学习过程中,运行第一个实例通常涉及对Hadoop分布式文件系统(HDFS)和MapReduce框架的理解与操作。这个例子主要围绕如何在一个已经搭建好的Hadoop环境中执行WordCount,这是Hadoop最经典的示例之一。 首先,你需要确保Hadoop环境已经正确安装并配置。这包括启动Hadoop的核心组件,如Hadoop Distributed File System (HDFS) 和 YARN(Yet Another Resource Negotiator)。在命令行中,通过运行`sbin/start-dfs.sh`和`sbin/start-yarn.sh`命令启动这两个服务,它们必须能成功启动并运行,这样才能保证后续操作的顺利进行。 接下来,你需要进入Hadoop的安装目录,例如`/usr/hadoop`。在这个目录下,创建一个名为`input`的文件夹,用于存放输入数据。使用`hadoopfs-mkdir/input`命令创建这个文件夹,它表示在HDFS上创建一个新的目录。 然后,将测试文件(例如`test.txt`)传输到这个输入文件夹,使用命令`hadoopfs-put test.txt/input`。这会把本地的`test.txt`文件复制到HDFS的`input`目录下。 确认文件已成功上传,你可以通过`hadoopfs-ls/input`命令查看`input`目录的内容。接着,你可以执行WordCount任务,这通常涉及到运行Hadoop的MapReduce应用程序。命令`hadoopjar /usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount/input/output`被用来提交作业,指定输入和输出目录。注意,这里的路径可能需要根据你的实际安装位置进行调整。 运行WordCount后,你会在HDFS中看到一个新的`output`文件夹。进一步检查输出目录,可以看到`part-r-00000`等文件,这些都是MapReduce任务产生的中间结果。最后,使用`hadoopfs-cat/output/part-r-00000`命令查看处理后的输出结果。 此外,Hadoop的Web界面也提供了便利的监控和管理功能。访问Hadoop的ResourceManager的Web UI,可以通过`http://<master_ip>:50070`来查看作业状态,包括输入和输出文件。在这个界面,你可以观察到`input`文件夹中上传的`test.txt`文件。 这个Hadoop初学者的例子涵盖了HDFS的基本操作,如文件系统管理、文件上传和下载,以及MapReduce任务的提交和结果查看。这对于理解Hadoop的分布式存储和计算模型至关重要,也是深入学习Hadoop技术的基础步骤。