Hadoop集群实战：WordCount程序运行解析

需积分: 9 190 浏览量更新于2024-07-23 收藏 392KB PDF 举报

"Hadoop程序运行——WordCount实例解析" 在Hadoop平台上运行程序，特别是像World Count这样的经典示例，是学习和理解Hadoop MapReduce框架的基础。Hadoop是一个开源的分布式计算框架，专为处理和存储大量数据而设计。它采用了“分而治之”的策略，将大任务拆分成小任务，由集群中的多台机器并行处理，最后再合并结果。 MapReduce是Hadoop的核心组件，它定义了一种编程模型来处理和生成大数据集。在MapReduce中，程序被划分为两个主要阶段：Map阶段和Reduce阶段。这两个阶段通过map()和reduce()函数来实现。 1. Map阶段：这个阶段主要负责数据的预处理和拆分。map()函数接收原始数据，通常是<key, value>对，然后对每个键值对进行操作，生成新的<key, value>中间结果对。例如，在WordCount程序中，map()函数会读取文本文件的每一行，将行内容分割成单词（key）和出现次数（value=1）。 2. Reduce阶段：在这个阶段，reduce()函数接收由Map阶段生成的中间<key, (list of values)>对，并对相同key的value列表进行聚合操作。在WordCount中，reduce()函数会统计每个单词（key）的总出现次数（value的总和），生成最终的<word, count>对。在Hadoop集群中，JobTracker是任务调度器，负责分配任务给TaskTracker，TaskTracker则是在各个节点上实际执行任务的实体。由于JobTracker是单点，所以集群中只有一个，它需要确保任务的正确分发和监控，同时处理负载均衡和容错。运行WordCount程序的步骤通常包括以下几步： 1. **编译和打包**：首先，你需要将Java源代码编译成JAR包，这个JAR包包含了WordCount的map()和reduce()函数。 2. **提交作业**：使用`hadoop jar`命令将JAR包提交到Hadoop集群。你需要指定JobTracker的地址、输入数据的位置（例如，包含文本的HDFS路径）以及输出结果的目录。 3. **监控作业**：一旦作业提交，JobTracker会将任务分发到TaskTracker，你可以通过Hadoop的Web UI或者命令行工具跟踪作业的状态，查看map和reduce任务的进度。 4. **收集结果**：当所有任务完成后，结果会被写入到HDFS中指定的输出目录。你可以下载这些结果，查看每个单词及其出现的次数。 Hadoop通过MapReduce简化了大数据处理，使得开发者无需关注底层的分布式细节，只需专注于业务逻辑。然而，为了有效地利用Hadoop，理解MapReduce的工作原理和生命周期是非常重要的。WordCount是一个很好的起点，它帮助开发者理解和实践这一过程。

创建时间：2012/3/1 修改时间：2012/3/1 修改次数：0

2）在 HDFS 上创建输入文件夹

3）上传本地 file 中文件到集群的 input 目录下

2.2 运行例子

1）在集群上运行 WordCount 程序

备注：以 input 作为输入目录，output 目录作为输出目录。

已经编译好的 WordCount 的 Jar 在“/usr/hadoop”下面，就是“hadoop-examples-1.0.0.jar”，

所以在下面执行命令时记得把路径写全了，不然会提示找不到该 Jar 包。

2）MapReduce 执行过程显示信息

Hadoop 命令会启动一个 JVM 来运行这个 MapReduce 程序，并自动获得 Hadoop 的配置，

同时把类的路径（及其依赖关系）加入到 Hadoop 的库中。以上就是 Hadoop Job 的运行记录，

从这里可以看到，这个 Job 被赋予了一个 ID 号：job_201202292213_0002，而且得知输入文

件有两个（Total input paths to process : 2），同时还可以了解 map 的输入输出记录（record 数

及字节数），以及 reduce 输入输出记录。比如说，在本例中，map 的 task 数量是 2 个，reduce

河北工业大学——软件工程与理论实验室编辑：虾皮

剩余17页未读，继续阅读

blueoceanliang

粉丝: 0
资源: 8

Hadoop集群实战：WordCount程序运行解析

用eclipse将Hadoop程序打包成jar及直接设定参数运行

Hadoop示例程序WordCount运行及详解

Hadoop集群程序设计与开发教材最终代码.zip

hadoop程序运行平台

Hadoop应用程序

Intellij-Hadoop:使用 Intellij 运行 Hadoop 程序

Hadoop系统安装运行与程序开发

在Windows上使用eclipse编写Hadoop应用程序

win7下Eclipse开发Hadoop应用程序环境搭建

深入解析Hadoop应用程序架构代码库

最新资源