Hadoop集群详解：WordCount运行过程

需积分: 9 101 浏览量更新于2024-07-26 收藏 392KB PDF 举报

"Hadoop集群详解与WordCount运行过程介绍" 本文详细阐述了Hadoop集群的工作原理和WordCount程序的运行机制，适合Hadoop初学者。Hadoop是一个开源的分布式计算框架，它基于Google的MapReduce编程模型，用于处理和存储大规模数据集。 1. MapReduce编程模型 MapReduce的核心理念是将大任务分解为小任务并行处理，然后合并结果。在这个模型中，JobTracker负责任务调度，而TaskTracker则执行实际的工作。在Hadoop集群中，JobTracker只有一个，它分配任务给多个TaskTracker节点，这些节点分别在各自的机器上执行map和reduce任务。 1.1 Map阶段 map函数是MapReduce的第一步，它接收键值对(<key, value>)作为输入，然后生成新的键值对作为中间输出。这个过程通常涉及到数据的过滤和转换。 1.2 Reduce阶段 reduce函数接收到map阶段生成的中间键值对，这些键对应的值通常是一个列表。reduce函数对每个键的所有值进行聚合操作，例如求和、计数或连接，然后产生最终的键值对输出。 2. WordCount运行过程 WordCount是Hadoop中的经典示例，用于统计文本中单词出现的频率。在Hadoop中，WordCount任务分为以下步骤： 2.1 分割输入文件 Hadoop首先将输入文件分割成多个块，每个块作为一个独立的输入单元交给map任务处理。 2.2 map阶段每个map任务读取一个输入块，逐行处理，将每一行文本分割成单词，生成<单词, 1>的键值对作为中间输出。 2.3 shuffle与排序 map任务的输出被收集并按照键进行分区和排序，确保相同键的值被发送到同一个reduce任务。 2.4 reduce阶段 reduce任务接收所有相同键的值列表，对这些值进行求和，生成<单词, 总计数>的键值对，表示该单词在整个输入中的总数。 3. 结束与输出 reduce阶段完成后，所有结果被写入到HDFS（Hadoop分布式文件系统），形成最终的输出文件，用户可以通过查看这些文件获取单词计数的结果。总结，Hadoop通过MapReduce模型，实现了对大规模数据的高效处理。WordCount的运行过程展示了这一模型如何将任务分解、并行处理以及结果合并，为处理大数据提供了强大且灵活的工具。对于想要了解和学习Hadoop的人来说，理解MapReduce和WordCount的运作方式是至关重要的基础。

创建时间：2012/3/1 修改时间：2012/3/1 修改次数：0

2）在 HDFS 上创建输入文件夹

3）上传本地 file 中文件到集群的 input 目录下

2.2 运行例子

1）在集群上运行 WordCount 程序

备注：以 input 作为输入目录，output 目录作为输出目录。

已经编译好的 WordCount 的 Jar 在“/usr/hadoop”下面，就是“hadoop-examples-1.0.0.jar”，

所以在下面执行命令时记得把路径写全了，不然会提示找不到该 Jar 包。

2）MapReduce 执行过程显示信息

Hadoop 命令会启动一个 JVM 来运行这个 MapReduce 程序，并自动获得 Hadoop 的配置，

同时把类的路径（及其依赖关系）加入到 Hadoop 的库中。以上就是 Hadoop Job 的运行记录，

从这里可以看到，这个 Job 被赋予了一个 ID 号：job_201202292213_0002，而且得知输入文

件有两个（Total input paths to process : 2），同时还可以了解 map 的输入输出记录（record 数

及字节数），以及 reduce 输入输出记录。比如说，在本例中，map 的 task 数量是 2 个，reduce

河北工业大学——软件工程与理论实验室编辑：虾皮

剩余17页未读，继续阅读

MeganPeng1010

粉丝: 0
资源: 1

Hadoop集群详解：WordCount运行过程

"新手指南：使用Centos7搭建Hadoop_hbase集群

"从零开始部署hadoop_3.1.1集群：规划、安装、配置详解

Hadoop集群VSFTP安装配置详解

细细品味Hadoop_Hadoop集群（第6期）_WordCount运行详解

细细品味Hadoop_Hadoop集群（第5期）_Hadoop安装配置

细细品味Hadoop_Hadoop集群（第5期副刊）_JDK和SSH无密码配置

细细品味Hadoop_Hadoop集群VSFTP安装配置.rar_hadoop

细细品味Hadoop_Hadoop集群CentOS安装配置.rar_hadoop

细细品味Hadoop_Hadoop集群（第9期）_MapReduce初级案例

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第6期_WordCount运行详解 共18页.pdf

最新资源

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第6期_WordCount运行详解共18页.pdf