Hadoop入门：MapReduce与WordCount实战解析

128 浏览量更新于2024-08-28 收藏 81KB PDF 举报

"初学Hadoop之图解MapReduce与WordCount示例分析" MapReduce是Apache Hadoop项目的核心组件之一，用于处理和生成大规模数据集。这个分布式计算模型由Google首次提出，随后被Hadoop开源社区实现。MapReduce将复杂的并行计算任务分解为两大部分：Map（映射）和Reduce（规约），以及一个必要的Shuffle和Sort阶段。 1. Map阶段： Map阶段是MapReduce计算的第一步，它的主要任务是对输入数据进行拆分和处理。在WordCount示例中，输入数据通常是一些文本文件，每行被视为一个输入记录。Map函数会遍历这些记录，对每一行进行分词，生成键值对<单词, 1>。例如，输入文件中的"HelloWorldByeWorld"会被分割成多个键值对：<Hello, 1>, <World, 1>, <Bye, 1>, <World, 1>。 2. Shuffle和Sort阶段：在Map阶段结束后，生成的中间键值对会经过Shuffle和Sort过程。这个阶段首先按照键进行分区，然后对每个分区内的数据进行排序。排序是为了确保相同键的值可以被同一个Reduce任务处理，从而优化数据处理效率。 3. Reduce阶段： Reduce阶段接收到Map阶段输出的排序后的键值对，对每个键的所有值进行合并处理。在WordCount例子中，Reduce函数的作用是计算每个单词的总数。它会接收所有相同单词的键值对，如<Bye, [1, 1, 1]>, <Hadoop, [1, 1, 1, 1]>, <Hello, [1, 1, 1]>, <World, [1, 1]>，并将这些值相加，得到最终的单词计数结果：<Bye, 3>, <Hadoop, 4>, <Hello, 3>, <World, 2>。 4. 主函数（main）：在MapReduce程序中，main函数是启动整个计算流程的入口点。它负责配置作业参数，指定输入输出路径，创建Job对象，并提交作业到Hadoop集群进行执行。 5. HDFS（Hadoop Distributed File System）： HDFS是Hadoop的基础，是一个分布式文件系统，用于存储大量数据。在WordCount示例中，输入文件存储在HDFS上，而MapReduce作业的输出结果也会写回到HDFS中。虽然MapReduce可以与其他分布式文件系统配合工作，但HDFS通常作为默认选择，因为两者设计时考虑了良好的集成。通过上述步骤，Hadoop的MapReduce模型能够高效地处理大规模数据集，特别适合于大数据分析、日志处理、网页排名等场景。对于初学者来说，理解并实践WordCount示例是学习MapReduce的好方法，因为它简洁明了，展示了MapReduce的基本工作原理。

初学初学Hadoop之图解之图解MapReduce与与WordCount示例分析示例分析

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供

了计算。

HDFS是Google File System（GFS）的开源实现。

MapReduce是Google MapReduce的开源实现。

HDFS和MapReduce实现是完全分离的，并不是没有HDFS就不能MapReduce运算。

本文主要参考了以下三篇博客学习整理而成。

1、 Hadoop示例程序WordCount详解及实例

2、 hadoop 学习笔记：mapreduce框架详解

3、 hadoop示例程序wordcount分析

1、MapReduce整体流程

最简单的MapReduce应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。在运行一个

mapreduce计算任务时候，任务过程被分为两个阶段：map阶段和reduce阶段，每个阶段都是用键值对（key/value）作为输

入（input）和输出（output）。main 函数将作业控制和文件输入/输出结合起来。

并行读取文本中的内容，然后进行MapReduce操作。

Map过程：并行读取文本，对读取的单词进行map操作，每个词都以<key,value>形式生成。

我的理解：

一个有三行文本的文件进行MapReduce操作。

读取第一行Hello World Bye World ，分割单词形成Map。

<Hello,1> <World,1> <Bye,1> <World,1>

读取第二行Hello Hadoop Bye Hadoop ，分割单词形成Map。

<Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1>

读取第三行Bye Hadoop Hello Hadoop，分割单词形成Map。

<Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>

Reduce操作是对map的结果进行排序，合并，最后得出词频。我的理解：

经过进一步处理(combiner),将形成的Map根据相同的key组合成value数组。

<Bye,1,1,1> <Hadoop,1,1,1,1> <Hello,1,1,1> <World,1,1>

循环执行Reduce(K,V[])，分别统计每个单词出现的次数。

<Bye,3> <Hadoop,4> <Hello,3> <World,2>

2、WordCount源码

package org.apache.hadoop.examples;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38649356

粉丝: 5
资源: 951

Hadoop入门：MapReduce与WordCount实战解析

WordCount详解

wordcount.jar

使用hadoop实现WordCount实验报告.docx

wordcount-mapreduce:Hadoop MapReduce WordCount 示例应用程序

hadoop中 MapReduce学习代码WordCount

Hadoop mapreduce实现wordcount

hadoop 框架下 mapreduce源码例子 wordcount

Ubuntu安装Hadoop实现MapReduce里的WordCount

hadoop mapreduce wordcount

Hadoop 2.5.1 安装指南与WordCount示例教程

最新资源