MapReduce实战：Hadoop单词计数教程

29 浏览量更新于2023-05-04 收藏 74KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本篇文章主要讲解了MapReduce编程实例中的一个经典任务：单词计数。MapReduce是一种分布式计算模型，特别适用于大数据处理，尤其是当数据集规模较大且需要并行处理时。在这个实例中，我们使用的环境是Hadoop 2.7.3，这是一种广泛应用于大数据处理的开源框架。任务背景是处理一组包含大量单词的输入文档，例如file001、file002和file003，这些文件的内容示例展示了简单的文本数据。由于数据量大且单词密集，传统线性程序无法有效处理，MapReduce的并行化处理能力在此场景下尤为适用。 MapReduce的工作流程包括两个主要阶段：Map阶段和Reduce阶段。在这个例子中，Map阶段的任务是将输入文档中的每一行拆分成单词，并以键值对的形式输出，其中键是单词，值是单词在文档中的出现次数。Map函数的输入类型定义为（行号, 行内容），输出类型则是（单词, 出现次数）。为了实现这个Map任务，开发人员需要继承Hadoop的Mapper类，并重写Map方法。在这个过程中，需要明确输入和输出的类型，以及如何根据输入数据进行操作。例如，代码可能如下： ```java public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); // 分割字符串为单词列表 String[] words = line.split("\\s+"); for (String wordStr : words) { // 将单词作为键，1作为值输出 word.set(wordStr); context.write(word, one); } } } ``` 接下来是Reduce阶段，它接收来自所有Mapper的相同键的值，汇总这些值并生成最终的统计结果。然而，文章没有提供Reduce阶段的代码，但通常情况下，Reduce函数会接收键和对应的数值列表，然后计算每个键的总和。最后，文章提到如何在本地创建文件并将其上传到HDFS（Hadoop分布式文件系统），以及如何调用Hadoop的HDFS命令来管理数据。这整个过程是MapReduce程序部署和运行的基础步骤。总结来说，本节详细介绍了如何利用Hadoop MapReduce框架编写单词计数程序，包括数据准备、Map函数的实现和HDFS操作，为读者提供了实际操作的指导，帮助理解MapReduce模型在大规模数据处理中的应用。

资源详情

资源推荐

MapReduce编程实例：单词计数编程实例：单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。

任务准备任务准备

单词计数（WordCount）的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大，每个文档又包含大量的单

词，则无法使用传统的线性程序进行处理，而这类问题正是 MapReduce 可以发挥优势的地方。

在前面《MapReduce实例分析：单词计数》教程中已经介绍了用 MapReduce 实现单词计数的基本思路和具体执行过程。下

面将介绍如何编写具体实现代码及如何运行程序。

首先，在本地创建 3 个文件：file00l、file002 和 file003，文件具体内容如表 1 所示。

表表 1 单词计数输入文件单词计数输入文件

文件名文件名 file001 file002 file003

文件内容

Hello world

Connected

world

One world

One

dream

Hello

Hadoop

Hello Map

Hello Reduce

再使用 HDFS 命令创建一个 input 文件目录。

hadoop fs -mkdir input

然后，把 file001、file002 和 file003 上传到 HDFS 中的 input 目录下。

hadoop fs -put file001 input

hadoop fs -put file002 input

hadoop fs -put file003 input

编写 MapReduce 程序的第一个任务就是编写 Map 程序。在单词计数任务中，Map 需要完成的任务就是把输入的文本数据按

单词进行拆分，然后以特定的键值对的形式进行输出。

编写编写 Map 程序程序

Hadoop MapReduce 框架已经在类 Mapper 中实现了 Map 任务的基本功能。为了实现 Map 任务，开发者只需要继承类

Mapper，并实现该类的 Map 函数。

为实现单词计数的 Map 任务，首先为类 Mapper 设定好输入类型和输出类型。这里，Map 函数的输入是形式，其中，key 是

输入文件中一行的行号，value 是该行号对应的一行内容。

所以，Map 函数的输入类型为。Map 函数的功能为完成文本分割工作，Map 函数的输出也是形式，其中，key 是单

词，value 为该单词出现的次数。所以，Map 函数的输出类型为。

以下是单词计数程序的 Map 任务的实现代码。

public static class CoreMapper extends Mapper {

private static final IntWritable one = new IntWritable(1);

private static Text label = new Text();

public void map(Object key,Text value,Mapper Context context)throws IOException,InterruptedException {

StringTokenizer tokenizer = new StringTokenizer(value.toString());

while(tokenizer.hasMoreTokens()) {

label.set(tokenizer.nextToken());

context.write(label,one);

}

在上述代码中，实现 Map 任务的类为 CoreMapper。该类首先将需要输出的两个变量 one 和 label 进行初始化。

变量 one 的初始值直接设置为 1，表示某个单词在文本中出现过。

Map 函数的前两个参数是函数的输入参数，value 为 Text 类型，是指每次读入文本的一行，key 为 Object 类型，是指输入的

行数据在文本中的行号。

StringTokenizer 类机器方法将 value 变量中文本的一行文字进行拆分，拆分后的单词放在 tokenizer 列表中。然后程序通过循

环对每一个单词进行处理，把单词放在 label 中，把 one 作为单词计数。

在函数的整个执行过程中，one 的值一直是 1。在该实例中，key 没有被明显地使用到。context 是 Map 函数的一种输出方

式，通过使用该变量，可以直接将中间结果存储在其中。

根据上述代码，Map 任务结束后，3 个文件的输出结果如表 2 所示。

表表 2 单词计数单词计数 Map 任务输出结果任务输出结果

文件名文件名/Map file001/Map1 file002/Map2 file003/Map3

Map 任务输出结果任务输出结果

编写编写 Reduce 程序程序

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38653085

粉丝: 4
资源: 926

会员权益专享

MapReduce实战：Hadoop单词计数教程

MapReduce实例分析：单词计数

mapreduce wc单词计数 自定义分区 自定义排序实现

实验项目 MapReduce 编程

mapreduce编程实例:单词计数

我需要一份mapreduce编程实例

MapReduce编程实例——词频统计

pycharm实现mapreduce编程实例代码

23/06/11 12:39:32 INFO mapreduce.Job: map 0% reduce 0% 23/06/11 12:39:39 INFO mapreduce.Job: map 100% reduce 0% 23/06/11 12:39:39 INFO mapreduce.Job: Job job_1686457988749_0001 completed successfully

在大数据实验平台上完成mapreduce实验单词计数

error mapreduce.exportjobbase: export job failed!

mapreduce单词计数分析

MapReduce实现单词计数代码

安装sqoop时INFO mapreduce.ImportJobBase: Transferred 0 bytes in 2.117 seconds (0 bytes/sec) 2023-06-07 14:42:05,271 INFO mapreduce.ImportJobBase: Retrieved 3 records. 2023-06-07 14:42:05,271 ERROR tool.ImportTool: Error during import: Import job failed!

INFO mapreduce.Job: Running job: job_1683733549235_0001

会员权益专享

最新资源

mapreduce wc单词计数自定义分区自定义排序实现