MapReduce入门：数据去重案例详解

需积分: 0 5 浏览量更新于2024-07-25 1 收藏 1MB PDF 举报

在这个MapReduce初级案例中，我们主要探讨了如何利用Hadoop框架实现数据去重的功能。数据去重是IT领域常见的任务，特别是在处理大量数据时，它有助于减少重复信息，提高数据分析效率。案例中的目标是对两个输入文件(file1和file2)中的日期-字母对进行去重，确保每个唯一的组合只出现在输出文件中一次。 1. 实例描述： - 输入数据包含两个文件，每行代表一个数据项（日期-字母对），如 "2012-3-1a"、"2012-3-3c" 等。 - 输出期望是去除重复的数据项，只保留每对唯一的组合。 2. 设计思路： - 主要策略是利用MapReduce的特性，通过map阶段将原始数据转换为<key, value-list>形式，其中key是数据本身（日期-字母对），value是该数据出现的次数。这样，具有相同key的条目会被聚合在一起。 - 在map阶段，对于每一个数据项，生成一个<key, 1>对，表示数据第一次出现。由于value设为1，后续遇到相同key时，只需累加value即可。 - shuffle过程将map阶段的键值对按key进行排序和分发，使得具有相同key的value-list汇聚到同一reduce任务。 - reduce阶段的任务是接收来自所有map任务的key-value-list，对于每个key，它只保留第一个出现的value（通常是1），并将其他value置空，从而达到去重的目的。最后输出的key-value对将是<key, null>或<key, 空>。 3. 流程执行： - Map阶段：读取文件，解析每行数据，生成<key, 1>对，并写入磁盘临时分区。 - Shuffle阶段：根据key对map输出进行排序和分发，相同的key会集中到同一个reduce任务。 - Reduce阶段：接收key-value-list，遍历列表，只保留第一个出现的value，并将其余value置空，然后输出去重后的<key, null>对。这个案例展示了MapReduce模型在实际问题中的应用，尤其是如何通过并行化处理大规模数据，实现数据去重这样的核心任务。这对于理解分布式计算和Hadoop生态系统具有重要意义。同时，它也锻炼了编程技能，特别是Java编程，因为Hadoop MapReduce API主要使用Java编写。通过实践这样的案例，开发者可以逐步熟悉Hadoop的工作原理，提升自己的大数据处理能力。

创建时间：2012/3/9 修改时间：2012/3/11 修改次数：0

12 756

13 5956

14 65223

2.2 设计思路

这个实例仅仅要求对输入数据进行排序，熟悉 MapReduce 过程的读者会很快想到在

MapReduce 过程中就有排序，是否可以利用这个默认的排序，而不需要自己再实现具体的

排序呢？答案是肯定的。

但是在使用之前首先需要了解它的默认排序规则。它是按照 key 值进行排序的，如果

key 为封装 int 的 IntWritable 类型，那么 MapReduce 按照数字大小对 key 排序，如果 key

为封装为 String 的 Text 类型，那么 MapReduce 按照字典顺序对字符串排序。

了解了这个细节，我们就知道应该使用封装 int 的 IntWritable 型数据结构了。也就是在

map 中将读入的数据转化成 IntWritable 型，然后作为 key 值输出（value 任意）。reduce 拿到

<key，value-list>之后，将输入的 key 作为 value 输出，并根据 value-list 中元素的个数决定

输出的次数。输出的 key（即代码中的 linenum）是一个全局变量，它统计当前 key 的位次。

需要注意的是这个程序中没有配置 Combiner，也就是在 MapReduce 过程中不使用 Combiner。

这主要是因为使用 map 和 reduce 就已经能够完成任务了。

2.3 程序代码

程序代码如下所示：

packagecom.hebut.mr;



importjava.io.IOException;



importorg.apache.hadoop.conf.Configuration;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.Mapper;

importorg.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

importorg.apache.hadoop.util.GenericOptionsParser;



publicclassSort{



 //map 将输入中的 value 化成 IntWritable 类型，作为输出的 key

 publicstaticclassMapextends

Mapper<Object,Text,IntWritable,IntWritable>{

河北工业大学——软件工程与理论实验室编辑：虾皮

剩余42页未读，继续阅读

jdzwhy

粉丝: 0
资源: 11

MapReduce入门：数据去重案例详解

细细品味Hadoop_Hadoop集群（第9期）_MapReduce初级案例

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第9期_MapReduce初级案例 共43页.pdf

Mapreduce初级编程实践

mapreduce基础实战-大数据处理技术MapReduce的基础应用与实战案例-词频统计详解

Hadoop原理与技术MapReduce实验

MapReduce编程模型基础实战教程：理解并实现大规模数据处理

Hadoop集群实战：数据去重MapReduce案例

Hadoop初学者指南：数据去重MapReduce案例解析

Hadoop集群实战：MapReduce数据去重案例解析

Hadoop MapReduce初学者指南：数据去重案例分析

最新资源

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第9期_MapReduce初级案例共43页.pdf