Hadoop MapReduce实战：数据去重与处理

5星 · 超过95%的资源需积分: 50 156 浏览量更新于2024-07-19 1 收藏 2.32MB DOC 举报

"Hadoop编程实例，包括数据去重、数据排序、平均成绩计算、单表关联、多表关联和倒排索引等多个MapReduce程序设计的详细实例" 在这个Hadoop编程实例中，主要展示了如何利用MapReduce框架解决一系列大数据处理问题。首先，我们将深入探讨数据去重的实现。 1. 数据去重数据去重是大数据处理中的常见需求，例如统计唯一数据种类或排除重复的日志记录。在这个实例中，目标是去除数据文件中的重复行。Map阶段，每个mapper读取输入数据，对每一行数据（假设为独立的key）生成<key, value>对，其中value通常是常量或者无意义的值。Reduce阶段，所有相同的key（即重复的数据）会被分发到同一个reducer，reducer只需要输出一次该key即可，实现去重。这可以通过仅保留第一个接收到的value并忽略后续的value来实现。 1. 数据排序数据排序是另一个重要的MapReduce任务，特别是在需要对数据进行聚合或查找最大/最小值时。在Map阶段，mapper生成<key, value>对，key是需要排序的字段，value可以是原记录或其他相关信息。Reduce阶段，相同key的数据会被分发到同一个reducer，由于Hadoop的默认排序机制会先按key排序再按value排序，所以输出结果将是有序的。 2. 平均成绩计算平均成绩通常涉及到对一组数值的求和与计数操作。Map阶段，mapper接收学生分数数据，生成<score, 1>对表示每条记录，Reduce阶段累加score并计算总数，最后除以计数得到平均值。 3. 单表关联在数据库操作中，单表关联是指基于某个条件将表中的记录互相连接。在MapReduce中，可以将条件作为key，相关记录作为value，然后在Reduce阶段合并这些记录。这通常用于执行Join操作。 4. 多表关联多表关联更为复杂，涉及多个数据源的联合查询。通过设置不同的key，mapper将不同表的记录映射到对应的reducer，reducer再根据key进行匹配和组合。 5. 倒排索引倒排索引是一种用于快速查找特定词汇在文档中出现位置的索引结构。在Map阶段，mapper将每个文档的每个词作为key，生成<word, <doc_id, position>>对，Reduce阶段则将所有属于同一词的记录收集在一起，构建出词到文档位置的映射。以上实例详尽地展示了如何利用MapReduce解决不同类型的问题，从基础的数据去重到复杂的关联操作和索引构建，为Hadoop开发者提供了实际操作的参考。通过这些实例，开发者能够更好地理解和应用MapReduce编程模型，以处理大规模数据集上的各种挑战。

图 1.4-4 运行结果



 此时，你可以对比一下和我们之前预期的结果是否一致。

2、数据排序

　　"数据排序"是许多实际任务执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个

实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础。下面进入这个示

例。

2.1 实例描述

 对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有

两个间隔的数字，其中，第一个代表原始数据在原始数据集中的位次，第二个代表原始数据。

 样例输入：

1）file1：



654

756

65223



2）file2：



5956

650



3）file3：



 样例输出：



1 2

2 6

3 15

4 22

5 26

//map 将输入中的 value 化成 IntWritable 类型，作为输出的 key

publicstaticclassMapextends

　　　　　　　　Mapper<Object,Text,IntWritable,IntWritable>{

privatestaticIntWritabledata=newIntWritable();



//实现 map 函数

publicvoidmap(Object key,Text value,Context context)

throwsIOException,InterruptedException{

 String line=value.toString().trim();

data.set(Integer.parseInt(line));

 context.write(data,newIntWritable(1));

 }



 }



//reduce 将输入中的 key 复制到输出数据的 key 上，

//然后根据输入的 value-list 中元素的个数决定 key 的输出次数

//用全局 linenum

来代表 key 的位次

publicstaticclassReduceextends

 Reducer<IntWritable,IntWritable,IntWritable,IntWritable>{



privatestaticIntWritablelinenum=newIntWritable(1);



//实现 reduce 函数

publicvoidreduce(IntWritable key,Iterable<IntWritable>

values,Context context)

throwsIOException,InterruptedException{

for(IntWritableval:values){

 context.write(linenum, key);

linenum=newIntWritable(linenum.get()+1);

 }



 }



 }



publicstaticvoidmain(String[] args)throwsException{

 Configuration conf =newConfiguration();

//这句话很关键

 conf.set("mapred.job.tracker","192.168.1.2:9001");



 String[] ioArgs=newString[]{"sort_in","sort_out"};

 String[] otherArgs =newGenericOptionsParser(conf,

ioArgs).getRemainingArgs();

剩余45页未读，继续阅读

qq_33400862

粉丝: 0
资源: 1

Hadoop MapReduce实战：数据去重与处理

MapReduce入门案例.rar

基于Hadoop应用开发的例子（新手入门宝典）

hadoop源码的第三方jar包

Hadoop编程实例源码

hadoop应用实例

Hadoop之MapReduce编程实例完整源码

hadoop MapReduce实例解析

09-Hadoop编程

hadoop实例

基础学习hadoop编程篇.pdf

最新资源