MapReduce Join操作解析：MapSide Join与ReduceSide Join

需积分: 0 71 浏览量更新于2024-08-04 收藏 631KB PDF 举报

"本文主要介绍了MapReduce框架中的两种JOIN操作：Map Side Join和Reduce Side Join，以及它们在处理分布式数据集关联时的应用和优缺点。" MapReduce是一种用于处理和生成大数据集的分布式计算模型，它由两个主要阶段组成：Map阶段和Reduce阶段。在处理涉及多个数据集的任务时，JOIN操作变得至关重要。JOIN操作在关系数据库中广泛使用，用于合并来自多个表的相关记录。在MapReduce中，JOIN操作也有两种主要实现方式：Map Side Join和Reduce Side Join。 ### Map Side Join Map Side Join在Map阶段完成JOIN操作。这种JOIN方式适用于一种情况，即一个输入数据集（通常称为“小表”）可以完全加载到内存中。在Map阶段，小表被分区并缓存在内存中，然后与大表的数据进行匹配。当Map处理大表时，它会检查当前处理的键是否与小表中的键相匹配，如果匹配则进行JOIN操作。由于JOIN在Map阶段完成，所以可以显著减少网络传输的数据量，提高了效率。示例中，商品信息（goods）作为小表，订单信息（order_goods）作为大表。Map阶段会加载商品信息到内存，并在处理订单信息时进行JOIN，以便在输出中包含商品名称。 ### Reduce Side Join Reduce Side Join是在Reduce阶段执行JOIN操作。Mapper阶段读取不同的数据集，然后输出相同的JOIN字段作为Key，这样在Shuffle阶段，相同Key的数据会被分发到同一个Reducer。Reducer负责处理这些数据，进行JOIN操作。然而，Reduce Side Join的主要缺点是JOIN的大部分工作都在Reducer上完成，这可能导致Reducer负载过重，特别是在数据集非常大且Reducer数量有限（默认为1）的情况下。此外， Shuffle阶段的数据传输对于大数据集来说成本高昂。在实现Reduce Side Join时，可以通过在Mapper阶段对不同输入数据添加特定前缀（如G#和O#）来区分数据来源，这样Reducer可以根据前缀识别并处理相关数据。 ### 总结 Map Side Join适合于小表与大表JOIN的情况，能够减轻Reducer的压力，提高性能。而Reduce Side Join适用于无法将小表完全加载到内存的情况，但可能会面临Reducer负载不均和网络传输成本高的问题。在实际应用中，开发者需要根据数据规模、硬件资源和业务需求来选择合适的JOIN策略。在Hadoop生态系统中，还有其他高级工具如Hive、Pig等提供了更灵活的JOIN实现方式，可以进一步优化大规模数据集的JOIN操作。

2）、reducer

// 100101|155083444927602|四川果冻橙6个约180g/个

// 100102|155083493976803|鲜丰水果秭归脐橙中华红橙9斤家庭装单果130g—220g4500g

// 订单信息

// 订单ID |商品ID|成交价格

// 11152|108464|76

// 11152|109995|1899

protected void map(LongWritable key, Text value, Context context) throws

IOException, InterruptedException {

String[] line = value.toString().split("\\|");

if ("goods.txt".equals(sourceFileName)) {// 商品信息

Counter goodsCounter = context.getCounter("goods_records_counters",

"goods Records");

goodsCounter.increment(1);

outKey.set(line[0]);

outValue.set("G#" + value.toString());

} else if ("order.txt".equals(sourceFileName)) {// 订单信息

Counter orderCounter = context.getCounter("order_records_counters",

"order Records");

orderCounter.increment(1);

outKey.set(line[1]);

outValue.set("O#" + value.toString());

}

context.write(outKey, outValue);

}

import java.io.IOException;

import java.util.ArrayList;

import java.util.Collections;

import java.util.Comparator;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class ReducerSideJoinReducer extends Reducer<Text, Text, Text,

NullWritable> {

List<String> orderList = new ArrayList<String>();

Map<String, String> goodsMap = new HashMap<String, String>();

StringBuilder outValue = new StringBuilder();

Text outKey = new Text();

protected void reduce(Text key, Iterable<Text> values, Context context)

throws IOException, InterruptedException {

// 商品信息

剩余13页未读，继续阅读

一瓢一瓢的饮alanchanchn

粉丝: 5062
资源: 69

MapReduce Join操作解析：MapSide Join与ReduceSide Join

Mapside-Join

hadoop_join.jar.zip_hadoop_hadoop query_reduce

hadoop mapreduce多表关联join多个job相互依赖传递参数

mapreduce的join操作详解

mapreduce的join操作有几个job 详细解释

hive mapjoin

MapReduce实现join操作

简单描述hadoop实现join的几种方法

hive大表join小表

hive大表join大表如何避免数据倾斜

最新资源