Hadoop Map端连接：CompositeInputFormat详解

16 浏览量更新于2024-08-29 收藏 174KB PDF 举报

"map端连接使用了CompositeInputFormat类，这是一种在MapReduce中实现数据集连接的方法，尤其适用于大数据集的场景。它要求输入数据集满足特定条件，如相同键排序、相同分区数且不可分割的输出文件。通过设置job的输入格式为CompositeInputFormat，并配置连接表达式来指定连接方式、输入源和数据集路径。" 在Hadoop MapReduce框架中，9.3.2章节探讨的是如何在map阶段进行数据连接，这通常被称为map-side join。这种连接方式主要适用于两个大型数据集，由于数据量过大，无法在内存中完全缓存。`CompositeInputFormat` 类是实现map-side join的关键，它允许我们在map阶段合并来自不同数据源的数据。 **1. 使用条件** 在使用`CompositeInputFormat`进行map端连接时，需要满足以下三个关键条件： 1) **数据集大小**：两个数据集都是大规模的，不适用缓存整个文件。 2) **键排序**：两个数据集都按照相同的键进行排序。 3) **分区一致性**：数据集有相同的分区数，确保每个键的所有记录都在同一个分区中，并且输出文件是不可分割的，这样可以保证map阶段连接的正确性。 **2. 实现过程** 在map阶段之前，两个数据集首先会经过reduce处理，reduce任务的数量相同，都是n。每个数据集会被分区并输出到n个文件中，确保同一键的记录位于同一分区，且所有数据已经按照连接键排序。如果reduce任务数量相同、键相同、数据按键排序，且输出文件不可分割（小于一个HDFS块或通过gzip压缩），那么就可以执行map-side join。 **3. `CompositeInputFormat`类** `CompositeInputFormat` 类是实现map-side join的核心，它使得作业能够处理多个输入源。通过设置作业的输入格式为`CompositeInputFormat.class`，并使用配置对象`conf` 设置连接表达式。这个表达式定义了连接方式（如inner join、outer join等）、输入数据集的读取方式以及两个数据集的路径。连接表达式通常包含在`JOIN_EXPR`配置项中。例如： ```java job.setInputFormatClass(CompositeInputFormat.class); conf.set(CompositeInputFormat.JOIN_EXPR, CompositeInputFormat.compose("inner", KeyV1.class, ValueV1.class, "path/to/data1", KeyV2.class, ValueV2.class, "path/to/data2")); ``` 上述代码展示了如何配置一个内连接，其中`KeyV1`和`ValueV1`对应第一个数据集，`KeyV2`和`ValueV2`对应第二个数据集，而`"path/to/data1"`和`"path/to/data2"`是它们各自的路径。通过这样的配置，`CompositeInputFormat`会在map阶段读取两个数据集，根据连接表达式进行连接操作，大大减少了数据传输和处理的成本，特别是在两个数据集有大量重叠键的情况下。然而，如果数据集之间没有明显的键重叠，或者数据量巨大导致无法满足上述条件，map-side join可能不是最佳选择，此时可能需要转向更复杂的shuffle阶段的join策略，如reduce-side join。

9.3.2 map端连接端连接-CompositeInputFormat连接类连接类

1.1.1 map端连接端连接-CompositeInputFormat连接类连接类

（（1）使用）使用CompositeInputFormat连接类需要满足三个条件连接类需要满足三个条件：

1）两个数据集都是大的数据集，不能用缓存文件的方式。

2）数据集都是按照相同的键进行排序；

3）数据集有相同的分区数，同一个键的所有记录在同一个分区中，输出文件不可分割；

要满足这三个条件，输入数据在达到map端连接函数之前，两个数据集被reduce处理，reduce任务数量相同都为n，两个数据

集被分区输出到n个文件，同一个键的所有记录在同一个分区中，且数据集中的数据都是按照连接键进行排序的。reduce数量

相同、键相同且都是按键排序、输出文件是不可切分的（小于一个HDFS块，或通过gzip压缩实现），则就满足map端连接的

前提条件。利用org.apach.hadoop.mapreduce.join包中的CompositeInputFormat类来运行一个map端连接。

（2）CompositeInputFormat类简介类简介

CompositeInputFormat类的作用就将job的输入格式设置为job.setInputFormatClass(CompositeInputFormat.class);同时通过

conf的set(String name, String value)方法设置两个数据集的连接表达式，表达式内容包括三个要素：连接方式（inner、

outer、override、tbl等），读取两个数据集的输入方式，两个数据集的路径。这三个要素按照一定的格式组织成字符串作为

表达式设置到conf中。

//设置输入格式为 CompositeInputFormat

job.setInputFormatClass(CompositeInputFormat.class);

//conf设置连接的表达式public static final String JOIN_EXPR = "mapreduce.join.expr";

Configuration conf = job.getConfiguration();

conf.set(CompositeInputFormat.JOIN_EXPR, CompositeInputFormat.compose(

"inner", KeyValueTextInputFormat.class,

FileInputFormat.getInputPaths(job)));

//等价转换之后就是如下表达式

//conf.set("mapreduce.join.expr", CompositeInputFormat.compose(

// "inner", KeyValueTextInputFormat.class, userPath,commentPath));

CompositeInputFormat类的源码如下

// Source code recreated from a .class file by IntelliJ IDEA

// (powered by Fernflower decompiler)

package org.apache.hadoop.mapreduce.lib.join;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

import java.util.Map.Entry;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.hadoop.classification.InterfaceAudience.Public;

import org.apache.hadoop.classification.InterfaceStability.Stable;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.mapreduce.InputFormat;

import org.apache.hadoop.mapreduce.InputSplit;

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38670391

粉丝: 7
资源: 955

Hadoop Map端连接：CompositeInputFormat详解

CompositeInputFormat:了解 MapReduce 中的数据连接

grafana-enterprise-9.3.2.linux-armv7.tar.gz

ipad mini降级ios 9.3.2

devexpress 9.3.2

npm的glob@v9.3.2如何使用

关于中草药销售策划，围绕以下方面策划，9、市场营销 9.1目标市场 9.1.1市场前景 9.2竞争优势 9.2.1政策优势 9.2.2材料性能优势 9.3市场营销 9.3.1市场需求 9.3.2 多渠道营销推广 9.3.3完善营销机制

grafana的docker安装教程

27001 2022

各种函数声明和定义模块

最新资源