Hadoop二次排序深度解析：原理与实战

144 浏览量更新于2024-09-02 收藏 71KB PDF 举报

"了解hadoop二次排序的原理和实现方法，包括Map阶段、分区与排序、Reduce阶段的关键步骤，以及如何自定义比较器和分组器。" 在分布式计算框架Hadoop中，一次排序指的是默认的MapReduce过程，即在Map阶段按照Key进行排序，然后在Reduce阶段将相同Key的值聚合在一起。然而，有时我们需要对Value也进行排序，这就需要用到hadoop的二次排序。二次排序允许我们在Key排序的基础上，进一步对每个Key对应的Value集合进行排序。 1. Map起始阶段：在Map阶段，Hadoop会根据`job.setInputFormatClass()`定义的InputFormat来处理输入数据，例如，使用`TextInputFormat`，它将输入的每一行文本视为一个记录，行号作为Key，整行文本作为Value。Mapper的`map()`方法接收这些Key-Value对，对其进行处理并输出新的中间结果。 2. Map最后阶段：在Map阶段结束时，Hadoop会使用`job.setPartitionerClass()`定义的Partitioner对Mapper的输出进行分区，决定哪些Key将被送到哪个Reducer。接着，系统会使用`job.setSortComparatorClass()`设置的自定义比较器对每个分区内的Key进行排序。如果未指定比较器，系统将使用Key的默认`compareTo()`方法。 3. Reduce阶段：在Reduce阶段，所有映射到同一个Reducer的Key-Value对会被再次按照`job.setSortComparatorClass()`设置的Key比较器排序。接下来，系统使用`job.setGroupingComparatorClass()`定义的分组比较器将相同Key的Value聚合成一组，形成一个Key对应的Value迭代器。这个迭代器的第一个Key代表了整个组，而Value迭代器则包含该组的所有Value。Reducer的`reduce()`方法接收这些已经排序和分组的Key-Value对，执行进一步的计算。为了实现二次排序，你需要自定义以下组件： - **Partitioner**：控制数据如何分布到各个Reducer。通常，Partitioner会基于Key的某种属性（如哈希值）进行分区。 - **Sort Comparator**：定义Key的排序规则，决定Map输出的Key如何在Reducer之间进行排序。 - **Group Comparator**：用于在Reduce阶段对Key进行分组，决定哪些Key会被分到同一组，这直接影响Value的排序。在编写这些自定义类时，你需要继承Hadoop提供的基础类，如`Partitioner`, `.Comparator`等，并重写必要的方法，以实现特定的排序和分组逻辑。 hadoop的二次排序是通过结合自定义的Partitioner、Sort Comparator和Group Comparator，实现对Key-Value对的复杂排序需求，以满足更高级别的数据分析和处理任务。理解和掌握二次排序的原理与实现，对于优化Hadoop MapReduce作业的性能和满足特定的业务需求至关重要。

hadoop二次排序的原理和实现方法二次排序的原理和实现方法

主要介绍了hadoop二次排序的原理和实现,本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价

值，需要的朋友可以参考下

默认情况下，Map输出的结果会对Key进行默认的排序，但是有时候需要对Key排序的同时还需要对Value进行排序，这时候就

要用到二次排序了。下面我们来说说二次排序

1、二次排序原理、二次排序原理

我们把二次排序分为以下几个阶段

Map起始阶段起始阶段

在Map阶段，使用job.setInputFormatClass()定义的InputFormat，将输入的数据集分割成小数据块split，同时InputFormat提供

一个RecordReader的实现。在这里我们使用的是TextInputFormat，它提供的RecordReader会将文本的行号作为Key，这一

行的文本作为Value。这就是自定 Mapper的输入是<LongWritable,Text> 的原因。然后调用自定义Mapper的map方法，将一

个个<LongWritable,Text>键值对输入给Mapper的map方法

Map最后阶段最后阶段

在Map阶段的最后，会先调用job.setPartitionerClass()对这个Mapper的输出结果进行分区，每个分区映射到一个Reducer。每

个分区内又调用job.setSortComparatorClass()设置的Key比较函数类排序。可以看到，这本身就是一个二次排序。如果没有通

过job.setSortComparatorClass()设置 Key比较函数类，则使用Key实现的compareTo()方法

Reduce阶段阶段

在Reduce阶段，reduce()方法接受所有映射到这个Reduce的map输出后，也会调用job.setSortComparatorClass()方法设置的

Key比较函数类，对所有数据进行排序。然后开始构造一个Key对应的Value迭代器。这时就要用到分组，使用

job.setGroupingComparatorClass()方法设置分组函数类。只要这个比较器比较的两个Key相同，它们就属于同一组，它们的

Value放在一个Value迭代器，而这个迭代器的Key使用属于同一个组的所有Key的第一个Key。最后就是进入Reducer的

reduce()方法，reduce()方法的输入是所有的Key和它的Value迭代器，同样注意输入与输出的类型必须与自定义的Reducer中

声明的一致

接下来我们通过示例，可以很直观的了解二次排序的原理

输入文件 sort.txt 内容为

40 20 40 10 40 30 40 5 30 30 30 20 30 10 30 40 50 20 50 50 50 10 50 60

输出文件的内容（从小到大排序）如下

30 10 30 20 30 30 30 40 -------- 40 5 40 10 40 20 40 30 -------- 50 10 50 20 50 50 50 60

从输出的结果可以看出Key实现了从小到大的排序，同时相同Key的Value也实现了从小到大的排序，这就是二次排序的结果

2、二次排序的具体流程、二次排序的具体流程

在本例中要比较两次。先按照第一字段排序，然后再对第一字段相同的按照第二字段排序。根据这一点，我们可以构造一个复

合类IntPair ，它有两个字段，先利用分区对第一字段排序，再利用分区内的比较对第二字段排序。二次排序的流程分为以下

几步。

在本例中要比较两次。先按照第一字段排序，然后再对第一字段相同的按照第二字段排序。根据这一点，我们可以构造一个复

合类IntPair ，它有两个字段，先利用分区对第一字段排序，再利用分区内的比较对第二字段排序。二次排序的流程分为以下

几步。

1、自定义 key

所有自定义的key应该实现接口WritableComparable，因为它是可序列化的并且可比较的。WritableComparable 的内部方法

如下所示

// 反序列化，从流中的二进制转换成IntPair

public void readFields(DataInput in) throws IOException

// 序列化，将IntPair转化成使用流传送的二进制

public void write(DataOutput out)

// key的比较

public int compareTo(IntPair o)

// 默认的分区类 HashPartitioner，使用此方法

public int hashCode()

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38601499

粉丝: 2

Hadoop二次排序深度解析：原理与实战

hadoop 二次排序 原理

大数据学习资料全排序二次排序

Hadoop二次开发必懂

Hadoop数据处理框架MapReduce原理及开发

hadoop源码

hadoop介绍

hadoop压缩包

大数据技术分享 Hadoop运行原理分析 共3页.pdf

深入解析Hadoop MapReduce的设计与实现原理

Hadoop MapReduce深度解析：架构与实现揭秘

最新资源

hadoop 二次排序原理

大数据技术分享 Hadoop运行原理分析共3页.pdf