MapReduce深度解析：InputFormat与分片策略详解

需积分: 9 47 浏览量更新于2024-09-12 收藏 23KB DOCX 举报

MapReduce计算模型是一种分布式计算框架，由Google开发并开源，用于处理大规模数据集。本文将详细介绍MapReduce的执行流程，特别是结合Hadoop源码进行深入解析。整个过程分为两个主要阶段：输入处理和映射与归约。 **第一阶段：输入处理** 在MapReduce作业开始时，InputFormat扮演关键角色。它负责： 1. **输入有效性检查**：通过`isSplitable`接口（默认为`true`），InputFormat会验证输入是否可以被分割。这通常基于文件类型，如文本文件通常是可分割的。 2. **分割InputSplit**：InputFormat根据配置参数`mapred.min.split.size`和`mapred.max.split.size`确定分片大小范围。分片大小计算策略考虑了块大小（HDFS存储的基本单位）和用户设定的分片大小限制。具体而言，先取块大小和用户设置的最大分片大小中的较小值，再取这个值和最小分片大小中的较大值，最后确定分片大小。 3. **提供RecordReader**：对于每个InputSplit，InputFormat必须提供一个`RecordReader`实例，该接口用于逐行读取输入分片中的记录，并将这些记录传递给Map函数进行处理。`getRecordReader`方法的主要职责是创建并返回这个读者。 `InputSplit`接口本身也包含一些重要的方法，例如获取分片长度（`getLength()`）和数据节点信息（可能是哪个Datanode存储了这部分数据，`getLocations()`）。 **I/O操作细节** HDFS（Hadoop Distributed File System）作为MapReduce的基础，提供了数据的高效存储和访问。当MapReduce读取InputSplit时，它实际上是与HDFS的Datanode通信，请求特定的记录块。Datanode是HDFS的存储节点，负责存储和管理数据块。RecordReader读取数据的过程通常是顺序的，但可以通过网络高效地分发给多个Map任务。总结来说，MapReduce计算模型的起点是InputFormat，它负责数据的预处理和分片，然后是RecordReader的实际读取操作，这两个部分共同确保了大规模数据的有效并行处理。同时，HDFS的存在为这个模型提供了可靠的数据存储和I/O优化。理解这些细节有助于开发人员更有效地利用MapReduce进行数据处理任务。

第一阶段：

当 Hadoop 运行 MapReduce 作业时，需要依赖 InputFormat 来完成以下几方面的工作：

1. 检查作业的输入是否有效，isplitable 接口(抽象类 FileInputFormat 才有)，默认为 true。

2. 将输入文件分割成逻辑上的多个 InputSplit，然后将每个 InputSplit 分别传给单独的一个 Map 进行处理。也就是说 Map 任务的数量是由 InputSplit 的数量决定的，有

多少个 InputSplit 对应着有多少个 Map 任务。

3. InputSplit 是由一条条记录组成的，所以 InputSplit 需要提供一个 RecordReader 的实现，然后通过 RecordReader 的实现来读取 InputSplit 中的每条记录，并将读取的记

录交给 Map 函数来处理

InputFormat 接口

// 将所有的输入文件分割成逻辑上的多个分片 InputSplit。每个分片仅仅是逻辑上的分片，并不是真正的将文件分割成多个数据块。每个 InputSplit 通过输入文件路径、

开始位置和偏移量三个信息来唯一的标识

public abstract InputSplit[] getSplits(JobConf jobconf, int i) throws IOExcep#on;

// 该方法的主要作用就是为指定的 InputSplit 创建记录读取器，通过创建的记录读取器从输入分片中读取键值对，然后将键值对交给 Map 来处理。

public abstract RecordReader getRecordReader(InputSplit inputsplit, JobConf jobconf, Reporter reporter) throws IOExcep#on;

分片划分：

mapred.min.split.size 分片的最小值

mapred.max.split.size 分片的最大值

分片大小的计算策略为：首先取出块大小和设置的分片大小的最大值中的较小值，然后再取出上一步计算出的较小值和设置的分片大小的最小值的较大值，最终将第二

步取出的较大值作为实际分片的大小。

IputSplit 接口

//取得输入分片的大小

public abstract long getLength() throws IOExcep#on, InterruptedExcep#on;

//取得保存该输入分片的数据结点（datanode）的列表。

public abstract String[] getLoca!ons() throws IOExcep#on, InterruptedExcep#on;

FileSplit 实现类

private Path -le;//该输入分片所在的文件

private long start; //该输入分片在文件中的起始位置

private long length;//该输入分片的大小（偏移量）

private String[] hosts;//保存该输入分片的 datanode 的列表

其主要成员方法为：成员变量的初始化在构造函数时初始以及他们的 get 方法，write(DataOutput out) readFields(DataInput in) 对最开始的三个成员变量进行序列化与反序

列化。

下载后可阅读完整内容，剩余3页未读，立即下载

年华似水

粉丝: 41
资源: 14

MapReduce深度解析：InputFormat与分片策略详解

ExcelRecordReaderMapReduce:可以读取Excel文件的MapReduce InputFormat

Mapreduce 分享

MapReduce分析Youtube数据内含源码以及说明书可以自己运行复现.zip

深入理解Spark核心思想与源码分析

Spark源码剖析

hadoop权威指南的源码

Hadoop源码分析（完整版）

大数据分析与挖掘-源码.zip

Hadoop 2.6.0 CDH5.14.2编译后源码包解读

Java分布式网络爬虫开源项目源码解读

最新资源