Hadoop MapReduce详解：入门与实战

92 浏览量更新于2024-08-30 收藏 716KB PDF 举报

Hadoop二次开发深入理解MapReduce核心组件在进行Hadoop的二次开发时，MapReduce是其核心组件之一，它是一种分布式计算模型，用于处理大规模数据集。首先，让我们回顾一下Hadoop生态系统的基础——分布式文件系统HDFS（Hadoop Distributed File System）。虽然对文件系统有基本认识，但在此前，我们通常会直接进入MapReduce的学习，因为其逻辑独立于文件系统的底层细节。 MapReduce的工作流程通常包括两个主要阶段：Map阶段和Reduce阶段。在启动Hadoop的wordcount示例（`hadoopjarhadoop-0.19.0-examples.jarwordcount/usr/input/usr/output`）中，用户提交任务后，JobTracker作为协调者，负责调度这些任务。Map阶段（例如M1、M2和M3）首先运行，将输入数据拆分成小块（InputSplit），每个块由RecordReader处理生成键值对(k, v)。用户可以通过自定义InputFormat实现，如ASCII文件或JDBC数据库，来适应不同数据源。在Map阶段，数据通过mapper函数进行处理，这里的`context.collect()`方法将中间结果暂存于context中。为了优化性能，Map阶段通常包含Combiner功能，它可以局部合并键值对，减少后续Reduce阶段的数据量。这在图中表现为M1中的黄色部分，Combiner合并键值对后，再由Partitioner根据预设规则分配到不同的reduce任务。当Mapper完成其输出后，数据会进入混洗（Shuffle）阶段，这是Reduce阶段的第一步。在这个阶段，所有与同一键关联的值都被收集在一起，形成一个键值对的列表。接下来，数据会按照键进行排序（sort），确保相同键的值在同一Reduce任务中处理。排序后，数据进入Reduce阶段（如R1和R2），在这里，reduce函数接收这些键值对，执行聚合操作，最后将结果输出到HDFS的特定输出目录。总结来说，Hadoop二次开发涉及对MapReduce的深入理解，包括任务调度、数据划分、中间结果处理、合并和排序机制。开发者需要熟练掌握InputFormat、RecordReader、Mapper、Combiner、Partitioner和Reducer这些关键组件的用法，以便定制自己的数据处理算法和优化性能。理解并灵活运用这些原理是进行Hadoop大数据处理项目的关键。

Hadoop二次开发必懂二次开发必懂

MapReduce概论

大家都熟悉文件系统，在对HDFS进行分析前，我们并没有花很多的时间去介绍HDFS的背景，毕竟大家对文件系统的还是有

一定的理解的，而且也有很好的文档。在分析Hadoop的MapReduce部分前，我们还是先了解系统是如何工作的，然后再进入

我们的分析部分。下面的图来是我看到的讲MapReduce最好的图。

以Hadoop带的wordcount为例子（下面是启动行）：

hadoop jar hadoop-0.19.0-examples.jar wordcount /usr/input /usr/output

用户提交一个任务以后，该任务由JobTracker协调，先执行Map阶段（图中M1，M2和M3），然后执行Reduce阶段（图中R1

和R2）。Map阶段和Reduce阶段动作都受TaskTracker监控，并运行在独立于TaskTracker的Java虚拟机中。

我们的输入和输出都是HDFS上的目录（如上图所示）。输入由InputFormat接口描述，它的实现如ASCII文件，JDBC数据库

等，分别处理对于的数据源，并提供了数据的一些特征。通过InputFormat实现，可以获取InputSplit接口的实现，这个实现用

于对数据进行划分（图中的splite1到splite5，就是划分以后的结果），同时从InputFormat也可以获取RecordReader接口的实

现，并从输入中生成<k,v>对。有了<k,v>，就可以开始做map操作了。

map操作通过context.collect（最终通过OutputCollector. collect）将结果写到context中。当Mapper的输出被收集后，它们会

被Partitioner类以指定的方式区分地写出到输出文件里。我们可以为Mapper提供Combiner，在Mapper输出它的<k,v>时，键

值对不会被马上写到输出里，他们会被收集在list里（一个key值一个list），当写入一定数量的键值对时，这部分缓冲会被

Combiner中进行合并，然后再输出到Partitioner中（图中M1的黄颜色部分对应着Combiner和Partitioner）。

Map的动作做完以后，进入Reduce阶段。这个阶段分3个步骤：混洗（Shuffle），排序（sort）和reduce。

混洗阶段，Hadoop的MapReduce框架会根据Map结果中的key，将相关的结果传输到某一个Reducer上（多个Mapper产生的

同一个key的中间结果分布在不同的机器上，这一步结束后，他们传输都到了处理这个key的Reducer的机器上）。这个步骤中

的文件传输使用了HTTP协议。

排序和混洗是一块进行的，这个阶段将来自不同Mapper具有相同key值的<key,value>对合并到一起。Reduce阶段，上面通过

Shuffle和sort后得到的<key, (list of values)>会送到Reducer. reduce方法中处理，输出的结果通过OutputFormat，输出到DFS

中。

MapTask

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下：

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38630091

粉丝: 7
资源: 874

Hadoop MapReduce详解：入门与实战

Hadoop二次开发必懂（下）

es-hadoop二次开发包

Hadoop大数据开发基础.rar

hadoop大数据开发案例教程与项目实战

hadoop开发环境搭建

linux eclipse hadoop开发

eclips配置hadoop开发环境

头歌hadoop开发环境搭建

Hadoop大数据开发课程描述

windows10 hadoop spark 本地环境开发测试

最新资源