理解Hadoop MapReduce：思想、设计与实践

需积分: 9 39 浏览量更新于2024-07-24 收藏 1.08MB PDF 举报

"Hadoop分析原件，主要探讨MapReduce的思想起源、设计思路、模型实现以及在实际使用中可能遇到的问题，如Map和Reduce的个数确定、Shuffle、Partition和Combiner的工作原理及其相互关系。" MapReduce是Google提出的一种分布式计算模型，被广泛应用于大数据处理领域，尤其是在Hadoop框架中。它简化了并行处理大规模数据集的复杂性，使得开发者能够专注于数据处理逻辑，而无需关心底层的分布式存储和执行细节。 1. **思想起源**：MapReduce的概念源于日常生活中的分拣和归类工作。例如，图书馆的图书分类，人们将书籍按照类别划分，然后进行处理（如编目）。在计算机科学中，Map阶段相当于“分”，将输入数据分割成键值对；Reduce阶段相当于“合”，对相同键的值进行聚合操作。 2. **设计思路**：MapReduce的核心是将大任务分解为许多小任务，分别在不同的节点上并行执行。Map阶段，数据被分割成多个部分，并分配到各个节点，每个节点上的Map函数处理局部数据。Reduce阶段，经过Map处理的数据被聚合，通过Shuffle和Partition过程，将相同键的数据发送到同一个Reducer进行处理。 3. **模型实现**：在编程模型中，用户定义Map和Reduce函数，Hadoop框架负责数据的分布、容错和结果合并。Map函数接收输入数据块，生成中间键值对；Reduce函数则对Map的输出进行聚合，生成最终结果。 4. **产生问题与解答**： - **Map的个数**：Map的数量通常由输入数据的大小和Split的设置决定，一个Split对应一个Map任务。 - **Reduce的个数**：Reduce的个数由用户在程序中配置，或者根据系统资源动态调整。Partition函数决定了哪些键的数据会被送到哪个Reducer。 - **Shuffle**：Shuffle是MapReduce中的数据排序和分区过程，它将Map的输出按照键进行排序，并将相同键的数据分发到相应的Reducer。 - **Partition**：Partitioner用于决定键如何被分布到不同的Reducer，通常基于哈希函数实现，确保相同键的数据被发送到同一个Reducer。 - **Combiner**：Combiner是一个可选的优化步骤，它在Map阶段就对数据进行局部聚合，减少网络传输的数据量。Combiner的输出必须与Reduce的输出保持一致，以保证整体结果的正确性。 MapReduce的运行流程包括：数据读取、Map处理、Shuffle（排序和分区）、Reduce处理以及结果写回。这一模型在Hadoop中实现了大数据处理的高效和可扩展性，但同时也需要开发者理解其内部机制，以便合理设计和优化MapReduce作业。

http://www.aboutyun.com

把作业交给多个计算机去完成。

我们可以使用方法一的程序，部署到N台机器上去，然后把论文集分成N份，一台机器跑一

个作业。这个方法跑得足够快，但是部署起来很麻烦，我们要人工把程序copy到别的机器

，要人工把论文集分开，最痛苦的是还要把N个运行结果进行整合（当然我们也可以再写

一个程序）。

方法四：

让MapReduce来帮帮我们吧！

MapReduce本质上就是方法三，但是如何拆分文件集，如何copy程序，如何整合结果这些

都是框架定义好的。我们只要定义好这个任务（用户程序），其它都交给MapReduce。

map函数和reduce函数　　

map函数和reduce函数是交给用户实现的，这两个函数定义了任务本身。

　　map函数：接受一个键值对（key-value

pair），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同

的值传递给一个reduce函数。

reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值

（通常只有一个或零个值）。

　　统计词频的MapReduce函数的核心代码非常简短，主要就是实现这两个函数。

　　map(String key, String value):

　　// key: document name

　　// value: document contents

　　for each word w in value:

　　EmitIntermediate(w, "1");

　　reduce(String key, Iterator values):

　　// key: a word

剩余33页未读，继续阅读

gjggw123

粉丝: 219
资源: 5

理解Hadoop MapReduce：思想、设计与实践

Hadoop分析气象数据完整版源代码（含Hadoop的MapReduce代码和SSM框架）

Hadoop分析气象数据完整版代码

基于Hadoop数据分析系统设计(需求分析).docx

Hadoop （十）Hadoop-第一次使用eclipse&java&hadoop分析简单数据

Hadoop 分析统计学生考试成绩1

Hadoop-MapReduce:一个使用Hadoop分析大数据的应用程序

三峡点击流日志Hadoop分析结果

YelpDataAnalysis:使用hadoop分析Yelp客户数据

hadoop源码分析

hadoop原理分析

最新资源