MapReduce编程模型与实现详解

需积分: 29 162 浏览量更新于2024-07-31 1 收藏 811KB PDF 举报

"MapReduce 中文版论文" MapReduce是一种编程模型，专为处理和生成大规模数据集而设计。该模型由Google提出，并在论文中详细阐述，它简化了分布式计算，使得即使对并行计算和分布式系统缺乏经验的开发者也能高效地利用分布式资源。 1、**编程模型** - **Map函数**：用户定义的Map函数接收键值对（key-value pair）输入数据集，对其进行处理，并生成新的中间键值对。Map函数将原始数据拆分为独立的处理单元，适合并行计算。 - **Reduce函数**：Reduce函数负责聚合Map阶段产生的中间键值对。它将所有具有相同中间键的值组合起来，进行必要的处理，输出最终结果。Reduce阶段实现了数据的整合和总结。 2、**实现** - **执行概括**：MapReduce系统负责数据的分割、任务调度、错误处理以及节点间的通信管理，使得程序员无需关注这些底层细节。 - **Master数据结构**：主节点维护着整个系统的状态，包括作业状态、任务分配等。 - **容错机制**：MapReduce通过数据备份和任务重试来确保系统的容错性，即使有部分节点故障也能继续执行。 - **存储位置**：数据通常被分割并存储在集群中的不同节点上，便于分布式处理。 - **任务粒度**和**备用任务**：任务可以细分为小的Map和Reduce任务，当任务失败时，备用任务可以立即接管。 3、**技巧** - **分区函数**：用于决定中间键值对如何分布到不同的Reduce任务中。 - **顺序保证**：某些情况下，系统可以保证输出的顺序，比如按照键的排序。 - **Combiner函数**：在局部节点上执行类似Reduce的功能，减少网络传输的数据量。 - **输入输出类型**：MapReduce支持多种数据类型，允许用户自定义输入和输出格式。 - **副作用**：MapReduce通常假设无状态，但允许有限的副作用。 - **跳过损坏的记录**：系统可以检测和跳过处理过程中的错误记录。 - **本地执行**：利用节点上的本地数据进行计算，减少数据传输。 - **状态信息和计数器**：提供监控和调试工具，帮助了解作业执行进度和状态。 4、**性能** - **集群配置**：通过优化硬件配置和参数设置，可以提升MapReduce的性能。 - **性能案例**：论文中给出了GREP、排序等基准测试，展示了MapReduce的效率。 - **高效的backup任务**：通过智能的任务备份策略，提高系统的整体效率。 - **失效的机器**：系统能自动处理机器故障，保证作业的连续性。 5、**经验** - **大规模索引**：MapReduce在构建大规模搜索引擎索引等方面的应用实例。 6、**相关工作** - 论文讨论了MapReduce与其他并行计算模型的比较和联系。 MapReduce通过抽象出简单的Map和Reduce操作，降低了分布式编程的复杂性，使得开发者能够专注于业务逻辑，而不用过多考虑分布式环境的底层细节。这种模型已被广泛应用于大数据处理领域，如Hadoop就是基于MapReduce的开源实现。

比如，输入的 key 和 value 值与输出的 key 和 value 值在类型上推导的域不同。此外，中间 key

和 value 值与输出 key 和 value 值在类型上推导的域相同。

（alex 注：原文中这个 domain 的含义不是很清楚，我参考 Hadoop、KFS 等实现，map 和 reduce

都使用了泛型，因此，我把 domain 翻译成类型推导的域）。

我们的 C++中使用字符串类型作为用户自定义函数的输入输出，用户在自己的代码中对字符串

进行适当的类型转换。

2.3 更多的例子

这里还有一些有趣的简单例子，可以很容易的使用 MapReduce 模型来表示：

o 分布式的 Grep：Map 函数输出匹配某个模式的一行，Reduce 函数是一个恒等函数，

即把中间数据复制到输出。

o 计算 URL 访问频率：Map 函数处理日志中 web 页面请求的记录，然后输出(URL,1)。

Reduce 函数把相同 URL 的 value 值都累加起来，产生(URL,记录总数)结果。

o 倒转网络链接图：Map 函数在源页面（source）中搜索所有的链接目标（target）并输

出为(target,source)。 Reduce 函数把给定链接目标（target）的链接组合成一个列表，

输出(target,list(source))。

o 每个主机的检索词向量：检索词向量用一个(词,频率)列表来概述出现在文档或文档集中

的最重要的一些词。Map 函数为每一个输入文档输出(主机名,检索词向量)，其中主机

名来自文档的 URL。Reduce 函数接收给定主机的所有文档的检索词向量，并把这些检

索词向量加在一起，丢弃掉低频的检索词，输出一个最终的(主机名,检索词向量)。

o 倒排索引：Map 函数分析每个文档输出一个(词,文档号)的列表，Reduce 函数的输入是

一个给定词的所有（词，文档号），排序所有的文档号，输出(词,list（文档号）)。所

有的输出集合形成一个简单的倒排索引，它以一种简单的算法跟踪词在文档中的位置。

o 分布式排序：Map 函数从每个记录提取 key，输出(key,record)。Reduce 函数不改变任

何的值。这个运算依赖分区机制(在 4.1 描述)和排序属性(在 4.2 描述)。

3、实现

MapReduce 模型可以有多种不同的实现方式。如何正确选择取决于具体的环境。例如，一种实

现方式适用于小型的共享内存方式的机器，另外一种实现方式则适用于大型 NUMA 架构的多处

理器的主机，而有的实现方式更适合大型的网络连接集群。

本章节描述一个适用于 Google 内部广泛使用的运算环境的实现：用以太网交换机连接、由普通

PC 机组成的大型集群。在我们的环境里包括：

1. x86 架构、运行 Linux 操作系统、双处理器、2-4GB 内存的机器。

2. 普通的网络硬件设备，每个机器的带宽为百兆或者千兆，但是远小于网络的平均带宽的

一半。

（

alex

注：这里需要网络专家解释一下了）

3. 集群中包含成百上千的机器，因此，机器故障是常态。

4. 存储为廉价的内置 IDE 硬盘。一个内部分布式文件系统用来管理存储在这些磁盘上的数

据。文件系统通过数据复制来在不可靠的硬件上保证数据的可靠性和有效性。

http://www.foxitsoftware.com For evaluation only.

剩余21页未读，继续阅读

wurr707

粉丝: 2
资源: 1

MapReduce编程模型与实现详解

Google_MapReduce论文中文版

google 论文 mapreduce 中文版

大数据经典论文MapReduce、GFS、Bigtable中文版

google mapreduce bigtable hbase 论文中文版

谷歌BigTable GFS MapReduce三大论文中文版

Google MapReduce 论文中文版

Google三大论文之Mapreduce中文版（转）

GFS BigTable MapReduce中文版

Google MapReduce中文版.pdf

Google大数据三大论文中文版下载 Google论文MapReduce、GFS、Bigtable论文下载

最新资源