Google MapReduce模型及其实现中文解析

需积分: 29 117 浏览量更新于2024-07-28 收藏 811KB PDF 举报

"这篇文档是Google MapReduce技术的中文版论文，主要介绍了MapReduce的编程模型、实现方式、技巧、性能以及在实际应用中的经验。它提供了一个处理和生成大规模数据集的编程模型，适用于没有并行计算和分布式处理经验的开发者。" MapReduce是Google提出的一种用于处理海量数据的分布式计算框架。该模型将复杂的大规模数据处理任务分解为两个阶段：Map和Reduce。Map阶段负责对输入数据进行分片，通过用户定义的Map函数将原始数据转化为中间key-value对；Reduce阶段则聚合这些中间结果，通过用户定义的Reduce函数处理相同key的value，输出最终结果。 2.1 Map函数例子：Map函数通常用于将输入数据转换成更易于处理的形式，例如，对文本文件中的每一行进行处理，提取关键词并生成关键词-频率对。 2.2 类型：MapReduce处理的数据类型通常是键值对（key-value pairs），并且可以自定义键值对的类型以适应不同的应用场景。 2.3 更多例子：除了基本的关键词统计，MapReduce还可应用于网页链接分析、大规模数据排序、日志分析等多种场景。 3.1 执行概括：MapReduce框架负责数据的分割、任务调度、错误处理和跨机器通信。 3.2 Master数据结构：Master节点管理整个作业的生命周期，包括作业提交、任务分配、监控任务进度和处理故障。 3.3 容错机制：系统设计有容错功能，能够自动检测和处理节点故障，确保任务的顺利完成。 3.4 存储位置：MapReduce将数据分散存储在集群中的各个节点上，以实现并行处理。 3.5 任务粒度：任务可以被细分为更小的子任务，便于并行执行。 3.6 备用任务：系统会为每个任务创建备份，当主任务失败时，可以立即切换到备用任务，保证计算的连续性。 4.1 分区函数：用户可以自定义分区函数，决定中间结果如何分布到不同的Reducer上。 4.2 顺序保证：默认情况下，同一个key的value在Reduce阶段的输入顺序是不确定的，但可以通过定制分区函数来实现特定顺序。 4.3 Combiner函数：Combiner是一个可选的优化步骤，可以在Map阶段就对部分数据进行局部聚合，减少网络传输负担。 4.4 输入和输出的类型：MapReduce支持多种输入输出格式，如文件系统、数据库等，开发者可以根据需求定制。 4.5 副作用：MapReduce设计原则倾向于无状态操作，以简化容错处理，但特定场景下允许有限的副作用。 4.6 跳过损坏的记录：系统能够检测并跳过解析错误的记录，避免整个作业因个别错误而失败。 4.7 本地执行：为了提高效率，MapReduce会尝试在数据所在节点执行Map任务，减少数据传输。 4.8 状态信息：系统提供作业和任务的状态信息，方便监控和调试。 4.9 计数器：计数器是用于跟踪作业执行过程中的统计信息，如处理的记录数、错误数等。 5.1 集群配置：MapReduce性能受硬件配置、网络拓扑等因素影响，合理配置能提升效率。 5.2 GREP：论文通过GREP操作展示了MapReduce在文本搜索中的应用。 5.3 排序：MapReduce可以高效地进行大规模数据排序，如TeraSort。 5.4 高效的backup任务：通过优化备份任务的调度，能减少作业完成时间。 5.5 失效的机器：即使有机器故障，MapReduce也能继续执行，确保作业的可靠性。 6.1 大规模索引：MapReduce被广泛应用于构建大规模搜索引擎的索引。 6.2 经验：论文分享了在实际应用中使用MapReduce的经验和最佳实践。 MapReduce提供了一种简单且强大的工具，让开发者能够处理海量数据，同时克服了分布式计算的复杂性，为大数据处理提供了有效的解决方案。通过理解并掌握MapReduce的原理和技巧，开发者可以构建出高效、容错的分布式应用程序。

比如，输入的 key 和 value 值与输出的 key 和 value 值在类型上推导的域不同。此外，中间 key

和 value 值与输出 key 和 value 值在类型上推导的域相同。

（alex 注：原文中这个 domain 的含义不是很清楚，我参考 Hadoop、KFS 等实现，map 和 reduce

都使用了泛型，因此，我把 domain 翻译成类型推导的域）。

我们的 C++中使用字符串类型作为用户自定义函数的输入输出，用户在自己的代码中对字符串

进行适当的类型转换。

2.3 更多的例子

这里还有一些有趣的简单例子，可以很容易的使用 MapReduce 模型来表示：

o 分布式的 Grep：Map 函数输出匹配某个模式的一行，Reduce 函数是一个恒等函数，

即把中间数据复制到输出。

o 计算 URL 访问频率：Map 函数处理日志中 web 页面请求的记录，然后输出(URL,1)。

Reduce 函数把相同 URL 的 value 值都累加起来，产生(URL,记录总数)结果。

o 倒转网络链接图：Map 函数在源页面（source）中搜索所有的链接目标（target）并输

出为(target,source)。 Reduce 函数把给定链接目标（target）的链接组合成一个列表，

输出(target,list(source))。

o 每个主机的检索词向量：检索词向量用一个(词,频率)列表来概述出现在文档或文档集中

的最重要的一些词。Map 函数为每一个输入文档输出(主机名,检索词向量)，其中主机

名来自文档的 URL。Reduce 函数接收给定主机的所有文档的检索词向量，并把这些检

索词向量加在一起，丢弃掉低频的检索词，输出一个最终的(主机名,检索词向量)。

o 倒排索引：Map 函数分析每个文档输出一个(词,文档号)的列表，Reduce 函数的输入是

一个给定词的所有（词，文档号），排序所有的文档号，输出(词,list（文档号）)。所

有的输出集合形成一个简单的倒排索引，它以一种简单的算法跟踪词在文档中的位置。

o 分布式排序：Map 函数从每个记录提取 key，输出(key,record)。Reduce 函数不改变任

何的值。这个运算依赖分区机制(在 4.1 描述)和排序属性(在 4.2 描述)。

3、实现

MapReduce 模型可以有多种不同的实现方式。如何正确选择取决于具体的环境。例如，一种实

现方式适用于小型的共享内存方式的机器，另外一种实现方式则适用于大型 NUMA 架构的多处

理器的主机，而有的实现方式更适合大型的网络连接集群。

本章节描述一个适用于 Google 内部广泛使用的运算环境的实现：用以太网交换机连接、由普通

PC 机组成的大型集群。在我们的环境里包括：

1. x86 架构、运行 Linux 操作系统、双处理器、2-4GB 内存的机器。

2. 普通的网络硬件设备，每个机器的带宽为百兆或者千兆，但是远小于网络的平均带宽的

一半。

（

alex

注：这里需要网络专家解释一下了）

3. 集群中包含成百上千的机器，因此，机器故障是常态。

4. 存储为廉价的内置 IDE 硬盘。一个内部分布式文件系统用来管理存储在这些磁盘上的数

据。文件系统通过数据复制来在不可靠的硬件上保证数据的可靠性和有效性。

http://www.foxitsoftware.com For evaluation only.

剩余21页未读，继续阅读

liu_fei_009

粉丝: 18
资源: 10

Google MapReduce模型及其实现中文解析

"MapReduce中文版及分布式文件系统相关研究综述

Google MapReduce中文版：编程模型与大规模数据处理

Google MapReduce中文版1.0：并行处理与大数据计算框架

Google MapReduce 论文中文版

Google MapReduce-中文版

Google_MapReduce论文中文版

Google MapReduce中文版

Google MapReduce 中文版

Google MapReduce中文版 pdf

mapreduce 中文版 google GSF

最新资源