MapReduce系统架构

Google

MapReduce

需积分: 10 79 浏览量更新于2023-07-03 评论收藏 677KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Google MapReduce中文版-系统架构
http://www.kuqin.com/system-analysis/20100915/88059.html[2010-11-2 17:19:20]
学
习
职
业
游
戏
专
辑
当前位置：首页>挖经验>系统架构>Google MapReduce中文版
 
软件交流 开发设计 考试考研 站长网编 竞赛创业
网络服务 科学探索 手机数码 互联网 通信业界
程序人生 IT人物
职场求职 IT幽默
摩尔庄园 赛尔号 网页游戏
开心农场 奥比岛 开心网游戏
Windows7
iPhone
来源：Alex && OpenCould 酷勤网收集 2010-09-15
摘要
MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建
一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然
后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足
上述处理模型的例子，本论文将详细描述这个模型。
MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关
心：如何分割输入数据，在大量计算机组成的集群上的调度，集群中计算机的错误处理，管理集群中计
算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程
序员有效利用分布式系统的丰富资源。
我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上：一个典型
的MapReduce计算往往由几千台机器组成、处理以TB计算的数据。程序员发现这个系统非常好用：已
经实现了数以百计的MapReduce程序，在Google的集群上，每天都有1000多个MapReduce程序在执
行。
1、介绍
在过去的5年里，包括本文作者在内的Google的很多程序员，为了处理海量的原始数据，已经实现了数
以百计的、专用的计算方法。这些计算方法用来处理大量的原始数据，比如，文档抓取（类似网络爬虫
的程序）、Web请求日志等等；也为了计算处理各种类型的衍生数据，比如倒排索引、Web文档的图
结构的各种表示形势、每台主机上网络爬虫抓取的页面数量的汇总、每天被请求的最多的查询的集合等
等。大多数这样的数据处理运算在概念上很容易理解。然而由于输入的数据量巨大，因此要想在可接受
的时间内完成运算，只有将这些计算分布在成百上千的主机上。如何处理并行计算、如何分发数据、如
何处理错误？所有这些问题综合在一起，需要大量的代码处理，因此也使得原本简单的运算变得难以处
理。
为了解决上述复杂的问题，我们设计一个新的抽象模型，使用这个抽象模型，我们只要表述我们想要执
行的简单运算即可，而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节，这些问题都被封
装在了一个库里面。设计这个抽象模型的灵感来自Lisp和许多其他函数式语言的Map和Reduce的原
语。我们意识到我们大多数的运算都包含这样的操作：在输入数据的“逻辑”记录上应用Map操作得出一
个中间key/value pair集合，然后在所有具有相同key值的value值上应用Reduce操作，从而达到合并中
间的数据，得到一个想要的结果的目的。使用MapReduce模型，再结合用户实现的Map和Reduce函
数，我们就可以非常容易的实现大规模并行化计算；通过MapReduce模型自带的“再次执行”（re-
execution）功能，也提供了初级的容灾实现方案。
Google MapReduce中文版
 
编辑推荐 热点文章
·理解REST软件架构
·eBay的架构
·如何成为一个好的系统分析员
·什么是系统分析
·怎样做一个优秀的系统分析师
·优秀的系统分析师必读——需求分析20条原则
相关主题 最新文章
·Google MapReduce中文版
·Google的系统工程师(SA)如何工作
·The Google File System中文版
·无挑战，不工作之 -系统分析师招聘答案
·五年Skype架构师之路的感言
·深入分析IBM的云计算解决方案
 PuzzleGames.alot.com Google 提供的广告
Google 提供的广告 Google Google推广 Google代理 C# Mapreduce Google优化
Google 
提供的广告
  Google AD Word
  Get on Google
 Google優化
 Google
广告
Download Google Analytics
Gain traffic and optimize your site with Google Analytics. Free!
www.google.com/analytics
站内搜索

Google MapReduce中文版-系统架构

http://www.kuqin.com/system-analysis/20100915/88059.html[2010-11-2 17:19:20]

2.1、例子

例如，计算一个大的文档集合中每个单词出现的次数，下面是伪代码段：

map(String key, String value):

// key: document name

// value: document contents

for each word w in value:

EmitIntermediate(w, “1″);

reduce(String key, Iterator values):

// key: a word

// values: a list of counts

int result = 0;

for each v in values:

result += ParseInt(v);

Emit(AsString(result));

Map函数输出文档中的每个词、以及这个词的出现次数(在这个简单的例子里就是1)。Reduce函数

把Map函数产生的每一个特定的词的计数累加起来。

另外，用户编写代码，使用输入和输出文件的名字、可选的调节参数来完成一个符合MapReduce模型

规范的对象，然后调用MapReduce函数，并把这个规范对象传递给它。用户的代码和MapReduce库链

接在一起(用C++实现)。附录A包含了这个实例的全部程序代码。

2.2、类型

尽管在前面例子的伪代码中使用了以字符串表示的输入输出值，但是在概念上，用户定义

的Map和Reduce函数都有相关联的类型：

map(k1,v1) ->list(k2,v2)

reduce(k2,list(v2)) ->list(v2)

比如，输入的key和value值与输出的key和value值在类型上推导的域不同。此外，中间key和value值与

输出key和value值在类型上推导的域相同。

（译者注：原文中这个domain的含义不是很清楚，我参考Hadoop、KFS等实现，map和reduce都使用

了泛型，因此，我把domain翻译成类型推导的域）。

我们的C++中使用字符串类型作为用户自定义函数的输入输出，用户在自己的代码中对字符串进行适当

的类型转换。

2.3、更多的例子

这里还有一些有趣的简单例子，可以很容易的使用MapReduce模型来表示：

分布式的Grep：Map函数输出匹配某个模式的一行，Reduce函数是一个恒等函数，即把中间数

Google MapReduce中文版-系统架构

http://www.kuqin.com/system-analysis/20100915/88059.html[2010-11-2 17:19:20]

据复制到输出。

计算URL访问频率：Map函数处理日志中web页面请求的记录，然后输出(URL,1)。Reduce函数

把相同URL的value值都累加起来，产生(URL,记录总数)结果。

倒转网络链接图：Map函数在源页面（source）中搜索所有的链接目标（target）并输出

为(target,source)。Reduce函数把给定链接目标（target）的链接组合成一个列表，输

出(target,list(source))。

每个主机的检索词向量：检索词向量用一个(词,频率)列表来概述出现在文档或文档集中的最重要

的一些词。Map函数为每一个输入文档输出(主机名,检索词向量)，其中主机名来自文档

的URL。Reduce函数接收给定主机的所有文档的检索词向量，并把这些检索词向量加在一起，

丢弃掉低频的检索词，输出一个最终的(主机名,检索词向量)。

倒排索引：Map函数分析每个文档输出一个(词,文档号)的列表，Reduce函数的输入是一个给定

词的所有（词，文档号），排序所有的文档号，输出(词,list（文档号）)。所有的输出集合形成一

个简单的倒排索引，它以一种简单的算法跟踪词在文档中的位置。

分布式排序：Map函数从每个记录提取key，输出(key,record)。Reduce函数不改变任何的值。

这个运算依赖分区机制(在4.1描述)和排序属性(在4.2描述)。

3、实现

MapReduce模型可以有多种不同的实现方式。如何正确选择取决于具体的环境。例如，一种实现方式

适用于小型的共享内存方式的机器，另外一种实现方式则适用于大型NUMA架构的多处理器的主机，而

有的实现方式更适合大型的网络连接集群。

本章节描述一个适用于Google内部广泛使用的运算环境的实现：用以太网交换机连接、由普通PC机组

成的大型集群。在我们的环境里包括：

1.x86架构、运行Linux操作系统、双处理器、2-4GB内存的机器。

2.普通的网络硬件设备，每个机器的带宽为百兆或者千兆，但是远小于网络的平均带宽的一半。（译

者注：这里需要网络专家解释一下了）

3.集群中包含成百上千的机器，因此，机器故障是常态。

4.存储为廉价的内置IDE硬盘。一个内部分布式文件系统用来管理存储在这些磁盘上的数据。文件系统

通过数据复制来在不可靠的硬件上保证数据的可靠性和有效性。

5.用户提交工作（job）给调度系统。每个工作（job）都包含一系列的任务（task），调度系统将这些

任务调度到集群中多台可用的机器上。

3.1、执行概括

通过将Map调用的输入数据自动分割为M个数据片段的集合，Map调用被分布到多台机器上执行。输入

的数据片段能够在不同的机器上并行处理。使用分区函数将Map调用产生的中间key值分成R个不同分

区（例如，hash(key) mod R），Reduce调用也被分布到多台机器上执行。分区数量（R）和分区函数

由用户来指定。

剩余17页未读，继续阅读

BigFool1988

粉丝: 8
资源: 10

会员权益专享

MapReduce系统架构

评论0

会员权益专享

最新资源

MapReduce系统架构

评论0

mapreduce-系统架构-酷.jpg

Google_MapReduce中文版-系统架构

完整版大数据课件集合7-大数据导论-第七章-MapReduce（共38页）.ppt

绘制mapreduce体系结构图 以及分析mapreduce在分布式运行过程中如何保证数据的一致性

简述mapreduce体系结构

MapReduce体系结构主要由（）组成。

MapReduce体系结构主要由四个部分组成，分别是：Client、JobTracker、TaskTracker以及Task

MapReduce的体系结构

48、 简述MapReduce体系结构，并简要说明每个组成部分的功能。 (10分) 49、简述HDFS架构，并简要说明每部分功能。 (10分) 50、简述HDFS文件的读数据流程？（5分） 51、简述HDFS文件的写数据流程？（5分）

简述mapreduce的体系结构

MapReduce的体系结构和工作流程

mapreduce 运行时架构

简述MapReduce的分布式计算架构

hive mysql mapreduce关系

spark与mapreduce的区别

sqoop导数据报mapreduce

MapReduce与HBase的关系，哪些描述是正确的 A A. 两者不可或缺，MapReduce是HBase可以正常运行的保证 B B. 两者不是强关联关系，没有MapReduce，HBase可以正常运行 C C. MapReduce可以直接访问HBase D D. 它们之间没有任何关系

[多选] MapReduce与HBase的关系，哪些描述是正确的 A A. 两者不可或缺，MapReduce是HBase可以正常运行的保证 B B. 两者不是强关联关系，没有MapReduce，HBase可以正常运行 C C. MapReduce可以直接访问HBase D D. 它们之间没有任何关系

hdfs 和MapReduce的关系

java web 界面的交互系统，调用 MapReduce

会员权益专享

最新资源

绘制mapreduce体系结构图以及分析mapreduce在分布式运行过程中如何保证数据的一致性

48、简述MapReduce体系结构，并简要说明每个组成部分的功能。 (10分) 49、简述HDFS架构，并简要说明每部分功能。 (10分) 50、简述HDFS文件的读数据流程？（5分） 51、简述HDFS文件的写数据流程？（5分）