MapReduce：超大规模数据处理的编程模型

需积分: 4 97 浏览量更新于2024-07-31 收藏 253KB DOC 举报

"这篇文章主要探讨了MapReduce编程模型在处理大规模数据集群中的应用。MapReduce是一种处理和生成大规模数据集的编程模型，它通过定义map和reduce函数来简化分布式计算。用户只需关注业务逻辑，而运行时系统负责数据分布、机器调度、故障恢复和通信管理。这种模型使得即使没有并发或分布式系统经验的程序员也能处理大型分布式系统的资源。Google的MapReduce系统可扩展至数千台普通机器，处理TB级别的数据，并且已经被广泛应用于各种数据处理任务，如创建倒排索引、分析网页日志、统计网络爬虫结果等。尽管这些任务本身概念简单，但分布式环境下的复杂性催生了MapReduce的诞生，旨在简化代码并抽象出通用的并发处理、容错和数据管理机制。该模型受到Lisp等函数式编程语言中map和reduce操作的启发，使得复杂的分布式计算变得更为简洁。" 在MapReduce中，map函数接收键值对作为输入，然后生成一系列中间键值对。这些中间键值对随后由reduce函数处理，将相同键的所有值聚合在一起。这样，map阶段实现了数据的并行处理，而reduce阶段则负责结果的整合，确保了计算的正确性和效率。 MapReduce的关键优点在于它的自动化特性，运行时系统自动处理数据分片、任务调度、错误恢复和跨机器通信，降低了开发者处理分布式系统的复杂性。因此，程序员可以专注于编写map和reduce函数，实现特定的业务逻辑，而不必关心底层的分布式细节。在Google的实践中，MapReduce已被用于执行各种日常任务，例如构建搜索引擎的索引、分析用户行为日志、计算热门查询、以及对网络爬虫抓取的信息进行汇总。由于其简单易用和高度可扩展性，MapReduce已经成为大规模数据处理的标准工具，每天都有大量的MapReduce作业在Google的集群上运行。 MapReduce通过抽象和简化分布式计算的核心元素，使得处理大规模数据集群变得更加高效和易管理，为大数据时代的数据处理提供了一个强大的解决方案。

（5）用户向调度系统提交请求。每一个请求都包含一组任务，映射到这个计算机 cluster 里的

一组机器上执行。

3.1 执行概览

Map 操作通过把输入数据进行分区（partition）（比如分为 M 块），就可以分布到不同的机器上

执行了。输入块的拆成多块，可以并行在不同机器上执行。Reduce 操作是通过对中间产生的 key

的分布来进行分布的，中间产生的 key 可以根据某种分区函数进行分布（比如 hash(key) mod

R）,分布成为 R 块。分区（R）的数量和分区函数都是由用户指定的。

图 1 是我们实现的 MapReduce 操作的整体数据流。当用户程序调用 MapReduce 函数，就会引起

如下的操作（图一中的数字标示和下表的数字标示相同）。

1．用户程序中的 MapReduce 函数库首先把输入文件分成 M 块，每块大概 16M 到 64M（可以通

过参数决定）。接着在 cluster 的机器上执行处理程序。

2．这些分排的执行程序中有一个程序比较特别，它是主控程序 master。剩下的执行程序都是作

为 master 分排工作的 worker。总共有 M 个 map 任务和 R 个 reduce 任务需要分排。master

选择空闲的 worker 并且分配这些 map 任务或者 reduce 任务

3．一个分配了 map 任务的 worker 读取并处理相关的输入小块。他处理输入的数据，并且将分

析出的 key/value 对传递给用户定义的 map 函数。map 函数产生的中间结果 key/value 对暂时

缓冲到内存。

 第 4 页

剩余18页未读，继续阅读

gxgchen

粉丝: 2
资源: 6

MapReduce：超大规模数据处理的编程模型

云计算的资料 超大集群的简单数据处理

spark-集群与大数据处理

MapReduce：简化超大数据集群处理

MapReduce：大规模集群简化数据处理

MapReduce超大机群上的简单数据处理.doc

Google MapReduce：大规模集群简化数据处理

MapReduce：大规模集群数据处理

MapReduce：简化大规模集群数据处理

MapReduce：大规模集群数据处理简介

MapReduce：大规模集群数据处理的简化模型

最新资源

云计算的资料超大集群的简单数据处理