MapReduce编程模型：简化大规模数据处理

需积分: 13 177 浏览量更新于2024-07-05 收藏 610KB PDF 举报

"MapReduce是Google提出的一种处理和生成大规模数据集的编程模型，由Jeffrey Dean和Sanjay Ghemawat共同开发。这个模型基于map和reduce两个函数，允许程序员方便地编写能够并行执行在大型集群上的程序，特别适合大数据处理。MapReduce系统自动处理数据分割、任务调度、故障恢复和节点间通信等复杂问题，降低了对程序员并行计算和分布式系统知识的要求。在Google的实际应用中，MapReduce已经成功处理了TB级别的数据，并且被广泛应用于各种计算任务，如构建倒排索引、统计网页请求日志、生成主机抓取页面的摘要等。" MapReduce的核心在于map和reduce两个阶段： 1. Map阶段：用户定义的map函数接收输入数据，通常是键值对的形式，然后对每一项数据进行独立处理，生成新的中间键值对。这个过程可以并行化，因为每个输入数据项可以独立处理。 2. Reduce阶段：在map阶段产生的所有中间键值对中，reduce函数负责将具有相同中间键的value进行聚合和整合。这个阶段可以确保所有的reduce任务在执行前，对应的中间key-value对已经排序和分区完毕，使得处理更加有序。 MapReduce系统的特点包括： - 高度可扩展性：能够在数千台机器上处理大规模数据，支持TB甚至PB级别的数据处理。 - 自动化：系统自动处理数据分割、任务调度、容错恢复，减轻了程序员的工作负担。 - 易用性：程序员无需深入了解并行计算和分布式系统，只需关注业务逻辑，简化了大规模数据处理的复杂性。 - 故障恢复：MapReduce设计了容错机制，当某个工作节点出现故障时，系统会自动重新调度任务，保证计算的完整性。在Google的实践中，MapReduce已经被广泛应用，每天都有超过1000个MapReduce作业在运行，体现了其在大数据处理领域的实用性。尽管MapReduce最初是为特定的批量处理设计的，后来的系统如Hadoop MapReduce进一步发展了这一模型，使其适用于更广泛的实时和流式计算场景。 MapReduce通过抽象出map和reduce这两个基本操作，提供了一种简洁而强大的框架，使得大规模数据处理变得更加高效和易管理，对于大数据时代的计算需求有着重要的贡献。

排序，然后输出<word, list(文档 ID)>。所有输出键值对的集合可以形成一个简单的倒排

索引。我们能简单的计算出每个单词在文档中的位置。

分布式排序：map 函数会从每条记录中提取出一个 key，然后输出<key, record>这样

的键值对。reduce 函数对这些键值对不做任何修改，直接输出。这种计算任务依赖分区机

制（详见章节 4.1）以及排序属性（详见章节 4.2）。

3. 实现

MapReduce 支持许多不同类型的实现类型。往往需要根据环境来选择具体的实现。例

如，有些实现也许适合微型的存储共享机，有些适合大型的 NUMA 处理机，另一些适合更

大一些的网络集群.

这一张描述了在 Google 公司的环境下如何实现 MapReduce:通过以太网连接在一起的

大型的商业机集群.在我们的生产环境中:

(1) 大多数机器使用双处理器的 x86 架构处理器,运行系统为 Linux,它们大多拥有

2-4GB 的内存

(2) 每台机器均使用 100Mbps-1Gbps 的商业网络硬件,但是远小于网络的平均带宽的

一半

(3) 一个包含了成百上千的主机的服务器集群,这也导致机器处理失败是常有的事

(4) 较为廉价的 IDE 硬盘,通过一个内部的分布式文件管理系统来管理这些硬盘上的

数据。该文件系统通过使用数据复制来在不可靠的硬件上保证数据的可用性和有

效性。

(5) 用户提交工作给调度系统。每项工作包含了一系列任务，调度系统将这些任务调

度到集群中多台可用的机器上来进行。

3.1 执行概述

通过将传入 Map 函数的多个输入的数据自动切分为 M 个不同的段落,再分发到集群中的

各个计算机上运行从而得到中间数据。输入数据的片段可以在不同的机器上进行并行处理。

Reduce 函数将具有相同 Key 的中间数据进行合并（e.g.,hash(key) mod R）成 R 个数据段。

图 Figure 1 展示了 MapReduce 在我们的视线中整个的操作流程。当用户程序调用

MapReduce 函数时，会产生如下的行为流程（Figure 中的数字标签与下方的数字是对应的）

1. 用户程序的 MapReduce 库首先会将输入的文件划分为 M 块，每块大概 16MB 到 64MB

剩余22页未读，继续阅读

__7700__

粉丝: 20
资源: 1

MapReduce编程模型：简化大规模数据处理

MapReduce中文翻译

hadoop-mapreduce-client-jobclient-2.6.5-API文档-中文版.zip

GFS BigTable MapReduce中文版

Hadoop MapReduce API文档中英对照版2.7.3下载

Hadoop MapReduce API文档中英对照版全新发布

Hadoop MapReduce中文API文档与资源包下载

谷歌MapReduce中文翻译：编程模型与大规模数据处理

Hadoop MapReduce 2.5.1 API文档中文版：全面翻译与源码解析

Hadoop MapReduce 2.6.5 API文档中文版资源包

Hadoop MapReduce Shuffle API中文文档与资源包

最新资源