Google的MapReduce：海量数据处理模型

需积分: 9 30 浏览量更新于2024-07-25 收藏 330KB DOC 举报

"MapReduce海量数据处理" MapReduce是由Google提出的分布式计算框架，主要用于处理和分析大规模数据。这个模型的设计灵感来源于函数式编程语言中的map和reduce操作，它简化了在大量分布式节点上进行并行计算的复杂性。 1. **MapReduce原理研究** - **绪论**：Google每天面临的是海量数据处理的需求，如爬虫数据、Web请求日志、查询请求等。由于数据量巨大，传统单机处理方式无法满足时间与成本要求。MapReduce通过并行计算、数据分发、容错处理等机制，使得复杂的分布式计算变得相对简单。 - **MapReduce模型**：MapReduce的核心是map和reduce两个阶段。map阶段将输入数据分割成小块，应用用户定义的映射函数进行处理，生成中间键值对。reduce阶段则对相同键的中间结果进行聚合，执行用户定义的归约函数，产生最终输出。 2. **MapReduce作业与任务调度** - **MapReduce作业调度**：作业调度器负责分配整个作业的执行资源，确保数据本地化和负载均衡。 - **MapReduce任务调度**：任务调度器管理各个任务的执行顺序，监控任务状态，当任务失败时重新调度。 3. **MapReduce容错处理** - **任务错误处理**：当任务执行出错时，系统能够自动检测并重新启动。 - **Worker节点故障处理**：如果工作节点（TaskTracker）出现故障，其上的任务会被重新分配到其他节点。 - **Master节点故障处理**：JobTracker（Master节点）的故障处理涉及作业的恢复和重新调度。 - **错误处理机制**：MapReduce设计了一套完善的错误检测和恢复机制，确保系统的高可用性。 - **备用任务**：系统会为每个任务保留备用副本，以便快速替换失败的任务。 4. **MapReduce设计研究** - **概述**：MapReduce设计着重于简化编程模型，让开发人员专注于业务逻辑，而非底层分布式实现。 - **输入与输出**：系统负责将输入数据切分成适合处理的块，输出则是经过map和reduce处理后的结果。 - **作业配置**：用户可以通过配置参数来定制作业的行为，如内存分配、数据本地化策略等。 - **MapReduce编程接口**：提供了简单的编程接口，开发者只需实现map和reduce函数即可实现分布式计算。 - **WordCount详解**：WordCount是MapReduce的典型示例，用于统计文本中单词出现的频率，展示了基本的MapReduce工作流程。 MapReduce通过将复杂的分布式计算任务分解为可并行处理的部分，极大地提高了处理大数据的效率。它的设计理念在于通过抽象出map和reduce两个核心操作，简化了开发者的工作，使他们可以专注于业务逻辑，而无需关心底层分布式系统的细节。在大数据处理领域，MapReduce已经成为一种广泛采用的工具，被Hadoop等开源框架所采纳。

通过将 Map 调用的输入数据自动分割为 M 个数据块的集合，Map 调用被

分布到多台机器上执行。输入的数据块能够在不同的机器上并行处理。使用分

区函数 Map 调用产生的中间 key 值分成 R 个不同分区（例如，hash(key) mod

R）， Reduce 调用也被分布到多台机器上执行。分区数量（R）和分区函数由

用户来指定。

上图展示了 MapReduce 实现中操作的全部流程。当用户调用 MapReduce 函

数时，将发生下面的一系列动作（下面的序号和图中的序号一一对应）：

1.用户程序首先调用的 MapReduce 函数将输入文件分成 M 个数据块，每个

数据块的大小一般从 16MB 到 64MB(可以通过可选的参数来控制每个数据块的

大小)。每个数据块会在集群系统内创建副本，副本数一般为 3。然后用户程序

在集群中创建大量的程序副本。

2.这些程序副本中的有一个特殊的程序–master（主控节点）。副本中其它

的程序都是 worker（执行节点）程序，由 master 分配任务。有 M 个 map 任务

和 R 个 reduce 任务将被分配，master 将一个 map 任务或 reduce 任务分配给一

个空闲的 worker。

3.被分配了 map 任务的 worker 程序读取相关的输入数据块，从输入的数据

块中解析出 key/value pair，然后把 key/value pair 传递给用户自定义的 Map 函数，

由 Map 函数生成并输出的中间 key/value pair，并缓存在内存中。

4.缓存中的 key/value pair 通过分区函数分成 R 个区域，之后周期性的写入

到本地磁盘上。缓存的 key/value pair 在本地磁盘上的存储位置将被回传给

master，由 master 负责把这些存储位置再传送给 Reduce worker。

5.当 Reduce worker 程序接收到 master 程序发来的数据存储位置信息后，使

用 RPC 从 Map worker 所在主机的磁盘上读取这些缓存数据。当 Reduce worker

读取了所有的中间数据后，通过对 key 进行排序后使得具有相同 key 值的数据

聚合在一起。由于许多不同的 key 值会映射到相同的 Reduce 任务上，因此必须

进行排序。如果中间数据太大无法在内存中完成排序，那么就要在外部进行排

剩余21页未读，继续阅读

hlwu

粉丝: 0
资源: 6

Google的MapReduce：海量数据处理模型

MongoDB与Hadoop MapReduce的海量非结构化数据处理方案.pdf

mapreduce海量数据并行处理总结.pdf

海量数据处理

MapReduce海量数据并行处理课程复习提纲-20201

MapReduce海量数据并行处理课程复习提纲-20171

MapReduce海量数据并行处理课程介绍-2017-研究生1

谷歌MapReduce：海量数据处理与编程模型解析

云计算MapReduce：海量数据处理的关键技术与应用

深入理解Hadoop框架与MapReduce：海量数据处理解析

深入理解Hadoop框架与MapReduce：海量数据处理实践

最新资源