MapReduce：简化超大数据集群处理

需积分: 9 43 浏览量更新于2024-08-01 收藏 308KB DOC 举报

MapReduce是一种革命性的编程模型，它简化了在超大规模集群上进行数据处理的过程。由Google的Jeffrey Dean和Sanjay Ghemawat共同提出的，这个模型主要针对处理和生成海量数据集的问题。核心思想是将复杂的并行计算任务分解为两个主要步骤：map和reduce。在MapReduce中，用户定义一个map函数，该函数接收键值对作为输入，对其进行处理，将结果转换为一系列新的中间键值对。这些键值对会被按照键进行分组，然后每个键对应的值会在reduce函数中进行聚合，得到最终的结果。这种设计使得程序员只需关注业务逻辑，而无需关心底层的并发、数据分布和错误处理等复杂细节。 MapReduce的实现原理是将工作负载自动分布到一个由普通计算机组成的大型集群上，如Google的数千台机器。运行时系统负责数据的负载均衡、任务调度、故障检测和恢复，以及节点间的通信管理，从而实现了分布式计算的高效执行。这极大地降低了编写并行程序的复杂性，使得即使是缺乏并发处理或分布式系统经验的开发者也能处理大规模的数据。 Google在过去的五年中，利用MapReduce解决了诸如搜索索引构建、网页抓取分析（如计算页面访问次数）、以及热门查询统计等大量计算问题。这些计算任务虽然在概念上相对简单，但由于数据量巨大，如果没有MapReduce，可能需要编写大量的复杂代码来处理数据分布、任务调度等问题。由于MapReduce的强大之处在于它的易用性和扩展性，Google的工程师们已经开发出了数百个MapReduce程序，每天在公司内部的集群上运行着上千个MapReduce作业，处理PB级别的数据。这表明MapReduce不仅适用于特定的计算需求，而且在实际应用中已经展现出了极高的效率和价值。总结来说，MapReduce是大数据处理中的关键组件，它通过封装复杂性，让开发者能够更专注于业务逻辑，实现了大规模数据的高效处理，成为了现代云计算和大数据时代不可或缺的技术基石。

3 实现

MapReduce 接口可以有很多种不同的实现。应当根据不同的环境选择不同的实现。比如，一个实

现可以适用于小型的共享内存的机器，另一个实现可能是基于大型 NUMA 多处理器系统，还可能

有为大规模计算机集群的实现。

本届描述了 Google 广泛使用的计算环境：用交换机网络[4]连接的，由普通 PC 构成的超大集群。

在我们的环境里：

（1）每个节点通常是双 x86 处理器，运行 Linux,每台机器 2-4GB 内存。

（2）使用的网络设备都是常用的。一般在节点上使用的是 100M/或者千 M 网络，一般情况下

都用不到一半的网络带宽。

（3）一个 cluster 中常常有成百上千台机器，所以，机器故障是家常便饭。

（4）存储时使用的便宜的 IDE 硬盘，直接放在每一个机器上。并且有一个分布式的文件系统

来管理这些分布在各个机器上的硬盘。文件系统通过复制的方法来在不可靠的硬件上保

证可用性和可靠性。

（5）用户向调度系统提交请求。每一个请求都包含一组任务，映射到这个计算机 cluster 里的

一组机器上执行。

3.1 执行概览

Map 操作通过把输入数据进行分区（partition）（比如分为 M 块），就可以分布到不同的机器上

执行了。输入块的拆成多块，可以并行在不同机器上执行。Reduce 操作是通过对中间产生的 key

的分布来进行分布的，中间产生的 key 可以根据某种分区函数进行分布（比如 hash(key) mod

R）,分布成为 R 块。分区（R）的数量和分区函数都是由用户指定的。

 第 4 页

剩余19页未读，继续阅读

踔厉奋发、笃行不怠

粉丝: 96

MapReduce：简化超大数据集群处理

云计算的资料 超大集群的简单数据处理

spark-集群与大数据处理

MapReduce：大型集群简化数据处理

MapReduce：大规模集群简化数据处理

Google MapReduce：大规模集群简化数据处理

Google的MapReduce：大规模集群简化数据处理

MapReduce：大规模集群数据处理

MapReduce：简化大规模集群数据处理

MapReduce：大规模集群数据处理简介

MapReduce：大规模集群数据处理的简化模型

最新资源

云计算的资料超大集群的简单数据处理