"MapReduce与Spark：大数据分析算法与架构比较"

需积分: 0 151 浏览量更新于2023-12-21 收藏 530KB PDF 举报

MapReduce与Spark是两种常用的大数据处理算法和框架，它们在处理大规模数据时具有很大的优势。本文从背景、原理以及应用场景进行了分析和比较，总结了它们各自的优点和限制。通过评述这两种算法和架构，可以帮助读者更好地理解它们的优缺点，从而在实际应用中根据需求选择更合适的算法和框架。首先，MapReduce是一种由Google提出的分布式计算框架，它将大规模的数据集分解成小块，然后由多个数据节点并行处理这些数据块，并将结果合并到一起。这种思想使得MapReduce非常适合于处理批处理任务，尤其是对于非结构化数据的处理具有很大的优势。而Spark则是近年来兴起的一种新的分布式计算框架，相比于MapReduce，它更适合处理迭代计算和实时计算任务，因为Spark能够在内存中进行数据计算，从而大大提高了计算速度。其次，从应用场景来看，MapReduce在处理非迭代问题时表现出色，因为它能够很好地处理大规模数据的批量处理任务。而Spark则更适合于需要频繁迭代计算或实时计算的场景，例如机器学习、图计算等。因此，根据具体的需求和任务类型，可以灵活选择使用MapReduce还是Spark进行大数据处理和分析。另外，从性能和可扩展性方面来看，Spark相对于MapReduce具有更高的性能和更好的可扩展性。由于Spark能够在内存中进行数据计算，因此在处理迭代计算和实时计算任务时具有更高的计算速度。同时，Spark采用了更加灵活的内存计算模式，能够更好地适应不同类型的计算任务。然而，MapReduce也有其自身的优点，比如稳定性更好，可以很好地处理大规模数据处理任务。而且MapReduce已经经过了多年的发展和应用，有非常成熟的生态系统和大量的应用案例，因此在某些场景下仍然具有很大的优势。总的来说，MapReduce和Spark都是非常成熟和广泛应用的大数据处理框架，它们各自适用于不同类型的大数据处理任务。在实际应用中，可以根据具体的需求和场景来选择使用哪种框架，从而更好地发挥其优势和提高数据处理和分析的效率。通过本文的评述和比较，可以帮助读者更好地理解MapReduce与Spark的特点和应用场景，从而更好地进行大数据处理与分析。

1774

Journal of Software 软件学报 Vol.29, No.6, June 2018

Map Reduce Map Reduce

一次迭代

二次迭代

Map Reduce Map Reduce

作业1

作业2

作业4

作业3

...

Fig.2 Job division of PageRank in two iterations

图 2 PageRank 两次迭代作业划分

1.4 MapReduce应用与发展

由于 MapReduce 易操作、可扩展及支持容错等特点,目前有越来越多的企业和应用都将 MapReduce 作为

大数据处理平台的核心思想,其中最流行的为 Apache 研发的 HadoopMapReduce 平台.Hadoop

[13]

作为开源的分

布式编程计算框架,其核心由 HDFS

[14]

,MapReduce 和 YARN

[15]

组成,其中,HDFS(hadoop distributed file system)

是适合搭建在廉价集群上可靠的分布式文件存储与传输系统.HDFS 采用 master/slave 架构,将集群中所有服务

器存储空间连接到一起,构成了统一的、可以分布式存储海量非结构化数据的空间,具有成本低廉、可靠性强、

吞吐量高等特点.YARN 是自 Hadoop 2.0 后提供的新型资源管理器.YARN 将 JobTracker 的系统资源管理调度

和单个应用监控跟踪功能分离成两个独立的进程 ResourceManager 和 ApplicationMaster,更好地支持分布式编

程计算框架.

随着以 MapReduce 为编程模型的应用越来越多,关于 MapReduce 模型的研究也逐渐增多,其中,主要研究方

向集中在以下几方面.

• MapReduce 作业数据放置问题:在 MapReduce 中,数据块放置的方式都是采取随机放置,这种放置方式

实现简单,但是可能会因为有关联的数据块放置不均匀,导致 MapReduce 执行效率不高的问题.文献

[16]通过构建历史数据访问图得出最优数据放置策略;文献[17]根据被访问次数越多则被访问概率越

大的原理提出了一种基于文件分组放置的方法;

• 异构环境下提高 MapReduce 性能问题:在大规模异构环境下,不同计算节点的性能差异会影响整个系

统的计算效率.文献[18]提出了自适应的任务调度策略 SAMR(self-adaptive MapReduce),自动寻找执行

较慢的节点并进行备份;文献[19]通过拆分较慢节点中的任务并分配给快节点执行的动态负载均衡策

略 SkewTune 解决异构问题;文献[20]提出了多种优化方法,保证为 Ma

pReduce 任务分得适当的资源;

• MapReduce 处理迭代问题性能不高问题:由于 MapReduce 每个作业中只包含一对 Map-Reduce 任务及

中间数据必须存入磁盘的特性,MapReduce 在计算迭代问题时性能会显著降低.为此,在 MapReduce 基

础上产生了很多针对迭代算法改进的类 MapReduce 框架,其中代表性的有 Twister

[21]

,Haloop

[22]

和

iMapReduce

[23]

等.

2 Spark

2.1 Spark背景

Spark 是一种基于内存的开源计算框架,2009 年诞生于美国加州大学伯克利分校 AMPLab,在 2010 年正式

开源,并于 2013 年成为了 Apache 基金项目,到 2014 年便成为 Apache 基金的顶级项目.自发布以来,Spark 已经

被 Yahoo,eBay 和 Netflix 等多家公司在 8 000 多个节点的集群上处理了 PB 级的数据.

在 Spark 中,核心抽象概念就是弹性分布式数据集 RDD(resilient distributed datasets)

[24]

,该抽象是分布在集

群上的只读型可恢复数据集.用户可以利用 Spark 中的转换(transformation)和动作(action)对其进行操作,也可以

长期保存在内存中不被回收,这样,再次使用这部分内容时,不需要再次创建此 RDD.这也是 Spark 在迭代问题中

的性能表现要高于 MapReduce 的原因.RDD 通过一种血统(lineage)关系来完成容错:如果一个 RDD 丢失,那么

剩余21页未读，继续阅读

陈莽昆

粉丝: 30

"MapReduce与Spark：大数据分析算法与架构比较"

MapReduce与Spark用于大数据分析之比较.pdf

MapReduce与Spark异同点和优势比较

Sparkvs.MapReduce时间节约66%，计算节约40%

MapReduce与Spark在大数据分析中的对比分析

MapReduce与Spark实现Trie数据结构比较研究

MapReduce与Spark性能比较：单记录操作分析

深入分析MapReduce与Spark的优劣差异

Spark大数据分析：优化MapReduce，提升效率

大数据工具性能模拟：MongoDB、PIG、HIVE、MapReduce、Spark与YARN对比分析

MapReduce与Spark性能比较与对比分析

最新资源