Apache Spark：并行计算新星，大数据处理加速器

194 浏览量更新于2024-08-29 收藏 1.04MB PDF 举报

"Apache Spark是为大规模数据处理设计的快速并行计算引擎，由UC Berkeley AMPLab开源，是Hadoop MapReduce的替代选择，尤其适合需要迭代的算法。Spark的特点在于它可以将中间结果存储在内存中，提高处理速度，同时提供与Hadoop的兼容性。Spark基于Scala构建，支持多种编程语言，包括Java、Scala、Python和R，并提供了丰富的运算符和API，简化开发。此外，Spark具有DAG执行引擎，优化了任务启动和数据I/O效率，且具备广泛的库支持，如SQL、DataFrame、MLlib、GraphX和Spark Streaming。" Apache Spark是一个高度优化的并行计算框架，其设计目标是解决Hadoop MapReduce在处理大规模数据时存在的性能瓶颈。Spark的核心优势在于它的内存计算能力，这使得它在执行迭代计算或需要频繁访问中间结果的场景中，相比Hadoop有显著的速度提升。由于结果可以直接保留在内存中，减少了对硬盘的依赖，从而减少了I/O操作，提升了整体性能。 Spark的另一个关键特性是它的DAG（有向无环图）执行模型，该模型允许任务之间的依赖关系被有效地管理和优化，减少了不必要的中间结果写入和读取。此外，Spark采用了多线程池来管理任务执行，降低了任务启动的开销，并在shuffle过程中减少了排序和磁盘I/O，进一步提升了效率。 Spark的易用性也是其受欢迎的原因之一。它提供了超过80种高级运算符，简化了数据处理过程。同时，Spark支持四种主流编程语言，使得不同背景的开发者都能方便地使用。在代码量上，与MapReduce相比，Spark的代码通常更简洁，降低了开发复杂度。 Spark的通用性体现在其丰富的库支持上。Spark SQL用于结构化数据处理，DataFrames则提供了更高级别的抽象，使得数据操作更为便捷。MLlib是机器学习库，支持各种机器学习算法。GraphX处理图数据和图形计算，而Spark Streaming则针对实时流数据处理。所有这些库都允许开发者在一个统一的平台上进行多样化的大数据分析任务。 Apache Spark以其高性能、易用性和广泛的功能，成为了大数据领域的重要工具，尤其在需要高效迭代和实时处理的场景下，Spark展现了强大的潜力和优势。

大数据系列之并行计算引擎大数据系列之并行计算引擎Spark介绍介绍

Spark:

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框

架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不

再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些

工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工

作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的

Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并

行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms,

Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

Spark的性能特点：

1.更快的速度：内存计算下，Spark 比 Hadoop 快100倍。

1.内存计算引擎，提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的I/O开销

2.DAG引擎，减少多次计算之间中间结果写到HDFS的开销；3.使用多线程池模型来减少task启动开销，shuffle过程中避免不

必要的sort操作已经减少磁盘I/O操作；

2.易用性：

1.Spark 提供了80多个高级运算符。

2.提供了丰富的API，支持JAVA,Scala,Python和R四种语言；

3.代码量比MapReduce少2~5倍；

3.通用性：Spark 提供了大量的库，包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。开发者可以在同一个应用

程序中无缝组合使用这些库。

4.支持多种资源管理器：Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器

Spark基本原理：

Spark Streaming：构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似

batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎

（100ms+），虽然比不上专门的流式数据处理软件，也可以用于实时计算，另一方面相比基于Record的其它处理框架（如

Storm），一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容

批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Spark背景：

1.MapReduce局限性:

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38723242

粉丝: 5
资源: 917

Apache Spark：并行计算新星，大数据处理加速器

大数据开发之内存计算

大数据基础概念：Hadoop与Spark平台介绍

大数据系列（六）之 spark 分布式计算框架

大数据开发工程师系列:hadoop spark

大数据语义索引并行构建.pptx

大数据技术分享 Spark技术讲座 Spark NLP扩展Spark ML，提供快速可扩展和统一的自然语言处理 共25页.pdf

大数据技术分享Spark技术讲座Spark和TensorFlow管道的Flare和TensorFlare本机编译共24页.pdf

掌握大数据之旅：Hadoop到Spark的进化与架构解析

2020大数据开发课程：Hadoop与Spark入门指南

Apache Spark并行计算引擎原理解析

最新资源

大数据技术分享 Spark技术讲座 Spark NLP扩展Spark ML，提供快速可扩展和统一的自然语言处理共25页.pdf