Spark内存计算集群系统详解

需积分: 18 94 浏览量更新于2024-09-11 收藏 447KB PDF 举报

"Spark搭建与理解" Spark是一个高效、易用且通用的集群计算系统，主要专注于提升大数据处理的速度。它的核心设计目标是提供快速、通用、可扩展以及交互式的计算能力。Spark由加州伯克利大学AMP实验室的团队开发，以Scala编程语言为基础，其代码简洁高效，体现了Scala的优雅特性。 Spark的核心优势在于内存计算，这使得它在处理迭代计算和需要频繁数据交互的工作负载时表现出色。与传统的Hadoop MapReduce相比，Spark在内存中存储数据集，减少了磁盘I/O的开销，从而极大地提高了计算速度。此外，Spark可以无缝集成到Hadoop生态系统中，能够在Hadoop文件系统(HDFS)上运行，同时支持Mesos和YARN等集群管理器。 Spark的核心组件称为弹性分布式数据集(RDD)，这是一种分布式、容错的内存数据结构。RDDs是不可变的，一旦创建就不能被修改，但可以通过一系列转换操作来生成新的RDD。这种设计保证了数据处理的正确性和高可用性。RDD的血统机制使得在数据丢失时可以重建，增强了系统的容错能力。 Spark提供了丰富的API，包括Scala、Java、Python和R，使得数据科学家和开发者能够方便地编写分布式应用程序。Spark支持多种计算模式，包括批处理、流处理、图计算和SQL查询，使得它成为一个全方位的大数据处理平台。例如，Spark SQL允许用户使用SQL语句查询分布式数据，而Spark Streaming则用于实时数据处理，它可以处理来自各种数据源的连续数据流。在Spark集群中，应用程序由驱动程序(Driver Program)控制，驱动程序负责创建和管理RDDs，调度任务到集群的各个工作节点(Executor)上执行。Executor是运行在每个节点上的进程，负责执行计算任务和存储RDDs。这种架构使得Spark能够高效地并行处理大量数据，同时也支持交互式的数据探索和分析。 Spark的应用场景广泛，涵盖了机器学习、图计算、实时分析等领域。在机器学习中，Spark MLlib库提供了各种算法，如分类、回归、聚类和协同过滤，使得大规模数据上的模型训练变得简单。在图处理方面，GraphX提供了图计算框架，支持图的创建、查询和算法的执行。此外，Spark SQL结合DataFrame和Dataset API，简化了结构化和半结构化数据的处理，使其成为数据分析和BI工具的理想选择。 Spark通过其内存计算和高效的分布式数据处理能力，显著提升了大数据分析的效率。无论是对于数据科学家进行研究，还是企业进行大规模数据处理，Spark都提供了一个强大且灵活的平台，使得复杂的数据处理任务变得更加简单和快速。

1.Spark学习

1.1Spark简介

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，

由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码

只有63个Scala文件，非常短小精悍。

Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之

处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提

供交互式查询外，它还可以优化迭代工作负载。

Spark是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧

密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建Spark是为了支持分布式数据集上的迭代作业，但是实际上它是对Hadoop的补充，可以在

Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯

克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发，可用来构建大型的、低延迟的数据

分析应用程序。[1]

Spark集群计算架构

虽然Spark与Hadoop有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark是

为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算

法）的工作负载。为了优化这些类型的工作负载，Spark引进了内存集群计算的概念，可在内存集群计算

中将数据集缓存在内存中，以缩短访问延迟。

Spark还引进了名为弹性分布式数据集(RDD)的抽象。RDD是分布在一组节点中的只读对象集合。这些集

合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，

该机制可以维护"血统"（即允许基于数据衍生过程重建部分数据集的信息）。RDD被表示为一个Scala对

象，并且可以从文件中创建它；一个并行化的切片（遍布于节点之间）；另一个RDD的转换形式；并且最

终会彻底改变现有RDD的持久性，比如请求缓存在内存中。

Spark中的应用程序称为驱动程序，这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执

行的操作。与Hadoop类似，Spark支持单节点集群或多节点集群。对于多节点操作，Spark依赖于

Mesos集群管理器。Mesos为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许Spark

与Hadoop共存于节点的一个共享池中。

驱动程序可以在数据集上执行两种类型的操作：动作和转换。动作会在数据集上执行一个计算，并向驱动

程序返回一个值；而转换会从现有数据集中创建一个新的数据集。动作的示例包括执行一个Reduce操作

（使用函数）以及在数据集上进行迭代（在每个元素上运行一个函数，类似于Map操作）。转换示例包括

Map操作和Cache操作（它请求新的数据集存储在内存中）。

1.2Spark与Hadoop之不同

1.Spark的中间数据放到内存中，对于迭代运算效率比较高。Spark旨在延长MapReduce的迭代

算法，和互动低延迟数据挖掘的。MapReduce和Sparkis的一个主要区别，MapReduce是非周

期性。也就是说，数据流从一个稳定的来源，加工，流出到一个稳定的文件系统。“Spark允许相

同的数据，这将形成一个周期，如果工作是可视化的迭代计算。Spark更适合于迭代运算比较多的

下载后可阅读完整内容，剩余3页未读，立即下载

NinjaPanda

粉丝: 30
资源: 231

Spark内存计算集群系统详解

spark搭建手册.docx

hadoop-Spark搭建视频教程（自己录制）

spark搭建手册.pdf

Spark搭建流程

大数据spark搭建，spark安装包

hadoop spark搭建环境

hadoop hive spark搭建

hadoop+spark搭建文档

hadoop及spark搭建实验报告.pdf

CDH 6.3.0下Hive on Spark搭建与调优实战

最新资源