Apache Spark研究报告：Spark的前发展和相关概念介绍

需积分: 0 112 浏览量更新于2024-01-03 收藏 1.2MB PDF 举报

"Apache Spark研究报告一；2. Spark前发展应情况在"Apache Spark研究报告一"中，我们介绍了Apache Spark作为一个围绕速度、易用性和复杂分析构建的大数据处理框架的概述。Spark最早是在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。 Spark是基于MapReduce计算模型的扩展，并且支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的，因为它决定了能否进行交互式的数据操作，而不需要等待数分钟甚至数小时。Spark的一个主要特点就是能够在内存中进行计算，因此比MapReduce更快。即使是必须在磁盘上进行的复杂计算，Spark依然比MapReduce更高效。 Spark适用于各种原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询和流处理。通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单且低耗地把各种处理流程整合在一起。这样的组合，在实际的数据分析过程中非常有用。接下来，我们将重点介绍Spark的相关概念。 4. Spark相关概念介绍在Spark中，最核心的概念是弹性分布式数据集（RDD）。RDD代表了一个可以分布在集群中多台机器上的不可变、可分区、可并行操作的数据集合。RDD可以通过从其他RDD进行转换操作来创建，这些转换操作可以是类似于map、filter和reduce等函数式编程的操作。 RDD具有两种类型的操作：转换操作和行动操作。转换操作是对一个RDD进行变换，生成一个新的RDD，而行动操作是对RDD执行计算并返回结果。在Spark中，RDD的惰性求值策略使得可以进行更有效的计算。另一个重要的概念是Spark上下文（SparkContext），它是用户创建和操作RDD的主要入口点。用户通过在SparkContext上调用各种函数来创建、转换和行动RDD。 Spark还提供了一些高级功能，如共享变量、广播变量和累加器。共享变量允许在集群中的多个任务之间共享数据，广播变量允许在计算节点间高效地分发大型只读数据集，累加器允许多个计算节点对共享变量进行非叠加性的写操作。 5. Spark核 - 弹性分布式数据集（RDD）弹性分布式数据集（RDD）是Spark的核心概念之一。RDD是Spark对数据的抽象表示，它是一个可以被分割成多个分区，存储在集群中的不可变的分布式对象。RDD可以在内存中进行计算，这使得Spark比传统的基于磁盘的批处理系统更快。 RDD可以通过两种方式创建：从外部存储系统（如HDFS）中的数据集加载或者通过对现有RDD的转换操作来创建。一旦RDD被创建，就可以对其进行各种转换操作，例如map、filter、reduce等。这些转换操作会生成一个新的RDD，而不会改变原始RDD。 RDD还支持行动操作，这些操作会触发实际的计算并返回结果。实际上，RDD的计算是惰性的，只有当行动操作被调用时，Spark才会执行计算。 Spark提供了丰富的API，使得用户可以方便地在RDD上进行各种操作。同时，Spark还通过提供高级抽象如DataFrame和Dataset来简化数据操作的处理和优化。总结来说，Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。Spark的核心概念是弹性分布式数据集（RDD），它是一个可以分布在集群中多台机器上的不可变、可分区、可并行操作的数据集合。Spark能够支持多种计算模式，包括批处理、迭代算法、交互式查询和流处理。通过在一个统一的框架下支持这些不同的计算，Spark使得数据分析变得更加简单和高效。"

Spark GraphX:

GraphX是󰉁于图计算和并󰢩图计算的新的（alpha）Spark API。通过引弹性分布式属

性图（Resilient Distributed Property Graph），种顶点和边都带有属性的有向多重图，扩

展Spark RDD。为持图计算，GraphX󰴣个基础操作符集合（如subgraph，

joinVertices和aggregateMessages）和个经过优化的Pregel API变体。此外，GraphX还包

括个持续增󰲊的󰉁于简化图分析任务的图算法和构建集合。!

4. Spark相关概念介绍

（1）Application： 󰉁户在 spark 上构建的程序，包含 driver 程序以及在集群上运󰢩的程

序代码，物󰇹机上涉及 driver，master，worker 三个节点。!

（2）SparkContext：Spark应󰉁程序的，负责调度各个运算资源，协调各个Worker

Node上的Executor。!

（3）Driver Program：运󰢩Application的main()函数并且创建SparkContext，定义个

spark 应󰉁程序所需要的三步骤的逻辑：加载数据集，处󰇹数据，结果展示。!

（4）Executor：是为Application运󰢩在Worker node上的个进程，该进程负责运󰢩Task，

并且负责将数据存在内存或者磁盘上。每个Application都会申请各󰙵的Executor来处󰇹任务。!

（5）Cluster Manager：在集群上获取资源的外部服务 (如：Standalone、Mesos、

Yarn)。!

（6）Worker Node：集群中任何可以运󰢩Application代码的节点，运󰢩个或多个Executor

进程。!

（7）Task：运󰢩在Executor上的作单元。!

（8）Job：包含很多 task 的并󰢩计算，可以认为是 Spark RDD 󰮟󰴯的 action，每个 action

的触发会󰈿成个job。 󰉁户提交的 Job 会提交给 DAGScheduler，Job 会被分解成 Stage，

Stage 会被细化成 Task，Task 就是在个数据 partition 上的单个数据处󰇹流程。!

（9）Stage：每个Job会被拆分很多组task，每组任务被称为Stage，也称TaskSet。!

（10）RDD：是Resilient distributed datasets的简称，中为弹性分布式数据集；是Spark最

核的模块和类。!

（11）DAGScheduler：根据Job构建基于Stage的DAG，并提交Stage中的taskset给

TaskScheduler。!

（12）TaskScheduler：将task提交给Worker node集群运󰢩并返回结果。!

（13）Transformations：是Spark API的种类型，Transformation返回值还是个RDD，

所有的Transformation采󰉁的都是惰性策󰉝，如果只是将Transformation提交是会执󰢩计算

的。!

（14）Action：是Spark API的种类型，Action返回值是个RDD，󰖳是个scala集合；

计算只有在Action被提交的时候计算才被触发。!

APACHE SPARK研究报告

剩余15页未读，继续阅读

东方捕

粉丝: 22

Apache Spark研究报告：Spark的前发展和相关概念介绍

基于Apache spark的数据湖开源可靠性研究.pdf

Apache Spark中Dropwizard Metrics报告器的功能解析

Apache Spark项目计划与实施

掌握Apache Spark 2源码实战指南

Apache Spark与MMLib：端到端分析实践

大数据技术分享 Spark技术讲座 规模驱动的Apache Spark调整 共38页.pdf

基于Scala的Apache Spark大数据处理设计源码

大数据Spark技术分享 使用Prometheus和Apache Spark集群进行可扩展监控 共33页.pdf

大数据技术分享 Spark技术讲座 利用Apache Spark加速脑组织模拟数据分析 共27页.pdf

藏经阁-ADMM based Scalable Machine Learning on Apache Spark.pdf

最新资源

大数据技术分享 Spark技术讲座规模驱动的Apache Spark调整共38页.pdf

大数据Spark技术分享使用Prometheus和Apache Spark集群进行可扩展监控共33页.pdf

大数据技术分享 Spark技术讲座利用Apache Spark加速脑组织模拟数据分析共27页.pdf