Spark入门与进阶：从RDD到SparkSQL - CSDN文库

下载需积分: 0 | DOCX格式 | 4.67MB | 更新于2024-06-30 | 74 浏览量 | 举报

收藏

"本章深入探讨了Apache Spark的相关知识，包括Spark的特点、高可用部署、核心组件、编程模型以及调优策略。Spark以其高效的并行计算能力，对比MapReduce展现了诸多优势，如内存计算和快速迭代。Spark的角色包括Driver、Executor和Worker，任务提交有本地模式、集群模式等。Spark-Shell提供了交互式测试环境，而Spark Streaming则用于实时流处理，具有可伸缩性和高吞吐量，可与Flume、Kafka等集成。在算子操作中，Transformations和OutputOperations是核心，例如map、filter和reduceByKey。SparkSQL支持结构化查询，能与JDBC数据源交互。Spark的核心数据抽象是Resilient Distributed Dataset (RDD)，它是不可变的、分区的数据集。RDD的创建、API使用和算子操作是编程的基础，如parallelize和cache。RDD的依赖关系决定了DAG（有向无环图）的生成，进而影响任务调度。RDD通过checkpoint实现容错，保存中间结果到可靠的存储。Spark运行架构包括Master、Worker节点，以及Stage和Task的调度。最后，提到了Spark开发中的性能调优，避免重复创建和复用RDD是关键优化原则。" 这段摘要详细介绍了Apache Spark的关键概念和技术，从Spark的基本特性到其组件和运行机制，再到编程模型和调优策略，为理解Spark的工作原理和应用提供了全面的指导。Spark的核心组件如Spark-Shell、Spark Streaming和SparkSQL，以及RDD的概念和操作，都是Spark开发者必备的知识。此外，对Spark的运行架构和调度机制的介绍，有助于理解Spark如何高效地处理大规模数据。调优部分则强调了减少RDD重复创建和复用的重要性，对于提升Spark应用的性能具有实践指导价值。

// 这种方式首先是定义样例类 Person, 然后通过将 rdd 与该样例类关联(通过样例类创建 schema，

case class 的参数名称会被利用反射机制作为列名) 生成最终的 RDD, 最后该 RDD 调用 toDF 方法

转换为 DataFrame. 有了 DataFrame 之后就可以调用各种方法来执行 spark sql 查询了

9 ② 通过 StructType 直接指定 Schema

// 这种方式首先是将 rdd 与 row 类型关联得到 rowRDD, 然后定义 structType 类型数据用来指定

schema. 最后通过 sparkSession 调用 createDataFrame 方法(含 rowRDD 以及 schema 两个参数)来

得到 DataFrame. 有了 DataFrame 之后就可以调用各种方法来执行 spark sql 查询了

2) 编写 Spark SQL 程序操作 HiveContext

// 设置为 enableHiveSupport 的 sparkSession 可以直接操作 hql (即 sparkSession 调用 sql 方

法, 里面可以直接写 hql 语句来操作)

6.1.17 JDBC 数据源

1) SparkSql 从 MySQL 中加载数据

1. A list of partitions ：一个分区（Partition）列表，数据集的基本组成单位。

对于 RDD 来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度。用户

可以在创建 RDD 时指定 RDD 的分区个数，如果没有指定，那么就会采用默认值。（比如：

读取 HDFS 上数据文件产生的 RDD 分区数跟 block 的个数相等）

2.A function for computing each split ：一个计算每个分区的函数。

Spark 中 RDD 的计算是以分区为单位的，每个 RDD 都会实现 compute 函数以达到这

个目的。

3.A list of dependencies on other RDDs：一个 RDD 会依赖于其他多个 RDD，RDD 之

间的依赖关系。

RDD 的每次转换都会生成一个新的 RDD，所以 RDD 之间就会形成类似于流水线一样

的前后依赖关系。在部分分区数据丢失时，Spark 可以通过这个依赖关系重新计算丢失

的分区数据，而不是对 RDD 的所有分区进行重新计算。

4.Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is

hash-partitioned)：一个 Partitioner，即 RDD 的分区函数（可选项）。

当前 Spark 中实现了两种类型的分区函数，一个是基于哈希的 HashPartitioner，

另外一个是基于范围的 RangePartitioner。只有对于 key-value 的 RDD，才会有

Partitioner，非 key-value 的 RDD 的 Parititioner 的值是 None。Partitioner 函数

决定了 parent RDD Shuffle 输出时的分区数量。

5.Optionally, a list of preferred locations to compute each split on (e.g.

block locations for an HDFS file)：一个列表，存储每个 Partition 的优先位置(可

选项)。

对于一个 HDFS 文件来说，这个列表保存的就是每个 Partition 所在的块的位置。

按照“移动数据不如移动计算”的理念，Spark 在进行任务调度的时候，会尽可能地将

计算任务分配到其所要处理数据块的存储位置（spark 进行任务分配的时候尽可能选择

那些存有数据的 worker 节点来进行任务计算）

3.为什么会产生 RDD？

1. 传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点，但是其最

剩余102页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

7323

粉丝: 29

最新资源