Spark RDD API详解与核心操作

需积分: 9 14 浏览量更新于2024-09-10 收藏 151KB PDF 举报

"Spark RDD API 是Apache Spark的核心数据结构，它是Resilient Distributed Datasets的缩写，提供了并行计算的基础。本资源整理了`RDD[T]`的主要操作，包括转换（Transformations）和动作（Actions），并结合`spark rdd.scala`和`ParRDDFunctions.scala`源码进行了详细解释，旨在帮助用户深入理解并有效利用Spark的RDD功能。" 在Spark中，RDD是不可变的、分区的数据集，它们支持并行操作，可以在集群中高效地处理大量数据。RDD有两大类操作：Transformations和Actions。 1. **Transformations** - 这些操作创建新的RDD，但不立即执行，而是等到触发Action时才进行计算。例如： - `persist/cache`: 这两个方法用于缓存RDD，以提高后续重复使用的性能。默认使用内存存储，也可以选择磁盘或内存+磁盘混合存储。 - `map(f: T => U)`: 将每个元素应用函数f，转换为新类型U的RDD。 - `keyBy(f: T => K)`: 提取元素的键，创建(K, V)形式的键值对RDD。 - `flatMap(f: T => Iterable[U])`: 类似于map，但返回的不是单个元素，而是每个输入元素可以映射到多个输出元素。 - `filter(f: T => Boolean)`: 保留满足条件的元素，过滤掉不符合条件的元素。 - `distinct(numPartitions)`: 去除重复元素，可指定分区数以优化性能。 - `reduceByKey((x, y) => x, numPartitions)`: 对键值对RDD，将相同键的值聚合在一起，使用给定的合并函数。 - `repartition(numPartitions)` 和 `coalesce(numPartitions)`: 分区调整操作，前者可以增加或减少分区，后者仅减少分区，且在没有shuffle的情况下进行。 - `sample()` / `randomSplit()` / `takeSample()`: 用于采样数据，可以获取RDD的随机子集。 - `union(RDD[T])`: 合并两个RDD，不考虑元素重复。 - `sortBy[K](f: (T) => K)`: 按照提供的键提取函数进行排序，会创建一个带有RangePartitioner的RDD。 - `intersection(RDD[T])`: 计算两个RDD的交集，去除重复项，内部可能涉及shuffle操作。 - `glom()`: 把每个分区的数据合并成一个Array，便于处理分区内的数据。 - `cartesian(RDD[U])`: 计算两个RDD的笛卡尔积，生成所有可能的(x, y)对。 - `groupBy[K](f: T => K)`: 根据提供的函数f将数据分组，返回(K, Iterable[T])的RDD，后续可以配合agg操作进行聚合。 2. **Actions** - 这些操作触发实际的计算并返回结果，可能涉及数据的持久化或传输。 - `cogroup(RDD[U])`: 结合两个RDD，对相同的键生成(K, Iterable[V], Iterable[W])的元组，用于两个RDD的联合操作。使用Spark的RDD API时，需要注意的是，尽管Transformations不会立即执行，但每次调用Action都会触发整个计算流程，因此合理设计Transformations和Actions的组合可以优化性能。此外，使用`persist()`或`cache()`可以避免重复计算，提高效率，但需要考虑内存使用情况。在处理大数据时，理解这些操作如何影响数据分布和计算过程至关重要。

RDD api 整理

RDD[T]

Transformations

rdd api

备注

persist/cache

map(f: T => U)

keyBy(f: T => K)

特殊的 map，提 key

flatMap(f: T => Iterabl

e[U])

map 的一种，类似 UDTF

filter(f: T => Boolean)

map 的一种

distinct(numPartitions)

rdd 的实现为 map(x => (x, null)).reduceByKey((x, y)

=> x, numPartitions).map(_._1) reduceByKey 是特

殊的 combineByKey，其 mergeValue 函数和 merge

Combiners 函数一致，都是(x, y) => x

repartition(numPartitio

ns)/coalesce(numPartiti

ons)

repartition 用于增减 rdd 分区。coalesce 特指减

少分区，可以通过一次窄依赖的映射避免 shuffle

sample()/randomSplit()/

takeSample()

采样

union(RDD[T])

不去重。使用 distinct()去重

sortBy[K](f: (T) => K)

传入的 f 是提 key 函数，rdd 的实现为 keyBy(f).s

ortByKey().values() 这次操作为 RDD 设置了一个 Ra

ngePartitioner

intersection(RDD[T])

两个集合取交集，并去重。RDD 的实现为 map(v

下载后可阅读完整内容，剩余6页未读，立即下载

Ink__Bamboo

粉丝: 433
资源: 9

Spark RDD API详解与核心操作

spark2.1.0.chm（spark java API）

spark-2.3.0 api 文档

Scala2.11.12离线API.zip

spark sql rdd基本操作、rdd—dataframe、api mysql

使用spark-redis来实现

Naive Bayes - RDD-based API 输出结果

spark-3.1.3-bin-hadoop3.2.tgz

random Trees - RDD-based API scala语言代码

Decision Trees - RDD-based API scala语言代码输出预测结果

random Trees - RDD-based API scala语言代码输出预测结果

最新资源