RDD行动算子详解：聚合与数据获取

需积分: 0 145 浏览量更新于2024-08-05 收藏 339KB PDF 举报

在Spark Core的学习系列中，这一章节主要关注RDD（Resilient Distributed Datasets，弹性分布式数据集）的行动算子，这些算子是Spark执行任务的核心组件，允许我们在分布式集群上高效地处理大量数据。以下是一些关键知识点的详细解释： 1. **创建第一个RDD**: 在Spark中，可以通过多种方式创建RDD，如`sc.makeRDD()`函数，用于将本地集合转换为RDD，如示例中的`val rdd = sc.makeRDD(Array(("a",1),("a",2),("b",3),("b",4)))`，这里创建了一个键值对类型的RDD。 2. **reduce算子**: `reduce`算子是聚合操作的基础，它接收一个二元函数作为参数，这个函数用于合并RDD中的每个元素对，直到最终得到单个结果。例如，`rdd.reduce((x,y) => (x._1+y._1, x._2+y._2))`将字符串"ab"和数字10相加，得到`(aabb, 10)`，体现了元素间的聚合。 3. **collect算子**: `collect`算子用于将整个RDD的数据集收集到驱动程序节点，以数组形式返回。例如，`rdd.collect()`会返回所有数值型RDD中的元素，如`Array(0, 1, 2, ..., 9)`。 4. **count算子**: `count`是用于计算RDD中元素数量的简单算子，如`rdd.count()`返回数值型RDD中元素的总数。 5. **first/ﬁrst算子**: `first`或`ﬁrst`（可能输入有误，应该是`first`）算子返回RDD中的第一个元素。这对于获取初始数据点或者检查数据集是否为空很有用。 6. **take/takeOrdered算子**: `take`和`takeOrdered`都用于获取部分数据，不同的是`take(n)`返回前n个元素组成的数组，而`takeOrdered(n)`则按指定顺序（默认为升序）返回前n个元素。例如，`rdd.take(3)`可能会返回`Array(0, 1, 2)`。通过理解并熟练运用这些行动算子，你可以有效地在Spark环境下进行数据处理和分析，实现分布式计算的强大功能。理解这些基础操作对于高级应用，如机器学习、大数据处理和实时流处理至关重要。

因为事物总是向着熵增的方向发展，所以一切符合熵增的，都非常容易和舒适，比如懒散。

RDD行动算子

reduce算子

作用：聚合RDD中的所有元素。

需求：创建一个键值对RDD，并进行聚合。

(1) 创建第一个RDD

(2) 使用reduce算子聚合元素



collect算子

作用：以数组的形式返回数据集中的所有数据。

需求：创建一个数值型RDD然后打印。

(1) 创建RDD

(2) 打印结果



count算子

作用：返回RDD中的元素个数

需求：创建一个数值型RDD然后统计其个数

(1) 创建RDD

scala> val rdd = sc.makeRDD(Array(("a",1),("a",2),("b",3),("b",4)))

rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[8] at

makeRDD at <console>:24

scala> rdd.reduce((x,y) => (x._1+y._1,x._2+y._2))

res4: (String, Int) = (aabb,10)

scala> val rdd = sc.parallelize(0 to 9)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at

<console>:24

scala> rdd.collect

res5: Array[Int] = Array(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)

下载后可阅读完整内容，剩余3页未读，立即下载

文润观书

粉丝: 31
资源: 316

RDD行动算子详解：聚合与数据获取

SparkCore RDD转换算子：map、mapPartition与mapPartitionsWithIndex解析

Spark Core：理解RDD：弹性分布式数据集与操作原理

SparkCore：理解RDD与迭代计算在大数据中的革新

RDD&SparkCore笔记.docx

Spark-Core学习知识笔记整理

spark-core核心机制PPT讲解

Spark学习笔记

spark，flink学习

最新资源