Scala RDD操作实践：Transformation与Action详解

需积分: 9 61 浏览量更新于2024-09-10 收藏 7KB TXT 举报

本文档主要探讨了在生产环境中广泛使用的数据转换（Transformation）及其在Scala编程中的应用。在分布式计算框架如Spark中，RDD（Resilient Distributed Dataset）是核心概念，它允许我们处理大规模数据集并执行各种操作。以下将详细介绍几个关键的 Transformation 操作，并结合示例进行解析： 1. **Map Transformation**：在Scala中，`map`函数用于对RDD中的每个元素应用一个函数，生成一个新的RDD。例如，`val rdd2 = rdd1.map(_*10)`这一行代码表示将rdd1中的每个元素乘以10。这是数据转换中最基本的操作之一，常用于数据清洗、格式转换等。 2. **Filter Transformation**： `filter`函数用于根据指定的条件从RDD中选择满足条件的元素，生成一个新的RDD。如`val rdd3 = rdd2.filter(_ < 50)`，仅保留rdd2中值小于50的元素。 3. **Partitioning and Serialization**： RDDs由分区（partitions）组成，`rdd1.partitions.length`显示了rdd1的分区数量。在将数据存储到HDFS或进行跨节点操作时，理解分区和序列化至关重要，因为它们影响性能和数据分布。 4. **Sorting and Collecting**： `sortBy`函数用于对RDD进行排序，可以接受一个函数作为参数来定义排序规则。`collect`方法用于将整个RDD加载到内存中。示例中，`valrdd2.sortBy(x => x, true).collect`展示了按升序对数值进行排序后收集结果。 5. **FlatMap and Join Operations**： `flatMap`函数用于扁平化数据结构，例如将列表转化为单个元素的列表。`valrdd5.flatMap(_.flatMap(_.split(""))).collect`展示了如何使用`flatMap`将字符串分割成字符。`union`操作用于合并多个RDD，但在这部分没有具体实例。 6. **Pair Operations**：对于键值对的数据处理，`sc.parallelize(List(List("abc","abb"), ...))`创建了一个包含元组的RDD，这在构建键值对数据结构和后续的Join操作中很常见。本文档通过实际的Scala代码示例，讲解了在生产环境中如何运用transformation操作对大规模数据进行处理，包括基本的映射、过滤，以及更复杂的排序、分区、和数据结构转换等。理解这些核心概念和操作对于编写高效、可扩展的大数据处理程序至关重要。

#常用Transformation(即转换，延迟加载)
#通过并行化scala集合创建RDD

scala>val rdd1=sc.parallelize(Array(1,2.3,4,5))
scala>val rdd2=rdd1.map(_*10)
scala>val rdd3=rdd2.filter(_<50)
scala>rdd3.collect 这下才计算
创建rdd有两种方式
1.通过hdfs支持的文件系统创建rdd，rdd里面没有真正要计算的数据。只记录了一下元数据
2》通过scala集合或者数组一并行化的方式创建rdd

val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))
查看RDD.scala源码
#查看该rdd的分区数量
rdd1.partitions.length 看有几个分区：可以指定有几各分区
val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8)，5)指定五个分区

val rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))
val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(_*2).sortBy(x=>x,true) （.collect打印出来）升序，为什么不能使用下划线，因为有多个参数
val rdd3 = rdd2.filter(_>10)
val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(_*2).sortBy(x=>x+"",true)
val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(_*2).sortBy(x=>x.toString,true)

val rdd4 = sc.parallelize(Array("a b c", "d e f", "h i j"))
rdd4.flatMap(_.split(' ')).collect

val rdd5 = sc.parallelize(List(List("a b c", "a b b"),List("e f g", "a f g"), List("h i j", "a a b")))

下载后可阅读完整内容，剩余4页未读，立即下载

dengddddw

粉丝: 1
资源: 52

Scala RDD操作实践：Transformation与Action详解

Informatica Router Transformation组件 详解

Compiler Design Analysis and Transformation 无水印pdf

Compiler Design_ Analysis and Transformation

box-cox transformation python

µ-law transformation

kettle 生成Transformation代码编写

transformation算子与action算子的关系

下列关于flink中transformation的说法正确的是

图形学中的 Transformation Cont是什么

类变量可以进行power transformation 吗

最新资源

Informatica Router Transformation组件详解