rdd的创建 -scala
时间: 2023-08-01 09:09:00 浏览: 136
Spark-Scala简介
在Scala中,RDD(弹性分布式数据集)可以通过以下方式创建:
1. 从已有的集合或序列创建RDD
```scala
val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5))
```
2. 从外部数据源(如文件)中读取数据并创建RDD
```scala
val rdd = sc.textFile("file.txt")
```
3. 从其他RDD进行转换和创建
```scala
val rdd1 = sc.parallelize(Seq(1, 2, 3, 4, 5))
val rdd2 = rdd1.map(_ * 2)
```
以上是RDD的常见创建方式,需要注意的是,在创建完RDD后,需要将其缓存到内存中以便后续使用。例如,可以使用以下方式将RDD缓存到内存中:
```scala
rdd.cache()
```
阅读全文