spark dsl 改变字段位置
时间: 2023-10-17 20:02:37 浏览: 93
Spark DSL提供了一种简单的方式来改变数据集中字段的位置,使用`select`函数和`col`函数即可。
假设我们有一个数据集,包含以下字段:
```
+----+-------+----------+
| id | name | city |
+----+-------+----------+
| 1 | Alice | New York |
| 2 | Bob | Chicago |
| 3 | Carol | Boston |
+----+-------+----------+
```
现在我们想要将`city`字段放到`id`字段后面,可以使用以下代码:
```scala
import org.apache.spark.sql.functions.{col, lit}
val df = spark.read.csv("path/to/data.csv").toDF("id", "name", "city")
val newDF = df.select(col("id"), col("name"), col("city"), lit("").alias("temp"))
.select(col("id"), col("name"), col("temp"), col("city"))
.drop("temp")
```
首先,我们使用`select`函数将`id`、`name`、`city`三个字段选出来,同时添加一个临时字段`temp`,并将其值设置为空字符串。接下来,我们再次使用`select`函数,选出`id`、`name`、`temp`、`city`四个字段,并将`temp`字段放在`city`字段前面。最后,我们使用`drop`函数删除`temp`字段,得到最终的数据集。
最终的结果如下:
```
+----+-------+----------+
| id | name | temp | city |
+----+-------+----------+
| 1 | Alice | | New York|
| 2 | Bob | | Chicago |
| 3 | Carol | | Boston |
+----+-------+----------+
```
可以看到,`city`字段已经被移动到了`id`字段后面。
阅读全文