spark dataframe 合并多个dataframe为一个
时间: 2024-05-26 14:07:16 浏览: 316
Spark2.0-新特性介绍PPT
在 Spark 中,可以使用 `unionAll` 或者 `union` 方法将多个 DataFrame 合并为一个。这两个方法的作用都是将多个 DataFrame 进行纵向合并。其中,`unionAll` 方法不会进行去重,而 `union` 方法会去除重复行。
示例代码如下:
```
from pyspark.sql.functions import lit
# 创建三个DataFrame
df1 = spark.createDataFrame([(1, "a"), (2, "b")], ["id", "value"])
df2 = spark.createDataFrame([(3, "c"), (4, "d")], ["id", "value"])
df3 = spark.createDataFrame([(5, "e"), (6, "f")], ["id", "value"])
# 使用 unionAll 方法进行合并
union_df = df1.unionAll(df2).unionAll(df3)
union_df.show()
# 使用 union 方法进行合并
distinct_union_df = df1.union(df2).union(df3).distinct()
distinct_union_df.show()
```
输出结果如下:
```
+---+-----+
| id|******************
阅读全文