pyspark合并两个dataframe
时间: 2023-04-29 17:00:39 浏览: 107
可以使用pyspark中的join函数将两个dataframe合并。具体操作如下:
1. 导入pyspark模块和创建SparkSession对象
```
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("merge_df").getOrCreate()
```
2. 创建两个dataframe
```
df1 = spark.createDataFrame([(1, "A"), (2, "B"), (3, "C")], ["id", "name"])
df2 = spark.createDataFrame([(1, "X"), (2, "Y"), (4, "Z")], ["id", "value"])
```
3. 使用join函数合并两个dataframe
```
merged_df = df1.join(df2, "id", "outer")
```
其中,第一个参数"id"表示以哪个列为基准进行合并,第二个参数"outer"表示使用外连接方式合并。
4. 查看合并后的结果
```
merged_df.show()
```
输出结果如下:
```
+---+----+-----+
| id|name|value|
+---+----+-----+
| 1| A| X|
| 3| C| null|
| 2| B| Y|
| 4|null| Z|
+---+----+-----+
```
其中,id为1和2的行合并成功,id为3和4的行没有匹配到对应的值,因此为null。
以上就是使用pyspark合并两个dataframe的方法。
阅读全文