pysparkjoin连接结果展示
时间: 2023-07-02 11:19:38 浏览: 80
在 PySpark 中,可以使用 `join` 方法连接两个数据集。连接的结果可以使用 `show` 方法展示。示例代码如下:
```python
from pyspark.sql.functions import col
# 创建两个 DataFrame
df1 = spark.createDataFrame([(1, "apple"), (2, "banana"), (3, "orange")], ["id", "fruit"])
df2 = spark.createDataFrame([(1, "red"), (2, "yellow"), (4, "green")], ["id", "color"])
# 使用 join 方法连接两个 DataFrame,并展示结果
joined_df = df1.join(df2, on=["id"], how="left")
joined_df.show()
```
其中,`on=["id"]` 指定连接的列为 "id",`how="left"` 指定连接方式为左连接。`show` 方法默认展示前 20 行结果,可以通过传入参数控制展示的行数,例如 `show(n=100)`。
阅读全文