在scala中spark合并两个dataframe
时间: 2023-09-05 15:08:57 浏览: 285
SparkSQ操作DataFrame,合并DataFrame
在 Scala 中,可以使用 `join` 函数将两个 DataFrame 合并。
例如,假设有两个 DataFrame `df1` 和 `df2`,它们都有一个名为 `id` 的列,可以使用以下代码将它们合并:
```scala
val joinedDF = df1.join(df2, Seq("id"))
```
上面的代码将根据 `id` 列将 `df1` 和 `df2` 进行内连接。如果需要其他类型的连接,可以将第二个参数传递给 `join` 函数,例如:
```scala
// 左连接
val leftJoinedDF = df1.join(df2, Seq("id"), "left")
// 右连接
val rightJoinedDF = df1.join(df2, Seq("id"), "right")
// 外连接
val outerJoinedDF = df1.join(df2, Seq("id"), "outer")
```
这些函数将分别执行左连接、右连接和外连接。可以根据需要使用这些函数来合并 DataFrame。
阅读全文