pyspark 怎么新增一个列
时间: 2024-05-06 22:22:02 浏览: 62
pyspark给dataframe增加新的一列的实现示例
在 PySpark 中,可以使用 DataFrame 的 `withColumn()` 方法来新增一个列。该方法需要传入两个参数:新增列的名称和该列的计算逻辑。
例如,假设有一个 DataFrame `df`,现在想要新增一个名为 `new_col` 的列,该列的值为 `col1` 列和 `col2` 列之和,可以使用以下代码实现:
```
from pyspark.sql.functions import col
df = df.withColumn("new_col", col("col1") + col("col2"))
```
其中,`col()` 函数用于获取指定列的引用。在计算 `new_col` 列的值时,使用了 `+` 运算符将 `col1` 列和 `col2` 列相加。
注意,`withColumn()` 方法会返回一个新的 DataFrame,因此需要将其赋值给一个变量,或直接使用链式调用来进行多个列的新增。
阅读全文