pyspark追加新列
时间: 2023-09-01 11:11:46 浏览: 76
pyspark给dataframe增加新的一列的实现示例
要在pyspark中追加新列,可以使用`withColumn`方法。以下是一个示例代码:
```
from pyspark.sql.functions import col
# 原有数据集
df = spark.read.csv("path/to/csv")
# 创建新列
new_col = col("column1") + col("column2")
# 追加新列到数据集中
df = df.withColumn("new_column", new_col)
# 展示新数据集
df.show()
```
这个例子中,我们使用`col`方法来获取指定列的引用。然后我们将它们相加以创建一个新的列。最后,我们使用`withColumn`方法将新列追加到数据集中。注意,新的数据集被赋值给了原来的变量`df`,所以在展示新数据集时,我们使用了`show`方法。
阅读全文