spark dataframe对col_a和col_b两列执行 col_b-col_a /col_b的计算再替换col_a列
时间: 2023-12-15 09:05:33 浏览: 150
dataframe 按条件替换某一列中的值方法
3星 · 编辑精心推荐
可以使用Spark DataFrame的withColumn函数来实现这个需求。例如,假设你的DataFrame名为df,可以使用以下代码:
```
from pyspark.sql.functions import col
df = df.withColumn("new_col_a", col("col_b") - col("col_a") / col("col_b"))
```
这将会对col_b和col_a进行计算,然后将结果存储在新的列new_col_a中。你可以选择将新的列重命名为col_a,如下所示:
```
df = df.withColumn("col_a", col("col_b") - col("col_a") / col("col_b"))
```
这将会替换原来的col_a列,其值为col_b - col_a / col_b。
阅读全文