pyspark dataframe 对数据框 df 按照列 '用户ID' 进行分组,并计算出每组中列 '行为类型1' 的和
时间: 2024-01-21 18:04:05 浏览: 96
python中dataframe将一列中的数值拆分成多个列
5星 · 资源好评率100%
您好,关于您的问题,可以使用pyspark中的groupBy和agg函数实现按照用户ID进行分组,计算行为类型1的和。具体代码如下:
```
from pyspark.sql.functions import sum
df.groupBy("用户ID").agg(sum("行为类型1").alias("行为类型1_总和"))
```
其中,groupBy("用户ID")表示按照用户ID进行分组,sum("行为类型1")表示对行为类型1进行求和,agg(sum("行为类型1").alias("行为类型1_总和"))表示对分组后的每个组进行聚合并将结果存储在一个新的列中,这个新的列名为"行为类型1_总和"。
阅读全文