PySpark dataframe 聚合 每一行表示不同的天数,每一列表示不同的行为类型,值是每一天一种行为类型的和 代码怎么写
时间: 2023-05-23 20:03:56 浏览: 120
pandas把dataframe转成Series,改变列中值的类型方法
可以使用groupBy和agg函数来对DataFrame进行聚合,首先使用groupBy对每一行不同的天数进行分组,然后使用agg函数对每一天一种行为类型的和进行求和。
以下是示例代码:
```python
from pyspark.sql.functions import sum
df.groupBy("day").agg(sum("behavior_type_1").alias("type1"), sum("behavior_type_2").alias("type2"), sum("behavior_type_3").alias("type3"), sum("behavior_type_4").alias("type4"))
```
其中,day为表示不同天数的列名,behavior_type_1到behavior_type_4表示不同的行为类型列名,type1到type4为聚合后的新列名,表示每一天一种行为类型的和。
阅读全文