dataframe的聚合用法
时间: 2023-11-18 09:01:44 浏览: 83
Pandas 合并多个Dataframe(merge,concat)的方法
DataFrame 的聚合操作指的是将数据按照某些条件进行分组,然后对每个分组进行统计计算或者其他操作,最终将结果合并为一个 DataFrame。
常用的聚合操作包括:
- sum:求和
- mean:求平均值
- count:计数
- max/min:最大值/最小值
- std/var:标准差/方差
例如,我们有一个 DataFrame 如下:
```
import pandas as pd
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Frank'],
'gender': ['F', 'M', 'M', 'M', 'F', 'M'],
'age': [25, 30, 35, 40, 45, 50],
'income': [5000, 6000, 7000, 8000, 9000, 10000]
})
```
现在想要按照性别进行分组,然后计算每个分组的平均年龄和收入,可以使用如下代码:
```
df.groupby('gender').agg({'age': 'mean', 'income': 'mean'})
```
其中,`groupby('gender')` 将数据按照 gender 列进行分组,`agg({'age': 'mean', 'income': 'mean'})` 将每个分组的 age 和 income 列求平均值。最终结果如下:
```
age income
gender
F 35.000000 7000.0
M 41.666667 8666.666667
```
除了使用 `agg` 方法外,还可以使用 `apply` 或者 `transform` 方法进行聚合操作。具体用法可以参考 Pandas 官方文档。
阅读全文