dataframe中groupby函数
时间: 2023-08-30 15:10:20 浏览: 115
groupby函数是pandas库中的一个函数,它可以根据指定的列对数据进行分组,然后对每组数据进行聚合运算。例如,可以根据某一列的值将数据分成若干个组,然后对每个组内的数据进行求和、求平均值等操作。
下面是groupby函数的一些常用参数:
- by:指定分组的列名,可以是单个列名,也可以是多个列名组成的列表。
- axis:指定分组的轴,0表示按行分组,1表示按列分组。
- as_index:指定是否将分组列作为索引,默认为True。
- group_keys:指定是否在结果中包含分组键,默认为True。
下面是一个使用groupby函数的例子:
```
import pandas as pd
# 创建一个示例数据集
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ellen', 'Frank', 'Grace', 'Henry', 'Isaac', 'Jen'],
'Gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F', 'M', 'M', 'F'],
'Age': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65],
'Salary': [50000, 60000, 70000, 80000, 90000, 100000, 110000, 120000, 130000, 140000]
}
df = pd.DataFrame(data)
# 按照性别进行分组,求各组的平均年龄和平均工资
grouped = df.groupby('Gender')
result = grouped[['Age', 'Salary']].mean()
print(result)
```
输出结果如下:
```
Age Salary
Gender
F 41.666667 98000.00
M 42.500000 90000.00
```
这个例子中,我们将数据按照性别进行分组,然后对每个分组求平均年龄和平均工资。注意,我们使用了groupby函数来对数据进行分组,然后使用mean函数对每个分组进行求平均值。最后,我们得到了一个新的DataFrame,其中包含了每个分组的平均年龄和平均工资。
阅读全文