groupby()用法
时间: 2024-03-08 11:42:43 浏览: 79
groupby()函数是pandas库中的一个重要函数,用于对数据进行分组操作。它可以根据指定的列或多个列对数据进行分组,并对每个分组进行聚合、转换或筛选等操作。
以下是groupby()函数的一般用法和语法格式:
1. groupby()核心用法:
- 按照单个列进行分组:grouped = df.groupby('column_name')
- 按照多个列进行分组:grouped = df.groupby(['column_name1', 'column_name2'])
2. groupby()语法格式:
- 单个列分组:grouped = df.groupby('column_name')
- 多个列分组:grouped = df.groupby(['column_name1', 'column_name2'])
- 指定分组后的操作:grouped['column_name'].operation()
- 可以使用多个操作:grouped['column_name'].operation1().operation2()
3. groupby()参数说明:
- axis:指定按行(axis=0)或按列(axis=1)进行分组,默认为0。
- level:指定按照多级索引的某个级别进行分组。
- as_index:指定是否将分组的列作为索引,默认为True。
- sort:指定是否对分组结果进行排序,默认为True。
- group_keys:指定是否在结果中包含分组键,默认为True。
4. groupby()典型范例:
- 对某一列进行分组并计算平均值:grouped = df.groupby('column_name').mean()
- 对多个列进行分组并计算总和:grouped = df.groupby(['column_name1', 'column_name2']).sum()
5. groupby常见的调用函数:
- sum():计算分组后的总和。
- mean():计算分组后的平均值。
- count():计算分组后的计数。
- max():计算分组后的最大值。
- min():计算分组后的最小值。
- agg():对分组后的数据进行自定义聚合操作。
阅读全文