Pandas分组与聚合操作详解及示例
193 浏览量
更新于2024-09-01
收藏 45KB PDF 举报
定义聚合函数进行计算
在Pandas中,除了内置的聚合函数外,我们还可以自定义聚合函数来满足特定的计算需求。这通常通过`apply()`函数实现。例如,我们可以定义一个函数计算数据的标准差:
```python
def custom_std(x):
return x.std()
# 应用自定义函数进行聚合运算
df_grouped = df.groupby('key1').apply(custom_std)
print(df_grouped)
```
2. 分组运算
分组运算允许我们将数据按照一个或多个列的值进行分割,然后对每个分组分别进行操作。Pandas中的`groupby()`函数是进行分组操作的关键。
(1)分组后筛选
我们可以结合`groupby()`与条件筛选来进一步处理数据。例如,筛选出`data1`列大于平均值的分组:
```python
# 筛选data1大于平均值的分组
mean_data1 = df['data1'].mean()
filtered_df = df[df['data1'] > mean_data1]
grouped_filtered = filtered_df.groupby('key1')
print(grouped_filtered.sum())
```
(2)分组后排序
在分组运算后,我们还可以对结果进行排序。可以按分组内值的大小或分组本身的名称进行排序:
```python
# 按照分组后的data1总和降序排序
sorted_df = df.groupby('key1').sum().sort_values('data1', ascending=False)
print(sorted_df)
```
(3)多列分组
如果需要同时按照多列进行分组,只需将列名以列表形式传入`groupby()`即可:
```python
# 按照key1和key2两列分组
multi_grouped = df.groupby(['key1', 'key2']).sum()
print(multi_grouped)
```
(4)分组级别的操作
在多层分组中,我们可以对不同级别的分组进行操作,例如,计算每个`key1`下`key2`的最大值:
```python
level_max = multi_grouped.max(level=0)
print(level_max)
```
总结
Pandas的聚合运算和分组运算为数据处理提供了强大的功能,能够帮助我们快速汇总、分析数据。通过内置的聚合函数和自定义函数,我们可以进行多种统计计算。而分组运算则让我们可以按需对数据进行分割、筛选和排序,极大地提升了数据分析的效率和精度。在实际工作中,熟练掌握这些操作对于数据科学家和分析师来说至关重要。
2020-03-16 上传
2022-06-14 上传
2023-09-10 上传
2023-08-17 上传
2024-01-27 上传
2024-07-26 上传
2024-10-16 上传
2023-06-12 上传
weixin_38638596
- 粉丝: 3
- 资源: 984
最新资源
- 俄罗斯RTSD数据集实现交通标志实时检测
- 易语言开发的文件批量改名工具使用Ex_Dui美化界面
- 爱心援助动态网页教程:前端开发实战指南
- 复旦微电子数字电路课件4章同步时序电路详解
- Dylan Manley的编程投资组合登录页面设计介绍
- Python实现H3K4me3与H3K27ac表观遗传标记域长度分析
- 易语言开源播放器项目:简易界面与强大的音频支持
- 介绍rxtx2.2全系统环境下的Java版本使用
- ZStack-CC2530 半开源协议栈使用与安装指南
- 易语言实现的八斗平台与淘宝评论采集软件开发
- Christiano响应式网站项目设计与技术特点
- QT图形框架中QGraphicRectItem的插入与缩放技术
- 组合逻辑电路深入解析与习题教程
- Vue+ECharts实现中国地图3D展示与交互功能
- MiSTer_MAME_SCRIPTS:自动下载MAME与HBMAME脚本指南
- 前端技术精髓:构建响应式盆栽展示网站