【进阶篇】高级数据处理技巧：Pandas中的GroupBy与Apply

![【进阶篇】高级数据处理技巧：Pandas中的GroupBy与Apply](https://img-blog.csdnimg.cn/f90645b6b5f244658a0a03804c10928a.png) # 2.1 分组聚合函数 ### 2.1.1 常用聚合函数 Pandas 提供了丰富的聚合函数，用于对分组数据进行聚合计算。常用聚合函数包括： - `sum()`: 计算各组元素的总和 - `mean()`: 计算各组元素的平均值 - `median()`: 计算各组元素的中位数 - `max()`: 计算各组元素的最大值 - `min()`: 计算各组元素的最小值 **示例：** ```python import pandas as pd df = pd.DataFrame({ 'group': ['A', 'A', 'B', 'B', 'C'], 'value': [1, 2, 3, 4, 5] }) # 分组求和 df_sum = df.groupby('group')['value'].sum() print(df_sum) ``` 输出： ``` group A 3 B 7 C 5 Name: value, dtype: int64 ``` # 2. GroupBy分组操作 GroupBy分组操作是Pandas中用于对数据进行分组和聚合的强大工具。它允许用户根据一个或多个列将数据分组，并对每个组执行各种聚合操作，例如求和、求平均值或计数。 ### 2.1 分组聚合函数 #### 2.1.1 常用聚合函数 Pandas提供了各种内置的聚合函数，用于对分组数据执行聚合操作。最常用的聚合函数包括： - `sum()`：计算每个组中值的总和 - `mean()`：计算每个组中值的平均值 - `max()`：计算每个组中值的最小值 - `min()`：计算每个组中值的最小值 - `count()`：计算每个组中值的个数 **代码块：** ```python import pandas as pd df = pd.DataFrame({ "category": ["A", "B", "C", "A", "B", "C"], "value": [10, 20, 30, 40, 50, 60] }) # 对 "category" 列分组并计算每个组中 "value" 列的总和 result = df.groupby("category")["value"].sum() print(result) ``` **逻辑分析：** * `groupby("category")`：根据 "category" 列将数据分组，返回一个GroupBy对象。 * `["value"].sum()`：对每个组中的 "value" 列求和。 * `print(result)`：打印分组后的聚合结果。 #### 2.1.2 自定义聚合函数除了内置的聚合函数，用户还可以自定义聚合函数来执行更复杂的聚合操作。自定义聚合函数需要实现 `__call__()` 方法，该方法接受一个分组后的数据帧并返回聚合结果。 **代码块：** ```python def my_agg_func(group): return group["value"].mean() + group["value"].std() # 对 "category" 列分组并应用自定义聚合函数 result = df.groupby("category")["value"].agg(my_agg_func) print(result) ``` **逻辑分析：** * `my_agg_func(group)`：自定义聚合函数，计算每个组中 "value" 列的平均值和标准差之和。 * `agg(my_agg_func)`：应用自定义聚合函数对每个组进行聚合。 * `print(result)`：打印分组后的聚合结果。 ### 2.2 分组排序和筛选 #### 2.2.1 按分组排序 GroupBy对象还支持对分组后的数据进行排序。可以使用 `sort_values()` 方法根据指定的列对分组后的数据进行升序或降序排序。 **代码块：** ```python # 按 "category" 列分组并对每个组中的 "value" 列进行升序排序 result = df.groupby("category")["value"].sort_values() print(result) ``` **逻辑分析：** * `sort_values()`：对分组后的数据按 "value" 列进行升序排序。 * `print(result)`：打印排序后的分组数据。 #### 2.2.2 按分组筛选 GroupBy对象还支持对分组后的数据进行筛选。可以使用 `filter()` 方法根

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

本专栏汇集了全面的 Python 数据分析与可视化教程，涵盖从基础到进阶的各个方面。专栏分为基础篇和进阶篇，提供循序渐进的学习路径。基础篇包括数据分析与可视化入门、数据结构与类型、NumPy 库、Pandas 库、数据清洗、Matplotlib 基础和 Seaborn 库实践。进阶篇深入探讨数据探索性分析、数据预处理、数据聚合、时间序列分析、数据采样、数据合并、数据转换、数据统计描述、数据特征工程、数据建模、模型评估、交互式可视化、数据分析案例分析、数据清洗与预处理技巧、数据探索性分析、数据分组与聚合分析、数据合并与连接、数据筛选与过滤、数据转换与重塑、时间序列数据处理、数据可视化入门、数据可视化进阶、数据可视化艺术、多图合成与子图布局、数据可视化互动性、数据可视化输出、数据可视化实例分析、数据分析案例解析、数据分析工具箱、数据分析实用技巧、数据分析项目实战、高级数据处理技巧、数据透视表与交叉分析、高级数据清洗、时间序列分析、高级数据可视化、数据可视化优化、交互式可视化、数据分析与机器学习集成、数据分析管道与自动化、高级数据合并与连接、数据处理性能优化、数据采样与重采样、数据处理中的异常值检测与处理技巧、数据处理中的缺失值处理策略与方法、数据处理中的数据转换与规范化技术、数据分析中的特征工程与衍生变量创建、数据分析中的模型评估与交叉验证技巧、数据分析中的模型解释与可解释性分析、数据分析中的结果可视化与报告生成技巧、数据分析中的项目部署与实际应用案例。此外，专栏还提供了丰富的实战演练，涵盖数据爬取、聚合、分组、时间序列分析、金融、医疗、市场营销、社交媒体、旅游、环境、物流、农业和体育等领域的实际数据分析案例。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【进阶篇】高级数据处理技巧：Pandas中的GroupBy与Apply

相关推荐

基于springboot大学生就业信息管理系统源码数据库文档.zip

基于java的驾校收支管理可视化平台的开题报告.docx

原木5秒数据20241120.7z

毕业设计&课设_基于 Vue 的电影在线预订与管理系统：后台 Java（SSM）代码，为毕业设计项目.zip

基于springboot课件通中小学教学课件共享平台源码数据库文档.zip

基于java的网上购物商城的开题报告.docx

delphi 12 控件之Delphi人脸检测与识别Demo1fdef-main.zip

基于java的咖啡在线销售系统的开题报告.docx

基于java的自助医疗服务系统的开题报告.docx

Visual Basic编程入门与高级应用详解

专栏目录

最新推荐

【循环神经网络】：TensorFlow中RNN、LSTM和GRU的实现

优化之道：时间序列预测中的时间复杂度与模型调优技巧

【商业化语音识别】：技术挑战与机遇并存的市场前景分析

图像融合技术实战：从理论到应用的全面教程

NLP数据增强神技：提高模型鲁棒性的六大绝招

跨平台推荐系统：实现多设备数据协同的解决方案

【数据集加载与分析】：Scikit-learn内置数据集探索指南

硬件加速在目标检测中的应用：FPGA vs. GPU的性能对比

【图像分类模型自动化部署】：从训练到生产的流程指南

PyTorch超参数调优：专家的5步调优指南

专栏目录