Python pandas分组教程:聚合、过滤与转换
117 浏览量
更新于2024-08-29
收藏 156KB PDF 举报
在"Pandas学习笔记(第五弹)"中,本章节是关于Pandas库中的分组操作,它是数据处理中的关键概念,尤其是在数据分析和清洗过程中。该教程是系列教程的一部分,前一章节作为基础,通过一步步引导学习者掌握Pandas的实用技巧。
首先,章节开始时设置了Pandas的选项,`pd.options.display.max_columns = 8`,以便于控制数据展示时显示的列数,这样在查看数据时更加清晰。接着,我们加载了一个名为`college.csv`的数据集,它包含了大学的相关信息,如学校名称(INSTNM)、城市(CITY)、州缩写(STABBR)等,以及与财务相关的指标,如贷款比例(PCTFLOAN)、毕业后的平均工资(MD_EARN_WNE_P10)等。
16.1 部分的重点在于数据的准备和初步探索。通过`groupby()`函数,我们对数据按照"STABBR"列进行分组,创建了一个DataFrameGroupBy对象`gb_STABBR`。这一步骤为后续的聚合操作奠定了基础,因为`groupby()`允许我们将数据划分为多个小组,每个小组内的数据具有相同的分组标签。
16.3 聚合的属性原理部分深入解释了这个对象的工作原理。`type(gb_STABBR)`揭示了`gb_STABBR`是一个`pandas.core.groupby.generic.DataFrameGroupBy`对象,这意味着它提供了一系列用于处理分组数据的方法。接下来,通过`for attr in dir(gb_STABBR):`,列举了所有可用的属性和方法,包括但不限于:
- `CITY`: 汇总城市信息
- `CURROPERDISTANCE`: 可能是指当前运营距离或某种统计数据
- `GRAD_DEBT_MDN_SUPP`: 毕业生债务的中位数支持度
- `HBCU`: 是否为黑人学院或大学
- `INSTNM`: 学校名称
- `MD_EARN_WNE_P10`: 毕业后五年内的平均薪资
- `MENONLY`: 可能与男性学生比例有关
- `PCTFLOAN`: 贷款比例
- `PCTPELL`: 可能是佩尔奖学金比例
- `PPT`: 可能是学生参与某种项目的比例
- `UG_EFRELAFFIL`: 本科学生与员工的比例
- `SATMTMID`: 可能是SAT数学成绩的中位数
这些属性和方法使得用户能够执行各种计算,比如求和、平均值、计数等,或者根据特定条件筛选数据。通过组合使用这些功能,可以深入了解每个州内不同大学的特征和趋势。
总结来说,这一章节介绍了如何在Pandas中进行数据分组,以及如何利用分组功能进行聚合操作,这对于数据分析和报告生成至关重要。理解这些基本概念和技巧将有助于在实际项目中高效地处理和分析大量数据。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2020-12-21 上传
2019-12-13 上传
2020-12-21 上传
2021-01-20 上传
2021-03-06 上传
weixin_38623919
- 粉丝: 5
- 资源: 929
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器