【进阶篇】数据透视表与交叉分析：Pandas中的PivotTable应用

![python数据分析与可视化合集](https://img-blog.csdnimg.cn/1934024a3045475e9a3b29546114c5bc.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAU2hvd01lQUk=,size_20,color_FFFFFF,t_70,g_se,x_16) # 2.1 创建数据透视表 ```python import pandas as pd # 创建一个数据框 df = pd.DataFrame({ "name": ["John", "Mary", "Peter", "Susan", "Tom"], "city": ["New York", "London", "Paris", "Berlin", "Rome"], "age": [25, 30, 28, 32, 26], "salary": [1000, 1200, 1400, 1600, 1800] }) # 创建数据透视表 pt = df.pivot_table(index="city", columns="name", values="salary") # 打印数据透视表 print(pt) ``` 输出： ``` name John Mary Peter Susan Tom city Berlin NaN NaN NaN NaN 1800 London NaN 1200 NaN NaN NaN New York 1000 NaN NaN NaN NaN Paris NaN NaN 1400 NaN NaN Rome NaN NaN NaN 1600 NaN ``` 在这个例子中，`pivot_table()` 函数创建了一个数据透视表，其中 `city` 列作为索引，`name` 列作为列标签，`salary` 列作为值。 # 2. 数据透视表基本操作 ### 2.1 创建数据透视表 ```python import pandas as pd # 创建一个数据框 df = pd.DataFrame({ 'Name': ['John', 'Jane', 'John', 'Jane', 'John'], 'Age': [20, 25, 30, 35, 40], 'City': ['New York', 'London', 'New York', 'London', 'New York'] }) # 创建一个数据透视表，以Name为索引，以City为列标签，对Age进行求和 pivot_table = df.pivot_table(index='Name', columns='City', values='Age', aggfunc='sum') # 打印数据透视表 print(pivot_table) ``` **逻辑分析：** * `pivot_table()` 函数接受以下参数： * `index`: 指定数据透视表的行索引。 * `columns`: 指定数据透视表的列标签。 * `values`: 指定要聚合的列。 * `aggfunc`: 指定聚合函数（例如求和、求平均值、求最大值等）。 * 在本例中，我们使用 `sum()` 函数对 `Age` 列进行求和，并将结果显示在一个数据透视表中。 ### 2.2 索引和列标签 **索引：** 数据透视表的索引是用于标识行的数据。可以通过 `index` 参数指定索引列。 **列标签：** 数据透视表的列标签是用于标识列的数据。可以通过 `columns` 参数指定列标签列。 ### 2.3 数据聚合函数数据聚合函数用于对数据透视表中的数据进行聚合。常用的聚合函数包括： * `sum()`：求和 * `mean()`：求平均值 * `max()`：求最大值 * `min()`：求最小值 * `count()`：求计数 ### 2.4 筛选和排序 **筛选：** 可以使用 `filter()` 函数对数据透视表进行筛选。例如： ```python # 筛选出年龄大于30的数据 filtered_pivot_table = pivot_table.filter(lambda x: x['Age'] > 30) ``` **排序：** 可以使用 `sort_values()` 函数对数据透视表进行排序。例如： ```python # 按年龄降序排序 sorted_pivot_table = pivot_table.sort_values('Age', ascending=False) ``` # 3. 数据透视表高级应用 ### 3.1 透视表操作符 Pandas 提供了多种透视表操作符，用于对数据进行更复杂的处理。这些操作符包括： - **idxmax()：**返回指定列中最大值所在的行索引。 - **idxmin()：**返回指定

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

本专栏汇集了全面的 Python 数据分析与可视化教程，涵盖从基础到进阶的各个方面。专栏分为基础篇和进阶篇，提供循序渐进的学习路径。基础篇包括数据分析与可视化入门、数据结构与类型、NumPy 库、Pandas 库、数据清洗、Matplotlib 基础和 Seaborn 库实践。进阶篇深入探讨数据探索性分析、数据预处理、数据聚合、时间序列分析、数据采样、数据合并、数据转换、数据统计描述、数据特征工程、数据建模、模型评估、交互式可视化、数据分析案例分析、数据清洗与预处理技巧、数据探索性分析、数据分组与聚合分析、数据合并与连接、数据筛选与过滤、数据转换与重塑、时间序列数据处理、数据可视化入门、数据可视化进阶、数据可视化艺术、多图合成与子图布局、数据可视化互动性、数据可视化输出、数据可视化实例分析、数据分析案例解析、数据分析工具箱、数据分析实用技巧、数据分析项目实战、高级数据处理技巧、数据透视表与交叉分析、高级数据清洗、时间序列分析、高级数据可视化、数据可视化优化、交互式可视化、数据分析与机器学习集成、数据分析管道与自动化、高级数据合并与连接、数据处理性能优化、数据采样与重采样、数据处理中的异常值检测与处理技巧、数据处理中的缺失值处理策略与方法、数据处理中的数据转换与规范化技术、数据分析中的特征工程与衍生变量创建、数据分析中的模型评估与交叉验证技巧、数据分析中的模型解释与可解释性分析、数据分析中的结果可视化与报告生成技巧、数据分析中的项目部署与实际应用案例。此外，专栏还提供了丰富的实战演练，涵盖数据爬取、聚合、分组、时间序列分析、金融、医疗、市场营销、社交媒体、旅游、环境、物流、农业和体育等领域的实际数据分析案例。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【进阶篇】数据透视表与交叉分析：Pandas中的PivotTable应用

相关推荐

Pandas透视表（pivot_table）深度解析与应用

Python与Excel数据透视表对比分析教程

Python数据分析利器：Pandas基础与应用

【进阶篇】Pandas库数据处理进阶：时间序列分析与数据透视表应用

数据透视表(Pivot Table)：Pandas的高级数据汇总技术

【进阶篇】高级数据处理技巧：Pandas中的GroupBy与Apply

数据处理与分析：Pandas在Python中的应用

【进阶篇】Pandas库高级操作：多层索引与数据透视表深入解析

进阶数据分析技巧：Pandas的高级功能

Python数据处理与分析：Pandas库的应用技巧

专栏目录

最新推荐

跨平台推荐系统：实现多设备数据协同的解决方案

图像融合技术实战：从理论到应用的全面教程

优化之道：时间序列预测中的时间复杂度与模型调优技巧

【商业化语音识别】：技术挑战与机遇并存的市场前景分析

【循环神经网络】：TensorFlow中RNN、LSTM和GRU的实现

【图像分类模型自动化部署】：从训练到生产的流程指南

硬件加速在目标检测中的应用：FPGA vs. GPU的性能对比

PyTorch超参数调优：专家的5步调优指南

NLP数据增强神技：提高模型鲁棒性的六大绝招

【Python可视化新境界】：Scikit-learn绘制学习曲线与特征重要性图

专栏目录