【进阶篇】使用Pandas的数据重塑函数进行数据透视和堆叠操作

![【进阶篇】使用Pandas的数据重塑函数进行数据透视和堆叠操作](https://img-blog.csdnimg.cn/20190729195909770.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0NjcwODAz,size_16,color_FFFFFF,t_70) # 2.1 pivot_table函数的基本用法 Pandas的`pivot_table`函数是执行数据透视操作的核心工具。它允许您根据指定的行索引、列索引和值聚合函数对数据进行分组和汇总。 ### 2.1.1 指定行索引和列索引 `pivot_table`函数的第一个参数`index`指定行索引，第二个参数`columns`指定列索引。这些参数可以是单个列名或列名列表。例如，以下代码将`df`数据框按`gender`列分组，按`age`列分组： ```python df.pivot_table(index='gender', columns='age') ``` ### 2.1.2 指定值聚合函数 `pivot_table`函数的第三个参数`values`指定要应用于分组数据的聚合函数。该函数可以是任何NumPy聚合函数，例如`sum`、`mean`或`max`。例如，以下代码计算每个性别和年龄组的平均得分： ```python df.pivot_table(index='gender', columns='age', values='score', aggfunc='mean') ``` # 2. 数据透视操作数据透视操作是 Pandas 中一种强大的工具，它允许您对数据进行汇总、分组和聚合。最常用的数据透视函数是 `pivot_table` 函数，它可以根据指定的行索引、列索引和值聚合函数来创建数据透视表。 ### 2.1 pivot_table 函数的基本用法 #### 2.1.1 指定行索引和列索引 `pivot_table` 函数的基本用法如下： ```python df.pivot_table(index=行索引, columns=列索引, values=值聚合函数) ``` 其中： * `index` 参数指定行索引，它可以是单个列或多个列。 * `columns` 参数指定列索引，它也可以是单个列或多个列。 * `values` 参数指定值聚合函数，它可以是 Pandas 中内置的聚合函数，如 `sum`、`mean`、`max` 等。例如，以下代码创建了一个数据透视表，其中行索引是 `年份` 列，列索引是 `国家` 列，值聚合函数是 `总人口` 列的求和： ```python df.pivot_table(index='年份', columns='国家', values='总人口', aggfunc='sum') ``` #### 2.1.2 指定值聚合函数 `pivot_table` 函数支持多种值聚合函数，包括： * `sum`：求和 * `mean`：求平均值 * `max`：求最大值 * `min`：求最小值 * `count`：求计数您还可以使用自定义聚合函数，如下所示： ```python def my_aggfunc(values): return values.max() - values.min() df.pivot_table(index='年份', columns='国家', values='总人口', aggfunc=my_aggfunc) ``` #### 2.1.3 处理缺失值和重复值 `pivot_table` 函数提供了处理缺失值和重复值的方法。对于缺失值，您可以使用 `dropna` 参数来删除包含缺失值的行或列。对于重复值，您可以使用 `aggfunc` 参数来指定如何处理重复值，例如求和或求平均值。例如，以下代码创建了一个数据透视表，其中缺失值被删除，重复值的总人口被求和： ```python df.pivot_table(index='年份', columns='国家', values='总人口', aggfunc='sum', dropna=True) ``` ### 2.2 pivot_table 函数的高级用法 #### 2.2.1 多级索引的处理 `pivot_table` 函数可以处理多级索引。例如，以下代码创建了一个数据透视表，其中行索引是 `年份` 列和 `季度` 列，列索引是 `国家` 列，值聚合函数是 `总人口` 列的求和： ```python df.pivot_table(index=['年份', '季度'], columns='国家', values='总人口', aggfunc='sum') ``` #### 2.2.2 自定义聚合函数您可以使用自定义聚合函数来实现更复杂的聚合操作。例如，以下代码创建了一个数据透视表，其中值聚合函数是计算每个国家的人口增长率： ```python def growth_rate(values): return (values[-1] - values[0]) / values[0] df.pivot_table(index='年份', columns='国家', values='总人口', aggfunc=growth_rate) ``` #### 2.2.3 过滤和排序数据 `pivot_table` 函数提供了过滤和排序数据的方法。您可以使用 `filter` 参数来过滤数据，例如只显示人口超过 1000 万的国家。您还可以使用 `sort_values` 参数对数据进行排序，例如按人口降序排序。例如，以下代码创建了一个数据透视表，其中只显示人口超过 1000 万的国家，并按人口降序排序： ```python df.pivot_table(index='年份', columns='国家', values='总人口', aggfunc='sum', filter=lambda x: x['总人口'] > 10000000).sort_values('总人口', ascending=False) ``` # 3.1 stack函数的基本用法 #### 3.1.1 将多级索引转换为单级索引 stack函数的基本用法是将多级索引转换为单级索引。它通过将行索引和列索引中的值组合成一个新的索引来实现这一点。 ```python import pandas as pd # 创建一个带有多级索引的数据框 df = pd.DataFrame({ 'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9 ```

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

本专栏汇集了丰富的 Python 科学计算资源，涵盖基础和进阶篇，旨在为读者提供全面深入的科学计算知识和技能。基础篇从 Python 科学计算库概述和安装开始，循序渐进地介绍 NumPy、SciPy、Pandas、Matplotlib 等核心库的基础知识和应用，包括多维数组操作、线性代数运算、数据处理、数据可视化等。进阶篇则深入探讨了这些库的高级功能和应用，如广播机制、性能优化、优化算法、稀疏矩阵处理、数据挖掘、时间序列分析、图像处理、数值模拟等。此外，还提供了实战演练，指导读者运用这些库解决实际问题，如数据降维、销售数据分析、股票数据可视化、情感分析、图像处理、销售预测、异常检测、数据聚类等。通过阅读本专栏，读者可以掌握 Python 科学计算的全面技能，并将其应用于各种科学、工程和数据分析领域。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【进阶篇】使用Pandas的数据重塑函数进行数据透视和堆叠操作

相关推荐

详解pandas数据合并与重塑（pd.concat篇）

详解PANDAS 数据合并与重塑（join/merge篇）

Python进阶：可视化学习Pandas

在Pandas DataFrame中重塑数据

Python数据科学速查表 - Pandas 进阶

Python数据科学速查表 Pandas 进阶.pdf

Python数据科学速查表 - Pandas 进阶1

Python数据科学速查表 -Pandas 进阶.pdf

Python数据科学速查表 - Pandas 进阶.pdf

Pandas进阶练习数据集：120题必备

专栏目录

最新推荐

NLP数据增强神技：提高模型鲁棒性的六大绝招

图像融合技术实战：从理论到应用的全面教程

【误差度量方法比较】：均方误差与其他误差度量的全面比较

AUC值与成本敏感学习：平衡误分类成本的实用技巧

实战技巧：如何使用MAE作为模型评估标准

【商业化语音识别】：技术挑战与机遇并存的市场前景分析

【图像分类模型自动化部署】：从训练到生产的流程指南

跨平台推荐系统：实现多设备数据协同的解决方案

注意力机制助力目标检测：如何显著提升检测精度

优化之道：时间序列预测中的时间复杂度与模型调优技巧

专栏目录