【进阶篇】Pandas库高级操作：多层索引与数据透视表深入解析

发布时间: 2024-06-24 15:32:06 阅读量: 110 订阅数: 143

学习pandas数据透视表

![【进阶篇】Pandas库高级操作：多层索引与数据透视表深入解析](https://img-blog.csdnimg.cn/direct/b60a3bde76f446ba96b7fdcd081d81f9.png) # 2.1 多层索引的创建和操作 ### 2.1.1 基于现有索引创建多层索引 ```python import pandas as pd # 创建一个单层索引的 DataFrame df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # 将单层索引转换为多层索引 df.set_index(['A', 'B'], inplace=True) print(df) ``` 输出： ``` A B A B 1 4 1 1 5 2 1 6 3 ``` 在这个例子中，`set_index()` 方法将 `A` 和 `B` 列作为多层索引。结果是一个多层索引 DataFrame，其中索引的每一层对应于 `A` 和 `B` 列的值。 # 2. 多层索引的深入解析 ### 2.1 多层索引的创建和操作 #### 2.1.1 基于现有索引创建多层索引 ```python import pandas as pd # 创建一个单层索引的数据框 df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}) df.index.names = ['Level_1'] # 基于现有索引创建多层索引 df.index = pd.MultiIndex.from_product([df.index, ['L1', 'L2']]) # 查看多层索引 print(df.index) ``` **代码逻辑分析：** * `pd.MultiIndex.from_product()` 函数用于创建多层索引，它接受一个元组列表作为参数，其中每个元素代表一个索引层。 * 在本例中，我们使用 `df.index`（即单层索引）和一个列表 `['L1', 'L2']` 创建了一个包含两个索引层的索引。 * `df.index` 赋值为 `pd.MultiIndex.from_product([df.index, ['L1', 'L2']])` 后，`df` 的索引就变成了一个多层索引。 #### 2.1.2 基于多个列创建多层索引 ```python # 创建一个具有多个列的数据框 df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9], 'D': ['x', 'y', 'z']}) # 基于多个列创建多层索引 df.set_index(['A', 'B'], inplace=True) # 查看多层索引 print(df.index) ``` **代码逻辑分析：** * `df.set_index()` 函数用于将指定列设置为索引。 * 在本例中，我们使用 `['A', 'B']` 参数将 `A` 和 `B` 列设置为索引。 * 因此，`df` 的索引就变成了一个包含两层的多层索引。 ### 2.2 多层索引的查询和筛选 #### 2.2.1 基于单个索引层查询 ```python # 基于单个索引层查询 result = df.loc[(slice(None), 'L1')] # 查看查询结果 print(result) ``` **代码逻辑分析：** * `df.loc` 函数用于基于索引标签进行查询。 * 在本例中，我们使用 `(slice(None), 'L1')` 参数查询索引第一层为 `None`（即所有值）且第二层为 `'L1'` 的行。 * `slice(None)` 表示选择索引第一层的全部值。 #### 2.2.2 基于多个索引层查询 ```python # 基于多个索引层查询 result = df.loc[(slice(None), 'L1', 2)] # 查看查询结果 print(result) ``` **代码逻辑分析：** * 在本例中，我们使用 `(slice(None), 'L1', 2)` 参数查询索引第一层为 `None`（即所有值）、第二层为 `'L1'` 且第三层为 `2` 的行。 ### 2.3 多层索引的排序和分组 #### 2.3.1 基于单个索引层排序 ```python # 基于单个索引层排序 result = df.sort_index(level=0) # 查看排序结果 print(result) ``` **代码逻辑分析：** * `df.sort_index()` 函数用于对索引进行排序。 * `level` 参数指定要排序的索引层。 * 在本例中，我们使用 `level=0` 参数对索引的第一层进行排序。 #### 2.3.2 基于多个索引层排序 ```python # 基于多个索引层排序 result = df.sort_index(level=[0, 1]) # 查看排序结果 print(result) ``` **代码逻辑分析：** * 在本例中，我们使用 `level=[0, 1]` 参数对索引的第一层和第二层进行排序。 #### 2.3.3 基于索引层分组 ```python # 基于索引层分组 result = df.groupby(level=0).sum() # 查看分组结果 print(result) ``` **代码逻辑分析：** * `df.groupby()` 函数用于对数据进行分组。 * `level` 参数指定要分组的索引层。 * 在本例中，我们使用 `level=0` 参数对索引的第一层进行分组。 # 3. 数据透视表的深入应用 ### 3.1 数据透视表的创建和基本操作 #### 3.1.1 基于单一索引层创建数据透视表数据透视表是基于一个或多个索引层对数据进行聚合和分组的强大工具。要基于单一索引层创建数据透视表，可以使用 `pivot_table()` 函数。该函数的基本语法如下： ```python df.pivot_table(index=index_col, columns=column_col, values=value_col, aggfunc=aggfunc) ``` 其中： * `index_col`：指定用作行索引的列 * `column_col`：指定用作列索引的列 * `values_col`：指定要聚合的值列 * `aggfunc`：指定

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

本专栏汇集了丰富的 Python 科学计算资源，涵盖基础和进阶篇，旨在为读者提供全面深入的科学计算知识和技能。基础篇从 Python 科学计算库概述和安装开始，循序渐进地介绍 NumPy、SciPy、Pandas、Matplotlib 等核心库的基础知识和应用，包括多维数组操作、线性代数运算、数据处理、数据可视化等。进阶篇则深入探讨了这些库的高级功能和应用，如广播机制、性能优化、优化算法、稀疏矩阵处理、数据挖掘、时间序列分析、图像处理、数值模拟等。此外，还提供了实战演练，指导读者运用这些库解决实际问题，如数据降维、销售数据分析、股票数据可视化、情感分析、图像处理、销售预测、异常检测、数据聚类等。通过阅读本专栏，读者可以掌握 Python 科学计算的全面技能，并将其应用于各种科学、工程和数据分析领域。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【进阶篇】Pandas库高级操作：多层索引与数据透视表深入解析

相关推荐

用Pandas对数据进行复杂查询.docx

Pandas高级操作: 时间序列与数据可视化

Pandas数据透视表与数据透视功能深入解析

掌握pandas基础操作：天池实践用数据分析

【进阶篇】数据透视表与交叉分析：Pandas中的PivotTable应用

进阶数据分析技巧：Pandas的高级功能

多层索引(MultiIndex)：Pandas的高级索引技术

pandas数据结构简介：Series和DataFrame

数据重塑与透视表：Pandas数据汇总艺术详解

专栏目录

最新推荐

【S7-200 Smart数据采集指南】：KEPWARE在工业自动化中的关键应用

【CAN2.0网络负载与延迟控制】：实现高效通信的关键技术

Cyclone性能调优：诊断瓶颈，提升性能的关键步骤

VISA函数最佳实践：打造稳定仪器通信的不传之秘

【数字电位器全面解析】：TPL0501参数详解与应用指南

【组态王报表生成】：自动化报表制作流程的10步详解

开源项目文档黄金标准：最佳实践大公开

【自动化工程的数字化转型】：以ANSI SAE花键标准为例

三菱MR-JE-A伺服电机更新维护：软件升级与硬件改进的最佳实践

【文化适应性分析】：GMW14241翻译中的文化差异应对之道

专栏目录