深入理解pandas：层次化索引的运用与实践

29 浏览量更新于2024-09-02 收藏 59KB PDF 举报

“本文详细介绍了如何在pandas中实现层次化索引，通过示例代码展示了创建、操作层次化索引的方法，以及如何选取数据子集。” 在Python数据分析库pandas中，层次化索引（Hierarchical Indexing）是一种强大的功能，它允许我们在一个轴上设置多级索引，从而增加了数据的组织性和可读性。层次化索引可以用来处理宽泛且复杂的数据结构，尤其是在处理面板数据或需要多维度聚合时特别有用。首先，我们可以创建一个Series，并使用一个由列表或数组组成的列表作为索引。以下是一个例子： ```python import pandas as pd import numpy as np data = pd.Series(np.random.randn(10), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]]) ``` 这样创建的Series `data` 将具有MultiIndex属性，如下面的输出所示： ``` a 1 -2.842857 2 0.376199 3 -0.512978 b 1 0.225243 2 -1.242407 3 -0.663188 c 1 -0.149269 2 -1.079174 d 2 -0.952380 3 -1.113689 dtype: float64 ``` 在这个例子中，索引层次包括第一级 ['a', 'b', 'c', 'd'] 和第二级 [1, 2, 3]。要选取具有特定层次索引的数据子集，可以通过以下方式： 1. 使用字符串选择：`data['b']` 会返回索引级别1为 'b' 的所有行。 2. 切片选择：`data['b':'c']` 会返回索引级别1从 'b' 到 'c' 的所有行。 3. 使用`.ix`（已弃用）或`.loc`，`.iloc`选择：`.ix` 既可以基于位置也可以基于标签选择，但已被弃用。`.loc` 用于基于标签的选择，而 `.iloc` 用于基于位置的选择。例如，`data.loc[['b', 'd']]` 或 `data.iloc[[0, 3]]` 都能选取索引级别1为 'b' 和 'd' 的行。需要注意的是，从pandas 0.20.0版本开始，`.ix` 已被标记为过时，推荐使用`.loc` 和 `.iloc`。在未来的版本中，`.ix` 可能会被完全移除。层次化索引还支持多级选择、重排序、重塑、聚合等功能。例如，你可以使用 `.unstack()` 方法将层次化索引转换为宽表格式，或者使用 `.groupby()` 对不同索引级别进行分组操作。 pandas的层次化索引是数据分析中非常重要的工具，它增强了数据处理的灵活性，使得对复杂数据结构的操作变得更为便捷。理解和熟练掌握层次化索引的使用，对于提高数据分析效率和质量至关重要。

pandas 层次化索引的实现方法层次化索引的实现方法

主要介绍了pandas 层次化索引的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一

定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

层次化索引是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。

创建一个Series，并用一个由列表或数组组成的列表作为索引。

data=Series(np.random.randn(10),

index=[['a','a','a','b','b','b','c','c','d','d'],

[1,2,3,1,2,3,1,2,2,3]])

data

Out[6]:

a 1 -2.842857

2 0.376199

3 -0.512978

b 1 0.225243

2 -1.242407

3 -0.663188

c 1 -0.149269

2 -1.079174

d 2 -0.952380

3 -1.113689

dtype: float64

这就是带MultiIndex索引的Series的格式化输出形式。索引之间的“间隔”表示“直接使用上面的标签”。

data.index

Out[7]:

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],

labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

对于一个层次化索引的对象，选取数据子集的操作很简单：

data['b']

Out[8]:

1 0.225243

2 -1.242407

3 -0.663188

dtype: float64

data['b':'c']

Out[10]:

b 1 0.225243

2 -1.242407

3 -0.663188

c 1 -0.149269

2 -1.079174

dtype: float64

data.ix[['b','d']]

__main__:1: DeprecationWarning:

.ix is deprecated. Please use

.loc for label based indexing or

.iloc for positional indexing

See the documentation here:

http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated

Out[11]:

b 1 0.225243

2 -1.242407

3 -0.663188

d 2 -0.952380

3 -1.113689

dtype: float64

甚至可以在“内层”中进行选取：

data[:,2]

Out[12]:

a 0.376199

b -1.242407

c -1.079174

d -0.952380

dtype: float64

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38588592

粉丝: 3
资源: 922

深入理解pandas：层次化索引的运用与实践

pandas层次化索引以及索引的堆（Stack ）和 聚合操作

对pandas的层次索引与取值的新方法详解

pandas表连接 索引上的合并方法

Pandas层次索引详解与操作实践

用三种方法完成以下层次化索引的DateFame的创建用三种方法完成以下层次化索引的DateFame的创建

Pandas中汇总统计、处理缺失值、层次化索引超详细介绍！（附实例）

Pandas索引操作及高级索引之索引对象.pptx

pandas将DataFrame的列变成行索引的方法

Python3.5 Pandas：缺失值处理与层次索引实战

多层索引(MultiIndex)：Pandas的高级索引技术

最新资源

pandas层次化索引以及索引的堆（Stack ）和聚合操作

pandas表连接索引上的合并方法