Pandas层次索引详解与操作实践

105 浏览量更新于2024-08-29 收藏 60KB PDF 举报

Pandas层次化索引是一种强大的工具，允许用户在一个轴上设置多个索引层级，这对于数据分析和处理具有复杂结构的数据非常有用。在Pandas中，实现层次化索引主要通过创建`Series`对象并为其定义一个多层的索引。这里我们以一个例子来详细说明：首先，创建一个带有层次化索引的`Series`。在这个例子中，数据是一个包含随机浮点数的序列，其索引分为两个层次：一个标签列表`[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd']`，代表类别（例如，不同的人或地点），另一个是整数列表`[1, 2, 3, 1, 2, 3, 1, 2, 2, 3]`，表示每个类别下的顺序。这种索引组合方式被称为多级索引（MultiIndex）： ```python data = Series(np.random.randn(10), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]]) ``` 当我们查看`data`的输出时，可以看到每个条目都有两个索引，它们之间用逗号分隔，表示第一个索引级别和第二个索引级别的值。例如，`'a1'`表示类别为'a'的第一项，`'2-1.242407'`表示类别为'b'的第二项。访问层次化索引的操作相对直观。例如，`data['b']`会返回类别为'b'的所有数据，而`data['b':'c']`则返回类别为'b'到'c'的所有数据。注意，Pandas提供了`loc`和`iloc`两种索引方式，`loc`用于基于标签的索引，而`iloc`用于基于位置的索引。在本例中，`data.loc[['b','d']]`使用标签选择索引，而`data.ix[['b','d']]`在旧版本的Pandas中已经警告并推荐使用`loc`代替。层次化索引在Pandas中提供了更灵活的数据组织方式，便于对复杂数据进行高效查询和分析。理解并掌握如何创建、操作和管理层次化索引是使用Pandas进行高级数据分析的重要技能。

pandas 层次化索引的实现方法层次化索引的实现方法

层次化索引是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。

创建一个Series，并用一个由列表或数组组成的列表作为索引。

data=Series(np.random.randn(10),

index=[['a','a','a','b','b','b','c','c','d','d'],

[1,2,3,1,2,3,1,2,2,3]])

data

Out[6]:

a 1 -2.842857

2 0.376199

3 -0.512978

b 1 0.225243

2 -1.242407

3 -0.663188

c 1 -0.149269

2 -1.079174

d 2 -0.952380

3 -1.113689

dtype: float64

这就是带MultiIndex索引的Series的格式化输出形式。索引之间的“间隔”表示“直接使用上面的标签”。

data.index

Out[7]:

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],

labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

对于一个层次化索引的对象，选取数据子集的操作很简单：

data['b'] Out[8]:

1 0.225243

2 -1.242407

3 -0.663188

dtype: float64

data['b':'c'] Out[10]:

b 1 0.225243

2 -1.242407

3 -0.663188

c 1 -0.149269

2 -1.079174

dtype: float64

data.ix[['b','d']] __main__:1: DeprecationWarning:

.ix is deprecated. Please use

.loc for label based indexing or

.iloc for positional indexing

See the documentation here:

http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated

Out[11]:

b 1 0.225243

2 -1.242407

3 -0.663188

d 2 -0.952380

3 -1.113689

dtype: float64

甚至可以在“内层”中进行选取：

data[:,2] Out[12]:

a 0.376199

b -1.242407

c -1.079174

d -0.952380

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38679651

粉丝: 6
资源: 934

Pandas层次索引详解与操作实践

pandas层次化索引以及索引的堆（Stack ）和 聚合操作

对pandas的层次索引与取值的新方法详解

pandas表连接 索引上的合并方法

深入理解pandas：层次化索引的运用与实践

用三种方法完成以下层次化索引的DateFame的创建用三种方法完成以下层次化索引的DateFame的创建

Pandas中汇总统计、处理缺失值、层次化索引超详细介绍！（附实例）

Pandas索引操作及高级索引之索引对象.pptx

pandas将DataFrame的列变成行索引的方法

使用pandas读取文件的实现

Python3.5 Pandas：缺失值处理与层次索引实战

最新资源

pandas层次化索引以及索引的堆（Stack ）和聚合操作

pandas表连接索引上的合并方法