Pandas数据挖掘：索引操作详解

3 浏览量更新于2024-07-15 收藏 153KB PDF 举报

"这篇文档详细介绍了Pandas库中与数据索引相关的操作，包括单级索引和多级索引的创建、选取以及各种高级用法。内容涵盖loc和iloc方法，布尔索引，isin方法，区间索引，以及多级索引的创建和操作。此外，还涉及到索引设定、重命名、重复元素处理和抽样功能。" 在Pandas中，索引是数据操作的关键部分，它允许我们高效地访问和操作数据。单级索引主要包括loc和iloc方法以及布尔索引等。 1. 单级索引： - **loc方法**：此方法基于标签进行数据选取，其切片操作包含右端点。例如，`obj.loc['b':'c']`会选择从'b'到'c'的所有数据，包括'c'。 - **iloc方法**：与loc不同，iloc基于位置进行数据选取，切片时不包含右端点。例如，`obj.iloc[1:3]`将选择第二个和第三个元素，不包括第三个。 - **布尔索引**：使用布尔表达式对数据进行筛选。如使用`obj[obj > value]`选取大于特定值的元素。 - **isin方法**：通过指定一个列表，筛选出索引或值存在于列表中的数据。 - **区间索引**：可以使用`interval_range`创建连续的区间，或用`cut`将数值列转换为区间类型。 2. 多级索引： - **创建**：多级索引可以通过`from_tuples`，`from_arrays`，`from_product`，或使用`set_index`方法从DataFrame的列创建。 - **切片**：多层索引切片有多种情况，包括一般切片、元组列表和列表构成的元组。 - **索引层交换**：可以使用`swaplevel`进行两层交换，`reorder_levels`进行多层交换，调整索引顺序。 3. 索引设定： - `index_col`参数：在读取数据时，指定某列作为索引。 - `reindex`和`reindex_like`：重新排列数据以匹配新的索引。 - `set_index`：将DataFrame的列设置为索引，`reset_index`则将索引恢复为列。 - `rename_axis`和`rename`：用于重命名轴标签。 4. 常用索引型函数： - `where`函数：返回一个与输入对象相同形状的新对象，其中满足条件的位置被替换为其他值。 - `mask`函数：与where相反，它替换不满足条件的值。 - `query`函数：使用类似SQL的语法进行过滤。 5. 重复元素处理： - `duplicated`方法：检测数据中的重复项。 - `drop_duplicates`方法：删除重复项。 6. 抽样函数： - `sample`函数：可以按样本量`n`或抽样比例`frac`抽取样本，可设置是否放回（replace参数），并指定抽样维度（axis参数）以及样本权重（weights参数）。以上就是Pandas中关于数据索引的详细知识点，涵盖了从基础到进阶的各种操作，对于数据处理和挖掘工作非常实用。

2101 S_2 C_1 M street_7 174 84 83.3 C

School Class Gender Address Height Weight Math Physics

当然也有相对简便的写法：

df[df['Address'].str.contains('4|7')].head()

本质上说，loc中能传入的只有布尔列表和索引子集构成的列表，只要把握这个原则就很容易理解上面那些操作

1.1.2 iloc方法（注意与方法（注意与loc不同，切片右端点不包含）不同，切片右端点不包含）

单行索引：

df.iloc[3]

School S_1

Class C_1

Gender F

Address street_2

Height 167

Weight 81

Math 80.4

Physics B-

Name: 1104, dtype: object

多行索引：

df.iloc[3:5]

School Class Gender Address Height Weight Math Physics

1104 S_1 C_1 F street_2 167 81 80.4 B-

1105 S_1 C_1 F street_4 159 64 84.8 B+

3.单列索引：

df.iloc[:,3].head()

1101 street_1

1102 street_2

1103 street_2

1104 street_2

1105 street_4

Name: Address, dtype: object

多列索引：

df.iloc[:,7::-2].head()

Physics Weight Address Class

1101 A+ 63 street_1 C_1

1102 B+ 73 street_2 C_1

1103 B+ 82 street_2 C_1

1104 B- 81 street_2 C_1

1105 B+ 64 street_4 C_1

混合索引：

df.iloc[3::4,7::-2].head()

Physics Weight Address Class

1104 B- 81 street_2 C_1

1203 A+ 53 street_6 C_2

1302 A- 57 street_1 C_3

2101 C 84 street_7 C_1

2105 A 81 street_4 C_1

剩余19页未读，继续阅读

weixin_38596093

粉丝: 2
资源: 944

Pandas数据挖掘：索引操作详解

Python DataFrame 设置输出不显示index(索引)值的方法

大数据分析---Pandas使用

Assignment-1-Pandas-and-Python-:熊猫和Python实践

04. 何开圣-人人都爱 DataFrame-Pandas 到 Mars 的进阶之路1

数据处理Pandas-重复数据处理-Python实例源码.zip

Python数据挖掘：Pandas与Matplotlib房价分析实战

pandas数据索引与选择技术深入剖析

python与数据挖掘上机实验pandas_Python与数据挖掘学习笔记（1）——Pandas模块

数据处理Pandas-实现DataFrame数据的排序或排名-Python实例源码.zip

python数据分析之Pandas数据结构和操作

最新资源