Pandas 数据操作详解:增删改查、去重与抽样
119 浏览量
更新于2024-08-31
收藏 59KB PDF 举报
本文主要介绍了Pandas数据框的基础操作,包括增、删、改、查、去重和抽样等关键功能。通过实例演示了如何使用Pandas进行数据处理。
在Pandas中,数据框(DataFrame)是一种常用的数据结构,用于存储二维表格型数据。在对数据框进行操作时,了解其索引方法至关重要。Pandas提供了多种索引方式,如loc(基于标签的索引)、iloc(基于位置的索引)以及ix(结合两者)。此外,at和iat分别是loc和iloc的快捷方式,方便快速访问单个元素。
首先,我们创建一个简单的测试数据集:
```python
import pandas as pd
df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'], 'c': ["A", "B", "C"]})
```
行操作主要涉及选择和操作数据框中的特定行。例如,我们可以使用loc来选取指定行:
```python
print(df.loc[1, :]) # 选择第1行
print(df.loc[1:2, :]) # 选择第1到第2行
print(df.loc[::-1, :]) # 选择所有行并反转顺序
print(df.loc[0:2:2, :]) # 选择第0和第2行
```
条件筛选是Pandas中非常重要的功能,可以基于某些条件选择行。例如,筛选出'a'列值大于2的行:
```python
print(df.loc[df.loc[:, "a"] > 2, :]) # 筛选出'a'列值大于2的行
```
除了基本的比较操作,还可以使用逻辑运算符(|, & 和 ~)进行组合条件筛选。
对于非索引列的筛选,我们可以使用isin()函数检查元素是否存在于给定的列表中,例如:
```python
s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')
print(s.isin([2, 4, 6])) # 检查元素是否在[2, 4, 6]中
```
在数据框的增、删、改操作中,添加新列可以直接赋值,删除列可以使用drop方法,修改数据则可以直接通过索引进行。例如,添加新列'd':
```python
df['d'] = [4, 5, 6]
```
去重通常使用drop_duplicates()方法,而抽样操作可以使用sample()方法,比如随机抽取10%的行:
```python
df_no_duplicates = df.drop_duplicates()
sampled_df = df.sample(frac=0.1)
```
这些基本操作构成了Pandas数据处理的核心,对于数据清洗、分析和预处理等工作至关重要。通过熟练掌握这些技巧,我们可以高效地管理和操作数据。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2022-05-18 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_38692928
- 粉丝: 6
- 资源: 913
最新资源
- oracle海量图像数据的存储
- PDI 控制 的简单例子
- 数据库结构考试题及其答案分析
- 数据库课设指导书(包括学生系统 图书馆系统)
- RFC2617的中文版
- RFC2660的中文版
- RFC2616的中文版
- java参考大全(中文版)[pdf]
- encodeURIComponent 文档
- REMINISCENCES ABOUT THE ORIGINS OF LINEAR PROGRAMMING.pdf
- JMX in action
- starting struts2
- The Definitive Guide to Django 2nd Edition
- IBM企业文化及面经
- 论坛系统规格需求说明书
- PLC在纸浆模塑生产自动控制系统中的应用