Pandas 数据操作详解:增删改查、去重与抽样
65 浏览量
更新于2024-08-31
收藏 59KB PDF 举报
本文主要介绍了Pandas数据框的基础操作,包括增、删、改、查、去重和抽样等关键功能。通过实例演示了如何使用Pandas进行数据处理。
在Pandas中,数据框(DataFrame)是一种常用的数据结构,用于存储二维表格型数据。在对数据框进行操作时,了解其索引方法至关重要。Pandas提供了多种索引方式,如loc(基于标签的索引)、iloc(基于位置的索引)以及ix(结合两者)。此外,at和iat分别是loc和iloc的快捷方式,方便快速访问单个元素。
首先,我们创建一个简单的测试数据集:
```python
import pandas as pd
df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'], 'c': ["A", "B", "C"]})
```
行操作主要涉及选择和操作数据框中的特定行。例如,我们可以使用loc来选取指定行:
```python
print(df.loc[1, :]) # 选择第1行
print(df.loc[1:2, :]) # 选择第1到第2行
print(df.loc[::-1, :]) # 选择所有行并反转顺序
print(df.loc[0:2:2, :]) # 选择第0和第2行
```
条件筛选是Pandas中非常重要的功能,可以基于某些条件选择行。例如,筛选出'a'列值大于2的行:
```python
print(df.loc[df.loc[:, "a"] > 2, :]) # 筛选出'a'列值大于2的行
```
除了基本的比较操作,还可以使用逻辑运算符(|, & 和 ~)进行组合条件筛选。
对于非索引列的筛选,我们可以使用isin()函数检查元素是否存在于给定的列表中,例如:
```python
s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')
print(s.isin([2, 4, 6])) # 检查元素是否在[2, 4, 6]中
```
在数据框的增、删、改操作中,添加新列可以直接赋值,删除列可以使用drop方法,修改数据则可以直接通过索引进行。例如,添加新列'd':
```python
df['d'] = [4, 5, 6]
```
去重通常使用drop_duplicates()方法,而抽样操作可以使用sample()方法,比如随机抽取10%的行:
```python
df_no_duplicates = df.drop_duplicates()
sampled_df = df.sample(frac=0.1)
```
这些基本操作构成了Pandas数据处理的核心,对于数据清洗、分析和预处理等工作至关重要。通过熟练掌握这些技巧,我们可以高效地管理和操作数据。
2022-06-14 上传
2022-10-13 上传
点击了解资源详情
2022-05-18 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_38692928
- 粉丝: 6
- 资源: 913
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目