Pandas 数据操作详解:增删改查、去重与抽样

1 下载量 65 浏览量 更新于2024-08-31 收藏 59KB PDF 举报
本文主要介绍了Pandas数据框的基础操作,包括增、删、改、查、去重和抽样等关键功能。通过实例演示了如何使用Pandas进行数据处理。 在Pandas中,数据框(DataFrame)是一种常用的数据结构,用于存储二维表格型数据。在对数据框进行操作时,了解其索引方法至关重要。Pandas提供了多种索引方式,如loc(基于标签的索引)、iloc(基于位置的索引)以及ix(结合两者)。此外,at和iat分别是loc和iloc的快捷方式,方便快速访问单个元素。 首先,我们创建一个简单的测试数据集: ```python import pandas as pd df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'], 'c': ["A", "B", "C"]}) ``` 行操作主要涉及选择和操作数据框中的特定行。例如,我们可以使用loc来选取指定行: ```python print(df.loc[1, :]) # 选择第1行 print(df.loc[1:2, :]) # 选择第1到第2行 print(df.loc[::-1, :]) # 选择所有行并反转顺序 print(df.loc[0:2:2, :]) # 选择第0和第2行 ``` 条件筛选是Pandas中非常重要的功能,可以基于某些条件选择行。例如,筛选出'a'列值大于2的行: ```python print(df.loc[df.loc[:, "a"] > 2, :]) # 筛选出'a'列值大于2的行 ``` 除了基本的比较操作,还可以使用逻辑运算符(|, & 和 ~)进行组合条件筛选。 对于非索引列的筛选,我们可以使用isin()函数检查元素是否存在于给定的列表中,例如: ```python s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64') print(s.isin([2, 4, 6])) # 检查元素是否在[2, 4, 6]中 ``` 在数据框的增、删、改操作中,添加新列可以直接赋值,删除列可以使用drop方法,修改数据则可以直接通过索引进行。例如,添加新列'd': ```python df['d'] = [4, 5, 6] ``` 去重通常使用drop_duplicates()方法,而抽样操作可以使用sample()方法,比如随机抽取10%的行: ```python df_no_duplicates = df.drop_duplicates() sampled_df = df.sample(frac=0.1) ``` 这些基本操作构成了Pandas数据处理的核心,对于数据清洗、分析和预处理等工作至关重要。通过熟练掌握这些技巧,我们可以高效地管理和操作数据。