pandas举例说明drop_duplicates()函数的作用、其主要参数及用法
时间: 2023-09-23 14:03:36 浏览: 102
pandas中的drop_duplicates()函数用于删除DataFrame中的重复行。具体而言,该函数会返回一个新的DataFrame对象,其中已删除了重复的行。
该函数的主要参数包括:
- subset:可选参数,表示仅考虑特定列的重复项。可以传递列名称或列名称列表。
- keep:可选参数,表示保留哪个重复的实例。默认值为"first",即保留第一个实例;如果设置为"last",则保留最后一个实例;如果设置为False,则删除所有重复实例。
下面是一个使用示例:
```python
import pandas as pd
# 创建一个DataFrame对象
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David', 'Alice'],
'age': [25, 30, 35, 25, 40, 25],
'gender': ['F', 'M', 'M', 'F', 'M', 'F']
})
# 删除重复行
df = df.drop_duplicates()
print(df)
```
输出结果为:
```
name age gender
0 Alice 25 F
1 Bob 30 M
2 Charlie 35 M
4 David 40 M
```
在这个例子中,我们创建了一个包含多个重复行的DataFrame对象。然后,我们调用了drop_duplicates()函数来删除重复行,并将结果保存在一个新的DataFrame对象中。最后,我们打印了新的DataFrame对象,可以看到所有的重复行都已被删除。
阅读全文