pandas的drop_duplicates()解释
时间: 2023-10-09 11:08:25 浏览: 91
详解pandas使用drop_duplicates去除DataFrame重复项参数
pandas的drop_duplicates()方法可以用来删除DataFrame对象中的重复行。具体来说,它会返回一个新的DataFrame对象,其中包含原始DataFrame对象中除去重复行后剩余的行。
drop_duplicates()方法接受一些可选参数,包括:
- subset:用于指定要比较的列,默认为所有列。
- keep:用于指定保留哪一个重复行。如果设置为"first"(默认值),则保留第一个出现的重复行,如果设置为"last",则保留最后一个出现的重复行,如果设置为False,则删除所有重复行。
- inplace:用于指定是否直接修改原始DataFrame对象,默认为False,即返回一个新的DataFrame对象。
例如,假设我们有以下DataFrame对象:
```
import pandas as pd
df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [1, 2, 3, 3]})
print(df)
```
输出:
```
A B
0 1 1
1 1 2
2 2 3
3 2 3
```
我们可以使用drop_duplicates()方法来删除重复行:
```
df.drop_duplicates()
```
输出:
```
A B
0 1 1
1 1 2
2 2 3
```
注意到第3行和第4行是重复的,而它们只出现了一次,这是因为drop_duplicates()默认情况下保留第一个出现的重复行。如果我们希望删除所有重复行,可以将keep参数设置为False:
```
df.drop_duplicates(keep=False)
```
输出:
```
A B
0 1 1
1 1 2
```
还可以指定subset参数来指定要比较的列,例如:
```
df.drop_duplicates(subset=['A'])
```
输出:
```
A B
0 1 1
2 2 3
```
这个例子中,我们只比较了'A'列,并删除了其中重复的行。
阅读全文