pandas drop_duplicates 具体用法
时间: 2023-10-10 11:04:20 浏览: 153
`drop_duplicates()` 是 Pandas 中的一个函数,用于去除 DataFrame 或 Series 中重复的行。
具体用法如下:
```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
```
其中,各参数的含义如下:
- `subset`:指定要去重的列,默认为全部列,如果指定了,则只对指定的列进行去重;
- `keep`:指定保留哪个重复的值,可选参数为 `'first'`(保留第一个)、`'last'`(保留最后一个)和 `False`(全部删除),默认为 `'first'`;
- `inplace`:是否在原 DataFrame 中进行修改,默认为 `False`,即返回一个新的 DataFrame;
- `ignore_index`:是否重新设置索引,默认为 `False`,即保留原有的索引。
例如,对如下的 DataFrame 进行去重:
```python
import pandas as pd
data = {
'name': ['Alice', 'Bob', 'Charlie', 'Bob'],
'age': [25, 30, 35, 30],
'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)
print(df)
```
输出:
```
name age gender
0 Alice 25 F
1 Bob 30 M
2 Charlie 35 M
3 Bob 30 M
```
如果我们想要去掉重复的行,可以使用 `drop_duplicates()` 函数:
```python
df.drop_duplicates(inplace=True)
print(df)
```
输出:
```
name age gender
0 Alice 25 F
1 Bob 30 M
2 Charlie 35 M
```
可以看到,重复的行已经被去掉了。
阅读全文