drop_duplicates的用法
时间: 2023-07-25 22:03:43 浏览: 38
`drop_duplicates()` 是 pandas 库中的一个函数,用于去除数据框或序列中的重复值。其常用的参数和用法如下:
```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
- `subset`:指定要去重的列,默认为所有列。
- `keep`:指定保留哪个重复值。可选值为 `'first'`, `'last'`, `False`,默认为 `'first'`。其中 `'first'` 保留第一个重复值,`'last'` 保留最后一个重复值,`False` 则全部删除。
- `inplace`:是否在原数据上进行修改。默认为 `False`,即返回一个新的去重后的数据。如果设置为 `True`,则直接在原数据上进行修改,不返回任何值。
下面是一个示例:
```python
import pandas as pd
# 创建一个数据帧
df = pd.DataFrame({
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
'C': [1, 2, 1, 2, 1, 1, 2, 1],
})
# 打印原始数据帧
print(df)
# 去除重复值
df_drop = df.drop_duplicates()
# 打印去重后的数据帧
print(df_drop)
```
输出如下:
```
A B C
0 foo one 1
1 bar one 2
2 foo two 1
3 bar three 2
4 foo two 1
5 bar two 1
6 foo one 2
7 foo three 1
A B C
0 foo one 1
1 bar one 2
2 foo two 1
3 bar three 2
5 bar two 1
6 foo one 2
7 foo three 1
```
在上面的例子中,原始数据帧包含 8 行数据,其中有重复的行。通过 `drop_duplicates()` 函数去除重复行后,得到了一个只有 7 行数据的新数据帧。