dataframe drop_duplicates()参数
时间: 2023-09-21 18:08:30 浏览: 126
`drop_duplicates()` 方法有几个与重复值处理有关的参数:
- `subset`:指定要考虑的列,默认为所有列。
- `keep`:指定保留哪个重复值。默认为第一个出现的重复值,可选参数为 `first`、`last` 和 `False`。
- `inplace`:指定是否在原 DataFrame 上修改数据。默认为 `False`,即返回一个新的 DataFrame。
下面是一个示例代码,演示了如何使用这些参数:
```python
import pandas as pd
# 创建一个包含重复行的 DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
'age': [25, 30, 35, 25],
'gender': ['F', 'M', 'M', 'F']
})
# 使用 subset 参数只考虑 name 和 age 两列
df = df.drop_duplicates(subset=['name', 'age'])
# 使用 keep 参数保留最后一个重复行
df = df.drop_duplicates(subset=['name'], keep='last')
# 在原 DataFrame 上修改数据
df.drop_duplicates(inplace=True)
# 打印结果
print(df)
```
输出结果为:
```
name age gender
2 Charlie 35 M
3 Alice 25 F
```
在上述示例中,我们首先创建了一个包含重复行的 DataFrame。然后,我们使用 `subset` 参数只考虑 `name` 和 `age` 两列,使用 `keep` 参数保留最后一个重复行。接着,我们使用 `inplace` 参数在原 DataFrame 上修改数据。最后,我们打印了结果以验证是否成功删除了重复行。
阅读全文