df.drop_duplicates(subset=compare_list, keep='first', inplace=True)
时间: 2024-09-25 15:08:44 浏览: 37
在Pandas库中,`df.drop_duplicates()`函数是一个数据清洗功能,主要用于从DataFrame中删除重复的行。这个函数对DataFrame的每一列应用去重操作,返回一个新的DataFrame,除非你设置了`inplace=True`,否则默认返回的是新的DataFrame。
参数说明:
- `subset`: 可选参数,一个列标签序列,可以选择哪些列来进行去重操作。如果不指定,将会对整个DataFrame进行去重。
- `keep`: 可选参数,决定了如何处理重复值。有以下三种选择:
- `'first'` (默认): 保留第一次出现的重复项,后面的会被删除。
- `'last'`: 保留最后一次出现的重复项。
- `False` 或 `'drop'`: 删除所有的重复项。
- `inplace`: 如果设置为True(默认False),则会直接在原始DataFrame上修改并删除重复项,否则返回一个新的DataFrame。
例如:
```python
import pandas as pd
# 假设有这样一个包含重复项的数据框
df = pd.DataFrame({
'A': ['a', 'b', 'a', 'c', 'c'],
'B': [1, 2, 3, 1, 2]
})
# 使用drop_duplicates删除'A'列的重复值,保留第一个出现的
df_cleaned = df.drop_duplicates(subset=['A'], keep='first')
print(df_cleaned)
```
阅读全文