使用duplicated()删除重复行时应该怎么做?
时间: 2024-09-08 22:01:30 浏览: 43
py代码-处理csv文件重复数据
当你想使用`duplicated()`函数删除DataFrame中的重复行时,通常会结合`drop_duplicates()`方法一起使用。下面是一个示例:
```python
import pandas as pd
# 假设你有一个包含重复数据的DataFrame df
df = pd.DataFrame({
'column1': [1, 2, 2, 3, 4, 5],
'column2': ['a', 'b', 'a', 'c', 'd', 'e']
})
# 使用duplicated()获取重复行标识
duplicates = df.duplicated()
# 然后通过drop_duplicates()并设定keep='first'(保留第一次出现的),删除重复行
df_unique = df.drop_duplicates(keep='first')
print(df_unique)
```
在这个例子中,`keep='first'`意味着只会保留每个唯一组的第一个记录,其他的重复会被移除。
如果你想删除所有的重复记录,可以设置`keep=False`:
```python
df_no_duplicates = df.drop_duplicates(keep=False)
```
阅读全文