pandas的去重函数
时间: 2024-10-09 14:14:53 浏览: 45
python pandas dataframe 去重函数的具体使用
Pandas库中的去重功能主要通过`drop_duplicates()`和`duplicated()`这两个函数来实现。
1. `drop_duplicates()`函数:这个函数用于删除DataFrame或Series中重复的行。它接受一个可选的参数`subset`,指定哪些列参与去重;如果省略,则所有列都会被考虑。默认情况下,它是保留第一个出现的重复项,你可以设置`keep=False`来删除所有重复行。
示例:
```python
df.drop_duplicates(subset='column_name', keep='first') # 或者 keep=False 删除所有重复
```
2. `duplicated()`函数:这是一个返回布尔值系列的函数,表明每个索引是否是重复的。这个函数同样可以指定列子集进行检查,返回值是一个布尔型的DataFrame,True表示该行是重复的。
示例:
```python
duplicates = df.duplicated(subset='column_name')
```
如果你想获取重复的数据行,可以用`df[duplicates]`。
阅读全文