pandas 去重
时间: 2023-07-11 08:22:19 浏览: 68
Pandas 数据框增、删、改、查、去重、抽样基本操作方法
在Pandas中,可以使用`drop_duplicates()`函数来去除DataFrame中的重复行。具体用法如下:
```python
df.drop_duplicates()
```
该函数默认会将所有列的值都进行比较,若所有列的值都相同,则认为这两行是重复的。如果只想对指定的列进行去重,可以使用`subset`参数:
```python
df.drop_duplicates(subset=['col1', 'col2'])
```
其中`col1`和`col2`是需要进行去重的列名。如果想要保留重复行中的第一行或最后一行,可以使用`keep`参数,取值可以是`'first'`或`'last'`:
```python
df.drop_duplicates(subset=['col1', 'col2'], keep='first')
```
这样就可以保留重复行中的第一行,而其它重复行将会被删除。如果想要直接在原DataFrame上进行修改,可以使用`inplace`参数:
```python
df.drop_duplicates(subset=['col1', 'col2'], keep='first', inplace=True)
```
这样就可以直接在原DataFrame上进行修改,而不需要重新赋值。
阅读全文