去除dataframe中重复行
时间: 2024-12-12 20:30:08 浏览: 25
详解pandas使用drop_duplicates去除DataFrame重复项参数
在Pandas DataFrame中去除重复行通常有两种常见的方法:
1. **drop_duplicates()** 函数:这个函数可以直接删除DataFrame中的重复行。默认情况下,它会基于所有列的值进行判断。如果你只想基于特定的列去重,可以指定`subset`参数。示例代码如下:
```python
df.drop_duplicates(inplace=True)
```
如果你想保留第一次出现的重复行并将之后的删除,可以设置`keep='first'`;如果你想保留最后一次出现的,设置`keep='last'`。
2. **duplicated()** + **loc[]** 或者 **drop_duplicates(subset=None, keep='first', ...)** 的组合:首先使用`duplicated()`函数获取布尔索引,然后选择不重复的数据。示例:
```python
duplicated_rows = df.duplicated()
df_no_duplicates = df[~duplicated_rows]
```
阅读全文