pandas数据去重有几种方法
时间: 2023-08-04 11:09:43 浏览: 258
在 Pandas 中,有多种方法可以对数据进行去重操作。以下是几种常用的方法:
1. `drop_duplicates()`: 使用 `drop_duplicates()` 方法可以去除 DataFrame 中的重复行。默认情况下,该方法会对所有列进行去重操作,只保留第一次出现的行,后续出现的相同行会被移除。你也可以使用参数 `subset` 指定要考虑的列。
```python
df = df.drop_duplicates()
```
2. `duplicated()`: 使用 `duplicated()` 方法可以标记 DataFrame 中的重复行。该方法返回一个布尔型的 Series,表示每一行是否是重复行。你可以根据需要使用该 Series 进行筛选或删除操作。
```python
duplicated_rows = df.duplicated()
```
3. `groupby()`: 使用 `groupby()` 方法可以对 DataFrame 进行分组操作,并且可以结合其他的聚合函数来进行去重操作。
```python
df = df.groupby(by=['col1', 'col2']).size().reset_index()
```
4. `unique()`: 对于 Series 对象,可以使用 `unique()` 方法获取唯一值,并返回一个包含唯一值的数组。
```python
unique_values = df['col'].unique()
```
这些是一些常见的 Pandas 数据去重方法,你可以根据具体的需求选择适合的方法进行操作。
阅读全文