python数据分析中关于pandas中drop-duolicates函数说法
时间: 2024-09-10 21:13:47 浏览: 38
在Python的pandas库中,`drop_duplicates()`函数是一个非常常用的数据清洗工具,用于从DataFrame中删除重复的行。这个函数的基本语法如下:
```python
df.drop_duplicates([subset, keep='first', inplace=False])
```
参数说明:
- `subset`: 可选参数,指定哪些列(默认为所有列)来判断重复。如果省略,那么所有列都会参与比较。
- `keep`: 决定保留哪一类重复值,有三个选项:
- `'first'` (默认): 保留第一次出现的重复值,其他重复会被删除。
- `'last'`: 保留最后一次出现的重复值。
- `False` 或 `None`: 删除所有的重复项。
- `inplace`: 如果设为True,会在原地修改DataFrame,如果不设置或者为False,则返回一个新的DataFrame,不会改变原始数据。
举个例子:
```python
df = pd.DataFrame({'A': [1, 2, 2, 3], 'B': ['a', 'b', 'b', 'c']})
new_df = df.drop_duplicates() # 删除所有重复行
unique_df = df.drop_duplicates(subset=['A']) # 根据'A'列唯一性去除重复行
```
阅读全文