python数据清洗处理重复值代码怎么写
时间: 2024-01-15 12:03:03 浏览: 83
数据清洗之 重复值处理
在Python中,使用pandas库是最常用的数据清洗和处理重复值的方法。以下是一些基本的代码示例:
1. 检测重复值
```python
import pandas as pd
df = pd.read_csv('data.csv') # 读取数据集
print(df.duplicated().sum()) # 检测重复值数量
```
2. 去除重复值
```python
import pandas as pd
df = pd.read_csv('data.csv') # 读取数据集
df.drop_duplicates(inplace=True) # 去除重复值
```
在上面的示例中,`data.csv`是包含重复值的数据集文件名。使用pandas库读取数据集后,您可以使用`duplicated()`函数检测重复值的数量。如果您想去除重复值,则可以使用`drop_duplicates()`函数。
请注意,`drop_duplicates()`函数默认会保留第一个出现的重复值,并去除后续出现的重复值。如果您想保留最后一次出现的重复值,则可以使用`drop_duplicates(keep='last')`。如果您想去除所有出现的重复值,则可以使用`drop_duplicates(keep=False)`。
阅读全文