已知某超市的销售数据(超市销售数据.csv)对该数据进行清洗,分别对缺失值、重复值、异常值和不一致数据进行处理。代码
时间: 2024-03-22 08:38:28 浏览: 48
好的,下面是针对您提供的数据集的代码示例,包含缺失值、重复值、异常值和不一致数据的处理:
```python
import pandas as pd
import numpy as np
# 读取数据集
df = pd.read_csv('超市销售数据.csv')
# 缺失值处理:使用各列的均值填充缺失值
df.fillna(df.mean(), inplace=True)
# 重复值处理:删除重复行
df.drop_duplicates(inplace=True)
# 异常值处理:使用 z-score 方法检测和处理异常值
z_score = np.abs((df['销售额'] - df['销售额'].mean()) / df['销售额'].std())
df = df[z_score < 3]
# 不一致数据处理:替换不一致的数据
df['城市'] = df['城市'].replace({'广州市': '广州', '深圳市': '深圳'})
# 保存处理后的数据
df.to_csv('清洗后的数据.csv', index=False)
```
以上代码使用 pandas 库进行数据读取和处理,具体操作包括:
1. 使用 fillna() 方法使用各列的均值填充缺失值;
2. 使用 drop_duplicates() 方法删除重复行;
3. 使用 z-score 方法检测和处理异常值;
4. 使用 replace() 方法替换不一致的数据;
5. 使用 to_csv() 方法保存处理后的数据。
注意:针对不同的数据集,需要根据实际情况进行具体的数据处理操作。
阅读全文