已知超市数据(data/超市销售数据.csv),请显示前5行数据,并对数据进行数据清洗,分别对其中的缺失值、重复值、异常值和不一致数据进行处理。
时间: 2024-11-22 18:42:14 浏览: 22
首先,我会加载"超市销售数据.csv"文件并查看前5行数据,这将帮助我们了解数据的基本结构。在Python中,可以使用pandas库来完成这个任务:
```python
import pandas as pd
# 加载数据
df = pd.read_csv('data/超市销售数据.csv')
# 显示前5行数据
print(df.head())
```
数据清洗主要包括以下几个步骤:
1. **检查缺失值** (Missing Values):
使用`isnull()`函数检查是否有缺失值,然后可以使用`fillna()`或`dropna()`方法处理它们。例如,可以选择填充缺失值(如平均数、众数等)、删除含有缺失值的行或列。
```python
# 查找缺失值
missing_values = df.isnull().sum()
# 删除含有缺失值的行(可以根据情况选择)
df = df.dropna() # 或者填充缺失值
```
2. **检查重复值** (Duplicate Values):
使用`duplicated()`函数检测重复项,然后可以用`drop_duplicates()`方法去除重复的数据。
```python
# 查找重复行
duplicate_rows = df.duplicated()
# 删除重复行
df = df.drop_duplicates()
```
3. **异常值处理** (Outliers Detection):
可能需要根据业务领域知识确定哪些数值被认为是异常的。通常,可以使用统计方法(如四分位数范围)或可视化工具来识别异常点。常见的库有`zscore`(基于标准差判断)或`IQR`(基于四分位距)。
4. **数据一致性检查** (Consistency Checks):
确保数据字段之间的一致性。比如,日期和时间字段应该符合正确的格式,商品编码应唯一等。这里需要根据具体数据特点来设计检查规则。
完成以上操作后,数据就进行了初步的清洗:
```python
# 结果展示
print("清洗后的数据前5行:")
print(df.head())
# 结果展示(假设)
print("\n缺失值处理结果:")
print(missing_values)
```
阅读全文