对数据集进行数据清洗代码
时间: 2024-12-17 14:27:45 浏览: 2
数据清洗是数据分析前的重要步骤,通常包括处理缺失值、异常值、重复值和格式不一致等问题。以下是一个简单的Python pandas库的例子,展示如何对数据集进行基本的数据清洗:
```python
import pandas as pd
# 加载数据集
df = pd.read_csv('data.csv') # 假设你有一个名为'data.csv'的CSV文件
# 检查并处理缺失值
# 1. 查看缺失值
print(df.isnull().sum())
# 2. 删除含有大量缺失值的行或列(如果选择)
df.dropna(inplace=True) # 如果你想删除所有含缺失值的行,inplace=True会直接修改原数据框
# 或者只删除某一列
df = df[df['column_name'].notnull()] # 替换 'column_name' 为需要检查的列名
# 处理异常值
# 例如,使用四分位数范围(IQR)检测并替换极端值
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
df = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)] # 这里假设数值型数据
# 处理重复值
df.drop_duplicates(inplace=True)
# 格式统一化
# 示例:将日期字符串转换为标准日期格式
df['date_column'] = pd.to_datetime(df['date_column'])
# 完成清洗后保存到新的文件
df.to_csv('cleaned_data.csv', index=False)
阅读全文