python数据清洗完整代码
时间: 2024-08-12 18:04:13 浏览: 125
Python数据分析实战源代码
5星 · 资源好评率100%
Python数据清洗通常涉及处理缺失值、异常值、重复值以及数据格式化等步骤。这里是一个简化的示例,展示如何使用Pandas库进行数据清洗:
```python
import pandas as pd
import numpy as np
# 加载数据集
data = pd.read_csv('your_data.csv') # 替换为你的数据文件路径
# 检查缺失值
print(data.isnull().sum()) # 查看每列是否有缺失值
# 处理缺失值
# 1. 删除含有缺失值的行(谨慎使用,可能会丢失信息)
data = data.dropna()
# 2. 插值法填充缺失值(如平均值、中位数、众数)
data['column_name'].fillna(data['column_name'].mean(), inplace=True)
# 检查重复值
duplicates = data.duplicated()
if duplicates.any():
print("存在重复记录")
# 删除重复记录
data = data.drop_duplicates()
# 数据类型转换(如有需要)
data['column_to_convert'] = data['column_to_convert'].astype('int')
# 异常值检测和处理(例如使用箱线图或标准差检查)
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data = data[~((data < (Q1 - 1.5 * IQR)) |(data > (Q3 + 1.5 * IQR))).any(axis=1)]
# 最终保存清洗后的数据
data.to_csv('cleaned_data.csv', index=False)
阅读全文