python数据清洗 代码
时间: 2024-07-17 22:01:09 浏览: 148
Python数据清洗通常是预处理数据过程的一部分,目的是消除或修正原始数据中的错误、缺失值、异常值和不一致性,使其更适合后续分析。以下是一个简单的例子,展示了如何使用Pandas库进行基础的数据清洗:
```python
import pandas as pd
# 加载数据
data = pd.read_csv('example_data.csv') # 假设我们从CSV文件读取数据
# 检查并处理缺失值
# 如果你想删除包含缺失值的行
data.dropna(inplace=True) # inplace=True会直接修改原数据
# 或者填充缺失值
data.fillna(value=0, inplace=True)
# 处理重复值
duplicates = data.duplicated() # 查找重复行
data.drop_duplicates(inplace=True) # 删除重复行
# 异常值检测(这里通常依赖于业务知识)
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data = data[~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)] # 使用四分位数规则删除离群值
# 数据类型转换
data['column_name'] = data['column_name'].astype('float') # 将列转为浮点型
# 完成清洗后,可以保存到新的CSV文件
data.to_csv('cleaned_data.csv', index=False)
阅读全文