数据清洗算法python代码
时间: 2024-07-28 10:01:34 浏览: 46
数据清洗是数据分析的重要步骤,通常涉及到处理缺失值、异常值、重复值等。在Python中,有许多库可以用于数据清洗,如Pandas是一个常用的数据操作库,下面是一个简单的例子:
```python
import pandas as pd
# 假设df是我们需要清洗的数据框
df = pd.DataFrame({
'A': [1, 2, np.nan, 4],
'B': [5, np.nan, np.nan, 8],
'C': [9, 10, 11, 12]
})
# 1. 检查并处理缺失值 (np.nan代表NaN)
# 使用isnull()检查缺失值,dropna()删除缺失值
df_cleaned = df.dropna() # 删除所有含有缺失值的行
# 或者 fillna()填充缺失值,例如用平均值填充
df_filled = df.fillna(df.mean())
# 2. 处理重复值
# 使用duplicated()检测重复行,drop_duplicates()删除重复行
df_unique = df.drop_duplicates()
# 3. 异常值处理 (这里假设我们想移除超出某一范围的数值)
def remove_outliers(column):
q1, q3 = column.quantile([0.25, 0.75])
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
return column[(column > lower_bound) & (column < upper_bound)]
df_cleaned['A'] = remove_outliers(df_cleaned['A'])
#