对数据进行缺失值和异常值处理,均是分类数据python代码
时间: 2023-07-14 21:14:01 浏览: 94
python实现数据清洗(缺失值与异常值处理)
5星 · 资源好评率100%
对于缺失值的处理,可以使用pandas库中的fillna()函数,将缺失值替换为指定的值或使用插值法进行填充。例如:
```python
import pandas as pd
# 创建DataFrame,包含缺失值
df = pd.DataFrame({"A": [1, 2, None, 4], "B": [5, None, 7, 8]})
# 用0填充缺失值
df.fillna(0, inplace=True)
# 使用前向填充
df.fillna(method="ffill", inplace=True)
# 使用后向填充
df.fillna(method="bfill", inplace=True)
# 使用插值法填充
df.interpolate(method="linear", inplace=True)
```
对于异常值的处理,可以使用统计学方法或机器学习方法进行识别和处理。常用的统计学方法包括3σ原则、箱线图等;机器学习方法包括聚类、异常检测等。例如:
```python
import pandas as pd
from sklearn.cluster import DBSCAN
# 创建DataFrame,包含异常值
df = pd.DataFrame({"A": [1, 2, 3, 100], "B": [5, 6, 100, 8]})
# 使用DBSCAN进行异常值检测
outliers_detection = DBSCAN(eps=3, min_samples=2)
clusters = outliers_detection.fit_predict(df)
# 将异常值替换为中位数
df.loc[clusters == -1] = df.median()
```
阅读全文