SimpleImputer详解
时间: 2023-07-07 14:25:13 浏览: 126
SimpleImputer是scikit-learn库中的一个类,用于处理数据中的缺失值。它可以将缺失值替换为指定的常量,如0或平均值、中位数、众数等。
在使用SimpleImputer时,需要指定两个参数:missing_values和strategy。missing_values指定要替换的缺失值的标识符,常见的标识符有NaN、None和空字符串"";strategy则指定了替换缺失值的策略,可以选择mean(均值)、median(中位数)、most_frequent(众数)或constant(常数)。
例如,下面的代码将NaN值替换为所在列的均值:
```
from sklearn.impute import SimpleImputer
import numpy as np
X = np.array([[1, 2, np.nan], [3, np.nan, 5], [np.nan, 7, 8]])
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
X_imputed = imputer.fit_transform(X)
print(X_imputed)
```
输出结果如下:
```
[[1. 2. 6.5]
[3. 4.5 5. ]
[2. 7. 8. ]]
```
可以看到,原来的X数组中含有两个NaN值,经过SimpleImputer处理后,这两个值被替换为了所在列的均值。
需要注意的是,SimpleImputer仅能处理数值型数据,对于文本型数据或日期型数据,需要使用其他的方法进行处理。
阅读全文