将类别型数据中的缺失值填补为 “未知”,将数值型缺失值填补为其对应特征的均值
时间: 2023-07-16 22:16:26 浏览: 393
毕业论文 缺失数据几类填补方法的对比研究
好的,可以使用 Pandas 库来实现。
首先,假设我们有一个 DataFrame,其中包含类别型和数值型特征:
```python
import pandas as pd
import numpy as np
df = pd.DataFrame({
'A': [1, 2, np.nan, 4, 5],
'B': ['a', 'b', np.nan, 'c', 'd']
})
```
现在,我们可以使用 Pandas 的 `fillna()` 方法来填充缺失值。对于类别型特征,我们可以使用字符串 `"未知"` 来填充缺失值,对于数值型特征,我们可以使用 `mean()` 方法来填充缺失值。具体代码如下:
```python
# 将类别型特征中的缺失值填充为 "未知"
df['B'] = df['B'].fillna("未知")
# 将数值型特征中的缺失值填充为均值
df['A'] = df['A'].fillna(df['A'].mean())
print(df)
```
输出结果如下:
```
A B
0 1.0 a
1 2.0 b
2 3.0 未知
3 4.0 c
4 5.0 d
```
可以看到,类别型特征中的缺失值已经被填充为了 `"未知"`,数值型特征中的缺失值已经被填充为了对应特征的均值。
阅读全文