如何编写Python代码来处理类别型数据中的缺失值,将其填充为'未知',同时用数值型数据的平均值替换缺失值?
时间: 2024-11-12 08:38:58 浏览: 13
数据处理之缺失值填充
在Python中,可以使用pandas库来方便地处理类别型(categorical)和数值型(numeric)数据的缺失值。以下是处理步骤:
1. 首先,导入所需的库:
```python
import pandas as pd
```
2. 加载包含缺失值的数据集:
```python
df = pd.read_csv('your_data.csv') # 替换为实际文件名
```
3. 对类别型数据填充缺失值为'未知'(NaN代表缺失值):
```python
df['category_column'] = df['category_column'].fillna('未知')
```
这里的`category_column`是你需要处理的类别型列名。
4. 对数值型数据计算并填充缺失值为平均值:
```python
# 如果列名为'numeric_column'
mean_value = df['numeric_column'].mean() if not df['numeric_column'].isnull().all() else None
df['numeric_column'] = df['numeric_column'].fillna(mean_value)
```
如果`numeric_column`有缺失值并且不是所有值都是缺失,就计算平均值;如果全都是缺失值,则可以选择其他策略,如设置特定值或者保持缺失。
5. 结果检查:
```python
print(df.isnull().sum()) # 查看是否有剩余缺失值
```
阅读全文