数据预处理缺失值填充代码
时间: 2024-08-14 11:00:23 浏览: 81
数据预处理中的缺失值填充是一种常见的步骤,用于处理实际应用中经常遇到的数据不完整情况。在Python中,特别是在使用pandas库处理数据时,有多种方法可以填充缺失值:
1. 使用`fillna()`函数:这个方法允许你指定一种策略来替换缺失值。例如,你可以用平均值、中位数、众数或者其他值来填充。示例代码:
```python
import pandas as pd
df.fillna(value=df.mean(), inplace=True) # 用均值填充数值型列
df.fillna(value=df.mode().iloc, inplace=True) # 用众数填充分类变量
```
2. 使用`interpolate()`函数:它可以根据数据的趋势进行插值,适合时间序列数据。例如:
```python
df.interpolate(method='linear', inplace=True)
```
这里`method`参数可以设置为线性、多项式等。
3. 使用特定值填充:如直接用“NaN”(表示Not a Number)、"0"、"None"等代替。
```python
df['column_name'].fillna('NaN', inplace=True)
```
4. 删除含有缺失值的行或列:如果缺失值比例不大,可以选择删除它们,但要注意这可能会导致信息丢失。
```python
df.dropna(inplace=True) # 删除所有含有缺失值的行
df = df[df['column_name'].notnull()] # 或者只删除某一列的缺失值行
阅读全文