python数据预处理代码
时间: 2023-07-23 08:10:29 浏览: 151
Python----数据预处理代码实例
以下是一个简单的 Python 数据预处理代码示例:
```python
import pandas as pd
import numpy as np
# 读取数据
data = pd.read_csv('data.csv')
# 缺失值处理
data.fillna(method='ffill', inplace=True)
# 特征标准化
data['feature1'] = (data['feature1'] - np.mean(data['feature1'])) / np.std(data['feature1'])
# 特征编码
data['category'] = pd.factorize(data['category'])[0]
# 数据分割
train_data = data[:800]
test_data = data[800:]
# 特征选择
features = ['feature1', 'feature2', 'category']
train_x = train_data[features]
test_x = test_data[features]
train_y = train_data['label']
test_y = test_data['label']
```
这个示例代码中,我们首先使用 Pandas 库读取数据,并使用 `fillna` 方法填充缺失值。然后对特征进行标准化处理,使用 `factorize` 方法对分类特征进行编码。接着将数据分割为训练集和测试集,并选择需要使用的特征。最后,我们将特征和标签分别赋值给 `train_x`、`test_x`、`train_y`、`test_y` 变量,以供后续模型训练使用。
阅读全文