python数据集预处理代码
时间: 2023-07-09 14:13:08 浏览: 94
好的,以下是一个简单的 Python 数据集预处理代码示例:
```python
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
# 读取数据集
data = pd.read_csv('data.csv')
# 删除缺失值
data.dropna(inplace=True)
# 将分类变量编码为数字
le = LabelEncoder()
data['category'] = le.fit_transform(data['category'])
# 将连续变量进行归一化处理
data['age'] = (data['age'] - data['age'].mean()) / data['age'].std()
data['income'] = (data['income'] - data['income'].min()) / (data['income'].max() - data['income'].min())
# 将数据集分为训练集和测试集
train_data = data.sample(frac=0.8, random_state=1)
test_data = data.drop(train_data.index)
# 保存处理后的数据集
train_data.to_csv('train_data.csv', index=False)
test_data.to_csv('test_data.csv', index=False)
```
这个示例代码中,我们使用 pandas 库来读取数据集,使用 sklearn 库中的 LabelEncoder 类来将分类变量编码为数字,使用归一化处理来对连续变量进行预处理,使用 sample() 函数将数据集划分为训练集和测试集,并将处理后的数据集保存到本地文件中。
阅读全文