python 数据预处理源码
时间: 2023-08-28 15:06:51 浏览: 47
以下是一个基于Python的数据预处理示例代码:
```python
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split
# 读取数据
data = pd.read_csv('data.csv')
# 数据清洗
data = data.dropna() # 去除缺失值
data = data.drop_duplicates() #去除重复值
# 特征工程
le = LabelEncoder() # 文本特征编码
data['gender'] = le.fit_transform(data['gender'])
# 数据变换
scaler = MinMaxScaler() # 特征缩放
data['age'] = scaler.fit_transform(data['age'].values.reshape(-1, 1))
# 数据规约
X = data.drop('label', axis=1)
y = data['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
这段代码可以实现以下操作:
1. 读取数据
2. 去除缺失值和重复值
3. 对文本特征进行编码
4. 对数值特征进行特征缩放
5. 将数据集划分为训练集和测试集
当然,这只是一个简单的示例代码,实际的数据预处理可能需要更多的处理步骤,具体的操作也需要根据数据的特点和模型训练的需求来确定。