python数据预处理完整代码
时间: 2024-03-28 12:35:15 浏览: 74
当进行Python数据预处理时,通常需要使用一些常见的库和函数来完成各种任务。下面是一个简单的Python数据预处理的完整代码示例:
```python
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
# 读取数据
data = pd.read_csv('data.csv')
# 处理缺失值
imputer = SimpleImputer(strategy='mean')
data['Age'] = imputer.fit_transform(data[['Age']])
# 处理分类变量
label_encoder = LabelEncoder()
data['Gender'] = label_encoder.fit_transform(data['Gender'])
# 特征缩放
scaler = StandardScaler()
data[['Age', 'Income']] = scaler.fit_transform(data[['Age', 'Income']])
# 划分训练集和测试集
X = data.drop('Purchased', axis=1)
y = data['Purchased']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 打印处理后的数据
print(X_train)
print(y_train)
```
上述代码中,我们使用了以下库和函数:
- `pandas`:用于读取和处理数据的库。
- `sklearn.preprocessing.LabelEncoder`:用于将分类变量转换为数值编码。
- `sklearn.impute.SimpleImputer`:用于处理缺失值的简单填充方法。
- `sklearn.preprocessing.StandardScaler`:用于特征缩放的标准化方法。
- `sklearn.model_selection.train_test_split`:用于将数据集划分为训练集和测试集。
你可以根据自己的数据和需求进行相应的修改和扩展。
阅读全文