划分训练集与测试集(80%-20%) 数据预处理(均值归一化) 采用线性回归模型 LinearRegression 进行训练及预测(可定义 pipeline) 使用测试数据进行回归预测
时间: 2023-12-14 10:38:53 浏览: 82
好的,我来给你讲一下具体的步骤:
1. 导入需要的库
```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
```
2. 加载数据并进行划分训练集与测试集
```python
data = pd.read_csv('data.csv')
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
这里假设数据文件为 `data.csv`,其中最后一列为标签。
3. 对数据进行均值归一化
```python
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
```
4. 定义 pipeline
```python
model = Pipeline([
('scaler', StandardScaler()),
('regressor', LinearRegression())
])
```
这里我们将数据归一化和线性回归模型组合成了一个 pipeline。
5. 训练模型
```python
model.fit(X_train, y_train)
```
6. 预测测试数据
```python
y_pred = model.predict(X_test)
```
7. 查看预测结果
```python
print(y_pred)
```
这里输出的是预测的标签值。
希望这个例子能够帮助你更好地理解如何使用线性回归模型进行预测。
阅读全文