如何建立13个变量与机器学习库中自带的波士顿房价y之间的预测模型
时间: 2024-12-18 10:15:24 浏览: 12
机器学习实战-波士顿房价预测
要在Python的scikit-learn库中建立一个多变量线性回归模型预测波士顿房价(`y`),你需要按照以下步骤操作:
1. **加载数据**:
使用`load_boston()`函数从scikit-learn库导入波士顿房价数据集。
```python
from sklearn.datasets import load_boston
boston_data = load_boston()
X = boston_data.data # 特征数据
y = boston_data.target # 目标变量房价
```
2. **数据预处理**:
确保数据适合模型训练,如缺失值处理、异常值检测、特征缩放等。
```python
# 这里假设数据没有缺失值,如有缺失则需要填充或删除
```
3. **划分数据集**:
分割数据集为训练集和测试集,通常比例为80%训练和20%测试。
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
4. **创建模型**:
选择`LinearRegression`类实例化一个线性回归模型。
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```
5. **训练模型**:
使用训练数据拟合模型。
```python
model.fit(X_train, y_train)
```
6. **预测**:
对测试集进行预测。
```python
y_pred = model.predict(X_test)
```
7. **评估模型**:
使用评估指标,如均方误差(MSE)、R²分数等检查模型性能。
```python
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")
```
以上就是建立一个多变量线性回归模型的基本步骤。如果你想要尝试其他算法或调整模型参数,可以查阅scikit-learn的相关文档。
阅读全文