利用波士顿数据集进行简单的线性回归预测
时间: 2024-12-03 19:17:19 浏览: 10
利用波士顿数据集进行简单的线性回归预测,首先你需要了解这个数据集。波士顿房价数据集是统计学领域的一个经典例子,由哈佛大学的社会科学家在1978年收集,用于研究城市住房价格与各种社会经济因素的关系。该数据集包含13种特征(如犯罪率、人口密度等)以及每个区域的中位数房价。
以下是进行简单线性回归预测的一般步骤:
1. **导入库**:
使用Python的数据分析和机器学习库,比如NumPy、Pandas、Scikit-Learn等。
```python
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
```
2. **加载数据**:
调用`load_boston()`函数获取数据。
```python
boston = load_boston()
X = boston.data # 特征数组
y = boston.target # 目标变量(房价)
```
3. **数据预处理**:
分割数据集为训练集和测试集,通常比例为70%训练,30%测试。
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```
4. **模型训练**:
创建并训练线性回归模型。
```python
model = LinearRegression()
model.fit(X_train, y_train)
```
5. **预测**:
对测试集应用模型进行预测。
```python
y_pred = model.predict(X_test)
```
6. **评估**:
计算预测性能指标,如均方误差(MSE)和R^2分数。
```python
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
```
通过以上步骤,你可以得到波士顿房价数据集上简单线性回归模型的基础预测效果。如果你想进一步提升模型,可以探索特征选择、正则化等高级技巧。
阅读全文