针对波士顿房价数据集的房间数量(RM)采用简单一元线性回归代码
时间: 2024-09-28 18:06:22 浏览: 26
在Python中,我们可以使用scikit-learn库来进行简单的线性回归分析,这里以波士顿房价数据集为例。假设我们已经有了一个名为'boston_housing_data.csv'的数据文件,其中包含'RM'这一列代表房间数量。首先需要安装所需的库,如pandas、numpy和sklearn:
```bash
pip install pandas numpy scikit-learn
```
然后,你可以使用以下代码加载数据并执行一元线性回归:
```python
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 加载数据
boston = load_boston()
data = pd.DataFrame(boston.data, columns=boston.feature_names)
target = boston.target # 房价
# 将'RM'作为特征列
X = data[['RM']]
y = target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error (RMSE): {mse}")
# 相关问题:
1. 这段代码如何处理缺失值?
2. 如何优化模型性能?
3. 如何可视化预测结果与实际值的关系?
```
在这段代码中,我们首先导入了必要的库,然后加载了波士顿房价数据集,并将'RM'列作为输入特征。接着,我们将数据分为训练集和测试集,用训练集训练了一个线性回归模型,并用它在测试集上进行了预测。最后计算了预测结果的均方误差(MSE),这是一种评估回归模型性能的标准指标。
阅读全文