在boston dataset中,用python实现下面要求,给出代码:2.添加代码以查找房价与数据集中其他自变量之间的相关性。 3.与以前一样,保存33%的数据用于测试。 4.用数据集最高的自变量创建一个新的简单(单自变量)回归模型。如果贫困水平最高,那么选择下一个最高的。 5.计算并打印训练数据和测试数据的MSE,并在代码块之后回答问题。
时间: 2024-04-10 09:28:58 浏览: 66
下面是使用Python实现您提出的要求的代码:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 读取数据集
data = pd.read_csv('boston.csv')
# 查找房价与其他自变量之间的相关性
correlation = data.corr()['MEDV'].drop('MEDV')
print(correlation)
# 分离自变量和因变量
X = data[['RM']] # 使用房间数量作为自变量
y = data['MEDV'] # 房价作为因变量
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
# 创建简单回归模型
regressor = LinearRegression()
regressor.fit(X_train, y_train)
# 在训练集上进行预测并计算MSE
y_train_pred = regressor.predict(X_train)
train_mse = mean_squared_error(y_train, y_train_pred)
print("训练数据的MSE:", train_mse)
# 在测试集上进行预测并计算MSE
y_test_pred = regressor.predict(X_test)
test_mse = mean_squared_error(y_test, y_test_pred)
print("测试数据的MSE:", test_mse)
```
请注意,以上代码假设您的数据集文件名为"boston.csv"。您可以根据实际情况进行修改。
请回答以下问题:
1. 训练数据的MSE是多少?
2. 测试数据的MSE是多少?
阅读全文