现有一份房价预测数据集Default,共有414条数据,7个字段,数据集已导入,保存在DataFrame对象data中,字段及说明如下: 列名 类型 说明 X1 transaction date float64 交易时间,例如2013.250表示2013年3月 X2 house age float64 房龄 X3 distance to nearest metro station float64 距离最近地铁站的距离 X4 number of convenience stores float64 生活圈内便利店数量 X5 latitude float64 纬度 X6 longitude float64 经度 Y house price of unit area float64 房屋单价 现已处理好数据并已读取 请根据其它6个特征利用sklearn建立回归模型,预测某房屋单价house price of unit area,其中训练集为X_train(70%),训练集标签为y_train,测试集为X_test(30%),测试集标签y_test,类型为DataFrame 请使用训练集训练模型,并调用.mean_squared_error方法对X_test的预测结果作出评价,保存在变量model_eval中 正误判定变量:model_eval
时间: 2023-07-16 15:13:19 浏览: 159
以下是建立回归模型并评估的代码:
```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 将特征数据和标签分开
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
# 建立线性回归模型
regressor = LinearRegression()
regressor.fit(X_train, y_train)
# 在测试集上做出预测
y_pred = regressor.predict(X_test)
# 评估预测结果
model_eval = mean_squared_error(y_test, y_pred)
```
其中,我们首先将特征数据和标签分开,并使用`train_test_split`方法将数据划分为训练集和测试集。然后,我们建立线性回归模型,并在训练集上进行训练。接着,我们用训练好的模型对测试集进行预测,并使用`mean_squared_error`方法计算预测结果的均方误差。最后,将评估结果保存在变量`model_eval`中。