加利福尼亚房价数据集 该数据集是一个回归问题。共有20640条数据,每条数据有8个特征和一个价格输出,请以此数据集为例将数据集合划分为训练集和测试集,分别使用线性回归方法来预测价格,
时间: 2024-12-10 11:33:56 浏览: 8
加利福尼亚州住房数据集,包括九个特征和一个目标值即房价,总共20640条数据,和sklearn中的california数据集相同
5星 · 资源好评率100%
使用加利福尼亚房价数据集进行回归分析时,通常我们会按照80%的数据作为训练集,剩余20%作为测试集。以下是一个简化的步骤:
1. **导入必要的库和数据**:
```python
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 加载数据
cal_housing = fetch_california_housing()
X = cal_housing.data
y = cal_housing.target
```
2. **划分训练集和测试集**:
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
这里我们设置了 `test_size=0.2` 表示20%的数据被分配给测试集,`random_state` 参数用于保证每次结果的可重复性。
3. **建立并训练线性回归模型**:
```python
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)
```
4. **预测和评估**:
```python
y_pred_train = lr_model.predict(X_train)
y_pred_test = lr_model.predict(X_test)
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)
print(f"Training set MSE: {mse_train}")
print(f"Testing set MSE: {mse_test}")
```
通过计算均方误差(MSE)我们可以了解模型在训练集和测试集上的预测效果。
阅读全文