用python对加尼福利亚房价数据集实现线性回归,训练和预测,评估模型的拟合能力获得训练数据和标记的完整代码
时间: 2024-10-10 21:15:28 浏览: 79
在Python中,我们可以使用sklearn库来实现加州房价数据集(通常指的是California Housing Dataset)的线性回归分析。以下是一个简单的例子,展示如何加载数据、训练模型、做预测并评估模型性能:
```python
# 导入所需的库
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
# 加载加州房价数据集
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
target = data.target
# 数据预处理(这里假设没有缺失值)
X_train, X_test, y_train, y_test = train_test_split(df, target, test_size=0.2, random_state=42)
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
# 评估模型
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error (MSE): {mse}")
print(f"R^2 Score: {r2}")
# 模型的拟合能力可以通过R^2分数来判断,越接近1表示拟合越好;MSE则衡量了实际值和预测值之间的平均误差。
阅读全文