使用波士顿房价数据集进行线性回归预测并导入数据
时间: 2024-10-08 08:13:44 浏览: 38
使用波士顿房价数据集进行线性回归预测通常是在机器学习入门教程中常见的实践环节,这个数据集来自R语言的`MASS`包,包含1970年代波士顿地区的房屋价格信息,以及一些与之相关的特征,如犯罪率、人口密度等。
首先,你需要安装必要的库,例如`pandas`, `numpy`, `scikit-learn`等,并确保已经导入了这些库。接下来,你可以按照以下步骤操作:
1. **加载数据**:
```python
from sklearn.datasets import load_boston
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target # 将目标变量添加到DataFrame中
```
2. **数据预处理**:
检查缺失值和异常值,如果需要,可以进行填充或删除。通常还会对数值型数据做归一化或标准化。
3. **划分数据集**:
分割数据集为训练集和测试集,以便评估模型性能。
```python
X_train, X_test, y_train, y_test = train_test_split(df.drop('PRICE', axis=1), df['PRICE'], test_size=0.2, random_state=42)
```
4. **创建模型**:
使用`LinearRegression`模型进行线性回归分析。
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```
5. **拟合模型**:
训练模型使用训练数据。
```python
model.fit(X_train, y_train)
```
6. **预测**:
对测试集进行预测。
```python
y_pred = model.predict(X_test)
```
7. **评估模型**:
可以计算各种指标,如均方误差(MSE)或R²分数来评估预测效果。
```python
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
```
阅读全文