波士顿房价预测数据集
时间: 2024-03-06 09:43:12 浏览: 138
波士顿房价预测数据集是一个经典的用于回归分析的数据集,它包含了506个样本,每个样本有13个特征变量和1个目标变量。这个数据集的目标是预测波士顿地区房屋的中位数价格(MEDV)。这个数据集已经被广泛应用于机器学习和数据挖掘的教学和研究中。
对于这个数据集,我们可以进行以下操作:
1. 加载数据集
```python
from sklearn.datasets import load_boston
boston = load_boston()
```
2. 查看数据集的基本信息
```python
print(boston.DESCR) # 输出数据集的描述信息
print(boston.feature_names) # 输出数据集的特征名称
print(boston.data.shape) # 输出数据集的特征矩阵的形状
print(boston.target.shape) # 输出数据集的目标向量的形状
```
3. 将数据集划分为训练集和测试集
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=42)
```
4. 对数据集进行预处理
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
```
5. 训练模型并进行预测
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
```
6. 评估模型的性能
```python
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Mean squared error: ", mse)
print("R2 score: ", r2)
```
阅读全文