sklearn中的波士顿房价数据集该如何使用
时间: 2024-11-18 10:17:31 浏览: 11
波士顿房价数据集(波士顿房价数据集.zip).zip
在scikit-learn (sklearn) 中,波士顿房价数据集是一个经典的数据集,用于预测美国马萨诸塞州波士顿地区的房屋价格。这个数据集包含了1970年代中期506个观测值和14种特征。下面是一个简单的步骤指南来展示如何加载和使用这个数据集:
1. **导入所需库**:
```python
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
```
2. **加载数据**:
```python
boston = load_boston()
```
这将返回一个`Bunch`对象,其中包含数据、目标变量、特征名称等信息。
3. **查看数据结构**:
```python
print(boston.keys())
```
了解数据集中包含哪些内容。
4. **数据预处理**:
```python
# 将数据转换为pandas DataFrame
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target # 添加目标变量列
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop('PRICE', axis=1), df['PRICE'], test_size=0.2, random_state=42)
```
5. **建立模型**:
```python
model = LinearRegression() # 使用线性回归作为示例
model.fit(X_train, y_train)
```
6. **做出预测**:
```python
y_pred = model.predict(X_test)
```
7. **评估模型**:
```python
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
```
阅读全文