波士顿房价数据集,探究自变量与因变量的相关性代码
时间: 2024-08-13 18:05:22 浏览: 116
波士顿房价数据集(Boston Housing Dataset)是统计学和机器学习领域中常用的一个经典数据集,它包含了马萨诸塞州波士顿地区1970年的房价信息以及与之相关的各种社会经济特征。这个数据集由Hedonic Housing Price Model创建,主要目的是研究这些因素如何影响房价。
在Python的Scikit-learn库中,你可以使用`sklearn.datasets.load_boston()`来加载这个数据集。自变量通常包括诸如犯罪率、住房的平均房间数、低收入家庭比例等特征,而因变量则是房价(一般以中位数的美元为单位)。
探究自变量与因变量的相关性,你可以使用以下代码:
```python
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# 加载波士顿房价数据集
boston = load_boston()
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['PRICE'] = boston.target # 添加房价作为因变量
# 计算相关系数矩阵
corr_matrix = data.corr()
# 可视化相关系数矩阵
plt.figure(figsize=(12, 9))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Boston Housing Data Correlation Matrix')
plt.show()
# 或者单独分析特定变量与房价的关系
# 例如,如果你想要分析'RM'(平均房间数)和'PRICE'的关系:
sns.scatterplot(data=data, x='RM', y='PRICE')
plt.xlabel('Average Number of Rooms per Dwelling')
plt.ylabel('Median House Value')
plt.title('Relationship between Average Room Count and Median Price')
plt.show()
```
以上代码首先加载数据,然后计算自变量之间的相关系数,并用热力图展示。接着,通过散点图可以直观地看到单个变量如平均房间数(RM)与房价(PRICE)之间的关系。
阅读全文