使用波士顿房价数据集,计算并输出样本数量、特征数量,选取其中两个特征进行标准化并进行可视化。(如果波士顿房价数据不可得,使用可以进行回归的数据集即可)
时间: 2024-09-19 21:06:45 浏览: 29
波士顿房价数据集是一个常用的数据集,用于监督学习中的多元线性回归分析,特别是预测房屋的价格。这个数据集包含506个观测值,每个观察对应14个特征,包括人口密度、犯罪率、房地产平均年龄等属性。
首先,我们可以加载该数据集,例如在Python中,可以使用sklearn库的`load_boston()`函数来获取:
```python
from sklearn.datasets import load_boston
boston = load_boston()
print("样本数量 (Number of samples):", boston.data.shape[0])
print("特征数量 (Number of features):", boston.data.shape[1])
# 对于两个特定的特征,比如'RM'(房间数量)和'CRIM'(犯罪率),进行标准化
import numpy as np
features_to_scale = ['RM', 'CRIM']
X_scaled = preprocessing.StandardScaler().fit_transform(boston.data[:, [boston.feature_names.index(feature) for feature in features_to_scale]])
```
然后,我们可以通过matplotlib库进行这两个特征的二维散点图可视化,展示它们对房价的影响:
```python
import matplotlib.pyplot as plt
plt.figure(figsize=(8, 6))
for i, feature in enumerate(features_to_scale):
plt.subplot(1, 2, i+1)
plt.scatter(X_scaled[:, i], boston.target, c='blue')
plt.xlabel(feature + " (standardized)")
plt.ylabel('House Price ($1000s)')
plt.show()
```
在这个可视化中,颜色通常表示房价,你可以看到房间数量和犯罪率如何影响房价分布。
阅读全文