波士顿房价数据集代码
时间: 2024-06-21 08:03:00 浏览: 178
波士顿房价数据集
波士顿房价数据集是一个经典的机器学习数据集,通常用于监督学习中的回归任务,比如预测房价。这个数据集来自1978年的《哈佛住房研究项目》(Housing Data Set),由13个特征和一个目标变量组成,这些特征包括诸如犯罪率、人口密度、平均房间数等,目标变量是每个区域的中位数房价。
在Python中,你可以使用Scikit-learn库来加载这个数据集,下面是一个简单的例子:
```python
from sklearn.datasets import load_boston
import pandas as pd
# 加载数据集
boston = load_boston()
data = boston.data
target = boston.target
# 创建pandas DataFrame,方便查看数据
feature_names = boston.feature_names
df_boston = pd.DataFrame(data, columns=feature_names)
df_boston['PRICE'] = target
# 打印数据集基本信息
print(df_boston.head())
print("描述统计信息:")
print(df_boston.describe())
# 对数据进行预处理和分割(这里只是一个基本示例,实际应用可能需要更复杂的数据预处理)
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=42)
```
在上述代码中,`load_boston()`函数用于加载数据,`pandas`库用于数据处理和可视化,`train_test_split()`则用来划分训练集和测试集。
阅读全文