从机器学习库中加载波士顿房价数据,并查看数据。将波士顿房价数据随机划分成训练数据集和测试数据集,其中测试数据集占整个数据10%,其中随机数为2023。
时间: 2024-12-24 21:38:28 浏览: 9
在Python中,我们可以使用scikit-learn库中的波士顿房价数据集(Boston Housing Dataset)来进行此类操作。这个数据集包含506个样本,每个样本有13个特征和一个目标值(房价)。以下是步骤:
1. **导入所需库**:
首先需要安装`pandas`、`numpy`以及`sklearn`库,如果尚未安装可以使用`pip install pandas numpy scikit-learn`命令。
```python
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
```
2. **加载数据**:
使用`load_boston()`函数加载波士顿房价数据。
```python
boston = load_boston()
data = boston.data
target = boston.target
feature_names = boston.feature_names
description = boston.DESCR
```
3. **查看数据基本信息**:
可以使用`pandas`查看数据前几行和一些统计信息。
```python
df = pd.DataFrame(np.c_[data, target], columns=feature_names + ['PRICE'])
print(df.head())
```
4. **划分数据集**:
使用`train_test_split`函数,设置测试集比例为10%(加上随机数种子保证每次结果一致)。
```python
test_size = 0.1
random_state = 2023
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=test_size, random_state=random_state)
```
现在你已经得到了训练数据集(`X_train` 和 `y_train`)和测试数据集(`X_test` 和 `y_test`),分别用于模型训练和评估。
阅读全文