python中对diabetes糖尿病数据集输出原始数据集数据的形状,然后按20%的测试集数据将数据切分为训练集和测试集,再分别输出训练集数据的形状和测试集数据的形状;
时间: 2023-07-06 12:04:39 浏览: 77
python 划分数据集为训练集和测试集的方法
首先,我们需要导入数据集并输出其形状:
```python
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
print(diabetes.data.shape)
```
这将输出糖尿病数据集的形状,即 (442, 10),其中 442 表示样本数,10 表示特征数。
接下来,我们可以使用 `train_test_split` 函数将数据集划分为训练集和测试集,并输出它们各自的形状:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2)
print(X_train.shape)
print(X_test.shape)
```
这将输出训练集和测试集的形状,分别为 (353, 10) 和 (89, 10)。其中,353 和 89 分别是训练集和测试集的样本数,10 是特征数。
阅读全文