进行数据准备,将df数据框分为X_data(除去species列的数据),预测目标y_data(species列)。在此基础上,划分训练集与测试集,固定random_state为1,用25%的数据测试,75%的数据训练,并显示训练集(X_trainingSet)、测试集(X_testSet)的形状
时间: 2024-02-05 19:12:29 浏览: 51
以下是代码实现:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取鸢尾花数据集
iris_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',
header=None, names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species'])
# 将df数据框分为X_data(除去species列的数据),预测目标y_data(species列)
X_data = iris_data.drop(columns=['species'])
y_data = iris_data['species']
# 划分训练集与测试集
X_trainingSet, X_testSet, y_trainingSet, y_testSet = train_test_split(X_data, y_data, test_size=0.25,
random_state=1)
# 显示训练集(X_trainingSet)、测试集(X_testSet)的形状
print('X_trainingSet shape:', X_trainingSet.shape)
print('X_testSet shape:', X_testSet.shape)
```
输出结果为:
```
X_trainingSet shape: (112, 4)
X_testSet shape: (38, 4)
```
其中,训练集包含112个样本,测试集包含38个样本。每个样本有4个特征。
阅读全文