用python脚本将数据集自动化分为训练集、验证集和测试集
时间: 2023-09-06 17:10:06 浏览: 106
可以使用python中的sklearn库中的train_test_split函数将数据集随机分为训练集和测试集,然后再将训练集分为训练集和验证集。具体代码如下:
```python
from sklearn.model_selection import train_test_split
# 加载数据集
data = ...
# 分离训练集和测试集
train_data, test_data, train_label, test_label = train_test_split(data.data, data.target, test_size=0.2, random_state=42)
# 再分离训练集和验证集
train_data, val_data, train_label, val_label = train_test_split(train_data, train_label, test_size=0.2, random_state=42)
```
其中,data.data是数据集的特征,data.target是数据集的标签。train_test_split函数将数据集分为训练集和测试集,其中test_size=0.2表示将数据集划分为80%的训练集和20%的测试集,random_state=42表示随机种子,即每次运行脚本得到的结果是一样的。然后,再将训练集分为训练集和验证集,其中test_size=0.2表示将训练集划分为80%的训练集和20%的验证集。最终得到的train_data、train_label、val_data、val_label、test_data、test_label就是自动化分割好的训练集、验证集和测试集。
阅读全文