使用Scikit-Learn中功能将数据集分成训练集验证集和测试集,比例为8:1:1
时间: 2023-06-27 14:07:09 浏览: 118
python 划分数据集为训练集和测试集的方法
可以使用Scikit-Learn中的train_test_split函数来分割数据集。这个函数可以将数据集划分成训练集和测试集,可以通过设置参数来调整划分的比例。为了实现8:1:1的比例,可以将数据集先划分成训练集和剩余部分,然后将剩余部分再按照1:1的比例划分为验证集和测试集。
以下是代码示例:
```python
from sklearn.model_selection import train_test_split
# X为特征数据,y为目标变量
X_train, X_remain, y_train, y_remain = train_test_split(X, y, test_size=0.2, random_state=42)
# 将剩余部分再划分为验证集和测试集
X_val, X_test, y_val, y_test = train_test_split(X_remain, y_remain, test_size=0.5, random_state=42)
```
在上面的代码中,test_size参数设置为0.2表示将原始数据集划分成80%的训练集和20%的剩余部分。剩余部分中的数据再按照0.5的比例划分成验证集和测试集。random_state参数用于设置随机种子,保证每次划分的结果一致。
阅读全文