用python代码将一组自然语言的数据集按照8:1:1的比例划分为训练验证测试集
时间: 2023-03-27 13:04:49 浏览: 90
python 划分数据集为训练集和测试集的方法
可以使用sklearn库中的train_test_split函数来实现数据集的划分。具体代码如下:
```python
from sklearn.model_selection import train_test_split
# 假设数据集已经读入并存储在X和y中
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=.125, random_state=42)
```
其中,test_size参数指定了测试集的比例,random_state参数用于控制随机种子,保证每次划分的结果一致。最终,X_train、y_train、X_val、y_val、X_test、y_test分别表示训练集、验证集和测试集的特征和标签。
阅读全文