将数据集分为训练集,验证集,测试集代码
时间: 2024-06-22 17:04:11 浏览: 113
路面锥桶数据集,训练集1652、验证集214、测试集229
在Python中,特别是在使用深度学习库如TensorFlow或PyTorch时,将数据集划分为训练集、验证集和测试集是一个常见的步骤,这有助于模型的训练、调优和评估。这里是一个基本的例子,使用`sklearn`库中的`train_test_split`函数:
```python
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris # 假设你有一个名为iris的数据集
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 将数据集划分为训练集(80%)、验证集(10%)和测试集(10%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 80%用于训练
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42) # 10%用于验证,剩下的10%用于测试
# 或者一次性划分
X_train, X_val_test, y_train, y_val_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_val_test, y_val_test, test_size=0.5, random_state=42)
# 确保验证集和测试集都有标签
assert len(X_val) == len(y_val) and len(X_test) == len(y_test)
```
阅读全文