有一个六种类别的数据集,帮我写一个代码将这个数据集划分为训练集、验证集和测试集
时间: 2024-09-27 21:15:17 浏览: 23
为了将一个多类别数据集划分为训练集、验证集和测试集,通常我们会使用Python的`sklearn`库中的`train_test_split`函数。假设你的数据集是一个Pandas DataFrame,名为`df`,并且已经包含了特征和标签列。这里是一个简单的示例:
```python
from sklearn.model_selection import train_test_split
# 假设你的数据集中有两列,一列为特征(X),另一列为标签(y)
X = df.drop('目标列名', axis=1) # 将'目标列名'替换为你实际的目标变量
y = df['目标列名']
# 数据集划分的比例,如70%训练集,15%验证集,15%测试集
train_size, val_size, test_size = 0.7, 0.15, 0.15
random_state = 42 # 设置随机种子以保证结果可复现
# 划分数据集
X_train, X_val_test, y_train, y_val_test = train_test_split(X, y, test_size=val_size + test_size,
random_state=random_state)
X_val, X_test, y_val, y_test = train_test_split(X_val_test, y_val_test, test_size=test_size / (val_size + test_size),
random_state=random_state)
# 现在你有了以下四个数据集:
# X_train:训练集特征
# y_train:训练集标签
# X_val:验证集特征
# y_val:验证集标签
# X_test:测试集特征
# y_test:测试集标签
```
阅读全文