首页数据划分为训练集验证集和测试集的代码

数据划分为训练集验证集和测试集的代码

时间: 2023-09-06 13:07:18 浏览: 90

数据划分通常可以使用sklearn库的train_test_split方法来实现。具体代码如下： ```python from sklearn.model_selection import train_test_split # 定义数据集 X = data # 特征数据 y = labels # 标签数据 # 划分训练集、验证集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5, random_state=42) # 输出划分后各数据集的大小 print("训练集大小：{}, 验证集大小：{}, 测试集大小：{}".format(len(X_train), len(X_val), len(X_test))) ``` 其中，train_test_split方法的参数解释如下： - X：特征数据； - y：标签数据； - test_size：测试集占比，默认为0.25； - random_state：随机种子，保证每次划分的结果相同。上述代码中，首先将整个数据集划分为训练集和测试集，其中测试集占总数据集的30%。然后，将测试集再划分为验证集和测试集，其中验证集和测试集各占测试集的50%。最后，输出各数据集的大小。

阅读全文