首页pytorch划分训练集

pytorch划分训练集

时间: 2023-08-09 22:07:23 浏览: 140

训练集验证集和测试集的划分-windows10安装ubuntu20.04双系统详细图文教程

1.2 训练集、验证集和测试集的划分上一小节，把 cifar-10 的测试集转换成了 png 图片，充当实验的原始数据。本小节，将把原始数据按 8:1:1 的比例划分为训练集(train set)、验证集(valid/dev set)和测试集(test set)。关于训练集、验证集和测试集的作用，可阅读博客： https://blog.csdn.net/u011995719/article/details/77451213 运行 Code/1_data_prepare/1_2_split_dataset.py，将会获得以下三个文件夹/Data/train/ /Data/valid/ /Data/test/ 数据划分完毕，下一步是制作存放有图片路径及其标签的 txt，PyTorch 依据该 txt 上的信息进行寻找图片，并读取图片数据和标签数据。 1.3 让 PyTorch 能读你的数据集上一小节中，将源数据(10000 张图片)划分为训练集、验证集和测试集，接下来就要让 PyTorch 能读取这批数据。想让 PyTorch 能读取我们自己的数据，首先要了解 pytroch 读取图片的机制和流程，然后按流程编写代码。 Dataset 类 PyTorch 读取图片，主要是通过 Dataset 类，所以先简单了解一下 Dataset 类。Dataset 类作为所有的 datasets 的基类存在，所有的 datasets 都需要继承它，类似于 C++中的虚基类。源码如下：

对于PyTorch来说，可以使用`torch.utils.data.random_split`函数来划分训练集。假设你有一个名为`dataset`的数据集，你可以使用以下代码将其划分为训练集和验证集： ```python from torch.utils.data import random_split # 假设有1000个样本 dataset_size = len(dataset) train_size = int(0.8 * dataset_size) # 训练集占80% # 划分训练集和验证集 train_dataset, val_dataset = random_split(dataset, [train_size, dataset_size - train_size]) ``` 在上面的代码中，我们假设数据集有1000个样本，我们将80%的数据作为训练集，剩下的20%作为验证集。`random_split`函数接收两个参数，第一个参数是要划分的数据集，第二个参数是一个整数列表，表示每个子数据集的大小。在这里，我们将训练集的大小设置为`train_size`，验证集的大小就是总样本数减去训练集的大小。现在你可以使用`train_dataset`和`val_dataset`来分别训练和验证你的模型了。

阅读全文