DataLoader参数
时间: 2023-11-09 19:49:14 浏览: 83
Pytorch技巧:DataLoader的collate_fn参数使用详解
Dataloader是一个迭代器对象,它用于从数据集中加载数据。你可以使用Dataset作为参数来构建一个Dataloader对象。Dataloader还有一些其他参数,可以根据需要进行设置。其中,batch_size参数决定了每个batch中的样本数量。在迭代的过程中,Dataloader会自动调用Dataset中的__getitem__函数来获取每个样本。
下面是Dataloader的参数汇总:
1. dataset(Dataset) - 要加载数据的数据集
2. batch_size(int, optional) - 每个batch中的样本数量,默认为1
3. shuffle(bool, optional) - 是否对数据进行洗牌,默认为False
4. sampler(Sampler, optional) - 定义从数据集中提取样本的策略
5. batch_sampler(Sampler, optional) - 定义从数据集中提取batch的策略
6. num_workers(int, optional) - 用于数据加载的子进程数量,默认为0
7. collate_fn(callable, optional) - 定义如何将样本列表转换为一个batch的数据
8. pin_memory(bool, optional) - 是否将数据存储在锁页内存中,默认为False
9. drop_last(bool, optional) - 如果数据集的大小不能被batch_size整除,是否丢弃最后一批数据,默认为False
10. timeout(numeric, optional) - 数据加载超时时间,默认为0
11. worker_init_fn(callable, optional) - 每个worker在加载数据时执行的初始化函数
阅读全文