dataloader速度慢
时间: 2023-10-03 21:01:52 浏览: 52
Dataloader的速度慢可能有几个原因。首先,如果数据加载到内存中时启用了pin_memory,并且设置了多个worker来读取数据,但速度仍然没有提升,那可能是因为数据加载的瓶颈在于IO操作,而不是数据加载过程本身。
如果数据增强是瓶颈,你可以尝试使用dali库来进行数据增强,但需要改造dataloader的代码。另外,你也可以考虑离线数据增强,但这可能会影响算法调试的灵活性。如果IO是问题,你可以尝试使用多线程来加速读取,如果还是不够快,可以考虑更换nvme硬盘。
此外,读写速度的上限与IOPS(每秒输入/输出操作数)有关,而IOPS又与硬盘有关。比如,阿里云的普通SSD在一秒钟内最多能读取300-400M的数据。如果加载速度慢,你可以尝试先将数据读取出来,然后再进行转换处理。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [解决pytorch中Dataloader读取数据太慢的问题](https://blog.csdn.net/Twilightzsj/article/details/123941780)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [使用pytorch时,训练集数据太多达到上千万张,Dataloader加载很慢怎么办?](https://blog.csdn.net/woshicver/article/details/115878729)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]