torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.20 GiB (GPU 0; 8.00 GiB total capacity; 5.88 GiB already allocated; 89.00 MiB free; 6.29 GiB reserved in total by PyTorch) If reserved memory is >> allocated memor y try setting max_split_size_mb to avoid fragmentation. 什么意思

时间: 2023-11-06 20:45:09 浏览: 271

解决Pytorch 训练与测试时爆显存(out of memory)的问题

3星 · 编辑精心推荐

在使用PyTorch进行深度学习模型的训练和测试过程中，可能会遇到“显存溢出”（Out of Memory，OOM）的问题。这个问题通常是由于GPU内存不足以存储所有计算所需的张量而导致的。以下是一些解决PyTorch训练与测试时显存溢出问题的方法。当训练过程中出现OOM错误，可以尝试使用`torch.cuda.empty_cache()`函数来清理GPU缓存。这个函数会释放当前不再使用的CUDA张量，从而回收一部分显存。在训练循环中捕获`RuntimeError`异常，并检查异常信息是否包含"out of memory"，如果包含则执行`empty_cache()`。例如： ```python try: output = model(input) except RuntimeError as exception: if "out of memory" in str(exception): print("WARNING: out of memory") if hasattr(torch.cuda, 'empty_cache'): torch.cuda.empty_cache() else: raise exception ``` 测试阶段的显存溢出可能是由于在不需要梯度的情况下仍然保留了梯度计算。在PyTorch中，使用`torch.no_grad()`上下文管理器可以关闭自动梯度计算，从而节省显存。例如： ```python with torch.no_grad(): for ii, (inputs, filelist) in tqdm(enumerate(test_loader), desc='predict'): if opt.use_gpu: inputs = inputs.cuda() if len(inputs.shape) < 4: inputs = inputs.unsqueeze(1) else: if len(inputs.shape) < 4: inputs = torch.transpose(inputs, 1, 2) inputs = inputs.unsqueeze(1) ``` 此外，还有一些其他策略可以帮助缓解显存压力： 1. **批次大小调整**：减小批量大小是最直接的解决方案，它会减少每个步骤中需要处理的数据量，从而降低对显存的需求。 2. **梯度累积**：如果模型对大批次数据的处理能力有限，可以使用梯度累积技术。即在一定步数内不更新权重，积累这些步数的梯度，然后一次性更新权重。这样可以模拟使用大批次的效果，同时降低每个步骤的显存消耗。 3. **模型优化**：检查并优化模型结构，去除不必要的层或减少层的参数数量，也可以使用更轻量级的模型架构，如MobileNet、EfficientNet等。 4. **数据预处理**：在加载数据前进行预处理，比如减去均值、归一化等，可以减小张量的大小，从而降低显存需求。 5. **使用混合精度训练**：PyTorch提供了`apex`库中的`fp16`模块，可以将训练过程从32位浮点精度降为16位，显著减少显存占用。 6. **动态批大小**：根据GPU可用显存动态调整批次大小，可以使用第三方库如`torch.utils.data.distributed.DistributedSampler`或自定义逻辑实现。 7. **模型分片**：对于非常大的模型，可以考虑将模型拆分为多个部分，分别在GPU上训练，然后组合结果。 8. **使用CPU训练**：虽然CPU的计算速度可能较慢，但在显存有限的情况下，可以考虑用CPU代替GPU进行训练。以上这些方法可以根据实际情况灵活应用，结合使用，以解决PyTorch训练和测试过程中的显存溢出问题。需要注意的是，优化过程中要保持模型的训练效果不受影响，确保模型的泛化能力。

这个错误是由于在使用PyTorch时，尝试分配1.20 GiB的内存时，CUDA显存已经用完导致的。错误信息中提到，GPU 0的总容量为8.00 GiB，已经分配了5.88 GiB的内存，剩余89.00 MiB的空闲内存，而总共有6.29 GiB的内存被PyTorch保留。建议你尝试设置max_split_size_mb参数来避免内存碎片化。这个参数可以在PyTorch中进行设置，通过设置较小的值，可以减小内存碎片化的可能性，从而更好地利用显存。例如，你可以尝试在代码中添加如下一行来设置max_split_size_mb参数的值： torch.backends.cuda.max_split_size_mb = 1024 这样，你可以将max_split_size_mb的值设置为1024 MB，然后重新运行程序，看看是否能够避免这个错误。

阅读全文

相关推荐

Pytorch GPU显存充足却显示out of memory的解决方式

遭遇OutOfMemoryError

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 4.56 GiB (GPU 0; 24.00 GiB total capacity; 15.26 GiB already allocated;

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 2.34 GiB. GPU

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 4.87 GiB (GPU 0; 9

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.50 GiB (GPU 0; 6.00 GiB total capacity; 4.36 GiB already allocated; 0 bytes free; 4.46 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_s

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 2.00 GiB total capacity; 1.67 GiB a

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 14.00 MiB (GPU 0; 4.00 GiB total capacity; 3.21 G

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 12.00 MiB (GPU 0; 1.96 GiB total ...

OutOfMemoryErrorOutOfMemoryError

pytorch模型提示超出内存RuntimeError: CUDA out of memory.

Python项目-自动办公-56 Word_docx_格式套用.zip

《松鼠》生态性课堂体验教案.docx

Java系统源码+智慧图书管理系统

基于ssm+jsp实现的超市管理系统高级版v2-lw.zip

《松鼠》教学方案.docx

基于ssm的计算机课程实验管理系统源代码（完整前后端+mysql+说明文档+LW）.zip

毕业设计-0-1背包问题动态规划模型Python代码.rar

基于ssm的大创项目申报管理系统源代码（完整前后端+mysql+说明文档+LW）.zip

最新推荐

Python项目-自动办公-56 Word_docx_格式套用.zip

《松鼠》生态性课堂体验教案.docx

Java系统源码+智慧图书管理系统

基于ssm+jsp实现的超市管理系统高级版v2-lw.zip

《松鼠》教学方案.docx

深入了解Django框架：Python中的网站开发利器

管理建模和仿真的文件

Thermo-calc中文版：预测材料热膨胀行为的精确科学

5.1输出一个整数的逆序数

Spring Boot集成框架示例：深入理解与实践