Allocator (GPU_0_bfc) ran out of memory trying to allocate 3.90GiB with freed_by_count=0. The caller indicates that this is not a failure, but may mean that there could be performance gains if more memory were available.

时间: 2024-04-03 10:32:07 浏览: 220

memory_allocator-master.zip

内存分配器是操作系统和应用程序中不可或缺的部分，它们负责管理系统的内存资源，确保高效、可靠地分配和回收内存。本项目"memory_allocator-master"主要探讨了四种不同的内存分配器：ptmalloc3、dlmalloc、jemalloc和tcmalloc。以下是关于这些内存分配器的详细解析。 1. **ptmalloc3**： - ptmalloc3是Glibc中的默认内存分配器，它在早期的版本（如glibc 2.2）中被称为malloc。这个分配器设计的目标是提高多线程环境下的性能。 - 它使用了锁来保证线程安全，但这也可能导致在高并发情况下性能下降，因为线程需要等待获取锁。 - ptmalloc3引入了arena的概念，每个线程可以有自己的内存池，减少了锁的竞争，提高了并发性能。 2. **dlmalloc**： - dlmalloc是由Doug Lea开发的一种通用内存分配器，也广泛用于各种系统和库中。 - 它的特点在于动态增长的arena，以及使用大小分类来优化小块内存的分配，通过位图跟踪空闲块。 - dlmalloc支持大对象和小对象的分离存储，以减少碎片并提高效率。 - 虽然dlmalloc在单线程环境下表现出色，但在多线程环境下的性能可能不如专门设计的多线程分配器。 3. **jemalloc**： - jemalloc是由Jason Gedge为 FreeBSD 开发的内存分配器，后来被广泛应用于包括Chrome、Firefox和许多其他高性能应用中。 - jemalloc的核心特性是基于大小类的分配和精细化的线程缓存，这大大降低了锁竞争，提高了并发性能。 - 它使用了一种称为“arena”的机制，每个arena对应一个独立的内存区域，线程可以有自己的私有arena，进一步减少了锁的使用。 - jemalloc还特别关注内存碎片问题，采用了多种策略来减少内部和外部碎片。 4. **tcmalloc**（Thread-Caching Malloc）： - tcmalloc由Google开发，最初是作为PerfLib的一部分，后来被集成到gperftools中。 - 它的设计目标是最大化多线程环境下的性能，特别是在服务器和Web应用中。 - tcmalloc将内存分配分为多个级别，包括非常小的对象、小对象、大对象等，每个级别都有自己的分配策略。 - 最小对象的分配通过线程本地缓存进行，减少了锁的使用，提升了速度。 - tcmalloc还实现了内存对齐优化，以避免在处理结构体时产生额外的内存开销。通过对这些内存分配器的深入分析，我们可以了解它们的优缺点，以及在特定场景下如何选择合适的分配器。例如，在高并发的Web服务中，jemalloc和tcmalloc可能是更好的选择，因为它们在多线程环境下的性能更优。而在对内存碎片控制有严格要求的场合，jemalloc可能更有优势。而如果考虑兼容性和通用性，dlmalloc则是一个不错的选择。理解这些内存分配器的工作原理，有助于我们在开发高性能应用时做出明智的决策。

这个错误提示说明 GPU 内存不足，无法分配 3.90GB 的内存来完成某个操作。以下是一些解决方法： 1. 减小 batch_size 减小 batch_size 可以减少显存的占用，但会增加训练时间。可以逐渐调整 batch_size 的大小，找到一个合适的值。 2. 减少模型参数量可以通过减少神经网络层数、减少每层的神经元数、使用更少的卷积核等方法，减少模型参数量。 3. 使用更小的数据类型可以使用更小的数据类型，如 float16，来存储模型参数和激活值，从而减少显存占用。 4. 释放无用的显存在训练过程中，可能会出现一些无用的显存占用，可以通过调用 K.clear_session() 来释放这些显存。 5. 减少卷积核大小卷积核越大，需要的显存就越多。可以适当减小卷积核大小，从而减少显存占用。 6. 使用更大的 GPU 如果你有多个 GPU，可以考虑使用更大的 GPU 来完成训练任务。此时需要修改代码，使得模型能够在多个 GPU 上运行。 7. 使用分布式训练使用分布式训练可以将模型参数存储在多个 GPU 上，从而减少单个 GPU 的显存占用。

阅读全文

Allocator (GPU_0_bfc) ran out of memory trying to allocate 3.90GiB with freed_by_count=0. The caller indicates that this is not a failure, but may mean that there could be performance gains if more memory were available.

相关推荐

sram-alloc.rar_linux sram_memory_sram linux

register-allocator-arm.rar_驱动编程_Unix_Linux_

2023-06-09 14:39:18.552419: E tensorflow/core/common_runtime/gpu/gpu_cudamallocasync_allocator.cc:288] gpu_async_0 cuMemAllocAsync failed to allocate 805306368 bytes: CUDA error: out of memory (CUDA_ERROR_OUT_OF_MEMORY) Reported by CUDA: Free memory/Total memory: 0/12884377600

OOM when allocating tensor with shape[352,34,176] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:Pad]

ResourceExhaustedError: OOM when allocating tensor with shape[32,32,128,128] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc

ResourceExhaustedError: OOM when allocating tensor with shape[2,1536,1536] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:Fill]

翻译 OOM when allocating tensor with shape[60000,32,28,28] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc [Op:Conv2D]

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

最新推荐

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

(177406840)JAVA图书管理系统毕业设计(源代码+论文).rar

(35734838)信号与系统实验一实验报告

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析