MeMViT：记忆增强视觉Transformer，革新长时间视频识别

110 浏览量更新于2024-06-20 收藏 760KB PDF 举报

"MeMViT：记忆增强的多尺度视觉Transformer，用于有效的长时间视频识别" 在当前的计算机视觉领域，视频识别系统通常受到计算和内存限制，无法有效地处理超过5秒的视频片段。针对这一问题，研究者们提出了MeMViT（Memory-augmented Multi-scale Vision Transformer）模型，这是一种创新的解决方案，旨在优化长时间视频识别，同时保持较低的计算成本。 MeMViT的核心理念是采用在线处理的方式，并引入“记忆”机制。不同于传统的视频处理方法，MeMViT并不一次性处理大量帧，而是逐步处理并缓存关键帧的信息作为“记忆”。这种记忆机制允许模型在后续的迭代中引用先前的上下文，从而实现长期的序列建模，而额外的计算开销微乎其微。与传统的长时间模型相比，MeMViT能够支持更长的时间跨度（增加了30倍），而计算量仅增加4.5%，而传统方法则需要增加3000%的计算量才能达到相同的效果。 MeMViT模型结构基于多尺度视觉Transformer，这种Transformer架构能有效地捕捉视频中的空间和时间信息。通过层次化地利用记忆，MeMViT能够在不显著增加资源需求的情况下，保持对视频内容的连续理解。图1对比了MeMViT与传统方法在处理时间延长和计算效率上的显著差异。实验结果显示，MeMViT在多个基准测试中表现出色，包括在AVA、EPIC-Kitchen-100的动作分类和动作预测数据集上取得了最先进的结果。这表明，MeMViT在处理长时间视频理解时具有更高的准确性。同时，MeMViT的代码和模型已公开，以便其他研究者和开发者可以进一步研究和应用。 MeMViT的出现为解决长期视频识别问题提供了新的思路，其高效的记忆增强策略为构建实际应用于长视频的视觉模型开辟了道路。这种方法不仅提高了模型的性能，还降低了计算复杂度，为未来的计算机视觉研究和应用奠定了坚实的基础。

13590

这允许线性层在较小的张量上操作，从而在不影响

精度的情况下降低计算成本有关此变更的消融研

究，请参见补充材料。在下一节中，我们将看到这

种变化如何使MeMViT更有效。

为了构建更长持续时间的视频模型，大多数最先

进的方法只是增加输入剪辑中的帧数[22，24，75]。

该策略显著增加了在下一节中，我们将介绍构建更

有效的长期视频模型的方法

MeMViT用于有效的长期建模

我们的方法很简单。我们把一段视频分割成一系

列的短T H W剪辑并顺序处理它们（用于训练和推

理）。连续迭代会看到连续的剪辑。我们缓存当在

时间步t处理当前剪辑时，模型可以访问来自早期迭

代t ′ t的先前缓存的<图2示出了概述。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

MeMViT：记忆增强视觉Transformer，革新长时间视频识别

视觉Transformer：开启视觉新纪元

放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN_RNN_TF）比较 - 知乎1

基于视觉Transformer的医学图像识别技术综述.docx

多尺度特征融合结合Transformer

transformer的长时间序列代码

能帮我将Swin Transformer: Hierarchical Vision Transformer using Shifted Windows这篇论文的模型讲清楚吗

transformer:应用于时间序列的transformer模型

多尺度swin transformer

pyramid vision transformer: a

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows精读

最新资源