XMem：长视频对象分割的Atkinson-Shiffrin记忆模型架构

PDF格式 | 6.23MB | 更新于2024-06-19 | 192 浏览量 | 举报

"XMem是基于Atkinson-Shiffrin记忆模型的视频对象分割架构，旨在解决长视频处理中的内存消耗和准确性问题。该架构引入了多层次的特征记忆存储，包括快速更新的感觉记忆、高分辨率的工作记忆和紧凑的长期记忆。通过记忆潜能算法，XMem有效地整合工作记忆元素到长期记忆，防止记忆爆炸并保持长期预测的性能。在长视频数据集上，XMem表现出超越现有先进方法的性能，同时在处理短视频时也具备良好的适应性。" XMem的核心在于它借鉴了心理学中的Atkinson-Shiffrin模型，这是一个经典的多存储模型，它将记忆分为感觉记忆、工作记忆和长期记忆三个阶段。在视频对象分割任务中，这种分层记忆模型被用来高效地处理视频序列中的对象信息。首先，感觉记忆是短暂的，用于快速捕获和更新每一帧的新特征。它提供了对最新信息的即时访问，但存储容量有限。其次，工作记忆具有较高的分辨率，用于存储和处理当前关键的视觉信息，例如对象的精确轮廓和运动轨迹。工作记忆在处理复杂的场景变化和遮挡时起着关键作用。最后，长期记忆则是一个更持久且紧凑的存储，用于保存经过时间的、重要的信息，如对象的全局特征和长期运动模式。为了在长视频中维持高效和准确的分割，XMem引入了一种记忆潜能算法。这种算法能够识别和整合那些频繁被引用的工作记忆元素，将它们转移到长期记忆中。这样做不仅减少了工作记忆的负担，防止了内存占用过大，而且有助于保持长期预测的准确性，因为长期记忆中的信息更稳定，不易受到短期噪声的影响。此外，XMem还设计了一种新的内存读取机制，这使得模型能够根据当前上下文智能地从不同层次的记忆中检索信息。这在处理长视频时特别重要，因为视频中的对象可能会经历各种复杂的变化，如遮挡、光照变化和相似背景的干扰。与传统的在线学习方法相比，XMem不依赖于训练时的网络权重更新，从而实现了更快的预测速度。而与递归方法相比，XMem通过多层次记忆系统减少了信息漂移和封闭问题的风险。在DAVIS2017等长视频数据集上的实验结果显示，XMem在性能上超越了现有的先进方法，同时在短视频数据集上也能展现出竞争力，证明了其对不同视频长度的适应性。 XMem是一个创新的视频对象分割框架，它利用人类记忆模型来优化特征存储和信息传播，为长视频分割提供了有效且高效的解决方案。通过集成和管理不同层次的记忆，XMem有望推动视频理解技术在实时和在线应用中的进一步发展。

+v：mala2255获取更多论

文

∈

香港

Cheng

和

A.G.Schwing

(a)

相似性（

）有收缩

（

）两者都

（查询

）

（

）两者都

有（问题

）

见图4。2D中相似性函数的可视化，背景颜色显示每个记忆元素（RGB）的影响L2相似

性（a）[9]统一考虑所有收缩项（b）允许编码元素级置信度（通过点的大小可视化），

该置信度说明影响区域和锐度的混合重量。选择项允许对存储器的查询特定的解释(b)

可以看作是选择项是各向同性的情况。当结合时，我们可以模拟更复杂的相似关系。

相似性矩阵我们注意到STCN [9]中提出的L2相似性比点积[36]更稳

定，但表达性较差，例如，它不能对存储器元件的置信度进行为了克

服这一点，我们提出了一个新的相似性函数（

各向异性

），通过

引入两个新的尺度项，打破了关键字和查询之间的对称性图4显示了

它们的效果。

具体地，密钥与收缩项s

∈

，

∞）

相关联，

查询与选择项e[0

，

C×HW

相关联。然后，通过下式计算第

个关键元

素和第

个查询元素之间的相似度：

S（k

，

q）

−

（k

−

）

，

（2）

如果对于所有

，

，s

= 1，则其等于原始L2相似性[9]，并且

C.收缩项s直接缩放相似性并显式编码置信度请注意，如果查询恰好与

低置信度密钥一致，则即使是低置信度密钥也可以具有高贡献因此，选

择项 E控制每个通道在键空间中的相对重要性，从而将注意力给予更

有区别性的通道。

选择项e与查询q一起由查询编码器生成。收缩项s与关键

字

k和工

作记忆和长期记忆中的v

、收藏简单

在最后一个维度中实现为级联：k

和v

，其中上标“w”

和“lt”分别表示工作记忆和长期记忆。工作记忆由密钥

∈

RC×THW

和值组

成 v

∈

THW

，其中T是工作记忆帧数。长期记忆同样由键k

∈

和

值v

∈

组成

，

]

为了简洁起见，我们在本文的其余部分省略了内存更新中这两个缩放项的处理。

它们以与值相同的方式更新

剩余27页未读，继续阅读

cpongm

粉丝: 6

XMem：长视频对象分割的Atkinson-Shiffrin记忆模型架构

Atkinson超清晰字体：弱视读者的最佳选择

Go语言实现阿特金森抖动算法原理及应用

掌握基本数值分析，深入理解K. Atkinson和W. Han经典讲义

如何在长视频对象分割中应用Atkinson-Shiffrin记忆模型以解决内存和准确性挑战？请结合《XMem：长视频对象分割的Atkinson-Shiffrin记忆模型架构》进行解答。

如何结合Atkinson-Shiffrin模型，在视频对象分割中提高长视频处理的效率与准确性？

在视频对象分割中，如何利用Atkinson-Shiffrin模型优化处理长视频时的内存消耗和准确性问题？

Networkers2009：BRKVID-1001 - Introduction to Digital Media Systems

dithering:Floyd-Steinberg处理中的抖动

atkinson-hyperlegible

plumbing-atkinson-server:一个简单的基于 Flask 的 HTTP pony 服务器来抖动图像

最新资源