没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文XMem:基于Atkinson-Shiffrin记忆模型的何基成和亚历山大G.Schwing伊利诺伊大学香槟分校{hokeikc2,aschwing} @ illinois.edu帧0(输入)第460帧第1285帧第2327抽象的。我们提出了XMem,视频对象分割架构的长视频与统一的功能内存存储的灵感来自阿特金森-Shiffrin内存模型。先前的视频对象分割工作通常只使用一种类型的特征记忆。对于超过一分钟的视频,单个特征记忆模型将内存消耗和准确性紧密联系起来。相比之下,遵循Atkinson-Shiffrin模型,我们开发了一种架构,该架构包含多个独立但深度连接的特征记忆存储:快速更新的感觉记忆,高分辨率的工作记忆和紧凑的长期记忆。至关重要的是,我们开发了一种记忆潜能算法,该算法定期将积极使用的工作记忆元素整合到长期记忆中,从而避免记忆爆炸并最大限度地减少长期预测的性能衰减。结合新的内存读取机制,XMem大大超过了长视频数据集上的最先进性能,同时与短视频数据集上的最先进方法(不适用于长视频)11介绍视频对象分割(VOS)突出显示给定视频中的指定目标对象。在这里,我们专注于半监督设置,其中第一帧注释由用户提供,并且该方法尽可能准确地分割所有其他帧中的对象,同时优选地实时、在线运行,并且即使在处理长视频时也具有小的内存占用由于信息必须从给定的注释传播到其他视频帧,因此大多数VOS方法采用特征存储器来存储对象的相关深网表示。在线学习方法[3,49,42]使用网络的权重作为其特征记忆。这需要在测试时进行训练,这会减慢预测速度。递归方法通常通过掩码[39]或隐藏表示[20,47]从最近的帧传播信息。这些方法易于漂移并与闭塞作斗争1代码可在hkchengrex.github.io/XMem获得arXiv:2207.07115v2 [cs.CV] 2022年7+v:mala2255获取更多论文XMem(我们STCNHMMNAOT联合CFBI+CFBIRMNetMiVOSSTMAFU-BRRDAVIS 2017JFDAVIS 2017JF2H.K. Cheng和A.G.Schwing88 8886 8684 8482 8280 8078 78760 50 100 1502009009507650 55 60 65 70737375 80 85 90GPU内存每秒增加(MB/s)长时间视频(3×)数据集JFFig. 1. 最先进的VOS算法扩展性好吗?左:相对于短期分割质量的内存缩放。右:从标准短视频(y轴)到长视频(x轴)的分割质量缩放-虚线表示1:1的性能比。误差条显示内存采样中的标准偏差(如果适用)。详情见第4.1最近的最先进的VOS方法使用注意力[36,18,54,9,60]将存储在特征存储器中的过去帧的表示与从需要分割的新观察到的查询帧中提取的特征相尽管这些方法的性能很高,但它们需要大量的GPU内存来存储过去的帧表示。在实践中,他们通常很难在消费级硬件上处理超过一分钟的视频。存在专门为长视频中的VOS设计的方法[29,27]。然而,他们往往牺牲分割质量。具体来说,这些方法通过将新特征与那些已经存储在特征存储器中的特征合并来在特征存储器插入期间减小表示的大小由于高分辨率特征被立即压缩,它们产生的分割精度较低。图1显示了短/长视频数据集中GPU内存消耗与分割质量之间的关系(详情请参见第4.1节)。我们认为这种性能和GPU内存消耗之间的不良联系是使用单一功能内存类型的直接后果。为了解决这个限制,我们提出了一个统一的内存架构,称为XMem。受到阿特金森-希夫林记忆模型[ 1 ]的启发在XMem中,感觉记忆对应于GRU的隐藏表示[11],它每帧更新一次。它提供了时间平滑性,但由于表示漂移而无法进行长期预测。作为补充,工作记忆是从历史框架的子集中聚集起来的,并平等地考虑它们,而不会随着时间的推移而漂移。为了控制工作记忆的大小,XMem通常会将其表征巩固到长期记忆中,这是受到人类记忆中巩固机制的启发[46]。XMem将长期记忆存储为一组高度紧凑的原型。为此,我们开发了一种记忆增强算法,将更丰富的信息聚合到这些原型中,以防止由于子采样而导致的混叠。到从工作记忆和长期记忆中读取,我们设计了一个时空记忆,XMem(我们STCNRMNetHMMNAOT联合CFBI+MiVOSCFBISTMAFU-BRR+v:mala2255获取更多论文长期视频对象分割3阅读操作这三种功能内存存储相结合,可以高精度地处理长视频,同时保持较低的GPU内存使用率。我们发现XMem大大超过了长时间视频数据集上的现有最先进的结果[29]。重要的是,XMem在短视频数据集上也与当前最先进的技术(无法处理长视频)相当[41,57]。总的来说:– 我们设计了XMem。受Atkinson-Shiffrin记忆模型[ 1 ]的启发,我们引入了具有不同时间尺度的记忆存储,并为它们配备了存储器读取操作,用于长视频和短视频上的– 我们开发了一种记忆巩固算法,从工作记忆中选择有代表性的原型,和一种记忆增强算法,丰富这些原型成为一个紧凑而强大的长期记忆存储的表示。2相关作品一般VOS方法。大多数VOS方法采用特征存储器来存储在第一帧中给出的信息并对任何新帧进行分段。在线学习方法在测试时训练或微调其网络,因此通常推理缓慢[3,49,32]。最近的改进更有效[34,42,37,2],但它们仍然需要敏感的在线适应并且当更多的训练数据可用时,增益递减。相比之下,基于跟踪的方法[39,52,10,22,5,35,63,19,47,20,56]执行帧到帧的传播,因此在测试时是有效的。然而,他们缺乏长期的背景,往往失去跟踪后,对象闭塞。虽然一些方法[48,59,53,23,26,6]还包括用于全局匹配的第一参考帧,但上下文仍然有限,并且随着视频的进行,匹配变得更加困难。为了解决上下文限制,最近的最先进的方法使用更多过去的帧作为特征记忆[36,13,64,21,28,58,16]。特别是,时空记忆(STM)[36]很受欢迎,并已被许多后续工作[43,8,18,54,50,31,9,44,33]扩展。在这些扩展中,我们使用STCN [9]作为我们的工作记忆骨干,因为它简单有效。然而,由于不断扩展的特征内存库,大多数变体无法处理长视频的STM。AOT [60]是最近的一项工作,它将注意力机制扩展到变压器,但没有解决GPU内存爆炸问题。一些方法[33,14]采用局部特征记忆窗口,无法考虑该窗口之外的长期上下文。相比之下,XMem使用多个存储库来捕获不同的时间上下文,同时由于我们的长期内存和整合而严格限制专门处理长视频的方法Liang等人 [29]提出AFB-URR,其选择性地使用指数移动平均来将给定的存储器元件与现有的存储器元件合并(如果它们接近的话),或者将其作为新元素添加。当特征记忆达到预定义的限制时,采用基于最不频繁使用的机制来移除未使用的特征Li等人[27]提出全球背景模块。它平均了所有过去的记忆+v:mala2255获取更多论文4香港Cheng和A.G.Schwing感觉记忆通路初始化短期记忆路径长期记忆路径条件更新初始化初始化为空每隔1/2帧内存已满时进行内存整合长期记忆(Sec.(第3.3段)忘记过时的功能图二. XMem概述。存储器读取操作从所有三个存储器存储中提取相关特征,并使用这些特征来产生掩码。为了整合新的记忆,感觉记忆每帧更新一次,而工作记忆每第r帧更新一次。当工作记忆被填满时,它以紧凑的形式被巩固到长期记忆中,并且长期记忆会随着时间的推移而忘记过时的特征。转换为单个表示,因此GPU内存随时间的增加为零。然而,这两种方法都急切地将新的高分辨率特征存储器压缩到紧凑的表示中,从而牺牲了分割精度。我们的多存储特征记忆避免了急于压缩,并在短期和长期预测中实现了更高的准确性3XMem3.1概述图2提供了XMem的概述。为了可读性,我们考虑单个目标对象。但是,请注意,XMem是为了处理多个对象而实现的,这很简单。给定第一帧的图像和目标对象掩码(图2的左上角),XMem跟踪对象并为后续查询帧生成相应的掩码。为此,我们首先使用输入初始化不同的特征存储器对于每个后续查询帧,我们分别从长期记忆(第3.3节)、工作记忆(第3.4节)和感觉记忆(第3.5节)中进行记忆读取(第3.2节)读出特征用于生成分割掩模。然后,我们以不同的频率更新每个特征记忆库我们每帧更新一次感觉记忆,每第r帧将特征插入工作记忆。当工作记忆达到预定义的最大T帧时,我们将工作记忆中的特征以高度紧凑的形式整合到长期记忆当长期内存也已满时(仅在处理数千帧后发生),我们丢弃过时的功能以限制最大GPU内存使用量。这些功能内存存储协同工作,即使对于非常长的视频,也能以较低的GPU内存使用率提供高质量的功能。工作记忆(Sec. (3.4)内存读取(秒(3.2)内存读取(秒(3.2)内存读取(秒(3.2)感 官 记忆 ( 第3.5节)+v:mala2255获取更多论文3 ×���0 ×���0������联系我们查询跳过连接���×���������0×���0���v×��� ×���每隔1/2帧���联系工作记忆键长期记忆键深度更新值编码器⊕存储键副本工作长期新记忆键记忆值⊕存储器值���v×添加到工作记忆新内存值读出功能亲和力感觉记忆������−1×∈∈∈长期视频对象分割5���h×��� ×���串联图三. 单个查询帧的内存读取和掩码解码过程。我们从图像中提取查询q,并从工作/长期记忆中执行基于注意力的记忆读取,以获得特征F。与感官记忆一起,它被输入解码器以生成掩码。对于每第r帧,我们将新的特征存储到工作记忆中,并对感觉记忆进行深度更新XMem由三个端到端的可训练卷积网络组成,如图3所示:查询编码器,提取查询特定的图像特征,解码器,获取内存读取步骤的输出以生成对象掩码,以及值编码器,其将所述图像与所述对象掩模组合以提取新的存储器特征。有关这些网络的详细信息,请参见第3.6节。在下文中,我们将首先描述存储器读取操作,然后详细讨论每个特征存储器存储。3.2存储器读取图3示出了针对单个帧的存储器读取和掩码生成的过程。通过解码器计算掩码,解码器使用短时感觉记忆ht−1 ∈RCh×H×W和特征F∈RCv×H×W表示存储在长期记忆和工作记忆中的信息经由读出操作计算表示存储在长期存储器和工作存储器两者中的信息的特征FF = vW(k,q).(一)给你kRCk×N和vRCv×N是Ck维和Cv维的键和值对于存储在长期存储器和工作存储器两者中的总共N个存储器元件。此外,W(k,q)是大小为N HW的亲和矩阵,表示由密钥k和查询控制的读出操作通过查询编码器从查询帧获得的qRCk×HW。读出操作将每个查询元素映射到所有N个存储器元素上的分布,并相应地聚合它们的值v。亲和矩阵W(k,q)通过对包含每个关键元素和每个查询元素之间的成对相似性的相似矩阵S(k,q)的维数(行)应用softmax来获得用于计算解码器查询编码器+v:mala2255获取更多论文∈ΣKKvKV6香港Cheng和A.G.Schwing(a) L2相似性(b)有收缩(c)两者都(查询1)(d)两者都有(问题2)见图4。2D中相似性函数的可视化,背景颜色显示每个记忆元素(RGB)的影响L2相似性(a)[9]统一考虑所有收缩项(b)允许编码元素级置信度(通过点的大小可视化),该置信度说明影响区域和锐度的混合重量。选择项允许对存储器的查询特定的解释(b)可以看作是选择项是各向同性的情况。当结合时,我们可以模拟更复杂的相似关系。相似性矩阵我们注意到STCN [9]中提出的L2相似性比点积[36]更稳定,但表达性较差,例如,它不能对存储器元件的置信度进行为了克服这一点,我们提出了一个新的相似性函数(各向异性L2),通过引入两个新的尺度项,打破了关键字和查询之间的对称性图4显示了它们的效果。具体地,密钥与收缩项s∈[1,∞)N相关联,查询与选择项e[0, 1]C×HW相关联。然后,通过下式计算第i个关键元素和第j个查询元素之间的相似度:CkS(k,q)ij=−siecj(kci−qcj)2,(2)C如果对于所有i,j,si=ecj= 1,则其等于原始L2相似性[9],并且C.收缩项s直接缩放相似性并显式编码置信度请注意,如果查询恰好与低置信度密钥一致,则即使是低置信度密钥也可以具有高贡献因此,选择项E控制每个通道在键空间中的相对重要性,从而将注意力给予更有区别性的通道。选择项e与查询q一起由查询编码器生成。收缩项s与关键字k和工作记忆和长期记忆中的v2、收藏简单在最后一个维度中实现为级联:k=kwklt和v=vw<$vlt,其中上标“w”和“lt”分别表示工作记忆和长期记忆。工作记忆由密钥kw∈RC×THW和值组成vw∈RC×THW,其中T是工作记忆帧数。长期记忆同样由键klt∈ RC ×L和值vlt∈ RC ×L组成,[2]为了简洁起见,我们在本文的其余部分省略了内存更新中这两个缩放项的处理。它们以与值相同的方式更新+v:mala2255获取更多论文−⊂⊂⊂⊂长期视频对象分割7特征提取原型选择增强图五. 记忆巩固程序。给定一个图像,我们提取特征作为关键字(图像步幅被夸大)。我们用颜色将这些特征可视化。为了进行分类合并,我们首先从候选项(所有网格)中选择原型键(星形)。然后,我们调用增强,它非局部地聚合来自所有候选数据的值,以生成更具代表性的原型值(黄金轮廓)。生成的原型键和值被添加到长期内存中。这里只显示了一个框架-实际上,在单个合并中使用了多个其中L是长期记忆原型的数量因此,工作/长期记忆中的元素总数为N=THW+L。接下来,我们详细讨论特征记忆存储。3.3长期记忆动机长期记忆对于处理长视频至关重要。为了存储一组紧凑(消耗很少的GPU内存)但具有代表性(导致高分割质量)的内存特征,我们设计了一个内存整合过程,该过程从工作内存中选择原型并使用内存增强算法对其进行丰富,如图5所示。当工作记忆达到预定义的大小Tmax时,我们执行记忆巩固。 第一帧(用户提供的地面实况)和最新的Tmin-1内存帧将被保存在工作内存中,高分辨率缓冲器,而其余的(T_max_T_min帧)是用于被转换成长期存储器表示的候选者。我们把钥匙并且这些候选的值分别为kckw和vcvw 在下文中,我们描述了挑选原型键kpkc的紧凑集合的原型选择过程,以及生成与这些原型键相关联的丰富原型值vp的记忆增强算法。最后,这些原型键和值被附加到长期存储器klt和vlt。原型选择。在这个步骤中,我们从候选者中抽取一个小的代表性子集kpkc作为原型。只选择少量的原型是很重要的,因为它们的数量与最终的长期记忆的大小成正比。受人类记忆的启发,将经常访问或研究的模式移动到长期存储中,我们选择使用率高的候选者。具体地说,我们选取了最常用的候选项作为原型. 存储器元件的“使用”由其在亲和矩阵W中的累积总亲和性(概率质量)定义(等式1)。(1)),并通过每个候选人在工作记忆中的持续时间进行请注意,增加长期记忆+v:mala2255获取更多论文香港8号Cheng和A.G.Schwingcandidate至少为r·(Tmin−1),从而得到稳定的使用统计数据。我们得到这些原型的密钥为kp∈RCk×P.记忆增强。请注意,到目前为止,我们从候选密钥kc中对原型密钥kp的采样是稀疏和离散的。如果我们取样 原型以相同的方式值VP,则所得到的原型将不可避免地不充分表示其它候选,并且将倾向于混叠。 防止混叠的常用技术是应用抗混叠(例如, 高斯)滤波器[15]。出于同样的动机,我们执行过滤并将更多信息聚合到每个采样原型中。虽然可以在图像平面(2D)或时空体积(3D)上容易地执行标准滤波,但是它导致模糊的特征为了缓解,我们反而构建了在高维(Ck)密钥空间中的过滤的邻域,使得利用由密钥kp和kc由于无论如何都必须计算和存储这些键以进行内存读取,因此在运行时间和内存消耗方面也是经济的。具体地,对于每个原型,我们通过加权平均来聚合来自所有值candidatesvc的值权重是使用softmax在关键相似性上计算为此,我们方便地重复使用Eq。(二)、通过用候选关键字kc代替记忆关键字k,用原型关键字kp代替查询q,我们得到相似性矩阵S(kc,kp)。和前面一样,我们使用softmax来获得亲和矩阵W(kc,kp)(其中每个原型对应于候选者的分布)。然后,我们通过下式计算原型值vp:vp= vcW(kc,kp).(三)最后,将kp和vp分别附加到长期记忆klt和vlt上,从而注意,类似的原型近似已用于变压器[55,38]。因此,我们的方法使用了一种新的原型选择方案,适用于视频对象分割。删除障碍特征。 虽然长期存储器非常紧凑,压缩率很高(> 6000%),但内存仍然可能溢出,因为我们不断添加新功能。根据经验,使用6GB的存储预算(例如,消费级中端GPU),我们可以在遇到任何内存问题之前处理多达为了处理更长的视频,我们引入了一个类似于[29]的最不常用(LFU)驱逐算法。与[29]不同,我们的“用法”(如第3.3节,原型选择中所定义的)由top-k过滤后的累积亲和力定义[ 8 ],这避免了引入额外的阈值超参数。当达到预定义的内存限制时,使用率最低的长期内存元素将被驱逐长期记忆是实现长视频高效准确分割的关键接下来,我们讨论工作记忆,这对准确的短期预测至关重要它是长期记忆的基础。+v:mala2255获取更多论文≤∈∈不∈长期视频对象分割93.4工作记忆工作存储器将高分辨率特征存储在临时缓冲区中。它有助于在几秒钟的时间范围内进行准确的匹配。它也是进入长期记忆的门户,因为每个记忆元素的重要性是通过它们在工作记忆中的使用频率来估计的。在我们的多存储特征存储器设计中,我们发现工作存储器的经典实例足以获得良好的结果。我们在很大程度上采用了一个基线STCN风格的[9]特征记忆库作为我们的工作记忆,为了完整起见,我们将简要描述它。我们建议读者参考[9]以了解详细信息。然而,请注意,我们的记忆读取步骤(3.2节)有很大的不同。工作记忆由键kwRCk×THW和值vwRCv×THW组成,其中T是工作记忆帧数。键是从图像编码的,并且与查询q驻留在相同的嵌入空间中,而值是从图像和掩码编码的。图3的右下角说明了工作内存更新过程。在每第r帧,我们1)复制查询作为新的键;以及2)通过将图像和预测掩码馈送到值编码器中来生成新值。新的键和值被附加到工作内存中,稍后用于后续帧的内存读取。为了避免记忆爆炸,我们通过将额外的帧合并到长期记忆存储中来限制工作记忆中的帧数量T:TminT Tmax,如3.3节所讨论的。3.5感觉记忆感觉记忆专注于短期,并保留低级别的信息,如物体位置,这很好地补充了工作/长期记忆中缺乏时间局部性。与工作记忆类似,我们发现一个经典的基线工作良好。具体地说,感觉记忆存储了一个隐藏的表征hRCh×H×W,初始化为零向量,并由门控递归单元(GRU)[11]传播,如图6所示。这种感官记忆每隔一段时间帧使用多尺度特征的解码器。在每第r帧,每当生成新的工作记忆帧时,我们执行深度更新。来自值编码器的特征用于用另一个GRU刷新感觉存储器。这使得感官记忆能够1)丢弃已经存在的冗余信息见图6。感官记忆更新概述。来自解码器的多尺度特征被下采样并级联为输入,一格鲁乌在深度更新中,一个单独的GRU额外用于刷新感官记忆。被保存到工作存储器,以及2)从深度网络接收更新(即,值编码器)以最小的开销,因为我们正在重用现有的特征。跳过-连接解码器增加2倍向下2x1x1转换增加2倍向下4x1x1转换增加4GRU新内存值������−1深度更新逐帧更新LogitResBlockResBlockResBlockGRU1x1转换+v:mala2255获取更多论文××∞·×香港10号Cheng和A.G.Schwing3.6实现细节在这里,我们描述一些关键的实现细节。为了完全重现训练和推理,请参阅我们的开源实现(脚注1)。网络. 按照惯例[36,43,29,9],我们采用ResNets [17]作为特征提取器,删除分类头和最后一个卷积阶段。这导致特征具有步幅16。查询编码器基于ResNet-50,值编码器基于ResNet-18,遵循[9]。为了生成查询q、收缩项s和选择项e,我们将单独的3 × 3卷积投影应用于查询编码器特征输出。请注意,查询和收缩项都用于当前查询框架,而选择项则被复制到内存中(沿着图3中的复制路径),以供以后使用,当且仅当我们插入新的工作内存时。我们根据[9]设置Ck= 64,Cv=512,Ch= 64。为了将收缩因子的范围控制在[1,)内,我们应用()2+ 1,为了将选择因子的范围控制在[0, 1]内,我们应用sigmoid。解码器将隐藏表示ht-1和读出特征F.然后,它每次迭代上采样2次,直到步幅4,同时在每个级别融合来自查询编码器的跳过连接,遵循STM [36]。步幅4特征图经由3 × 3卷积被投影到单通道logit,并且被双线性上采样到输入分辨率。在多对象场景中,我们使用软聚合[36]来融合来自不同对象的最终logit。注意,大部分计算(即,查询编码器,亲和度W)可以在不同的对象之间共享,因为它们仅以图像为条件[9]。训练 在[36,43,29,9]之后,我们首先在通过变形静态图像生成的长度为3的合成序列上预训练我们的网络。我们采用了STCN的开源实现[9],没有修改,它在[45,51,25,62,7]上训练。接下来,我们在YouTubeVOS [57]和DAVIS [41]上进行主要培训,并进行课程抽样[36]。我们注意到,默认序列长度为3不足以训练感觉记忆,因为它严重依赖于初始状态。因此,我们改为对长度为8的序列进行采样。为了减少训练时间和正则化,最多三个(而不是所有)过去的帧被随机选择为训练时间内任何查询的工作记忆整个训练过程在两个RTXA6000 GPU上大约需要35个小时。深度更新的执行概率为0。2,这是1/r,因为我们在[9]中默认使用r= 5。可选地,我们还在BL30K上进行预训练[8,12,4],这进一步提高了准确性。我们用星号(星号)标记使用BL30K的任何方法。我们使用自举交叉熵损失和骰子损失,权重相等[60]。为了优化,我们使用AdamW [24,30],学习率为1 e-5,权重衰减为0.05,在静态图像预训练中使用批量大小为16的 150 K迭代在前80K次迭代之后,我们将学习率降低了10倍。为了公平比较,我们还使用上述设置重新训练STCN [9]基线。STCN的性能没有显著差异(见附录)。+v:mala2255获取更多论文GJFJFJFJF×±长期视频对象分割114实验除非另有说明,否则我们使用Tmin= 5,Tmax= 10,P= 128,结果从工作记忆到长期记忆的压缩率为6328%我们将长期内存元素的最大数量设置为10,000,这意味着XMem永远不会消耗超过1.4GB的GPU内存,甚至可能在移动设备上启用应用程序。我们使用top-k滤波[8],k= 30。默认情况下使用480p视频。为了进行评估,我们使用标准指标(越高越好)[40]:Jaccard指数,轮廓精度及其平均值&. 对于YouTubeVOS [57],和分别为“可见”和“不可见”类计算,分别用下标S和U表示。对于可见类和不可见类求平均值对于AOT [60],我们与他们的R50变体进行了比较,该变体具有与我们相同的ResNet骨架。4.1长时间视频数据集为了评估长期性能,我们在长时间视频数据集[29]上测试模型,该数据集包含三个视频,总共超过7,000帧。我们还通过来回播放视频,将其综合扩展到更长的变体n表示具有n倍帧数的变体。为了进行比较,我们选择了具有可用实现的最先进的方法,因为我们需要重新运行它们的模型。大多数SOTA方法无法原生处理长视频。我们首先通过平均480p中第100帧和第200帧之间的内存消耗差异来衡量他们每帧的GPU内存增加。图1(左)显示了我们的发现,假设24 FPS。对于在长视频上使用禁止内存的方法,我们相应地限制其特征内存插入频率,使用STM中的50个内存帧作为基线[29]。我们的方法使用的内存比这个基线少。我们注意到,低内存插入频率导致性能的高差异,因此我们使用5个均匀间隔的内存插入例程偏移运行这些实验,并显示在这个数据集中,我们使用r= 10。我们在这里找不到BL30K [8]预训练的帮助。表1列出了定量结果,图1(右)绘制了短期绩效与长期绩效的关系。使用时间局部特征窗口(CFBI(+)[59,61],JOINT [33])的方法具有恒定的具有快速增长的存储体的方法(例如,STM [36],AOT[60],STCN [9])被迫使用低特征存储器插入频率,并且不能很好地扩展到长视频。图7更详细地显示了STCN与XMem的缩放行为。AFB-URR [29]旨在处理长视频,并且可以很好地扩展而不会降级-但由于渴望特征压缩,与其他方法相比,它在短期内的性能相对较低。相比之下,XMem不不仅在缩放到较长的视频方面表现良好,而且在短期内也表现良好,如下一节所示。我们在附录中提供了定性比较。3我们确保排除任何缓存或输入缓冲开销。+v:mala2255获取更多论文†† ††香港12号Cheng和A.G.Schwing表1. 长时间视频数据集的定量比较[29]。长时间视频(1 ×)长时间视频(3 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3 ×)长时间视频(1 ×)长时间视频(3&&&CFBI+[61] 50.9 47.9 53.8 55.3 54.0 56.54.4RMNet[54]59.8 ±3.9 59.7 ±8.3 60.0 ±7.5 57.0 ±1.656.6±1.5 57.3±1.8-2.8关节[33]67.1 ±3.5 64.5 ±4.2 69.6 ±3.9 57.7 ±0.255.7±0.3 59.7±0.2-9.4[59] 53.5 50.9 56.1 58.9 57.7 60.15.4HMMN[44]81.5 ±1.8 79.9 ±1.2 83.0 ±1.5 73.4 ±3.372.6±3.1 74.3±3.5-8.1STM [36] 80.6±1.3 79.9±0.9 81.3±1.0 75.3±13.0 74.3± 13.0 76.3±13.1-5.3MiVOS [8]81.1 ±3.2 80.2 ±2.0 82.0 ±3.1 78.5 ±4.578.0±3.7 79.0±5.4-2.6AOT[60]84.3 ±0.7 83.2 ±3.2 85.4 ±3.3 81.2 ±2.579.6±3.0 82.8±2.1-3.1AFB-URR [29] 83.7 82.9 84.5 83.8 82.9 84.60.1STCN[9]87.3 ±0.7 85.4 ±1.1 89.2 ±1.1 84.6 ±1.983.3±1.7 85.9±2.2-2.7XMem(我们的)89.8±0.288.0±0.291.6±0.290.0±0.488.2±0.391.8±0.40.24.2短视频数据集表 2 和 表 3 列 出 了 我 们 在 YouTubeVOS [57] 2018 验 证 , DAVIS [40]2016/2017验证和DAVIS 2017 [41]测试开发上的结果。YouTubeVOS [57]2019验证结果见附录。YouTubeVOS的测试集在撰写本文时已关闭对于这些数据集,我们使用r = 5。根据标准实践[36,59,9],我们在DAVIS 2016/2017确认中报告了单/多对象FPS。此外,我们还报告了YouTube VOS 2018验证的FPS,平均视频长度更长我们在V100 GPU上测量FPS为了进行公平的比较,如果可能的话,我们在较慢的GPU上重新计时先前报告FPS的作品,并将其标记为a。我们注意到,有些方法(不是我们的)在2080 Ti上比在V100上在这些情况下,我们总是让竞争方法受益。我们的速度提升完全来自于长期记忆的使用- 紧 凑 的特 征 记 忆 表 示 读 取 速 度 更 快 。表2. 三个常用短期数据集的定量比较。[8]第八章:我的世界粗体和下划线表示每列中的最佳和次佳†表示FPS在我们的硬件上重新计时。在YouTubeVOS上,我们使用所有输入帧重新运行AOT(提高其性能)以进行公平比较。87.313.2 85.3 82.0 88.620.2 91.7 90.493.026.988.26.4 84.9 82.3 87.5 18.0 91.1 90.1 92.1 18.0XMem(我们的)85.784.689.380.288.722.682.989.522.690.4 92.729.6XMem网络(我们的)86.1 85.1 89.8 80.3 89.2 22.687.7 84.0 91.4 22.692.090.793.2 29.6YT-VOS 2018 val [57] DAVIS 2017 val [41] DAVIS 2016 val [40]方法GJsFsJuFuFPSJ&F JFFPSJ&F JFFPSSTM [36]79.4 79.7 84.2 72.8 80.9-81.879.2 84.311.1 <$89.3 88.7 89.914.0 <$[29]第二十九话 79.6 78.8 83.1 74.1 82.6-76.974.4 79.36.8†-[59]第五十九话 81.4 81.1 85.8 75.3 83.43.481.979.1 84.6 5.9 89.4 88.3 90.5[第54话]81.5 82.1 85.7 75.7 82.4-83.581.0 86.04.4 <$88.8 88.9 88.7 11.9HMMN [44]82.6 82.1 87.0 76.8 84.6-84.781.9 87.59.3 <$90.8 89.6 92.013.0 <$[8]第八话82.6 81.1 85.6 77.7 86.2-84.581.7 87.4 11.2 91.0 89.6 92.4 16.9STCN [9] 83.0 81.9 86.5 77.9 85.713.2<$85.4 82.2 88.620.2<$91.690.8 92.526.9<$联合[33] 83.1 81.5 85.9 78.7 86.5 - 83.580.8 86.26.8†-[9]第九届全国政协委员84.3 83.2 87.9 79.0AOT [60]85.5 84.5 89.5 79.6+v:mala2255获取更多论文JF‡‡GJF×长期视频对象分割139590858075705 10 15 20 25 30 35帧数(K)见图7。XMem和STCN [9]在长时间视频数据集[29]的变体上的视频长度性能的最小二乘拟合从1×到10×。在较长的视频中,STCN由于缺少上下文而衰减,而我们的稳定,因为我们获得了足够的上下文。表4. 我们的记忆储存被消融了。省略了L1 ×的 标准偏差.设置Y18 D17 L1×FPS D17FPS Y18所有内存存储85.7 86.2 89.822.6 22.6无感觉记忆没有工作记忆72.7 77.6 38.731.8 28.1无长期记忆85.9 86.3无17.6 10.0表3.DAVIS 2017测试开发结果视频:使用600p视频。DAVIS 2017 td方法JFJFSTM [36] 72.2 69.3 75.2[54] 2016年10月31日STCN [9] 76.1 73.1 80.0CFBI+[61] 78.0 74.4 81.6HMMN [44] 78.6 74.7 82.5MiVOS智能手机 [8] 78.6 74.9 82.2行政主任[60] 79.6 75.9 83.3新加坡电信[9] 79.9 76.3 83.5XMem(我们的)81.0 77.4 84.5XMem插件(我们的)81.277.684.7XMem游戏(Ours)82.5 79.1 85.8表5. 记忆读取中两个标度项的消融。设置Y18D17两项都有85.7 86.2收缩率仅为85.1 85.6仅选择e84.8八十四点八没有85.0 85.14.3消融我们对YouTubeVOS 2018 [57](Y18)、DAVIS 2017 [41](D17)和长时间视频(n)[29](Ln×)的确认集进行了消融研究我们报告了最具代表性的指标(对于YouTubeVOS,对于DAVIS/长时间视频)。除非另有说明,FPS在DAVIS 2017验证中测量我们用青色突出显示最终配置。记忆库。 表4列出了没有任何一个内存存储的XMem的性能。如果工作记忆被移除,长时记忆就不能发挥作用,它变成了如果长期记忆被移除,所有的记忆帧都存储在工作记忆中。虽然由于其更高的分辨率特性,它的性能稍好,但它无法处理长视频,并且速度较慢。记忆读取。表5显示了两个标度项在各向异性L2相似性中的重要性。有趣的是,选择项e本身并没有帮助。我们假设选择项允许对每个查询关注不同的记忆元素子集,从而增加每个记忆元素的相对重要性。收缩项s允许元素级别的置信度调制,从而避免过多强调不太自信的元素。这两个术语之间存在协同作用,我们的最终模型受益于两者。长期记忆策略 表6比较了不同的原型选择策略,并显示了增强的重要性。我们运行所有的算法5倍,均匀间隔的内存插入偏移和显示标准偏差。我们选择基于使用的选择方案,P= 128,以平衡性能和内存压缩。表7比较了在我们的模型中使用的先前工作所使用的Eager压缩受AFB-URR的启发[29]。我们设置Tmin= 1,Tmax= 2。注意,由于我们不能XMSTCem(我们的)N+v:mala2255获取更多论文14香港Cheng和A.G.Schwing表6. 表7. 比较不同记忆巩固方法压缩处理长视频的策略。设置L1×L3×1×→3×设置L3×比率随机P=6489.5±0。812625%K均值质心P=64 89.5 ±0. 512625%基于使用的P=6489.6±0. 412625%随机P=128 89.7 ±0. 76328%K均值质心P=128 82.4 ±10。3 6328%固结度89.8±0. 290.0 ±0. 40.2早期压迫87.8 ±0. 387.3 ±1。3- 0.5稀疏插入89.8±0. 487.3 ±1。0- 2.5局部窗口86.2 ±1。585.5 ±0. 九点七表8. 感觉记忆深层更新频率的消融。随机P= 256 89.8 ±0. 73164%K均值质心P=256 74.5 ±17。0 3164%设置Y18D17FPS基于使用的P=256 90.1 ±0。43164%无增强作用87.9 ±0. 2每第r帧85.7 86.2 22.6每一帧85.5 86.1 18.5无深度更新85.385.422.6在这个设置中,我们使用具有相同压缩比的随机原型选择。稀疏插入遵循我们对具有不断增长的内存库的方法的处理[36,9]。我们将内存帧的最大数量设置为50以下[29]。本地窗口遵循[59,14,33],当内存条达到其容量时,我们我们总是保留第一个参考帧,并将内存库容量设置为50。我们的记忆整合算法是其中最有效的。深度更新。 表8显示了深度更新的不同配置。在每第r帧使用深度更新会导致性
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功