没有合适的资源?快使用搜索试试~ 我知道了~
“联合归纳和归纳学习在视频对象分割中的应用”
9670联合归纳和归纳学习在视频对象分割中的应用毛云瑶1王宁1周文刚1,2,*李厚强1,2,*1中国科学技术大学电子信息系统系GIPAS中国科学院技术重点实验室2合肥综合性国家科学中心{myy2016,wn6149} @ mail.ustc.edu.cn,{zhwg,lihq} @ustc.edu.cn摘要半监督视频对象分割是在第一帧中仅给定掩模注释的情况下分割视频序列中的目标对象有限的信息使其成为一项极具挑战性的任务。以前大多数性能最好的方法都采用匹配-基于转换推理或在线归纳学习。然而,它们对于相似实例的区分性较低,或者在时空信息的利用方面不足在这项工作中,我们建议将trans-ductive和inductive学习整合到一个统一的框架搜索图像基本事实IBTB IB TB以利用它们之间的互补性来进行准确和鲁棒的视频对象分割。所提出的方法包括两个功能分支。transduc-tion分支采用轻量级Transformer架构来聚合丰富的时空线索,而归纳分支执行在线归纳学习以获得区分目标信息。为了桥接这两个不同的分支,一个双头标签编码器被引入到学习合适的目标之前,他们中的每一个。所生成的掩码编码被进一步强制解开以更好地保持它们的互补性。在几个流行的基准上的大量实验表明,在不需要合成训练数据的情况下,所提出的方法设 置 了 一 系 列 新 的 最 先 进 的 记 录 。 代 码 可 在https://github.com/maoyunyao/JOINT 上 获得。1. 介绍半监督视频对象分割(VOS)的目的是在第一帧中由逐像素分割掩模给出的监督下分割视频序列中的目标对象近年来,它因其广泛的应用而受到极大的关注。由于目标信息只在第一帧给出,而目标可能经历快速运动和剧烈变形,如何充分利用有限的信息进行准确的目标识别是一个重要的问题。* 通讯作者:周文刚,李厚强图1.我们的方法概述。转换分支(TB)从采样的历史帧中聚集丰富的时空线索并将它们传播到当前帧,并且诱导分支(IB)执行在线诱导学习以获得区分目标信息。因此,速率分段极具挑战性。表现最好的方法可以粗略地分类为转导推理和在线归纳学习。在转导公式化中,执行从参考帧(标记的样本)到当前帧(未标记的样本)的直接推理以促进分割。在最近的转导解决方案[19,23,28,33,37,44,45,54]中,特征匹配已经成为主流选择,其中获得当前帧和参考帧之间的像素级亲和力或距离图以提供丰富的历史目标信息。这种具体到具体的推理有利地保留了具有吸引人的时间效率的时间信息。尽管实现了最先进的性能,但它严重依赖于离线学习的特征嵌入来进行准确匹配,因此具有有限的泛化和区分能力。另一方面,在线归纳学习利用参考帧来训练目标模型(一般规则),然后将其应用于后续帧以执行分割。最近,视觉对象跟踪中的有效在线判别学习[4,12]已被引入VOS社区,因为其具有公认的自适应性和泛化能力。存储器输出掩码...解开学习分支(TB)转导入职处(IB)解码器9671能力[5,36]中的少量学习器提供了优异的干扰物辨别能力。然而,这种归纳公式将参考帧视为独立的训练样本,未能探索潜在的背景[48,55,58]。驻留在视频流中的丰富的时间信息因此没有被充分利用,这已经被先前的转导推理工作[33,57]证明对于获得时空一致的结果是至关重要的。上述分析表明,转导推理和在线归纳学习是天然互补的。前者在时空依赖建模中表现更好,但难以区分类似的干扰项,而后者则正好相反。 虽然将这两种模型结合起来是很直观的,但如何在一个统一的框架下挖掘它们的互补潜力由于它们通过不同的视角处理VOS任务,因此对于这种看似简单的集成存在两个主要挑战。首先,大多数转换方法依赖于中间结果作为特征[33,37,25,28]或距离图[41,54],而在线归纳学习直接输出掩码[27,36]或中间编码[5]。如何设计一个合适的合并策略来有效地融合这些不同的代表,同时保持它们的互补性是一个悬而未决的问题。其次,如何紧密地桥接这两个不同的模型,以避免冗余的计算,有效的在线VOS值得进一步探索。在这项工作中,如图1所示,我们提出了一种新的双分支架构,以联合集成在一个统一的框架内的高性能VOS的转导推理和在线归纳学习转导分支聚集丰富的时空信息,而诱导分支提供优越的辨别能力。为了解决上述问题并缩小两个分支之间的差距,我们在所提出的框架中进行了几个关键设计:(1)在转换分支中,我们将先前基于匹配的VOS框架[33,57,37]中采用的注意力机制扩展到轻量级Transformer [7,40]架构中,该架构经过精心设计以促进时间信息传播。为了统一这两个分支的输入和输出,我们进一步采用了一个双头标签编码器,以产生掩码编码作为VOS的目标信息载体。(2)我们提出了掩码编码解耦规则化,以减少它们的冗余,使学习的目标信息更可区分和互补。(3) 最后,我们的两个轻量级分支相互共享大量的块,如骨干,部分标签生成器和分割解码器,使我们的框架 高 效 , 端 到 端 可 训 练 。 我 们 对 DAVIS [35] 和YouTube-VOS [52]基准进行了广泛的实验。我们提出的方法优于其他国家的最先进的方法具有可比的运行效率。总的来说,我们做出了以下三点贡献:• 我们提出了一种新的两分支架构来解决视频对象分割,它吸收了离线学习的直推推理和在线归纳学习的合并。• 对于转换分支,提出了一种轻量级的Transformer架构来进行时空依赖性建模和内容传播。据我们所知,这是第一次尝试在VOS中利用Transformer架构。• 为了弥合两个分支之间的差距,更好地利用其互补特性,我们建议学习解开掩码编码。2. 相关工作基于匹配的方法。 最近的方法[25,28,33,37,38,41,49,54,57]采用特征匹配进行视频对象分割。在这些方法中,首先通过骨干网络获得用于参考帧和当前帧两者的嵌入。然后在它们之间执行像素级比较,以获得当前帧的目标特定信息,其可以进一步被馈送到分段解码器中 其中,STMVOS[33]在在线推理过程中维护一个内存库,通过应用非局部交叉注意机制实现特征匹配,其中内存嵌入被读出以便于当前帧中的对象分割。GC [25]、KMN [37]和GraphMemVOS [28] 在 不 同 方 面 改 进 了 STMVOS 。TVOS [57]是第一个从转导推断角度提出视频对象分割的方法在TVOS中,通过采用预定义的逐像素相似性度量来构建时空依赖图。并且该图被用于将标签从采样的历史帧传播到当前帧。与以前采用隔离注意机制进行转导推理的方法[33,57并且我们进一步学习适合于传播操作的中间表示。在线学习方法。 在许多早期的工作[1,6,21,24,29,31,42,50]中,在线微调被广泛用于在线引入目标信息。尽管结果很有希望,但这种简单的归纳学习方法非常耗时,这使得它不利于许多实时应用。因此,已经进行了许多努力[9,10,30,47,53,56]以避免第一帧微调。在视觉对象跟踪中,在线判别学习[4,11,12,13,46]因其优越的性能和高效率而受到广泛关注。在这些方法中,采用有效的优化策略来在线训练卷积滤波器,并将其应用于后续的卷积滤波器。9672转导分支Z特征E*traEtra编码编码分割解码器Eind感应分支+Dθ编码E*ind特征t编码目标模型Transformer解码器Eθ2Eθ1少数学习者Transformer编码器∈∈∈∈∈∈∈∈∈模板图像模板掩码搜索图像输出掩码t图2.我们方法的整体流程。 它由两个互补的分支组成。 轻量级Transformer架构在转导分支产生细粒度和时空一致的线索,而在归纳分支的少数拍摄学习者提供的歧视性信息,通过在线归纳学习。通过学习解纠缠掩码编码来集成两个分支帧进行前景-背景分类。在[27]中,引入了封闭形式的岭回归[3]来解决VOS问题,它在线优化了将特征映射到分割掩模的参数矩阵。在FRTM [36]中,ATOM [12]中的在线优化范例被重新访问并被仔细修改以适应VOS任务。通过应用共轭梯度和高斯-牛顿算法,FRTM中的少镜头学习器能够在推理过程中从有限数量的模板中学习到强大的目标特定模型。学习的目标模型进行前景-背景分类,在一个像素的方式,并得到的低分辨率的结果进一步细化的分割解码器。后来LWL [5]进一步提出了学习少镜头学习器应该学习什么。 与FRTM不同的是,它采用了标签编码器以生成包含比单通道分割掩模更丰富的目标信息由于在线归纳学习,区分相似实例的能力大大增强。但结果的时空一致性可能无法得到很好的保证。在这项工作中,我们的目标是将上述基于匹配的转导推理和在线归纳学习集成到一个统一的框架中,以充分利用它们之间的互补特征。3. 方法3.1. 整体管道我们提出了一种新的视频对象分割方法,它包括两个功能分支。其主要思想是,基于匹配的转导推理和在线归纳学习是天然互补的。我们的方法的整体流水线如图2所示。第一帧和采样的历史帧构成模板图像,并且当前帧用作作为搜索图像。首先,将模板和搜索图像都输入ResNet-50 [16] 网 络 , 分 别 获 得 res3 特 征ZRN×H×W×C和XRH×W×C,其中N是模板图像的数量。采用双头标号编码器将模板模板编码为两个并行分支的模板编码EtraRN×H×W×D和EindRN×H×W×D。 之后,转换分支将Z和X两者作为输入,并且根据特征之间的像素级亲和度将E_tra传播到搜索图像传播的结果记为E*traRH×W×D。同时,归纳分支中的在线few-shot学习器通过求解其中Z和Eind被视为训练样本对的优化问题来学习目标模型。然后将目标模型应用于X以获得E*indRH×W×D的搜索图像,其中包含有区别的目标信息。最后,从两个分支获得的掩码编码以及来自不同主干层的搜索特征被合并并馈送到分割解码器中以预测最终结果。请注意,两个分支集成在一个互补的方式,通过学习解开掩码编码,将在第3.4节讨论。3.2. 转导分支如图3所示,在转换分支中,引入轻量级Transformer [40]架构以执行时空信息转换。注意机制是Transformer中最重要的该算法根据查询QR n q × dk之间的点积相似度,将值V R nk×dv进行变换 和密钥KRnk×dk。在我们的方法中,注意力机制略有修改,以更好地适应VOS任务。首先,在点积运算之前,沿着通道维对查询和键进行规范化。然后,ResNetResNetY9673∈˜Z˜˜X∈~(4)˜∈→Σ∥˜对E∈N×H×W×DR进行编码,根据编码结果搜索图像˜˜˜~。˜ ˜˜ Σ~。˜˜Σ中间结果Q¯K¯Rnq×nk被重新缩放以获得合适的softmax分布[8,17]。上述计算过程可以用公式表示如下:. Q¯K¯Σ编码解码掩码编码tra交叉注意Attention(Q,K,V)=SoftmaxτV, (1)模板特征�系方式K Q V表示沿通道维度的2归一化ENC�P于我��P于我��并且分母τ是缩放因子。Transformer编码器。Transformer编码器将模板特征Z∈RN×H×W×C 作 为 输 入 , 将 其 进 一 步 展 平 为Z~∈RNHW×C,用于后续的矩阵运算。添加规范Self-Attention选项。在自注意层中,查询和密钥通过对平坦化特征Z应用线性变换来获得,平坦化特征Z的通道维度从C减小到C/4。并且注意力值A 〜∈ RNHW×C被计算为:K Q V中文(简体)根据Eq。(1)如下:模板要素搜索要素Z=Attention ( Z ) , ( Z ) , Z.(二)该注意力值作为残差项被添加到原始模板特征Z,并且结果被进一步馈送到实例归一化[39]层以获得编码的模板特征Z~enc∈RNHW×C如下:图3.概述了我们的轻量级Transformer架构,该架构在换能分支中采用。它是精心设计的,以提供细粒度和时间一致的目标信息传播。其中,Etra在被分解之前被平坦化为E〜 tra∈RNHW×DZenc=实例范数AZ+Z。(三)Transformer编码器使得模板特征能够相互加强以更加紧凑和具有代表性,从而适合于在变换器解码器中执行的后续特征匹配过程。Transformer解码器。Transformer解码器由自注意层和交叉注意层组成。首先,自注意层以与Transformer编码器类似的方式处理搜索特征XRH×W×C,即,得到剩余关注度项,并合并到原始搜索特征中,如下:AX =注意。(X),X~ attn=实例规范。AX~+X~Σ,其中X~∈RHW×C是平坦化的搜索特征,A~∈用作值。 并且E*tra∈RHW×D被重新整形以获得解码掩码编码E*tra∈RH×W×D。3.3. 入职科转换分支提供细粒度和时间一致的掩码编码传播,但其性能很大程度上依赖于离线训练的特征嵌入的表示能力。由于缺乏在线自适应,当遇到新的靶标时,它不能很好地执行,并且也难以区分相似的实例。为了弥补这些缺点,在归纳分支中,我们采用LWL [5]中提出的少镜头学习器来进行在线归纳学习。它以模板特征Z和掩码编码Eind作为训练样本对,通过最小化以下 平 方 误 差 来 在 线 优 化 卷 积 层 Tω 的 内 核 :RH×W×CRH×W×DNRHW×C和XattnRHW×C表示注意力值和自注意层的输出。然后,交叉注意层,这是最重要的组成部分-L(ω)=1W2我i=1·Tω (Zi)−E因德岛 Σ2+λω2,(6)在我们的轻量级Transformer架构中,根据搜索图像和模板图像之间的像素级对应来传播丰富的时间信息它取Xattn∈RHW×C和编码模板特征Zenc∈RNHW×C作为输入以生成查询ψ(Xattn)和key_mask(Z_enc),并将查询与key之间的相似度转换为模板掩码en,如下所示:E-tra=注意。ψ(X~ attn),ψ(Z~enc),E~ traΣ,添加规范Self-AttentionKQVE模板掩码编码用于转导分支E2一9674(5)其中ω是要优化的内核,W表示从标签生成的逐元素重要性权重(与掩码编码一样),i是训练样本的索引,并且λ是学习的正则化项。应用最速下降法来迭代地最小化平方误差,而不是直接的闭式解[3],因为后者需要耗时的矩阵求逆操作,这对运行速度有害。关于最速下降法的详细推导,请参考[5]。注意,整个优化过程是完全可微的,9675∈不∥ ∥·∥ ∥aB--N个测试S{}不·不不indtra不火车不不 t=0因此它可以以端到端的方式与网络的其余部分一起离线训练。IB该在线优化的感应目标模型,即卷积核ωRK×K×C×D具有很好的鉴别能力。它映射搜索特征X转换为D维的向量-w是编码E*ind=IBTω(X)的掩码,其极大地补偿了转换分支的输出。TB渠道无余弦损失带余弦损失3.4. 解纠缠掩码编码如上所述,两个分支都产生具有丰富的目标特定信息的掩码在我们的方法中,这些掩码编码是元素明智地添加在一起的并且结果连同来自不同骨干层的搜索特征一起由分割解码器Dθ处理以如下生成掩模预测Yt*:图4.生成的掩码编码的可视化。IB和TB分别表示诱导分支和转导分支我们可以发现不同的分支学习不同的掩码编码。然而,在没有任何约束的情况下,生成的编码具有大量的信息冗余(用红框标记),这通过在我们的方法中采用余弦损失来减轻。3.5. 在线推理Y*=Dθ。E*+E* ,X[1,2,3,4],(7)其中X[1,2,3,4]是来自不同骨干层(层1到4)的搜索特征的简化表示。由于这两个分支在处理VOS任务时表现出不同的特性,因此适合于它们中的每一个的掩码编码应该是不同的。为此,我们提出了一个双头标签编码器学习适合每个分支的中间表达式。此外,为了减少它们的冗余并使学习的目标信息更具可区分性和互补性,我们通过最小化它们的相似性来解耦生成的掩码编码具体地说,我们采用了广泛使用的余弦相似性在我们的方法。给定两个向量a和b,余弦相似度可以通过cos(a,b)=a·b来计算。所采用的正则化损失定义如下:响应分割掩码。给定一个测试视频序列=Itt=0与第一帧I0的初始分割掩码Y0,我们首先用M0=(X0,Y0)初始化存储器组,其中X0=F θ(I0)是由骨干网络F θ从I0提取的结果特征。然后使用初始化的存储体来执行对象seg-如第3.1节所述,对后续帧进行分段。为了更好地利用时间信息并适应场景中的外观变化,我们用最近处理的帧更新存储具体地,每T=5帧对新模板进行采样并添加连同预测的分段掩码一起发送到存储体。并且除了第一帧之外,我们移除最旧的样本以确保存储器组的大小不超过Nmax=20。 对于多个对象,我们的方法亲-Lcoscos(vec(Eθ1(Y0)),vec(Eθ2(Y0)t= 0,cos(vec(Eθ(Yt*)),vec(Eθ(Yt*)t>0独立地处理它们中的每一个,并合并预测的使用软聚合操作[32]进行掩码。 注意1 2(八)其中vec()是将掩码编码平坦化为一维向量的向量化运算符Y0是I0的真实值,Yt*是It的预测掩码,θ1和θ2表示双头标签编码器注意,由于每个头以ReLU层结束合并步骤仅在在线推理期间执行3.6. 线下培训在我们的方法中,整个网络使用生成的迷你序列S={(I,Y)}Ntrain-1进行端到端训练,余弦相似性将不是负的。如图-在图4中,双头标签编码器为每个分支生成不同的掩码编码。 但仍然有很多 之间的信息冗余。如果我们进一步采用等式中定义的正则化损失,在等式(8)中,生成的掩码编码沿着信道维度被很好地解耦。这确保了在逐元素相加之后,两个掩码编码不会相互干扰。这样,分割解码器就可以利用这两个分支提供的互补信息来生成从密集注释的视频片段。在离线训练期间,我们的网络以与在线推理阶段类似的方式处理小序列。为了充分利用所生成的小序列,在离线训练期间每帧更新存储体。我们采用两个损失函数来监督我们的网络的学习,即分割损失和余弦相似性损失。分割损失用于监督生成的掩码预测,其计算如下:最后的分割结果。L分段=Llo v(Yt,Yt),(9).=在在线推理过程中,存储器组M被保持以存储采样的历史图像和对应的历史图像。TB9676Σ1ΣλJFJFFJJFJF火车编码器丢失其中Yt*是It的预测分割掩码,并且Llov是Lovasz分割损失[2]。最终损失L最终分割损失Lt的加权和和表1.分支互补性的消融研究。TB和IB分别表示转导分支和诱导分支t/s表示每帧的秒性能在上述余弦相似性损失LtsegYouTube-VOS 2018 [52]平均JaccardN列-1 不cos,如下所示:N列-1不(J)和边界(F)分数。TB IBJseenF seenJ unseenF unseen总体t/sLfinal=Ntrain−1t=1L段+N列t=0Lcos,(10)✓81.2 85.4 75.1 83.2 81.2 0.22✓80.4 84.9 76.4 84.481.50.15✓ ✓81.5 85.9 78.7 86.5 83.10.25其中超参数λ被设置为0。01.4. 实验我们在DAVIS 2017 [35]和YouTube-VOS [52]数据集上评估了所提出的方法对于DAVIS基准,我们遵循其标准协议,其中得分测量区域相似性,得分指示边界准确性,并且是它们的平均值。&为了在YouTube-VOS数据集上进行比较,在训练(看到的)类别和看不见的类别上报告分数,并且总分数是它们的平均值。所有结果均通过官方评估工具包(DAVIS)或评估服务器(YouTube-VOS)获得。4.1. 实现细节我们的方法中使用的主干特征提取器是ResNet-50[16],它是用Mask R-CNN[15]重量。在两个分支中,采用附加卷积块以将骨干res3特征的通道维度从1024减小到512。 缩放因子在等式中的τ(1)设为1/30。对于那些很少有机会的初学者来说在感应分支中,我们遵循LWL [5]中使用的设置。所采用的双头标签编码器产生掩码编码,与通道维度D= 16。模板和搜索图像是从原始帧裁剪的,原始帧是先前估计的目标大小的5倍(不大于原始帧)。裁剪后的面片尺寸进一步调整为832 ×480。我们的网络是在YouTube-VOS的火车分裂上训练的[52][54][55][56][57][58][59] 我们从长度N′=100的视频片段中采样N个train= 4帧以生成迷你序列,其中随机翻转、旋转和采用缩放来进行数据扩充。整个训练过程包含180k次迭代,批量大小为20。采用ADAM [22]优化器,初始学习率设置为0.01,在40k,80k,115k和165k次迭代后进一步降低5倍骨干权重在前90k次迭代中固定,然后在其余90k次迭代中一起优化。在8个Nvidia GTX1080Ti GPU上需要大约96个小时才能完成离线训练过程。在在线推理过程中,我们的方法在单对象序列上以约8 FPS的速度运行。代码和预训练模型将公开提供。表2.解缠结掩模编码的烧蚀研究。对于单头标签编码器,两个分支共享相同的掩码编码。性能在YouTube-VOS 2018上进行评估[52]根据可见和不可见类别的平均Jaccard()和boundary()得分的验证集。版本标签余弦J见F见J看不见F看不见整体(1)单头80.785.3 76.8 84.5 81.8(2)双头81.1 85.6 77.6 85.3 82.4(三)双头✓81.585.978.786.5八十三点一4.2. 消融研究为了验证我们提出的方法中关键组件的有效性,我们对YouTube-VOS 2018 [52]验证集进行了两次比较实验。分支机构的互补性。我们首先进行消融研究,以证明我们的方法中的两个分支的互补性。实验结果示于表1中。整体性能从83. 1%至81。当单独应用换能支路时,为2%。进一步发现,性能下降主要体现在不可见类别上,其中不可见和不可见类别从78下降。7%,86。5%至75。1%和83. 2%,分别。这在一定程度上证明了基于匹配的方法的泛化能力不足并且我们进一步报告了LWL [5]的结果作为单独应用归纳分支的性能与完整版本相比,LWL [5]在所有性能指标上的结果都有所下降,总体得分为81。百分之五上述结果表明,我们的方法的两个分支之间确实存在很强的互补关系DAVIS 2017验证集的定性比较如图5所示。分解掩码编码。然后,我们进行了几个烧蚀实验,以验证我们提出的解开掩码编码的有效性,利用两个分支的互补性。具体来说,我们设置了如下三种掩码编码生成策略:(1) 我们首先采用单头标签编码器用于掩码编码生成,即,两个分支采用相同的掩码编码。(2) 我们接下来用双头编码器替换上述单头标签编码器。在这种情况下,面具是9677入职处(IB)转导分支(TB)IB TB表3. YouTube-VOS [52]验证数据集的最新比较。S表示使用合成数据进行离线训练,FT表示在线微调。我们的方法具有优越的泛化能力,看不见的类别,并优于所有以前的方法在两个版本上的相当大的利润率。验证2018拆分方法SFTJ见F见J看不见F看不见 整体[42]第42话62.746.151.755.2OSVOS [6]- ✓59.860.554.260.758.8PReMVOS [29]✓ ✓71.475.956.563.766.9SiamRCNN [43]- ✓73.5-66.2-73.2STMVOS [33]✓-79.784.272.880.979.4EGMN [28]✓-80.785.174.080.980.2KMNVOS [37]✓-81.485.675.383.381.4S2S [51]- -71.070.055.561.264.4[20]第二十话- -67.869.560.866.266.1CFBI [54]- -81.185.875.383.481.4LWL [5]- -80.484.976.484.481.5CFBIMS [54]- -82.286.876.985.082.7联合(我们的)- -81.585.978.786.583.1图5. DAVIS 2017验证集的定性比较。明显的故障用黄色方框 标 记 。 通 过 联 合 探 索 诱 导 分 支 ( IB ) 和 转 导 分 支(TB),我们的方法显示出优越的VOS准确性。最佳视角放大。独立地生成每个分支的编码。(3) 基于(b),在该版本中,我们进一步引入在第3.4节中提出的余弦相似性损失,以迫使所生成的掩码编码被解开。如表2所示,直接贴单头标签编码器的总得分为81。百分之八如果我们把它换成双头的,整体性能从81提高。8%至82。百分之四这指示适合于两个分支的掩模的中间表示是不同的。如果我们进一步应用余弦相似性损失来强制生成的掩码编码被解开,则性能可以进一步提高到83。百分之一。4.3. 与最先进方法的我们将我们的方法与之前的最先进的方法进行了比较 , 包 括 DAVIS 2017 [35] , YouTube-VOS 2018 和YouTube-VOS 2019 [52]。在图6中,我们示出了在许多具有挑战性的场景中的一些定性结果,诸如遮挡、类似的干扰物和外观变化。我们的JO归纳和Ttransductive学习为基础的方法表示为联合。[52]第五十二话. YouTube-VOS是用于多对象视频分割的大规模基准,其提供比DAVIS大得多的训练和测试数据规模。对于2018年版本,其验证集包含474个视频,包括65个训练(已见)类别和26个未见类别。2019年版本进一步增加了更多视频序列的数据集,val中的视频数量验证2019拆分方法S FTJ见 F见 J看不见 F看不见 整体STMVOS [33]✓- 79.6 83.673.0 80.6 79.2LWL [5]- -79.683.876.484.281.0CFBI [54]- -80.685.175.283.081.0CFBIMS [54]- -81.886.176.984.882.4联合(我们的)- -80.884.879.086.682.8标识集增加到507。看不见的对象类别使得YouTube-VOS非常适合评估算法的泛化能力。我们评估所提出的方法的两个版本的YouTube-VOS基准。如表3所示,我们将我们的方法与之前表现最好的 算 法 进 行 比 较 , 例 如 PReMVOS [29] , STMVOS[33],EGMN [28],KMNVOS [37],CFBI [54]和LWL[5]。我们可以-服务,我们的方法实现了83的平均分数。1%,82。8%的验证集的两个版本,分别优于其他国家的最先进的方法相当大的利润。此外,我们发现,我们的方法的generalization能力是显着优于以前的算法。对于训练(见)分类,基于匹配的方法如KMNVOS [37]和CFBI[54]表现良好。然而,当涉及到看不见的类别的性能,前面提到的方法急剧下降,而我们的方法仍然保持在一个相对较高的水平。此外,我们的方法优于归纳学习的方法,如LWL[5]感谢我们提出的轻量级Transformer的时空一致性探索DAVIS 2017 [35]. DAVIS是一个流行的视频对象分割基准。DAVIS 2017的验证集包含30个密集注释的视频,与DAVIS 2016 [34]相比,由于引入了多对象设置,因此更具挑战性。5、我们要把我们的心分开。9678JFJF0% 33%百分之六十七100% 0%百分之三十三百分之六十七百分百DAVIS 2017YouTube-VOS 2018图6.我们的方法在DAVIS [35]和YouTube-VOS 2018 [52]验证集上的定性结果。我们的方法在这两个方面都显示出优越的分割精度。在第一排,绿色的猪和黄色的鱼经历了严重的闭塞。 在第二行中,场景中存在类似的干扰物和杂乱的背景。第三和第四行分别是外观和透视发生变化的场景。我们的方法成功地处理了所有这些具有挑战性的情况。表4.DAVIS 2017 [35]验证数据集的最新技术水平比较S表示使用合成数据进行离线训练,FT表示在线微调,t/s表示每帧秒。为了公平比较,当仅采用DAVIS 2017数据集进行训练时,我们初始化在ImageNet [14]上预训练的骨干ResNet-50,而不是MaskRCNN [15]添加YouTube-VOS进行培训方法SFTJFJFt/sAGSSVOS [26]✓-64.969.967.40.10STMVOS [33]✓-79.284.381.80.32EGMN [28]✓-80.285.282.80.40KMNVOS [37]✓-80.085.682.80.24[20]第二十话--67.272.770.00.14[第41话]--69.174.071.50.51FRTM [36]--73.879.876.70.09LWL [5]--79.184.181.60.15CFBI [54]--79.184.681.90.17CFBIMS [54]--80.586.083.39联合(我们的)--80.886.283.50.25仅DAVIS 2017用于培训方法SFTJFJFt/sOnAVOS[42]-✓61.066.163.626AGSSVOS [26]✓-63.469.866.60.10RGMP [32]✓-64.868.666.70.28STMVOS [33]✓-69.274.071.60.32KMNVOS [37]✓-74.277.876.00.24PReMVOS [29]✓✓73.981.777.837.6视频比赛[18]--56.568.262.40.35FRTM [36]--66.471.268.80.09LWL [5]--72.276.374.30.15CFBI [54]--72.177.774.90.17联合(我们的)--76.081.278.60.25根据是否使用额外的训练数据,将其分为两个版本,并分别报告其性能。我们包括最近提出的LWL [5],CFBI [54],KMNVOS [37]和EGMN [28],用于com。型坯如表4所示,当另外采用YouTube-VOS进行训练时,我们的方法表现出最佳性能,平均(&)得分为83。5%,优于文献中所有先前的方法。与CFBIMS [54](CFBI的增强版)相比,我们的方法在评估期间没有多尺度和翻转策略,因此运行速度快30倍以上。当 仅 采 用 DAVIS 2017 进 行 训 练 时 , 我 们 使 用ImageNet [14]预训练权重而不是MaskRCNN [15]权重初始化骨干ResNet-50以进行公平比较。正如我们所看到的,在这个设置中,我们的方法仍然优于所有以前的方法,具有&评分为78. 百分之六。虽然PReMVOS的性能[29]是接近我们的,它依赖于广泛的在线微调,所以我们的注意,像STMVOS [33],KMNVOS [37]和PReMVOS[29]这样的方法相比之下,我们的方法没有这种必要性。5. 结论在这项工作中,我们设计了一个新的架构,半监督视频对象分割,它需要的优势,两个直推推理和在线归纳学习。为了弥补这两种不同模型之间的差距,更好地利用它们的互补性,我们采用了一个双头标签编码器来生成解纠缠掩码编码作为目标信息的载体。大量的实验表明,所提出的方法设置了几个国家的最先进的记录流行的VOS基准与-出需要的模拟训练数据。鸣谢。这项工作得到了国家自然科学基金61822208、61836011和62021001的部分支持,以及青年创新促进会CAS 2018497的部分该系统还得到了中国科学技术大学信息科学与技术研究所MCC实验室搭建的GPU集群的支持。9679引用[1] L.鲍湾,巴西-地Wu,和W.刘某mrf中的Cnn:在基于cnn的高阶时空mrf中经由推断的视频对象分割。在CVPR,2018年。2[2] M. Berman , A.Triki 和 Matthew B. 布 拉 施 科 lovasz-softmax损失:一个易于处理的代理优化的交集超过工会措施的神经网络。在CVPR,2018年。6[3] 放大图片作者:Luca Bertinetto,Joao F.亨里克斯,菲利普·托尔,安德里亚·维达尔迪.使用可微封闭形式求解器的元学习。2019年,在ICLR。三、四[4] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测跟踪。在ICCV,2019年。一、二[5] GoutamBhat、FelixJéremoLa win、MartinDanelljan、An-dreas Robinson、Michael Felsberg、Luc Van Gool和RaduTimofte。学习视频对象分割的学习内容。在ECCV,2020年。二三四五六七八[6] Sergi Caelles , Kevis-Kokitsi Maninis , Jordi Pont-Tuset,LauraLeal-Taixe',DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR,2017年。二、七[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。2[8] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv:2002.05709,2020。4[9] Yuhua Chen , Jordi Pont-Tuset , Alberto Montes , andLuc Van Gool.快速视频对象分割与像素级度量学习。在CVPR,2018年。2[10] Jingchun Cheng , Yi Hsuan Tsai , Wei Chih Hung ,Shengjin Wang,and Ming Hsuan Yang.通过跟踪部件快速准确的在线在CVPR,2018年。2[11] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg. ECO:用于跟踪的高效卷积算子。在CVPR,2017年。2[12] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.ATOM:通过重叠最大化进行精确跟踪在CVPR,2019年。一、二、三[13] Martin Danelljan Luc Van Gool和Radu Timofte用于视觉跟踪的概率回归。在CVPR,2020年。2[14] J. Deng,W.东河,巴西-地索赫尔湖李凯李飞飞。Imagenet:一个大规模的分层图像数据库。CVPR,2009。8[15] K.他,G.吉基奥萨里山口Dollar和R.娘娘腔。 面具R-CNN。InICCV,2017. 六、八[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。三、六[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。4[18] 胡元婷,黄家斌,亚历山大G.施温Videomatch:基于匹配的视频对象分割。在ECCV,2018。89680[19] Allan Jabri、Andrew Owens和Alexei A.埃夫罗斯作为对比随机游走的时空对应。在NeurIPS,2020年。1[20] Joakim Johnander、Martin Danelljan、Emil Brissman、Fa- had Shahbaz Khan和Michael Felsberg。端到端视频对象分割的生成式外观模型在CVPR,2019年。七、八[21] Anna Khoreva,Federico Perazzi,Rodrigo Benenson,Bernt Schiele,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功