共同注意连体网络（COSNet）：用于无监督视频对象分割的新型网络，充分利用视频帧之间的相关性，通过全局共同关注机制改进深度学习解决方案

123 浏览量更新于2023-10-18 收藏 2.76MB PDF 举报

视频对象分割

无监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3623See More，Know More：使用Co-Attention Siamese Networks的无监督视频对象分割Xiankai Lu1人，Wenguan Wang1人，Chao Ma2人，Jianbing Shen1人，Ling Shao1人，Shuanh Porikli3人1阿联酋Inception Institute of Artificial Intelligence，UAE2上海交通大学人工智能研究所MoE人工智能重点实验室3澳大利亚国立大学carrierlxk@gmail.comwenguanwang.aigmail.comchaoma@sjtu.edu.cnshenjianbingcg@gmail.comling.ieee.orgfatih. anu.edu.auhttps://github.com/carrierlxk/COSNet摘要我们引入了一种新的网络，称为共同注意连体网络（COSNet），从整体上解决无监督的视频对象分割任务我们强调了视频帧之间固有相关性的重要性，并结合了全局共同关注机制，以进一步改进最先进的基于深度学习的解决方案，这些解决方案主要集中在学习短期时间段中的外观和运动上的区别性前景表示我们的网络中的共同注意层通过联合计算和附加共同注意响应到一个联合特征空间中，为捕获全局相关性和场景上下文提供了有效和胜任的阶段我们用成对的视频帧来训练COSNet在分割阶段，共同注意模型通过对多个参考帧进行合并处理，对有用信息进行编码，从而更好地推断出频繁出现和显著的前景对象。我们提出了一个统一的和端到端的可训练的框架，其中不同的共同注意力的变种，可以得出挖掘视频中的丰富的上下文。我们对三个大型基准测试的广泛实验表明，COSNet的性能优于目前的替代品，大大的幅度。1. 介绍无监督视频对象分割（UVOS）旨在自动分离视频中的主要前景对象由于UVOS不需要手动交互，因此它在学术和应用方面都具有重要价值。*前两位作者对本书的贡献相当†通讯作者：沈建兵。图1.这是我们直觉的写照。给定输入帧（b），我们的方法利用来自多个参考帧的(d)以通过共同注意机制更好地确定前景对象（A）。(c)没有共同关注的低劣结果。和应用领域，尤其是在这个信息爆炸的时代。然而，由于缺乏关于主要对象的先验知识，除了半监督视频对象分割的典型挑战（例如，对象变形、遮挡和背景杂波），UVOS遭受另一个困难的问题，即，如何从复杂多样的背景中正确区分主要对象。我们认为，UVOS设置中的主要对象应该是（i）在单个帧中最可区分的（局部突出），以及（ii）在整个视频序列中频繁出现的（全局一致）。这两个特性对于确定主要对象是必不可少的。例如，通过仅瞥见如图IB中所示的短视频剪辑。1（b），很难确定主要对象。相反，如果我们查看整个视频（或足够长的序列），如图所示。1（d），前景可以很容易地发现。虽然主要对象在宏观层面（整个视频）往往高度相关，但由于关节式身体运动、遮挡、视野外运动、摄像机运动和环境变化，它们通常在微观层面（较短的视频剪辑）表现出不同的外观。3624选项。显然，微观层次的变化是视频分割的主要挑战因此，期望利用全局一致性属性并利用来自其他帧的信息。通过从全局的角度考虑UVOS，我们可以帮助定位主要对象并减轻局部的歧义。这个概念也激发了早期的UVOS启发式模型[14]，但它在很大程度上被当前基于深度学习的模型所忽略。当前基于深度学习的UVOS模型通常关注主要对象在外观或运动方面的帧内区分属性，而忽略了跨多个帧的有价值的全局出现一致性。这些方法计算跨几个连续帧的光流[53，24，9，32，33]，其限于时间域中的局部接收窗口。尽管递归神经网络（RNN）[49]被引入来对先前的帧进行分类，但这种顺序处理策略可能无法明确地探索不同帧之间的丰富关系，因此无法获得全局视角。有了这些见解，我们重新制定的UVOS任务作为一个共同的注意程序，并提出了一种新的共同注意连体网络（COSNet）模型UVOS从全球的具体来说，在训练阶段，COS- Net将来自同一视频的一对帧作为输入，并学习捕捉它们丰富的相关性。这是通过可区分的门控共同关注机制来实现的，该机制使网络能够更多地关注相关的信息区域，并产生进一步的有区别的前景特征。对于测试框架（图1（b）），COSNet能够产生更准确的结果（图。1（a））从全局观点看，即，利用测试帧和多个参考帧之间的相关性。图1（c）显示了仅考虑来自测试帧（图1）的信息时的较差结果。（b）款。我们的COSNet的另一个优点是，它是显著有效的增强训练数据，因为它允许使用大量的任意帧对在同一个视频。此外，由于我们明确地对视频帧之间的关系进行建模，因此所提出的模型不需要计算光流，这是耗时且计算昂贵的。最后，COSNet提供了一个统一的、端到端的可训练框架，可以有效地挖掘视频序列中丰富的上下文信息我们实现了不同的共同注意机制，如香草共同注意，对称共同注意，和渠道明智的共同注意，这提供了一个更深入的了解UVOS的任务。我们定量地证明，我们的共同注意机制是能够带来很大的改善性能，这证实了它的有效性和全局信息的UVOS的价值。所提出的COSNet在三个流行的基准测试中显示出优于当前最先进方法的性能：DAVIS16[45]，[47]第41话：我的心2. 相关工作我们首先概述了视频对象分割的代表性工作（ §2.1 ），然后简要概述了可区分的神经注意力（§2.2）。2.1. 视频对象分割根据其监督类型，视频对象分割可以大致分为无监督（UVOS）和半监督视频对象分割。在本文中，我们专注于UVOS任务，提取主要对象（S），而无需手动注释。早期的UVOS模型通常分析长期的运动信息（轨迹）[4，40，17，42，28，41]，杠杆，过时的对象提案[31，37，70，30，18，27]或使用显着性信息[60，14，55，21]，以推断目标。后来，受到深度学习成功的启发，几种方法[16，54，43]开始使用深度学习功能来接近UVOS。这些通常是有限的，因为它们缺乏端到端的学习能力[54]和使用重型全连接网络架构[16，43]。近年来，基于全卷积神经网络的 UVOS 模型得到了广泛的研究例如，Tokmakovet al.[52]建议使用可学习的运动模式网络分离独立的对象和相机运动[52]。Li等从静态图像中学习了一个实例嵌入网络[32]，以更好地定位对象，后来他们结合了基于运动的双边网络来识别背景[33]。双流全卷积网络也是一种流行的选择[9，24，53，32]，可以将运动和外观信息融合在一起进行对象推理。分割对象的替代方式是通过视频显著对象检测[49]。该方法微调预训练的语义分割网络以提取空间显著性特征，然后训练ConvL-STM以捕获时间动态。这些深UVOS模型普遍取得了令人鼓舞的结果，这表明了神经网络应用于这一任务的优势然而，他们只考虑UVOS和短期时间信息的连续性，缺乏全局视图和视频内丰富的内在相关性信息的对于SVOS方法，在第一帧中提供目标对象并自动跟踪[60，8，5，68，2，69，64，71]或在随后的帧中由用户交互地[1]。基于图形模型[54]、对象建议[46]、超轨迹[61]等提出了许多算法。最近，基于深度学习的方法取得了可喜的成果。一些算法将视频对象分割视为静态分割任务，而不使用任何时间信息[44]，建立了一个深入的3625BB图2.COSNet在培训阶段的概述一对帧{Fa，Fb}被馈送到特征嵌入模块中以获得特征表示{Va，Vb}。然后，共同注意模块计算对Va和Vb之间的相关性进行编码的注意摘要。最后，Z和V被连接并移交给分割模块以产生分割预测。单次学习框架[5，59]，或使用掩码传播网络[25]。此外，对象跟踪[29，8，12，36]和人员重新识别[34，66]都已融合到SVOS任务中，以处理变形和遮挡问题。Hu等人[22]提出了一种基于Siamese网的SVOS模型。与我国的COSNet相比，与其说是监督方式不同，不如说是区别明显.首先，由于[22]是基于图像匹配策略提出的，因此他们使用暹罗网络将第一帧注释传播到后续帧。我们的方法有很大的不同，因为我们学习了Siamese网络来捕获视频中丰富的全局对应，以进一步帮助自动主对象发现和分割。其次，我们提供了第一种方法，使用一个共同关注计划，以促进对应学习的视频对象分割。2.2. 神经网络中的注意机制受人类感知[13，58]启发的可区分注意力已在深度神经网络中得到广泛研究[26，56，38，23，57，62，15]。通过端到端训练，神经注意力允许网络选择性地关注输入的子集。例如，Chuet al. [11]利用多上下文注意力进行人体姿势估计。在[7]中，提出了空间和通道注意力来动态选择用于字幕的图像部分。最近，在视觉和语言任务中研究了共同注意机制，例如视觉问题回答[35，65，63，39]和视觉对话[63]。在这些工作中，共同注意机制被用来挖掘不同模态之间的内在联系。对于前-3. 该算法我们的COSNet制定UVOS作为一个共同关注的pro-cancer。共同注意模块学习明确地编码视频帧之间的相关性。这使得COSNet能够关注频繁相干的区域，从而进一步帮助发现前景对象并产生合理的UVOS结果。具体地，在训练期间，共同注意力过程可以分解为来自同一视频的任何帧对之间的相关性学习（参见图2）。2）的情况。在测试过程中，COSNet以全局视图推断主要目标，即，利用测试帧和多个参考帧之间的共同关注信息。我们将详细阐述共同关注机制-在§ 3.1中介绍了COSNet中的nisms，并在§ 3.2中详细介绍了COSNet的整个体系结构。在§ 3.3中，我们将提供更多的实现细节。3.1. COSNet中的共同注意机制香草共同关注。如图2.给定来自同一视频的两个视频帧Fa和Fb，Va∈RW×H×C和Vb∈ RW×H×C表示来自特征嵌入网络的相应特征表示。Va和Vb是具有宽度W、高度H和C通道的3D张量。我们利用共同注意力机制[65，35]来挖掘Fa和Fb在其特征嵌入空间中的相关性。更具体地说，我们首先计算Va和Vb之间的亲和矩阵S：S=V<$WVa∈R（WH）×（WH），（1）其中W∈RC×C是权矩阵。这里Va∈RC×（WH）和Vb∈RC×（WH）被展平为矩阵表示，例如，Lu等人[35]创造了一个模型，选项。V中的每列V（i）表示特征向量aa问题引导的视觉注意和图像引导的问题关注通过这种方式，学习模型可以选择性地集中在图像区域和文档片段上。我们的共同注意力模型受到了这些作品的启发，但它是用来捕捉跨不同帧的连贯性的，具有更优雅的网络架构。在位置i∈{1，...，WH}具有C尺寸。因此，S的每个条目反映了S的每行之间的相似性。V和Va的每一列。由于权重矩阵W是方阵，因此W的对角化可以表示如下：W=P−1DP，（2）3626B其中softmax（·）对输入的每一列进行归一化。由方程式6，Sc的第i列是长度为WH.该向量反映每个特征（1，.，WH）到Vb中的第i个特征。接下来，对特征嵌入Va的注意力进行了总结Vb可以计算为（见图中的蓝色区域3）：Za= Vb Sc=ΣΣZ（1）Z（2）. Z（i）...Z（WH）∈RC×（WH），一Z（i）=Vb<$Sc（i）=一公司简介一V（j）·sc一∈RC，（七）一图3. 我们共同关注行动的例证。j=1bij其中，Z（i）表示Z的第i列，aa其中P是可逆矩阵，D是对角矩阵。然后，如图中灰色区域所示3，等式1可以重-矩阵乘以向量，Sc（i）是Sc的第i列，V（j）表示V（j）c的第j列写为：⊤−1sij是第j个元素在Sc（i）中。同样，对于帧F，我们计算相应的VbPDPVa.（3）br通过Eq中的香草共同注意力3.每帧的特征表示首先进行线性变换，然后计算它们之间任意位置的距离对称的共同关注。如果我们进一步将权重矩阵约束为对称矩阵，则投影矩阵P成为正交矩阵：PP=I，其中I是C×C单位矩阵。可以推导出对称的共同注意力从等式第三章：响应共同关注增强功能为：Zb=VaS。门控共同关注。考虑到输入对、遮挡和背景噪声之间的潜在外观变化，最好对来自不同的不同的输入帧，而不是平等地对待所有的共同关注信息。为此，引入了自门机制来为每个注意摘要分配共同注意置信度。闸门公式如下：fg（Za）=σ（wfZa+bf）∈[0，1]WH，S = V P DPV =（PV）DPV。（四）fg（Zb）=σ（wfZb+bf）∈[0，1]WH，（八）ba b a当量4表示我们将特征嵌入Va和Vb投影到一个正交的公共空间中，并保持它们的范数。该特性已经证明对于消除不同信道之间的相关性是有价值的（即，C维）[50]和提高网络智慧的共同关注此外，投影矩阵P可以被简化为单位矩阵I（即，无空间变换），然后是权重矩阵W变成了一个对角矩阵。在这种情况下，W（即，D）可以进一步对角化为两个对角矩阵Da和Db。因此，Eq.3可以重写为通道方向的共同关注：S= V I −1 D I V a= V D D b V a=（D a V b）D bV a。（五）其中，σ是逻辑S形激活函数，并且wf和bf是相对于V的卷积核和偏置。门fg确定来自参考帧的多少信息将被保留，并且可以自动学习。在计算门置信度之后，通过以下方式更新注意力摘要：Za=Za <$fg（Za），Zb=Zb <$fg（Zb），（9）其中，“X”表示通道式Hadamard乘积。这些操作导致门控共同注意力框架。然后，我们将最终的共同注意力表示Z和原始特征V连接在一起：X=[Z，V]∈ RW×H×2C，X=[Z，V]∈ RW×H×2C，（10）b b aaa abB b该操作等于在计算相似性之前向Va和Vb这有助于减轻通道冗余，这与挤压和激励机制[7，20]具有相似的精神。在消融研究期间（§4.2），我们进行了详细的实验，评估不同的共同注意机制的效果即，vanilla co-attention（香草共同注意）3），对称共同注意力（方程。4）和通道方式的共同注意（等式4）。（五）。在获得相似性矩阵S之后，如图中的绿色和红色区域3，我们用softmax函数将S按行Sc=softmax（S），Sr= softmax（S），（6）3627其中' [ · ]'表示级联操作。最后，可以将共同注意力增强特征X馈送到分割网络中以产生最终结果Y∈[0，1]W×H。3.2. 完整的COSNet架构图4示出了所提出的COSNet的训练和测试管道基本上，COSNet是一个连体网络，由三个级联部分组成：基于DeepLabv3 [6]的特征嵌入模块，共同关注模块（详见第3.1节）和分段模块。培训阶段的网络架构。在训练阶段，基于COSNet的暹罗网络需要两个3628N一图4.COSNet的训练管道（a）和测试管道（b）示意图流作为输入，即，一对帧图像{Fa，Fb}，以保持权重矩阵W的对称性：从同一个视频中随机采样首先，。.L=L + λ。WWW-I. 、（十二）特征嵌入模块用于构建它们的特征表示：{Va，Vb}。接下来，{Va，Vb}由共同注意模块细化，并且共同注意增强特征{Xa，Xb}通过等式（1）计算。10个。最后，由多个分割模块组成的分割模块产生相应的分割预测{Ya，Yb}。简单的小内核卷积层。这三个模块的详细配置可以在下一节中找到。正如我们在第1节中所讨论的，视频中的主要对象有两个基本属性：(i)帧内可辨别性，一致性，以及（ii）帧间一致性。为了区分前景目标和背景（属性（i）），我们利用来自现有显著对象分割数据集的数据[10，67]来训练我们的骨干特征嵌入模块。由于在这些数据集的每个图像中标注了主要显著对象实例，因此学习的特征嵌入可以捕获和区分最感兴趣的对象同时，为了确保COSNet能够捕捉全球C..其中λ是正则化参数。测试阶段的网络架构。一旦网络被训练好，我们就把COSNet应用到看不见的视频上。直观地，给定一个测试视频，我们可以将每个待分割的帧连同从同一视频中采样的仅一个参考帧连续地馈送到COSNet中。逐帧执行此操作，我们可以获得所有分割结果。然而，使用这样一种简单的策略，分割结果仍然包含可考虑的噪声，因为视频中丰富的和全局的相关性因此，在测试阶段纳入更多参考文献至关重要（见图4（b））。一个直观的解决方案是将一组N个不同的参考帧（从同一视频均匀采样）馈送到推理分支中，并对所有预测进行平均。一种更有利的方式是对于查询帧Fa，主视频对象的帧间相干性（适当的，其中参考系集合{FbnNn=1 包含Nref-（ii）），我们用视频片段训练整个COSNet参考帧，等式第九条进一步修改，考虑到站点数据，其中共同关注模块起着关键作用更多关注摘要{Zann=1：捕捉视频帧之间的相关性。具体来说，我们在视频序列中随机选择两个帧-1ΣNZ←ZanNn=1* fg（Zan）的情况。（十三）序列来建立训练对。值得一提的是与先前仅采用连续帧的基于递归神经网络的UVOS模型相比，该操作自然且有效地增加了训练数据。以这种方式，COSNet交替地用静态图像数据和动态视频数据训练。当使用图像数据时，我们只训练特征嵌入模块，其中添加了一个额外的具有sigmoid激活的1×1卷积层以生成中间分割边。输出.利用视频数据对整个COSNet进行训练，包括特征嵌入模块、共同关注模块以及分割模块。我们使用加权二进制交叉熵损失来训练网络：Σ以这种方式，在测试阶段期间，基于共同注意的特征Za能够通过考虑更多的参考帧来从全局视图有效地然后，我们将Za馈送到分割模块以生成最终输出Ya。遵循广泛使用的方案[53，52，49]，我们将CRF用作后处理步在§ 4.2中，我们将定量地证明随着参考文献数量的增加，性能得到了改善。电子相框。3.3. 实现细节详细的网络架构。我们的COSNet 的骨干网络是DeepLabv3 [6]，它由第一个LC（Y，O）=−（1−η）oxlog（yx）+η（1−ox）log（1−yx），（11）X五个来自ResNet的卷积块[19]和一个atrous spa-金字塔池（ASPP）模块[6]。为了香草公司-其中O∈ {0，1}W×H表示二进制地面实况，yx是像素x处的中间或最终片段预测Y，并且η是前景-背景像素数比。此外，对于等式中的对称共同注意力，4、在损失函数中增加一个额外的正交正则化注意力模块（Eq. 3），我们使用具有512×512个参数的全连接层来实现权重矩阵W。此外，在Eq. 5是建立在一个挤压和激励（SE）类模块[20]。具体而言，通过完全}}3629图5.性能改进，适用于越来越多的参考帧（§4.2）。(a)测试覆盖了地面实况的框架（b）-（e）考虑不同数量的参考帧（N=0、1、2和5）的主要对象预测。(f)通过将通用报告格式应用于（e）的二进制分段。我们可以看到，如果没有共同关注，COSNet会退化为逐帧分割模型（（b）：N=0）。一旦加入共同关注（c）：N=1），可以有效地抑制类似的前景分心。此外，更多的推理框架有助于更好的分割性能（（c）-（e））。一个分支中具有512个节点的连接层被应用于另一个分支的特征嵌入[20]。当量8是用带有sigmoid激活函数的1×1分割模块由两个3×3卷积层组成（具有256个过滤器和批范数）和1×1卷积层（具有1个过滤器和sigmoid激活）用于最终分割预测。培训设置。我们的COSNet的整个训练过程由两个交替的步骤组成当使用静态数据来微调基于DeepLabV3的特征嵌入模块时，我们利用图像显着性数据集：MSRA10K [10]和DUT [67]。以这种方式，远离前景目标的像素趋向于彼此靠近。同时，我们使用DAVIS16[45]中的训练视频训练整个模型。在该步骤中，从相同序列中随机选择的两个帧作为训练对被馈送到COSNet中。给定输入RGB帧图像的大小473×473×3，特征嵌入的大小Va和Vb为（W= 60，H= 60，C= 512）。整个网络使用SGD优化器进行训练，初始学习率为2.5×10−4。在训练期间，批量大小被设置为8，并且等式2中的超参数λ被设置为012被设置为10- 4。我们用Pytorch实现整个算法。所有的实验和分析都是在Nvidia TITAN Xp GPU和Intel（R）Xeon E5 CPU上进行的。爱4. 实验4.1. 实验装置我们在三个最著名的UVOS数据集上进行实验：DAVIS 16 [45]，FBMS [41]和Youtube- Objects [47]数据集。DAVIS 16是一个最近的数据集，总共包含50个视频（30个用于训练，20个用于测试）。提供逐帧像素注释。对于定量评价，遵循[45]的标准评价方案，我们采用三个度量，即区域相似性J、边界准确性F和时间稳定性T。FBMS由59个视频序列组成。不同于网络变体戴维斯平均JJFBMS平均JJYoutube-Objects的意思是J J共同注意机制香草共同关注（Eq.第三章80.0-0.575.2-0.470.3-0.2对称共同注意力（等式四、80.5-75.6-70.5-智慧的共同关注（Eq.第五章）77.2-3.372.7-2.967.5-3.0w/o。共同关注71.3-9.270.1-5.562.9-7.6融合策略注意力汇总融合（Eq.十三、80.5-75.6-70.5-预测分割融合79.5-1.074.2-1.469.9-0.6帧选择策略全局均匀抽样80.53-75.61-70.54-0.01全球随机抽样80.52-0.0175.54-0.0270.55-局部连续抽样80.26-0.2775.52-0.0970.43-0.12表1. COSNet在DAVIS 16 [45]，FBMS [41]和Youtube-Objects[47]数据集上的消融研究（§ 4.2），具有不同的共同注意机制，融合策略和采样策略。数据集DAVISFBMSYoutube-Objects参考帧数量（N）0 1 2 5 771.3 77.6 79.7 80.570.2 74.8 75.3 75.6 75.662.9 67.7 70.5 70.5表2.在测试阶段对DAVIS 16 [45]，FBMS [41]和Youtube-Objects [47] 数据集进行了不同数量的参考帧的比较（§4.2）。采用平均值J。在DAVIS数据集上，FBMS的地面实况被稀疏地标记（仅720帧被注释）。根据常见的设置[53，52，30，32，33，49，9]，我们验证了亲，提出了一种基于30个序列的测试分割方法区域相似度J用于评估。Youtube-Objects包含126个视频序列，它们可以分为10个对象类别，总共超过20，000帧我们使用区域相似性J来衡量分割性能。4.2. 诊断实验在本节中，我们将重点介绍探索性研究，以评估COSNet的重要设置和组件。实验是在DAVIS 16 [45]和FBMS [41]的测试集以及整个Youtube-Objects [47]上进行的评价标准是平均区域相似度（J）。不同共同注意机制的比较。我们3630FNn方法TRC CVOS密钥消息NLC切割FST SFL LMP FSEG LVO ARPPDBCOSNet表3.DAVIS16 [45] 1测试集的定量结果（参见第4.3节），使用区域相似性J、边界精度F和时间稳定性T。我们还报告了J和F随时间的召回和衰减性能。最好的分数用粗体标出。首先研究COSNet中不同的共同注意机制的作用，即，vanilla co-attention（香草共同注意）3），对称共同注意（等式3）。4）和通道方式的共同注意（等式4）。（五）。在表1中，全连接方法和对称方法都比信道atten- tion机制实现更好的性能。这证明了空间转换在共同注意中的重要性此外，与普通共同注意相比，我们发现对称共同注意的表现略好。我们把这归因于正交约束，它减少了特征冗余，同时保持了特征的范数不变。共同注意机制的作用。当排除共同关注模块并仅使用基本特征嵌入网络（DeepLabv 3）时，我们观察到显著的性能下降（DAVIS中的平均J提高我们战略的有效性，注意力机制，从全局角度对UVOS进行建模。关注总结融合vs预测融合。由方程式13，我们通过对相应的共同注意力摘要进行平均来融合来自其他参考帧的信息到为了验证其有效性，我们实现了另一种替代方案方法NLC [14]FST [42]FSEG [24][21]第二十一话ARP [30]平均J44.555.568.460.859.8方法IET [32]OBN [33][49]第四十九话SFL [9]COSNet平均J71.973.974.056.075.6表4.使用区域相似性（平均值J）对FBMS [41]（§4.3）证明了共同关注的重要性。当N从2变到5时，定量结果显示性能提高.当我们进一步增加N时，最终性能没有明显变化我们在评估实验中将N的值图5进一步可视化了越来越多的推理帧的定性分割结果。当N= 0时，特征嵌入模块已经学会区分前景目标与背景。然而，当类似的物体干扰物出现时（例如，第一行中的在这种情况下，所提出的共同关注机制可以指远程基线预测融合：Ya=1Nn=1 是的，也就是说，二-拍摄和捕捉主要对象，从而有效地支持，通过考虑不同的参考帧来正确地平均预测。表1中的结果证明了特征嵌入空间中融合的优越性。不同帧选择策略的比较。为了研究测试阶段的帧选择策略对最终预测的影响，我们进一步使用不同的采样方法进行了一系列实验具体地说，我们采用了全局随机抽样、全局均匀抽样和局部连续抽样。从表1中可以看出，两种全局水平采样策略都达到了近似的性能，但优于局部采样方法。同时，基于局部采样的结果仍然优于从骨干网络获得的结果。总体比较进一步证明了纳入全球背景的重要性。参考帧数量的影响。还感兴趣的是评估参考帧的数量N对最终性能的影响。表2显示了结果。当N等于0时，这意味着按下类似的目标分心。4.3. 定量和定性结果DAVIS 16的评价[45]。表3显示了总体结果，其中所有顶级性能方法均来自DAVIS 2016基准 1[45]。COSNet在大多数指标上优于所有报告的方法。与第二好的方法PDB [49]相比，我们的COSNet在J均值和F均值上分别获得了2.6%和4.9%的增益。在表3中，其他几个基于深度学习的状态现有技术的UVOS方法[9，52，24，53，33]利用了应用程序以及额外的运动信息来提高性能。与这些方法不同的是，建议COSNet只利用外观信息，但取得了优越的性能。我们将我们的绩效改进归因于通过共同注意机制考虑更多的时间信息。与利用光流捕捉连续时间信息的方法相比，充分利用时间信息是没有共同关注的细分。我们观察到一个巨大的-当N从0变为1时，1https://davischallenge.org/davis2016/soa_compare.html[17个][五十一][三十一][第四十届][14个][9]第一章[第四十二届][28日][五十二][24日][五十三][30个][49个]是说47.348.249.853.355.155.255.867.470.070.775.976.277.280.5J召回49.354.059.161.655.857.564.981.485.083.089.191.190.194.0衰减8.310.514.12.412.62.20.06.21.31.50.07.00.90.0是说44.144.742.750.852.355.251.166.765.965.372.170.674.579.4F召回43.652.637.560.061.051.951.677.179.273.883.483.584.490.4衰减12.911.710.65.111.43.42.95.12.51.81.37.9-0.20.03631图6.三个数据集的定性结果（§4.3）。从上到下：dance-twirl来自DAVIS 16数据集[45]，horses 05来自FBMS数据集[41]，bird0014来自Youtube-Objects数据集[47]。方法FST COSEG ARP LVO PDB FSEG SFLCOSNet[第四十二届][55个][30个] [五十三] [49个][24][9]第二十四话Cat）。尽管后一类中的物体经常经历形状变形和快速外观变化，鸟（6）70.676.056.1 81.0 80.063.8 65.475.7游艇（15）42.553.557.8 68.5 58.972.3 59.9汽车（7）70.433.9 69.3 76.574.9 64.0七十七点六类别（16）52.1 六十六点八 30.5 58.8 63.0 68.4 58.9奶牛（20）44.549.041.8 68.5 64.168.0 51.1六十九点八狗（27）65.347.536.8 61.7 70.169.4 54.176.8马（14）53.555.744.3 53.9 67.660.4 64.8六十七点四摩托车（10）44.239.548.9 60.8 58.362.7 52.6火车（5）53.439.2 66.3 35.262.2 34.046.8平均J53.858.146.2 67.5 65.4 68.4 57.070.5表5.Youtube上每个类别的定量表现-对象[47]（§4.3）与区域相似性（平均值J）。我们显示了数据集中10个类别中每个类别的平均性能，最后一行显示了所有视频的平均值当处理类似的目标干扰时，从全局观点来看，相关性是清楚的。对FBMS的评价[41]。为了完整性，我们还在FBMS数据集表4显示，我们的COSNet比最先进的方法性能更好（平均J为75.6%）[14，42，24，21，30，32，33，49，9]。在除了RGB输入之外，大多数竞争方法都利用附加的光流信息来估计分割掩模。考虑到FBMS中大量的前景物体与背景具有相似的外观，但具有不同的运动模式，光流信息显然有利于预测。相比之下，我们的COSNet只利用了原始的RGB信息，并取得了更好的性能。对Youtube-Objects的评价[47]。表5显示了不同类别的所有比较方法的结果。我们的方法优于所有比较方法[42，55，30，53，49，24，9]的大幅度。FSEG在平均J度量下表现第二好值得注意的是，Youtube-Objects数据集共享类别FSEG中的训练样本，这有助于增强性能[24]。此外，Youtube-Objects中的所有类别可以分为两种类型：网格对象（例如，飞机、火车）和非网格对象（例如，伯德COSNet可以捕获长期依赖性，并比所有比较方法更好地处理这些情况。定性结果。图6显示了三个数据集的定性结果。DAVIS16 [45]包含许多具有快速运动、变形和同一类别的多个实例的chal-challening视频。我们可以看到，所提出的COSNet可以通过利用共同注意机制来考虑全局时间信息，从而紧密地跟踪主要区域或目标共同注意机制有助于所提出的COSNet从杂乱的背景中分割出主要对象。有效性也可以在Youtue-Objects数据集的bird 0014序列中看到另外，我们观察到一些视频包含多个移动目标（例如，horses05 ）在 FBMS数据集，和建议COSNet可以很好地处理这样的场景。5. 结论通过将UVOS视为时间相干捕获任务，我们提出了一种新的模型COSNet来估计主要目标。通过交替的网络训练策略与显着性图像和视频对，所提出的网络学习区分主要对象从背景中的每一帧，并捕获跨帧的时间相关性。该方法在三个有代表性的视频分割数据集上取得了较好的分割效果。大量的实验结果表明，该方法可以有效地抑制相似目标的分散，即使在分割过程中没有注释COSNet是用于处理序列数据学习的通用框架，并且可以容易地扩展到其他视频分析任务，诸如视频显著性检测和光流估计。致谢本工作得到了国家重点研发计划（2016YFB1001003）、STCSM（18DZ1112300）和澳大利亚研究委员会飞机（6）70.969.373.6 86.2 78.081.7 65.6八十一点一3632引用[1] 薛白，王爵，大卫·西蒙斯，吉列尔莫·萨皮罗。视频快照：使用局部化分类器的鲁棒视频对象剪切。TOG，28（3）：70，2009. 2[2] Linchao Bao ， Baoyuan Wu ， and Wei Liu. CNN inMRF：基于CNN的高阶时空MRF中的视频对象分割。在CVPR，2018年。2[3] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。使用内省对抗网络进行神经照片编辑。在ICLR，2017。4[4] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析的对象分割。ECCV，2010年。2[5] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR，2017年。二、三[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。四、五[7] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. SCA-CNN：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。三、四[8] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线在CVPR，2018年。二、三[9] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。InICCV，2017. 二、六、七、八[10] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569-582，2015。五、六[11] 肖楚，杨伟，欧阳万里，马成，李伟。 Yuille 和Xiaogang Wang.用于人类姿态估计的多上下文注意。在CVPR，2017年。3[12] 海慈、淳于王、益州王。通过学习位置敏感嵌入的视频对象分割。在ECCV，2018。3[13] Misha Denil ， Loris Bazzani ， Hugo Larochelle ， andNando de Freitas.学习在何处使用深度架构进行图像跟踪。Neural Computation，24（8）：2151-2184，2012.3[14] Alon Faktor和Michal Irani。基于非局部一致性投票的视频分割。InBMVC，2014. 二七八[15] 方浩树，曹金坤，戴玉荣，陆策武。用于识别人与物体交互的成对身体部位注意力。在ECCV，2018。3[16] 卡特琳娜·弗拉基亚达基，巴勃罗·阿贝莱斯，帕纳·费尔森，和吉坦德拉·马利克.学习分割视频中的移动对象CVPR，2015。2[17] Katerina Fragkiadaki，Geng Zhang，and Jianbo Shi.通过跟踪轨迹嵌入中的不连续性来进行视频分割。CVPR，2012。二、七[18] Huazhu Fu，Dong Xu，Bao Zhang，and Stephen Lin. 基于对象的多前景视频联合分割。CVPR，2014。23633[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Ji

下载后可阅读完整内容，剩余1页未读，立即下载