无监督视频对象分割中的互逆变换网络简介及应用分析

81 浏览量更新于2024-01-22 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15455无监督视频对象分割任苏成1，刘文喜2，刘永拓1，陈浩鑫1，韩国强1，何胜峰11华南理工2福州大学摘要无监督视频对象分割（UVOS）的目的是在没有任何人为干预的情况下，对视频中的主要对象进行分割.由于缺乏关于主要对象的先验知识，从视频中识别它们是UVOS的主要挑战。以往的方法往往把运动对象作为主要对象，依靠光流信息来捕捉视频中的运动线索，但光靠光流信息不足以区分主要对象和一起运动的背景对象。这是因为，当噪声运动特征与外观特征组合时，主要对象的定位被误导。为了解决这个问题，我们提出了一种新的互逆变换网络，通过关联三个关键因素来发现主要对象：帧内对比度，运动线索和重复出现对象的时间相干性。每一个都对应于主要对象的代表性类型，我们的互惠机制使它们能够有机协调，有效地从视频中消除模糊的干扰。另外，为了从运动特征中排除背景运动物体的信息，我们的变换模块能够对外观特征进行逆变换，增强运动特征，从而达到聚焦的目的。对具有显著外观的运动对象进行处理，同时去除共同运动的离群点。在公共基准上的实验表明，我们的模型显着优于最先进的方法。代码可在https://github.com/OliverRensu/RTNet上获得。1. 介绍视频对象分割（VOS）的目的是定位和分割视频中的对象。作为计算机视觉的基础任务之一，视觉操作系统有着广泛的应用. 、物体跟踪[22，30，51]自动驾驶[5，13]、视频监控[45]。具体而言，现有的VOS技术可以大致分为：半监督通讯作者（hesfe@scut.edu.cn）。输入光流预测我们的GT从流图1：基于光流分割主要对象我们通过将外观特征快速转换为运动特征来解决这个问题，从而避免了误导性的运动信息破坏主要目标的定位视频对象分割[14，32，56]，其中主要对象的分割掩模在第一帧给出，以及无监督视频对象分割（UVOS）[31，47，48，60]，其目的是在没有任何先验知识的情况下提取主要对象的掩模本文主要研究了UVOS的任务.由于缺乏先验知识，UVOS模型必须处理识别视频中主要对象来源的主要问题我们观察到，有三种类型的候选主要对象：在一个单一的帧中的显着对象，移动的对象，并在视频中重复出现的一般来说，人类的注意力会被吸引到图像中的显著对象[18，28，52]上，因此这些视觉上不同的对象可能是候选的主要对象。然而，这些方法可能不适用于识别视频中的主要对象，因为人类的注意力将自然地转移到视频中的各种动态或运动模式[9，37]。因此，在单个帧中模糊但在视频中移动的对象可以是根据运动线索的主要对象，但被基于图像的模型忽略此外，人们还倾向于记住视频中重复出现的对象，因此这些对象可以被视为另一种类型的主要对象。先前的方法[24，65]应用光流来捕获运动信息。然而，光流几乎不能15456将动态背景对象与前地对象区分开。例如，在图1中，仅通过光流将汽车和广告牌或人和喷雾分类为前景和背景是不明确的。因此，直接将这些运动线索映射到外观特征[24，65]可能会在定位主要对象时误导UVOS模型。为了解决上述限制，我们提出了一个统一的框架，互易变换网络（RTNet），以确定主要对象以外的distrac- tion的共同移动的离群值。我们的想法是相互进化和整合网络中的外观和运动表示，使所有三种类型的候选主要对象可以被考虑在内，并产生一个整体的决定。为此，我们提出了一个相互转换模块（RTM）内的网络，使能域内和跨域的功能交互。特别地，所提出的互逆变换方案计算所有成对特征的相似性，包括运动-运动、外观-外观和外观-运动特征对。底层信息将相互转换，以便补充外观/运动对象表示，并从不一致的外观或不准确的光流中去除模糊性。将所提出的RTM应用于不同的源特征导致不同类型的主要对象属性，即。1）外观和运动特征的自相似性导致帧内对比; 2）外观-运动相似性产生运动提示;以及3）跨帧外观-外观和运动-运动特征相似性产生时间相干性。每一个都对应于三种主要对象中的一种。此外，不是像FCN [29]那样简单地跳过连接编码器和解码器，我们提出了一种时空注意融合模块（STAFM）来利用来自相应编码器级的外观和运动特征，并分割时空一致的主要对象。在实验中，我们评估我们的方法对国家的最先进的方法在公共基准DAVIS [34]上进行，并在区域相似性J上实现4%的性能增益，在边界精度F上实现5%的性能增益，优于第二好的方法[65]。总而言之，本文的贡献有三个方面：• 我们深入研究了视频中的三种主要对象，并提出了一种新的互易变换网络（RTNet），它能够有效地利用视频中的内部对象，帧对比度、运动提示和重现对象的时间相干性，以从视频中识别和分割主要对象。• 为了消除光流中的共现运动离群点，提取具有显著外观的运动目标，提出了一种新的互易变换，运动特征的方法，该方法将外观特征相互演化为运动特征。• 我们提出了一个时空注意融合模块（STAFM），选择性地整合外观和运动特征。• 我们的方法在公共基准测试中显着优于最先进的方法。即使我们使用一个更小的骨干和更少的训练数据，我们的轻型型号仍然可以达到与最新竞争对手相当的2. 相关工作在本节中，我们将综述视频对象分割以及注意力机制方面的工作2.1. 视频对象分割现有的视频对象分割方法可以分为两大类：半监督视频对象分割和非监督视频对象分割。半监督视频对象分割。半监督VOS方法假设在第一帧处提供目标对象的真实掩模。这些方法可以进一步分为两种类型，也就是说，在线学习方法[1，4，7，26]和离线学习方法[6，20]。在线学习方法基于给定的地面真实掩码微调相反，离线学习方法利用给定的掩码作为指导，在推理时更新预训练模型。尽管性能优越在半监督VOS方法中，注释地面实况掩模涉及人工努力并且可能引入偏差，这限制了其在真实世界场景中的应用。无监督视频对象分割。与半监督VOS方法相比，UVOS方法不需要任何人工注释。早期UVOS冰毒ODS主要基于对象建议[21，23]，时间轨迹[3，11，33]和显着性先验[19，53，54]。随着深度卷积神经网络的发展和大规模数据集的建立[34]，提出了基于深度学习的方法来建模时空信息。为了捕获运动线索，MP-Net [46]仅关注光流，但由于外观信息不足，难以分割静态对象此外，有几种方法使用两个流网络来捕获并融合外观和运动特征。Fragkiadaki等人[10]使用全连接层来整合光流和静态边界，以对分段建议进行排名。MBN [25]包括用于背景估计的双边网络，并将其与外观特征集成到图中。此外，为了捕获长期的时间信息，有几种方法[43]处理15457M2M1的1一个2图2：交互转换网络的图示，它由两个网络流组成：外观流和运动流。一对帧{I a1，I a2}和它们对应的光流{Im1，I m2}分别被馈送到两个流中。为了将空间域和时间域的特征关联起来，我们提出了互易变换-转换模块（RTM）来转换运动特征，fi（i={1，2}），以及外观特征Fi和Fi.给定成对特征，RTM实现域内和跨域特征交互，用于识别单帧、移动对象和重复出现的对象。最后，外观特征和运动特征通过时空注意融合模块（STAFM）进行融合，并馈送到外观流的解码器以生成最终的掩模。基于RNN架构的视频。Song等人[43]介绍了一种双向ConvLSTM [41]，用于提取多帧的特征。然而，基于RNN的模型遭受梯度消失问题，并且它们难以并行运行。此外，基于注意力的方法被提出用于捕获长范围依赖性。COSNet [31]提出了一个共同关注层来提取短视频中的ADNet [60]介绍了一个锚定框架来模拟长期依赖性。MATNet [65]使用关注运动的过渡来对运动信息和时空表示进行建模。与以往的工作不同，我们的互惠transformations利用长距离帧内对比度，时间相干性，和运动外观相似性，以提高外观特征表示。注意力机制。注意力机制由于其灵活性在许多任务中已被证明是有效和高效的[27，40，49，63]。注意机制的核心思想是在特征中突出任务特定的区分区域。视频的注意力方案已经在许多方面进行了探索，包括门控或池化[14，32]，姿势基元[2，15]，图形表示，[17，57]，循环记忆模型[31，39]，和自我-注意[56]。与以前的工作相比，我们提出的模型测量帧和流的任何一对特征图的相似性，并将相似性相互转换。3. 该方法3.1. 系统概述给定视频中的一对帧{Ia1，Ia2}以及由[44]计算的它们的对应光流{Im1，Im2}，我们的目标是分割Ia1和Ia2内的主要对象。图2显示了我们方法的流水线，它由两个主要流组成：以{Ia1，Ia2}为输入的外观流和以{Im1，Im2}为输入的运动流每个流都是一个具有跳过的编码器-解码器架构连接[38]。具体来说，我们采用ResNet [16]和扩张卷积[61]作为主干。在编码器的每一级，我们引入了一个互逆变换模块（RTM），FRTM。RTM是我们框架的主要组成部分，它由三个子模块组成：互反缩放，互反变换，互易选通我们将在SEC中详细说明。3.2.因此，我们利用RTM来增强成对外观，STAFMSTAFMSTAFM多个RTMDCSTAFM1扩张卷积级联2C12DC11DC11DC22D1212111112STAFMSTAFM头部转换头部转换Stage1Stage1RTMRTMRTMRTMRTMRTMRTMRTMRTMStage2Stage2阶段3第四阶段3多个RTM第四Conv4Conv4Conv3Conv3Conv2Conv2Conv1Conv115458′′Ba这表明了语义学的重要性：Ac=Fc（Fa;Fb），w1=σ（FC（φ（FC（Ac;θ1）;θ21），w2=σ（FC（φ（FC（Ac;θ1）;θ22），（一）图3：我们的倒数转换模块（RTM）包括倒数缩放，倒数转换和互易选通和其中Fc指的是级联和压缩（即，全局平均池化）操作。FC（·;θ）是指全连接层，φ是ReLU激活函数。因此，我们根据w1和w2缩放特征Fa和Fb的通道：′阳离子和矩阵乘法分别。运动特征用于识别三种类型的候选主要对象，即，帧内的显著对象、移动对象和视频中的重复出现的对象，这将在第2节中描述。三点三Fa=w1<$Fa+Fa，′Fb =w2<$Fb+Fb，其中，n是元素乘法。3.2.2相互转化（二）最后，在运动流的解码器网络中，跳过连接将低级编码特征与对应的解码层桥接，而外观流的解码器利用空间时间注意融合模块（STAFM）（第12节）。3.4）融合外观和运动特征以产生最终结果。3.2. 相互转换模块在本节中，我们将描述Recipro的结构cal转换模块（RTM）（见图3）。给定两个特征（表示为Fa和Fb，其可以是来自外观或运动特征的任何一对），我们可以经由RTM相互进化和集成成对特征。如以下小节中所述，我们的RTM包括三个子模块：用于调整不同语义的权重的倒数缩放，用于测量特征图之间的相似性的倒数变换，以及用于平衡变换后的特征的倒数门控。在这个子模块中，我们的目标是测量特征图之间的相似性，并转换两个特征以增强表示。在解释我们的互易变换之前，我们先介绍了香草自变换和非互易变换的原理.香草自我改造基于标准全卷积网络（FCN）的方法[29]的局部感受野限制了网络在需要丰富上下文信息的分割任务中的能力。为了捕获长程依赖性，Wangetal. [56]提出了自注意方案，利用特征映射来度量与自身的整体相似性，从而估计其注意力。非互易变换。非互易变换被设计为计算不同特征图之间的整体相似性，并设法将信息从一个特征传递到另一个特征。基于不同来源的特征考虑到′查询Fa∈ R的映射c×w×h并且目标特征图3.2.1倒数缩放′Fb∈R c×w ×h，它度量整体位置相似性在深度神经网络中，特征通道代表不同的语义[12]。因此，可以相应地缩放通道的值，以便桥接不同源的特征对不同主要对象特别是，由于运动特征主要集中在移动对象上，而外观特征集中在显著对象上，因此相互缩放能够弥合它们的注意力差距。类似地，对于两个不同帧的外观特征，倒数缩放可以使它们能够矩阵S使用非局部网络结构：S= Softmax（F′ TWF′），（3）其中W∈ Rc× c是相似矩阵.实际上，W包含大量可训练参数。减少网络复杂度，我们通过两个单独的卷积运算来近似WFθ a=Conv（F;θa），a a把注意力放在不同的物体上。为了做到这一点，我们挤压（四）组合特征图以生成代表值Fb=Conv（Fb，θb），并估计缩放因子w，S=Softmax（F′T′）c1 2a→bB×Fa），倒数缩放相互转化互易门控′′′15459M1M2′M1M2M1M2a→a12M1M2m→a11M1M2其中Conv（F;θ）是具有参数的卷积层以及运动特征Fifi从Corre-特征图F上的参数θ和×指的是矩阵乘法算子。然后，我们根据到整体位置相似性矩阵S：响应光流{I m1，I m2}。显著的物体。为了识别单个帧中的显著对象，利用RTM来获得帧内对比度，测量外观特征的自相似性，或者′′ ′Fa→b=Conv（Fa，θxa）×Sa→b，（5）运动特征，可以表示如下。′′ ′Xi=F（Fi，Fi;θ），其中Fa→b是来自相互作用的Fba1→a1RTMa1a1a具有特征Fa.Xi=FRTM（Fi，Fi;θa），相互转化。与非互易变换不同，我们的互易变换使用两个特征来相互补偿，即：a2→a2我m1 →m1im2→m 2一个2=FRTM（Fi=FRTM（Fi一个2i;θm），i;θm），（九）′′ ′其中X是Xi表示自相似性Fa→b=Conv（Fa，θxa）×Sa→b，a1→a1a2→a2（六）的外观特征F i 和Fi. Xi和′′ ′a1a2m1→m1Fb→ a =Conv（Fb，θ xb）×Sb→a。我m2 →m2是运动特征Fi使用倒数变换，可以在不同来源的特征之间加强运动提示。具体地说，我们可以先将运动特征转换为外观特征，以提高对运动目标的分割能力，然后将外观特征转换为运动特征，以消除和Fi.θa，θm是相应的RTM。循环对象。为了识别重现对象，将测量输入帧之间的时空相关性，以便捕获两个单独帧中的长范围依赖性因此，我们有：共同移动的离群值Xi，Xi=FRTM（Fi，Fi;θaa），a1→a 2a 2→a 1Xi，Xia1a2= FRTM（F i ，Fi;θmm），（十）3.2.3互易门控m1→m2m2→m1m1m2其中X是我a2→a1 这两个人之间的相似性变换后的特征通常具有不同的IM程度两个帧Fi和Fi的外观特征。Xia1a 2m 1→m 1重要性例如，外观或运动噪声，如我m2→m2 指的是运动fea之间的相似性背景变化或运动模糊应当被视为不太重要的干扰物。因此，我们设计了一个往复式门控机制来平衡不同的转换特征：两个框架的图，F i和Fi.移动物体。通过计算显著外观和运动特征的相似度，将运动特征和外观特征联系起来，识别运动目标。′′Ga=σ（Conv（Fa→b′′′′A→B→A′′;θ1）），（七）动作提示同样，通过将运动特征与外观特征相关联，我们可以消除共同运动Gb=σ（Conv（Fa→b<$Fb→a;θ2）），离群值：Xi，Xi=FRTM（Fi，Fi;θam），其中，σ是连接运算，σ是sigmoid功能Ga，Gb∈（0，1）是平衡的倒易门m1→a1Xia1→m1，Xia1m1=FRTM（Fi，Fi ;θam），（十一）变换的特征。因此，我们将这些门应用于原始特征：m2→a2其中X是a2→m2我a1 →m1a2平方米两者之间的相似性运动和外观特征，Fi和Fi。 Xi′′ ′′辆m1a1m2→a2Xa→b=Gb<$F a→b +Fa→b，我a2→m2 指的是运动之间的相似性，′′ ′′（八）外观特征，F i和Fi.Xb→ a=Ga<$Fb → a+ Fb →a。m2a2其中Xa→b，Xb→a是最终的特征图。XX、F、FX和X和X和X和X15460=F=F=F我我我因此，最终的外观特征是帧内对比度、时间相干性和运动提示的关系，如下所示：3.3. 基于RTM的视频对象分割根据输入功能，RTM能够相互作用和增强不同来源的功能，以识别我我a1a1我我a2a 2我a 1 →a 1 ia2→a2我a2→a1我a1→ a2m1→a1，m2 →a2。（十二）在一个单一的帧中，移动物体，和重复出现的对象。一般来说，在类似地，运动特征定义如下。第i级的编码器网络，我们得到的出现-我我m1m1我m1 →m1我m2 →m1a1→m1，（十三）ance featuresFi fi从输入帧{Ia，Ia}，Xi=Fi+Xi+Xi+X i.a1a 21 2m2m2m2→m2m1→m2a2→m2XX+X+X+X+X+X+XX+X+X+X15461C一AvgPool表示平均池化层。然后，我们利用注意力地图来融合外观和运动特征，如下所示。′′ ′ ′ ′ ′′′其中XaXa =Pa<$Xa+Pm<$Xm，（17）是将被传递到图4：我们的时空注意力融合模块（STAFM），包括通道注意力和空间注意力。和3.4. 时空注意融合模块受CBAM [59]的启发，我们的目标是通过通道注意力和空间注意力选择性地融合就像-如图4所示，利用外观特征Xa∈Rc×w ×h和运动特征Xm∈Rc×w ×h，我们设计了一种门控机制来调整每个通道的权重外观网络流的解码器。3.5. 损失函数我们采用与BASNet [36]相同的损失函数，通过交叉熵损失[8]联合测量像素级别的预测，通过SSIM损失[58]在补丁级别，以及通过IoU损失[62]在区域级别：L（M，G）=lce（M，G）+lslim（M，G）+liou（M，G），（18）其中，M表示分割掩码，G表示地面实况。给定一对图像Ia1、Ia2和它们对应的光流Im1、Im2，我们具有来自解码器的四个级的四个因此，总损失定义如下：对于所有的特征图：Σ2 Σ4L=L（Mj，Gj）+L（Mj，Gj）的。（十九）Ac=Fc（Xa;Xm），wc=σ（FC（φ（FC（Ac;θ1）;θ2），wa=wc，wm= 1−wc，（十四）i=1j =14. 实验阿一阿一米米米c c4.1。实施细节和数据集其中Fc是级联和压缩操作。FC（X;θ）是一个完全连接的层，φ是ReLU活动。vation函数完全连接的层和这些激活功能共同作为激励操作。{w c∈（0，1）|w c∈ Rc}是指通道门。因此，我们使用通道门来增强运动和外观特点如下：实施细节。在下面的实验中，我们使用ResNet-34和ResNet-101作为骨干网络来测试我们的模型我们分别在显着性检测数据集DUTS [50]和视频对象分割数据集DAVIS-16 [34]数据集上预训练我们的外观流和运动流，而不使用变换和融合模块。然后我们冻结主干网′一个工程和培训的转换模块和功能Xa=wc<$Xa，′Xm=wmXm（十五）、DAVIS-16数据集上的融合模块在上述训练期间，学习率设置为1 e-3，我们微调了此外，我们还利用运动和外观特征之间的空间关系来推断空间注意，从而指导运动和外观特征的自适应融合。为此，我们首先计算空间′外观特征X和运动特征′Xm通过渠道关注增强：整个模型的学习率为5e-4。我们应用SGD作为优化器，动量为5e-4。在训练过程中，我们在同一视频中随机采样帧对。我们采用的数据论证策略包括垂直/水平翻转和多尺度训练。在测试时，为了产生主对象的分割掩模，目标帧，我们随机选择另一帧在同一′ ′Pa =MaxPool（Xa）<$AvgPool（Xa），视频作为参考。根据[31]的实践，我们P′ ′采用基于CRF的后处理技术。m=MaxPool（Xm）AvgPool（Xm），′P=σ（Conv（Pa <$Pm;θp）），（十六）数据集。我们在两个公共数据集上评估了我们的方法：DAVIS-16 [34]包含50个 48 0 p 的高质量视频′ ′ ′ ′外观特征��′信道1−��关注空间1−1′关注融合特征Moti on功能15462Pa=P，Pm= 1−P，其中，Pa和Pm表示和720 p，具有高质量的密集像素级注释和YouTube-Objects [35]包含超过20，000帧的126个视频我们采用区域相似-′ ′Xa Xm。 MaxPool表示最大池化层粗糙度J和边界精度F作为评价指标。15463图5：DAVIS-16的定性结果：霹雳舞、跳高和旋转舞JF方法骨干平均召回率平均召回率LMPFLowNet70.085.065.979.2LVODeepLab75.989.172.183.4PDBResNet-5077.290.174.584.4LMSOResNet-10178.289.175.984.7MOTAdapt ResNet-10177.287.877.484.4AGSResNet-10179.791.177.485.8COSNetResNet-10180.593.179.589.5AdnetResNet-10181.790.980.585.1MATNetResNet-10182.494.580.790.2DFNetDeepLab83.4-81.8-我们的光ResNet-3484.8 95.883.5 93.1我们ResNet-10185.696.184.793.8表1：DAVIS-16的定量结果res-m表示主干中的层数。表现最好的三名选手分别用红色、绿色和蓝色标记4.2. 与最新技术水平的比较我们与以前的方法进行比较：LMP [29] LVO [47]，PDB [43]， LSMO [48]， MOTAdapt [42]，AGS [55]，COSNet [31]，ADNet [60]，MATNet[65]，DFNet [64].对DAVIS-16的评价。我们用最先进的无监督视频对象分割方法评估我们的RTNet。定量结果报告于表11.一、LMP [29]试图仅基于光流来预测主要对象。但由于缺乏外观特征，这种方法在定位和分割主要目标时性能最差。一些方法[31，43，60]依赖于外观特征，而没有光流的指导，也实现了相当的性能，因为这些方法基于时空架构（如ConvLSTM）按顺序提取外观特征。其中，COSNet [31]和AD-Net [60]利用注意力机制并显示出强大的建模全局序列信息的能力。AGS [55]需要额外的视觉注意力注释，并且更强大-定位主要对象。包括我们在内的更多方法[47，48，65]同时考虑了外观特征和运动特征。通过互逆变换，我们的方法能够识别出所有类型的候选主对象。特别是，我们使用ResNet- 34作为主干的轻量级模型（J为2.91%，F为3.47%。MATNet使用ResNet-101作为骨干，大约12 k视频帧用于训练，我们的轻量级版本模型采用ResNet-34作为骨干，大约2k帧用于训练。我们使用ResNet-101的完整模型（它实现了0.94%的J超过我们的轻量级重量模型和3.88%的J超过第二个最好的模型。图5显示了我们在DAVIS-16上的定性结果，其中包含复杂背景和运动模糊等具有挑战性的场景。我们的RTNet精确地捕捉到主要对象的位置，并将它们与尖锐的边界- aries，这要归功于变换后的帧内对比度，移动线索和时间相干性。特别是在霹雳舞中，由于舞者身后站着大量外形相似的人，因此该方法的有效性尤为明显。此外，通过多阶段的相互变换，可以准确分割出跳跃高度YouTube上的评价对象。我们在表2中报告了我们的RTNetet在YouTube-Objects数据集上的性能。我们的方法实现了最好的性能超过区域相似性下的所有比较方法J.对于背景模糊的慢速运动物体（如飞机和船），光流场的计算比较困难的模型（即MATNet）来捕获主要对象，而我们的模型融合了时间相干性和帧内对比度信息，从而显著优于MATNet。对于具有显著外观的运动对象（即，，鸟和猫），基于运动的方法，包括我们和MATNet优于基于外观的方法（即。COSNet）。15464模型平均JJ平均F F基线七十七点五十三分-76.26-非互易83.01 5.5182.19 5.93互惠83.74 6.2182.57 6.31表4：相互作用机制的消融研究。模型平均J J平均F FOurs w/o STAFM84.15-82.89-Ours w/STAFM84.31 0.1683.01 0.12表5：STFAM的消融研究。表2：YouTube上每个类别的定量结果-区域相似性对象数据集（平均值J）。模型平均JJ平均F F基线七十七点五十三分-76.26-基线+S78.190.6677.301.04基线+M83.015.4882.195.93基线+R79.572.0479.222.96基线+SM83.515.9881.975.71基线+SR80.112.5879.953.69基线+MR83.435.9082.446.18基线+SMR83.96 6.4382.65 6.39表3：三种主要对象的消融研究。S、M、R分别指示帧内显著对象、移动对象和再现对象4.3. 消融研究我们的消融实验是基于我们的轻量级模型进行的，没有对DAVIS-16数据集应用CRF后处理操作。主要对象。我们评估我们提出的模型的有效性，帧内显着性，移动的线索，和时间的连贯性。结果报告于表3中。我们使用香草编码器-解码器架构，没有任何转换或特征融合模块作为基线。然后，我们搜索三种候选主要对象，并对局部显著对象的帧内对比度特征（记为S）、运动对象的运动特征（记为M）和重复出现对象的时间相干性（记为R）进行变换。一方面，我们发现，识别的三种主要对象都有助于整个模型的性能增益，而考虑多一种主要对象。另一方面，我们发现性能的改善是最明显的。因此，相对于原始对象，运动对象在原始对象中起着最重要的作用。突出的对象和重复出现的对象。互惠机制。我们研究了运动特征转换为外观的质量，以显示我们的运动特征和外观特征之间的相互转换的有效性。我们采用了香草编码器-解码器架构，没有转换任何运动功能的基线。然后，我们直接从运动流中转换运动特征，而不需要显著的非互易性。此外，我们的相互转换之间的外观和运动与移动的主要对象作为相互转换。结果报告于表4中。STAFM。为了评估我们的STAFM的有效性，我们比较了我们的RTNet与STAFM（Ours w/ STAFM）的性能，模型只是简单地跳过连接两者运动和外观特征（我们的无STAFM）。结果报告于表5中。我们的STAFM的增益来自于关键的空间和时间特征的融合，同时去除冗余的功能。5. 结论在本文中，我们提出了一种互逆变换，通过搜索帧内相关性、运动和外观特征之间的相关性以及外观特征的时间相关性来识别三种主要对象：显著对象、重复对象和运动对象此外，为了滤除背景运动目标，该算法将运动目标的外观特征转换为运动特征，滤除外观特征明显的运动目标。最后，我们提出了一个时空注意特征融合模块，动态和选择性地融合空间和时间特征。确认本课题得到了国家自然科学基金（No.61972162，62072110）、福建省自然科学基金（2018 J 07005）和CCF-Tencent开放研究基金的资助。类别LVO PDB MATNet AGS COSNet Ours飞机86.278.072.987.781.184.1鸟81.080.077.576.775.780.2船68.558.966.972.271.370.1车69.376.579.078.677.679.5猫58.863.073.769.266.571.8牛68.564.167.464.669.870.1狗61.770.175.973.376.871.3马53.967.663.264.467.465.1摩托车60.858.362.662.167.764.6火车66.335.251.048.246.853.3平均J67.565.469.069.770.571.015465引用[1] 包林超，吴宝源，刘伟。Cnn在mrf中的应用：基于cnn的高阶时空mrf中的视频对象分割。在CVPR中，第5977-5986页，2018年。2[2] Fabien Baradel，Christian Wolf，和Julien Mille.人类动作识别：基于姿势的注意力将注意力集中到手部。在IEEE计算机视觉研讨会国际会议论文集，第604-613页，2017年。3[3] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析进行在《欧洲法院判例汇编》，第282- 288295. Springer，2010. 2[4] 塞尔吉·凯利斯、凯维斯·科基齐·马尼尼斯、乔迪·庞特·图塞特、劳拉·里尔·塔伊·克雷默斯和吕克·V·安·古尔。单镜头视频对象分割。在CVPR中，第221-230页，2017年。2[5] Chenyi Chen ， Ari Seff ， Alain Kornhauser ， andJianxiong Xiao. Deepdriving：学习自动驾驶中直接驾驶的启示。在ICCV，第2722-2730页，2015年。1[6] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.基于像素度量学习的快速视频对象分割。在CVPR中，第1189-1198页，2018年。2[7] 郑景春、蔡义宣、王胜金、杨铭宣。Segflow：视频对象分割和光流的联合学习。在ICCV，第686-695页，2017年。2[8] Pieter-Tjerk De Boer，Dirk P Kroese，Shie Mannor，andDauven Y Rubinstein.关于交叉熵方法的教程。Annals ofOperations Research，134（1）：196[9] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR中，第8554-8564页，2019年。1[10] 卡特琳娜·弗拉基亚达基，巴勃罗·阿贝莱斯，帕纳·费尔森，和吉坦德拉·马利克.学习分割视频中的移动对象在CVPR，2015年6月。2[11] Katerina Fragkiadaki，Geng Zhang，and Jianbo Shi.跟踪轨迹嵌入中的不连续性进行视频分割.见CVPR，第1846-1853页。IEEE，2012年。2[12] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhiwei Fang，and Hanqing Lu.双注意力网络在场景分割中的应用。在CVPR中，第3146-3154页，2019年。4[13] A. Geiger，P. Lenz，和R.盖革，等.乌塔松准备好自动驾驶了吗？Kitti Vision基准套件。在CVPR，第3354-3361页，2012年。1[14] Rohit Girdhar和Deva Ramanan动作识别的注意力集中。在NeurIPS，第34-45页，2017年。第1、3条[15] Rohit Girdhar，Deva Ramanan，Abhinav Gupta，JosefSivic，and Bryan Russell. Lvvlad：学习时空聚合用于动作分类。在CVPR中，第971- 980页，2017年。3[16] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在CVPR中，第770-778页，2016年。3[17] Roei Herzig，Elad Levi，Huijuan Xu，Eli Brosh，AmirGloberson，and Trevor Darrell.用时空动作图网络对碰撞进行分类。arXiv预印本arXiv：1812.01233，2，2018。3[18] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip HS Torr.具有短连接的深度监督在CVPR中，第3203-3212页，2017年。1[19] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing.基于运动显著性引导时空传播的无监督视频对象分割。在ECCV中，第786-802页，2018年。2[20] Varun Jampani，Raghudeep Gadde，and Peter V Gehler.视频传播网络。在CVPR，第451-461页，2017年。2[21] 许永俊和金昌洙基于区域增强和缩小的视频原始对象分割在CVPR中，第3442-3450页，2017年。2[22] Changick Kim和Jenq-Neng Hwang。快速自动视频对象分割和跟踪，适用于基于内容的应用。IEEE TCSVT，12（2）：122-129，2002年。1[23] Yong Jae Lee，Jaechul Kim，and Kristen Grauman.关键段用于视频对象分割.载于ICCV，第1995-2002页。IEEE，2011年。2[24] 李浩峰，陈冠奇，李冠斌，余益州运动引导的视频显著对象检测注意。在ICCV，第7274-7283页，2019年。一、二[25] Siyang Li，Bryan Seybold，Alexey Vorobyov，XuejingLei，and C-C Jay Kuo.基于运动双边网络的无监督视频对象分割。在ECCV中，第2072[26] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。在ECCV，第90-105页，2018年。2[27] Zhouhan Lin ， Minwei Feng ， Cicero Nogueira dosSantos，Mo Yu，Bing Xiang，Bowen Zhou，and YoeliBengio.一个结构化的自我关注的句子嵌入。arXiv预印本arXiv：1703.03130，2017。3[28] 刘念，韩俊伟，杨明轩。Picanet：Learning pixel-wisecontextual attention for saliency detection.在IEEE计算机视觉和模式识别会议论文集，第3089-3098页，2018年。1[29] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的完全卷积网络。在CVPR，第3431-3440页，2015年。二、四、七[30] Xiankai Lu，Chao Ma，Bingbing Ni，Xiaokang Yang，Ian Reid，and Ming-Hsuan Yang.具有收缩损失的深度回归跟踪在ECCV，第353-369页，2018年。1[31] Xiankai Lu ， Wenguan Wang ， Chao Ma ， JianbingShen，Ling Shao，and ZhaohPorikli.查看更多，了解更多：使用共同关注连体网络的无监督视频对象分割。在CVPR中，第3623-3632页，2019年。一、三、六、七[32] 安托万·米奇，伊万·拉普捷夫和约瑟夫·西维克。用于视频分类的具有上下文门控的可学习池。arXiv预印本arXiv：1706.06905，2017。第1、3条[33] 彼得·奥克斯和托马斯·布罗克斯。视频中的对象分割：一种用于转折点的分层变分方法15466形成密集的区域。见ICCV，第1583-1590页。IEEE，2011年。2[34] F. Perazzi，J. Pont-Tuset，B.麦克威廉斯湖凡古尔，M。Gross和A.索金-霍农视频对象分割的基准数据集和评估方法。在CVPR，2016年。第二、六条[35] Alessandro Prest ， Christian Leistner ， Javier Civera ，Cordelia Schmid，and Vittorio Ferra

下载后可阅读完整内容，剩余1页未读，立即下载