没有合适的资源?快使用搜索试试~ 我知道了~
无监督视频对象分割中的深度传输网络
8781用于无监督视频对象分割的深度传输网络张凯华1、赵子成2、刘东3、刘青山1、刘波4 *1教育部与南京信息工程大学计算与软件学院、2南京信息工程大学自动化学院3Netflix Inc. Los Gatos,CA,95032,USA4JD Finance America Corporation,Mountain View,CA,USA{zhkhua,kfliubo}@ gmail.com摘要流行的无监督视频对象分割方法通过双流网络融合RGB帧和光流。然而,它们不能处理每个输入模态中的干扰噪声,这可能极大地恶化模型性能。我们建议通过最佳结构匹配来建立输入模态之间的对应关系,同时抑制干扰信号。给定一个视频帧,我们从RGB图像和光流中提取密集的局部特征,并将它们视为两个复杂的结构化表示。然后采用Wasserstein距离来计算全局最优流,以将一种模态中的特征传输到另一种模态,其中每个流的幅度测量两个局部特征之间的对齐程度。为了将结构匹配插入到双流网络中进行端到端训练,我们将输入成本矩阵分解为小的空间块,并设计了由长距离Sinkhorn层和短距离Sinkhorn层组成的可微分长短Sinkhorn模块。我们将模块集成到一个专用的双流网络,并称我们的模型TransportNet。我们的实验表明,对齐运动外观产生的流行的视频对象分割数据集上的最先进的结果1. 介绍视频对象分割(VOS)的目的是利用精确的分割模板跟踪运动对象。根据测试时是否指示目标对象,可以将其分为两种场景一种情况是半监督VOS(SVOS)[59],其中模型是*通讯作者。 这项工作得到了国家的部分支持- 国家重点研究发展计划项目。2018AAA0100400,部分由国家自然科学基金资助(61876088,61825601),部分由江苏省333高层次人才培养项目资助(BRA2020291)。(a) 输入(b)光流(c)地面实况(d)TransportNet(e)W/o OSM图1. UVOS中的外观和运动输入中的干扰信号的示例。与没有最优结构匹配(OSM)的方法(列(e))相比,我们提出的TransportNet可以生成准确的分割掩模(列(d))。在训练集上训练模型,并且在测试时间,在跟踪后续帧中要分割的对象之前,在第一帧上为模型提供地面实况掩模。另一种称为无监督VOS(UVOS)或主要对象分割[21]1,其中在测试时不提供地面真实掩模,并且没有关于目标对象的先验UVOS发现相对于视频的背景2移动的最显著或主要的对象图1中的人和摩托车被定义为一个对象)。这与最近提出的无监督多对象分割任务[2]、用于分割DAVIS-17数据集中的单独对象的常规UVOS的变体[39]或视频实例分割任务[60]有本质上的不同我们专注于UVOS,因为它不需要用户交互。由于目标对象是未知的,所以现有技术的UVOS方法依赖于运动线索(即,[1]除了这两个名称外,在文献中它也被称为在UVOS中,更有可能被人类注视跟随的移动对象被称为“前景”,而其余区域(例如,“前景”)被称为““people in crowds” or “still cars inthe background”) are referred to as “background”8782×J光流)来找到要分割的主要对象。编[51,50,19,28,27,12]。常用的架构是双流CNN,由外观分支和运动分支组成,分别将RGB帧和光流作为并行输入[19]。为了建立外观和运动之间的深度交互,从双流CNN中改编了各种网络变体,通过复杂的跨模态学习模块融合运动和外观信号[70,51,50]。尽管有前途的性能,现有的方法是不能够很好地处理分心的信号,这可能会显着恶化的模型性能。在U-VOS中,干扰信号可以源自RGB帧和/或源自光流。为了说明前者,图1中的顶部两行示出了视频帧,其中摩托车作为要在该数据集上分割的唯一主要目标前景对象如图所示,作为静态背景对象出现的汽车是会给VOS模型带来歧义的分散注意力的对象另一方面,如图1中的底部两行所示,光流中的干扰信号通常是由在合成视频上训练的模型生成的不准确的流估计引起的[9]。当在真实视频中应用这种模型时,域间隙会导致流场包含显著的噪声,特别是当前景对象几乎是静态的时。当在视频中存在不期望的相机和/或背景对象移动时,这种噪声可以被进一步放大。因此,盲目地融合外观和运动特征是不可靠的,并且需要在抑制输入中的干扰信号的对齐运动和外观的自然解决方案是比较它们的局部特征。挑战在于,我们对用于训练的局部运动-外观对应没有监督,并且不是一种模态中的所有局部特征都可以在另一种模态中找到它们的对应物。我们将运动外观对齐作为最优结构匹配(OSM)的一个实例来计算,旨在通过结构学习发现有区别的跨模态模式,同时最小化输入中的干扰噪声给定一个视频帧,我们从光流和RGB图像中提取密集的局部特征,并获得两个复杂的结构化表示,每个表示由一组局部建筑特征组成然后采用Wasserstein距离[37]来计算两个结构化表示之间的结构相似性。Wasserstein距离具有最优传输问题[37]的形式,其可以找到全局最便宜的流,以将一种模态中的局部特征传输到另一种模态中的局部特征,从而导致最小结构距离。每个流的幅度表征两个局部特征之间的对准程度,并且可以用于建立运动-外观对应。由于匹配过程是相对于另一个结构重构一个结构,因此与整体结构匹配不兼容的干扰噪声将在其匹配流中以低幅度结束并且被自然地滤除。为了将OSM集成到双流CNN中进行端到端训练,我们基于Sinkhorn方法[8]设计了一个可微分神经网络层,这是一种用于优化Wasserstein距离的求解器。我们注意到,Sinkhorn方法涉及计算/存储器密集型矩阵运算,阻碍了其在VOS中的适用性,VOS通常需要高分辨率输入和多层堆叠以确保性能。为此,我们提出了一个因式分解的Sinkhorn方法分解成一个大的投入成本矩阵成一些小的空间块,并进行结构匹配内的长距离和短距离的本地块。长距离匹配可以很好地保留原始复杂表示的全局结构信息,而短距离匹配可以关注细粒度的细节。通过这样做,我们不仅加快了优化27。5但也是IM-通过3 .验证了UVOS的性能。平均值为7%在FBMS数据集上[33]。这两个匹配操作是SinkHorn(LSH)和SinkHorn(SSH)被实现为两个可区分的网络层,称为长距离SinkHorn(LSH)和短距离SinkHorn我们将我们的长短SinkHorh(LSSH)块插入到为UVOS设计的网络架构中,并将我们的网络称为TransportNet,以强调其来源于最优传输问题。我们在三个流行的基准数据集上进行了广泛的实验,证明我们的TransportNet产生了最先进的性能。我们的贡献包括:(1)一种新的模型,其利用运动-外观对齐用于噪声容忍U-VOS,(2)一种独特的OSM机制,其在抑制噪声的同时建立运动和外观信号之间的结构对应,(3)一种新的LSSH块,其使得能够在端到端训练中进行结构匹配。2. 相关工作半监督VOS。许多努力致力于对SVOS的对象外观进行建模[34,10,45,67,18,62]。为了捕获对象掩模的演变,一些最近的作品利用RNN风格的网络,如ConvLSTM和ConvGRU来对视频中的长期和/或短期动态进行建模[52,59,51]。另一个范例是通过记忆网络[34,45,31]或时间双边网络[20]将先前帧上的中间掩码预测传播到当前帧。除了对时间动力学建模,另一条研究路线是利用运动作为补充信息,并通过双流网络解决任务[4,16,58]。在Segflow [4]中,特征8783∼∈∈图2.建议的UVOS TransportNet的网络架构。输入RGB帧Ia和最优流Im通过双流ResNet主干[15],在每个残差阶段提取外观运动特征Xa和Xm(Res2 Res5)。从Res3到Res5导出的特征被馈送到LSSH中以执行最佳结构匹配,从而产生对应的增强特征Ya和Ym。然后,Ya和Ym被级联以产生空间-时间特征表示Y=[Ya,Ym],其经由跳过连接被进一步馈送到解码器中以产生预测对象掩模S和边界图Se。的对象分割和光流级联在不同的尺度从相互提升。MoNet [58]被提出来利用来自光流的运动提示,以通过整合来自其时间邻居的表示来加强目标帧的表示。相比之下,我们专注于UVOS而没有任何先验。我们没有将光流视为可靠的输入[4,58],而是通过结构学习将它们与外观特征相匹配来动态调整流的置信度无监督VOS。流行的UVOS方法利用视频帧的外观特征,并对其高阶关系[54,31]、密集像素对应[61,27]或判别特征模式[68]进行建模。尽管性能良好,但它们丢弃了在经典视频分析任务中已被证明有效的运动信号[47,69,30]。最近的一些方法-s [19,28,27,12]建议采用运动提示作为用于推断对象掩模的附加信息。LMP [50]训练CNN,将光流作为输入以分离移动和非移动区域,然后将结果与来自SharpMask [38]的对象线索相结合以生成移动对象遮罩。LVO [51]训练双流融合网络,将外观特征和光流特征馈送到ConvGRU模块[46]中以生成对象掩模。[70]中的最近努力指出,现有方法中的运动提示没有得到充分利用,因为它们只是用作额外输入或补充特征,因此无法捕获两种模态之间的深层交互。MAT-Net [70]被提出通过运动关注过渡块转换外观特征,并在网络的每个卷积阶段生成运动关注特征表示。其缺点是通过将所有运动外观对应视为同样可靠来盲目地推断感兴趣区域,这与我们试图区分可靠性的方法基于匹配分数确定运动-外观对应的能力。最佳结构匹配。 各种视觉应用被公式化为解决最优运输问题的结构匹配的实例。DeepEMD [67]被提出采用地球移动器在[44]中,优化了两个复杂结构之间的网络流,以解决多目标跟踪问题。SeLa [1]通过将标准交叉熵最小化扩展到最优传输问题来统一静态图像上的聚类和表示学习,并通过Sinkhorn-Knopp算法的变体[8]来解决它这些方法不能直接应用于我们的任务,因为它们不能被定制为匹配跨模态的细粒度局部特征,这需要轻便且高效的优化器来促进多个OSM操作的堆叠。交错。我们的因子化Sinkhorn方法中的因子分解机制与 网 络 架 构 设 计 中 的 一 般 交 织 机 制 组 装 , 例 如ShuffleNet [66]中的Shuffle操作和交织组卷积[65]。类似的想法最近已经扩展到交织稀疏自注意[17]和稀疏Transformer [5]。我们的工作是不同的,因为我们的交织操作是由结构匹配目标明确驱动的。3. UVOS的TransportNet3.1. 网络架构图2说明了我们的TransportNet的网络架构。具体地 , 给 定 输 入 RGB 帧 IaRw×h×3 及 其 光 流 图 ImRw×h×3,编码器提取它们的中间特征[xTa,1;. . . ;XTa,N],Xm=[XTm,1;. . . ;xTm,N]∈RN×C在每个8784--我关于我们∈NN--·N∀{}T我一M一M图3.LSSH的管道LSSH由LSH层和SSH层组成首先,对于每个输入Xa,Xm,我们分别使用相同的颜色来表示长距离的局部特征和P = 2个不同的颜色来表示短距离的局部特征。然后,LSH层首先置换{Xa,Xm}以将具有相同颜色的特征分组在一起,然后学习最优匹配流PL,i = l,. . . ,P,对于每组特征,输出对齐的特征对{Z_L,Z_L}。然 后 将{ZL,ZL}馈送到SSH中层,首先将它们排列在一起以生成Q = 3组具有不同颜色的短距离特征对,然后学习最优匹配流PS,i = 1,. . . ,Q,输出最终对齐的特征对{Ya,Ym}。其中,Xa,i,Xm,i,RC表示第i个外观-运动局部特征对,N=WH表示特征的数量,W和H是特征的宽度和高度。并且C(i,j)表示将概率质量从xa,i移动到xm,j的成本,即,pa,i→pm,j,满足并且C表示特征映射的数量NN渠道 之后,Xa、Xm被馈送到LSSH mod中。Σpa,i δ(x−xa,i)=1,Σpm,i δ(x−xm,i)=1,(4)uleNLSSH(参见图3),以产生对齐的外观-i=1i=1动作特征{Ya,Ym}= NLSSH(Xa,Xm)。(一)在LSSH模块内,我们采用Wasserstein距离[14]来测量Xa 和 Xm 之 间 的 结 构 相 似 性 。 为 了 有 效 地 优 化Wasserstein距离,我们设计了一个由LSH层和SSH层组成的嘘。我们将Ya,Ym连接起来以产生增强的时空表示Y=[Ya,Ym]RN×2C,并将Y通过跳过连接馈送到解码器层的相应特征金字塔模块中最后,解码器层产生预测的分割图S∈Rw×h。3.2. 最优结构匹配3.2.1Wasserstein距离给定特征点集Xa,Xm,平方Wassertein距离定义为[14]W2(Xa,Xm)=minΣP(i,j)C(i,j),(2)其中δ()是狄拉克函数,如果x = 0,则满足δ(x)=1,否则δ(x)= 0。 注意,如果我们假设一元匹配度是均匀分布的[3],即i,j,pa,i=pm,j=1,这意味着每个特征点具有相同的先验匹配似然,则(2)中的全局最优匹配流P是置换矩阵。在这种情况下,最优运输计划等于求解线性规划的最优分配问题[6]。由于问题(2)是一个线性规划,它可以用组合算法 解 决 , 包 括 简 单 方 法 及 其 变 体 , 如 Hugarian 或relaxation算法[37,64]。然而,已经表明这些方法的最佳计算复杂度是O(2N3log 2N)[37]。这阻碍了该方法处理大规模数据集。最近,Cuturi [8]提出了一种有效的Sinkhorn方法来求解运输计划,该方法比以前的运输求解器快几个数量级,从而在各种视觉任务中吸引了很多关注[3,6,7,53,63]以实现最佳结构匹配。为了进一步有效地优化问题(2),我们设计了一个2P∈PNi、j分解的Sinkhorn方法,其包括LSH层,随后是SSH层。在下文中,我们首先介绍其中P是具有每个元素P(i,j)的转移矩阵表示外观-动作的匹配流程Sinkhorn层,然后介绍LSH和SSH层。特征对xa,i,xm,j。(R+)N×N,P1N=1N,P集合PN={P∈N=1N},其中1N是3.2.2SinkHorn(SH)层187852ǁ −ǁ22N维全一向量。 C是成本矩阵,其中C(i,j)=xa,ixm,j2,其是两个特征点之间的L2距离。 由于我们使用归一化特征,因此C(i,j)可以重新表示为C(i,j)=2−2xTa,ixm,i.(3)从最优输运理论[25,14],(2)中的W 2是由最优运输计划引起的最小成本,利用(3)中的成本矩阵C作为输入,我们设计了一个SH层,该SH层利用Sinkhorn方法[8]将结构特征匹配建模为线性分配问题。SH层将离散分配约束松弛为双随机矩阵,这可以被视为置换矩阵P的连续松弛,其全局优化(2)中的W2Sinkhorn交替进行行和列归一化,直到收敛。给定8786a,pMm,Pm,pa,pm,pøa,qMm,Qm,qQ.Σ12P(0)pm,pa,p12P一M一M一一一a,1a,2a、Q12Q12pQa a mm∈分成P个部分,每个部分有Q个特征向量。 然后,可以将XL重写为XL=[XL;XL ;。. . ; Xl],a a a,1a,2a、P其中每个XL∈RQ×C 来自Q遥远的温泉图4.LSH匹配结果示例(蓝色箭头)tial地点。 对运动特征图进行类似的操作,产生对应的运动特征图。和SSH(橙色箭头)。 的起点-图XLLm,1Lm,2;。. . ;XL],其中每个XL∈行表示RGB帧上的所选位置,而结束点表示前k个匹配位置(即,具有最大匹配分数的那些)在光流图esti上。分别用LSH(k= 1)和SSH(k= 2)交配RQ×C。然后,我们将CL定义为稀疏分块矩阵,CL=诊断CL,CL,. . . ,CLΣ,(7)C=C,Sinkhorn算子的第k次迭代为其中每个CL=XLXLT∈RQ×Q是一个小成本矩阵基于XLXL得双曲正弦值.C~(k)=C(k−1)ø(C(k−1)1N1TN),(k)(k)N (k)N(五)diag表示对角块矩阵算子。我们在每个CL上应用SH层(6),并获得最佳匹配-处理流PL= diag PL,PL,. . . 、PL.最后,对齐C=C~0(11TC~),.Σ其中表示逐元素除法。在收敛后,我们得到一个双随机矩阵P,这是我们的最佳匹配流。我们将SH层模块化为P= NSH(C)。(六)SH层是可微分的,因为其在(5)仅包含矩阵-向量乘法和逐元素除法,其可以容易地插入到vanil-la深度神经网络中用于端到端训练。SH层的后向梯度可以很容易地从[53]中导出,这可以很容易地在PyTorch [35]中用自动微分来实现密集成本矩阵C在优化SH层(6)时引入沉重的计算/存储器成本,防止使用高分辨率输入和堆叠多个SH层,这对于各种实施例中的高性能是必不可少的。外观和运动特征可以被计算为ZL=PLXL,ZL= PLXL.(八)3.2.4短程SinkHorn(SSH)层如上所述,短距离成本矩阵CS捕获在具有短空间距离的空间位置处的外观-运动特征之间的相互作用。如图3所示,我们利用来自LSH层的输出特征图Z_L和Z_L上的另一个排列,产生X_S和X_S。然后,我们将XS等分为Q部分,并且每个部分具有P个相邻特征向量 。XS 可 以 重写 为 XS=[XS;XS;. . . ;XS] , 其 中每 个XSRPXC来自P个短距离位置。对运动特征图执行类似的操作,产生对应的运动特征图。视觉任务为了减少计算/存储器成本,现有的图XSSm,1Sm,2;。. . ;XS],其中每个XS∈工作[63,53,7]用于特征匹配,仅在其网络架构的末端插入一个SH层。我们通过将C分解为两个稀疏块距离矩阵CL和CS来解决这个问题,这两个稀疏块距离矩阵CL和CS捕获长距离和短距离。FEA上的空间位置之间的范围依赖性RP ×C。然后,类似于长距离成本矩阵CL,我们将CS定义为稀疏分块矩阵CS=诊断CS,CS,. . . ,CSΣ,(9)真地图,分别。 我们进行结构匹配-其中每个CSa,qSTm,q∈RP×P。 我们应用在长距离和短距离的本地块内。这种矩阵分解方法显著降低了计算/内存成本,使我们的网络能够堆叠具有高分辨率输入的3个SH层(6),得到最优匹配流PS=diagPS,PS,. . .,PS.最后,我们将对齐的外观和运动特征图计算为Ya= PSXS,Ym= PSXS.(十)a m=[X;X=[X;X=XX8787∈∈3.2.3长距离汇角层远距离代价矩阵CLRN×N被设计用于捕获特征图上远距离空间位置处的任何成对外观和运动特征之间的相互作用。如图3所示,为了对远距离位置的特征进行分组,我们首先对外观特征图XaRN×C进行置换,以生成XL=置换(Xa)。然后,我们平分XL图4使用LSH和SSH可视化了两个匹配示例,其中左侧示例从噪声背景中选择一个点,而右侧示例从前景目标中选择一个点。在PL和PS中具有最大匹配流的前1和前2匹配位置被示出为箭头的结束点,其中我们可以观察到LSH和SSH都可以以大概率建立准确的对应。a a8788分段边缘−×∼∼××CECEΣ−∈{}××××FFJ FJF分段Σ边缘JLSSH的理论依据。理论上,LSSH的合并受到LeNet[24]中提出的经典卷积算子的启发。 如图3所示,LSSH在外观和运动特征之间执行稀疏匹配,其合理性在于它们之间的空间相关性但SH算法的稠密匹配不仅忽略了局部相关性,而且容易导致过拟合(类似于全连通层)。3.3. 解码器网络解码器网络类似于U-Net [42],其使用跳过连接来融合从编码器到解码器的多尺度时空特征。融合的特征图一次逐渐放大两倍,然后与下一层的特征图连接最后,聚合的特征被馈送到卷积层,随后是Softmax层和卷积层,以分别预测对象掩模S和对象边缘掩模Se网络优化的损失函数被定义为交叉熵损失,其目的是对对象及其边界进行L=LCE+λLCE,(11)其中L=−ijG(i,j)logS(i,j)且L=ijGe(i,j)logSe(i,j),其中G0,1w×h表示地面真实掩模,Ge表示其对应的边缘掩模,该边缘掩模易于由Sobel算子估计。 λ是根据经验设置为1的折衷参数。根据验证性能确定0。4. 实验4.1. 实现细节我们的TransportNet中的外观和运动流的主干分别是ResNet101和ResNet50 [15]。LSSH在ResNet模型的第3、第4和第5残余块处被堵塞。在每个LSSH中,大小为W的要素图H根据验证性能,C被设置为P=8个分区,并且每个分区包含Q=WH/P个特征。我们的实验遵循[70]中的常规做法训练集由两部分组成:a)DAVIS-16 [ 36 ]中的所有训练数据,其中包括30个具有2,000帧的视频; b)从Youtube-VOS [ 59 ]的训练集中选择的8,000帧的子集,其通过在每个视频中每10帧采样一帧来获得。我们使用10,000帧进行训练,这比最近使用14,000个训练帧的MATNet [70]所有图像统一为5125123、预委会- Net [49]被采用来估计它们的光流,由于其效率和准确性高。请注意,使用PWCNet和ResNet作为网络骨干是UVOS中的常见做法[70,31,61],我们的工作遵循这种做法以确保公平比较。该网络使用Adam优化器[23]进行训练,编码器的初始学习率为1e-4,解码器为1e-3 我们将批量大小、动量和权重衰减设置为2,0。图9和1e-5中所示,并且利用覆盖度数范围(10,10)的水平翻转和旋转来增强训练采样。训练后,我们在看不见的视频上测试模型以进行评估。 我们把每一帧调整到512512,并将其及其对应的光流图馈送到训练模型中以生成分割图,然后通过阈值= 0对分割图进行二值化。5中,以直接产生二进制分割掩模,而无需任何进一步的后处理。TransportNet在Nvidia GTX 2080Ti GPU上的PyTorch[35]对于大小为的每个测试图像512 512 3,我们的TransportNet的前向推理取0。08s,而 PWC-Net 的 光 流 估 计 需 要 0. 2s ( 离 线 独 立 于 推断)。即使加上离线光流估计时间,我们的模型大约需要0。08s +0。2s= 0。28s,这与DFNet [ 68 ]的在线推理时间(0. 28秒/图像)。4.2. 数据集和评估指标我们在四个流行的基准数据集上进行了实验,包括DAVIS-16 [36] , FBMS [33] , ViSal [55] 和 Youtube-Objects [40](由于空间限制,Youtube-Objects上的结果放在补充材料中,其中我们的方法实现了SOTA性能)。请注意,大多数现有的UVOS作品都使用这些数据集作为测试平台[61,68,32],我们遵循这种做法以确保公平比较。虽然还有其他VOS数据集,如Youtube-VOS [59]和DAVIS- 17 [39],但它们要么仅用于评估半监督VOS [34,62](前者),要么更适合最近提出的多对象分割的新任务[2](后者,因为它提供了实例注释)。因此,我们选择在实验中不使用它们。DAVIS-16共包含50个视频,其中30个用于培训,20个用于测试。 每个框架提供 前景对象的逐像素注释遮罩。在这个数据集中,我们利用了[36]提供的三个评估指标,包括a)区域相似性,b)边界准确性,c)总体得分,即和得分的平均值此外,我们还报告了显着目标检测结果在此数据集的平均绝对值误差(MAE)和F-测度M.FBMS由59个视频序列组成,其中29个训练视频和30个测试视频。提供每20帧的地面实况注释,从而在整个数据集中产生总共720个注释帧我们在测试集上进行评价,主要评价指标是区域相似度J8789FJJJFJFFFFFF图5.定性结果。从上到下:dance-twirl来自DAVIS-16,scooter-black来自DAVIS-16,horse 04来自FBMS。MAE和F-测度M.ViSal专为视频显着性任务而设计,该任务包含17个视频的集合,这些视频具有不同的对象和背景,长度从30帧到100帧不等。它有193个手动注释的帧。整个数据集是用于根据MAE和F-测量Fm进行评估。4.3. 与最新技术水平的定量结果。 表1列出了我们的TransportNet与DAVIS-16和FBMS上最先进的UVOS方法的定量比较结果。请注意,将我们的UVOS结果与所取得半监督VOS方法,如STM [34]。我们的TransportNet达到最佳&= 84。比现有技术水平高8%。此外,它还在两个数据集上的所有其他评估指标方面实现了最高的性能。此外,TransportNet在FBMS的测试集上达到了新的最先进的结果,其中=78岁7%,大幅上涨2. 比第二名高出6%-形成方法MATNet,其中=76。百分之一。这表明,TransportNet可以产生高质量的seg-通过最佳结构匹配对准外观和运动特征来分割掩模。相反,各种竞争方法(即,MATNet、C 0 S-Net和AnDiff)应用诸如CRF或实例修剪的后处理技术来提高性能,这引入了更多的计算成本。在没有这个后处理步骤的情况下,3DC-Seg [32]是利用UVOS的3D卷积的性能最好的现有方法,其性能大大优于基于2D卷积的方法。3DC-Seg使用在IG-65 M [13]和Kinetics [22]上预训练的3D ResNet-152的主干,然后使用COCO实例分割数据集[29],YouTube-VOS [59]和DAVIS-16 [36]训练模型尽管如此,由于使用2D卷积,所提出的TransportNet在所有评估指标方面优于3DC-Seg,具有更少的训练数据和更少的计算开销。这也验证了我们的TransportNet中所提出的OSM机制的有效性,该机制有助于学习强大的时空表示,这对于生成高质量的分割掩码至关重要。表2示出了运输的定性结果表1. DAVIS-16和FBMS验证集的定量结果。对于FBMS,我们报告结果。最佳和次佳结果使用粗体和下划线突出显示。Net与DAVIS16,FBMS和ViSal数据集上视频显着性的任务类似于UVOS,其中ViSal [55]中显着对象的定义与DAVIS-16和FBMS中的前地对象相关。如表2所示,所提出的TransportNet在DAVIS-16和ViSal数据集上实现了所有评估指标方面的最新技术水平,特别是对于m评分。我们的跨端口网络达到m= 88。5%和m=95。3%,分别在F-BMS和ViSal上显著增加4%和3. 比竞争对手3DC-Seg高1%,m=84。5%和92. 百分之二。值得注意的是,尽管仅针对UVOS任务进行了训练,但我们的TransportNet在DAVIS-16和ViSal上的MAE和m方面优于最先进的视频显着性方法TENet [41] ,并且在FBMS上实现了非常有竞争力的结果(MAE =0. 045对0 的情况。026,m=88。5%对比89。7%)。速度比较和精确度-召回率曲线图可以在补充材料。定性结果。图5显示了DAVIS-16和FBMS数据集的一些定性结果。具体来说,舞蹈旋转和滑板车黑色视频来自DAVIS-16,其中前景对象遭受严重变形、尺度变化和背景杂波。horse04视频来自FBMS,其中包含多匹马作为前方法JFDAVIS16↑J ↑F ↑FBMSJ↑LMP(CVPR17)[50]68.070.065.9-LVO(ICCV17)[51]74.075.972.1-[48]第四十八话75.977.274.574.0[28]第二十八话79.580.478.573.9[57]第78.679.777.4-COSNet(CVPR19)[31]80.080.579.475.6[54]第54话79.980.779.1-[61]第81.181.780.5-EpO+(WACV20)[11]78.180.675.5-[70]第70话81.682.480.776.1DFNet(ECCV20)[68]82.683.481.8-3DC-Seg(BMVC20)[32]84.584.384.7-8790JJJJJJJJ×××表2. DAVIS 16、FBMS和ViSal数据集上MAE和最大F-测量的定量结果。最佳和次佳结果使用粗体和下划线突出显示。* 这意味着该方法是为视频显著性任务定制的。要分割的地面经受显著的非刚性变形。我们看到TransportNet可以很好地应对这些挑战,并以准确的轮廓描绘目标。更多的视觉例子在补充材料中。4.4. 消融研究表3列出了我们的模块变体在DAVIS-16和FBMS上的平均消融结果,将其分为三组,以分别验证LSHSSH、LSSH位置和边缘损失的有效性。模块变体DAVIS-16FBMSSH LSH SSH Res3 Res4 Res5 边缘损失平均J↑平均J↑✓✓✓✓✓83.475.0✓✓✓✓✓82.473.2✓✓✓✓✓83.977.4✓80.468.2✓✓✓✓83.372.7✓✓✓✓✓83.876.4✓✓✓✓✓84.376.3✓✓✓✓✓✓84.578.7表3. DAVIS-16和FBMS上的消融。“Res3”、“Res4”和“Res5”表示网络中插入LSSH的位置。LSH SSH的作用。我们将第3.2.2节中介绍的SH作为基线。SH模型达到均值=83。4%,75。0%,分别为1%和1. 8%高于我们的模型与LSH。其原因是LSH未能捕获局部细粒度细节这对于执行精确匹配是必要的。相反,SSH,我们的模型达到了平均值=82。4%和73. 2%,跑赢基准线0.5%和2. DAVIS-16和FBMS分别为4%。这证明了SSH的有效性,它能够执行比SH更鲁棒的匹配。SSH执行健壮的匹配通过搜索局部区域,这可以自然地避免将使具有SH的基线模型最后,我们的模型与LSSH实现了最佳的平均值=84。5%,78。7%,涨幅明显,1.1%和3。7%,证明了EF-图6.SH和LSSH之间的GPU内存/时间比较所提出的因子分解SH策略处理干扰信号的有效性LSSH位置的影响在不插入任何LSSH的情况下,我们的模型实现了平均 =80。4%,68。DAVIS- 16和FBMS上的2%,比Res 5后仅插入一个LSSH低2. 9%,4。百分之五然后,我们在Res4之后进一步插入LSSH,实现平均值=83。8%,72。7%,涨幅为0. 5%和3. 7%,与前一个 通过在Res3之后继续插入LSSH,性能提高到mean=84。5%,78。百分之七。 为了更好地平衡性能和计算/内存成本,我们的TransportNet包含三个LSSHs后Res 3,Res 4和Res 5,分别插入。边缘损失的影响。在没有边缘损失的情况下,我们的模型达到均值=84。3%,76。DAVIS-16和FBMS分别为3%。性能低于我们的TransportNet,边缘损失为0。2%和2. 百分之四这验证了边界增强信息的有效性,其可以帮助产生更准确的分割掩模。效率比较。图6显示了我们提出的LSSH和SH之间的内存和时间成本处理输入特征图的大小为128 1282048年 我们可以观察到我们的LSSH只使用了15。8%的GPU内存,而近24. 5、比SH快。这验证了我们的求解器的任务的效率最优结构匹配5. 结论在 本 文 中 , 我 们 提 出 了 一 个 基 于WassersteinTransportNet具有双流结构,其建立RGB帧的输入模态与光流之间的对应关系,同时通过最佳结构匹配抑制干扰信号。更具体地说,Wasserstein距离已经被用来计算全局最优流,以将一种模态中的特征传输到另一种模态。为了将结构匹配插入网络以进行有效的端到端训练,我们将输入成本矩阵分解为小的空间块,并设计了由LSH层和SSH层组成的可微分LSSH模块在DAVIS-16、FBMS和ViSal上进行的广泛实验证明了我们的TransportNet在所有评估指标方面与最先进的方法相比具有良好的性能。方法DAVIS16MAE↓Fm↑FBMSMAE↓Fm↑维沙尔MAE↓Fm↑FCNS*(TIP17)[56]0.05372.90.10073.50.041 87.7FGRNE*(CVPR18)0.04378.60.08377.90.040 85.0TENet*(ECCV20)0.01990.40.02689.70.014 94.9[28]第二十八话0.03186.20.04781.60.047-[48]第四十八话0.03084.90.06981.50.022 91.7[61]第0.04480.80.06481.20.030 90.4DFNet(ECCV20)[68]0.01889.90.05483.30.017 92.73DC-Seg(BMVC20)[32]0.01591.80.04884.50.019 92.2TransportNet0.01392.80.04588.50.012 95.3Fi8791引用[1] Yuki M Asano , Christian Rupprecht , and AndreaVedaldi.通过同步聚类和表征学习的自我标记在ICLR,2020年。3[2] Sergi Caelles 、 Jordi Pont-Tuset 、 Federico Perazzi 、Alberto Montes 、 Kevis-Kokitsi Maninis 和 Luc VanGool。2019年戴维斯挑战vos:无监督多对象分割。arXiv预印本arXiv:1905.00737,2019。1、6[3] Dylan Campbell,Liu Liu,and Stephen Gould.用鲁棒可微分几何优化端到端地解决盲视角n点问题。arXiv预印本arX-iv:2007.14628,2020。4[4] J. Cheng,Y.- H. Tsai,S.王和M H.杨Segflow:用于视频对象分割和光流的联合学习InICCV,2017. 二、三[5] Rewon Child , Scott Gray , Alec Radford , and IlyaSutskever. 用 稀 疏 变 换 器 生 成 长 序 列 。 arXiv 预 印 本arXiv:1904.10509,2019。3[6] NicolasCourty ,Re'miFlamary ,DevisTuia ,andAlainRako-tomamonjy.最佳传输域适应。TP-MAI,2016. 4[7] R. 圣克鲁斯湾费尔南多,A.Cherian和Stephen Gould。视觉排列学习。TPAMI,2019。四、五[8] 马可·库图里Sinkhorn距离:最佳运输的光速计算。InNeurIPS,2013. 二、三、四[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHauss- er、Caner Hazirbas 、Vladimir Golkov、 Patrickvan der Smagt 、 Daniel Cremers 和 Thomas Brox 。Flownet:使用卷积网络学习opti- cal flow。在ICCV,2015年。2[10] Kevin Duarte , Yogesh S. Rawat 和 Mubarak Shah Cap-sulevos:使用胶囊路由的半监督视频对象分割。在ICCV,2019年。2[11] Muhammad Faisal , Ijaz Akhter , Mohsen Ali , andRichard Hartley. Epo-net:利用密集轨迹上的几何约束来实现运动显着性。在WACV,2020年。7[12] AikateriniFragkiadaki 、 Br
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功