没有合适的资源?快使用搜索试试~ 我知道了~
零镜头视频对象分割的运动-外观协同注意学习算法
1564外观特征加权聚集分割一运动关注运动特征显著运动区域(b)第(1)款外观特征门控外观特征多模态共同关注自适应特征融合分割运动特征门控运动特征零镜头视频对象分割的运动-外观协同注意学习算法杨舒1,张璐1,齐金庆1,胡川路1,王硕2,张晓星21大连理工大学2美团,中国{yangshua,luzhang dut}@ mail.dlut.edu.cn,{jinqing,lhchuan}@dlut.edu.cn,{wangshuo28,zhangxiaoxing} @ meituan.com摘要如何使外观和运动信息有效地相互作用以适应复杂场景是基于流的零镜头视频对象分割的基本问题在本文中,我们提出了一个有注意力的多模态协作网络(AMC-Net),以统一利用外观和运动信息。具体而言,AMC-Net融合了来自多模态特征的稳健信息,并在两个阶段促进它们的协作。首先,我们在双边编码器分支上提出了一个多模态协同注意门(MCG),其中使用门函数来制定协同注意分数,以平衡多模态特征的贡献并抑制冗余和误导信息。然后,我们提出了一 个 具 有 视 觉 运 动 注 意 机 制 的 运 动 校 正 模 块(MCM),它通过描述出现和运动线索之间的时空对应关系来突出前景物体的特征。在三个公开的具有挑战性的基准数据集上进行的广泛实验验证了我们提出的网络通过使用较少的数据进行训练,对现有的最先进的方法表现良好代码发布于https://github.com/isyangshu/AMC-Net。1. 介绍零镜头视频对象分割(ZVOS)旨在自动地将视频序列中的主要对象与背景分离而无需任何人工交互。由于ZVOS不需要人工干预,因此它在广泛的应用中具有重要价值,例如视频压缩[11],视觉跟踪[45]和人员重新识别[51]。如何在没有任何先验知识的情况下从复杂多样的背景中区分目标对象是ZVOS中的一个公开挑战。为了解决这个问题,几种方法[38,21,1,19,53]外观特征特征对准分割运动特征(一)图1.用于融合外观和运动信息的各种多模态交互方法的图示。设计各种多模态交互方案以利用外部对象运动信息,其假设在视频序列上移动的对象与主要对象高度相关。尽管有令人印象深刻的性能,但在现有的交互方法中仍然存在一些问题。早期的方法[38,21,1]直接执行特征对齐,例如级联或加法,以产生对象掩码(参见图1(a))。由于流图和视频帧中的冗余和无效信息,多模态特征的直接特征对准将限制分割的准确性(参见图2中的第三列有几种方法[53,19]建议建立一个基于运动的注意力机制,以增强对象外观的特征学习(见图1(b))。这些方法学习(c)第(1)款1565···图像光流SegFlow MATNet我们的GT图2.不同基于流的方法的视觉比较。我们展示了视频帧,光流图,SegFlow [1]预测,MATNet [53]预测,以及我们在bmx树,摩托车越野跳和汽车环岛视频序列中的预测。光流图由PWCNet [35]预测。增强显著运动区域的外观特征,这使得它们依赖于光流的质量然而,当复杂运动条件(例如,由于在视频序列中出现了多个对象(例如,变形、运动模糊、快速运动和杂波),光流可能无法捕获对象位置并影响对象分割的准确性(参见图2中的第四列)。基于上述观察结果,本文提出了一种用于零镜头视频对象分割的注意多模态协作网络(AMC-Net),该网络构建了一种新的多模态交互的共同注意机制。AMC-Net自适应地融合了来自多模态特征的鲁棒时空表示,并在两个阶段促进它们的协作,以彻底结合外观和运动特征的优点(见图1(c))。 在第一阶段,我们提出了一个多模态共同注意门(MCG),它是用来统一的外观和运动信息到有效的时空特征表示。考虑到不同模态特征贡献的差异性,我们利用门函数预测共同注意分数,用来平衡多模态特征的贡献在第二阶段,我们提出了一个运动校正模块(MCM)执行自适应特征融合,其中的视觉运动注意力机制的构造,强调前景物体的功能,通过将外观和运动线索之间的时空对应关系。具体而言,不同于从运动到外观的单向注意引导,我们基于视觉显著性和运动显著性对注意进行建模,以促进前地对象的特征学习为了研究我们所提出的模型的有效性,我们进行了全面的实验,包括全面的比较和消融研究在三个基准数据集[31,33,29]。结果表明,我们提出的方法可以通过仅使用DAVIS-16 [31]进行训练来实现优于现有技术的性能我们的贡献可归纳如下:我们提出了一种用于零拍摄视频对象分割的注意多模态协作网络,其促进外观和运动信息的深度协作以生成准确的对象分割。我们提出了一个多通道协同注意门来统一多通道信息。门函数用于产生共同注意分数,以自适应地平衡外观和运动信息的贡献。我们提出的方法在三个公共挑战性基准数据集(DAVIS-16 [31],Youtube-Objects [33]和FBMS [29])上与最先进的方法相比表现良好。2. 相关工作根据测试过程中是否需要人工干预,视频对象分割( VOS ) 可 以 大 致 分 为 零 次 ( ZVOS ) 和 一 次(OVOS)。在本文中,我们专注于对象级ZVOS设置(即,不区分不同的实例),其无需手动注释而提取主要对象。零镜头视频对象分割旨在自动生成视频序列中主要对象的掩模,而无需任何人工交互,这也称为无监督视频对象分割(UVOS)[14,18,32,49,21]。基于手工制作的特征的早期非学习方法利用低级线索,诸如视觉显著性信息[42,9,5,39]、对象提议[18,19]、视觉显著性信息[42,9,5,39]、视觉显著性信息[42,9,5,39]、视觉显著性信息[42,9,5,39]和视觉显著性信息[42,9,5,3927,49,14,6]或光流[16,21,13,20,30],它们被用作可靠的先验知识以引导对象分割。后来,受深度学习在细分任务上的成功启发,更多的研究工作集中在15661023441∈∈我 i=0时我 i=0时联系我们RGB图像4××MCM MCM MCM MCM MCMMCGMCGMCG4光流023图3.注意多模态协作网络(AMC-Net)概述。给定一个输入帧和相应的光流图,我们首先使用双边编码器分支提取多模态特征。然后,我们采用多级MCG的多个编码器侧的输出过滤信息和统一的鲁棒性信息的时空特征表示。最后,我们以由粗到细的方式堆叠多个MCM以产生最终预测。基于完全卷积网络的ZVOS模型。例如,几种方法[34,38,43]使用递归神经网络的变体来隐式存储先前计算的受非局部操作的启发,COSNet [26],AGNN[41]和AnDiff [48]对帧之间的长期相关性进行建模,以探索全局信息并获得对视频内容的更全面的理解。WCS [50]对帧之间的像素对应进行编码,并将对象热点作为指导,以增强显着区域的影响。3DC-Seg [28]利用3D卷积来联合学习空间和时间特征。最近的方法[25]提出了情节图存储器来存储跨帧相关性3. 方法3.1. 体系结构概述在这项工作中,我们提出了一个有注意力的多模态协作网络(AMC-Net)的准确零拍视频对象分割,构建了一个两阶段的多模态集成系统。我们的AMC-Net的框架如图3所示具体地,给定输入帧IRH×W×3和对应的流图ORH× W ×3,我们采用并行编码器分支来捕获多级外观和运动特征,其表示为F a4和F m4。在第一阶段中,利用外观特征Fa和运动特征Fm作为我我并学习更新分割模型。另一种选择是从光流中提取关于运动信息的LMP[37]放弃了外观特征的建模,纯粹依靠光流来预测前景运动,这导致静态前景对象的结果不正确为了解决这个问题,几种基于流的方法[38,1,12,19,53]通常采用具有特征融合方案的双分支全卷积网络连接或注意机制,以聚集外观和运动信息。在不考虑多模态特征贡献的差异的情况下,最近的基于流的方法[19,53]仅考虑从运动到外观的单向注意引导,并增强显著运动区域的外观特征当来自背景的运动或外观信息不显著时,这些方法不能实现图2中所示的令人满意的结果。在这项工作中,我们考虑了在学习更丰富的时空特征表示中外观和运动之间的深度协作的重要性。我们提出了一个有注意力的多模态协作网络(AMC-Net),以融合来自多模态特征的鲁棒信息,并促进它们的协作,以实现准确的零拍摄视频对象分割。输入时,提出了一种多模态协同注意门(MCG)来抑制冗余和无效信息的干扰,获得有效的时空特征表示。我们在多级编码器侧输出上实现MCG以集成多模态特征并将更有价值的特征表示传播到解码器。在第二阶段,我们使用运动校正模块(MCM),以进一步强调前景物体的特征我们以由粗到细的方式堆叠多个MCM,以促进前景对象的特征学习并生成最终的分割结果。3.2. 多模态共注意门最近的基于流的方法[19,53]探索显著运动区域的外观特征,并利用从运动到外观的单向注意力引导,这使得它们依赖于场景中的主导运动,并忽略光流图或图像中的固有噪声。在本文中,我们提出了一个多通道共同注意门(MCG)的注意动作外观互动。我们从运动和外观中识别有效信息,并将跨模态特征集成到统一的时空特征表示中。外观特征运动特征外观流运动流BCE损失×按元素相乘MCG多通道共注意门MCM运动校正模块softmax缩放1567我我∈我我我我我我我我我我我Sigmoid&Avg×+×CConv最大转换&乙状D×乙状&Avg������×平均FC&乙状外观特征门控/增强外观特征门控运动特征注意力价值+元素方向×此外逐元素乘法BCE损失M掩 模运动特征解码器功能D解码器块C级联G G闸阀下一个外观编码器块图4.多模态共同注意门(左)和运动校正模块(右)的框架MCG的框架如图4所示它可以被看作是抑制多余和误导-外观特征Fa以及运动特征Fm,加强信息化,提高信息的有效性。在I级中,我们首先使用用于隐式交互的交叉通道关联和卷积操作来组合它们然后,我们获得融合特征HRh×w ×2,并将通道特征映射拆分为两个分支。我们在每个通道上执行Sigmoid函数和全局平均池化,得到一对共同注意力得分GA和GM,它们反映了重要性通过为外观和运动特征分配可靠性分数,网络将不会太依赖这两个信息中的任何一个。它学习自适应地利用外观和运动信息的优点,以获得satisfactory的结果。考虑到预测的流图的不确定性,我们使用运动特征上的通道方向和空间方向的注意力来强调运动区域。我们不是平等地对待所有通道,而是首先建立Gm的通道间关系,每个模态特征的最终结果。我们特别从外观到动作的综合特征M′=σ(MLPfc(Avg(Gm)*Gm,(3)我我模拟门功能,它扮演模态明智的角色注意力,并从全局角度对网络中多模态特征的贡献的总体分布进行整个门函数可以公式化为gi=Avg(σ(Conv(Cat(Fa,Fm),(1)其中MLP_k表示完全连接的层。通过这样做,我们加强了多级属性的响应,包括纹理,边界,颜色和语义。然后,我们利用M′的空间间关系来强调显著运动区域的空间位置,其中g1包含一对共同注意力分数g1和g2。i iM′′=σ(MLP(Max(M′))*M′, (4)是全局平均池化。 σ表示将权重值缩放为(0,1)的S形函数。Conv(·)指的是到具有输出通道2和C的卷积层,conv其中,M_LP_conv表示卷积层,并且M_ax(·)是通道轴之间的级联操作。在图5中,我们给出了各种视频中标记值显示了图像和相应光流图的贡献的差异较高的共同关注分数指示对应的模态特征包含用于准确分割的有效信息。相反,具有较低分数的模态特征可能包含影响性能的噪声我们将共同注意力分数应用于相应的特征以生成门控外观特征Ga和门控外观特征G a全局最大池。我们强调与运动显著对象密切相关的特征,这可以利用更有效的显著运动信息和时间特征。通过外观和运动信息的隐式交互,我们可以互补地聚合特征,以获得统一的时空特征表示。我们将聚合操作设计为两种模态的元素相加,E i= Ga+ M ′′。(五)运动特征Gmi∈ i被馈送到外观分支的下一级,并且在解码器中被利用以用于掩码生成。特别是Ga=Fa*ga,Gm=Fm*gm,(2)lar,G_m被应用于解码器而不是下一级������−1ConvCConv×+D最大转换&乙状一M×ConvC平均FC&乙状15684·4×我图5.共同注意力分数的视觉样本。我们显示了各种视频帧和相应的流图,以及标记的分数来表征摩托车越野跳,黑天鹅,bmx树和肥皂盒中的贡献的差异。的运动分支,确保运动特征在长期传播中的有效性。为了捕获主要对象的全局特征,我们计算最后一个编码器块上的时间和空间信息之间的相似性。具体而言,我们计算相似性矩阵P,以在来自门控运动特征的每对像素之间建立密集的对应关系。真实G m和增强的外观特征E4。类似于[44],我们将相似性矩阵P与E4结合以产生注意力增强特征图E4,1m T其中Up()是步长为2的上采样操作。然后,我们利用融合特征F的通道间关系来改善重要信息(视觉或运动)的通道响应,F′=σ(MLPfc(A vg(F)*F.(八)我们选择并加强具有更高显著性的响应。然后利用空间关系计算每个像素的综合响应(视觉和运动)生成注意力图。A=σ(MLPconv(Max(F′)),(9)其中A是指视觉运动注意,其可以被视为显著区域以抑制背景的激活并促进前景对象的特征学习。我们认为,这些注意力地图应该是一致的,最终的面具,并同样权衡交叉熵损失的中间注意力地图和最终的预测。另一个分支被设计为残差结构,其用于通过具有更高分辨率的编码器特征Ei来增强Di-1最后,我们将A与融合特征组合以校正特征,并将Di−1添加到E4=softmax(√cG4⊙E4)⊙E4,(6)其中⊙表示矩阵乘法。继[23]40]中,我们将点积缩放101,其中c是通道得到Di.整个过程可以公式化为Di=Conv(Cat(Up(Di−1),Ei))·A+Di−1,(10)大小Gm和CE4。其中·是指逐元素乘法。3.3. 运动校正模块通过MCG的自适应多模态交互考虑到视频序列中场景的复杂性,本文将视觉和运动显著区域统一起来我们使用运动校正模块(MCM)来利用外观和运动特征来补充有效细节并抑制非显著区域的激活。此外,我们通过结合视觉和运动线索来构建视觉-运动注意,以强调前景物体的特征MCM的细节如图4所示。取门控运动特征Gm,增强的出现-3.4. 训练和推理实作详细数据。遵循最先进的基于流的方法,我们将在ImageNet [3]上预训练的ResNet-101 [8]作为骨干。给定当前帧It和下一帧It+1,我们采用PWCNet[35]来公式化光流图Ot。与其他方法的训练策略不同,我们仅使用DAVIS-16进行训练,而不应用任何图像数据集[47,2,22]。训练 给定图像和光流图作为输入,我们训练模型100个时期,小批量大小为4. 我们将图像和流图的大小调整为384 384,以便在速度和性能之间我们采用随机梯度下降(SGD)来训练我们的AMC网络,其中动量,权重衰减和初始学习率设置为角特征我来自MCG的Ei和解码器特征Di−10.9、0.0005和0.001。 我们使用0.9的幂来调整训练期间的学习率从先前的解码器块作为输入,MCM旨在促进进一步的深度协作以生成准确的结果。当先前的解码步骤不可用时,我们使用E4作为解码器特征来提供全局信息。第 平行分支的一个分支旨在融合视觉显著性和运动显著性来提取视觉运动注意。该操作可以被公式化为F=Cat(Up(Di−1),Gm),(7)1569×ing.我们使用随机水平翻转和随机旋转进行数据增强,以避免过拟合并使学习模型更加鲁棒。推理。我们使用相同的分辨率384 - 384为每个测试视频序列,没有任何数据增强和人类的互动。遵循ZVOS中的通用协议,我们采用全连接CRF [17]来获得最终的二元分割结果。1570J F J FJFJFJF××联系我们6543210第0阶段第1阶段第2阶段第3阶段第4阶段筏普华永道(一)0.80.70.60.50.40.30.20.10第0阶段第1阶段第2阶段第3阶段第4阶段筏-筏-简体中文_English(b)第(1)款方法J均值↑F均值↑JF↑77.4 77.4 77.4+ 多模态共注意门无门78.5(+1.1)78.9(+1.5)78.7(+1.3)带门80.7(+3.3)81.3(+3.9)81.0(+3.6)+ 运动校正模块单MCM81.1(+0.4)81.7(+0.4)81.4(+0.4)3个堆叠MCM81.9(+1.2)83.9(+2.6)82.9(+1.9)5个堆叠MCM83.0(+2.3)84.3(+3.0)83.7(+2.7)+ 全连接CRF84.2(+1.2)84.5(+0.2)84.4(+0.7)+ 更高质量的光流84.5(+0.3)84.6(+0.1)84.6(+0.2)表1.在DAVIS- 16上对我们提出的AMC-Net进行消融分析,通过意思是平均值和&. 红色表示与以前的设置相比性能的提高。图6.每个阶段的共同注意分数的分布。以卷积阶段作为水平轴,我们统计地展示了(a)中关于ga/gm同时,我们展示了(b)中的共同注意得分ga和gm表2. DAVIS-16上多个编码器侧的多模态共同注意门(MCG)的有效性表3.在DAVIS-16上对视觉运动注意力进行不同数量的超视的性能比较。模型MATNet [53]AMC网络AMC网络AMC网络流模型JFPWCNet [35]81.6FlowNetS [4]80.5[第10话]83.1PWCNet [35]84.4表4.DAVIS-16上不同质量光流图的性能比较4.2.消融研究在本节中,我们在DAVIS-16上进行了AMC-Net的消融研究我们将每个组件依次添加到网络中在表1中,我们报告了详细的结果 意思是平均数和平均值。&为了分析每个分量的贡献,我们通过采用双边编码器分支来实现简单的基线,其中执行级联以整合多模态线索(如图1(a)所示)。多模态共同注意门的有效性。通过将MCG添加到基线 中 , 模 型 ( “w/ gate” ) 在 基 线 上 显 著 优 于 基 线3.6%。&. 为了研究我们提出的门函数的效果,我们实现了一个没有门函数的变体(我我第 这种变体遇到了巨大的性能降级-运行时间。 对于大小为384的每个测试图像3843,我们的AMC-Net的前向推理在单个Nvidia 1080TiGPU上大约需要0.057s。4. 实验4.1. 数据集和指标为了评估我们提出的方法AMC-Net的性能,我们对三个公共的具有挑战性的基准数据集进行了比较实验 , 包 括 DAVIS- 16 [31] , Youtube-Objects [33] 和FBMS [29]。DAVIS-16由总共50个高质量视频序列组成,具有3455个密集注释帧。我们使用30个视频序列进行训练,其余20个用于测试。每个帧只包含一个前景对象的像素精确注释。Youtube-Objects包含10个对象类别的126个视频序列。Youtube-Objects中的地面实况在每十帧中被稀疏地标记。FBMS由59个视频序列组成,只有720帧稀疏注释。某些视频序列用多个目标前景对象注释。阶段w/o 0 0-1 0-2 0-3 0-481.1 82.7 82.8 83.2 83.5JF监督01234512.512.6 12.7 12.7 12.5 12.7 12.5 12.7带CRF的AMCCQCAMC筏,带crf基线1571FJJJFJFTion(平均值为2.2%,平均值为2.4%),这证明了门函数的有效性。此外,我们添加MCG到双边编码器分支,从第一阶段,并使用简单的特征聚合在其他阶段。如表2所示,MCG传播更有价值的信息,同时最小化干扰。运动校正模块的有效性。为了解释,plore堆叠MCM的数量对性能的影响,我们首先部署一个单一的MCM上的最后一个解码器块,它有0.4%的改善。&具有在最后三个解码器块处堆叠的MCM的变体(当我们在所有解码器块上使用MCM时,变体(此外,我们还探讨了视觉运动注意机制对五个堆叠MCM性能的影响。在表3中,我们报告了从第一解码器块依次添加对视觉运动注意力光流图质量的影响 为了验证光流质量对我们的完整模型的影响,我们首先通过使用op-to-function来实现变体(AMC筏)。1572FJG我我操作度量度量SFL [1]✓✓67.4 81.46.266.7 77.15.167.1LMP [37]✓✓✓70.0 85.01.365.9 79.22.568.0PDB [34]✓✓✓77.2 90.10.974.5 84.4-0.275.9ARP [14]✓76.2 89.17.070.6 83.57.973.4AGS [43]✓✓✓79.7 91.11.977.4 85.81.678.6COSNet [26]✓✓✓80.5 93.14.4七九点五八九点五5.080.0[41]第四十一话✓✓✓80.7 94.00.079.1 90.50.079.9ANDiff [48]✓✓✓81.7 90.92.280.5 85.10.681.1MATNet [53]✓✓*✓82.4 94.55.580.7 90.24.581.6EGMN [25]✓✓✓82.5 94.34.281.2 90.35.681.9WCS [50]✓✓82.2--80.7--81.5DFNet [52]✓✓✓83.4--81.8--82.63DC-Seg [28]✓- --- --82.23DC-Seg*[28]✓✓✓84.3 95.77.484.792.65.284.5我们✓✓84.296.03.584.594.42.284.4我们的-筏子✓✓84.596.42.884.693.82.584.6表5.与DAVIS-16验证数据集最新技术水平的总体比较在表中使用Y列中的模型飞机鸟船车猫牛狗马摩托车火车平均↑ARP [14]73.656.157.833.930.541.836.844.348.939.246.2FST [30]70.970.642.565.252.144.565.353.544.229.653.8SFL [1]65.665.459.964.058.951.154.164.852.634.057.0PDB [34]78.080.058.976.563.064.170.167.658.335.265.4FSEG [12]81.763.872.374.968.468.069.460.462.762.268.4MATNet [53]72.977.566.979.073.767.475.963.262.651.069.0AGS [43]87.776.772.278.669.264.673.364.462.148.269.7COSNet [26]81.175.771.377.666.569.876.867.467.746.870.5[41]第四十一话81.175.970.778.167.969.777.467.368.347.870.8WCS [50]81.881.267.679.565.866.273.469.569.349.770.9EGMN [25]86.175.768.682.465.970.577.172.263.847.871.4我们78.980.967.482.069.069.675.863.063.457.871.1表6.与Youtube-Objects数据集上的最新技术进行了总体比较我们报告的每类性能和平均结果的10个类别与J均值。由更精确的网络RAFT生成的流图[36]。AMC筏型的平均值和平均值分别比AMC筏型提高了0.3%和0.1%此外,我们实现了几个变体以使用由FlowNetS [4]和FlowNet2CS [10]计算的质量稍差的光流图。如表4所示,所有网络变体都产生有竞争力的结果,这表明我们提出的模型可以受益于不同质量和性能的光流。自适应融合多模态特征。光流质量对共同注意分数的影响。为了定性地测量光流质量对共同注意分数的影响,我们计算了来自AMC_00c和AMC_0ft的外观和运动特征的平均分数。如图6(a)所示,我们计算ga/gm以评估ap-1之间的相对重要性。持久性和运动特征。对于AMCpwc和AMC筏,高水平比ga/gm显着小于低水平的。光流图的相对重要性随着能级的提升而逐渐增加。更重要的是,与AMC普华永道相比,AMC 筏在低级别获得更低的比率。在图6(b)中,我们在统计上展示了共同注意力得分a和gm的曲线。可以看出,高级别的运动特征比低级别的运动特征提供更有效的引导。这种趋势与外观特征正好相反。由于AMC筏使用具有更精确的图像边界细节的流图,因此其对应于低级运动特征的门值显著增加。可以看出,AMC-Net可以自适应地充分结合外观和运动特征的优点。模型JF&SDYPP平均值↑↑衰变↓平均值↑↑衰变↓1573JJF图7.DAVIS-16三个视频序列的定性结果从上到下:摩托车越野跳,舞蹈旋转,跳马高。DAVIS-16上的变体,并组合两个解码器分支以产生最终结果。表7示出了我们提出的方法比现有技术的方法表现更好。定性结果。如图7所示,我们说明了我们提出的方法在三个视频序列上的分割结果。 这三个视频序列包含一些严峻的挑战:变形、比例变化等的表7.与FBMS最新技术水平的总体比较。我们使用平均区域相似性(平均值)来衡量分割性能。4.3.定量和定性结果对DAVIS-16的评价 我们比较我们所提出的方法与国家的最先进的方法的性能。在表5中,我们列出了与ZVOS方法的比较结果我们列出了在现有方法中广泛使用的数据集,包括DAVIS-16 [31],Youtube-VOS [46]和 静 态 分 割 数 据 集( DUT [47], MSRA 10 k [2],COCO [22]等)。此外,我们提供了后处理(PP)的指标,在现有的方法。与现有的ZVOS方法相比,我们的模型比最佳性能3DC-Seg [28]的性能高0.1%。&此外,与我们提出的方法相比,3DC-Seg使用来自更大的视频数据集IG-65 M [7]和Kinetics [15](65.8M视频剪辑)的预训练权重,并进一步在三个数据集[22,46,31]上联合微调以产生最佳分数。对Youtube-objects的评价。表6示出了用于不同类别的所有比较方法的结果。我们提出的方法与最近的ZVOS方法AGS [43],AGNN [41]和WCS [50]在所有类别中相当。由于内存机制可以更好地处理视频序列中的静态对象,EGMN [25]实现了YTB-对象的JF评分较高(0.3%)FBMS的评价在视频序列中标记的多个目标对象共享相似的外观,但具有不同的运动模式(移动或不移动),这削弱了光流在相应场景中的作用为了处理上述问题,我们设计了一个变体,通过添加一个单独的类似于 FCN 的解码器 ,使用门控的 外观功能,从MCG。我们训练整个网络定性的结果表明,我们的方法可以很好地应付棘手的运动条件在视频序列中提出的严峻挑战,并产生精确的分割掩模与定义良好的细节。5. 结论在本文中,我们提出了一个注意的多模态协作网络ZVOS,它采用了一种新的机制,以实现外观和运动之间的深度协作。AMC-Net自适应地融合来自多模态特征的鲁棒信息,并在两个阶段促进它们的协作。我们首先采用多级MCG来平衡每个阶段的多模态特征的贡献,并抑制冗余和误导性信息,传播有效的时空特征表示,同时最大限度地减少干扰。然后,我们采用了五个堆叠的MCMs与视觉运动的注意力机制,强调前景物体的功能,利用外观和运动线索之间的时空对应关系。三个基准测试的实验结果表明,AMC-Net从更少的数据中学习,并优于现有的竞争对手。我们产生了一个整洁而有效的框架,一个新的策略,运动和外观信息的相互作用,这将推广到ZVOS在复杂的场景。致谢本论文得到国家自然科学基金项目U1903215、61829102、61725202和大连市创新带头人支持计划项目2018RD07的资助。这一重新搜索也得到了美团的支持。方法NLC [5]FST [30]SFL [1]ARP [14]J均值↑44.555.556.059.8J均值↑74.075.676.176.5方法MSTP [9]FSEG [12]IET [20]OBN [21]J均值↑60.868.471.973.9方法PDB [34]COSNet [26]MATNet [53]我们1574引用[1] 程景春,蔡义轩,王胜金,杨明轩。Segflow:视频对象分割和光流的联合学习。在ICCV,第686-695页[2] Ming-Ming Cheng , Niloy J Mitra , Xiaolei Huang ,Philip HS Torr,and Shi-Min Hu.基于全局对比度的显著区域 检测 。IEEE Transactions on Pattern Analysis andMachine Intelligence,37(3):569[3] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[4] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在ICCV,第2758-2766页[5] Alon Faktor和Michal Irani。基于非局部一致性投票的视频分割。在BMVC,第8页,2014中。[6] Huazhu Fu,Dong Xu,Bao Zhang,and Stephen Lin. 基于对象的多前景视频联合分割。在CVPR,第3166-3173页[7] Deepti Ghadiyaram、Du Tran和Dhruv Mahajan。视频动作识别的大规模弱监督预训练。在CVPR中,第12046-12055页[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[9] Yuan-Ting Hu , Jia-Bin Huang , and Alexander GSchwing.使用运动显著性引导的时空传播的无监督视频对象分割。参见ECCV,第786-802页[10] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.Flownet2.0:深度网络光流估计的演变在CVPR中,第2462-2470页[11] 劳伦特·伊蒂使用视觉注意的神经生物学模型的视频压缩的自动聚焦。IEEE transactions on image processing,13(10):1304[12] Suyog Dutt Jain,Bo Xiong,and Kristen Grauman.融合-分段:学习结合运动和外观,实现视频中通用对象的全自动分割。在CVPR中,第2117-2126页[13] 张元东李哲宇金昌洙通过前景和背景分布的交替凸优化的视频中的主要对象分割在CVPR,第696-704页[14] Yeong Jun Koh和Chang-Su Kim。基于区域增强和缩小的视频主对象分割在CVPR中,第3442-3450页[15] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan ,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。[16] Margret Keuper,Bjoern Andres,and Thomas Brox.运动轨迹分割通过最小成本多切割。在ICCV,第3271-3279页[17] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的 全 连 通 crfs 的 有 效 推 理 在 Advances in neuralinformation processing systems,第109[18] Yong Jae Lee,Jaechul Kim,and Kristen Grauman.用于视频对象分割的关键段。载于ICCV,第1995-2002、2011页[19] 李浩峰、陈冠奇、李冠斌、余益州。用于视频显著对象检测的运动引导注意。在ICCV,第7274-7283页[20] Siyang Li,Bryan Seybold,Alexey Vorobyov,AlirezaFathi,Qin Huang,and C-C Jay Kuo.实例嵌入转移到无监督视频对象分割。在CVPR中,第6526-6535页[21] Siyang Li,Bryan Seybold,Alexey Vorobyov,XuejingLei,and C-C Jay Kuo.基于运动双边网络的无监督视频对象分割。参见ECCV,第207[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在ECCV,第740-755页[23] 林宗宇,Aruni RoyChowdhury,Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。在ICCV,第1449-1457页[24] Wei Liu , Andrew Rabinovich , and Alexander C Berg.Parsenet:看得更宽,看得更好。arXiv预印本arXiv:1506.04579,2015。[25] Xinkai Lu,Wenguan Wang,Martin Danelljan,TianfeiZhou,Jianbing Shen,and Luc Van Gool.基于情节图记忆网络的视频对象分割。在ECCV,2020年。[26] Xiankai Lu , Wenguan Wang , Chao Ma , JianbingShen,Ling Shao,and Fatih Porikli.查看更多,了解更多:基于共同注意连体网络的无监督视频对象分割。在CVPR中,第3623-3632页[27] Tianyang Ma和Longin Jan Latecki。视频对象分割的互斥约束最大权团。在CVPR,第670-677页[28] Sabarinath Mahadevan , Ali Athar , Aljosˇa Osˇep ,Sebastian Hennen , LauraLeal-T ai xe´ , andBastianLeibe.为视频中的对象分割制作3d卷积的案例在BMVC,2020年。[29] Peter Ochs,Jitendra Malik,and Thomas Brox.通过长时间 视 频 分 析 分 割 运 动 对 象 。 IEEE Transactions onPattern Analysis and Machine Intelligence,36(6 ):1187[30] Anestis Papazoglou和Vittorio Ferrari。无约束视频中的快速对象在ICCV,第1777-1784页,2013中。[31] Federico Perazzi、Jordi Pont-Tuset、Brian McWilliams、Luc Van Gool 、 Markus Gross 和 Alexander So
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功