无监督视频对象分割的层次特征对齐网络（HFAN）

70 浏览量更新于2023-12-01 收藏 2.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文用于无监督视频对象分割的裴根生1，沈福民2（），姚亚洲1，谢国森1（），唐振民1，唐金辉11南京理工大学，中国yazhou. njust.edu.cn2电子科技大学，中国https://github.com/NUST-Machine-Intelligence-Laboratory/HFAN抽象的。光流是一个容易构思和宝贵的线索，为推进无监督视频对象分割（UVOS）。以往的方法大多是在UVOS环境下直接提取和融合运动和外观特征来分割目标对象。然而，光流本质上是连续帧中所有像素的瞬时速度，从而使得运动特征与对应帧中的主要对象为了解决上述挑战，我们提出了一个简洁，实用，高效的外观和运动特征对齐架构，被称为层次特征对齐网络（HFAN）。具体而言，HFAN中的关键优点是顺序特征匹配（FAM）模块和特征匹配（FAT）模块，其用于分层地处理表观和运动特征FAM能够分别将外观和运动特征与主要对象语义表示对齐此外，FAT是明确设计的外观和运动功能的自适应融合，以实现跨模态功能之间的理想的权衡大量的实验证明了所提出的HFAN的有效性，其在DAVIS-16上达到了新的最先进的性能，达到88.7 J &F平均值，即。，比最佳发表结果相对提高3.5%关键词：视频对象分割·特征对齐1介绍视频对象分割（VOS）的目的是分割视频序列中每一帧的对象。与在测试时为第一帧提供注释的半监督VOS （ SVOS）相比，无监督VOS（UVOS）尤其具有挑战性，因为它不涉及先验知识和人类兴趣。这项工作的重点是UVOS任务，这激发了许多下游分割主题[5，78，26，3，71]。UVOS方法可以分为三个主要的子类别：基于运动、基于外观和基于运动外观，这取决于不同特征类型的通过仅仅使用运动信息[45，59]，arXiv：2207.08485v2 [cs.CV] 2022年7+v：mala2255获取更多论文HFAN-中型（MS）HFAN-中型HFAN-小型TransportNetHFAN-小（MS）F2NetGraphMem3DCSegFSNetAnDiffDFNetCOSNetMATNetPCSAAGNNAGSPDB2G. Pei等人9290868580807476 80 84 88 92750 2 4 8 16 32 64 128Fig. 1. 性能J&F平均值与DAVIS-16上的推理速度FPS（每秒帧数）[47]。现有的和建议的方法分别用·和·标记。UVOS被转换为运动对象分割（MOS）任务。MOS的主要缺点是当物体缓慢移动或静止时有丢失目标的风险。此外，基于外观的方法[63，38，34，77]通常使用成熟的图像分割技术详细描述目标。然而，在无监督的解决方案中缺乏关于主要对象的先验知识，几乎总是会导致错误分割的情况。相比之下，运动外观方案[1，69，75，50，79]可以减轻上述两种方法的不足。外观特征弥补了运动描述在语义表达上的不足，运动线索使外观特征能够选择高质量的候选区域。光流引导的UVOS方法作为最主要的运动外观场景，显著提高了分割性能通过将VOS转换成纯粹基于光流信息的前景运动预测来放弃外观建模不能很好地处理静态前景对象。然而，在这些方法中存在两个固有的缺点。首先，光流描述了视频中每个像素运动的速度矢量，捕获连续帧之间的运动信息。因此，帧中的主要对象的位置和/或其对应的光流通常不能很好地保留。大多数现有的方法仅仅融合帧的特征这就不可避免地导致了原始物体边界信息的丢失。其次，当面对遮挡、运动模糊、快速运动物体，甚至静止物体时，较差的光流估计直接影响最终模型的分割结果。特别地，如果光流估计失败，则视频中的主要对象的运动特征相应地无效。在这种情况下，无选择地融合外观和运动特征可能会对分割精度造成损害。为了解决上述挑战，受光流引导UVOS[59，1，22，69，75，50，79] 的当前趋势的启发，我们提出了一种分层特征对齐网络（HFAN）。它将对象位置与运动/外观特征对齐，并调整对齐的特征以减轻跨模态不匹配。具体地说，我们构造了一个FAM模块来实现HFAN培养基（MS）HFAN-小型（MS）HFAN-中型HFAN-小型TransportNetDFNetMATNetAnDiff3DCSegF2NetGraphMemFSNetAGNNCOSNetPCSAAGSPDB+v：mala2255获取更多论文JFUVOS 3的分层特征对齐网络在多级特征编码阶段中与外观/运动特征的对象级对准。考虑到外观目标区域和地面真实目标区域的空间位置是无缝匹配的，我们利用外观特征生成粗接下来，FAM利用相同的对象区域（即，粗掩模）来表示外观和运动的对象级对准此外，我们建立了特征匹配（FAT）模块，在对齐步骤之后将外观和运动特征相结合。FAT的目的是通过构造一个自适应的外观和运动特征之间的权重，以值得注意的是，外观和运动特征的自适应融合可以有效地减轻光流估计失败和运动模糊对分割结果的危害。我们在三个广泛使用的数据集上评估了该模型的有效性和可靠性。在DAVIS-16[47]上，我们的HFAN-小型和HFAN-中型分别在20.8和14.4 FPS下达到86.7和87.5平均值。这些是在精度和速度方面的最新技术水平（SOTA）结果，如图1所示。在YouTube-Objects[49]上，提出的HFAN-small比报告的最佳结果相对提高了2.0%。此外，所提出的方法在长视频上实现了与SVOS模型等效的性能[32]。同时，HFAN在DAVIS- 16上也达到了视频显著对象检测（VSOD）的最佳结果，该检测旨在检测视频中的显著区域。总之，HFAN提供了一个有效的解决方案和光流引导UVOS的新视角。2相关工作2.1视频对象分割当前的视频对象分割被广泛地分类为无监督VOS[63，65，70，58]和半监督VOS[39，44，52，8]任务。主要区别在于它们是否为第一帧提供精确的像素级注释，在推理时分割的视频。随着对VOS研究的进展，利用用户交互（例如：涂写或点击）作为输入以迭代地优化分割结果已经产生了良好的性能。参考VOS设置[18，51，24]源于考虑不同类型的交互，语言引导的视频表达，即由给定的语言描述引用的目标对象。然而，高质量的注释视频数据的昂贵性质激发了对优雅和不受限制的VOS设置的需要。本文的重点是UVOS，它在测试过程中不使用任何人为干预。根据当前方法是否使用深度特征，我们进一步将UVOS分为两个子类：传统和深度。近三十年来，计算机视觉社区广泛研究了自动二值视频分割的任务。早期的传统模型通常是基于与前景相关的特定地理学（即，、目标提议[48]、运动边界[45]、显著对象[64]）。它们需要手工制作的低级功能（例如，、SIFT、边缘）。后来，有几种方法（例如，、点轨迹[42]、背景减除[12]和过分割[10]）+v：mala2255获取更多论文4个G. Pei等人分割和跟踪视频中具有不同运动和表现的目标。最近，随着人工神经网络的复兴，深度模型（例如，，CNN[77，70]， RNN[55，65，1]，GNN[63，36]）使UVOS能够快速发展。尝试在该领域应用深度学习技术的一个典型例子是LSMO[59]，它学习多层感知器来检测移动对象。基于完全卷积网络的许多后续方法减少了计算负担，例如双流结构[58，21，28，54]，基于CNN的编码器-解码器架构[79，6，78]和暹罗网络[37，34]。随着光流估计领域[19，57，56]的蓬勃发展，越来越多的基于光流的UVOS方法[22，69，75，50]获得了巨大的性能改进。与上述基于光流的方法的主要区别在于，我们重新考虑帧与光流之间的失配。我们的HFAN执行层次特征对齐和运动外观特征的自适应，以实现视频中主要对象的准确特征表示。2.2特征对准特征对齐被广泛应用于各个领域，例如：[2019 - 04- 16][2019 - 04 -05][2019 - 04][2019 - 05] 对于对象检测，特征对齐主要涉及锚框和卷积特征之间的未对齐，以及特征图中同一点的多个锚。现有的图像分割模型通常采用特征金字塔网络（FPN）[33]来获得不同分辨率的特征图以提高性能。然而，这增加了在下采样期间边界信息的损失以及具有用于上采样的不同分辨率的未对齐特征图一种有效的方法[16，31]是将特征从粗分辨率对齐到最细分辨率，以匹配特征图之间的位置。调整和适应运动和外观特征的多层次表示从同一个编码器实现了我们的HFAN。因此，保证了两种模态之间的分层特征映射基于相同的主要对象来对齐它们各自的特征。3该方法我们的HFAN由两个模块组成：特征对齐（FAM，§ 3.2）和特征自适应（FAT，§ 3.3）。 FAM将外观和运动特征图的层次特征与主要对象对齐。FAT在像素级融合了这两个对齐的特征图，并具有可学习的自适应权重。3.1任务定义给定具有N帧的输入视频I，我们可以选择每个帧I∈RH×W ×3，并通过[57]计算相对光流O∈RH×W ×3（可视化为RGB图像）。在多级特征表示的第i阶段（i∈+v：mala2255获取更多论文2i+1 ×F联系我们编码器解码器HFAN��1×��1 ×��1��2 ×��2 ×��2��3 ×��3 ×��3��4 ×��4 ×��4UVOS 5的分层特征对齐网络图二、HFAN的管道。帧I和光流O被用作输入，以通过具有HFAN的编码器分别提取分层外观和运动特征。并且由解码器获得优良的分割掩模Y{1， 2， 3， 4}），表示为Ii∈RHi×Wi×CiOi∈RHi×Wi×Ci。Hi×Wi表示特征分辨率，其中，将值设置为HW2i+1 . 拟议的HFAN旨在产生对象级对齐的高质量自适应特征，Ui= FHFAN（Ii，Oi）∈ RHi×Wi×Ci.（一）这里，FHFAN（·，·）包含两个主要模块，它们是：Ii，Oi=FFAM（Ii，Oi），Ui=FFAT（Ii，Oi），（2）其中，FFAM对Ii和Oi进行特征对齐，并且FFAT通过执行多模态自适应特征融合来融合来自FAM的对齐的特征图。所提出的方法的整体架构如图所示二、我们采用轻量级MiT[66]主干（ResNet[14]也被研究，见详情见第4.2节。）并采用解码器来产生帧I的主要对象二进制掩码Y0， 1H×W。接下来，我们详细说明了我们提出的HFAN模型的两个主要模块，以及训练和推理阶段。3.2特征对齐模块光流法通过为每个像素生成一个运动矢量来产生一个稠密的运动矢量场，这是研究视频分析和表示的重要辅助信息使用光流引导的先前作品[79，69，75，50]将一个视频帧及其光流默认为对齐的图像。然而，只有当两个连续帧之间的运动很小时，这个假设才近似成立。此外，这种固化倾向于导致沿着移动对象边界的差的精度。一个直观的概念是，虽然外观特征和运动特征是不对齐的，但它们之间的联系是它们共享主要对象。受此启发，我们设计了一个专门针对帧和光流的特征对齐模块来缓解这些问题。首先，FAM预测Ii的粗分割概率以获得Pi=FCS（Ii）∈RHi×Wi×Ncls，（3）+v：mala2255获取更多论文FCi我我6个G. Pei等人其中，FC S（·）表示由卷积块Conv 1 × 1（C i，N cls）→BN→ReLU在外观特征图Ii上实现的粗分割概率掩码，并且N cls表示类别的数量。这里，BN表示批量归一化[20]，ReLU是整流线性单元[41]。本文关注单个前景和背景，因此将N cls设置为2。包含在由原始帧Ii获得的粗略概率掩模Pi中的区域与要分割的主要对象的区域一致因此，我们设计了特征对齐模块，该模块仅针对掩模区域分别对齐外观特征和运动特征。这种方式在降低计算成本的同时减弱光流背景噪声对分割的负面影响的优点。随后，Pi通过等式获得。（3）是与原始外观特征图共同构建的主要对象区域的上下文表示。我们设计了类别特定语义（CSS）模块来表示类别语义，公式化为I′=permute（view（Ii）），P′=softmax（view（Pi）），i i（4）Mi=FCSS（Ii，Pi）=matmul（I′，P′）∈RCi×Ncls×1，其中view、permute和matmul表示整形、置换张量维度和张量积。softmax也被称为归一化指数函数。Mi的突出作用概括为两点：1）在特定区域Pi内的外观特征的空间压缩;2）由外观和运动特征共享的类别特定信息的提取CSS在特征和语义层面上的交换使得为外观-运动特征寻找共同的上下文成为可能。紧接着，主要对象上下文（POC）模块被设计为执行具有相同Mi的外观和运动特征的对象级上下文对齐。受自我关注的启发[60]，FSA是通过以下方式实现的：不FSA= softmax（αQK）V，Q∈{Ii，Oi}（五）Q，K，V=F查询（Q），F键（Mi），F值（Mi），其中Q、K和V分别表示通过FQuery、FKey和FVValue三个变换操作获得的查询、键和值它们是由Conv 1 × 1（C i，C i/r）→ BN → ReLU. α = α1是一个比例因子。r设为Ci/16用于信道缩减比，并且concat指示级联操作。我们提出的POC模块有助于细化目标边界，并减轻帧和光流之间的主要对象移位。POC模块可以表示如下：Ii=FPOC（Ii，Mi）∈RHi×Wi×Ci，Oi=FPOC（Oi，Mi）∈RHi×Wi×Ci，（六）其中，R1i和R2 i是设备对准和运动对准的特征映射，re-R2。+v：mala2255获取更多论文∈我��×�� ×��×�� ×��×�� ×��CSS 范畴特定语义POCመ��×�� ×��×�� ×��×�� ×��POC主对象上下文CA智能注意力CACSS�� × ��× 1��1 −��PA��×�� ×��POC��×�� ×��脂肪FAMPA像素级注意力卷积块广播加法逐元素乘法乙状UVOS 7的分层特征对齐网络图三. 拟议FAM和FAT模块的图示。特征对齐和特征自适应应用于每个分层特征图，以解决光流和视频帧之间的位置和模式失配。Ui表示阶段i∈ {1，2，3，4}的对准和自适应特征。与以前的方法相比，FAM不直接与appepestion和motion特征交互，而是采用CSS和POC模块来实现不同模态特征的上下文对齐如图3-FAM，当Ii和Oi经过FAM时，它们各自的特征代表由Mi引导的共享主对象区域Pi。在特征自适应融合阶段之前，它保证了表观特征Ii和运动特征Oii的独立性。3.3特征适配模块在基于相同的拼接文本区域来表示外观和运动特征之后，对齐的特征映射图Eii和Eiii具有更多的边界信息和更少的背景噪声。然而，当光流估计失败，由于缓慢的运动或静止的目标对象，保留所有的光流特征将导致分割性能的巨大损失。为此，我们需要它们的跨模态特征之间的自适应操作在这项工作中，我们提出了功能自适应（FAT）模块。具体地说，我们聚合外观对齐和运动对齐的特征，并相应地得到融合的特征图Fi，它包含了所有的信息，Ii和Oi。其形式可直接表示为Fi=Ii+Oi。这里，FiRHi×Wi×Ci 被视为外观和运动上下文叠加后的语义特征图，相当于对相同分辨率的不同模态特征执行跳过连接操作[14，33]。受[30]的启发，通道级和像素级语义表示通过以下方式获得：FCA=FCA（Fi）∈RHi×Wi×Ci，我FPA=FPA（Fi）∈R1×1×Ci，（七）其中，FC A（·）和FPA（·）指示channel-wise，并且对Fi执行逐像素的注意操作。与现有方法[50，79，21]中直接使用Fi作为融合的外观和运动特征不同，我们建议调整这些特征。具体地说，我们将Fi转换为具有特征自适应的基重，以确保稳定+v：mala2255获取更多论文⊙−F·阿罗勒Σ我8个G. Pei等人即使在低质量运动信息条件下（例如，遮挡和慢动作）。该公式表示为F_i=sigmoid（F_CA+F_PA）∈R_H_i×W_i×C_i，i i（8）Ui=<$Ii<$F<$i+O<$i <$（1−F<$i）∈RHi×Wi×Ci，其中表示逐元素乘法。在这一点上，详细介绍了FAT，并在图中说明了工作流程3-脂肪。进一步观察Eq. （8）表明当（1）当F_i）趋近于0时，U_i的所有信息都由表观特征提供，而当F_i趋近于0时，U_i的所有信息都由运动特征提供。同时，F_∞i具有可学习性，实现了帧和光流的特征自适应。3.4训练和推理通过HFAN获得的多级特征Ui（i∈{1， 2， 3， 4}）被馈送到解码器FDEC，并且获得预测的分割掩模QQ= FDEC（Ui|i = 1，2，3，4）∈RH×W×Ncls，（9）其中DEC（）利用[66]提供的轻量级All-MLP解码器来确保与编码器网络MiT的一致性。我们的模型被训练成最小化损失函数L，如下所示=1个H×Wp，qCE（Q[·，p，q]，G[p，q]），（十）其中LCE是交叉熵损失。G代表Ground-Truth mask。p，q表示帧I上所有位置的和。在推断阶段，来自解码器的Q直接通过argmax函数来推断最终的二进制掩码Y。视频的预测分割，而不应用任何后处理技术可以表述为Y = argmax（Q）∈ {0，1}H×W.（十一）4实验4.1实验装置数据集。我们使用UVOS在三个公开可用的数据集上评估HFAN：DAVIS-16[47]，YouTube-Objects [49]和Long-Videos [32]。DAVIS-16 [47]共包含50个视频，包括30个培训视频和20个验证视频。YouTube-Objects[49]包括126个网络视频，分为10个类别，总共超过20，000帧。长视频[32]由三个视频组成，每个视频序列包含约2500帧+v：mala2255获取更多论文−∼×−FJFJUVOS 9的分层特征对齐网络实施细节。我们利用PyTorch [46]和MMSegmentation代码库[7]来实现我们的模型，并在两个NVIDIA V100上进行训练，每个GPU的小批量大小为8。为了在准确性和速度之间实现更好的权衡，我们选择轻量级MiT-b1和中量级MiT-b2作为骨干，而不是更好但更大的MiT-b3到MiT-b5 [66]。在[79，61，38]之后，我们在YouTube-VOS [67]上预训练我们的网络，并在DAVIS-16 [47]的训练集上进行微调。在训练过程中，我们通过随机水平翻转，随机调整大小（比率为0）在线增加数据。5二、0，随机裁剪为512 512.我们使用AdamW优化器对16万次迭代进行预训练，并对4K次迭代进行微调。预训练和微调的学习率设置为6e5分别具有多边形调度和具有固定调度的1E5。为了获得一个优雅的端到端模型，我们不使用辅助水头损失和在线硬示例挖掘等训练技巧[53]。此外，没有后处理技术（例如，，广泛使用的CRF[25]）用于推理阶段。实验的所有推理过程都使用单个V100执行。我们使用[47]推荐的两个标准评估指标报告UVOS性能，即、区域相似度J和边界精度F。4.2消融研究为了量化HFAN中每个基本组件的影响，我们对DAVIS-16瓣膜套件进行了详尽的消融研究[47]。为了消融结果的公平性，我们不执行任何后处理技术。数据输入的影响为了分析外观和运动特征对性能的影响，我们首先对表1中输入的数据进行消融研究。我们采用视频帧和相应的光流作为数据输入。一个简单的添加剂特征融合方法作为基线。相比到使用单一输入类型，基线通过提供更丰富的外观和动作提示来提高性能。实验结果表明，光流场作为视频帧间的时间一致性，需要多个外观特征的共同作用才能达到预期的效果。关键模块的功效当将我们的基线与FAM、FAT和HFAN进行比较时，表2中的结果显示HFAN是更优的聚合物美创商和脂肪具体而言，FAM在平均值和平均值方面分别提高了2.2%和2.3%。脂肪平均增加2.0%，平均增加2.8%意思通过结合FAM和FAT模块实现的HFAN实现的最佳性能增益进一步证明了表1. 数据输入的消融研究。所有消融版本均采用神经结构MiT-b1作为主干。表2.模块消融研究。HFAN指示一个完整的模型与集成的FAM和FAT模块。输入J 是说↑ JF平均值 ↑ F仅图像帧79.1-3.979.8-3.5仅光流77.9-5.176.5-6.8基线83.0-83.3-变体J 是说↑ JF平均值 ↑ FFPS↑基线83.0-83.3-22.0基线+FAM85.2+2.285.6+2.321.0基线+FAT85.0+2.086.1+2.821.4基线+HFAN86.2+3.287.1+3.820.8+v：mala2255获取更多论文10个G。Pei等人表3. 不同脊椎骨的消融研究。在实验消融中考虑了类变压器和类CNN的版本。对于测试设置，SS/MS记录了单/多尺度测试。表4.利用MS测试对不同输入尺寸和光流进行烧蚀研究。方法大小筏J均值↑ F均值↑PWCNetJ均值↑ F均值↑384 ×384448 ×448480 ×480512 ×51286.2 86.686.9 87.586.9 87.687.1 87.784.5 84.785.3 85.785.5 85.985.7 86.0表5. 对类Transformer和类CNN网络架构的消融研究。在相同的装置（RAFT，512 ×512和MS测试）中获得消融结果。方法骨干JMATNet平均值↑+FCRF平均值↑我们J平均值↑F是说MiT-b183.882.687.187.7MiT-b284.783.888.089.3ResNet-10184.082.987.387.9建议的方法。为了对齐不同模态图像中的共同前景对象的特征，HFAN实现了一种简单的方法来校正视频帧与其对应的光流特征之间的移位差异此外，HFAN通过学习特征自适应权值，实现了特征融合阶段的自适应选择图 4显示了表2的消融版本。可以发现，FAM对齐图像和光流特征，以产生更平滑和更精细的对象边界。同时，FAT通过自适应变换增强图像和光流特征我们的HFAN继承了FAM和FAT的优点，在目标区域获得更多的精细度，并在非目标区域去除大量的噪声。骨干的功效我们研究了不同的骨干网络的准确性和速度的影响。MiT-b0到MiT-b3[66]的结果如表3所示（请注意，由于GPU内存限制，我们没有使用MiT-b4和MiT-b5运行实验。我们发现，性能增加时，扩大规模的骨干网络。然而，较大的网络导致较低的模型效率和实时速度。此外，其他类型的骨干网络（例如，， Swin Transformer[35] 和ResNet[14]）也取得了竞争性的结果。这充分证明了所提出的方法的通用性。考虑到模型大小和性能之间的权衡，我们分别选择MiT-b1和MiT-b2作为HFAN的小型和中型骨干网络(a) 基线（b）+FAM（c）+FAT（d）+HFAN见图4。四个消融模型的第一阶段特征图U 1的图示。骨干测试设置J平均值↑F平均值↑FPS↑MiT-b0SSMS81.583.480.882.324.03.4MiT-b1SSMS86.287.187.187.720.82.5MiT-b2SSMS86.888.088.289.314.41.4MiT-b3SSMS86.888.288.890.010.61.0Swin-TinySSMS86.087.287.387.912.81.1ResNet-101SSMS86.687.387.387.912.41.3+v：mala2255获取更多论文JFJFJFUVOS 11的分层特征对齐网络图像大小和光流的影响低分辨率图像输入通常会降低分割模型的性能，而不同光流估计方法的使用也会影响最终的分割结果。研究图像尺寸和光流估计方法的影响在所提出的方法上，我们探索了四种不同的图像尺寸输入和两种众所周知的光流估计方法。烧蚀结果如表4所示，我们可以发现1）所提出的方法在低分辨率条件下仍然具有良好的性能;2）RAFT[57]在相同分辨率下比PWC-Net[56]具有更好的结果。综合分析表明，该方法对图像分辨率不敏感，而不同质量的光流估计对分割结果的影响较为明显网络架构的影响我们进一步探讨了不同的网络架构对视频分割方法的影响。表 5 显示了 Transformer-like （ MiT[66] ）和 CNN-like（ResNet[14]）网络的消融结果，分析显示1）两种方法（MATNet[79]和我们的）的性能排名顺序为MiT-b2> ResNet-101> MiT-b1，2）所提出的方法优于MATNet（请注意，MATNet的结果是通过CRF后处理技术获得的，而我们的结果不是。在相同网络架构的平均值方面高于4.1% 。上述消融结果表明，与 CNN 类 ResNet-101 相比，大型Transformer类MiT-b2 [66]受益于更好的视觉感知，并实现了更好的分割性能[14]。4.3UVOS的定量结果戴维斯-16。我们在公共基准DAVIS-16上比较了所提出的模型HFAN与SOTA方法[47]。表6显示了定量结果。我们的方法在DAVIS上的性能明显优于所有现有的SOTA模型16.具体来说，我们的HFAN-small平均得分为86.7%，实时速度达到20.8FPS。与RTNet[50]相比，其采用前向和后向光流并使用后处理，HFAN介质仅使用前向光流而不使用任何后处理技术实现了88.7%的平均值。与以前使用光流的方法[79，22，69，75，50]相比，我们的方法在推理速度和分割精度方面具有显着的优势。主要原因是HFAN中的FAM和FAT模块对未对齐的交叉模态特征执行特征对齐和自适应，从而允许解码器利用更准确的特征表示。不同度量的定量结果表明，我们的方法取得了很好的UVOS任务中准确性和速度之间的权衡。YouTube-Objects. 为了探索我们提出的方法对其他视频数据集的通用性，我们在YouTube-Objects [49]测试集上进行了验证实验，而没有进一步微调其训练集。的定量结果该数据集中的10个类别见表7。我们的方法HFAN-small在所有类别中未达到SOTA，但比其他比较方法具有更好的稳定性。在平均 J 均值方面，所提出的方法比第二好的GraphMem[36]高2.0%。对于10个不同的对象类别，+v：mala2255获取更多论文JF12个G. Pei等人表6. DAVIS-16的评价[47]。“小”和“中”表明HFAN的背核网络分别为MiT-b1和MiT-b2。“t”表示使用光流。“PP”表示后处理。三个最好的分数分别用红色、蓝色和绿色标记。每个模型的推理速度（FPS）包含生成最终结果的所有必要方面方法出版物PPJ平均值↑回忆 ↑衰减 ↓F平均值↑回忆 ↑衰减 ↓JF平均值↑FPS↑PDB[55] ECCV 2018✓90.10.974.5 84.4-0.275.920.0[80]第八十话TIP 2019✓73.9 88.50.668.0 80.6 0.771.0-LSMO[59] IJCV 2019✓78.2 89.175.9 84.7 3.577.1-[54]第五十四话 ICRA 2019✓77.2 87.8 5.077.4 84.4 3.377.3-AGS[65] CVPR 2019✓91.1 1.977.4 85.8 1.678.61.7AGNN[63] ICCV 2019✓80.794.079.190.579.91.9COSNet[37] CVPR 2019✓93.1 4.479.5 89.5 5.080.02.2安迪夫[70] ICCV 201981.7 90.9 2.285.10.681.12.8[第11话]AAAI 202078.1 90.078.5 88.178.3110EPO+†[1] WACV 2020✓80.6 95.2 2.275.5 87.978.1-[79]第七十九话AAAI 2020✓82.4 94.5 3.880.7 90.2 4.581.51.3[36]第三十六话 ECCV 2020✓82.5 94.390.3 5.681.95.0DFNet[77] ECCV 2020✓83.4 94.4 4.281.8 89.082.63.63DCSeg[38] BMVC 202084.2 95.892.4 5.584.24.5F2Net[34]AAAI 202195.70.084.4 92.3 0.883.710.0[22]第二十二话 ICCV 2021✓94.5 3.283.1 90.283.312.5[69]第六十九话 ICCV 2021✓84.596.42.884.6 93.884.6-[75]第七十五话 ICCV 2021八十四点五85.084.83.6[50]第五十话 CVPR 2021✓85.6 96.1-84.7 93.8-85.2-Ours-small†（SS/MS）86.7/96.84.6/4.895.5/95.32.3/2.586.7/87.4 20.8/2.5我们的培养基†（SS/MS）-86.1/96.2 4.3/4.595.3/95.41.1/2.087.5/88.7 14.4/1.4表7.[49]第四十九话对于J均值↑上的每个对象类别，三个最佳分数以红色、蓝色和绿色标记。方法 MOTAdapt[五十四]LSMO[59]LVO[58个]FSEG[21日]PDB[55]SFL[6]美国AGS[第六十五章]COSNet[37个]AGNN[63个]MATNet[第七十九章]AMCNet[69]第六十九届GraphMem[50个]RTNet[三十六]我们的小飞机77.260.586.281.778.0 65.6 87.781.181.172.978.986.184.184.7鸟42.259.381.063.880.0 65.4 76.775.775.977.580.975.780.280.0船49.362.168.572.358.9 59.9 72.271.370.766.967.468.670.172.0车68.672.369.374.976.5 64.0 78.677.678.179.082.082.479.576.1猫46.366.358.868.463.0 58.9 69.266.567.973.769.065.971.876.0牛64.267.968.568.064.1 51.2 64.669.869.767.469.670.570.171.2狗66.170.061.769.470.1 54.1 73.376.877.475.975.877.171.376.9马64.865.453.960.467.6 64.8 64.467.467.363.263.072.265.171.0摩托车44.655.560.862.758.4 52.6 62.167.768.362.663.463.864.664.3火车42.338.066.362.235.3 34.0 48.246.847.851.057.847.853.361.4平均58.164.367.568.465.5 57.1 69.770.570.869.071.171.471.073.4所提出的方法在各种干扰（例如，运动模糊、遮挡、比例变化）视频序列。这是通过所提出的外观和运动信息模块（FAM和FAT）的合理交互实现的长视频DAVIS [47]（平均每个视频序列60+帧）仅包含短期视频剪辑，而现实世界的视频往往有更多的帧。为了验证我们的HFAN在长期视频对象分割中的性能，我们在Long-Videos [32] val-set（每个视频序列约2500帧）上对其进行了评估。表8显示了在SVOS和UVOS两种类型的监督下的结果。通过进一步的观察，我们可以发现，所提出的HFAN介质获得了最好的结果，在UVOS下达到81.7%，超过&平均值设置.与第二好的方法AGNN [63]相比，我们的小模型在J &F Mean上获得了7.0%的改进。同时，HFAN培养基+v：mala2255获取更多论文ξββ∼∼UVOS 13的分层特征对齐网络表8. 长视频的评价[32]。SVOS和UVOS方法的最佳结果分别以下划线和粗体方法监督是说 ↑J召回↑ 衰变↓是说 ↑F召回↑ 衰减↓JF平均值↑Rvos[61]10.26.713.014.311.710.112.2[23]第二十三话SVOS50.058.339.650.758.345.250.3STM[44]79.188.311.679.590.015.479.3[32]第三十二话82.791.711.583.891.713.983.33DCSeg [38]34.238.611.633.128.115.633.7MATNet[79]66.473.710.969.377.210.667.9AGNN[63]UVOS68.377.213.068.677.216.668.5我们的小74.982.514.876.186.016.075.5Ours-medium80.291.29.483.296.57.181.7表9. DAVIS [47]对VSOD的评价。最好的分数用粗体标出。方法FGRN[27日]LTSI[二]《中国日报》RCR[第六十八章]MBN[29日]SSAV[9]第一章PCSA[第十一届]DCFNet[76个]FSNet[22日] Ours-smallSαEmaxξFmaxβMae↑↑↑↓0.838 0.876 0.886 0.887 0.893 0.9020.9140.9200.9340.9380.917 0.957 0.947 0.966 0.948 0.961-0.9700.9830.9830.783 0.850 0.848 0.862 0.861 0.8800.9000.9070.9290.9350.043 0.034 0.027 0.031 0.028 0.0220.0160.0200.0090.008与SVOS方法相比，可以获得令人满意的结果。结果表明，光流提供的时间一致性也是有效的长期视频对象分割。4.4VSOD的定量结果与UVOS一样，附加任务VSOD不需要第一帧注释。为了验证所提出的方法在VSOD设置上的性能，我们在DAVIS上与八个SOTA模型进行了定量比较[47]。指标. 我们采用了四个广泛使用的评价指标，包括结构测度S α（α =0. 5）、最大增强对准测量E_max、最大F-测量F max（β2= 0. 3）和平均绝对误差（MAE）。结果如表9所示，我们的HFAN优于所有SOTA模型。特别是，与DCFNet[76]相比，Sα和Fmax分别提高了2%和3%。与FSNet[22]相比，HFAN实现了>1.3%的性能。mance在Sα、Emax和Fmax上增加，并将MAE减小到原来的1/2。这ξ β显著地证明了我们的方法对类似任务的适应性。4.5定性结果图图5显示了我们的HFAN模型的定性结果我们从DAVIS-16[47]，YouTube-Objects[49]和Long-Videos[32]测试集中选择了五个视频这些视频由几个具有挑战性的帧序列组成（例如，快速运动、比例变化、交互对象和遮挡）。如上面两行所示+v：mala2255获取更多论文14个G. Pei等人时间图五. 三个具有挑战性的视频片段随时间推移的定性结果。从上到下：来自DAVIS-16的bmx 树， libby 和 soapbox [47] ，来自 YouTube- Objects 的 dog-0028[49]，以及来自Long-Videos的rat [32]。我们的方法在动态的、相似的和复杂的背景下产生了理想的结果

下载后可阅读完整内容，剩余1页未读，立即下载