基于交叉学习的快速在线视频实例分割

142 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8043基于交叉学习的快速在线视频实例分割ShushengYang1，2*，YuxinFang1*，Xing gangWangg1†，YuLi2，Chen Fang3，Ying Shan2，Bin Feng1，Wenyu Liu11华中科技大学启德学院2腾讯应用研究中心（ARC）3腾讯摘要跨帧建模时间视觉上下文对于视频实例分割（VIS）和其他视频理解任务是至关重要的。在本文中，我们提出了一个快速的在线VIS模型CrossVIS.对于VIS中的时间信息建模，我们提出了一种新的交叉学习方案，该方案使用当前帧中的实例特征对其他帧中的相同实例进行像素级本地化。与以往的方案不同，交叉学习，ING不需要任何额外的网络参数的特征增强。通过与实例分割损失相结合，交叉学习实现了高效的跨帧实例到像素的关系学习，并在推理期间带来了无成本的改进。此外，为了更好、更稳定地进行在线实例关联，提出了一种全局均衡的实例嵌入分支. 我们在三个具有挑战性的 VIS 基准上进行了广泛的实验YouTube-VIS-2019、OVIS和YouTube-VIS- 2021来评估我们的方法。CrossVIS实现了最先进的在线VIS性能，并在延迟和准确性之间表现出良好的权衡。代码可在https://github.com/hustvl/CrossVIS 上获得。1. 介绍视频实例分割（VIS）[68]是计算机视觉中的一项新兴任务，旨在对视频序列中的实例执行逐像素标记。该任务提供对视频场景的自然理解。因此，在现实世界场景中实现准确、鲁棒和快速的视频实例分割将极大地刺激计算机视觉应用的发展，例如，自动驾驶、视频监控和视频编辑。近年来，静止图像目标检测和实例分割技术取得了重大进展怎么-*平等捐款。本研究是杨树生在腾讯PCG应用研究中心实习期间完成的。†通讯作者，电子邮件：xgwang@hust.edu.cn。图1.与没有交叉学习的基线模型（顶行）相比，CrossVIS可以预测更准确的视频实例分割结果（底然而，将这些方法推广到VIS仍然是一项具有挑战性的工作。类似于其他基于视频的识别任务，诸如视频对象分割（VOS）[45，46]、视频对象检测（VOD）[49]和多对象跟踪（MOT）[16，21，55，71]，连续视频序列总是带来巨大的挑战，例如，需要快速识别的大量帧、严重遮挡、对象消失和非常规的对象到相机姿势[18]。为了克服这些挑战并在这些视频理解任务（VIS、VOS、VOD和MOT）上获得更好的性能，充分利用视频帧之间的时间信息是至关重要的。以前关于这个主题的基于深度学习的方法有四种。（1）像素级特征聚合使用其它帧来增强当前帧的像素特征，STM-VOS[42]和STEm-Seg [1]分别基于非局部网络[57]和3D卷积聚合像素级时空特征。（2）实例级特征聚合增强跨帧的区域、提议或实例特征，例如，MaskProp [2]使用可变形卷积[15] 对于VIS和SELSA [63]，使用VOD的谱聚类融合实例特征。（3）使用度量学习来关联实例，例如，MaskTrack R-CNN [68]引入了基于Mask R-CNN [24]的关联头，SipMask-VIS [6]添加了基于w/。交叉w/o。交叉8044在 FCOS 上 [53] 。（ 4 ）后处理， Seq-NMS [23] 和ObjLink [44]分别基于动态编程和可学习对象tubelet链接来细化视频对象检测结果。在本文中，我们提出了一种新的计划，称为交叉学习的时间信息建模。其基本思想是使用当前帧中的实例特征对其他帧中的相同实例进行逐像素本地化与以前的像素/实例级特征聚合方法不同，交叉学习不需要额外的网络块进行特征对齐和融合。该方法在不增加推理计算量的前提下获得了时间信息增强的特征。与基于度量学习的实例关联方法需要额外的度量学习损失不同，交叉学习与实例分割损失相结合此外，它还可以实现跨帧的高效多对多关系学习，即实例像素特征被强制为靠近属于同一实例的像素，而远离属于其它实例和背景的像素与后处理方法不同，交叉学习是端到端的反向传播优化。由于交叉学习与实例分割损失相结合，因此它与其他时间信息建模策略完全兼容本文通过引入一个全局平衡的实例嵌入学习网络分支，进一步改进了实例关联策略。我们的主要贡献总结如下：• 我们提出了一种新的交叉学习方案，利用视频中固有的丰富的上下文信息，以加强跨视频帧的实例表示，并削弱背景和实例无关的信息在同一时间。• 我们引入了一个新的全局平衡的实例嵌入-丁分支，以解决视频实例分割中的关联问题，这产生了更好的和更稳定的结果比以前的成对的身份映射方法。• 我们提出了一个完全卷积的在线视频实例分割模型CrossVIS，它在三个具有挑战性的VIS基准上取得了很好的结果，YouTube-VIS-2019、OVIS和YouTube-VIS-2021。据我们所知，CrossVIS在所有在线VIS方法中实现了最先进的性能，并取得了良好的速度-精度平衡。2. 相关工作静态图像实例分割。实例分割是在给定图像中检测和分割每个不同的感兴趣对象的任务。许多先前的作品[24，10，14，27，9，12，5，58，52，30，6，31]贡献了一个这一领域的快速发展Mask R-CNN[24]采用具有并行掩码头的Faster R-CNN [48]来预测实例掩码，并在很长一段时间内采用两阶段方式。[27，9，13]提升Mask R-CNN并实现更好的实例分割结果。这些两阶段模型的成功部分地归因于特征对准操作，即：，RoIPool [25，22]和RoIAlign [24]。最近，基于没有显式特征对齐操作的单阶段框架的实例分割方法开始出现[5，4，8，65，58，59]。作为代表，全卷积CondInst [52]在COCO数据集[36]上的性能优于几种最先进的方法，该方法动态生成针对实例的掩码头部条件的过滤器。我们在[52]的基础上构建我们的框架，并将其扩展到VIS任务。视频实例分割（VIS）。VIS需要在给定视频中的随着YouTube- VIS-2019数据集的引入[68]，在解决这一具有挑战性的任务方面取得了巨大进展[19，56，37，17作为一种代表性方法，MaskTrack R-CNN [68]使用成对标识分支扩展SipMask-VIS [6]遵循基于一级FCOS[53]和YOLACT [5，4]框架的类似管道。[38]分离VIS问题中的所有子任务MaskProp [2]在多级框架[9]上引入了一个新的掩码传播分支，该分支将实例掩码从一个帧传播到另一个帧。作为一种离线方法，MaskProp实现了准确的预测，但存在高延迟。[32]介绍了一种改进的变分自动编码器来解决VIS任务。STEm-Seg [1]将视频剪辑视为3D空间-时间体积并以自下而上的方式分割对象。[29]采用递归图神经网络进行VIS任务。CompFeat [20]利用时间和空间上下文信息在帧级和对象级两者上细化特征。VisTR [60]自然采用DETR [7]以基于查询的端到端方式进行VIS任务。最近，OVIS[47]和YouTube-VIS-2021 [67]被提议进一步促进该领域的进步。CrossVIS在三个VIS基准上进行了评估，并显示出具有竞争力的性能。我们希望CrossVIS可以作为一个强大的基线，以促进未来的研究。3. 方法我们的目标是利用丰富的上下文信息，在不同的视频帧更强大的实例表示在视频实例分割（VIS）。为此，我们从[28，52，59]和Pro中获得灵感8045--控制器头*静止图像预测FCN帧掩模分支*交叉预测分享权重掩模分支*交叉预测FCN帧控制器头*静止图像预测图2.培训阶段CrossVIS概述在时间t和t + δ处的两个帧被馈送到全卷积网络（FCN）中以生成动态滤波器θx，y（t）&θx’，y’（t+δ）和掩码特征图F~ x，y（t）&F~x’，y’（t+δ）。红线指示帧t中的动态滤波器和掩模特征图，蓝线指示帧t+δ中的相同。实线表示静止图像预测过程，虚线表示所提出的交叉学习方案。图中从上到下的四个在Eq.（4），Eq.（7），Eq.（6），Eq.（5）分别。为了清楚起见，图中省略了分类、定位以及全局平衡实例嵌入分支。姿态CrossVIS（见图 2）由两个为VIS任务量身定制的关键组件组成：（1）交叉学习方案，用于更精确的基于视频的实例表示学习;（2）全局均衡的实例嵌入分支，用于更好的在线实例关联。3.1. 静止图像的掩模生成对于静态图像实例分割，我们利用动态条件卷积[28，52]。具体来说，我们的方法在位置（x，y）处生成实例掩码Mx，y通过将实例不可知的特征图F~ x，y从掩码分支和由控制器头产生的一组特定于实例的动态滤波器θx，y。形式上：F~ x，y=Concat。Fmask;Ox，yn，（1）Mx，y=MaskHea d.其中Fx ，y是掩模特征图Fmask的组合和相对坐标Ox，y。 F掩模通过附加在FPN [34]P3、P4、P5级特征上的掩模分支产生。相对坐标〇x，y提供用于预测实例掩码的强定位线索。MaskHead由3个conv层组成，其中动态过滤器θx，y以位于（x，y）处的实例为条件作为卷积核。最后一层具有1个输出通道，并使用sigmoid函数进行实例掩码预测。3.2. 交叉学习交叉学习的直觉。静止图像实例分割需要两类信息[52]：（1）用于对对象进行分类的外观信息，在我们的模型中由动态滤波器θx，y给出;以及（2）用于区分属于同一类别的多个对象的位置信息，其由相对坐标Ox，y表示。在上述静止图像实例分割模型中（参见对于每个实例，我们在外观信息和位置信息之间具有一对一的对应关系：给定a θx，y，存在且仅存在一个Ox，y作为属于同一实例的相应位置信息。同时，不同实例之间的连接是隔离的。然而，就VIS任务而言，给定来自一个视频的采样帧对，相同实例可能出现在两个不同采样帧的不同位置中。因此，可以使用来自一个采样帧的外观信息来表示由不同位置信息引导的两个不同采样帧中的相同我们可以利用来自一个采样帧t的外观信息θx，y（t）来将相同实例的位置信息θx，y（t+δ）并入另一个采样帧t+δ中。通过这种跨帧映射，我们希望学习的实例外观信息可以增强和更强大的，同时，背景和实例无关的信息被削弱。交叉学习的公式化。具体来说，对于A8046我我我--我联系我们--Σ×Ldice（M，M*）=1−Σ我HW（Mi）2+Σ我HW（M*）2在给定视频的情况下，我们将在时间t（或帧t）处检测到的实例i表示为：Ii（t）=（ci（t），θx，y（t），ei（t）），（3）其中ci（t）是实例类别，θx，y（t）是MaskHead的动态过滤器，ei（t）是在线关联的实例嵌入。在不失一般性的原则下，我们--th采样-th采样假设一个实例Ii存在于两个帧t中（表示为参考帧分布参考帧分布独立于抽样参考系i（t））以及帧t+δ（表示为i（t+δ））。在每一帧中，按照第二节中的设置和符号。在图3.1中，在时间t处，位于（x，y）处的i（t）的实例掩码可以表示为：图3. 成对局部嵌入的图示（图1B）。3，左）在[68，6]中使用，和建议的实例代理（图。3，右）。对于成对局部嵌入，eN（k）是来自第k个采样参考帧的所有N个实例嵌入的集合，而在Mx，y（t）=MaskHea d.F~ x，y（t）;θx，y（t）Σ。（四）第k次采样时，采样的实例标识将变为{eN ’（k’）}，导致分布移位。即使同一个实例Ii恰好在第k次和第k′次采样中被采样，则在时间t+δ，实例从位置（x，y）移动到位置（x′，y′）。因此，i（t+δ）的实例掩码可以表示为：相应的嵌入ei（k）也可能由于遮挡、背景改变和比例变化等而移位到ei（k’）。在与此相反，WM是模型的一组可学习的实例权重，并且独立于采样的参考帧。因此Mx'，y（t+δ）=MaskHead.F~x’，y'（t+δ）;θx'，y（t+δ），（五）{wM}产生全局的、确定的收敛状态。我们的交叉学习方案在来自一帧的动态滤波器和来自另一帧的掩模特征图之间建立了连接。具体地，我们期望Ii（t）的动态滤波器θx，y（t）可以产生Ii（t+δ）通过对其掩码特征图F_x'，y'（t+δ）进行卷积：M×x'，y'（t+δ）=MaskHea d.F~ x’，y’（t+δ）;θx，y（t）Σ，（6）其中M×（上标类似地，我们期望Ii（t+δ）的动态滤波器θx’，y’（t+δ）可以产生通过对其掩模特征图F~ x，y（t）进行卷积来生成Ii（t）的掩模：Mx×，y（t）=MaskHea d.F<$ x，y（t）;θx' ，y'（t+δ）<$.（七）在[52]之后，在训练期间，预测的实例掩码Mx，y（t）、Mx’，y’（t+δ）、Mx’，y’（t+δ）和Mx，y（t）都通过骰子损失[41]来优化2ΣHWMiM*移位移位（八）8047我我我与时间t处的相同实例i（t）相比的不同上下文。同时，背景也可能发生变化。交叉学习使得动态滤波器θx，y（t）能够在时间t和t + δ两者处识别相同的实例表示，而不管背景和实例无关的信息。通过这种方式，我们可以在很大程度上克服视频中的外观不一致性以及背景杂乱问题，利用视频帧中丰富的上下文信息来获得更准确和鲁棒的实例表示。3.3. 学习实例关联的全局平衡嵌入VIS中的另一个关键子任务是实例关联，即学习实例嵌入，其中相同身份的实例在特征空间中彼此接近，而属于不同身份的实例在特征空间中彼此接近。相隔很远这些嵌入用于在线推理。我我我其中M是预测掩码，M*是真实掩码，i表示第i个像素。在推理期间，实例掩码生成过程与[52]保持相同，不涉及交叉。交叉学习的优势。对于给定的实例i（t），其外观信息θx，y（t）可以学习两种表示：帧内帧内t中的一个，以及在帧t+δ中的跨帧的一个。在时间t+δ处，实例Ii（t+δ）可以具有不同的外观，并且在时间t+ δ处是相同的。在先前的检测跟踪VIS方法[68，6]中，以成对和局部方式训练实例嵌入。具体地，给定时间t+δ处的关键帧和时间t处的参考帧，假设在关键帧中存在检测到的候选实例i作为训练样本，并且在参考帧中存在N个已经识别的实例（在训练期间由地面实况标签给出）作为目标。然后，如果i是已经识别的实例中的一个，则只能将其分配给N个标识中的一个，或者如果它是新实例，则只能将其分配给新分配标签n8048我联系我们--LLL--联系我们我 JΣii定义为：exp（eTien）j=1如果n∈[1，N]，对于我们的全局实例嵌入，以平衡pos-neg样本以及每个子任务的学习：.pi（n）1+ΣNexp（eTiej）（九）pi（n）σ（eTiwn）如果Ii=In，1−σ（eTiwn）否则，（十三）联系我们Nj=11exp（eTiej）否则，Lid=LFocal=−αt（1−pi（n））log（pi（n）），（14）其中ei和enn表示Ii从其中σ（·）是S形函数，αt和γ遵循定义。在[35]中的初始化Ii=In表示两个实例属于关键帧和N分别来自参考帧pi（n）通过交叉熵损失优化：LCE= − log（p i（n））.（十）然而，这种方法存在以下问题（参见图3，左）[50，43]：. .，eNlive in由采样帧定义，判决边界密切相关相同的身份。ei是由所提出的全局平衡实例嵌入分支生成的，该分支与[52]的分类分支共享公共结构。3.4.训练和在线推理我们以端到端的方式联合训练检测，分割，交叉学习和实例关联任务。每个样本的多任务损失为：到来自参考帧的实例嵌入eN因此，优化和实例关联过程高度依赖于随机帧采样，这L=L det +L分段+L交叉+Lid .（十五）可能导致不稳定的学习和缓慢的收敛。当使用成对嵌入时，我们还观察到AP的相对较大的波动（参见表1中的σAP）。（七）.为了解决这些问题，并获得全局确定的det和seg表示对象检测损失，并且仍然图像实例分割损失[52]。cross表示交叉学习损失：Lcr oss= Ldice（M×x，y（t），M*x，y（t））对于实例嵌入的收敛状态，我们将模型训练为M类分类问题，其中M等于+L骰子（M×x'，y'（t+δ），M*x'，y'（十六）（t+δ）），整列火车上所有不同身份的数量设置。然后，我们使用一组可学习的实例其中L骰子在Eq.（八）、述盖表示-权重wM：=w1，w2，. . . .. 以这种方式，将标签η分配给Ii的概率被重新公式化为：在等式中定义的姿态嵌入损失（13）等式（14）。在推理过程中，测试视频由CrossVIS以在线方式逐帧处理。我们遵循[68，20]中描述的推理过程。4. 实验p（n）= exp（eTiwn）.（十一）4.1. 数据集iΣMexp（eTw）pi（n）也通过交叉熵损失来优化：LCE= − log（p i（n））.（十二）然而，M类分类问题很难扩展到大规模数据集（例如：，对于YouTube-VIS-2019训练集，M=3，774），因为所有负类都参与损失计算，导致大的正-负样本不平衡问题。此外，由来自实例嵌入分支的这些负样本产生的大梯度主导学习过程1，这可能负面地影响所有子任务的优化。为了解决这些问题，我们采用焦点损失[35]作为目标1对于分类子任务，可以通过焦点丢失来处理大量容易的阴性样本[35]。对于回归和分割子任务，只有正样本参与训练。j=1我们评估了三个具有挑战性的建议CrossVISγ8049××视频实例分割基准，即，YouTube- VIS-2019 [68]，OVIS [47]和YouTube-VIS-2021 [67]。YouTube-VIS-2019是第一个用于视频实例分割的数据集，它具有40个类别标签集，4，883个唯一视频实例和131k个高质量手动注释。其中有2238个培训视频、302个验证视频和343个OVIS数据集是最近提出的非常具有挑战性的VIS数据集，具有感知视频中对象遮挡的理念，可以揭示现实世界场景的 OVIS由296k个高质量实例蒙版（约为YouTube-VIS-2019的2个）和5. 每个视频80个实例（约3. YouTube-VIS- 2019的第4页），来自25个语义类别，其中通常发生对象该数据集中有607个训练视频，140个验证视频和154个8050方法骨干八月类型FPSAPAP50AP75AR1AR10IoUTracker+[68]ResNet-50在线-23岁639岁2二十五5二十六岁2三十9OSMN [69]ResNet-50在线-二十七岁5四十五129岁128岁6三十三岁。1DeepSORT [62]ResNet-50在线-二十六岁1四十二9二十六岁1二十七岁831岁3[54]第五十四话ResNet-50线下-二十六岁9四十二029岁729岁9三十三岁。4SeqTracker [68]ResNet-50线下-二十七岁5四十五728岁729岁7三十二5MaskTrack R-CNN [68]面具道具[2]SipMask-VIS [6]ResNet-50ResNet-50ResNet-50CC在线线下线上三十二8< 六、2†三十四1三十3四十0三十二551岁1-五十三0三十二6四十二9三十三岁。331岁0-三十三岁。5三十五5-三十八岁。9SipMask-VIS [6]ResNet-50C在线三十四1三十三岁。7五十四1三十五8三十五4四十1STEm-Seg [1]ResNet-50CC近在线4.第一章4三十650块7三十三岁。531岁6三十七1Johnander等人[20]第20话VisTR [60]ResNet-50ResNet-50ResNet-50CCCC网上在线线下∼30<三十二8三十0三十五3三十五3三十四4-五十六055.7-三十八岁。6三十六5-三十三岁。1三十三岁。5-四十3三十八岁。9CrossVISResNet-50在线39岁8三十四8五十四6三十七9三十四039岁0CrossVISCrossVIS-LiteResNet-50DLA-34C在线在线39岁8四十八5三十六3三十三岁。0五十六852岁7三十八岁。9三十五0三十五6三十三岁。9四十739岁5CrossVIS-LiteDLA-34C在线四十八5三十六2五十六7三十八岁。4三十五1四十二0MaskTrack R-CNN [68]面具道具[2]ResNet-101ResNet-101CC在线线下28岁6< 五、6†31岁9四十二5五十三7-三十二3四十五6三十二5-三十七7-8051†×××××STEm-Seg [1]VisTR [60]ResNet-101ResNet-101CC近在线线下二、1二十七岁7三十四6三十五355. 8五十七0三十七9三十六2三十四4三十四341岁6四十4CrossVISResNet-101在线三十五6三十六6五十七339岁7三十六0四十二0表1. 与YouTube-VIS-2019 val set上的一些最先进的VIS模型进行比较。比较的方法大致按时间顺序列出“指示在训练期间使用多尺度输入帧。“随机裁剪、较高分辨率输入等）[2，29]或附加数据[1，20，29]。[ 2 ]中未报告上标为“”的FPS对于在线和离线的定义，我们遵循[33，39]。YouTube-VIS-2021数据集是YouTube-VIS-2019数据集的改进和增强版本，它具有8，171个独特的视频实例和232k高质量的人工注释（约为YouTube-VIS-2019的2）。在这个数据集中有2985个训练视频，421个验证视频和453个除非特别说明，本文中的AP和AR指的是[68]中定义的平均查准率和平均查全率。根据以前的工作[68，6，2，1]，我们报告了我们在验证集上的结果，以评估所提出方法的有效性4.2. 实现细节类似于 [68 ， 6] 的设置，我们使用在COCOtrain2017 [36]上预训练的相应CondInst实例分割模型[52，26，70，34]初始化CrossVIS，其中1schedule. 然后我们在VIS数据集1时间表COCO上的预训练程序遵循Detectron2[64]和AdelaiDet[51]。 VIS数据集上的1个时间表涉及12个时期 [68] 。学习率设置为 0 。 005 ，最初遵循SipMask-VIS [6]，并在时期9和11时减少10倍。大多数FPS数据是使用2080Ti GPU测量的对于单尺度训练，我们将帧大小调整为360 640。对于多尺度训练，我们遵循SipMask-VIS中的设置。在推理过程中，我们将帧的大小调整为360×640。对于我们的主要结果，我们评估-分别在YouTube-VIS-2019、OVIS和YouTube-VIS-2021数据集我们的消融研究是在YouTube-VIS-2019数据集上使用ResNet-50-FPN [26，34]主干模型进行的4.3. 主要结果YouTube-VIS-2019 数据集的主要结果。我们比较CrossVIS对一些国家的最先进的方法在选项卡。1.一、在精度和速度方面进行比较。（1）采用单尺度训练策略时，CrossVIS的平均得分为34. 8个使用ResNet-50的AP和三十六6AP使用ResNet-101，这是Tab中所有在线和近在线方法中最好的。1.一、CrossVIS也优于最近提出的离线方法VisTR。（2）在采用多尺度训练策略时，CrossVIS的训练效果达到了36. 3AP和39。ResNet-50的8 FPS，其性能优于SipMask-VIS ， STEm-Seg 和 VisTR ，具有更强的ResNet-101主干。（3）此外，CrossVIS在Tab中的所有VIS方法中实现了最佳的速度-精度权衡。1.一、我们还提出了一个更有效的CrossVIS-Lite模型与DLA-34骨干，实现三十六2 AP和48。5FPS，这表明一个体面的权衡是-Tween延迟和准确性。MaskProp [2]是一种最先进的离线VIS方法，它提出了一种与时空采样网络[3]、Hy-1结合的新型掩码传播机制8052掩模掩模−掩模∈ −掩模方法APAP50AP75AR1AR10SipMask-VIS10个。3二十五47 .第一次会议。87 .第一次会议。9十五岁8方法骨干Sched.APVISAPCOCO掩模MaskTrack R-CNNResNet-50三十3三十四7MaskTrack R-CNNResNet-1011×31岁9三十五9CondInst-VISResNet-50三十二1三十五7表2.在最近提出的非常具有挑战性的OVIS值集上与一些VIS模型进行了比较。我们使用ResNet-50back-bone和1×时间表进行所有实验。方法八月APAP50AP75AR1AR10MaskTrack R-CNN SipMask-VISCrossVISC28岁631岁7三十三岁。3四十八952岁5五十三829岁6三十四0三十七0二十六岁5三十8三十1三十三岁。8三十七8三十七6CrossVISC三十四2五十四4三十七9三十4三十八岁。2表3. 与最近提出的YouTube-VIS-2021val集上的一些VIS模型进行比较。我们使用ResNet-50主干和1×时间表进行所有实验。brid Task Cascade mask head [9]，高分辨率掩模细化后处理，更长的训练时间表和更强的数据论证。MaskProp可以达到很高的精度，但推理速度慢，离实时应用和在线场景还很远。同时，CrossVIS被设计成一种高效的在线VIS模型，并且更加关注速度-精度的权衡。实验结果表明了该方法的有效性。OVIS数据集的主要结果。OVIS是一个比YouTube-VIS-2019更具挑战性的VIS基准测试，所有方法在该数据集上都会遇到较大的性能下降。CrossVIS达到14.9AP，超过了[47]中在相同实验条件下研究的条件我们希望CrossVIS可以作为这个新的和具有挑战性的基准的一个强大的基线。YouTube-VIS-2021 数据集的主要结果。 YouTube-VIS-2021数据集是YouTube-VIS-2019数据集的改进和增强版本。我们在这个数据集上评估了最近提出的MaskTrack R-CNN和SipMask-VIS，使用官方实现进行比较。如Tab.所示。3、CrossVIS大幅超越MaskTrackR-CNN和SipMask-VIS。我们希望CrossVIS可以作为这个新的和具有挑战性的基准的强大基线。4.4. 消融研究更好的VIS结果仅仅来自于更好的静态图像实例分割模型吗答案是否定的。我们在Tab中证明了这一点。4：（1）与使用ResNet- 101主干的MaskTrack R-CNN相比，CrossVIS为0。2APCOCO较低，这表明我们的预训练模型在COCO上的静止图像实例分割方面相对较弱。但是对于VIS任务，我们的模型是2。9APVIS表4. YouTube-VIS-2019val set上的CrossVIS与其他基线在APVIS和APCOCO方面方法骨干FPS（360×640）APVIS[24]第二十四话[52]第五十二话ResNet-5041岁6四十二8（+1。（二）--MaskTrack R-CNNCrossVISResNet-50三十二839岁8（+7。0个）三十3三十四8表5. YouTube-VIS-2019val set上的效率比较。高（2）我们实现了称为CondInst-VIS的VIS基线，其通过CondInst替换MaskTrack R-CNN中的MaskR-CNN部分因此，CrossVIS和CondInst-VIS之间的唯一区别是所提出的交叉学习方案和全局平衡实例嵌入分支。与ResNet-50的CondInst-VIS和ResNet-101的MaskTrack R-CNN相比，我们得出结论，它们在类似的APCOCO下实现了类似的APVIS。同时，CrossVIS为2。7在相同的APCOCO下， APVIS优于CondInst-VIS。上述两个观察结果证明，APVIS的改进主要来自于所提出的两个模块，而不是更好的预训练模型或基线。CrossVIS的效率仅仅来自于CondInst的效率吗？答案是否定的。我们在Tab中证明了这一点。五、在推理速度方面，CondInst仅1 .一、在实例分割任务中比Mask R-CNN快2FPS（[52]中也报告了类似的结论）。同时，CrossVIS为7。在VIS任务中比MaskTrack R-CNN快0FPS。这主要是因为：（1）交叉学习不增加额外的参数，可以在推理过程中带来无代价的改进。（2）与MaskTrack R-CNN中的全连接设计相比，全局平衡嵌入分支采用轻量级全卷积设计因此，CrossVIS的效率主要来自于交叉学习和全局均衡嵌入的有效设计。交叉学习。在这里，我们调查的有效性，建议的交叉学习计划在第二节。3.2.在训练期间，我们以采样时间间隔δ随机采样帧对[ T，T]。结果见表。六、我们的结论是：（1）当采样时间间隔δ较小时，例如，δ=[ 1，1]，交叉学习相比于基线带来适度的改进。这是有意义的，因为当δ小时，采样的两个帧彼此非常相似在这种情况下，交叉学习就退化为单纯的学习8053∈ −↑∼∞LLLLL联系我们交叉T=1T=3T=5T=10T=15T=20T=∞C三十三岁。1三十三岁。6↑（0.第五章）三十三岁。4三十四2↑（+0. 第八章）三十三岁。5三十四6↑（+1. 第一章三十三岁。5三十四6↑（+1. 第一章三十三岁。6三十四3↑（+0. 第七章）三十三岁。4三十四8↑（+1. 四、三十三岁。5三十四8↑（+1. 第三章表6. 交叉学习和采样时间间隔对AP的影响。我们分别在时间t和t+δ随机采样两个帧，其中采样时间间隔δ[T，T]。“嵌入损失AP ±σAPAP50AP75成对LCE三十三岁。1 ±0。7851岁9三十四9成对L局灶性三十三岁。3 ±0。7252岁1三十五0全球LCE三十三岁。4 ±0. 27五十三9三十五7基线ColGbEAPC三十二1CC三十三岁。1CC三十三岁。5表7.实例关联嵌入的研究。为了定量结果的波动，我们对每种配置进行5次独立实验。我们使用5次运行的中位数报告AP。σAP表示5次运行的标准差。静态图像训练（2）当采样时间间隔δ变得更大时，场景和上下文在采样帧对中的两个帧之间变得不同没有交叉学习的基线不能显式地利用跨帧信息，因此改进有限。然而，交叉学习可以显著受益于较大的δ，并达到1。与基线相比，4例AP（3）所提出的交叉学习算法对T.总体而言，使用交叉方案训练的模型在宽范围的时间间隔下比基线高1AP，即，从T=3到T=，如表1所示。六、这些结果证明了第二节中的分析。3.2交叉方案可以利用跨视频帧的丰富的上下文信息来获得更准确和鲁棒的实例表示。实例关联嵌入。我们研究了Tab中的实例关联嵌入。7 .第一次会议。正如预期的那样，SEC。三点三（1）就AP而言，来自“全局”（使用可学习的wM而不是采样的eN）和“平衡”（使用Focal而不是CE）的效果是同样重要和相互依赖的：使用Focal而不是CE用于成对嵌入只能带来0。2AP改进，对于大的正-负不平衡，在成对方案中不存在使用全局而不是由CE优化的成对嵌入只能带来0。3AP改善，因为存在较大的正-负失衡问题。但是，整体和平衡嵌入可以带来1。7AP改善。如此全球化和平衡是良好性能所不可缺少的。（二）在AP波动方面，使用全局嵌入具有无论损失函数如何，全局嵌入的标准差σAP都比成对嵌入小得多，这表明全局嵌入可以产生更明确的收敛状态和更稳定的结果。分量分析。我们调查了表8.Cross overL earning（COL）和全球平衡嵌入（GBE）至CondInst-VIS基线。交叉学习和全局平衡嵌入分别和同时在Tab.8.单独使用交叉学习和全局平衡嵌入可以带来1 .一、0 AP和1。4AP改善。在AP方面，全局平衡嵌入略高。同时，交叉学习在训练过程中自然地适应CondInst用于这两个部分加在一起，就形成了2。7个AP改进，其大于1。0+ 1。使用时4个AP独自因此，所提出的两个组成部分是完全彼此兼容。它们显示出协同作用，它们的改进是互补的。5. 结论在本文中，我们介绍了一种新的VIS解决方案创造的CrossVIS，在三个具有挑战性的VIS基准测试中，它在所有在线视频实例分割方法中表现最好。此外，CrossVIS在延迟和准确性之间取得了不错的平衡。我们还表明，CrossVIS的准确性和效率不是简单地来自实例分割框架，但源于所提出的设计。大量的研究表明，交叉学习可以带来无成本的改善在推理过程中，而轻量级的全球平衡嵌入可以帮助稳定模型的性能。我们相信，所提出的方法可以作为一个强有力的基线进一步研究的VIS，并揭示了其他视频分析和视频理解任务。确认这项工作得到了国家自然科学基金的部分支持（No.61733007号61876212号61773176）和浙-2019NB0AB02号资助的江泽民实验室8054引用[1] AliAtha r，S. 阿尔乔萨·奥塞普湖？Leal-Taix e’和B. LeibeStem-seg：用于视频中的实例分割的时空嵌入。在ECCV，2020年。[2] Gedas Bertasius和Lorenzo Torresani分类，分割，并跟踪对象实例在视频中与掩模传播。在CVPR，2020年。[3] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在ECCV，2018。[4] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact++：更好的实时实例分割。arXiv预印本arXiv：1912.06218，2019。[5] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. YOLACT：实时实例分割。在ICCV，2019年。[6] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask：用于快速图像和视频实例分割的空间信息保存在ECCV，2020年。[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。[8] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.BlendMask：自上而下与自下而上结合，用于实例分割。在CVPR，2020年。[9] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在CVPR，2019年。[10] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在CVPR，2018年。[11] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。arXiv预印本arXiv：1904.04232，2019。[12] 陈新蕾，Ross B. Girshick，Kaim

下载后可阅读完整内容，剩余1页未读，立即下载