基于Propose-Reduce范式的视频实例分割

129 浏览量更新于2023-10-14 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1739...基于Propose-Reduce范式的视频实例分割[*]北京市朝阳区东方明珠路1号北京市朝阳区1香港中文大学2SmartMore{linhj，rzwu，leojia} @ cse.cuhk.edu.hk{ sliu，jiangbo} @ smartmore.com摘要视频实例分割（VIS）的目的是针对视频中的每个帧分割和关联预定义类的所有实例现有方法通常首先获得帧或剪辑的分割，并且通过跟踪或匹配来合并不完整的结果。这些方法可能导致合并步骤中的误差累积。相反，我们提出了一个新的范例-建议减少，生成完整的序列输入视频由一个单一的步骤。我们进一步在现有的图像级实例分割网络上构建序列传播头，用于长期传播。为了确保我们提出的框架的鲁棒性和高召回率，提出了多个序列，其中传播（一）（c）第（1）款匹配...…（b）第（1）款（d）其他事项减少了相同实例的冗余序列。我们在两个代表性的基准数据集上实现了最先进的性能-1. 介绍在[53]中提出的视频实例分割（VIS）是对预定义类的所有实例进行分割的任务在每一帧中。分段的实例在整个视频中被链接。它在视频理解领域具有重要意义，可应用于视频编辑、自动驾驶等领域。与图像级实例分割不同，VIS不仅需要检测和分割每一帧，还需要跟踪视频中的对象，这使得它成为一项非常具有挑战性的任务。最近，提出了几种方法来完成这项任务[53，7，1，2，29]。基于生成实例序列的模式，现有的框架可以大致分为两种范式：“通过检测跟踪”（图2）。1（a））和'剪辑匹配'（图（b）款。The ‘Track-by-Detect’ paradigm detects and segments instances for eachindividual不同的是，*同等贡献。图1.VIS中生成实例序列的四种范式(a) 通过逐帧跟踪检测链接检测到的实例。(b)Clip-Match匹配视频剪辑之间的重叠子序列。(c)替代方案将检测到的实例从一个关键帧传播到视频的其余部分（d）我们提出的范例，命名为Propose-Reduce，基于多个关键帧生成实例序列建议，并减少相同实例的冗余Match采用分而治之的策略。它将整个视频划分为多个短的重叠剪辑，并获得每个剪辑的VIS结果，并通过剪辑匹配生成实例序列[2，1]。这两种范式都需要两个独立的步骤来生成完整的序列。它们都产生多个不完整序列（即，帧或剪辑），并在第二阶段通过跟踪/匹配来合并（或完成）它们。直观地，这些范例在合并序列的过程中易受错误累积的影响，特别是当存在遮挡或快速运动时。为了避免合并不完整序列带来的误差累积，一个直观的解决方案是仅用一个步骤为整个视频生成如图在图1（c）中，从视频的任何关键帧开始，我们可以通过将实例分割结果从该帧传播到所有其他帧来获得实例序列。然而，传播质量从不同的开始-轨道检测............减少1740AP（一）（b）第（1）款（c）第（1）款图2.不同关键帧的传播效果（a）四个有序帧，其中在第一帧中发生严重遮挡(b) 从第一帧传播导致由误差累积引起的不准确的分割结果。(c)由于关键帧中的合理分割结果，从第三帧传播产生令人满意的分割掩模。设置关键帧变化很大（如图所示）。2）的情况。一个关键帧可以仅包含视频中的实例的一部分，不适合于整个序列。为了鲁棒的传播和高召回率以覆盖足够的实例，我们提出了一种新的范例，称为Propose-Reduce（图1（d））。它首先从多个关键帧中产生序列建议，并减少相同实例的冗余序列建议。该方法不仅省去了合并不完整序列的步骤，而且在考虑多个关键帧的情况下也获得了鲁棒的结果。Propose-Reduce背后的思想被证明是有效的在图像级目标检测任务中。用于该任务的方法可以被分类为一阶段[36，25]和两阶段[37，21]检测框架。与一阶段框架相比，两阶段框架首先通过区域建议网络（RPN）[37]生成大量候选建议两阶段检测框架的出色性能显示了我们的Propose- Reduce在视频域中的潜力。基于上述分析，为了将实例分段从每个关键帧传播到所有其他帧，我们设计了用于长期传播的附加模块，因为要传播的帧可能远离关键帧。我们建议在广泛使用的图像级实例分割网络上附加序列传播头（Seq-Prop头）：Mask R-CNN [14].它使得能够为分类头、边界盒头、掩码头和序列传播头的不同功能的多个头共享骨干特征。有了共享的骨干网，我们的传播模块是轻量级的。此外，我们采用了一种记忆传播策略，每一个关键帧，使长期传播。在从所有关键帧中获得序列建议后，我们实施NMS的变体以减少关键帧处的冗余建议序列级通过上述设计，我们的整体框架是整洁的，并且可以以端到端的方式进行训练。总的贡献概述如下。• 我们提出了一个新的范例-该范例确保了高召回率，并且不需要累积错误的跟踪/匹配模块。• 基于这种范式，我们提出了一种用于视频的MaskR-CNN变体，称为Seq Mask R-CNN。通过在MaskR-CNN上添加额外的序列传播头，跨帧建立时间关系• 我们的框架在YouTube-VIS [53]验证集上取得了新的最先进的结果以及DAVIS-UVOS [6]验证集，J F评分为70.4%。2. 相关工作图像级实例分割图像级实例分割是经典的计算机视觉任务，提出了许多解决方案[14，16，24，47，10，51，4，35]。它们主要可以分为自上而下[14，16，24，4，18]、自下而上[23，30]和直接分割方法[47，51]。在这些方法中，自顶向下的结构是流行的高性能。它首先利用检测器来检测对象，然后根据检测到的边界框来分割它们。一种代表性的方法是Mask R-CNN [14]。它建立在两级检测器[37]上，在检测器上添加了用于分割的掩码头，并在检测器中保留原始我们基于Mask R-CNN从图像到视频域设计了我们的框架我们引入了一个额外的序列传播头，以及一个新的范例，在视频实例分割任务的空间和时间处理我们的方法很简单，而且非常有效。视频实例分割视频实例分割（VIS）在[53]中被引入，其需要同时对视频中的实例进行分类、分割和跟踪。现有的工作[53，7，1，2，29，19]可以根据序列生成的方式分为两种类型一个直接的范例是具有两个部分的“通过检测跟踪”[53，7，29]：检测和跟踪。在检测部分中，以逐帧的方式使用现有的图像级实例分割方法[14检测到的实例在跟踪部分中的不同帧之间相关联。另一范例被概括为它将整个视频分割成多个短剪辑，并通过传播以剪辑方式完成VIS任务[2]1234关键关键1741KB简体��中文0序列建议生成（第3.1节）序列建议减少（第3.2节）图3. Propose-Reduce范式由两个阶段组成。在序列建议生成阶段，通过首先在第k个关键帧处检测O个实例来生成序列集合Sk。为了方便起见，我们假设帧t被选择为第k关键帧。然后，帧t处的实例集合Sk（t）被传播到具有存储器K的整个视频。3.2.2）。KO个序列{So}被聚集以形成冗余集合S，该冗余集合S在序列提议缩减阶段中被缩减为最终序列集合S圆中的不同纹理区分实例。或者时空嵌入[1]。相邻剪辑与匹配（例如，二分图匹配）。半监督视频对象分割（VOS）[33，34]是指在给定注释的第一帧的情况下分割视频中的指定对象的问题。研究[5，32，31，50，43，20，13，26]是广泛的。与我们的框架最相关的方法是基于传播的，它将分割掩码从带注释的第一帧传播到视频的其余部分。早期的研究工作[32，17，54，50]在逐帧流水线中传播，由于遮挡和快速运动，该流水线是脆弱的并且容易在远距离帧中失败。最近的基于存储器的方法STM [31]解决了长期传播中的问题。提出了几种方法[48，55，26，39]来提高STM的性能。在本文中，我们的Seq-Prop头的传播策略受到STM的启发。与采用两个单独的主干提取特征的STM相比，我们通过与Mask R-CNN中的其他头部共享相同的特征主干来使Seq-Prop头部轻量化无监督视频对象分割与半监督VOS相比，在无监督VOS（UVOS）中没有给出注释帧[6]。UVOS可以被视为VIS是VIS的一个变体，而VIS使用预定义的类分割对象UVOS是分割类不可知的显着对象。最近的工作检测显着的对象[45，27，40，56]。此外，提出了拓扑结构[42，44]以在时域中获得对象分割。例如，可以利用RNN [42]结构或图卷积网络[44]。类似于VIS，跟踪检测[29]和基于剪辑匹配[1]的方法可以应用于UVOS，其首先在单个帧（或剪辑）上生成实例分割并跨帧或剪辑跟踪（或匹配）对象。我们的范例也可以应用于将分类头从多类分类修改为两类分类（即前景和背景）。3. 该方法我们提出的范例建议减少视频实例分割的任务。如图3、范式由两个阶段组成。冗余序列方案在第一阶段生成（第第3.1节）。我们在K个选择的关键帧上获得实例分割（Sec. 3.1.1）。然后将分割结果传播到整个视频（第二节）。3.1.2）与我们提出的Seq Mask R-CNN框架（第3.1.2节）。3.1.3）。为了减少序列建议中的冗余，在第二阶段（Sec. 3.2），将序列缩减方法应用于最终的所有序列��简体中文��…10...收集减少( )...��መ��0��…...��简体中文关键帧非关键帧传播检测关键帧索引帧索引对象索引............1742←←{1}|--←[MM--我的天2算法一：存储器K-传播输入：视频帧I tt=0，… T1，关键帧编号K。输出：实例序列建议集S。对于k=0;k K;k k+1，做t= g（k）;第一章Sk（t） Detect（It）;/* 前进方向 */M←{Sk（t）};i=t+1;i T;i←i+1doSk（i）← Propagate（M，I i）;//（Sec.3.1.3）（i）;端/* 向后方向 */M←{Sk（t）};j=t-1;j ≥0;j ←j-1doSk（j）←Propagate（M，I，j）;//（Sec.3.1.3）M←M[Sk（j）;端Sk←（Sk（0），Sk（1），… S k（T-1））;k←k+1;端SS0 S1...SK-1;//聚集returnS;序列设置为输出。3.1. 序列建议生成3.1.1关键帧选择为了生成序列建议，我们首先选择K个关键帧以获得它们的图像级实例分割掩码。具体地，对于T帧视频，K个关键帧{I，I，…I}以固定的间隔被选择。3.1.2存储器K-传播双向传播K个所选关键帧上的实例掩码以获得K组掩码序列，即，S0，S1，…SK-1，如Alg. 1.一、在所有传播完成之后，我们将来自不同关键帧的K个序列集合聚集成一个集合S=S0S1… SK-1。如图所示，Alg。1、我们保持一种记忆所有-长期传播中的误差累积[31]。它存储先前分割帧的编码特征，并将掩码信息传播到当前帧。上的操作（例如，读和更新）类似于STM [31]。不同之处在于[31]中的存储器用于从注释的第一帧传播到视频的结尾，而我们的工作将估计的掩码从关键帧传播到视频的开头和结尾K次。直接将STM应用到我们的范例中需要另外两个主干来提取用于记忆和查询的特征。相反，我们设计了一个额外的传播模块，可以无缝地插入到图像级实例分割框架。3.1.3序列掩码R-CNN我们在Mask R-CNN的顶部结合了一个传播头（Seq-Prop头）用于存储器K-传播，这被称为序列Mask R-CNN（Seq Mask R-CNN）。Seq Mask R-CNN的体系结构如图2所示。4.第一章它基于输出单个图像的实例分割结果，我们向其添加一个额外的传播头，该传播头将实例掩码传播到其他帧。图4示出了将两个帧作为输入的示例。我们称它们为指导框架（第t框架）以及查询帧（第（t+6）帧）。的指导g（0）g（1）g（K-1）在帧中，我们采用估计的掩码M和最大的FPN [21]平均值，由下式给出G特征Pg作为用于编码特征Fg的输入。为查询2Qg（k）= max{bT/Kc，l}k，k=0，...，K-1（1）关键帧的数量在我们的设计中起着重要的作用。如第1，当只选择一个键时框架，它退化到图中的范例（c）。1、最后在哪里结果高度依赖于所选关键帧中的实例分割质量。然而，当选择许多关键帧时，检测的计算成本帧的P2特征作为输入，得到特征Fq。利用两个编码的特征图，我们利用非局部操作（NL）[46]将掩码信息从引导帧传播到查询帧，并获得传播的特征Fg！Q. 好了，好了！q和最大值来自查询帧的骨干特征Cq被用于解码并生成查询掩码Mq。FPN特征Pq和主干特征Cq被用于编码。并且传播将增加。因此，我们选择22在我们的实验中有少量的关键帧。对于每个关键帧，我们通过多个头（即，bbox、分类和掩码头）。对于非关键帧，我们仅提取这些帧的骨干和FPN [21]特征用于以下传播步骤。它节省了计算。ing和解码，因为它们包含关于多个实例的最丰富的训练在训练阶段，为了记忆效率，我们随机选择两个帧作为输入，即，一个引导和一个查询框架。在一个时期中，每视频每帧选择一对帧中的查询帧一次。引导帧是从同一视频中随机采样的。为为1743⇥ ⌦LK{}2KK⇥B⇥KK| |{}222KKKbbox图4.Seq Mask R-CNN的框架。我们在Mask R-CNN上采用Seq-Prop头，用于将实例掩码从时间t的指导帧传播到时间t+6的查询帧。Pg、Pq是输入图像的最大FPN [21]特征，并且Cq是最大主干二二二功能. NL是一个非本地操作[46]。‘ ’和’分别表示矩阵乘法和求和。补充文件中说明了详细的体系结构。此外，为了使Seq-Prop头学习从不完美的分割掩模中传播，我们利用估计的实例掩模而不是地面实况掩模作为训练的指导输入。它使头部在推理阶段更加健壮。为了训练我们的整体框架，我们采用多任务损失L=Lcls+Lbox+Lmask+Lprop。分类损失Lcls、边界盒损失L盒和掩码损失L掩码是采用NMS的变体进行序列减少。为了将其应用于序列，需要定义NMS中的三个关键元素，即，输入序列集、序列得分和序列IoU。输入序列集在序列方案生成阶段，我们得到K个序列方案集{S0，S1，…S K-1}聚集为S. 对于每个序列集与Mask R-CNN中的那些相同[14]。至于传播损失使用Prop来训练Seq-Prop头，我们采用规模平衡的软IoU损失[20]，因为Seq-Prop头同时传播多尺度实例掩码。推理在推理阶段，引导Sk，我们有其对应的掩码M（Sk）和分类。评分C（Sk）。我们将关键帧中的最大实例数设置为O。则Sk可以表示为实例序列So的集合，其中o[0，0-1]。相应地，它们的掩码和得分被定义为{M（SO）}和{C（SO）}，其中M（SO）2{0，1}THW帧输入由内存池（如Alg. 1），其存储来自已经传播的帧的编码特征。具体地，对于传播的每次迭代，通过附加当前帧的编码特征来更新存储器，这增加了模型通过与Seq Mask R-CNN中的其他三个头共享骨干特征，我们的传播头丢弃了STM中用于存储和查询的两个重编码器[31]。3.2. 序列建议减少在第一阶段之后存在冗余序列建议，其中可以从不同的关键帧多次生成相同实例的序列为了减少冗余，受NMS [12，11，37，38]的启发，NMS广泛用于后处理中的图像级实例分割，我们并且每个序列的得分C（S0）在后面定义。相应地，我们得到输入序列集S=SO，其中k[0，K-1]，o[0，O-1]，其由最大K个O实例序列组成。由于在大多数情况下每个关键帧的实例数小于O，因此S中的许多序列是空的，并且序列号是多小于K O。我们的目标是将冗余序列集S缩减为最终序列集S。序列得分每个实例序列C（So）的得分反映了其被选择的优先级。为了表示实例序列的优先级，我们考虑该序列中的所有帧。对于每个实例，在任何帧I t上，我们获得其分类得分C（SO（t））[0，1]|C|来自SeqMask R-CNN的分类头，其中C indi-指定实例类的数量我们平均所有帧之间的分数，并采取最大分数之间|C|类CLSRoIAlign面罩2Seq-Prop头Softmax×22W联系我们×个NLW联系我们×个×,2二个��W ��转��联系我们×个联系我们×个联系我们×个WW2×1744KT-1±k~P|M（S（t））\M（S（t））|⇥⇥BFJARAPt=0APARKk~kk~kk~作为该实例序列的得分。每个序列的得分C（S0）被定义为COCO [22]数据集中的80K训练图像（图像实例分割）用于补偿（也在C（SO）=max 1XC（SO（t））。（二）K[1]）。对于COCO中的每个图像，我们将其增加30○旋转以生成三帧伪视频。为|C| Tkt=0在YouTube-VIS上进行培训，我们只选择具有COCO中的研磨类别对于DAVIS-UVOS，我们选择序列IoU两个序列之间的交集（IoU）测量它们的重叠。我们计算掩码IoU而不是边界框IoU，以更精确地测量重叠。我们将两个序列的掩码表示为M（SO）和M（SO~），其中M（SO）指示所有来自COCO的图像，并将所有带注释的实例作为一个类别，即，前景我们的培训包括两个阶段，即主训练阶段和微调阶段。在主训练阶段，我们首先在包括COCOkk~k从第k个关键帧开始的第o个实例的掩码序列，并且类似地定义M（S0~）。那么两个序列之间的I〇U，即，IoU（So和So~）计算为T-1oo~IoU（So，So~）=t=0kk~，（3）并且视频数据集（即， YouTube-VIS ， DAVIS-UVOS），具有640 320输入大小。在微调阶段，对于YouTube-VIS数据集，模型在具有相同输入大小的该数据集上训练，而在DAVIS-UVOS数据集上微调的模型将854 480大小作为输入。我们微调两个数据集的5个时期的模型。kk~PT-1|M（So（t））[M（So~（t））|其中M（So（t））和M（So~（t））是第t个的掩码由PyTorch实现。每个数据集的训练时间大约需要2-4天对于YouTube-VIS，我们将K设置为6从两个序列S0和S0~中选择帧。kk~利用定义的序列集、序列得分和序列-序列IoU的情况下，我们直接将传统的NMS算法应用于序列集，以减少冗余序列。该算法的更多细节包含在我们的补充文件中。NMS后的序列集S是我们VIS任务的最终结果。4. 实验4.1. 数据集YouTube-VIS [53]YouTube-VIS数据集是目前用于视频实例分割任务的最大数据集。包含2,238个培训视频和302个验证视频，涉及40个类别。验证分数在在线基准上进行评估。类似于图像实例分割[22]，基准采用平均精度（）和平均召回（）度量来评估类别集上的平均序列准确度。DAVIS-UVOS [6]DAVIS-UVOS数据集被提出用于显著通用对象的无监督视频对象分割。它包含60个训练视频和30个具有高质量注释的验证视频。该任务可以被视为具有2个类别（前景和背景）的视频实例分割的特殊情况。在在评估阶段，它考虑视频中不超过20个预测序列，并测量得分（估计掩码和地面实况之间的平均IoU）和得分（估计掩码的F度量）掩模边界）。4.2. 实现细节上述数据集中的训练数据不充分，导致过拟合。为了解决这个问题，我们采用和4个DAVIS-UNVOS（见第二节）。4.4）。更多细节包含在我们的补充文件中。4.3. 主要结果YouTube-VIS上的定量结果包括在表1中。我们列出了不同方法中使用的主干[15，52，3MaskProp，SOTA方法，采用强骨架（即，STSN [3]- ResNeXt-101）来提取空间-时间特征，以及更强的检测头（即，HTC[8]）迭代地细化检测结果。相比之下，我们的最佳模型仅使用ResNeXt-101来提取空间表示特征，并使用Mask R-CNN中的香草头进行检测。我们的模型已经比MaskProp高出1%和3. 4%，以@10。召回率的大幅提升源于同--在多个关键帧上应用策略。请注意，MaskProp采用后处理，该后处理细化掩模以获得1。9%的改进，而SeqMask R-CNN不采用这种后处理。之前仅提取空间特征的最佳方法是EnsembleVIS，它将四个独立的网络组合成一个复杂的系统，包括检测[14]，分类[52]，重新识别[29]和分割[9]。我们的单模型方法超过集成VIS 2。8%，AP和4。AR@10时为3%。我们还在DAVIS-UVOS 数据集上评估我们的方法，如表2所示。 SOTA方法UnOVOST组合多个模型（例如， Mask R-CNN [14] ， PWC-Net [41] 和ReID Net [49]）到复杂系统中。我们使用ResNet-101主干的单模型方法实现了相当的性能。具有更强的骨干（即，ResNeXt-101），我们的方法在J和F分数两者中优于Un-OVOST。与SOTA相比所有模型均使用6个NVIDIA Titan X GPU进行训练1745APAR范式方法骨干HR参考APAP@50AP@75AR@1AR@10逐检测跟踪MaskTrack [53][28]第28话我的世界ResNet-50ResNeXt-101*X30.351.132.631.035.533.754.135.835.440.144.8-48.942.751.7STEm-Seg [1]ResNet-5030.650.733.531.637.1STEm-Seg [1]ResNet-10134.655.837.934.441.6剪辑匹配面具道具[2]ResNeXt-101X44.3-48.3--面具道具[2]44.7----STSN [3]-ResNeXt-101面具道具[2]STSN [3]-ResNeXt-101X46.6-51.244.052.6我们ResNet-5040.463.043.841.149.7建议-减少我们ResNet-10143.865.547.443.053.2我们ResNeXt-10147.671.651.846.356.0表1.YouTube-VIS验证集中视频实例分割的定量结果‘HR-Ref’* ：EnsembleVIS采用多种型号，其最大的骨干是ResNeXt-101。表2.DAVIS-UVOS验证集上无监督视频对象分割的定量结果* ：UnOVOST组合框架15框架90框架80框架120多个模型，其最大的骨干是ResNet-101。单模型方法STEm-Seg，我们的方法具有相同的主干（即，ResNet-101）超过它3。6%&。可视化我们进一步呈现了与长期闭塞场景中的先前范例（[7，1]）的比较，如图11所示。五、显著对象（熊/冲浪板）在多个帧中被树木/波浪遮挡。通过检测跟踪[7]无法重新识别具有扭曲外观的相同实例。Clip-Match [1]将它们视为两个实例，因为它们不在匹配范围内。相比之下更多的视觉结果如图所示。六、我们的方法不能传播具有相同类别的高度一致遮挡实例的遮罩（即，人）。4.4. 消融实验所有消融实验均使用 ResNeXt-101 [52] 主干在YouTube-VIS和DAVIS-UVOS验证集上进行。训练阶段我们进行实验以研究不同训练阶段的效果（第二节）。4.2），如表3所示。仅在微调阶段，性能的大幅下降表明视频数据不足导致过拟合。采用主训练阶段只会减轻过度拟合。要达到这样的性能还是很难的图5.在具有挑战性的场景中对不同范例进行视觉比较在遮挡前后对帧进行采样变体YouTube视频DAVIS-UVOS仅主培训46.267.3仅微调40.848.9两47.670.4表3. YouTube-VIS和DAVIS-UVOS验证集上的训练数据分析。我们报告了YouTube-VIS的AP和DAVIS-UVOS的J&F。两阶段训练，因为在图像之间存在域间隙（即，COCO）和视频数据集（即，YouTube-VIS、DAVIS-UVOS）。序列缩减选项卡。4报告了采用和不采用序列减少的消融结果。其对YouTube-VIS和DAVIS-UVOS的影响因其评估指标而不同YouTube-VIS中的评估度量对假阳性敏感。序列减少显著增加代价是. 为DAVIS不惩罚假阳性，序列减少稳定地增加所有度量。类别感知的减少在类别感知的度量的评估中（例如，AP）、新冗余ap-我们限幅匹配逐检测跟踪方法骨干JFJ-均值F-均值RVOS [42]ResNet-10141.236.845.7STEm-Seg [1]ResNet-10164.761.567.8UnOVOST [29]ResNet-101*67.966.469.3我们ResNet-10168.365.071.6我们ResNeXt-10170.467.073.81746YouTube-VIS DAVIS-UVOS≥0个三十五个八九二十八个十个二十五个0个七十八六十八五十四十四个十六个十五个0五十五九十三十五个二十五个0个一百六十一百七十五100人50人十五个图6. DAVIS-UVOS和YouTube-VOS上的视觉结果。在挑战时刻（例如，快速运动）。我们还在最后一行中显示了重叠的相同类别实例的失败情况，其中一个被遮挡的人的手臂被分割到另一个DAVIS-UVOS中的类别四八七一骨干减少APAR@100JFResNet-101X19.355.162.469.543.853.265.071.6ResNeXt-101X20.758.164.970.947.656.067.073.8表4. YouTube-VIS和DAVIS-UVOS验证集上的序列简化分析。704769684667664565四四六四1 2 3 4 5 6 7 81214161820∞#关键帧K表5.分类感知减少消融术（CA。减少）在不同的骨干上。我们为YouTube-VIS报道AP梨类后分配。分配给同一类别的序列在最终评估中相互冲突。这些冗余序列可以通过应用相同的序列减少技术来过滤（第12节）。3.2）每一个类别。消融结果见选项卡。图5证明了这样的类别感知约简后处理稳定地提高了不同主干上的准确性。关键帧在我们的推理范例中，关键帧的数量（超参数K）在控制准确性和效率之间的权衡方面起着重要的作用。如图在图7中，当K = 1时，我们的模型表现不佳，因为一个序列建议对关键帧处的分割质量敏感（也参见图7）。2）可能会错过一些实例。当对更多关键帧进行采样时，准确性显著增加，因为足够的采样提高了相同实例的鲁棒性和召回率。随着采样的关键帧越多，准确性就会波动，这可能是因为实例序列的质量在不同的关键帧之间存在差异图7. YouTube-VIS和DAVIS-UVOS验证集的关键帧分析。“#关键帧”表示视频中所选关键帧的数量，其中K=1表示所有帧都是关键帧。帧和估计的序列得分（等式10）。（2））不能有效地反映序列的优先级。请注意，YouTube-VIS中的准确性随着K8逐渐下降，因为其评估指标（Sec.4.1）对来自匪S之后的残余冗余序列的假阳性敏感。默认情况下，我们将YouTube-VIS和DAVIS- UVOS的K设置为6和45. 结论在本文中，我们提出了一种新的范例来解决视频实例分割的任务，它不需要跟踪/匹配部分，以避免错误积累，并确保高召回率。遵循这种范式，我们设计了名为Seq Mask R-CNN的框架，它在Mask R-CNN上集成了一个新设计的传播头。大量的实验验证了该框架的有效性此外，这项工作提供了一个新的视角的VIS任务，这激励未来的工作扩展到视频域的图像级方法。Seq.YouTube戴维斯AP（%）J F（%）约减少ResNet-50ResNet-101ResNeXt-101X40.441.543.845.147.648.31747引用[1] AliAthar，Sabarinath Mahadevan，Aljosˇa Osˇep，LauraLeal-Taixe´，andBastianLeibe. Stem-se g：用于视频中的实例分割的时空嵌入在ECCV，2020年。一二三六七[2] Gedas Bertasius和Lorenzo Torresani分类，分割，并跟踪对象实例在视频中与掩模传播。在CVPR，2020年。一、二、七[3] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测在ECCV，2018。六、七[4] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee.Yolact：实时实例分割。在ICCV，2019年。二个[5] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset ， LauraLeal-Taixe' ， DanielCremers 和LucVanGool。单镜头视频对象分割。在CVPR，2017年。三个[6] Sergi Caelles 、 Jordi Pont-Tuset 、 Federico Perazzi 、Alberto Montes 、 Kevis-Kokitsi Maninis 和 Luc VanGool。2019年戴维斯挑战vos：无监督多对象分割。arXiv：1905.00737，2019。二、三、六[7] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask：用于快速图像和视频实例分割的空间信息保存在ECCV，2020年。一、二、七[8] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在CVPR，2019年。六个[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。六个[10] Xinle e iChen，RossGirshick，KaimingHe，andPiotrDolla'r. Tensormask：密集对象分割的基础在ICCV，2019年。二个[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。五个[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。五个[13] BhatGoutam、FelixJéremoLa win、MartinDanellja n、An-dreas Robinson、Michael Felsberg、Luc Van Gool和RaduTimofte。学习视频对象分割的学习内容。在ECCV，2020年。三个[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 InICCV ， 2017. 二、五、六[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。六个[16] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.面具得分r-cnn。在CVPR，2019年。二个[17] Anna Khoreva 、 Rodrigo Benenson 、 Eddy Ilg 、 ThomasBrox和Bernt Schiele。多目标跟踪的清晰数据梦。arXiv：1703.09554，2017。三个[18] 李永完和朴钟佑Centermask：实时无锚实例分割。在CVPR，2020年。二个1748[19] Chung-Ching Lin ， Ying Hung ， Rogerio Feris ， andLinglin He.基于改进vae架构的视频实例分割跟踪。在CVPR，2020年。二个[20] Huijia Lin ， Xiaojuan Qi ， and Jiaya Jia. Agss-vos ：Atten- tion guided single-shot video object segmentation（注意力引导的单镜头视频对象分割）。在ICCV，2019年。三、五[21] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。二、四、五[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。六个[23] Shu Liu，Jiaya Jia，Sanja Fidler，and Raquel Urtasun.Sgn：用于实例分段的顺序分组网络。InICCV，2017.二个[24] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络。在CVPR，2018年。二个[25] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。二个[26] Xinkai Lu ， Wenguan Wang ， Martin Danelljan ，Tianfei Zhou，Jianbing Shen，and Luc Van Gool.基于情节图记忆网络的视频对象分割。在ECCV，2020年。3[27] Xiankai Lu ， Wenguan Wang ， Jianbing Shen ， Yu-Wing Tai，David J Crandall，and Steven CH Hoi.从未标记的视频中学习视频在CVPR，2020年。三个[28] Jonathon Luiten、Philip Torr和Bastian Leibe。视频实例分割2019：一个成功的方法，结合检测，分割，分类和跟踪。在ICCVW，2019。七个[29] Jonathon Luiten、Idil Esen Zulfikar和Bastian Leibe。Un- ovost：无监督离线视频对象分割和跟踪。在WACV，2020年。一二三六七[30] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。NeurIPS，2017。二个[31] Seoung Wug Oh ， Joon-Young Lee ， Ning Xu ， andSeon Joo Kim.使用时空记忆网络的视频对象分割。在ICCV，2019年。三、四、五[32] Federico Perazzi，Anna Khoreva，Rodrigo Benenson，Bernt Schiele，and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。在CVPR，2017年。三个[33] F.作者：J. Pont-Tuset，B.麦克威廉斯湖Van Gool，M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在CVPR，2016年。三个[34] Jordi Pont-Tuse

下载后可阅读完整内容，剩余1页未读，立即下载