MaskProp：视频序列中的对象实例分类、分割和跟踪的新方法

119 浏览量更新于2023-12-18 收藏 2.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9739基于掩码传播Gedas Bertasius，LorenzoTorresani Facebook AI摘要本文介绍了一种同时对视频序列中的对象实例进行分类、分割和跟踪的方法。我们的方法名为MaskProp，通过添加掩码传播分支将流行的Mask R-CNN适应视频，该分支将帧级对象实例掩码从每个视频帧传播到视频剪辑中的所有其他帧这使得我们的系统能够预测剪辑级实例轨道相对于对象实例分割中的中间- dle帧的剪辑。剪辑级实例轨道生成密集的序列中的每一帧，最后aggree-门产生视频级对象实例分割和分类。我们的实验表明，我们的剪辑级实例分割，使我们的方法在视频中的运动模糊和对象遮挡鲁棒。MaskProp在YouTube-VIS数据集上实现了最佳报告准确性，优于ICCV 2019年视频实例分割挑战赛冠军，尽管它更简单，并且使用了数量级更少的标记数据（130万与1B图像和860 K与14 M边界框）。该项目的页面位于：https://gberta.github.io/maskprop/。1. 介绍在本文中，我们解决了最近引入的视频实例分割问题[42]。此任务需要在每个帧中分割预定义的一组对象类的所有实例，对它们进行分类，并在整个序列中链接各个实例。近年来，卷积网络在静止图像对象检测中获得了显著的结果[16，33，14，15]，和分割[27，45，8，4]。然而，将这些模型扩展到视频实例分割是困难的。为了精确地定位对象，这些方法必须在非常大的空间分辨率下操作。因此，基于流行的ResNet-101或ResNet-152主干的检测器[17]在训练期间很少能适合每个GPU的多个图像在视频实例分割的上下文中，这是有问题的，因为随时间跟踪对象需要同时分析多个视频帧。图1：在本文中，我们解决了视频实例分割的问题，这需要对给定视频序列中的对象实例进行分类、分割和跟踪我们提出的掩码传播框架（MaskProp）提供了一个简单而有效的方法来解决这个任务。为了解决这个问题，可以降低输入的空间分辨率并在GPU中适应更多的视频帧。然而，这样做通常会导致分割或检测性能的显著下降。可替代地，可以对单独的帧执行高分辨率实例分割然而，在-10的两个不相交的步骤中执行实例分割和跟踪产生次优结果，因为这两个任务紧密地交织在一起。关键的挑战是设计一个统一的模型，可以跟踪视频中的对象，同时保持很高的检测精度。目前，视频实例分割的最佳方法是ICCV 2019挑战赛冠军[28]。它将视频实例分割分为四个问题：1）检测，2）分类，3）分割，以及4)跟踪.这四个问题使用几个现成的组件独立地解决，并且它们各自的解决方案被组合并适应于视频实例分割任务。然而，尽管有效的性能，这种方法是不利的，因为它需要为四个任务中的每一个设计和调整单独的模型（或者，在某些情况下，模型的集合）。这使得该方法成本高且麻烦。在复杂性频谱的另一端，MaskTrack R-CNN [42]是一种简单的统一方法，经过端到端训练，但它的性能明显较低（30。三比四十四。8视频mAP）。9740MaskTrack R-CNN [42][28]第二十八话MaskProp分类cls头Mask R-CNN [16]，ResNeXt-101 32x48d[30]cls头定位箱形封头[16]箱形封头模型分割掩模头[29]第29话：我的世界掩模头跟踪跟踪头UnOVOST [47]，ReID Net [18，31]掩模传播头光流-PWC-Net [35]-ImageNet [34]（1.3M images）CCC预训练数据集COCO [25]（860K bboxes）CCC[30]第30话-C-[23]第23话-C-性能视频mAP30.344.846.6视频AP@7532.648.951.2表1：将我们的工作与先前的视频实例分割方法进行比较的表格[42，28]。ICCV 2019年挑战赛获奖者[28]将视频实例分割分解为四个不同的问题，使用不同模型的集合独立解决每个问题相比之下，我们的方法依赖于一个端到端训练的统一模型。尽管更简单，并且使用了几个数量级的预训练数据（1.3M vs 1B图像和860K vs 14M边界框），但我们的模型实现了更高的准确性。此外，与MaskTrack R-CNN [42]相比，我们的工作在mAP上获得了16.3%的增益（46.6% vs30.3%）。为了解决这些现有方法的缺点，我们引入了MaskProp，一个简单的掩码传播框架，用于同时分类，分割和跟踪视频中的对象实例。我们的方法通过添加一个分支将流行的Mask R-CNN [16]应用于视频，该分支将帧级实例掩码从每个视频帧传播到时间邻域内的其他帧（我们称之为剪辑）。这允许我们的方法计算以视频的每个单独帧为中心的剪辑级实例轨道然后，这些密集估计的剪辑级轨道被聚合，以形成整个视频的准确和连贯的对象实例序列，而不管其长度如何。这使得我们的方法能够处理具有挑战性的情况下，闭塞，disocclusion，和运动模糊。我们的方法在YouTube-VIS数据集上实现了最佳报告准确性[42]，优于ICCV 2019挑战赛获胜者[28]，尽管更简单，使用的标记数据显著减少（图像减少1000倍，绑定框减少10倍在表1中，我们比较了我们的方法与这些现有方法的准确性和其他特性。2. 相关工作图像中的实例分割。与图像中的实例分割[11，16，44，1，2，22，26]相比，本文考虑的问题不仅需要分割单个帧中的对象实例，而且还需要确定多个帧中的实例对应关系我们利用Mask R-CNN模型[16]进行静态图像实例分割，并将其用于跟踪视频中的对象实例视频中的目标检测。视频中的对象检测要求对给定视频的每一帧中的对象进行分类和定位。大多数现代视频对象检测系统[46，5，40，13]实现了某种形式的时空特征对齐，以提高单个视频帧中的对象检测准确性。然而，这些系统通常不被设计用于跟踪对象实例。在相反，我们的掩码传播产生剪辑级实例分割，而不是帧级边界框。视频对象分割。视频对象分割的任务需要以类不可知的方式分割前景对象[43，21，36，38]，通常通过利用在干扰期间可用于第一帧的地面真实掩码[6，32，10，19，37]。相反，视频实例分割需要在每个帧中找到预定义的一组对象类的所有实例，对它们进行分类并将它们链接到整个序列上。视频实例分割。最近引入的视频实例分割任务[42]需要对视频中的对象实例进行分类、分割和跟踪。这是本工作中考虑的任务。只有少数几种视频实例分割方法可以与我们的方法进行比较。MaskTrack R-CNN [42]提出了一种用于视频实例分割的统一模型它通过跟踪分支增强了原始Mask R-CNN [16]，该分支在单独帧中分割的对象实例之间建立关联。此外，我们还将ICCV2019年视频实例分割挑战赛冠军[28]纳入了我们的比较。该方法将视频实例分割分为四个单独的子问题：分类、检测、分割和跟踪。使用单独的模型（或模型的集合）来解决这些子问题中的每一个，并且这些解决方案然后被组合以产生视频实例分割结果。为了简洁起见，从现在起我们将其称为EnsembleVIS，以指示其是为视频实例分割而设计的增强方法我们的MaskProp框架提供了优于这两种方法的优势[42，28]。与MaskTrack R-CNN [42]类似，我们的方法是一种统一而简单的方法。然而，我们的掩码传播分支比MaskTrack R-CNN的跟踪分支更有效，相对于此基线实现了更高的准确性。与EnsembleVIS [28]相比，我们的方法1）9741时间t处的实例特征计算时间t-10时间t-10特征张量时间t-5时间t-5时间t时间t帧级实例掩码时间t时间t+5时间t时间t+5时间t+10时间t+10t−T：t+T不视频剪辑中每帧的特征张量时间传播实例特征剪辑级实例跟踪时间t-10时间t-5时间t时间t+5时间t+10传播实例分段图2：我们的MaskProp系统的说明，它以帧t为中心的视频剪辑作为输入，并输出剪辑级实例跟踪。我们的掩码传播框架可以概括为三个高级步骤：1）通过用帧t的给定实例分割（帧t中检测到的每个实例一个）掩蔽时间t处的帧特征来计算时间t处的实例特定特征图。2)接下来，我们使用掩码传播机制将特定于实例的特征从帧t暂时传播到剪辑中的所有其他帧。3)最后，我们的模型通过隐式地将传播的实例特征与在每个时间步计算的帧级特征相匹配来预测剪辑的每个帧中的实例特定分割最后一步产生以帧t为中心的剪辑级实例轨迹。简单得多，2）使用显著较少的标记数据，3）在YouTube-VIS上产生更高的准确性[42]。3. 视频实例分割问题定义。让我们用V∈RL×3×H×W表示由空间大小为H×W的L个RGB帧组成的输入视频。我们的系统的目的是分割和时间链接所有对象实例，这些对象实例对于V中的至少一个帧是可见的，并且属于预定义的类别集合C={1，…，K}。为了实现这一目标，我们的模型输出具有类别标签ci ∈ {1，...，K}和置信度得分s i∈ [0，1]，在视频中检测到的每个对象实例如在用于图像分割的COCO基准中[25]，AP和AR的度量针对每个对象类别单独计算，然后以5%的增量在从50%到95%的10个IoU阈值上取平均值。最后，将所得AP和AR度量在类别集上取平均，这产生最终的评估度量。4. 掩码传播MaskProp将任意长度L的视频V作为输入，并输出视频级实例分割轨迹Mi、类别标签ci和视频中检测到的所有对象i的置信度得分si为了实现这一目标，我们的方法首先构建剪辑级对象实例轨迹评估指标。视频实例分割是一个评估，我t−T：t+T对于每个单独的剪辑，∈ R（2T+1）×1×H×W根据平均精度（AP）和平均召回率（AR）。与在图像域中不同，这些metrics在视频序列上进行评估。因此，为了评估预测的掩码序列的时空一致性，预测的对象实例i和地面实况对象实例j之间的视频交集（IoU）被计算为：阿提吉Vt−T ： t+T∈ R（ 2T+1 ） ×3×H×W ，视频长度为（2T+1），即，对于t = 1，2，. - 是的- 是的，L（视频开头和结尾处的剪辑将包括较少的帧）。我们希望使用足够长的剪辑，以便在处理具有挑战性的遮挡和运动模糊情况时，共同解决实例分割和跟踪问题。同时，剪辑应该足够短，以便我们能够在GPU的内存中以高空间分辨率进行调整IoU（i，j）=1|M（t）（吨）|（一）产生的剪辑级实例屏蔽了Mi亲t=1|M i（t）Mj（t）|其中，Mj（t）是帧t中对象j的地面实况分段。为了实现大的IoU，模型不仅必须在帧级准确地分类和分割对象实例，而且还必须在视频序列上可靠地跟踪它们对于所有重叠的片段t=1，. . .，L然后被聚合以产生视频级实例掩码Mi。我们的剪辑级实例分割方法在4.1和4.2小节中描述。我们还在图2中对其进行了说明。随后的剪辑级实例掩码聚合方法在4.3小节中介绍。M9742不不不t，t+δt，t+δL=Σt−T：t+T（t），M不t，t+δ不t，t+δt，t+δ在帧t，我们的系统输出剪辑级实例掩码我t−T：t+T对于帧t中的每个预测对象实例i，我们的掩码传播分支可以用三种方式来描述高级步骤：1）实例特定特征计算，2)实例特征的时间传播; 3）传播实例分割。我们现在将更详细地描述这些步骤我们介绍我们的面具宣传-以将对象实例掩码从帧t传播到帧t+δ为例，其中δ∈[−T：T]。计算实例特定功能。我们模型的掩码分支预测帧级实例掩码′ ′i来自单帧输入。然后我们图3：我们通过添加掩码传播分支来将Mask R-CNN[16]适应于视频，用于跟踪视频中的对象分割实例。给定以帧t为中心的视频剪辑，我们的系统输出剪辑级实例分割轨迹以及分类分数和帧t中检测到的每个对象的边界框。对于紧凑性，在该图中，我们说明了我们的系统处理一对帧，但通常传播是从中间帧应用到剪辑中的所有其他帧。Mt∈R1×H×W使用这些帧级实例掩码来计算实例-帧测试的特定特征。具体来说，对于每个对象实例i，我们计算Mi与来自骨干网络的特征张量之间的元素乘积。这就产生了一组新的特征张量fi∈RC×H′×W′，其中i = 1，...，N t，N t是对象实例的数量在帧t中检测到。换句话说，对于每个对象实例，i，我们将ft中对应于不属于该对象实例的像素的特征值归零暂时取消实例功能。给定4.1. 视频掩码R CNN′ ′帧级特征ft，ft+δ∈RC×H×W例如，我们的视频实例分割系统基于Mask R-CNN [16]模型，我们通过添加掩码传播分支来适应视频（见图3）。我们用多任务损失Lt=Lcls+Lbox+具体特征张量fi，我们的方法生成传播的实例特征张量gi。直观地说，gi表示我们的模型为对象预测的特征帧t+δ中的站姿i来自实例特定特征ten-掩模道具ttsorf i. 张量gi是通过扭曲其中t表示中心itt，t+δframe. 我们使用相同的损失项Lcls，Lbox，Lmask作为ft使用根据帧级要素计算的对齐t t t面具R-CNN掩模传播损耗定义为：ft和ft+δ。我们通过以下方式实现传播机制：Nt道具t我t+Tt′=t-T1−sIoU（Mi厄吉t−T：t+T（t′））（2）一个可变形的卷积[12]，它以前是用于对齐从视频的单独帧计算的特征[5，3]。具体来说，我们计算张量ft，ft+δ的元素差分，并将其馈送到一个其中M是（t′）∈[0，1]是时间简单残差块[17]，预测运动偏移t−T：t+T2′ ′. 这些偏移量包含（x，y）sam-t′，用于从以t为中心的剪辑预测的实例i，以及ot，t+δ∈R2k×H×Wit−T：t+T（t′）是对应的地面真值掩码，对于k×k可变形卷积的每个入口lution kernel [12]. 传播步骤将1）时间t′。N是地面实况对象实例的数量在帧t中，sIoU被定义为：偏移量Ot，t+δ以及2）实例特征张量fi，以及然后应用可变形卷积来输出propa，实例特征张量gi对于每一个实例，i. 我们sIoU（A，B）=0pA（p）B（p）pA（p）+B（p）−A（p）B（p）（三）使用下标t，t+δ表示传播的实例特征，因为尽管g是通过传播fea获得的真实张量fi，偏移计算使用帧t和其中在每个像素位置p上执行分子和分母的求和。上面的损失是一个软IoU损失，我们观察到它比我们任务的标准交叉熵损失稍微好一点。帧t+δ。我们强调，帧之间可变形卷积核的监督隐式优化方程。二、分段的重复计数。最后，我们使用我们的4.2. 掩码传播分支传播的特征图Gi，用于预测对应的在帧t+δ中执行对象实例掩码。为此我们概况. 我们的主要技术贡献是设计首先，构造一个新的特征张量φiit，t+δ +ft+δ。CLSCNNBbox...掩模帧t掩模CNN传播...帧t+δMM=g9743t，t+δ一个掩码传播分支，它允许我们的方法跟踪加法有效地叠加了张量gi表示“前对象实例。给定视频剪辑V t−T：t+T，其从时间t开始针对帧t + δ中的对象实例i居中地指示，其中9744t，t−T：t+Tt′−T：t′+Tt−T：t+T不t，tt，tt，t+δ实例i实例j实例i实例j⊗ ⊗⊗ ⊗偏移张量tG变形。Conv.残余块二维转换Softmax关注1) 实例特征计算（时间t）3）简化实例分割（时间t+δ）张量t+δ2）实例特征传播（从时间t到时间t+δ）图4：掩码传播分支实现的3个步骤的说明：1）对于帧t中的每个检测到的实例，我们通过张量t和帧t处给定的帧级实例掩码之间的逐元素乘法来计算实例特定的特征张量。2）接下来，使用与帧t和t+δ相关联的特征张量的逐元素差来预测帧t和t+δ之间的运动偏移。所得到的偏移用于经由可变形卷积将实例特定张量从时间t传播到时间t+δ。传播的张量表示使用在时间t计算的张量为时间t+δ预测的实例特定的特征。3）最后，我们将传播的实例特征张量添加到在t+δ处有效计算的张量。应用于这些张量的卷积层预测帧t+δ中的实例掩码。不属于任何对象实例的像素将使用实例不可知的注意力地图进行归零。从时间t+δ的帧有效地计算张量ft+δ。如果对象实例预测与特征计算一致，则特征张量将对齐，因此它们将在预测区域中相互加强最后，得到的特征张量φ i被馈送到1×1卷积层，该卷积层输出用于站姿轨迹，我们可以通过比较它们在重叠帧中的预测实例掩码来检查它们是否匹配。如果两个实例轨迹的遮罩对齐良好，则它们很可能编码相同的对象实例。否则，每个轨迹表示不同的对象实例。我们计算两个剪辑级实例之间的匹配分数mi，j帧t + δ中的每个对象实例i。面具也不是-在所有Ntin中使用softmax非线性实现，使用我们之前定义的软IoU指标跟踪：姿态为了将不属于任何对象实例的像素清零，我们使用单个3×3卷积来计算i，j，t′1=|特，特|Σt∈t，t′我t−T：t+TJt′−T：t′+T（t））（四）来自特征ten的实例不可知的注意力图At+δ对ft+δ进行排序。然后，我们将At+δ乘以我们预测的每个实例掩码。我们的掩码传播分支的详细说明如图4所示。4.3. 视频级分割给定长度为L的视频，我们的目标是生成视频-视频级实例ID分配。我们用Y表示视频级实例ID的集合。集合Y通过匹配剪辑级实例轨道Mi而递增地构建从时间t=1到时间t=L。最初，我们设置Y ={1，2，.- 是的- 是的，N1}，其中N1是在时间t = 1时检测到的物体实例的数目（即，在第一个片段中，视频）。令yi∈ Y表示视频级实例ID为-不级别分割实例M i ∈RL×H×W。Con-i通常，这需要链接剪辑级实例轨道签名到剪辑级实例轨道Mt−T：t+T。随着我们在时间t >1上向前，视频级实例IDyi为Mi和Mj不当i和j表示相同的i时t−T：t+Tt′−T：t′+T通过将剪辑级实例Mt−T：t+T匹配到所有预对象实例，即，当实例匹配时。我们已处理的实例跟踪Mj重叠的通过将视频级实例ID分配给每个利用该夹子，即，使得t，t′。对于每个视频级别我们预测的剪辑级实例跟踪。匹配-实例IDy∈ Y已经在ID集中，我们计算一个分数为站姿轨迹指定相同的视频级实例ID。qi（y）捕捉Mi与那条tt−T：t+T匹配剪辑级实例轨道。考虑一对已经被分配了视频级IDy：剪辑级实例轨迹MiJt′−T：t′+T，那个分别以帧t和t′为中心。他们超过-Σ ΣNt′1{yj=y}·mi,j时间重叠，如果|t-t′|<2T+1。让我们来看看他们的过度-qi（y）=t′s.t. ∩′/=j=1t′尼杰t，t′（五）研磨时间间隔值为Δt，t′。我想我们会重叠在-t′s.t. ∩′/=0不j=1 1{yt′=y}MsIoU（M（t），M和M9745t′t′t，t−T：t+T不t−T：t+T不不时间t-15时间t-10时间t-5时间t时间t+5时间t+10时间t+15图5：特定于实例的特征从帧t传播到给定视频剪辑中的其他帧的图示。在这里，我们可视化从一个随机选择的特征通道传播的激活两行中的激活对应于在时间t检测到的两个不同的对象实例。我们的可视化结果表明，即使实例彼此相邻出现，MaskProp也能可靠地传播特定于每个实例的特征，尽管形状、姿势以及变形和遮挡的干扰效应发生了变化。其中1{yj当yj为1=y}是一个指示函数，=y，否则为0。Nt′是数字传播被应用于具有第二大空间分辨率的FPN特征图为了传播实例fea-在时间t′检测到的实例，以及mi，j是所述先前被从一帧到另一帧，我们预测9个（x，y）偏移实例轨道之间的定义匹配分数Mi对于每个像素，然后将其用作3×3de的输入，Mjt−T：t+T我可成形卷积层，具有256个通道。捕捉t′−T：t′+T。分数qt（y）实际上是平均值，在实例轨道Mi之间计算的软IoU的在不同尺度下的运动，我们使用三个层次的扩张去-并且其所有重叠的实例轨道已经被签名为视频级实例IDy。令qi（y）=maxy∈Yq i（y）是通过考虑所有可能的视频级实例ID y ∈ Y而获得的最大得分。如果q大于某个阈值，则电流-可形成卷积，膨胀率为3，6，12，如[3]中所示高分辨率掩模细化。从ROI特征预测掩模通常会导致低分辨率预测。我们通过一个高分辨率的掩模来解决这个问题，精细化步骤。给定检测到的边界框的中心站立轨迹Mi被分配了视频级实例我们在物体周围裁剪一个384×384的补丁，ID y=arg maxy∈Yq i（y）。否则，剪辑级轨道不匹配任何当前视频级实例。在这种情况下，我们创建新的视频级实例ID，并将其签名到剪辑级轨道，同时还扩展集合Y，即， y i= |Y|+1且Y = Y {|Y|+1}。最后，对于每个视频级实例IDy∈ Y，我们生成分割实例掩码的最终序列My∈RL×H ×W为：原来的长宽比。然后我们输入RGB补丁，预测的低分辨率掩码通过3个残差块，每个残差块具有128个通道，以获得高分辨率掩码。评分视频级序列。每个视频级序列包含一个分类分数列表，对象标签。为了给每个视频级序列分配置信度分数，我们对与该序列相关联的分类分数进行平均（分别针对每个对象类别）。训练与推理我们在我们的.ii补充材料。My（t）=Mt−T：t+T（t）ifyt=y0否则。5. 实验结果在本节中，我们将评估视频实例的MaskProp4.4.实现细节骨干网。作为我们的骨干，我们使用基于可变形ResNeXt-101- 64 x4 d [12，41]的Spatiotemporal采样网络[5]，并在其顶部连接特征金字塔网络（FPN）[24侦查网。对于检测，我们使用具有3级级联的混合任务级联网络[7]掩码传播分支。掩码传播分支中的残差块由两个3×3卷积组成，每个卷积具有128个输出通道。实例功能YouTube-VIS上的分割[42]，其中包含2，238个训练，302个验证和343个测试视频。每个视频都使用每像素分割、类别和实例标签进行注释。该数据集包含40个对象类别。由于测试集上的评估当前已关闭，因此我们在验证集上执行评估。5.1. 定量结果视频实例分割是一项非常新的任务[42]，因此，我们只有几个既定的基线，9746方法培训前数据地图AP@75AR@1AR@10[39]第三十九话[25]第二十四话：26.126.127.831.3[37]第三十七话[25]第二十四话：26.929.729.933.4[43]第四十三话[25]第二十四话：27.529.128.633.1[42]第四十二话[25]第二十四话：30.332.631.035.5MaskTrack R-CNN[25]第二十四话：36.940.234.342.9[第28话][25]第25话：我的世界，我的世界，我的世界。44.848.942.751.7MaskProp[25]第二十四话：46.651.244.052.6表2：YouTube-VIS [42]验证数据集上的视频实例分割结果我们根据平均精确度（mAP），75%IoU阈值的平均精确度（AP@75）以及给定前1（AR@1）和前10（AR@10）检测的平均召回率来评估每种方法的性能用表示的基线是由作者在[42]中实现的，而用标记的方法是由我们实现的，并且使用与我们的方法相同的主干和检测网络。尽管它很简单，但我们的MaskProp优于所有先前的视频实例分割方法。此外，我们注意到，与EnsembleVIS [28]相比，我们的方法使用数量级更少的标记数据进行预训练。4746.54645.54544.54443.57 9 11 13 15 17 19 21实例轨迹片段长度表3：在这里，我们研究了我们的面具传播分支的有效性如果我们将其替换为FlowNet2传播方案，其中使用FlowNet2网络预测的光流来传播掩模[20]，则准确度从46下降。6mAP至31。4mAP。类似地，如果我们用MaskTrack R-CNN的跟踪分支替换掩码传播分支，准确率会下降到36。9mAP。注意图6：我们将视频mAP绘制为实例轨道剪辑长度（在本文中表示为2T+1基于这些结果，我们观察到，当我们传播实例掩码到T=6个先前和后续帧时，实现了最佳视频实例分割性能。可以比较我们的工作。我们在比较中包括MaskTrackR-CNN [42]和EnsembleVIS 方法，后者赢得了ICCV2019 视频实例分割挑战赛 [28] 。此外，为了与MaskTrack R-CNN进行更公平的比较，我们使用与MaskProp相同的主干和检测网络重新实现了它（参见表2中的MaskTrack R-CNN*）。我们在表2中展示了我们的定量结果，其中我们根据1）平均视频平均精度（mAP），2）在75%的IoU阈值下的视频平均精度，以及3）每个视频1和10个最高得分实例的平均召回率来评估每种方法从这些结果中，我们观察到，根据所有四个评估指标，我们的MaskProp优于所有其他基线，从而在YouTube- VIS上的视频实例分割中实现了最先进的结果。可以注意到，我们的表现优于EnsembleVIS[28] 1。8%mAP，尽管我们的方法要简单得多，并且使用数量级更少的标记数据进行预训练。此外，与MaskTrack R-CNN相比，我们的方法实现了16。mAP改善3%。我们还注意到，我们对MaskTrack [42]的实现显著改进了原始工作，但仍然是9。占7%所有这些基线都是使用相同的骨干和检测网络实现的。与我们的模型相比，mAP更差。5.2. 消融实验掩码传播分支。为了研究我们的掩码传播分支的有效性，我们将我们的方法与FlowNet2 [20]传播基线进行了比较。对于此基线，我们使用与MaskProp完全相同的设置，除了使用FlowNet2网络[20]预测的光流传播实例掩码，而不是我们提出的掩码传播方案。为了进行更完整的比较，我们还包括表2中的MaskTrack R-CNN，它使用最初提出的跟踪分支[42]，但使用与我们的MaskProp相同的骨干和检测网络来实现。这些基线使我们能够直接比较我们的掩码传播方案与FlowNet 2和MaskTrack R-CNN [42]方法采用的传播机制表3中的结果显示，MaskProp的表现远远优于这些基线。实例轨迹片段长度。由于遮挡，物体在-视频中的姿态在某些帧中可能不可见。如果是由2T ′+2时间步长分隔的遮挡，我们可以使用T>T ′来预测更长的剪辑级实例轨迹。在图6中，我们研究了视频实例分割性能，精度（视频mAP）方法地图AP@75FlowNet2传播31.433.6MaskTrack R-CNN36.940.2MaskProp46.651.29747图7：我们将视频实例分割结果与MaskTrack R-CNN [42]预测进行了比较。不同的对象实例使用不同的颜色进行编码每个视频的第一行显示原始帧。第二行说明了MaskTrack R-CNN的掩码预测，第三行说明了使用MaskProp获得的与MaskTrack R-CNN相比，我们的MaskProp更稳健地跟踪对象实例，即使它们被遮挡或彼此重叠由我们的方法产生的附加视频实例分割包括在我们的补充视频1中。实例轨道剪辑长度的函数（在本文中表示为2T+1我们的结果表明，当我们使用13的剪辑长度时，可以达到最佳的准确性，这意味着我们将实例传播到6个先前帧和6个后续帧。高分辨率掩模细化。我们还研究了我们的高分辨率掩模细化的影响，如第4.4小节所述。我们报告说，删除此细化导致下降1。9%，视频实例分割mAP。5.3. 定性结果在图7中，我们将预测的剪辑级实例轨迹（每个剪辑的最后一行预测）与Mask- Track R-CNN预测（第一行预测）进行比较我们使用不同的颜色来表示不同的对象实例。我们的定性结果表明，我们的MaskProp比MaskTrack R-CNN产生更强大和时间上连贯的实例轨迹。当视频包含大对象运动、遮挡或重叠对象时，性能上的这种差异尤其明显。1https://gberta.github.io/maskprop/在图5中，我们还可视化了特定于实例的特征，这些特征从帧t传播到给定视频剪辑中的其他帧，用于在帧t中检测到的两个不同对象实例。在这里，我们显示了从随机选择的功能通道激活。基于这些结果，我们观察到我们的MaskProp可靠地传播特定于每个实例的特征，尽管存在运动模糊、对象变形和对象外观的大变化。6. 结论在这项工作中，我们介绍了MaskProp，一种新颖的视频实例分割架构。我们的方法在概念上很简单，它不需要大量的标记数据进行预训练，并且它在YouTube-VIS数据集上产生了最先进的结果。在未来，我们计划将MaskProp扩展到只有边界框符号可用的场景。我们也有兴趣将我们的方法应用于姿势跟踪等问题。鸣谢：我们感谢Christoph Feichtenhofer、Du Tran和Tae-Hyun Oh进行了有益的讨论。MaskTrackR-CNNMaskTrackR-CNNMaskProp视频剪辑MaskProp视频剪辑9748引用[1] Anurag Arnab和Philip H.S. 乇具有动态实例化网络的逐像素实例在2017年IEEE计算机视觉和模式识别会议，CVPR 2017，美国夏威夷檀香山，2017年7月21日至26日，第879-888页，2017年。2[2] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在2017年IEEE计算机视觉和模式识别会议，第28582017年7月。2[3] Gedas Bertasius ， Christoph Feichtenhofer ， Du Tran ，Jianbo Shi，and Lorenzo Torresani.从稀疏标记的视频中学习时间姿态估计。在神经信息处理系统的进展33。2019. 四、六[4] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.基于边界神经场的语义分割。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月。1[5] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在ECCV（12），计算机科学讲义第11216卷，第342-357页中。Springer，2018. 二、四、六[6] Sergi Caelles 、 Kevis-Kokitsi Maninis 、 Jordi Pont-Tuset 、 Laura Leal-Taixé 、 Daniel Cremers 和 Luc VanGool。单镜头视频对象分割。在计算机视觉和模式识别（CVPR），2017年。2[7] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第4974计算机视觉基金会/ IEEE，2019年。6[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。 IEEE Trans. 模式分析马赫内特尔，40（4）：834-848，2018. 1[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。InComputerVision-ECCV2018-15thEuropeanConference ，Munich ， Germany ， September8-14 ， 2018 ，Proceedings，Part VII，pages 833-851，2018. 2[10] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.具有逐像素度量学习的极快视频对象分割。见CVPR，第1189-1198页。IEEE计算机学会，2018年。2[11] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。2[12] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。在2017年IEEE国际计算机视觉会议（ICCV），第00卷，第764-773页，10月。2017. 四、六[13] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在国际计算机视觉会议（ICCV），2017年。2[14] 罗斯·格希克。快速R-CNN。在2015年国际计算机视觉会议（ICCV）的会议记录中。1[15] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的功能层次结构，用于准确的对象检测和语义分割。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议记录中，2014年。1[16] Kaiming He，Georgia Gkioxari，Piotr Dollár，and RossGir-shick.面罩R-CNN。在2017年国际计算机视觉会议（ICCV）的会议记录中。一、二、四[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页，2016年。1、4[18] Alexander Hermans*，Lucas Beyer*，and Bastian Leibe.三重人格丧失的辩护。 arXiv 预印本 arXiv ：1703.07737，2017。2[19] 阿尔巴·埃雷拉·帕拉西奥，卡莱斯·文图拉，泽维尔·吉罗·尼埃托。视频对象语言基础。在第一届多模态理解和学习国际研讨会上，MULEA'19，第49-51页，纽约，纽约，美国，2019年。ACM。2[20] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.流动网络2.0：使用深度网络进行光流估计的进展。CoRR，abs/1612.01925，2016。7[21] Suyog Dutt Jain，Bo Xiong，and Kristen Grauman.融合-分段：学习结合运动和外观，实现视频中通用对象的全自动分割。在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第2117- 21-26页2[22] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog- dan Savchynskyy，and Carsten Rother.InstanceCut：从边到实例。在CVPR，2017年。2[23] Alina Kuznetsova 、 Hassan Rom、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vi

下载后可阅读完整内容，剩余1页未读，立即下载