视频实例分割任务及其新算法的介绍和评估

40 浏览量更新于2023-10-12 收藏 2.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视频实例分割杨林杰字节跳动AI Lablinjie. bytedance.com范宇晨UIUCyuchenf4@illinois.edu徐宁土坯研究nxu@adobe.com摘要在本文中，我们提出了一个新的计算机视觉任务，命名为视频实例分割。这个新任务的目标是同时检测，分割和跟踪视频中的实例。也就是说，这是第一次将图像实例分割问题扩展到视频领域。为了促进对这一新任务的研究，我们提出了一个名为YouTube-VIS的大规模基准测试，它由2，883个高分辨率YouTube视频，40个类别的标签集和131 k个高质量实例掩码组成。此外，我们还提出了一种名为Mask- Track R-CNN的新算法。我们的新方法Mask R-CNN的新跟踪分支，以同时联合执行检测、分割和跟踪任务。最后，我们在新数据集上评估了所提出的方法和实验结果清楚地证明了所提出的算法的优点，并揭示了未来的改进见解我们相信，视频实例分割任务将激励社区沿着视频理解的研究路线。1. 介绍图像和视频的分割是计算机视觉的基本问题之一。在图像域中，实例分割的任务，即。图像中对象实例的同时检测和分割首先由Hariharan等人提出。[11]从那时起，由于其重要性，它在计算机视觉中引起了极大的关注。在本文中，我们扩展的实例分割问题在图像域的视频域。与图像实例分割不同，该问题的目标是同时检测、分割和跟踪视频中的对象实例。图-ure1说明了一个样本视频与地面实况注释- tions这个问题。自然地，我们将新任务命名为视频实例分割。新的任务是打开位置-林杰在Snap公司工作时，这项工作已经完成了一部分视频帧视频实例注释视频实例预测图1.视频实例分割的图示。三行分别显示视频中的图像帧、视频实例注释和我们的算法对视频实例的预测。相同颜色的蒙版属于同一对象实例。地面实况和预测的对象类别在每个边界框的顶部给出。适用于需要视频级对象遮罩的应用，如视频编辑、自动驾驶和增强现实。据我们所知，这是解决视频实例分割问题的第一项视频实例分割比图像实例分割更具挑战性，因为它不仅需要在单个帧上进行实例分割，而且需要跨帧跟踪实例。另一方面，视频内容包含了比单个图像更丰富的信息，如不同对象的运动模式和时间一致性，从而为对象识别和分割提供了更多的线索视频实例分割也与若干现有任务相关。例如，视频对象分割[3，22，23]旨在分割和跟踪视频中的对象，但不需要识别对象类别。视频对象检测的目的是检测和跟踪目标，而不涉及对象分割.视频实例分割很少被研究的一个潜在原因是缺乏大规模数据集。尽管51885189存在用于其他任务的视频分割数据集[7，23，34]，它们中没有一个直接适用于视频实例分割。给定一个视频，我们的任务需要一个预定义的类别集的所有实例的掩码和跨帧的实例身份被标记。前向视频分割数据集不具有前向标记[23，34]，或者不具有对象标识[7]。因此，在本文中，我们提出了第一个大规模的数据集，命名为YouTube-VIS，视频实例分割。新的数据集包含2883个高分辨率YouTube视频，40个类别的标签集，包括常见对象，如人，动物和车辆，4883个独特的视频实例和131k高质量的面具。我们的新数据集不仅可以作为视频实例分割任务的基准，还可以作为视频语义分割和视频对象检测等相关任务的基准此外，我们提出了一种新的算法，称为Mask- TrackR-CNN，用于视频实例分割。基于Mask R-CNN [12]，这是一种用于图像实例分割的最先进方法，在框架中添加了一个新的分支，用于跨视频帧跟踪实例。预测的实例存储到外部存储库中，并与后面帧中的对象进行匹配。此外，我们还提出了几个基线，通过调整相关任务的最佳性能的方法，我们的任务，并比较他们的性能与我们的新方法。实验结果清楚地表明了我们的新算法的优势，并揭示了未来的改进见解。我们的数据集已在youtube-vos.org/dataset/vis上发布。我们算法的代码已在https://github.com/youtubevos/MaskTrackRCNN上发布。我们总结本文的贡献如下。• 据我们所知，这是第一次正式定义和探讨视频• 我们创建了第一个大规模视频实例分割数据集，其中包含2.9k个视频和40个对象类别。• 我们提出了一种新的视频实例分割算法，并将其与我们新数据集上的几个基线进行我们的论文的其余部分组织如下。在第二节中，我们简要说明相关任务和新任务的区别。在第3节中，我们正式介绍了视频实例分割问题和评价指标。我们的新数据集和算法分别在第4节和第5节中阐述。最后，实验结果在第6节中给出。2. 相关工作虽然视频实例分割在文献中被很大程度上忽略了，但一些相关的任务已经得到了很好的研究，如图像实例分割，视频对象跟踪，视频对象检测，视频语义分割和视频对象分割。图像实例分割实例分割不仅将像素分组到不同的语义类中，还将它们分组到不同的对象实例中[11]。通常采用两阶段范式，首先使用区域提议网络（RPN）生成对象提议[24]，然后使用聚合的RoI特征预测对象边界框和掩模[8，15，12]。提出的视频对象分割不仅要求在每帧中分割对象对象，而且要求确定跨帧对象的对应关系。视频对象跟踪视频对象跟踪有两种不同的设置。一种是基于检测的跟踪，它同时检测和跟踪视频对象。在此设置下的方法[26，32，28]通常采取另一个设置是免检测跟踪[1，19，9]，其目标是在第一帧中给定其初始边界框的情况下在这两种设置中，DBT与我们的问题更相似，因为它也需要检测器。然而，DBT只需要产生边界框，这与我们的任务不同。视频对象检测视频对象检测旨在检测视频中的对象，这是ImageNet视觉挑战的一部分。虽然对象身份信息通常用于提高检测算法的鲁棒性[9，36，33]，但评估度量仅限于每帧检测，不需要联合对象检测和跟踪。视频语义分割视频语义分割是语义分割到视频的直接扩展，其中图像像素被预测为不同的语义类。采用光流等时间信息来提高语义分割模型的准确性[36]或效率[36，16，27]视频语义分割不需要跨帧的对象实例的显式匹配视频对象分割视频对象分割近年来获得了大量的关注，其具有两种场景：半监督和无监督。半监督视频对象分割[21，3]的目标是跟踪和分割具有掩模的给定对象。提取视觉相似性[3，5，31]、运动线索[6]和时间相似性[21，35在无监督的情况下，分割单个前方地面对象[29，14，30]。在这两种设置中，算法将目标对象视为一般对象，而不关心语义类别。5190p...Q我...q~3. 视频实例分割问题定义。在视频实例分割中，我们具有预定义的类别标签集合C ={1，… 其中K是类别的数量。给定一个视频序列对于T帧，假设在视频中有N个属于类别集合C的对于每个对象i，设ci∈ C4. YouTube视频由于现有的视频分割数据集都不匹配我们的视频实例分割任务的要求，我们需要收集一个新的基准数据集，用于开发和评估所提出的方法。新的基准需要几个标准表示其类别标签，令mi表示其二进制来满足首先，它应该包含共同的实例cate-分割掩码跨视频，其中p∈[1，T]和q∈[p，T]表示其开始和结束时间。假设视频实例分割算法产生H实例假设对于每个假设j，它需要有一个预测的猫分类标签c<$j∈C，一个置信度得分sj∈[0，1]和一个预测的二进制掩码序列m<$j. 这个骗局我们的评估指标采用信心评分，稍后会加以解释。我们的任务的目标是最小化基础事实和假设之间的差异。换句话说，一个好的视频实例分割方法应该能够对所有实例具有良好的检测率，可靠地跟踪所有实例并准确地定位实例边界应该注意的是，我们的任务和多对象跟踪问题[18]之间存在一些微小的差异，因为静止对象实例被视为地面实况，并且如果对象被遮挡或在场景外几帧然后在随后的帧中重新出现，则实例标签应该是一致的。评估指标。我们借用了图像实例分割中的标准评价指标，并根据我们的新任务进行了修改。具体地说，这些指标是平均查准率（AP）和平均查全率（AR）。AP被定义为精确度-召回率曲线下的面积置信度分数用于绘制曲线。AP在多个交并（IoU）阈值上取平均值。我们遵循COCO评估，在步骤5%处使用从50%到95%的10个IoU阈值AR被定义为给定每个视频的一些固定数量的分段实例的最大召回这两个指标都首先按类别进行评估，然后在类别集上取平均值。我们的IoU计算与图像实例分割不同，因为每个实例都包含一系列掩码。要计算地面实况实例之间的IoU，Gories，就像最近的图像实例分割台一样-马克[17，11]。其次，它应该包含具有各种挑战性情况的视频实例，例如遮挡、外观变化、重相机运动等。最后但并非最不重要的是，标注质量也应该是高的，这是一些现有的基于多边形标注的分割数据集中的常见问题。考虑到上述标准，我们创建了一个新的大规模基准，称为YouTube-VIS。我们没有从头开始构建我们的基准，而是利用了一个名为YouTube-VOS的前数据集[34]。YouTube-VOS是一个大规模视频对象分割数据集，由4453个高分辨率YouTube视频和94个常见对象类别组成。在每个视频中，通过以30fps的帧速率每5帧手动跟踪对象边界来标记若干对象。每个视频的长度约为3至6秒。尽管对象掩码在YouTube-VOS中没有被彻底标记，但它仍然是构建我们自己数据集的一个非常好的资源。具体地说，我们首先从94个类别标签中选择40个常见的类别标签作为我们的类别集。然后，我们从YouTube-VOS中的40个类别中抽取了大约2.9k个视频。然后，我们要求人类注释者仔细标记属于这些视频中的类别集的其他对象。结果，我们的数据集被标注为4，883个唯一对象和大约131k个对象掩码。YouTube-VIS和相关数据集的一些高级统计数据的比较如表1所示。在我们的数据集中每个类别的唯一对象的分布如图2所示。我们的新数据集YouTube-VIS不仅是视频实例分割的第一个大规模基准，也是视频对象检测和视频语义分割等其他视觉任务的有用基准它也使-使用更多对象分割原始YouTubeVOS数据集mi和一个类集实例m∈j，我们首先扩展pp...Q我...q~我们相信我们的新数据集将作为一个有用的基准通过填充空掩码，p= 1，q和q=T然后，ΣT|米米·米姆·吉|用于各种像素级视频理解任务。5. MaskTrack R-CNNIoU（i，j）=t=1tt（一）ΣT|米米·米姆·吉|t=1t t所提出的IoU计算预测和地面实况分割的时空一致性如果al-出租m成功地检测到对象遮罩，但未能跨帧跟踪对象，则它将获得低IoU。我们的视频实例分割新算法是基于Mask R-CNN构建[12]。除了其原始的三个分支对象分类，边界框回归和掩码生成，我们添加了第四个分支与外部存储器一起跟踪跨帧的对象实例。跟踪分支主要利用51911+Σ表1. YouTubeVIS和以前的视频对象分割数据集的高级统计数据。YTO、YTVOS和YTVIS分别代表YouTubeObjects、YouTubeVOS和YouTube-VIS。实例或新标识（如果是新实例）。我们用多类分类问题来表示。存在N+1个分类数字，其表示N个已经识别的实例和由数字0表示的新的未看见的实例。将标签η分配给候选框i的概率被定义为布雷夫埃莱岛 nn∈[1，N]p（n）=Nj=1ffei（二）第一章1n=0中国j=1ffei图2.我们数据集中40个类别的独特视频对象的数量。外观相似性的线索。此外，我们提出了一个简单而有效的方法，将其与其他线索，如语义一致性和空间相关性相结合，以大大提高跟踪精度。我们的算法的整体框架如图3所示。为了推断，我们的方法以在线方式处理视频帧顺序。接下来，我们首先简要回顾Mask R-CNN，然后详细描述我们的新组件。5.1. 掩码R CNNMask R-CNN是一种用于图像物体分割的高性能方法它包括两个阶段。在第一阶段，RPN [24]将图像作为输入并提出一组候选对象边界框。在第二阶段中，通过RoIAlign操作从每个候选框中提取特征，更多详情请参阅[125.2. 新建跟踪分支我们的网络采用相同的两阶段过程，第一阶段相同，在每个帧上提出一组对象在第二阶段，平行于三个分支（即，分类、边界框回归、二进制分割），我们添加第四个分支以将实例标签分配给每个候选框。假设已经存在由我们的算法从先前帧识别的N个然后，如果新的候选框是先前的标识之一，则它只能被签名到N个其中fi和fj，j∈[1，N]表示由我们的跟踪分支从候选框和N个识别的实例中提取的新特征。我们的追踪部门有两个完全连接的层，其将由RoIAlign创建的特征图投影到新的特征中。由于先前识别的实例的特征已经被计算，为了提高效率，我们使用外部存储器来存储它们。交叉熵损失用于外跟踪分支，即：Ltrack=−ilo g（pi（yi））其中yi是基础真值实例标签。当一个新的候选框被分配了一个实例标签时，我们动态地更新我们的外部存储器。如果候选框属于现有实例，则我们用新的候选特征更新存储在存储器中的实例特征如果候选对象被分配有标签0，我们将候选对象的特征插入到存储器中，并将识别的实例的数量加1。我们需要一个帧序列来训练新的跟踪分支。在我们的实现中，我们使用从训练视频随机采样的一对随机选取其中一个帧作为参考帧，同时选取另一个帧作为查询帧。在参考帧上，我们不生成任何候选框，而是仅从其地面实况实例区域中提取特征并将其保存到外部存储器中。在查询框架上，在第一阶段中生成候选框，然后仅将正候选框与存储器中的实例标签匹配，并导致跟踪丢失。正候选框是具有与任何地面实况对象框重叠的至少70% IoU的框我们的整个网络是端到端训练的，损失来自四个分支L=L cls+L box+L mask+ L track。5.3. 结合其他线索我们的跟踪分支根据外观相似性计算将实例标签分配给候选框然而，还有其他信息，如语义一致性，空间相关性和检测置信度，可以利用这些信息来确定实例标签。我们提出了一种简单而有效的方法，将所有这些线索结合在一起，以提高跟踪精度的后处理方式。1+ΣJ圆通[13个国家]FBMS[20个]戴维斯[22、23]YTVOS[34个]YTVIS视频965950904,4532,883类别1016--9440对象96139502057,7554,883口罩1.7k1.5k3.4k13.5k197k131kJ5192图3.我们的方法概述跟踪头嵌入在MaskRCNN框架中，以通过与存储器队列的交互来促进对象实例的身份跟踪内存队列用于维护视频中所有现有的对象实例具体地，对于新的候选框i，令bi、ci和si表示其边界框预测、类别标签和检测分数，其从我们的网络的边界框分支和分类分支获得。类似地，对于具有标签n的识别实例，让bn和cn表示其边界框预测和与存储器中保存的特征相关联的类别标签然后，将标签n分配给候选框i的得分计算为：vi（n）= logpi（n）+αlogsi+βIoU（bi，bn）+γδ（ci，cn）（三）其中pi（n）由等式2获得，IoU（bi，bn）计算bi和bn之间的IoU，δ（ci，cn）是克罗内克δ函数，当ci和cn相等时，δ等于1，否则为0。α、β和γ是平衡不同线索效应的超参数。根据经验，我们发现该分数对α和β的不同值不敏感。请注意，等式3仅用于测试阶段，并不有助于网络的训练。还有其他可能的方法来整合这些线索，例如，将所有的线索作为输入并训练一个端到端网络，这将成为我们未来有趣的研究。5.4. 推理给定一个新的测试视频，我们的外部存储器设置为空，识别实例的数量设置为0。我们的方法处理每个帧顺序在线fash离子。在每一帧，我们的网络首先生成一组实例假设。应用非最大抑制（NMS）（50%重叠阈值）以减少假设。然后将剩余的假设进行匹配，通过等式3从先前帧中提取实例。注意，我们不匹配单个帧内的假设以避免冲突。第一帧的所有实例假设被直接视为新实例并保存到外部存储器中。我们的方法可以将多个假设从一个单一的框架匹配到一个实例标签，这与常识相矛盾。我们处理这种情况下，只保留一个hypothese，其中有最大的分数v之间的冲突的假设，而放弃其他。在处理所有帧之后，我们的方法产生一组实例假设，每个实例假设包含唯一的实例标签，以及二进制分割、分类标签和检测置信度的序列。我们使用平均检测置信度作为整个序列的置信度得分，并使用类别标签的多数票作为实例的最终类别标签。6. 实验在本节中，我们将MaskTrack R-CNN与我们新数据集YouTube-VIS上的几个基线进行比较我们首先介绍了数据集分裂的信息和我们的方法的实现细节。数据集。我们将YouTube-VIS数据集随机分为2，238个训练视频，302个验证视频和343个测试视频。每个验证和测试集保证每个类别有4个以上的实例。所有方法都在训练集上训练，并且所有超参数都在验证集上交叉验证。我们在结果部分中给出了验证集和测试集的结果。实施. 我们网络的主干是基于关于ResNet-50-FPN的网络结构[12]，我们使用在MS上预训练的公共实现[45193COCO [17].我们的新跟踪分支的结构是两个完全连接的层。第一个全连接层将7×7×256输入特征映射转换为1-D1024维。第二全连接层还将其输入映射到1-D1024维度。我们的完整模型在12个epochs中进行了端到端的训练。初始学习速率设置为0.05并且在第8和第11时期以10的因子衰减。在测试中，我们的模型使用NVIDIA 1080Ti GPU以20 FPS运行。方程3中的超参数α、β和γ被交叉验证，并被选择为1、2和10，以产生我们的最终结果。我们将原始帧大小降采样至640×360用于培训和评估的所有方法。6.1. 基线据我们所知，没有任何先前的工作直接适用于我们的新任务。因此，我们结合相关任务的想法，提出了几个新的基线。我们为基线引入了两种类型的算法。第一种类型使用在视频的第一帧中检测到的对象掩模作为初始指导，并应用视频对象分割算法来传播掩模。我们评估了两种最近的视频对象分割算法OSMN[35]和FEELVOS [31]。第二类跟踪算法采用了多目标跟踪中常用的这类工作的基本思想是在每一帧上独立地使用图像检测方法，然后通过各种跟踪方法将跨帧的检测连接起来。在我们的实验中，所有基线都被赋予了由Mask R-CNN产生的相同的每帧实例分割结果Mask R-CNN与我们的网络具有相同的结构，除了跟踪分支。为了使评估公平，Mask R-CNN在MS COCO上进行了接下来，我们描述了我们实验中不同的检测跟踪方法。IoUTracker+.该方法通过使用与等式3类似的等式来计算新候选框与每个识别的实例之间的分数，除了不使用第一项，即，外观相似性。因此，匹配不利用任何视觉信息。候选框被分配给具有最大得分的实例标签，具有最小IoU阈值（30%）。否则，它将与新标签一样签名。匹配过程类似于IoUTracker [2]。不同之处在于，与我们的方法类似的算法配备了基线来保存已识别实例的信息。OSMN [35].给定所识别的实例掩码，OSMN在新帧处估计实例的新掩码然后使用新的这比通过连续帧直接计算的IoU更好，特别是当实例被包含或具有大的运动时。匹配过程的其余部分与IoUTracker+相同。DeepSORT [32]. DeepSORT是一种性能最好的跟踪方法。该方法利用卡尔曼滤波器预测边界框的位置，避免了直接计算连续帧的IoU。此外，它使用深度网络来衡量边界框之间的外观相似性。最后结合IoU评分和视觉外观评分，通过匈牙利算法进行航迹匹配。SeqTracker这是Seq-NMS [10]之后的离线算法。给定视频和每帧的一组实例分割结果，SeqTracker搜索所有可能的轨道以找到具有最大分数的轨道，其计算方法与IoUTracker+类似然后，轨道的实例分段将从集合中移除，并且重复搜索过程。该方法暂停，直到检索到的轨迹的长度小于阈值，在我们的实验中该阈值被设置为86.2. 主要结果表2给出了比较结果。值得注意的是，我们的方法MaskTrack R-CNN在所有评估指标以及验证集和测试集上都取得了最佳结果。我们的方法与其他检测跟踪基线之间的主要区别在于新的跟踪分支，该分支与其他分支进行端到端训练，因此可以在多个任务之间共享有用的信息。跟踪与其他任务的联合训练的关键是，我们制定的实例匹配过程作为一个可微的组件，这使得匹配损失，以适当的反向传播。接下来，我们分析基线的性能。对于掩模传播算法，它们具有天然的缺点，即它们不能处理出现在中间帧中的对象。第一帧中的错误检测也直接降低了它们的性能。即使是最先进的视频对象分割算法FEELVOS，在验证集上也只能获得26.9 AP。对于逐检测跟踪算法，IoUTracker+不利用任何视觉信息，这对于获得弱性能并不奇怪。OSMN预测新帧中被识别实例的可能位置，并利用预测结果进行实例匹配，这对于处理遮挡和快速运动是很有用的。DeepSORT在IoU匹配和视觉相似度的使用上改进了IoUTracker+，实现了更好的效果。SeqTracker不依赖于任何视觉信息，并且比其他基线具有更好的性能然而，它是一种离线方法，需要为所有帧预先计算实例分割结果。包括MaskTrackR-CNN在内的其他方法都是在线方法，它们依次产生实例轨迹图 4 显示了我们预测的六个示例视频。前四行（（a）、（b）、（c）和（d））是成功预测，最后两行是失败情况。在视频（a）中，5194表2.在YouTube-VIS验证和测试集上对所提出的算法和基线进行定量评估。最佳结果以粗体突出显示。方法验证集测试集APAP50AP75AR1AR10APAP50AP75AR1AR10掩码传播OSMN [35]23.436.525.728.931.127.344.428.028.834.0[31]第三十一话26.942.029.729.933.429.645.430.733.436.8逐检测跟踪IOUTracker+23.639.225.526.230.925.241.926.228.733.7OSMN [35]27.545.129.128.633.127.344.428.028.834.0DeepSORT [32]26.142.926.127.831.327.244.029.229.133.3SeqTracker27.545.728.729.732.529.548.131.232.034.5MaskTrack R-CNN30.351.132.631.035.532.353.634.233.637.3（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款图4.MaskTrack R-CNN的示例结果每行具有来自视频序列的五个采样帧（a）、（b）、（c）和（d）表示正确的预测，而（e）和（f）是失败的情况。具有相同谓词标识的对象具有相同的颜色。对象类别显示在每个边界框的顶部。放大查看详细信息。帧级预测在头两个帧中给出不正确的结果视频级预测通过所有帧的多数表决来校正这些误摄。在视频（c）中，冲浪板在多帧中被波浪遮挡，我们的算法能够在冲浪板消失和重新出现后跟踪冲浪板。MaskTrack R-CNN中的内存队列能够跟踪所有先前的对象，即使它们在中间帧中消失。在视频（d）中，我们展示了新对象在中间进入视频的情况跳转我们的算法能够检测到鹿在第二帧作为新的对象，并将其添加到外部存储器。视频（e）和（f）显示了两个具有挑战性的案例。在视频（e）中，亲爱的在不同的姿势下有很大不同的外观，我们的算法无法识别同一个对象，并将它们视为两个不同的对象。在视频（f）中，多条相似的鱼在水族馆周围移动并相互遮挡。我们的算法将两条鱼分组为一个在第二和第三帧，并得到混淆的对象身份稍后。5195跟踪评分+检测置信度+ IoU+类别一致性图5.使用不同匹配线索的示例结果如果有这四个因素，结果是最好的。表3.我们的方法在YouTube-VIS验证集上的消融研究括号中的数字显示与完整分数相比的差异。DetIOU猫APAP50AP75✗✗✗21.1（-9.2）37.7（-13.4）23.6（-9.0）✓✗✗23.4（-6.9）42.5（-8.6） 24.4（-8.2）✗✓✗22.7（-7.6）40.7（-10.4）25.2（-7.4）✓✓✗24.7（-5.6）44.3（-6.8） 26.7（-5.9）✗✗✓27.9（-2.4）47.1（-4.0） 30.5（-2.1）✓✗✓29.2（-1.1）49.2（-1.9） 31.9（-0.7）✗✓✓29.5（-0.8）48.7（-2.4） 32.2（-0.4）✓✓✓30.351.132.66.3. 消融研究我们研究了方程3中使用的三个线索对我们的方法的重要性它们是检测分数，bouding box IoU和类别一致性。我们通过打开和关闭这些提示来评估我们的结果如表3所示。我们发现，边界框IoU和类别的一致性是最重要的性能，我们的方法。如果没有它们中的任何一个，AP将下降约5%。而检测置信度得分仅略微改善了我们的方法。直观地，边界框IoU与实例之间的空间关系相关，这在许多情况下是强先验。类别一致性还提供了非常强的约束，因为实例的类别标签不应在视频中改变。然而，过度依赖这些因素也可能由于不完美的估计而导致问题。因此，我们的方法使用这些线索作为软约束。为了可视化这三个因素的影响，我们还生成了一个特定样本上一个接一个添加的三个因素的预测，如图5所示。注意，前三个变体不能很好地跟踪“绿色”摩托车的身份表4.Oracle在验证集上产生两个设置图像或结果是基于地面实况图像级注释的预测对象身份的结果，身份预言是基于预测图像级实例的地面实况对象身份的结果。APAR10图像Oracle78.783.7身份Oracle31.534.66.4. Oracle结果此外，我们还研究了算法中两个部分的有效性：图像级预测和跨帧关联。我们通过将地面实况图像级注释应用于我们的算法来评估视频级关联的有效性。具体地，给定包括边界框、掩模和类别的地面实况图像级预测，我们使用地面实况边界框的RoIAlign特征来计算匹配分数Pi，并使用组合分数Vi来跨帧匹配对象。结果在表4中以“Image Oracle”示出。我们还评估图像级预测与地面真相对象身份。为此，首先将每帧预测与其最接近的地面实况图像对象进行匹配，然后使用地面实况对象身份聚合视频对象。结果在表4中以“Identity Oracle”示出它表明，Image Oracle实现了比Identity Oracle更好的性能，这意味着图像级预测对于提高视频实例分割的性能至关重要。Identity Oracle仅略优于MaskTrack RCNN，这表明通过修改对象跟踪方法来改进我们当前方法的利用适当设计的时空特征提高图像级检测同时，即使使用图像级地面实况，由于对象遮挡和快速运动，跨帧关联对象仍然具有挑战性7. 结论在这项工作中，我们提出了一个名为视频实例分割的新任务和一个名为YouTubeVIS的伴随数据集。新任务是对象检测、分割和跟踪的组合，这在丰富而复杂的场景中提出了特定的我们还提出了一种结合单帧实例分割和对象跟踪的新方法，旨在为这一任务提供一些早期的探索。有几个有趣的未来方向：具有时空特征的对象建议和检测、端到端可训练的匹配准则，以及合并运动信息以用于更好的识别和身份关联。我们相信新的任务和新的算法将为视频理解的研究提供新的思路和方向。5196引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV，2016年。2[2] Erik Bochinski、Volker Eiselein和Thomas Sikora。不使用图像信息的高速检测跟踪。2017年第14届IEEE高级视频和基于信号的监控（AVSS）国际会议，第1-6页。IEEE，2017年。6[3] S. 凯尔斯，K.- K. Maninis，J. 蓬-图塞特湖Leal-Taixe′ ，D. Cremers和L.范古尔单镜头视频对象分割。在CVPR，2017年。一、二[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Chen Change Loy，and Dahua Lin. mm检测。https://github.com/open-mmlab/mmdetection，2018. 5[5] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.快速视频对象分割与像素级度量学习。在IEEE计算机视觉和模式识别会议论文集，第1189-1198页2[6] J. Cheng，Y.- H. Tsai，S.王和M H.杨Segflow：用于视频对象分割和光流的联合学习。 IEEEInternationalConference on Computer Vision（ICCV），2017年。2[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。2[8] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。2[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在IEEE计算机视觉国际会议论文集，第3038-3046页，2017年。2[10] 韩伟， Pooya Khorrami ， Tom Le Paine ， PrajitRamachan-dran ， Mohammad Babaeizadeh ， HonghuiShi，Jianan Li，Shuicheng Yan，and Thomas S.煌用于视频对象检测的Seq-nms 。CoRR， abs/1602.08465，2016。6[11] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。2014年，在ECCV。一、二、三[12] 何凯明，乔治亚·吉克萨里，彼得·多尔，罗斯·吉尔希克.面具R-CNN。InICCV，2017. 二三四五[13] Suyog Dutt Jain和Kristen Grauman。Supervoxel-视频中一致的前景传播。2014年，在ECCV4[14] Suyog Dutt Jain，Bo Xiong，and Kristen Grauman.融合-分段：学习结合运动和外观，实现视频中通用对象的全自动分割。在CVPR中，第2117-2126页，2017年。2[15] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在CVPR，2017年7月。2[16] Yule Li，Jianping Shi，and Dahua Lin.低延迟视频语义分割。在CVPR，2018年。2[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。三、六[18] 安东·米兰，劳拉·里尔-塔克斯，伊恩·里德，斯特凡诺·罗斯和康拉德·辛德勒。Mot16：多目标跟踪的基准测试。arXiv预印本arXiv：1603.00831，2016。3[19] Hyeonseob Nam和Bohyung Han。视觉跟踪的多域卷积神经网络学习。在CVPR，2016年。2[20] Peter Ochs，Jitendra Malik，and Thomas Brox.通过长时间视频分析分割运动对象。 IEEE Transactions onPattern Analysis and Machine Intelligence，36（6 ）：1187-1200，2013. 4[21] F. Perazzi、A.霍雷瓦河贝嫩森湾Schiele，and A.Sorkine-Hornung.从静态图像中学习视频对象分割。在CVPR，2017年。2[22] F.作者：J. Pont-Tuset，B.麦克威廉斯湖Van Gool，M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在CVPR，2016年。1、4[23] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez ， AlexanderSorkine-Hornung ，andLucVanGool. 2017年戴维斯视频对象分割挑战赛。arXiv：1704.00675，2017。一、二、四[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。在NIPS，第91-99页，2015中。二、四[25] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252，2015年。2[26] 阿米尔·萨代吉安、亚历山大·阿拉希和西尔维奥·萨瓦雷塞。追踪无法追踪的对象：学习跟踪具有长期依赖性的多个线索。InICCV，2017. 2[27] 埃文·谢尔哈默，凯特·雷凯利，朱迪·霍夫曼，和特雷弗·达雷尔。用于视频语义分割的时钟机制。在ECCV研讨会上，第852-868页，2016年。2[28] Jeany Son、Mooyeol Baek、Minsu Cho和Bohyung Han。基于四元组卷积神经网络的多目标跟踪。在CVPR，2017年。2[29] 帕维尔·托克马科夫、卡提克·阿拉哈里和科迪莉亚·施密德。学习视频中的运动模式。CoRR，abs/1612.07217，2016。2[30] 帕维尔·托克马科夫、卡提克·阿拉哈里和科迪莉亚·施密德。利用视觉记忆学习视频对象分割。在ICCV，第4481-4490页，2017年。2[31] Paul Voigtlaender ， Yunning Chai ， Florian Schroff ，Hartwig Adam ，Bastian Leibe ，and Liang-Chieh Chen.Feelvos：用于视频对象分割的快速端到端嵌入学习。在CVPR，2019年。二六七5197[32] Nicolai Wojke，Alex Bewley，and Dietrich Paulus.简单的在线和实时跟踪与深度关联度量。在ICIP。IEEE，2017年。二六七5198[33] 吉凤戴禄元义臣魏西州朱、王玉节。用于视频对象检测的流引导特征聚合。2017. 2[34] Ning Xu，Linjie Yang，Yuchen Fan，Dingcheng Yue，Yuchen Liang，Jianchao Yang，and Thomas S.煌Youtube-vos：大规模视频对象分割基准测试。 CoRR ，abs/1809.03327，2018。二、三、四[35]

下载后可阅读完整内容，剩余1页未读，立即下载