开放世界的视频对象分割问题及其应用

46 浏览量更新于2023-10-13 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10776未识别的视频对象：一个用于密集、开放世界分割的基准Weiyao Wang Matt Feiszli Heng Wang Du Tran Facebook AIResearch{weiyaowang，mdf，hengwang，trandu} @ fb.com摘要当前最先进的对象检测和分割方法在封闭世界假设下工作良好。这个封闭世界设置假设对象类别列表在训练和部署期间可用。然而，许多现实世界应用需要检测或分割新对象，即，在训练期间从未见过的对象类别。在本文中，我们提出，UVO（未识别的视频对象），一个新的基准开放世界类不可知的对象分割的视频。除了将焦点转移到开放世界设置之外，UVO明显更大，与DAVIS相比提供大约6倍的视频，并且与Youtube-VO（I）S相比每个视频提供7倍的遮罩（实例）注释。UVO也更具挑战性，因为它包括许多具有拥挤场景和复杂背景运动的视频。我们还证明了UVO可以用于其他应用，如对象跟踪和超体素分割。我们相信，UVO是一个多功能的测试平台，研究人员开发新的方法，开放世界类不可知的对象分割，并激发了新的研究方向，更全面的视频Understanding超越分类和检测。1. 介绍在日常活动中，人类经常会遇到新奇的物体，不熟悉的鸟或不熟悉的花;尽管这种不熟悉，但是人们将它们感知为不同的对象实例没有问题。甚至像UFO这样的电影例子也会被认为是独立的东西。许多现实世界的应用，例如对象搜索[27，30]、实例注册[50]、人-对象交互建模[14]和人类活动理解[6]，都需要这种开放世界预测能力，例如，穷尽地检测或分割对象（已知和未知），以完成它们的任务。开放世界也是嵌入式AI等应用程序的自然环境（例如，机器人、自动驾驶）和增强现实助理，它们将定期遇到新的情况。(a)(b)（c）第（1）款图1：最先进的对象检测/分割方法在开放世界设置中效果不佳。我们评估了（a）在COCO上训练的Mask R-CNN和（b）UVO视频上的Google AI云API，发现这两种方法都无法分割许多在训练中没有看到的对象(c)现实世界的应用需要分割视频中出现的所有对象，甚至是看不见的对象。MaskR-CNN仅在预定义的类别上工作良好，并且不能识别对象（例如，杠铃）或将非对象与分类中的对象（冰箱）混淆。谷歌云对象检测器提供了更强的检测结果，但仍然错过了所有健身房设备的背景。（c）UVO的设计目的是探测/分割所有物体，不论其类别和类别以外的物体。相比之下，当前最先进的方法被设计用于封闭世界检测和分割。Mask R-CNN [17]在COCO [24]上训练时，使用80个对象类别的封闭世界分类法，无法分割新对象（见图1a）;模型只能预期分割其训练的类别。类似地，行业公开可用的物体检测器（能够检测550+物体）[1]仍然不能检测许多物体（参见图lb）。从方法论的角度来看，开放世界的对象分割是一个具有挑战性的问题，由于其开放的分类性质。尽管已经进行了广泛的研究，以开发有监督的自顶向下方法[17，34，33]或无监督的自底向上方法虽然在封闭世界设置中的对象检测/分割的方法[39，21，15]中，我们发现现有方法的简单修改对于开放世界分割问题不起作用。一方面，采用自上而下的方法，Mask R-CNN，通过将其多类损失替换为10777二进制前景对背景损失在看不见的类上表现不佳（如表6所示）。这是因为自上而下的方法强烈偏向于来自可见类的上下文线索[35]。另一方面，非监督方法，GBH [15]依赖于使用局部线索的像素分组，例如，没有关于语义对象边界的概念的颜色和/或运动，因此也表现不佳（参见图8）。我们认为，开放世界的对象分割是一个具有挑战性的，但重要的问题，需要解决的方法，在概念上不同于现有的方法。开放世界对象分割还为长视频建模和更复杂的预测任务提供了机会。当前的视频理解方法[36，5，38，12，37]由于GPU存储器限制而不能很好地扩展到长视频，并且不是针对分类和检测之外的复杂预测任务而设计的。将像素转换成语义实体（包括未知类）可以为长期视频建模和灵活预测任务提供合理的替代方案，例如，关于对象及其交互的推理，即使它们的类型是未知的，可能通过在实体之上应用图卷积网络[42，43]，知识图[49，13]或基于注意力的模型[41，9]，而不是基于像素的CNN，这是内存密集型的。开放世界中的对象分割由于其广泛的应用而当前的数据集通常是以封闭世界的方式用预定义的分类法构造的删除现有数据集中的对象标签将使其不适合开放世界分割：为了评估开放世界中的检测器，数据集需要包含关于所有对象的详尽注释;否则，检测未注释对象的模型不被奖励，甚至可能被惩罚。理想情况下，数据集应该以自下而上的方式进行注释：注释者观看视频，发现并屏蔽所有对象。据我们所知，没有现有的数据集为视频或图像提供如此详尽的注释1。自下而上的注释管道在视频中不存在，在图像中也很少见2。在本文中，我们通过构建一个新的开放世界对象分割基准，并提供一套全面的基线，深入分析以了解基准和问题，从而在解决这个问题方面迈出了第一步我们的贡献是：• 一种使用对象插值和跟踪构建开放世界对象分割数据集的方法，其效率比基线高4倍• 我们介绍，未识别的视频对象（UVO），一个新的基准开放世界类不可知的对象。1LVIS [16]是多个小分片的联合数据集;每个分片都包含详尽的注释 w.r.t. 分片内而非分片间的类的子集：例如， “person” is notannotated in many2LVIS在联邦设置中自下而上;ADE 20 k [51]规模较小。对象分割UVO专注于开放世界，与DAVIS [29]相比，其视频数量约为6倍，与YouTube-VO（I）S[47，48]相比，每个视频的遮罩（实例）注释数量为7倍• 我们提供了一套全面的基线，以了解我们提出的任务和基准。我们相信，UVO是一个多功能的测试平台，开放世界的对象分割，并将激发新的研究方向，更复杂的视频理解任务，yond分类和检测。2. 相关工作开放世界对象识别和检测。开放世界问题已经在识别的背景下进行了研究[3，25]：给定一个封闭世界的训练数据集，如何主动识别新的对象类别？为了处理新的对象，以前的作品明确区分未知的已知的，如通过发现嵌入空间中的离群值也有以前的研究开放世界的对象掩模预测。Pinheiro等人[31]训练了一个与类别无关的掩码预测器。Hu等人[19]提出了一种使用已知对象边界框来预测未知对象掩模的方法。最近，Jaiswalet al. [20]提出了一个对抗性框架来学习分类法之外的对象。Dhamija等人[8]讨论了开放世界对象检测的困难。尽管有上述工作，我们仍然缺乏关于这一主题的专用数据集。这激励我们创建UVO，以促进对开放世界对象检测和分割的更广泛的研究工作。相关数据集。在过去的几十年中，目标检测和分割一直是计算机视觉的焦点到目前为止，我们取得的大部分进展都建立在开创性的数据集之上：BSDS [26]，Caltech101 [23] ， PASCAL-VOC [11] ， COCO [24] ，ADE20k [51]，LVIS [16]，等许多最近的数据集从图像扩展了任务视频：DAVIS [29]，YouTube-VOS（YTVOS）[47]，MOTS[40]，YouTube-VIS（YTVIS）[48]，TAO [7]。UVO受到上述数据集的启发，但具有将其自身与先前数据集区分开的若干关键特征。现有的数据集通常依赖于固定的分类法，例如相反，UVO是无分类的，并为开放世界中的所有对象提供详尽的注释。因此，与以前的视频对象分割数据集相比，我们的数据集包含每个视频显着更多的实例。3. 开放世界对象分割与传统的对象分割任务相比，开放世界设置要求模型对所有实体或对象进行类不可知和穷举的分割。这些要求确保模型检测到看不见的猫-1077840.0%20.0%百分之零点零020 40 60 80 100 120数量的对象表1：比较UVO与流行的数据集。 UVO是最大的比较与流行的数据集方面的注释帧和对象掩码的数量。UVO没有预定义的分类法，但所有对象都被详尽地注释，从而导致每个视频的注释对象数量显著增加在测试过程中的egories，从而可以潜在地学习更通用的表示的视觉世界。我们将详细介绍构建数据集的过程，并在以下章节中对其特征进行深入3.1. UVO概述我们引入UVO开放世界的对象分割，其中包含现实世界的视频与详尽的对象掩模注释。视频对象掩模的注释成本很高，并且没有现有的数据集提供大规模的这种注释。真实世界的视频通常包含几十个对象实例（见图2），并且经过训练的注释器每帧需要45分钟来密集地注释所有对象掩码并将它们跨帧链接。我们建立了一个半自动的方法来加速这个过程并降低标注成本。本节概述UVO。由于注释器被要求屏蔽所有对象，因此与现有数据集相比，UVO的注释更为详尽（表1）。与YouTube-VOS和DAVIS不同，我们不指定要注释哪个对象与YouTube-VIS不同，我们没有预定义的分类法对象因此，UVO提供13。平均每个视频有52个对象注释，是Youtube-VIS和Youtube-VOS的7倍，是DAVIS的4每个视频的对象数量遵循所示在图2中在一些极端情况下，视频中的对象实例数量可能超过100（图2）。UVO由两个子集组成：UVO S包含10，337个以1fps稀疏注释的视频，UVO D包含1，024个以30fps密集注释的视频。UVOS用于帧级开放世界分割，而UVOD用于视频级开放世界分割和跟踪。UVOS可以可选地用于预训练视频级模型（表4）。我们进一步将这两个子集划分为训练、验证和测试分割。为了模拟开放世界环境，我们使用400个标记的视频动作类来定义分割（202个用于训练，101个用于验证，97个用于测试）。我们发布了具有地面实况的训练和验证分割，以促进研究和开发，发布了没有地面实况的测试分割，并提供了用于评估的服务器。图2：每个视频的对象数量分布。分布呈长尾型，平均值为13。52，中位数为8。在一些极端情况下，我们在视频中观察到超过100个3.2. 数据集标注数据源我们采用 Kinetics-400 [22] 中的视频用于UVO，其中包含10秒30 fps的YouTube视频剪辑，并标有人类动作。使用Kinetics视频有几个优点。首先，Kinetics视频以人为中心，包含各种人类动作和人机交互。此外，Kinetics视频从YouTube上取样，来源广泛：专业人士和业余爱好者，相机和移动设备，第三人称或自我中心。此外，Kinetics视频涵盖了非常多样化的对象类别、外观和运动，包括具有遮挡和相机运动的具有挑战性的现实世界案例。注释指南。由于“对象”的定义是模糊的，我们遵循对象提案文献中的常见方法：[45，10，53，39]：对象被定义为不属于背景或素材的事物。我们通过例子阐明了背景和注释器的定义：草地，天空，地板等。对象和材料之间的区别已经在前面讨论过[18，2，4]。在粒度上，我们要求注释器选择对象定义的粗略端：错误朝向产生有意义的分段的最粗略的可能分段。我们在注释者培训过程中发现了一些主要的歧义，并分别加以解决：• 对象组（连接的对象）。如果一组对象在整个视频中保持在一起，则可以将它们标记为一个，例如一堆保龄球和一群静止的人。如果对象离开组，则需要单独分割该对象• 人类的附属品对象可能在整个视频中一直连接到人我们使用交互标准来决定何时拆分或合并。例如，在图1中，一个人用杠铃锻炼，杠铃和运动鞋都连接到该人。人是与杠铃交互的，所以它被分割为一个单独的对象;而运动鞋在人的脚上保持静止，因此它们被注释为人。• 镜子里的物体我们明确表示，反射表面的镜像对象不进行注释。通过提供的指导方针，注释者可以维护对象的一致定义。因为UVO视频不是一个-平均值：13.52百分比数据集视频/框架Taxonomy对象每个视频Ann.FPS戴维斯[32]150/11k“突出”2.9924YTVOS [47]4453/120k94个班级1.646YTVIS [48]2883/78k40班1.686UVODUVOS1024/93k10337/31k开放世界13.5230110779刮架刮视频复制粘贴我们的管道16.345.030.711.0输入视频阶段1：稀疏帧级注释第2阶段：插值和链接稀疏注释阶段3：插值结果的视频级表2：不同设置中每帧的注释时间（以分钟计）。暂存帧和暂存视频都没有对象遮罩的初始化。Scratch-video需要跨帧链接对象，而scratch-frame不需要。复制-粘贴从稀疏注释帧复制遮罩，作为密集注释的初始化。通过我们提出的管道，我们能够将注释时间缩短4倍。图3：注释管道概述。我们提出了一个半自动化的管道，以加快注释过程。我们首先稀疏地注释视频（例如，1fps），然后将掩模密集地传播到下一帧。传播的掩码然后由注释器校正。从t+1到t+k的由注释者记录在视频级上，我们在视频上渲染每个包括任何对象掩码的视频没有5个注释者的多数票t处的注释t+k时的注释前轨道从t到t+k-1向后的轨道M个对象遮罩N个对象遮罩送回去改正。3.3. 使用掩码传播的如表2所示，每帧耗时45分钟注释所有对象蒙版并将它们跨帧链接。为了加快注释速度，我们在本节中详细介绍了我们提出的半自动注释管道（图3）。稀疏帧级分割。一个视频，anno-图4：从稀疏注释的帧中提取掩码。我们内插两个稀疏注释帧t和t+k之间的所有对象掩模。对于未注释的帧，我们通过向前和向后跟踪帧t和t+k的注释，匹配和组合这两组注释来生成其注释。用类别标签表示，我们的对象掩码可以被认为是“匿名语义”对象。我们的开放世界对象分割任务可以被解释为将像素/体素分组为注释频率。注释对象遮罩非常耗时。平均而言，每个帧需要16.3分钟来注释，而不随时间链接对象遮罩。为了使注释更易处理，UVO被分割成一个密集集，即，UVOD，具有以30fps密集注释的视频，以及稀疏集UVOS，具有以lfps稀疏注释的视频。对于UVOD，我们从从Kinetics验证集采样的1200个视频中随机选择3秒剪辑，并考虑平衡每个动作类。我们删除没有明显物体或镜头变化太多的视频，最终得到1,024个视频。这总计93k帧，具有时间密集的注释。对于UVOS，我们从Kinetics训练集中采样12k视频，按照与UVOD相同的过程移除视频，并以1fps稀疏地注释我们最终得到了10.3k的视频，其中有31k帧的注释。表1总结了UVO的统计数据。品质保证。我们执行两个阶段的质量保证检查：帧级和视频级。在帧级上，要求审核员（专家）检查掩模质量是否高，例如，检查对象边界。审计员发现的注释不佳的框架是核心-tators预览剪辑并以1 fps的速度注释所有蒙版。我们只要求注释器将每个对象掩码与唯一的索引相关联，并且不要求它们随着时间的推移链接掩码。这将注释时间从45分钟/帧显著减少到16.3分钟/帧（表2中的草稿帧）。传播稀疏注释的掩码。我们将稀疏注释的掩模插入到所有帧中。为此，我们使用时空记忆网络（STM）[28]通过帧跟踪对象掩码。对于每个未注释的帧，我们考虑前向和后向跟踪，即，从最近的较早帧和最近的较晚帧进行跟踪由于稀疏注释中的对象可能不被链接，因此同一帧的向前和向后跟踪可能不匹配。我们用公式表示最大二分匹配问题（即，将M个前向跟踪对象映射到N个后向跟踪对象），并使用包括重叠（IoU）、掩模大小、对象颜色直方图和对象中心距离的线索用匈牙利匹配来为了组合前向和后向预测，我们通过它们到未注释帧的时间距离来对它们的logit进行我们的流水线总结在图4中。视频级校正我们将插值蒙版发送给注释器进行手动校正。为了帮助注释，我们呈现目标帧（要校正的帧）和具有稀疏注释的最接近的帧。这有助于指导注释者，确保时间一致性和纠正链接错误。所提出的流水线将符号时间从每帧45分钟（原始帧注释和链接）和30.7分钟（复制-粘贴）显著减少到11分钟（表2）。由于我们使用STM来加速我们的注释框架（图3），因此我们进行以下实验以了解是否存在任何...匹配+结合...10780网球拍滑板背包苹果滑摩托车夹层手提包自行车书人，29%风筝杯电视马微波厕所瓶勺子花瓶鸟酒杯冲浪板台式遥控器滑雪板沙发键盘羊钟沉管车狗床其他，15%餐桌牛非COCO，57%运动球猫椅子钵盆笔记本电脑领带谅解备忘面包机船车飞机刀棒球棒F−J图5：UVO的示例。无论对象类别如何，UVO视频都使用遮罩进行了详尽的注释。UVO具有广泛的视频（例如第三人称/以自我为中心、专业/业余、拥挤/稀疏对象），使其成为具有挑战性的基准。最好用彩色观看。e图6：对象类别的分布。我们的数据集包含57%的对象不属于80个COCO类别中的任何一个由于Kinetics作为人类动作识别数据集的性质，我们的数据集包含29%标记为人的实例。我们的对象涵盖51个COCO类别。由STM引起的偏差我们在注释管道中通过复制-粘贴替换STM，同时保持所有其他组件相同（注释时间如表2所示）。我们将这些掩模（复制-粘贴流水线）与UVO掩模（STM流水线）进行比较以理解算法偏差。给定两组带注释的掩码（在同一组视频上），我们评估STM并发现性能的最小差异：分数为+0。2（74. 3用于复制粘贴与74岁5的UVO），-得分为0。4（79. 1用于复制粘贴与78岁7的UVO）。这表明UVO蒙版和复制粘贴蒙版之间没有显著差异。我们注意到，使用带有复制-粘贴的管道非常接近于手动注释每个帧。因此，我们相信UVO对STM的算法偏差/优势非常小。3.4. 查看UVO开放世界性以前的数据集使用预定义的税收，例如MSCOCO有80个对象类别。人们自然会问，预定义的分类法能在多大程度上覆盖真实世界的场景。要了解开放世界的在UVO中，我们进一步用80个COCO类别和一个附加类别来标记对象实例，以用来自UVO的300个视频的随机子集来捕获所有非COCO类。图6显示了UVO中对象类别的分布由于Kinetics专注于人类的行为，人类覆盖了29%的对象实例。除了人类，大约15%的对象实例包含在COCO分类中. 57%的对象实例不属于80个COCO类中的任何一个。这表明一个良好的预定义分类的覆盖范围有限。许多非COCO对象不太常见，但并不罕见，例如滑雪杆，电缆交叉，钳子，狗皮带，疼痛补丁，干海藻。其中许多都没有被1.2k LVIS [16]分类法所涵盖。还有许多真正的不同的对象和相机运动。除了对象类别之外，还有其他属性可以影响视频对象分割算法的性能。在图像域中，通常通过将对象划分为不同大小（大、中和小）来评估数据集。对于视频中的对象，运动是重要属性。我们分析了两种类型的运动：相机运动和对象运动。我们用现成的相机姿态估计器[52]提取相机运动（旋转和平移），并且发现YTVIS和UVO具有类似的相机运动分布。对于对象实例，我们将其运动解耦为两种类型：消失/出现和独立对象运动。我们研究对象的寿命并与YTVIS进行比较（图7a）。 UVO具有对象寿命的更广泛分布（更频繁地消失和出现），而YTVIS关注在整个视频中出现的对象。对于对象运动，我们计算两个时间戳之间的成对掩码IoU（图7b）。我们的数据集在maskIoU上有更广泛的分布，平均来说有更小的10781JFIOU（较大运动）。我们进一步将maskIoU解耦为大小变化（例如，遮挡、收缩/扩展）和速度（对象掩模中心之间的距离）。UVO提供更大范围的运动，并且平均而言具有更显著的运动，如图7c、d所示。4. 实验4.1. 基线和实施细节除非另有说明，否则我们使用UVOS进行帧级分割，使用UVOD进行视频级分割和跟踪实验帧级分割：Mask R-CNN [17]. Mask R-CNN是一种高性能的两阶段模型，具有RPN [34]以生成对象建议，并在建议的边界框之上进行ROIAlign遵循常规做法，我们使用COCO17 [24]进行预训练。我们还包括LVIS [16]上的实验，这是COCO的扩展，具有1.2k个类别。视频级分割：MaskTrack R-CNN [48].除了检测和分割每帧中的对象外，视频模型还需要正确地将对象链接到帧并预测它们的时空掩模。Mask- Track R-CNN在Mask R-CNN的基础上添加了一个额外的跟踪头，并结合跟踪头预测，类分配和掩码IoU来链接对象。我们使用YouTube-VIS [48]（YTVIS）数据集进行预训练和推理。由于YTVIS未发布其验证设置注释并且其验证服务器不提供类不可知的评估，我们将其训练数据分为训练分割（1938个视频）和保留的验证分割（300个视频）。对于UVOS的训练，我们使用STM通过插值生成15fps的伪地面实况。自下而上分割：基于图形的分层视频分割（GBH）[15]。除了上述自上而下的方法[17，48]之外，自下而上的方法也可以用于无监督对象分割。我们采用GBH超体素算法作为基线。GBH通过逐渐分组相似（超）体素来构建分割的层次结构GBH是一个非参数的方法，我们表明，在一个开放的世界的情况下，它可以作为一个有竞争力的基线。对象跟踪：时空记忆网络（STM）[28]。跟踪（也称为半监督视频对象分割）旨在利用在第一帧处提供的地面真实掩模在视频级分割对象我们采用最先进的STM作为UVOD的基线。STM使用存储器来存储来自先前帧的特征和注意力以匹配当前帧和先前帧，用于跟踪和分割对象。实作详细数据。我们使用流行的对象检测框架Detectron 2 [44]进行实验，类不可知的Mask R-CNN和MaskTrack R-CNN。我们使用[28]中的开源推理模型进行跟踪实验。对于超体素，我们按照原始论文[15]和LIBSVX [46]重新实现GBH以获得更好的效率。所有模型都使用8个GPU使用动量同步SGD进行训练超参数遵循每个模型的原始文件中的设置我们使用平均精度（AP）和平均召回率（AR）在100个像素来衡量帧和视频级分割的性能，并为跟踪评分（IoU，区域相似性）和评分（轮廓准确性）。4.2. 结果和分析UVO与现有的数据集是兼容和互补的。为了显示UVO与相关实例分割数据集（诸如COCO和YTVIS）的互补性和兼容性，我们在相关数据集上（预）训练模型，并且可选地在UVO上微调，并且在数据集上交叉评估（表3、4）。在帧和视频级别评估上，UVO更具挑战性：在COCO或YTVIS上训练的模型遭受显著的性能下降。UVO上的微调模型提供了良好的收益，但仍然低于以前数据集的性能。更大的分类（LVIS）在UVO上也表现不佳，并且LVIS上的预训练表现略差于COCO，可能是由于“per-son”类的性能较低在视频实例分割方面，没有YTVIS的微调比使用YTVIS的微调得到更好的结果，这可能是由于YTVIS中较小的分类和对象稀疏性。UVO也与以前的数据集兼容当在COCO上评估时，在UVO上的微调在AR100上提供8%的增益（表3），并且在YTVIS上仅遭受小的下降（4.2%）（表4）。请注意，YTVIS样本的主要部分是非人类动物（例如：猿、豹），这些在Kinetics400视频中很少见甚至不存在。此外，UVO S是常用的COCO预训练的替代方案：在UVO S上的预培训提供了在UVO和YTVIS上的竞争性能。在跟踪方面，我们评估了UVOD上的STM 并与DAVIS 16（单对象）[29]、DAVIS 17 [32]（多对象）和YouTube-VOS [47]（YTVOS）进行比较（表5）。UVO明显比现有数据集更难：除了YTVOS中不可见对象的J-分数外，性能较低。开放世界检测和分割是一个挑战。我们评估了开放世界与封闭世界的检测和分割。为了在 COCO 和YTVIS上模拟开放世界的效果，我们遵循常见的做法[31] ，将类分成两组：与 VOC 重叠的类别 [11] 和COCO/YTVIS独有的类别（非VOC）。通过仅在VOC类上进行训练并在所有或非VOC类上进行测试，我们可以了解检测器在看不见的（开放世界）上的表现如何。10782SSSD百分之八十百分之六十百分之四十百分之二十12.0%10.0%百分之八点零6.0%4.0%百分之二点零30.0%25.0%20.0%百分之十五点零10.0%5.0%百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比0 20 40 60 80100视频剪辑百分之零点零0.0 0.2 0.4 0.6 0.81.0IOU百分之零点零0.00 0.05 0.10 0.15（对角）归一化距离0%的百分比0.0 0.5 1.0 1.5 2.0大小（按前一个掩码的大小(a) 对象寿命。(b) 对象掩码IoU，每5帧一次。(c) 每5帧的对象中心距离(d) 对象大小每5帧更改一次。图7：使用YouTube-VIS比较对象运动统计。UVO具有更宽的物体寿命（a），这表明更频繁的物体出现和消失。UVO对象具有更多样化的运动幅度（bcd）分布，平均而言也具有更大的运动。火车测试J评分F-评分YTVOS+戴维斯DAVIS160.8870.899DAVIS170.7920.843YTVOSYTVOS看到0.7970.842YTVOS看不见0.7280.809YTVOS+戴维斯UVOD值0.7370.751UVOD测试0.7010.750表3：在COCO和LVIS上交叉评估的Mask R-CNN的UVO帧级结果。由于UVO包含许多不在COCO类别中的对象，因此在COCO上训练的模型的性能在UVO上测试时显著下降。在UVO上进行微调可以提高4- 5%的性能我们注意到UVOS上的微调显著提高了COCO上的召回率（+8%）在大型分类法（LVIS）上训练的模型在UVOS上也表现不佳。火车ARAPARAPARAPYTVISUVOD值UVOD测试ImageNet初始化+COCO预训练YTVIS41.034.79.37.67.36.6UVOD31.622.217.411.212.57.7YTVIS+UVOD36.826.415.09.611.77.2UVOS +UVOD35.524.520.913.216.29.9ImageNet预训练UVOS +UVOD26.915.617.510.713.37.5UVOS +YTVIS41.632.07.55.66.85.5表4：使用MaskTrack R-CNN的UVO视频级结果，与YTVIS交叉评估。在UVO上进行评估时，MaskTrack R-CNN的性能显著下降，原因是看不见的物体（开放世界）和更复杂的背景运动（第3.4节）。UVO还为UVO和YTVIS提供了COCO预训练的良好替代方案。对象值得注意的是，COCO包含所有20个VOC类别，YTVIS包含10个VOC类别。结果见表6。当在封闭世界中进行训练，并在开放世界环境下进行测试时，所有模型的性能都会显着下降。这表明，现有的检测器只能检测分类中的对象，而不能执行开放世界检测。此外，我们观察到，当扩大分类（VOC到COCO，COCO到UVO）时，执行VideoEntity均值YT-VIS平均值视频实体YT-VIS百分比百分比百分比百分比火车ARAPARAPARAPCocoUVOS值UVOS试验Coco49.637.041.019.536.719.0UVOS47.817.437.217.834.417.4COCO+UVOS57.627.644.925.041.423.6LVISUVOS值UVOS试验LVIS37.315.433.85.529.24.3LVIS + UVOS21.64.243.122.239.421.110783D表5：用STM的UVO追踪结果，用DAVIS和YTVOS交叉评估。与其他数据集相比，UVO的整体性能有显着下降，并且更接近YTVOS中看不见的场景数据（训练类别）所有看到看不见Mask R-CNNCOCO（VOC）32.8（-16.8）51.3（+0.3）8.8（-39.4）COCO+UVO（COCO）20.5（-20.8）49.5（+0.8）8.9（-23.6）MaskTrack R-CNNYTVIS（VOC）28.8（-12.2）41.4（+1.2）20.3（-21.8）COCO+UVO（COCO）12.6（-4.6）30.2（+1.2）3.5（-6.1）表6：在开放世界中检测和分割对象更具挑战性。性能由AR100测量。括号中的数字指示与对所有注释对象的训练相比的差异（不考虑类别）。在所有设置中，仅对类别的子集进行训练显著降低了未看到的类/整体性能的AR，但可以稍微改善看到的类的AR。UVO结果在300个视频的子集上进行训练和评估，其中对象类别被标记。对分类法内（seen）对象的管理可能会稍微降低这表明，当增加分类大小时，开放世界检测可能涉及每类性能权衡可能的替代方案：自下而上的超级体素。不像自上而下的方法，自下而上的方法，例如超级体素算法，本质上是无分类的。它们通常是非参数的，不依赖于标记数据来训练，因此是开放世界问题的自然基线。我们在UVO和YTVIS上评估GBH [15由于GBH提供了视频的过度分割，因此对象检测和分割中的度量（诸如AP/AR）不直接适用。另一方面，诸如欠分割误差、分割准确度（SA3D）和边界召回等超体素度量不适用于分割。107840.50.40.30.2100 200 300 400 500 600 700超体素数表7：评估时间密集视频分段需要图8：UVO（全部，COCO，非COCO）和YTVIS上的GBH性能。在平均103个超体素提议处，UVO上的近似AR为19.8%，比自上而下方法Mask-Track R-CNN的AR100高2.6%。此外，与自上而下的方法相比，未知对象和COCO对象之间的差距要小得多（8.4% vs.19.4%）。即使在COCO对象上，自底向上的方法也只落后4%。对于YTVIS，在平均100个建议时，近似AR为34.7%，比仅使用VOC对象的培训高5.9%，比所有对象的培训低6.3%。UVO结果在具有标记的对象类别的300个视频的子集上进行训练和评估。[46]这是一个不确定的事实。为了定量地比较自底向上和自顶向下的方法，我们采用了近似AR的超体素算法。AR被计算为在多个IoU阈值处的真阳性检测的平均值除以总对象。我们做两个放松。首先，由于超体素中具体地，将超体素分配给具有最大相交的对象（类似于SA 3D）;因此，对象可以被分配多个超体素。所分配的超体素的组合提供对象级预测。第二，在没有排名分数的情况下，不可能使用针对每个视频的固定数量的提议来取截止值（例如，AR100允许每个视频最多100个建议）。我们计算ARk，其中k是数据集的超级体素的平均数量这种比较的目的并不是建议超级体素算法与自顶向下方法（例如，MaskTrack R-CNN）;而是为开放世界问题提供可能的替代基线。在UVO上，超体素算法对于近似AR103实现19.8%，比自上而下MaskTrack R-CNN AR100高2.6%（图8）。非COCO对象与COCO对象之间的差距比MaskTrack R-CNN小得多。我们注意到，在自上而下和自下而上中使用的度量在YTVIS上，GBH在近似AR100时达到34.7%，比开放世界YTVIS高5.9%（在VOC类别上训练并对所有进行测试），比封闭世界YTVIS低6.3%（表6）。时间密集注释是否必要？时间密集注释（30fps）是昂贵的获得和 YTVIS规避的问题，通过注释稀疏（6fps）。我们通过在6fps的下采样版本上进行训练和评估来检查UVO背景下的选择。密集的注释;利用稀疏注释的训练也可以实现竞争性能。稀疏注释的评估数据无法区分前两个模型之间的差异，而在密集注释数据上测试时，AR存在2.7%的差距。另一方面，对于训练，与6fps相比，使用1fps地面实况加上中间帧的插值掩码进行训练可以提供有竞争力的性能。通过权衡注释密度和以1fps注释附加数据，我们可以进一步提高性能，缩小与30fps数据的差距。实验在UVOD的600个视频子集上运行。在6fps和30fps下训练的模型在6fps下评估时仅具有微小差异，但在30fps下评估时的AR100上具有2.7%的差距（表7）：时间密集分割受益于评估中的时间密集注释。对于训练，从成本效益的角度来看，我们可能会权衡高fps注释与较低fps以扩展更多视频。我们通过使用1fps无跟踪注释（无对象链接）与STM [28]生成的中间数据（类似于UVOS）来检查此选择。这反映了我们的注释管道中的掩码传播步骤（第3.3节）。在相同数量的视频上使用1fps加上插值掩码进行训练，与6fps注释数据相比，该模型能够实现类似的性能（表7）。通过权衡更多视频的稀疏性并在训练数据中使用2倍数量的视频，我们能够进一步缩小30fps注释的差距：稀疏注释对于训练可能是足够的。5. 结论我们提出了UVO，一个新的基准开放世界的对象与当前的基准相比，UVO不仅在开放世界问题设置上不同，而且在大小和注释方面也大了数倍我们相信，UVO将实现更全面的视频理解研究，如长期视频建模和复杂的视频理解任务。谢谢。我们要感谢 Abhijit Ogale ， Mike ZhengShou ， Dhruv Mahajan ， Kristen Grau- man ， LorenzoTorresani，Manohar Paluri，Rakesh Ranjan和FedericoPerazzi对数据集的宝贵反馈;工程技术支持：胡佳波、范浩奇、温伟文;感谢Sally Yoo、Yasmine Babaei和EricAlamillo对注释物流的支持;感谢我们的注释员的辛勤工作。平均召回COCO objects所有对象非COCO对象YTVIS数据集列车数据测试数据APAR10030fps30fps6FPS9.36.717.214.16FPS30fps6FPS7.26.614.514.81fps +插值30fps7.215.01fps +插入+ 2x数据30fps8.416.010785引用[1] 谷歌云模型卡对象检测。https://modelcards.withgoogle.com/对象检测。2021-03-16. 1[2] 博格丹·阿列克谢，托马斯·德塞拉尔斯和维托里奥·法拉利。什么是对象？在2010年IEEE计算机协会计算机视觉和模式识别会议上，第73-80页。IEEE，2010。3[3] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在IEEE计算机视觉和模式识别会议论文集，第1893-1902页，2015年。2[4] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页，2018年。3[5] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。2[6] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：epic-kitchens数据集。在ECCV，2018。1[7] Achal Dave 、 Tarasha Khurana 、 Pavel Tokmakov 、Cordelia Schmid和Deva Ramanan。Tao：用于跟踪任何对象的大规模基准。在Andrea Vedaldi，Horst Bischof，Thomas Brox和Jan-Michael Frahm，编辑，计算机视觉施普林格国际出版社. 二、六[8] A. R. 达米亚湾 Gunther，J.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

开放世界的视频对象分割问题及其应用

视频对象分割

基于对象的视频分割算法研究与实现

图像阈值分割算法及其应用实验感悟

视频语义分割有什么好用的工具

gee snic 面向对象 分割

python视频画面分割

comsol分割对象

数组对象分割成两个数组对象中间砍一半

python 面向对象分割

qt widget 视频分割画面

分别介绍U-Net图像分割技术在医学影像分割、自然图像分割、语义分割的应用

java将一个XSSFWorkbook对象分割成好几个XSSFWorkbook对象

语义分割有哪些应用领域？

跟视频语义分割有什么区别

matlab视频分割

视频的多画面分割及视频信号的分配

语义分割有哪些应用场景

ffmpeg 将视频固定分割成8分钟的视频

语义分割技术的现实应用

Transformer在裂缝分割中的应用

最新资源

gee snic 面向对象分割