视频对象识别、分割和跟踪的统一基准

199 浏览量更新于2023-10-15 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11674JFBURST：一个统一视频对象识别、分割和跟踪的基准阿里·阿萨1 乔纳森·卢伊滕1，2保罗·福格特兰德3 塔拉沙·库拉纳2阿查尔·戴夫4巴斯蒂安·莱布1德瓦·拉马南21德国亚琛工业大学2美国卡内基梅隆大学3谷歌4亚马逊{athar，luiten，leibe} @ vision.rwth-aachen.de{tkhurana，deva}@cs.cmu.eduvoigtlaender@google.comachald@amazon.com摘要多个现有的基准涉及跟踪和分割视频中的对象，视频对象分割（VOS）和多对象跟踪和分割（MOTS），但是由于使用不同的基准数据集和度量（例如，、&mAP、sMOTSA）。因此，已发表的作品通常针对特定的基准，并且不容易相互比较我们认为，开发可以解决多种任务的通用方法需要这些研究子社区之间更大的凝聚力。在本文中，我们的目标是通过提出BURST来促进这一点所有任务都使用相同的数据和可比的指标进行评估，这使研究人员能够统一考虑它们，从而更有效地将不同方法的知识汇集到不同任务中。此外，我们还展示了所有任务的几个基线，并表明一个任务的方法可以应用于另一个任务，并具有可量化和可解释的性能差异。数据集注释可从以下网址获得：https：//github.com/Ali2500/BURST-benchmark网站。1. 介绍视频中多个目标的分割和跟踪由于在自主机器人和自动驾驶车辆中的应用而被广泛研究。然而，随着时间的推移，这个广泛定义的任务已经分裂成多个数据集和基准，每个数据集和基准都有自己的子社区。尽管诸如视频对象分割（VOS）和多对象跟踪和分割（MOTS）之类的任务密切相关，但是它们之间缺乏交互。图1.来自BURST的各种对象注释，显示各种户外，室内和驾驶场景。子社区。我们的工作旨在纠正这一点;我们建议BURST：包含具有对象掩模注释的大量不同视频集合的数据集，以及具有六个相关任务的相关基准。BURST基于Dave等人的现有TAO数据集。[5]用于边界框级别的多对象跟踪，但已被广泛地重新注释为像素精确的遮罩。我们数据集中的视频包括室内和室外场景、“野外”视频、脚本电影场景和从移动车辆捕获的街道场景。示例可以在图中看到。1.我们的基准测试中的六个任务被组织成一个层次分类法，如图所示。2.所有任务都属于要求像素精确分割和跟踪视频序列中的潜在多个对象的保护伞。我们的任务层次结构中的第一层基于必须分割/跟踪的目标对象集来拆分任务。对于范例引导的任务，为每个目标对象给出明确的提示对于类引导的任务，目标对象集是属于预定义集的所有对象11675∼BURST套件范例引导课堂引导掩模边界框点共同长尾开放世界视频对象分割[14，21，31][第11话]视频实例分割[22，29，32]多目标跟踪分割[27，34]未识别的视频对象[17，29]图2. BURST任务分类/层次结构。下面一行的方框给出了解决这一任务的现有基准的例子。对象类。样本引导流被进一步划分为三个任务，其中，对于目标对象出现的第一视频帧，我们被给予（i）对象掩码，（ii）其边界框或（iii）对象内部的随机点。类引导流还被进一步分成三个任务，其中预定义的类集合是（i）公共对象类的小集合，（ii）具有若干不频繁出现的类（即，长尾），或（iii）图2（最下面一行）显示了哪些现有的基准测试映射到我们的任务分类法上。视频对象分割[21，31]与我们的掩码样本引导任务相同，而视频实例分割（VIS）[32，22]和多对象跟踪和分割（MOTS）[27]与常见的类引导任务相似。层次结构表明这些任务彼此高度相关。正如我们将在Sec中展示的那样。7.针对一个任务的研究优势可以用于其他任务。例如，用于示例引导任务的最先进的方法[4，33，20，23]通过将对象掩码从一个视频帧“传播”到另一个视频帧来工作在这里，我们注意到，在掩模传播的改进（即。时间关联）可以有益于类引导方法。通过BURST，我们的目标是将这些任务的方法集中在一个单一的um- brella基准下，以鼓励更多的知识交流。为了进一步促进统一和交互，我们对所有任务使用基于高阶跟踪精度（HOTA）[18]的同一组指标。这使得针对不同任务的不同方法之间能够进行直接的定量比较。为了证明这个功能的有用性，我们为我们提出的任务设置了几个有效的基线，其中一些是通过引导其他任务的标准方法构建的。结果分数的可比性提供了有趣的见解，方法如何在任务之间推广。总而言之，我们提出了BURST：一个具有掩码级对象注释的大型，多样化和具有挑战性的数据集，以及一个与6个与分段相关的任务相关的基准测试跟踪和跟踪视频中的多个对象。可以使用相同的基础数据和可比较的度量来评估一个或多个任务的方法。这旨在鼓励从事这些任务的研究人员之间更大的凝聚力和知识交流，并加速开发可以处理多个任务的通用方法2. BURST基准现有的对象跟踪和分割数据集通常是针对某些类型的视频场景，[21，32，31，22]，户外街道从驾驶车辆拍摄的场景[7，34，2，11]。另一方面，BURST中的视频涵盖多种类型的场景，并包含482个对象类的大集合我们使用来自TAO [5]的视频，该视频又由属于7个不同数据集的视频组成：Ar- goVerse [2]和BDD [34]包含从移动车辆捕获的户外驾驶场景，LaSOT [6]和YFCC 100 M [26]包含来自互联网的各种野外视频，以及 AVA [8] ， Charades [24] 和 HACS[35]，其中包含人与人和人与物体交互的视频，但有一些细微的区别：Charades主要包含具有缓慢对象运动的室内场景，AVA包含脚本电影的片段，HACS包含野外互联网视频。我们请读者参看图1。1来自Daveet al. [5]查看我们的数据集类的图解概述。BURST 包含 2 ， 914 个视频，低帧尺寸至少为480px。视频长度为30秒，训练集、验证集和测试集分别包含500、993和1421个视频。训练集以6fps注释，而验证集和测试集都以1fps注释。表1总结了BURST的统计数据。联邦注释。与TAO [5]类似，BURST中的注释是联邦的，即。并非属于预定义的对象类集合的所有对象都在每个视频中被注释这类似于图像级 LVIS [9] 和OpenImages [15]数据集背后的原理。除了非穷举注释之外，BURST中的每个视频还包含以下内容：（1）非穷举注释的对象类列表，以及（2）对象类11676∼∼∼表1.BURST训练、验证和测试集的统计数据火车验证测试总注释fps611-视频50099314212,914视频总长度（小时）4.949.8414.1228.9对象轨迹2,6455,4817,96316,089注释帧107,14436,37552,194195,713物体掩码318，2001114,825167,132600,1571包括212，477个自动生成并经过一致性验证的掩码这在视频中是不存在的这些信息使我们能够为每个对象类导出三组视频这反过来又用于在评估期间惩罚每个对象类的误报和漏报我们建议读者参考TAO数据集论文[5]以了解更多细节。3. 与相关数据集的有几个不同大小的数据集，可以处理我们的基准测试评估的一个或多个任务。表2和表3将BURST与这些现有数据集进行了比较。3.1. 按任务表3显示了每个数据集/基准测试根据我们的任务分类法评估的任务（图3）。2）的情况。我们注意到，现有的基准通常解决一个或最多两个任务。The ‘通过假设第一帧对象掩模在推断期间是已知的，类引导的基准也可以被公式化为样本引导的基准。对于范例引导的任务，两个最常见的基准是 DAVIS [21] 和YouTube-VOS [31]。两者都包含来自互联网的各种野外视频，长度为5- 10秒。VOT [14]包含较长的视频，但它是一个单对象跟踪数据集。查看类引导流，大多数数据集可以分配到两个不同的组之一。一方面，BDD [34]、KITTI [7]和MOTS-Challenge [27]等基准测试的灵感来自经典的多对象跟踪（MOT）。它们针对自动驾驶问题，并包含从驾驶车辆或步行行人捕获的街道场景的冗长视频。我们看到 KITTI 和 MOTS-Challenge 使用 'sMOTSA' 来评估方法，sMOTSA是流行的MOTA（多对象跟踪精度）度量的扩展[25]，用于使用分割掩码而不是边界框时。另一方面，像YouTube-VIS [32]和UVO [29]这样的数据集似乎与视频对象分割（VOS）更相关，并且通常包含来自互联网的不同但较短的OVIS [22]可以被视为YouTube-VIS的扩展UVO从其他的中脱颖而出，因为它可能是“对象”，而不是局限于一小类对象。此类别中的数据集使用平均精度（mAP）作为评估指标。因此，这些基准可以被视为图像级实例分割基准的视频扩展，例如COCO [16]，LVIS [9]和OpenImages [15]，其中mAP是选择的度量。与上述所有内容相比，BURST包含评估所有六项任务所需的注释特别是，我们的对象类集足够大，这使得长尾开放世界任务成为可能。3.2. 按难度表2列出了几个数据集以及主观确定其“难度”的各种参数。在视频长度方面，BURST中的平均序列持续36.8秒，比其他数据集长。长视频具有挑战性，因为对象实例更多，遮挡时间更长，并且由于帧计数更高而需要更多内存。就数目而言BURST包含200k视频帧中的600k对象掩码，这比除BDD和UVO之外的大多数其他数据集都要大。关于对象类别，BURST包含属于482个可能类别的对象，这明显高于为其他基准设置的据我们所知，我们是第一个提供像素精确的对象注释这样一个大的对象类集。除了增加对象的多样性，这个功能还使我们能够评估长尾类引导任务的方法。如第2然而，我们的注释是联合的，即，不是exhaustive。最后，我们注意到，BURST可以更好地评估方法的泛化能力，因为与现有数据集相比，它包含更多的场景多样性，其中许多数据集关注特定的设置，例如。驾驶场景4. 数据集创建我们建立在TAO数据集[5]的基础上，该数据集包含1fps的对象边界框注释。我们专业地重新注释了这一点，以获得所有342，052个对象边界框的像素精确遮罩1。然后，我们开始将训练集中注释的时间密度从1fps增加到6fps。以1fps的速度可视化一系列注释可以显示连续帧之间的大幅度移动和外观变化。在这些数据上训练跟踪相关的方法是具有挑战性的，因为它们被设计为从平滑的然而，以全视频帧速率（24- 30fps）注释对象掩模将是不可行的昂贵且高度冗余的，因为在连续帧之间通常存在很少的场景变化。因此，以6fps进行注释是一种妥协（也被其他数据集使用[21，31，32]），因为它减少了注释。用于开放世界任务，因为它包含掩码anno。任何人类认为是[1]我们重新使用了[28]发表的27，500个面具。11677表2. 按大小和难度进行的数据集比较。根据不同的“难度”指标对数据集进行比较。如果数据不公开，验证/测试的统计数据困难串大小确认/测试规模数据集设置长度（小时）面罩/框架数量类别Ann Masks Ann Tracks Ann Frames Ann VidsAnn Masks Ann Tracks Ann Frames Ann VidsVOT [14]单个对象10.71-000019,9036219,90362[21]第二十一互联网视频2.92.67810,2381444,2196016,8412426,24090YT-VOS [31]互联网视频4.51.639412,9186,45994,4403,4714,3102,15528,8251,048BDD [34]驱动4011.47347,44217,83830,74515477,3894,8736,47532[27]第二十七话驱动39.05.2238,1977488,0082161,90696111,09528MOTS-Chal。[27日]监控34.410.0126,8942282,862432,26932830444YT-VIS [32]互联网视频4.51.6940103,4243,77461,8452,23829,4311,09217,415645UVO [29]人类行为312.3-416,00176,62739,1745,641177,15328,27118,9665,587突发一般/多样28.93.1482318,2002,645107,144500281,95713,44488,5692,414表3.按任务比较数据集。'/ '意味着数据集包含设置给定任务的注释，但这不是作为该基准的一部分正式完成的。例导式Mask Box Point公共长尾开放世界VOT [14]✓✓/✗✗✗戴维斯[21]✓//✗✗✗[31]第三十一话✓//✗✗✗BDD [34]///✓✗✗[27]第二十七话///✓✗✗MOTS-Chal。[27日]///✓✗✗[32]第三十二话///✓✗✗OVIS [22]///✓✗✗UVO [29]///✓✗✓突发✓✓✓✓✓✓同时还能保证场景的流畅进行。然而，对于BURST，即使是6fps的注释也需要255，654个额外的掩码注释用于训练集。为了降低成本和人力，我们开发了一种半自动程序来完成此操作，如下所述：1. 自动掩码传播有趣的是，时间上致密化注释的任务实际上与图1中提到的掩码范例引导任务相同。2：给定某帧中的对象掩码，我们需要其他视频帧中相同对象的掩码。在这种情况下，必须执行此掩码传播步骤的视频长度非常短-最多1秒，因为我们已经有了人工标记的1fps注释。我们发现，最近的两种最先进的“视频对象分割”方法为了进一步提高掩模质量，我们通过以两种不同的方式运行这些方法来获得两组不同的结果。如图如图3（左）所示，给定一对带注释的帧，在这对带注释的帧之间具有多个未注释的帧，我们可以以第一帧作为参考运行该方法并顺序地向前传播，或者从作为参考的最后一帧开始，顺序地向后传播。对两种方法都这样做会产生总共4个不同的传播掩码集。此外，我们使用STCN通过使用两个注释帧作为参考帧来获得第五个，打破平局的双侧结果（图2）。3，右），并将掩码直接传播到每个其它未注释的帧（即，STCN中的帧历史更新机制被禁用）。因此，每个对象总共有5个遮罩。我们随后执行每个像素的多数表决，以获得最终的共识掩码。2. 掩模质量评估虽然第1步产生的大多数注释都是高质量的，但也有一些失败的情况，例如：光线不好，场景被遮挡，摄像机动作不稳定为了识别它们，可以手动检查每个对象掩模并确定它是否具有地面真实质量。尽管这样做仍然比完全注释对象掩码的成本低得多，但我们仍然开发了一种更有效的评估掩码质量的程序：我们使用共识掩码计算步骤1中生成的五个掩码中每个掩码的IoU。然后对五个结果IoU进行平均以获得[0，1]中的最终度量，其被视为共识掩码的质量得分Q。3. 低质量口罩的手动重新注释。为了确定哪些口罩质量不合格，我们考虑两个关键措施：来自步骤2的分数Q和一致性掩模的像素掩模面积。我们请了两个专业的注释员来手动评估一组250个对象遮罩的质量。这些被采样，使得它们相对于它们的Q分数和像素面积均匀分布。要求注释者为每个对象掩码分配三个评级之一：（1）“好”：掩模质量与人类注释的地面实况一样好，（2）“满意度”：存在可见的误差，例如，对象轮廓是不完美的，是掩模碎片的较小实例，但总体上仍然是可接受的，以及（3）“坏”：存在不可接受的误差，对象ID切换，总体分割不足/过度分割。图4说明了这项调查的结果：每个对象掩模被显示为点，其颜色反映了人类分配的等级。这些点是相对于它们的Q分数和掩模像素区域绘制的。我们观察到这两个指标和人类感知的面具质量之间有很强的相关性，因为大多数基于该图，我们决定手动重新注释Q分数低于0.8或遮罩面积小于750像素的所有对象遮罩该区域在图中以红色突出显示。4.第一章通过使用此工作流来加密训练集，11678图3.用于加密训练集的掩码传播技术的图示。STCN [4]和AOT-L [33]都在向前和向后设置中执行。仅对STCN执行双面1) 面具该方法给出了分割掩码，1071061051041031021010.70 0.75 0.80 0.85 0.90 0.95 1.00质量评分（Q）图4.掩模质量的人工评估与我们的自动质量评分Q和共识掩模的像素面积绘制。所有落在红色区域的掩码都被手动重新注释。从1fps到6fps的标记，我们只需要255，654个对象掩码中的43，177个（16.9%）进行手动注释，因为剩余的自动生成的掩码通过了被认为是地面实况的质量阈值。5. BURST任务分类正如在第二节中所解释的。1，几个现有的基准涉及与分割和跟踪视频中的多个对象有关的密切相关的任务，但是在它们各自的研究子社区之间存在有限的交叉交互。通过BURST，我们的目标是通过共享数据和一致的评估指标将这些不同的基准统一在一个保护伞构成突发的六个任务如图所示。2、下面解释一下。5.1. 范例引导这组任务需要跟踪和分割视频中的多个目标对象，对于这些对象中的每一个，在它们出现的第一视频帧中给出一些地面实况线索。注意，这可能不一定是视频的第一帧。此流中的三个任务基于给定提示的类型：第一帧中的每个目标对象。2) 盒子给出了第一帧中目标对象的边界框坐标。请注意，预测输出仍然应该是像素精确的分割掩码。3) 点这是三种方法中最具挑战性的，其中该方法仅给出位于目标对象掩模内的一个像素坐标。同样，预测输出仍然应该包含分割掩码。5.2. 课堂引导对于这组任务，需要方法来跟踪、分割和分配类别标签给视频中属于预定义的对象类别集合的所有对象此流中的三个任务是：4) 共同在这里，目标类集包括来自流行的COCO数据集[16]的78个类，跨越不同的对象类别，例如：动物、人、车辆、家具、食品。5) 长尾该任务涉及来自LVIS数据集的482个对象类的大集合[9]。它具有挑战性，因为几个类包含很少的训练样本。6) 开放世界开放世界实例分割[17]背后的想法是，方法在特定的“已知”对象类集合上进行训练，但在推理期间，它们预计会额外分割属于“未知”类集合的对象。方法不需要为预测的实例分配类标签，并且评估不会惩罚误报。对于我们的开放世界任务，78个6. 统一评估我们使用高阶跟踪精度（HOTA）[18]评估所有任务，因为它在测量帧级检测和时间关联精度之间取得了良好的平衡。对于开放世界任务，稍微修改，坏满意好共识掩码区域11679一←→一ΣAHOTA =（1）使用HOTA的基于召回的变体，称为开放世界跟踪精度（OWTA）HOTA。为了计算HOTA[18]，预测检测（每帧）首先根据其掩码之间的IoU使用该映射，可以计算检测准确度（DetA）和关联准确度（AssA），并通过取它们的几何平均值来组合以获得HOTA分数，即。√DetA·AssA。多个IoU阈值用于计算预测地面实况匹配;通过在阈值上求平均来计算最终HOTA（和DetA，AssA）。检测准确度（DetA）。使用预测和地面实况检测之间的映射，这些检测可以被划分为一组真阳性（TP）、假阳性（FP）和假阴性（FN）检测。然后，可以通过以下方式DetA=|TP|.（二）|TP|+的|FN|+的|FP|关联准确度（AssA）。为了计算AssA，计算每个真阳性检测c的关联得分（c）。通过对一组真阳性检测TP求平均值获得最终AssA评分：AssA=1（c）。（三）|c ∈{ TP }|c ∈{TP}真阳性检测c的关联得分（c）计算为（c）=|TPA（c）|、（四）|TPA（c）|+的|FNA（c）|+的|FPA（c）|其中，通过将经过检测c的整个预测轨迹与经过检测c的整个真实轨迹进行比较来计算真正关联（TPA）、假正关联（FPA）和假负关联（FNA）[18]。我们建议读者参考Luiten等人。[18]详细解释。对象类。为了处理多个对象类，可以为每个类分别计算HOTA，然后进行平均步骤以产生最终度量。为了便于对不同对象类进行更简单的性能分析，我们对三组不同对象类的每类HOTA得分进行平均：（1）“common”set，包含COCO [16]中的78个对象类;（2）“uncommon”set，包含LVIS [9]中的404个不经常出现的对象类;（3）“all”set，是两者的并集（78 + 404 = 482个类）。我们分别用HOTA_com、HOTA_unc和HOTA_all表示这三个度量。示例引导任务的HOTA。范例引导任务的评价与课堂引导任务相同，可以直接比较成绩。然而，应该注意的是，范例引导的方法固有地接收额外的地面实况信息：掩码/框/点，以及每个目标对象的类标签。6.1. 开放世界评估对于开放世界任务，方法被期望分割和跟踪以前看不见的类的对象。由于标记每个对象是不可行的（即使“对象”的定义也这意味着误报检测不应受到惩罚，因此，对于开放世界任务，我们用开放世界跟踪精度（OWTA）[17]代替HOTA，其计算如下：OWTA=ΔDetRe·AssA，（5）其中检测召回（DetRe）由下式给出：DetRe=|TP|、（6）|TP|+的|FN|请注意，DetRe类似于DetA，但它忽略了假阳性（FP）。为了防止方法通过简单地预测极大量的检测来获得高分，我们要求开放世界任务的对象掩码预测不能相互重叠。7. 基线对于我们的六个任务中的每一个（第二。5），我们利用现有的作品与现成的训练模型实现基线。这些为将来的工作提供了一个比较点，也展示了如何将一种方法用于多个任务，以及如何直接比较和分析任务之间的性能一般来说，我们在“通过检测进行跟踪”的背景下利用图像级对象检测器，其中跟踪任务在概念上分为两个步骤：“检测”步骤，其中对象在各个帧中被分割，随后是“跟踪”步骤，其中每帧检测随时间相关联。虽然最近的最先进的方法[1，19，30，3]通过联合分割和跟踪视频剪辑中的对象而偏离了这种范式，但我们发现它仍然是处理BURST中任务的通用方法。我们为每个任务构建功能基线，使用一些变化的跟踪检测。以下小节详细介绍了每个基线，结果见表4。7.1. 范例引导我们为这个流中的每个任务显示两个基线：（1）应用STCN [4]，这是一种最近的 “视频对象分割 ”方法，用于通过一11680→→→→表4.使用各种方法对所有任务的基线结果进行比较。分别报告“常见”、“不常见”和“所有"类的评估指标。对象检测器训练数据：*：COCO，†：LVIS。确认测试基线方法HOTAallHOTAcomHOTAuncHOTAallHOTAcomHOTAuncSTCN [4] 49.8 52.2 49.2 52.4 51.1 52.7Box Tracker*[12] 18.0 35.8 13.6 14.1 28.0 11.4STCN（PointRend）45.2 48.9 44.3 46.0 48.9 45.4框STCN（匹配的检测器 *）24.5 47.6 18.7 25.0 41.9 21.7Box Tracker* 13.7 34.2 8.6 13.6 27.7 10.8STCN（匹配检测器 *）24.4 44.0 19.5 24.9 39.5 22.0Box Tracker* 12.7 31.7 7.9 10.1 24.4 7.3STCN跟踪器 *-51.2--34.6-Box Tracker*-45.5--34.3-Long-tailSTCN Tracker†5.5 17.5 2.5 4.5 17.1 2.0Box Tracker†8.2 27.0 3.6 5.7 20.1 2.9OWTAallOWTAcomOWTAuncOWTAallOWTAcomOWTAunc开放世界STCN跟踪器64.6 71.0 25.0 57.5 62.9 23.9Box Tracker 60.9 66.9 24.0 55.9 61.0 24.6OWTB [17] 55.8 59.8 56.0 59.9 38.3视频，以及（2）简单的框跟踪器，其通过从给定的第一帧掩模开始构建对象轨迹，然后基于它们的边界框重叠使用Hungar匹配来关联未来帧中的对象检测面具引导在这里，STCN始终优于两个类集的框跟踪器，因为它是一个国家的最先进的方法，为样本引导跟踪，而框跟踪器是一个基本的方法。请注意，对于不常见的类，STCN实现了49.2HOTAunc（验证），而box tracker只实现了13.6.这是因为STCN是类不可知的，任何给定的第一帧对象掩模，而框跟踪器使用由COCO [16]上训练的Mask2Former [3]模型产生的对象检测（即，“公共”类）。尽管如此，该任务的检测跟踪的适用性表明，样本引导的任务可能会受益于未来的改进图像级检测器。盒子引导对于框和点引导的任务，我们通过将它们视为具有附加的“框掩码”或“点掩码”预处理步骤的掩码引导的任务的扩展来计算基线，所述附加的对于框引导的任务，我们以两种方式完成：（1）我们计算给定边界框与该帧图像检测的所有边界框之间的IoU，并分配属于具有最高重叠的检测的掩码，以及（2）我们将给定的第一帧边界框输入到来自MaskRCNN [10]模型的基于PointRend [13]的掩码回归头，并使用所得到的分段掩码。查看表4，我们可以看到，由于额外的“框掩码”回归步骤，框引导的分数通常低于掩码引导的分数在框引导得分中，PointRend表现得很好，比使用最佳匹配检测更好。特别是对于HOTAunc，PointRend基线达到44.3（验证），而匹配检测基线仅达到18.7。考虑到两个网络（用于匹配的图像检测器和PointRend掩码头）都是在COCO上训练的，这表明PointRend是一个更强大的“盒子”→掩模点引导。最后，对于点引导的任务，我们通过取包含给定点的最高得分检测的掩码来实现由于这种技术容易出错，我们看到，就所有三个指标而言，点引导任务的基线比框引导和掩码引导任务的基线更差。7.2. 课堂引导我们为每个任务显示了两个检测跟踪基线(1)一个简单的盒子跟踪器，它使用盒子IoU连接每帧的对象检测，然后进行匈牙利匹配，以及（2）一个共同该任务需要分割和跟踪属于78类“共同”集合的对象。在这里，STCN跟踪器的性能优于框跟踪器（51.2vs.45.5HOTAcom），因为与边界框IoU相比，基于STCN的掩码传播对于时间关联更准确。通过有效地利用STCN，一种方法，旨在解决掩模样本引导的任务，类引导的跟踪，我们强调了这些任务的相关性质和知识交流的潜力。请注意，我们不会为“uncommon”评估common任务示例引导课程指南掩模点共同11681∼∼类，因为这不是任务定义所要求的。长尾在这里，需要方法来分割和跟踪属于482类“all”集合的对象。我们注意到，这里的分数明显低于普通任务的分数。这是因为我们使用了在LVIS [9]上训练的MaskRCNN [10]模型来获得这个更大类集合的对象检测。我们观察到，这个网络产生的检测质量很差。即使对于“常见”类，当使用这些检测时，两个基线的性能也会大幅降低（27.0 HOTA comon验证框跟踪器与#24555;的共同任务）。还要注意的是，在这里，STCN跟踪器的性能比盒子跟踪器差，即使对于普通任务来说情况正好相反。原因是当输入掩码质量差时，STCN执行错误的掩码传播因此，在这种情况下，更基本的边界框IoU跟踪器执行得相对更好。据我们所知，这是第一次，定量比较视频对象跟踪方法的性能在这样一个大的类集。我们希望我们的基准将鼓励其他研究人员发现减轻这种巨大性能差距的方法。开放世界最后，对于开放世界任务，我们使用类似于HOTA的OWTA度量，但没有对误报进行归一化。根据任务定义，方法只能在“公共”类集上训练，但在推理过程中，预计会额外分割属于“不常见”集的对象。在这里，我们再次使用框跟踪器和STCN跟踪器，从COCO上训练的Mask2Former [3]模型进行图像级检测。我们还报告了刘等人提出的基线结果。 [17]（ OWTB ）。毫不奇怪，所有方法都遭受了“uncommon”集的性能下降。STCN跟踪器实现了最高的HOTA所有分数（验证时为64.6），但与次佳基线（框跟踪器：25.0）相比，OWTB在HOTAunc7.3. 任务间比较使用一致的指标使我们能够直接比较不同任务中不同方法的结果。我们在图1中展示了我们的基线的这种比较。5，它为每个任务绘制了验证集上的最佳性能基线。请注意，我们省略了开放世界的结果，因为OWTA指标与HOTA略有不同。对于HOTAcom，面具样例引导的得分为52.2，仅略高于普通类引导任务的得分（51.2）。这似乎令人惊讶，因为示例引导的任务本质上更容易，因为对于每个目标对象，方法可以访问（1）显式提示（掩码/框/点），以及（2）类标签。然而，我们注意到，样本引导的方法往往会丢失目标对象（例如，由于闭塞或不稳定运动），此后无法恢复;对于两者706050403020100屏蔽盒点公共长尾例导式图5.不同任务的基线表现比较STCN和框跟踪器，如果对象无法跟踪超过一定数量的帧，则假定它已经消失。另一方面，类引导方法预测可以共同覆盖更多地面实况对象的任意数量的轨迹。因为HOTA计算涉及检测准确度（DetA），所以类别引导的方法接收正确的每帧检测的部分信用，即使对象ID随时间不一致/分段。这种效果在BURST中更明显，因为与现有的样本引导基准测试[21，31]（5- 10秒）相比，它包含更长的视频（30秒）。然而，对于HOTAunc，即使是最差的范例引导得分（19.5）也远高于类引导的3.6，因为范例引导方法本质上是类不可知的，并且可以传播任意的对象掩模，但是我们的类引导的检测跟踪基线对每帧对象检测/分类质量非常敏感，这对于这个较大的类集合来说是非常差的。8. 结论我们提出了BURST：一个基准，它统一了六个任务相关的对象识别，分割和跟踪视频与一个明确的任务分类和一致的评估指标。我们的数据集包含一个大型且多样化的视频集，具有像素精确的遮罩，用于大量的对象类词汇。我们使用半自动流水线对训练集的对象掩码进行了时间加密，从而产生准确的结果，同时大大减少了人工注释工作。最后，我们为所提出的任务提供了一些基线，并分析了它们的性能。我们希望我们的基准将作为研究人员评估他们的对象跟踪方法的宝贵资源。鸣谢。该项目部分由ERC Consolidator Grant DeeVise（ERC-2017-COG- 773161）和CMU Argo AI自主车辆研究中心HOTAcomHOTA unc52.251.249.248.944.3442719.53.6-HOTA11682引用[1] Ali Athar 、 Sabarinath Mahadevan 、 Aljosa Osep 、LauraLeal-Taixe'和BastianLeibe。Stem-se g：用于视频中的实例分割的时空嵌入在ECCV，2020年。[2] Ming-Fang Chang、John Lambert、Patsorn Sangkloy、Jag-jeet Singh 、 Slawomir Bak 、 Andrew Hartnett 、 DeWang 、 Peter Carr 、 Simon Lucey 、 Deva Ramanan 和James Hays。阿尔戈-诗句：3D跟踪和预测与丰富的地图。在CVPR，2019年。[3] Bowen Cheng ， Anwesa Choudhuri ， Ishan Misra ，Alexan- der Kirillov ， Rohit Girdhar ， and Alexander GSchwing. Mask2former用于视频实例分割。CVPR，2022年。[4] 何祺郑、戴裕荣和邓志强。重新思考具有改进的内存覆盖的时空网络，以实现高效的视频对象分割。在NeurIPS，2021年。[5] Achal Dave 、 Tarasha Khurana 、 Pavel Tokmakov 、Cordelia Schmid和Deva Ramanan。Tao：用于跟踪任何对象的大规模基准。在ECCV，2020年。[6] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Sijia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：用于大规模单个对象跟踪的高质量基准。在CVPR，2019年。[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。[8] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部原子视觉动作的视频数据集。在CVPR，2018年。[9] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。LVIS：用于大词汇实例分割的数据集。在CVPR，2019年。[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017.[11] Namdar Homayounfar，Justin Liang，Wei-Chiu Ma，andRaquel Urtasun.Videoclick：视频对象分割与一个单一的点击。arXiv预印本arXiv：2101.06545，2021。[12] 阿恩 · 霍夫休斯 · 乔纳森 · 鲁坦。追踪评估github.com/JonathonLuiten/TrackEval，2020.[13] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在CVPR，2020年。[14] Matej Kristan ， Ales Leonardis ， Jiri Matas ， MichaelFels- berg ， Roman Pflugfelder ， LukaˇCehovin Zajc ，TomasVojir ， GoutamBhat ， AlanLukezic ，Abdelrahman Eldesokey ， et al. The sixth visual objecttracking vot2018 challenge results.在ECCV，2018。[15] Alina Kuznetsova ， Hassan Rom ， Neil Alldrin ， JasperUijlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali ， Stefan Popov ， Matteo Malloci ， AlexanderKolesnikov，et al.打开图像数据集v4。IJCV，2020年。[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV。Springer，2014.11683[17] 刘洋，伊迪尔·埃森·佐勒菲卡尔，乔纳森·卢伊滕，阿查尔·戴夫，德瓦·拉马南，巴斯蒂安·莱贝，阿尔霍斯·奥塞普和劳拉·莱尔-塔克斯·埃。开放世界追踪。在CVPR，2022年。[18] Jonathon Luiten 、 Aljosa Osep

下载后可阅读完整内容，剩余1页未读，立即下载