没有合适的资源?快使用搜索试试~ 我知道了~
开放世界跟踪:评估与构建基准的第一步
Yang Liu1,* Idil Esen Zulfikar2,* Jonathon Luiten2,3,* Achal Dave3,*Deva Ramanan3Bastian Leibe2Aljo˘sa O˘sep1,3Laura Leal-Taixé1190450开放世界跟踪01 德国慕尼黑工业大学 2 德国亚琛工业大学 3 美国卡内基梅隆大学01 {yang14.liu, aljosa.osep, leal.taixe}@tum.de 3 {achald, deva}@cs.cmu.edu02 {zulfikar, luiten, leibe}@vision.rwth-aachen.de0openworldtracking.github.io0图1。每对左:多物体跟踪的标准方法是检测、跟踪和可能的分割与特定的预定义语义类别相对应的对象,如汽车和行人[78]。每对右:我们跟踪基线的输出,可以跟踪在模型训练集中没有标记的对象,如儿童推车。本文的重要贡献是第一个基准,旨在研究对象跟踪器在这种开放世界条件下的性能,其中跟踪器只对视觉世界有部分了解,接受无法为每个可能的语义类别训练对象检测器的事实。0摘要0跟踪和检测任何物体,包括模型训练过程中从未见过的物体,是自主系统的关键但难以捉摸的能力。在现实世界中,对从未见过的物体视而不见的自主代理会带来安全隐患,然而几乎所有当前的系统都是这样工作的。推进任何物体跟踪的主要障碍之一是这个任务的评估非常困难。一个能够让我们对现有努力进行苹果对苹果的比较的基准是推进这个重要研究领域的关键第一步。本文解决了这个评估缺陷,并提出了在开放世界环境中检测和跟踪已知和未知物体的景观和评估方法。我们提出了一个新的基准,TAO-OW:在开放世界中跟踪任何物体,分析了多物体跟踪中的现有努力,并构建了这个任务的基线,同时强调了未来的挑战。我们希望在多物体跟踪研究中开辟一个新的战线,这将使我们离能够在现实世界中安全运行的智能系统更近一步。0* 这些作者对本文的贡献相同。01. 简介0理解常见情景很容易。在数百万个汽车和行人的示例上进行训练的视觉系统在检测这些对象、确定它们是什么和在哪里以及通过场景中跟踪它们方面表现得相当好。理解从未见过的情景极其困难。当一架飞机降落在自动驾驶车辆前面的道路上时会发生什么?或者一个新的儿童玩具被扔到路上时会发生什么?当前的视觉系统如何能够处理这些以前从未见过和未知的情况?设计用于检测和跟踪潜在危险物体的系统是否能够完全忽略这些情况而导致灾难性后果(如图1左下角的车辆撞到儿童推车)?对于已经收集了大量数据的对象,跟踪和检测方法效果还不错。但是,如果不构建能够处理从未见过的对象的系统,视觉系统将永远无法足够安全地在现实世界中工作,并且收集更多的数据永远无法扩展以解决可能发生的无限种类的未知事物。许多个案例表明当前的视觉系统在以前未见过的情况下表现不佳[60],但我们无法定量地测量这种现象,甚至无法评估进展,因为没有可以评估的基准。Unknown unknownsUnknownKnown50k10k5k1k151050100500TAO-OW (Ours) (∞)MOT Challenge (1)TAO (val) (~300)KITTI (2)Waymo/BDD (~8)YouTubeVIS/OVIS (~40)190460图2.验证集中TAO-OW基准类分布,显示已知类别的训练数据和未知类别作为开放世界中可能出现的无限多样性(未知未知)的对象的代理。请注意,y轴是对数刻度。0在本文中,我们提出了一个新的基准(TAO-OW:在开放世界中跟踪任何对象),用于测量开放世界环境中的检测和跟踪性能。封闭世界的多目标跟踪基准[16, 18, 24]和方法[7, 40,78]侧重于跟踪属于预定义的一组经常观察到的类别的对象。相反,在我们的开放世界跟踪(OWT)任务中,必须跟踪所有对象,并且方法的评估重点是它们能够跟踪它们不被允许训练的对象类别(未知对象)以及训练集中的对象类别(已知对象)的能力。开放世界评估本质上是困难的。必须限制算法被允许训练的对象集。这些已知对象应该足够多样化和多样化,以代表通常可以期望收集数据的对象集,但是应该有大量的进一步未知对象的示例,这些对象不作为被评估模型的标记样本呈现。我们的工作基于最近引入的TAO数据集[16]1,该数据集包含来自许多不同场景(如驾驶,电影和日常场景)的大量视频。这种广泛的多样性对于能够捕捉各种未知对象非常重要。对于已知类别,我们使用COCO[42]中的80个类别,涵盖了各种常见对象,同时留下700多个未知对象类别,以评估算法在未经训练的对象上的性能。在图2中,我们展示了我们的TAO-OW基准,它具有固有的长尾对象类别分布,其已知和未知的分割,并与以前的跟踪基准[18, 24, 64, 75, 88,91]进行了比较,这些基准都限于对少数类别的封闭世界评估。开放世界评估的另一个固有困难是处理这样一个事实,即不可能对应该被检测和跟踪的完整对象集进行详尽注释(根据定义,我们不希望惩罚跟踪未知的未注释对象)。为了解决这个问题,我们提出了一种名为Open-World TrackingAccuracy(OWTA)的新评估指标,它自然地将检测和跟踪评估组件分解,允许在不惩罚额外未注释对象检测的情况下评估跟踪准确性。这种评估是通过提供非重叠的分割掩码作为提议对象的约束来实现的。凭借我们的开放世界跟踪基准和评估方法,我们分析了几种尝试此任务但缺乏共同评估协议的方法[17, 47,56]。本文的一个重要贡献是我们对各种方法进行了全面的分析。这项分析使我们提出了一种在我们的开放世界跟踪基准上目前表现最好的开放世界跟踪方法,同时在以前的封闭世界基准上表现非常有竞争力,尽管它并不是为这些基准而设计或调整的。总之,本研究的主要贡献是在视觉多目标跟踪中开辟了一个超越当前封闭世界基准的新方向。我们形式化了开放世界跟踪问题,(i)提出了一个具有适当的基于召回的评估的基准,以衡量进展,(ii)分析了现有的设计范例,提供了基于封闭世界设置中最先进方法的大量基线,以及(iii)提出了一种在开放世界和封闭世界跟踪中都表现良好的强大方法。我们的实验证明,封闭世界的检测器对于定位未知对象效果出奇的好。然而,跟踪未知对象比已知对象更具挑战性。01个许可证可在taodataset.org上获得。0在这个工作中,我们提出了一种新的开放世界跟踪方法,该方法在我们的开放世界跟踪基准上表现最佳,同时在以前的封闭世界基准上表现非常有竞争力,尽管它并不是为这些基准而设计或调整的。总结起来,本工作的主要贡献是开辟了一个新的视觉多目标跟踪方向,超越了当前的封闭世界基准。我们形式化了开放世界跟踪问题,(i)提出了一个具有适当的基于召回的评估来衡量进展,(ii)分析了现有的设计范例,提供了基于封闭世界设置中最先进方法的大量基线,以及(iii)提出了一种在开放世界和封闭世界跟踪中都表现良好的强大方法。我们的实验表明,封闭世界的检测器对于定位甚至未知对象的效果出奇的好。然而,跟踪未知对象比已知对象更具挑战性。02. 相关工作0相关任务和基准。多目标跟踪(MOT)是一项具有挑战性的任务,涉及在空间和时间上定位对象,通常在密集拥挤的环境中。现有的MOT数据集侧重于在视频[18, 24, 83,90]或LiDAR流[14,75]上进行封闭集跟踪。最近的工作开始朝着在视频[36, 48,78, 82,90]或LiDAR序列[3]中对跟踪对象进行像素级精确分割,并研究在对象类别的长尾中的性能[16]。与我们的工作更接近的是无监督视频对象分割(UVOS)[13]和运动分割[9, 30,71],其中需要跟踪和分割整个视频中存在并具有主导运动的多个对象。然而,这些基准中的几乎所有类别都存在于COCO中,几乎所有方法[2,47]通过在COCO上进行训练来实现出色的性能。我们的工作明确评估了超出COCO范围的类别。0多目标跟踪。早期的基于视觉的跟踪方法[27, 59,85]和机器人感知[54,76]利用类别无关的自下而上分割作为跟踪线索,例如基于LiDAR点云聚类[53, 79]或背景建模和前景分组[32, 73,85]。视觉多目标跟踪的一个进步是跟踪-检测范式,它依赖于预训练的对象检测器。190470检测器。早期的工作集中在开发强大的数据关联技术[11,39, 41, 50, 63, 65]和手工设计的外观[23, 49,52]和运动线索[15,38]。最近的工作主要是数据驱动的,学习强大的外观模型[35,37],学习回归目标[7]和使用图神经网络关联检测结果[10]。封闭集多目标跟踪的这一进展主要得益于发布新数据集、基准和评估指标的努力。然而,目前只在受控的封闭集领域中评估MOT,其中对象类别是先验已知的,并且存在于训练集中。0超越封闭世界跟踪。通过检测的跟踪方法已经推广到通用对象[17, 56, 58]和UVOS[17, 46, 47,87],使用以类别无关的方式训练的对象提议方法[28,62]。然而,直到最近,尚无适合开放世界领域的评估方法,这使得这些方法如何推广到任意对象尚不清楚。最近的并行工作[80]侧重于在以人为中心的Kinetics400数据集[34]中标记各种对象类别。该工作侧重于数据收集,并提议使用现有的封闭世界TrackmAP[90]指标进行评估。由于该指标的解释性差、缺乏敏感性和缺乏错误类型区分性,该指标最近受到了严厉批评[45],这对于评估开放世界中的跟踪尤其是问题。此外,默认情况下,该指标要求详尽地标记所有对象,这在实践中是不可行的。数据也仅限于以人为中心的活动。相比之下,我们研究了一个更加多样化的开放世界跟踪设置,包括来自多个不同领域的视频,这对于研究开放世界问题至关重要,可以减少偏见并提高泛化能力(例如,避免对象总是出现在帧的中心)。最后,我们分析了关于开放世界跟踪的先前工作,并确定了这些方法的构建模块,以对这些工作进行彻底评估,并设计了一个新的基准,该基准在开放世界和封闭世界条件下都表现出非常好的效果。0开放集识别、检测和分割。开放集识别方法[6, 31, 69,70]侧重于最小化模型在训练期间接触到的已知对象类别和可能(仅)出现在开放世界中的未知对象类别之间的混淆。最近,开放集条件下的目标检测得到了研究[20,51]。相比之下,开放世界识别方法,如[5,43]所定义,必须明确识别在训练期间未观察到的未知对象实例,并更新对象检测器以识别这些未知实例。[55]通过使用从视频中挖掘出的未知对象轨迹[56,57]的聚类来重新训练对象检测器,从而解决了在汽车场景中检测未知对象的问题。类似地,[29]通过对未知对象实例进行采样来学习检测未知对象。0并且从标记图像的空白区域中聚类物体提议,并在模型训练期间使用这些聚类作为伪标签。Joseph等人[33]提出了一种扩展Faster R-CNN[66]的方法,通过添加对比目标来区分已知/未知类别,该目标在特征空间中最大化已知和未知对象之间的边界。与这些先前的工作不同,我们不研究如何最小化已知或未知语义类别之间的混淆或处理增量学习。我们研究我们能够多好地识别和跟踪已知和未知类别的物体,而不需要对跟踪的物体进行语义解释。相反,我们主张任何物体跟踪是一个应该在识别之前解决的基本问题。我们认为我们的工作是将这些技术应用于智能代理观察的视频领域的基础。03. 开放式开放世界跟踪0当前的跟踪器仅限于特定的物体类别,例如人或汽车,在训练数据集中进行了标记(我们将其称为已知物体)。我们希望在未标记的未知物体上进一步评估跟踪器,这些物体在训练集中没有进行标记。开放世界的跟踪器必须在视频中分割和跟踪所有物体(包括已知和未知物体)。在这种设置下评估跟踪器是非常具有挑战性的。首先,在视频中密集标记每个物体的成本非常高昂。几乎没有真实世界的数据集标记所有物体,通常通过仅对一部分类别(例如KITTI[24],MOTChallenge [18])或实例(例如TAO[16])进行标记来限制标记成本。其次,定义一个通用但一致的物体概念是困难的[1]。我们通过依赖基于召回的评估来同时解决这两个挑战,这受到了早期关于物体提议评估的工作的启发[1,22],并且也被用于零样本物体检测[4]和开放世界LiDAR分割[84]。虽然精确定义一个物体是困难的,但人们对物体有一个普遍的概念,并且可以标记场景中的任意物体[26]。因此,我们可以将多个人类注释者一致认为是物体的物体实例作为正样本。这使我们能够测量跟踪器可以召回多少个真实实例。定义假阳性(FP)的概念是非常困难的,因为我们只能期望一部分物体被标记。如果我们将未标记的区域视为非物体(FP),我们可能会因为跟踪系统跟踪了仍然可以被视为有效物体的区域而对其进行惩罚。请参见图3,这是一个在TAO[16]数据集中没有标记的物体的示例,但是我们的基线跟踪器能够正确跟踪这些物体。0开放世界跟踪准确度(OWTA)。我们提出了OWTA(开放世界跟踪准确度)指标用于这个任务,它是最近提出的指标的一种推广。OWTAα =�DetReα · AssAα , DetReα =|TPα||TPα| + |FNα|.cαumbrellabicyclebearboatcuppersoncar_(automobile)catlaptop_computergorillacooler_(for_food)pillowguitarnapkincartonshawlsunglassesfish190480图3. 未知未知物体。我们的跟踪器能够正确跟踪TAO[16]词汇表之外的未标记物体的示例。0HOTA指标[45]用于封闭世界跟踪。OWTA由两个直观的术语组成,即关联准确度(AssA)和检测召回(DetRe)。这两个术语都是针对定位阈值α进行评估的,并且最终的OWTA指标是在定位阈值α上进行整合的:0召回项DetRe不会对假阳性进行惩罚。这种基于召回的评估受到了先前在开放世界中评估任务(如零样本物体检测或LiDAR实例分割)的工作的启发[4,84]。关联准确度AssA术语最近在[45]中引入。它衡量了预测轨迹与匹配的真实轨迹重叠的帧数。对于预测轨迹pt中与地面真实轨迹gt匹配的每个真阳性检测,AssA计算TP关联(pt中与gt重叠的检测),FP关联(pt中与gt不重叠的检测)和FN关联(gt中与pt不重叠的地面真实注释)。AssA通过TPA,FPA和FNA集合上的交并比进行评估,并在TP上进行平均:0AssAα = 10| TPα |0�0TPAα(c) + FPAα(c) + FNAα(c)。0采用这个关联术语的原因是它与类别无关,不需要密集标记的数据集。这是可能的,因为AssA中的FPA术语不受未匹配到地面真值的FP轨迹的影响。这种因子分解在其他指标(如Track mAP [90]和IDF1[68])中是不可能的。请注意,在测试时,我们要求方法将轨迹输出为不重叠的掩码,以便每个帧中的每个像素必须唯一地分配给一个轨迹或背景。因此,为了实现高召回率,方法必须正确地分组和跟踪像素随时间变化。理论上,无限预测轨迹的平凡解决方案是不可能的,因为任何轨迹的预测都意味着没有其他轨迹可以占用相同的像素。这也使我们的OWT任务与当前跟踪研究的趋势保持一致,即专注于以像素精确分割的方式跟踪对象。0图4.已知对象类别示例(左)和未知对象类别示例(右)。0这个任务可以理解为MOTS(多目标跟踪和分割[78])或VIS(视频实例分割[90])的开放世界版本。04. TAO-OW基准0为了促进进展,定义一个精确可靠的基准非常重要。因此,我们提出了一个名为Tracking Any Object in an OpenWorld(TAO-OW)的基准。0数据集。与大多数现有的MOT基准[64, 75,0与最近引入的TAO [16]数据集相比[78, 90,91],TAO涵盖了各种各样的类别。TAO包含近3000个视频(包括593个训练集,988个验证集和1419个测试集),共有100,000个标注帧和800个对象类别。重要的是,TAO的注释没有预定义的对象类别:标注者被要求标记视频中的任何移动物体。这导致了一个长尾类别分布(见图2),这是真实世界中可能出现的各种对象的代理。如果我们能够构建能够跟踪这个大型视频语料库中的每个对象的跟踪器,我们可以期望它们能够推广到各种无约束和开放世界的场景。默认情况下,TAO专注于封闭世界设置,其中所有类别都是通过训练时给出的示例来定义的。我们重新利用这些数据进行开放世界设置,通过在训练中保留某些类别,同时在这些类别上进行评估。我们还在测试集中评估了另外143个仅出现在测试集而不出现在验证集中的类别,我们将其称为“未知未知”。这样可以在未用于验证模型参数的类别的开放世界条件下进行评估。0已知和未知。在选择已知和未知集合的类别集时,有几个因素需要考虑:(i)应该有足够多且足够多样的数据覆盖已知类别,以便我们可以训练能够推广到更广泛类别的模型;(ii)应该有足够多的未知类别剩余,以便对这些类别的跟踪结果进行彻底分析;最后(iii),已知类别应包含在封闭世界跟踪中常用的类别。…(1) Proposal GenerationInput frames…(2) Association and(3) Long-term Tracking…(4) Overlap removal…190490图5.TAO-OW类别。我们TAO-OW基准中已知(左)和未知(右)类别的词云,词的大小与频率成比例。0世界MOT,因此可以直接在开放世界环境中评估针对封闭世界训练的跟踪器。因此,我们从COCO[42]数据集中定义了作为已知的类,包括人、动物、车辆、手持物品和家电在内的80个常见类别。TAO验证集包含COCO的80个类别中的52个,共有87,358个不同的目标轨迹 -我们将其标记为已知的目标轨迹集。TAO验证集还包含另外209个与COCO不重叠的类别,包含20,522个不同的目标轨迹。在这些不在COCO数据集中的未知目标类别中,最常见的是鱼、毛巾和枕头,分别有1274、1128和688个轨迹。这个未知集合包含许多有趣且值得追踪的类别;其中一些作者最喜欢的类别包括海象、冰淇淋、鼓、青蛙、礼品包装和双筒望远镜。图4展示了已知和未知对象的视频示例。图5展示了TAO-OW验证集中所有已知和未知对象的词云,其中词的大小与每个类别的注释轨迹数量成比例。为了确保评估不受与已知类别相似的类别的影响,我们确定了41个相关类别,并将它们标记为“干扰类”,就像封闭世界跟踪基准中所做的那样[18,24]。这些类别不用于评估。例如,出租车(car的特殊情况)和水瓶(bottle的特殊情况)等。我们在补充材料中提供详细信息。0其他考虑因素。TAO数据集没有密集标注,许多对象没有注释。这对于闭集追踪需要特殊处理,因为指标会惩罚追踪器正确预测未注释对象。然而,这不会影响OWT,OWT使用基于召回的OWTA指标(见第3节)。此外,TAO使用边界框标记对象,而OWT需要方法生成掩码结果。由于真实边界框是非模态的(仅覆盖对象的可见部分),我们可以在评估过程中通过将掩码转换为边界框来进行评估。0TAO-OW数据集划分。我们为TAO-OW数据集提供了训练、验证和测试划分,这些划分是从原始TAO数据集进行调整的。对于训练,我们只保留已知类别的注释,并删除所有其他对象。0图6.开放世界追踪基线(OWTB)受到检测跟踪流程的启发:我们(1)获取对象提议,(2)计算跨帧关联分数,用于(3)形成和管理轨迹,最后,(4)确保解决占据相同时空体积的轨迹之间的冲突。验证集包含TAO的所有对象,但根据是否与COCO类匹配进一步标记为已知或未知。测试集包含所有对象,其中在验证集中出现的类别分别标记为已知或未知,其余类别标记为未知未知。由于验证集中的未知类别可用于验证设计决策,为了在真正的“保留”场景中测试模型,我们要求测试集包含验证集中不存在的类别。这些是未知未知类别。只有通过这种分离,我们才能将我们的测试集视为真实开放世界的有效代理,超越训练和验证集中的所有类别。05. 设计开放世界追踪器0没有一个基准测试是完整的,没有经过深思熟虑和精心设计的基线。最相关的方法[17, 47,56]不适用于TAO-OW领域:[56]需要立体视频,[17]假设对象移动,而[47]假设所有对象都存在于每一帧中。因此,本文的一个重要贡献是分析这些方法背后的原则,以提炼出一个统一的开放世界追踪器框架。为了在这种具有挑战性的环境中设计一个强大的基线,我们首先研究了多目标跟踪中占主导地位的检测跟踪(TBD)方法的解剖学,该方法已经是多年来的主要MOT方法[18],并研究了如何将其适应OWT跟踪任务。我们观察到标准的TBD可以分解为四个阶段(图6):(1)首先,我们需要获取每个图像的对象提议。然后是(2)短期(跨帧)提议相似度估计,这是数据关联的直接线索;(3)基于估计的相似度,我们需要关联提议和管理轨迹,最后,(4)我们需要为每个像素确定一个唯一的轨迹到像素的分配。接下来,我们仔细分析每个阶段,使用表现最佳的决策作为后续阶段的输入,以减少指数级的设计空间。05.1. 提议生成(1)0按照检测跟踪的设计,我们首先需要获取图像级别的潜在对象存在的证据。我们借鉴了学习的对象提议机制的直觉[17,19, 56],例如区域提议网络102005007001000# proposals (known)0.00.20.40.60.81.0Proposal Recallscore (0.89)obj. (0.92)bg (0.79)bg+obj. (0.93)102005007001000# proposals (unknown)0.00.20.40.60.81.0score (0.59)obj. (0.67)bg (0.67)bg+obj. (0.7)020406080100% detected0.00.20.40.60.81.0Track Recallunknown: AUC=72.54known: AUC=93.13MethodInter. Known Unkn.Appearance-freeBox IoU86.470.773.272.6Mask IoU71.639.564.445.3GIoU86.470.573.070.9B. IoU + thresh81.074.7KF, Box IoU84.969.1MethodInter. Known Unkn.Regress.Regression88.265.974.770.3KF, Regression87.265.5Opt. FlowBox IoU87.067.680.176.8Mask IoU73.340.868.447.9GIoU80.375.9Opt. Fl. + Regr.88.265.981.475.3MethodInter. F Known Unkn.Re-IdentificationMaskRCNN euclidean74.363.575.373.3MaskRCNN cosine73.064.475.074.2PReMVOS euclidean *82.3* 77.1*PReMVOS cosine *82.7* 77.5*MixFlow-Box IoU +MaskRCNN cosine86.381.9190500总体 小尺寸 中等尺寸 大尺寸0已知/未知 95.4 / 75.5 91.4 / 66.1 98.4 / 85.9 99.7 / 98.20表1.召回率/大小分析。召回率针对不同大小的对象(每张图像1k个提议)。尽管模型在已知对象和大型未知对象上表现良好,但在较小的未知对象上表现较差。0[61, 62,66]的工作明确地训练了区分物体样式区域和背景的能力,因此可以推广到训练集中观察到的物体类别之外,正如[61,62]中已经展示的那样。我们基于MaskR-CNN[28]进行分析,并研究它在未知物体上的泛化能力。我们使用80个类别的标签训练我们的模型,并首先分别评估其在TAO-OW的已知和未知类别上的性能。我们通过使用低分数阈值并考虑模型输出的前1000个提案来将该检测器作为提案生成器进行评估。0提案召回率。表1显示了在禁用非最大抑制并评估所有1000个提案时,不同大小的已知和未知物体的召回率。物体大小相对于图像大小:大(比率≥0.3),中等(0.03≤比率<0.3),小(比率<0.03)。该模型对于大的已知和未知物体表现良好,但对于小的未知物体表现明显较差。这表明当未知物体较大且明显时,提案能很好地推广到未知物体,但当未知物体较小时,无法很好地找到这些物体。由于使用所有1000个提案作为跟踪线索是不可行的,我们接下来研究如何区分背景杂波中的未知物体。在图7(左)中,我们展示了几种不同评分策略下的检测召回率与物体提案数量的关系,并显示了曲线下面积。图7表明,最自信的已知类别预测分数(score)不是一个非常可靠的排序线索(已知物体的AUC为0.89,未知物体的AUC为0.59)。由RPN估计的物体得分(obj.)提供了一个更可靠的线索(已知物体的AUC为0.92,未知物体的AUC为0.67)。背景得分(bg)是一个可靠的未知物体线索(AUC为0.67),但对于已知物体不可靠(AUC为0.79)。通过将背景和物体得分(obj.+bg)使用算术平均值组合起来,我们得到了最可靠的线索(已知物体的AUC为0.93,未知物体的AUC为0.7)。我们在后续实验中使用这个评分函数。总之,像MaskR-CNN这样的两阶段物体检测器对于未知类别具有很好的泛化能力,这表明它们内在地具有一个“任意物体”检测器(RPN)和一个物体与非物体的分类器。0跟踪召回率。除了提案召回率,我们还关注轨迹的召回情况。图7(右)显示了不同最小相对轨迹长度下被召回的轨迹的百分比。几乎每个未知物体(97%)在其轨迹中至少被召回一次,超过80%的物体0图7.召回分析。不同评分方法在IoU阈值为0.5时,已知物体(左)和未知物体(中)的提案生成召回率与提案数量的关系。右:在不同正确召回物体百分比下的跟踪召回率:例如,50%检测到的意味着至少一半的轨迹必须被正确定位。0表2.关联相似性消融实验。不同方法在1FPS提案关联分类的Top-1准确率 -详见文本。最佳表现的方法标记为:1st,2nd,3rd,4th,5th。Inter.列指示是否使用了“中间帧”。*非开放世界的理想情况(在未知类别上训练)0超过一半的未知物体在每一帧中都能被召回。05.2. 关联相似性(2)0跟踪需要估计提案在帧之间的相似性以维持物体的身份。由于基于相似性的短期关联对于准确的长期跟踪至关重要,我们在一个受控环境中评估它。我们将短期关联问题定义为相对分类问题:给定一个与第t帧中特定查询物体对应的提案,方法能够在第t+k帧的N个候选提案中正确识别该物体的能力如何?我们将k设置为相当于1秒的间隔,并系统地评估社区中提出的几种不同方法[7, 8, 17, 47,56]。我们在表2中概述了我们的分析。请注意,我们所有的方法都限制在已知类别的训练上,并且在训练过程中没有见过未知类别。0无外观信息。我们从简单的度量开始,忽略图像内容,仅依赖于“外观无关”块中的交并比(IoU)。这包括“框IoU”、“掩码IoU”和“广义IoU”(GIoU)[67]。我们评估了一种策略(“框IoU w/ assoc.thresh”),即仅通过与前一帧的框IoU超过阈值(0.75)的提议进行传播,跳过质量较低的匹配帧。我们还使用卡尔曼滤波器(KF)来预测第t+k帧中的边界框[8, 16,17](“KF, BoxIoU”),遵循[8]中的参数,然后计算IoU。0回归。为了将外观信息纳入运动估计中,我们重新利用目标检测器的回归器[7]来回归第t+k帧中的边界框(“回归”)。190510我们还考虑将此与KF结合使用,通过使用KF预测作为回归器的输入(“KF, Regression”)。0基于光流。接下来,我们使用光流来估计提议的运动,遵循[44,47]。我们使用光流将一个帧中的提议变形到另一个帧,并使用具有不同'IoU'标准的变形提议。我们还将这个光流变形作为上述“回归”方法的输入。0重新识别。我们进一步研究基于外观的重新识别(ReID)用于相似性估计,确保ReID仅在已知类别上进行训练。我们重新利用检测器的分类层嵌入(1024D)进行ReID(“MaskRCNN”)。我们还评估了一种“非开放世界的oracle”ReID,它不限于在已知对象上进行训练[46](“PReMVOS”)。0中间帧。由于TAO以1FPS进行注释,我们在两种设置下进行评估:直接比较(直接比较相隔1秒的帧)和连续比较,其中相似性在中间帧中传播(即,我们在一个帧中估计相似性,选择最相似的提议,然后在所有中间帧上重复此过程;称为“Inter. frames”)。0讨论。我们发现,“框IoU”对于已知(86.4)和未知(70.7)对象都表现良好,与GIoU相匹配并优于“掩码IoU”,后者对遮挡和关节运动敏感。使用在已知对象上训练的回归器(“回归”)改善了已知对象的关联(88.2),但对未知对象的关联(65.9)产生了负面影响。使用卡尔曼滤波器并不能提高框IoU的准确性,在与回归器一起使用时与“回归”相匹配。使用中间帧通常会提高已知准确性,但会损害未知准确性。这是因为检测器对未知类别的召回率较低,使得在帧间传播提议时容易出现漂移。我们添加了一个跳过包含质量较低匹配的帧并将未知准确性提高到74.7的“B. IoU +thresh”条目。光流在几乎所有情况下都改善了结果,基于外观的ReID与MaskR-CNN特征稍微改善了已知和未知的结果。'oracle'PReMVOS ReID[46]改善了已知,但仅在流方法上略微改善了未知。最有希望的方法使用光流和框IoU。我们假设这种方法可以通过使用MaskR-CNN嵌入来改进,并评估这两种方法相似性的简单平均值(“Mix”)。这在未知方面的表现大大优于其他方法。不使用中间帧效果良好(速度约为30倍),因此我们在后续分析中忽略中间帧。05.3. 长期跟踪(3)0在获取物体提议并确定计算提议之间的相似性的方法之后,我们现在必须将所有提议合并到一起0长期跟踪。我们比较了(i)简单的匈牙利匹配,(ii)带有保持活跃机制的匈牙利匹配,通过遮挡或缺失检测保持轨迹活跃[17],以及(iii)UnOVOST[47],它首先使用匈牙利匹配构建轨迹片段,然后在第二个离线步骤中合并这些轨迹片段。我们观察到,虽然保持活跃策略(未知情况下的39.7OWTA)相对于简单的匈牙利匹配(未知情况下的39.8OWTA)增加了关联召回率,但是它以关联精度的损失为代价。离线轨迹片段合并优于两种替代策略(未知情况下的40.2 OWTA)。我们在补充材料中提供了详细的结果和分析。05.4. 重叠去除(4)0在开放世界跟踪场景中,我们需要依赖物体提议进行跟踪。因此,我们可以假设观察到的证据(即物体提议的重叠)有几种可能的解释。然而,OWTB跟踪任务要求将视频中的像素唯一分配给对象或背景。第一种策略(“非重叠然后跟踪”)在提议级别解决重叠问题,然后进行跟踪。第二种方法(“跟踪然后非重叠”)遵循[56],首先在一组(可能)重叠的提议上进行跟踪。然后,使用轨迹中每个提议的平均分数对整个轨迹进行评分,并在视频体积内执行轨迹抑制。直观地说,第二种方法应该表现更好,因为它可以考虑到时间上下文,然而,关联问题变得更加复杂。我们观察到两种方法之间的差异很小(我们在补充材料中提供了详细的结果和分析)。更简单的“非重叠然后跟踪”方法产生稍好的结果。这与[56]中的研究结果不同,其中(i)该策略受益于深度信息,(ii)依赖于不可行的二次伪布尔优化[41]。06. 评估0在分析了几种开放世界跟踪的设计选择后,我们选择了一种使用光流和re-id相似度评分的跟踪器,并将它们合并成最终的轨迹。我们将我们的最终跟踪器命名为OWTB(开放世界跟踪基线)。表3报告了我们的OWTB跟踪器在TAO-OW验证集上的最终结果。首先,我们将OWTB与使用与OWTB相同的输入提议的SORT [8]和Tracktor[7]进行比较(参见第5.1节)。可以看出,OWTB在检测召回率(已知:+9.6,未知:+3.9)、关联准确率(已知:+13.1,未知:+3.6)和OWTA(已知:+13.2,未知:+4.9)方面表现明显优于SORT。这表明(i)更好的跟踪机制导致更多未知对象的检测。190520已知 未知 未知-未知0方法 OWTA D.Re A.Acc A.Re A.Pr OWTA D.Re A.Acc A.Re A.Pr OWTA D.Re A.Acc A.Re A.Pr0验证0SORT [8] 46.6 67.4 33.7 39.7 56.4 33.9 43.4 30.3 34.2 57.5 – – – – –0Tracktor [7] 57.9 80.2 42.6 43.6 94.4 22.8 54.0 10.0 10.4 96.6 – – – – –0OWTB(我们的)60.2 77.2 47.4 59.1 57.9 39.2 46.9 34.5 42.6 48.9 – – – – –0OW0AOA * † [21] 52.8 72.5 39.1 48.8 53.6 49.7 74.7 33.4 41.1 51.1 – – – – –0SORT-TAO * † [16] 54.2 74.0 40.6 45.0 67.3 39.9 68.8 24.1 28.9 51.6 – – – – –0测试0SORT [8] 46.6 67.1 33.7 39.5 56.0 32.0 42.2 26.0 30.3 53.7 34.3 44.7 28.2 32.5 56.50Tracktor [7] 57.9 79.7 42.9 43.9 94.5 23.8 53.8 11.0 11.4 96.2 26.3 57.9 12.4 12.8 96.20OWTB(我们的)60.3 76.8 47.8 59.4 58.1 38.5 45.9 33.8 42.4 49.0 41.5 48.9 36.5 45.4 52.30表3.我们在TAO-OW验证集和测试集上进行OWTB的结果。我们使用我们提出的OWTA指标报告结果,并且还通过检测召回率(D.Re)、关联准确率(A.Acc)、关联召回率(A.Re)和关联精确率(A.Pr)来比较方法。在验证集上,我们将我们的最终开放世界跟踪基线(OWTB)与之前的SOTA跟踪器在TAO-OW验证集上进行比较。对于测试集,未知类别与验证集中的类别相同,而未知-未知类别是测试集中仅出现的其他未知类别。*:非开放世界(在未知类别上训练),†:包含重叠结果。0在这些具有挑战性的场景中,我们的方法能够更好地关联跟踪对象,并且在这些场景中产生更长的轨迹。与SORT相比,关联精度略有下降(对于未知对象),这并不令人意外,因为我们正在跟踪更多的对象。Tracktor[7]几乎不会错误地合并对象(高A.Pr),但也很少正确地合并对象(低A.Re),导致总体上比OWTB的A.Acc.得分更低,特别是对于未知对象。然而,Tracktor在D.Re上比OWTB有所提升,因为它能够在每个帧中生成比OWTB给出的更多提案。作为一个理想情况,我们将其与两种方法(AOA[21]和SORT-TAO[16])进行比较,这两种方法在封闭世界TAO上是最先进的。这些比较仅供参考,因为这些方法是在未知类别上进行训练的,因此它们不是开放世界追踪器。它们也不会产生非重叠的结果。为了分析非重叠约束的影响,我们还在不强制非重叠的情况下评估了OWTB。这导致已知和未知类别的得分略有提高,检测召回显著改善,而关联召回和精度略有下降。OWTB在已知类别方面的表现要比之前的SOTA封闭世界追踪器好得多,这归功于其强大的设计。然而,对于未知对象,它落后于两种理想
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功