大规模多类别多对象跟踪及其评估方法TETA:一个新的研究探索

61 浏览量更新于2023-11-30 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文追踪野外的一切李思远，丁恒辉，丁伟华. Huang，Fisher Yu苏黎世联邦理工学院计算机视觉实验室http://vis.xyz/pub/tet抽象的。当前的多类别多对象跟踪（MOT）度量使用类别标签来对跟踪结果进行分组以进行每类评估。类似地，MOT方法通常仅将对象与相同的类预测相关联。MOT中的这两种流行策略隐含着分类性能接近完美的假设。然而，在最近的大规模MOT数据集中，情况远非如此，这些数据集包含大量具有许多罕见或语义相似类别的类。因此，所得到的不准确分类导致跟踪器的次优跟踪和不充分的基准测试。我们通过将分类与跟踪分离来解决这些问题。我们引入了一个新的指标，跟踪每件事的准确性（TETA），打破跟踪测量分为三个子因素：本地化，关联，和分类，允许跟踪性能的综合基准测试TETA还处理了大规模跟踪数据集中的不完整注释问题。我们进一步介绍了一个跟踪每一件事的跟踪器（TETER），它使用类样本匹配（CEM）执行关联。我们的实验表明，TETA更全面地评估跟踪器，与最先进的技术相比，TETER在具有挑战性的大规模数据集BDD 100K和TAO上取得了显着的改进关键词：大规模长尾MOT，对比学习，MOT度量1介绍多目标跟踪（MOT）的目的是估计目标的运动轨迹在视频序列中虽然常见的MOT基准[16，32，11]只考虑跟踪来自非常少的预定义类别的对象，例如，行人和汽车，在现实世界中感兴趣的类别的数量是压倒性的。虽然最近MOT扩展到大量类别[50，8]似乎微不足道，但它提出了关于问题本身的定义和表述的深刻问题，这些问题尚未得到社区的解决在图1中，我们显示了来自同一视频序列上的两个不同跟踪器的跟踪结果。跟踪器A完美地跟踪对象，但是在细粒度级别上分类稍微不正确。跟踪器B对对象进行完美分类，但根本不跟踪对象。哪一个是更好的跟踪器？mMOTA [3]指标为跟踪器A提供0分，为跟踪器A提供33分arXiv：2207.12978v1 [cs.CV] 2022年7+v：mala2255获取更多论文公交ID-1公交ID-1公交ID-1ID-1型货车ID-2型货车ID-3型货车2李思远，丁恒辉，丁伟华.Huang，Fisher Yu哪个是更好的跟踪器？Tracker A Tracker B图1：两个不同跟踪器（A和B）的跟踪结果。相同的颜色意味着相同的轨迹。跟踪器A在MOTA [3]，IDF1 [42]和HOTA [30]指标，而跟踪者B对于前两个指标获得33，对于HOTA指标获得44B.上面的例子提出了一个有趣的问题：如果类预测是错误的，跟踪仍然有意义吗？在许多情况下，错误分类甚至未知物体的轨迹仍然很有价值。例如，自动驾驶车辆可能偶尔会跟踪面包车作为公共汽车，但估计的轨迹同样可以用于路径规划和避免碰撞当前的MOT模型和度量[2，51，3，42，43，30]主要是针对单类别多目标跟踪而设计的。当将MOT扩展到大规模的多类别场景时，他们简单地采用相同的单类别度量和模型，独立地对待每个类。模型首先检测和分类每个对象，然后仅在同一类的对象之间进行关联类似地，指标使用类别标签来对跟踪结果进行分组并单独评估每个类别。这隐含地假设分类足够好，因为它是进行关联和评估跟踪性能的先决条件上述近乎完美的分类准确性主要适用于仅由少数常见类别组成的基准，例如人类和汽车。然而，当MOT扩展到大量具有许多罕见或语义相似类的类别时，它就不成立了。在不平衡的大规模数据集（如LVIS）上，分类本身成为一项非常具有挑战性的任务[17]。而且，由于自然存在的类层次结构，很难区分类似的细粒度类，例如，图1中的公共汽车和货车。此外，许多对象不属于现实世界设置中的任何预定义类别。因此，在不考虑分类中的不准确性的情况下独立地对待每个类会导致不适当的基准测试和不期望的跟踪行为。为了将跟踪扩展到更一般的场景，我们建议在评估和模型设计中，多类别MOT的分类应与跟踪分离为了实现这一目标，我们设计了一个新的指标，跟踪每件事的准确性（TETA），和一个新的模型，跟踪每件事的跟踪器（TETER）。所提出的TETA度量从跟踪中分离分类性能。我们没有使用预测的类标签来对每个类的跟踪结果进行分组我们将目标类的每个真实边界框作为每个聚类的锚点，并将每个聚类内的预测结果分组，以评估定位和关联性能。我们的本地集群使我们能够评估轨道，即使类预测是错误的。此外，局部聚类评价使得+v：mala2255获取更多论文追踪野外万物3图2：CEM可以使用大规模数据集进行训练，并直接用于跟踪TETA能够处理不完整的注释，这在具有大量类的数据集中很常见，例如TAO[8]。我们的TETER遵循关联每件事（AET）策略。我们将相邻帧中的每个对象关联起来，而不是将同一类中的对象关联起来。AET策略将关联从大规模长尾设置下具有挑战性的分类/检测问题中然而，尽管在关联过程中完全忽略了类信息，但我们提出了一种利用它的新方法，该方法对分类错误具有鲁棒性我们引入类样本匹配（CEM），其中学习的类样本将有价值的类信息在软的方式。通过这种方式，我们有效地利用了对大规模检测数据集的语义监督，同时不依赖于通常不正确的分类输出。CEM可以无缝地集成到现有的MOT方法中，并持续提高性能。此外，我们的跟踪策略使我们能够使用丰富的时间信息来校正每帧类预测我们在新引入的大规模多类别跟踪数据集TAO [8]和BDD 100K [50]上分析了我们的方法我们的综合分析表明，我们的指标评估跟踪器更全面，实现更好的跨数据集的一致性，尽管不完整的注释。此外，我们的跟踪器在TAO和BDD100K上实现了最先进的性能，无论是使用以前建立的指标还是建议的TETA。2相关工作多目标跟踪（MOT）的目的是跟踪视频序列中的多个目标。早期的方法遵循跟踪优先范式，其在跟踪期间不依赖于分类[37，38，1]。有些利用激光雷达数据进行无模型检测[19，35，12]或点云分割[46，45]。其他人[37，34，36]首先分割场景[13]，这使得能够跟踪通用对象。最近，MOT最常见的范例是通过检测进行跟踪，专注于学习更好的外观特征以加强关联[22，33，49，29，31，26]，对每个跟踪对象的位移进行建模[2，51，40]，或使用基于图形的方法[44，5]。以前的MOT方法主要关注具有几个常见类别的基准，而最近的作品[27，10]研究了开放设置中的MOT，其目标是跟踪和分割任何对象，而不管它们的类别。这些方法使用类别不可知的训练检测器或RPN网络来生成对象建议，而分类在许多应用中是必不可少+v：mala2255获取更多论文4李思远，丁恒辉，丁伟，王伟.Huang，Fisher Yu例如，视频分析具有大规模长尾数据集的闭集设置严重不足。我们在这样一个场景中研究MOT，识别问题并在模型设计和评估指标方面提出解决方案MOT算法通常同时评估检测和关联性能。多目标跟踪精度（MOTA）[3]首先被引入来统一这两个度量。MOTA在检测级别上执行匹配，并通过计算身份切换的数量来测量关联性能IDF 1 [42]和Track-mAP在轨迹级别执行匹配。最近，高阶跟踪精度（HOTA）[30]被提出来通过为每个组件计算单独的分数来公平地平衡这两个组件Liu等人[27]提出了一种基于回忆的评估方法，将MOT扩展到开放世界的环境中。上述指标不能独立评估分类性能，不适合大规模多类别MOT。TETA通过进一步将检测分解为定位和分类来扩展HOTA，使TETA能够在分类失败的情况下评估关联此外，当前的指标在评估TETA可以处理的非穷举注释数据集（如TAO）上的3跟踪每一件事指标在这里，我们介绍跟踪每件事的准确性（TETA）指标。我们首先讨论如何在当前的度量和3.1节中的不完整的一个符号的问题处理分类。然后，我们在第3.2节中制定TETA以解决现有问题。3.1大规模MOT评估如何处理分类。如何在MOT中评估分类，一个重要但未被充分研究的问题。MOT指标，如MOTA [3]、IDF 1 [42]和HOTA [30]，是为单个类别MOT设计的。当扩展到多个类时，它们要求跟踪器为每个对象预测一个类标签，然后根据标签对跟踪结果进行分组，并分别评估每个类。然而，在长尾场景中，错误的分类经常发生，这导致基于类标签的分组失败，并且即使跟踪器完美地定位和跟踪目标，跟踪性能也不会得到评估，如图所示1.一、一个简单的解决方案是忽略分类并评估每个对象类-不可知的。然而，大型词汇数据集通常遵循长尾分布，其中很少有类支配数据集。忽略类信息会导致这些类主导评估，从而导致跟踪器在跟踪稀有类方面的性能可以忽略不类感知的HOTA建议使用分类置信度和HOTA之间的几何平均值，这要求跟踪器输出类概率分布，而大多数只输出最终类别。此外，它仍然不能独立地访问分类。+v：mala2255获取更多论文human1.00ile）1.00胡hbuamskaent1.00les p）0o.t0l i0ght0.00spbtoaororosnettknee0etr_.r00s0.i00。g01n20.03street_stslriatgarmnefe0pict.010_。s120iigg0hntg00u..g0h12n1t00..00320我是你的朋友。..4063458pole0.00sbpufspbsurtutomaoamirrslnelbfbtkonbeeereoetere_tnra0lb0s0l0r..哎。0。dg。00l00nln0.0_10.哦。.0013028p0.00pbhwfhfpbufsssulcbfciairaotilyofsaelamaieolalarenosghmwltlalalevcoltl_0tb0b000ko0debkebkebwb。R.R..eo。O.s0t0a0e0u0ae0_tcn.20岁0lyl.lo00bl00s0l.0lal00_a_0ayia.00r0g。H.h0f0lnle0a..010升。t.m010. 0。1e02tpbpb00aoa.bptbspssn0itaoagtn0rensisnnetrtnrerte0e0espbsi0psbetrn。._ctr0oar0.ao00rgrs00osn0sn.e.e0i01。0河gttnne0pbe0pbse12n0eet1tao1aobr_r_r0r0sn0snoess0ttt.n.不，不。fsfbscuabfcbutoamaronarwlenlwf0slsbolbe0bko.rbo0o0t.oeo0_ona1ytlns0yl0b0r_ai0d_g.a.h0.早上好。0l0a.000t0t03. 0。ch010oa00wt0b.0oy0_hat0.01banpfpnhfcnegr0.00hh1e0l lear0. LTM。street_sign0.00ltifbicaoioealiagoezonbioimssezccntt00tkerabkrbi0b.0etpfpbplssdc.el000aoi0.ah0.uthlf.taoaali00.0..我不知道。0rll00imsi0e0_ec_g_nt0ar（0t0ekblmprte.._dem0000ituor（n_0too0.0。.00f.我不知bccraeasngcnpaerkg_enle0ea我的意思是我的意思是....le0oa0_n_thy3hy0r0r0_d_a_a..我是说我是说e.th00.pu080.h0m0o0anne0.00）00。0。011Btjshbstajtjshsestastsjbahstbjbhasdhsaopeaearararararararhnhnaohahahahahahioiconausrnahahahahahahahioiconausrnrnriokickickrkrknosocuwoukrseturknedftrknedftrdkftrknedftrdkftrdkfkfkfkfkfk_t00ue_ft_0knetpkuly_0pldbe_0_00dt.pb._y0ba0l.a0tototoodbao0lta.0。.de。e0a0b_o。oa0aa0.0oca。0cp。.pgeap011g20re0br0c0.阿，巴，中，g1pg0k1_gr0_00rk0a2kg_0_0b（_0（（b_0..0（cg0（cb0（.0。ba.梭0c00l。0ll0.JSA.010gooa0ogesjl110l003h1eo。go0tg0ht10r0150ihrtht0sr0i..我的天啊。.n.ntni00i0y1n0ngyg1.20克。0g0）0h。h）h01）。00u。a. 0。.0mt030010a. 0.01snptetorwss.汽车_ce（aartu__（taoumtnobfialoenb）00i l. e.00）000htpdcgbcmhbdtp1ueeaaioraornamlaeileilemsnseoistldplfpaebcesbesccchnh_uar_roauaoh0ohlsxsafd0n。n.kae_f00re0.et0e（t（nh0sh010a0ar0.0。你好。0u0.t.t0.0。w0m_0m.000h00s0a0aosnnmt0a0en..00）dRTSCNBMPPNSRCRECTAOORRLFAOFBNRSIESSWERCRNNITRTITITINVLEEGSGTEITOSGTEIITS。ebesrenro_0_trt.00irtorsxga0rs0ao0a.._ai_in010.nn0ggt.（t0（r0od.1cdo_3nandd010sro0r0t00e_m0.0ht0.000p11o51010。（我的意思是，0q0uipmbcroeuahoncsulkthem）e_rctc_wtfcgnba0olr（aoeaunfa。我不知道怎么回事。phes_0a.eru_s0fr_0gotc_pt0j0ae（aouof.不，不，不，不。0）0r1m00_。0。010f0..ooo050no0idtoo）0r 0. 0。010sehriiisret0ytsjtjt。你好，我也是。e10ro0usnoar1hhts0u0ttnr_e_。so。0cp0c0reu.是啊，是啊。.0吨衬衫0.0 0sbshhaiorncsjasjetuhhdp0rrrpliibsrs。我是一个很好的朋cjmbtpcmmtjehjtsjsbaoeoeeeaoaaabbb我的天啊，我的天啊，我的天啊。au0dttmcr_n.UA.0nut0.0a0m_txt0s0iyxt00ci.tbo。.papg1ic3bo0c0ri）k.ml）oulm0le00ee0oc.0_o。0。_0okt0（0b（e.a3b0a05iruil.ppeerr00. 0。000jststjsaerhhhwoaioreurnortaa0t0ne_t_e...0_p0p00rrpp。这是一个8a80a0a0n0nn。.tt0sts4s2s00.. 0。010hatscscftsnblcbgbgtcfcgsabgtcatprbarctchbbsthclhareahahahareahaharoeuawncomuhabahahah我是一个很好的朋友，我spsmpntsattoeoraregsweir0tleemsbe。tst0rro_ot00xsasm.i_in0gg（ed0ant0t0e_...r0h00o10b. 0mra0isekfc0ea.是的。000. 00这是一个非常简单的过程，它可以让您的数据库变得更简单，也可以让您的数据库变得更安这是一个很好的例子。20秒后的00。n0.0t00s000.0bt rasskhe_tc0a. n0000ige_lwd_hweieeple0r. 0。000 windshield_wiper0.00他是我的朋友。L. _0（02鞋型轮wheel0.01我们的房子很漂亮。0ld0_擦拭0swbu0.A0FE.fg0a00r. 0。0点当他他他他他他他他100..0010追踪野外的一切5图3：左：TAO地面实况样本。TAO部分注释。右：根据TAO度量排名的最佳跟踪器AOA [14]的核心响应预测。AOA生成了许多低置信度的边界框，这使得它很难在实践中使用不完整的注释。MOT指标，如MOTA [3]，IDF 1 [42]和HOTA [30]，是为每个对象都有详尽注释的数据集而设计的然而，当构造具有许多类别的大规模数据集时，注释每个对象是极其昂贵的TAO数据集包含800多个类别，但其中大多数都没有详尽的注释（见图3）。不完整的注释带来了新的挑战：我们如何识别和惩罚假阳性（FP）预测？MOTA、IDF1和HOTA指标将每个不匹配的预测视为FP，但这会错误地惩罚没有相应注释的正确预测。另一方面，TAO度量[8]采用与LVIS [17]数据集相同的联合评估策略，并且如果没有关于其存在或不存在的地面实况信息，则不会对类别进行这种策略无意中奖励了大量的误报。在图3中，我们可视化了TAO上最好的跟踪器的预测。由于TAO不惩罚大多数误报，因此跟踪器被激励生成许多低置信度的跟踪，以增加来自罕见类别的对象被跟踪的机会，从而使其结果难以在实践中使用此外，这使得TAO成为一个游戏可用的指标。在5.1节中，我们展示了一个简单的复制和粘贴技巧，可以大大提高TAO指标在LVIS mAP度量中也观察到类似的问题[7]。3.2跟踪每一件事的准确性（TETA）TETA建立在HOTA [30]指标的基础上，同时对其进行了扩展，以更好地处理多个类别和不完整的注释。TETA由三个部分组成：本地化分数，关联分数和分类分数，这使我们能够正确评估每个跟踪器的不同方面地方集群评价。我们设计了局部聚类来处理不完整的注释，并从大规模的跟踪评估中解脱分类使用不完整注释进行评估的主要挑战是确定误报。我们提出了局部聚类评估，以在3.1中讨论的错误惩罚或非惩罚现象之间取得平衡。我们已经观察到，即使我们没有详尽的注释，我们仍然可以以高置信度识别特定类型的误报与以前的指标不同，我们只考虑局部集群内的预测我们将每个真实边界框视为集群的锚点，并将每个预测分配给IoU余量r内最接近的锚点。里面的预测+v：mala2255获取更多论文∈6李思远，丁恒辉，丁伟华，王伟。Huang，Fisher Yu1.00.90.80.70.60.50.40.30.20.10.00.10.20.30.40.50.60.70.80.9 1.0IOU图4：左：真实数据集中的对象间重叠。我们计算了在四个不同的数据集中具有不同级别的IoU重叠的地面实况边界框的累积概率，其中具有详尽的注释及其平均值。极端的对象间重叠在真实数据中是非常罕见的。右：地方群组评价。TPL，FPL和GT分别是真阳性定位、假阳性定位和地面实况。我们根据IoU相似性为每个地面实况边界框创建一个集群。对于评估，我们只考虑每个集群内的预测不属于任何聚类的预测将被忽略未被选择为匹配的真阳性的聚类被认为是假阳性。图4示出了流行的对象检测和跟踪数据集中的对象间重叠，这表明极端的对象间重叠在现实世界中是罕见的。如果我们将r设置为0.7或更高，即使在像MOT20这样高度拥挤的数据集中，为了避免错误的惩罚，我们忽略了在评估过程中没有分配给任何集群的预测这一过程如图所示四、可以根据不同的场景来设置集群的裕度rr越大，选择误报的度量越保守这也意味着更少的错误惩罚。如果数据集非常拥挤并且缺乏注释，我们可以选择更高的r来避免错误惩罚。局部聚类设计还允许我们解开分类。对于特定类别的评估，我们评估分配给具有该类别的真实边界框的聚类的预测。因为每个类的结果分组是使用位置而不是分类来完成的。因此，在每个局部聚类中，即使类预测是错误的，我们也能够评估跟踪性能本地化评分。定位分数测量跟踪器的定位性能。真阳性候选bTPL是预测框（pBox），其具有高于具有地面实况框（gBox）的定位阈值α的IoU。我们使用匈牙利算法[21]来选择优化定位和关联得分的最终匹配TPL所选的指定表示最佳定位轨迹。假阴性定位（FNL）是一个gBox，它不匹配任何其他pBox。基于每个聚类定义假阳性定位（FPL如果一个pBox在一个集群中，但没有匹配到任何地面真相，这是一个假阳性。使用Jaccard指数计算本地化分数LocA=|TPL|.（一）|TPL|+的|FPL|+的|民解|关联得分。我们的关联评分遵循HOTA的定义，但重新定义了真阳性关联（TPA），假阴性关联（FNA），BDD100kCocoMOT17MOT20平均FPLGTTPLFPLFPL忽略本地群集本地群集CDFGTTPL+v：mala2255获取更多论文∈追踪野外的一切7以及基于每个b. b的关联得分为AssocA（b）=|TPA（b）|.（二更）|TPA（b）|+的|FPA（b）|+的|FNA（b）|最终关联得分是所有TPL的平均值，1ΣAssocA=AssocA（b）。（三）|TPL|b∈TPL分类评分。分类得分反映了每个跟踪器中分类器的纯性能。与所有其他跟踪指标不同，其中分类性能与跟踪性能纠缠在一起，我们的指标使其成为一个独立的分数。我们只考虑匹配良好的TPL，其中α至少为0.5。为每个类别定义分类分数。某些类别c的真阳性分类（TPC）定义为：TPC（c）={b|b∈TPL<$pc（b）=gc（b）=c}，（4）其中pc（b）是b的类ID，gc（b）是与b匹配的基础真值的类ID。该集合包括具有与对应的基础事实相同的预测类的所有TPL。C类的假阴性分类定义为：FNC（c）={b|b∈TPL<$pc（b）c<$gc（b）=c}，（5）其包括具有不正确的类预测的所有TPL，所述类预测具有基本事实类c。C类的假阳性分类定义为：FPC（c）={b|b∈TPL<$pc（b）=c<$gc（b）<$=c}（6）其包括具有类别c的所有TPL，但是与不正确的基本事实类别相匹配如果数据集被完全注释，则bP，其中包括TPL和聚类外的预测。完整的注释表明，远离gBox的预测错误地将背景或其他类别分类为c。最后的分类分数是ClsA=|TPC|.（七）|TPC|+的|FPC|+的|FNC|综合得分。HOTA使用几何平均值来平衡检测和关联。然而，如果任何项为零，则几何平均值变为零如果一个跟踪器的分类性能接近于零，例如，由于长尾类分布，如果计算为几何平均值，则它将完全支配最终跟踪度量。因此，我们使用算术平均值来计算最终得分：TETA =LocA + AssocA +ClsA3.（八）此外，由于不同的应用程序侧重于不同的方面，我们鼓励用户根据需要查看每个子因素，而不是专注于单个分数。+v：mala2255获取更多论文8李思远，丁恒辉，丁伟华，王伟。Huang，Fisher Yu图5：TET er的缔合方案。对于每一对帧，我们首先计算并匹配每个本地化对象的类样本，以确定潜在的匹配候选者。然后，我们执行实例关联以确定最终的匹配。最后，我们使用丰富的时间信息来校正每帧中的分类错误4Tracking-Every-ThingTracker我们在这里介绍我们的跟踪每一件事跟踪器（TETER）。TETER的目标是发现每个前景对象，将它们关联起来，并在时间上对其进行分类。完整的管道如图所示五、4.1类无关本地化（CAL）要跟踪每件事，我们首先需要定位它们。然而，对象检测器在大规模的长尾数据集上挣扎，特别是对于罕见的类别。有趣的是，当在普通对象检测器中解耦定位和分类时，我们发现检测器仍然可以很好地定位稀有甚至新颖的对象。图6示出了在考虑和不考虑TAO验证集上的分类的情况下对象检测器的性能的比较。当我们在评估过程中不考虑类预测时，检测器的性能在稀有类、常见类和频繁类中是稳定的这强烈表明，检测性能的瓶颈在于分类器。考虑到这一点，我们使用类置信度替换了常用的类内非最大抑制（NMS），并使用与类无关的对应项来更好地定位野外的每个4.2联系一切事物关联通常通过考虑单个或多个线索的组合来完成，位置、外观和等级。在大规模长尾设置下学习运动先验此外，现实世界中也有许多物体不是任何预定义的类别。相比之下，不同类别的对象通常具有非常不同的外观。因此，我们采用外观相似性作为我们的主要线索。我们提出了一种替代方法，利用类信息作为特征线索在关联。我们不信任对象检测器的类预测并将其用作硬先验，而是直接通过匹配组1狮子猫匹配组2牛狮布法罗实例关联牛布法罗t +1布法罗不布法罗t-1轨迹片段时间校正牛狮子猫对比类编码t +1对比类编码狮子狗布法罗不定位器类示例匹配匹配不匹配狗跟踪结果+v：mala2255获取更多论文q+∈Q+·C∈追踪野外的一切91.00.80.60.40.20.0罕见的普通频繁所有图像批量建议示例编码器积极频率发生器类别对比负图6：更快的R-CNN图7：CEM的培训管道对比不同类别的样本这使我们能够在类别级别计算对象对的相似性得分，与离散类标签相比，它可以更好地处理语义相似的类在关联过程中，我们使用类样本来确定每个对象的潜在匹配候选者这个过程可以被认为是使用类信息作为软先验。因此，它可以集成分类所需的细粒度线索（例如，一辆大红色的公共汽车和一辆红色的卡车之间的区别），这对于纯粹的类不可知的外观嵌入来说是很难学习的类样本匹配（CEM）。基于两级检测器的训练流水线如图所示第七章区域建议网络（RPN）从输入图像中计算所有感兴趣区域（RoI）建议。然后我们使用RoI align从多尺度特征输出中提取特征图。特征图被用作样本编码器的输入以学习类别相似性。样本编码器为每个RoI生成类样本。我们用定位阈值α为每个RoI分配类别标签。如果RoI的IoU大于α（在我们的例子中，α=0。7）使用地面真值框，然后我们将相应的类别标签分配给RoI。阳性样本是来自同一类别的ROI，阴性样本是来自不同类别的ROI我们调整SupCon损失[20]，并提出一个无偏的监督控制。传输损耗（U-SupCon）：L=−1001Σ日志exp（sim（q，q+）/τ）Σ、（九）PosD（q）=1exp（sim（q，q+）/τ），（10）|Q+（q））|其中，Q是从随机采样图像批次生成的类别的集合，Q+（q）是q的所有位置样本的集合，Q-（q）是q的所有可采样样本的集合，sim（）表示余弦相似度，并且τ是温度参数。我们将τ设为0.07。我们添加了PosD（q），以防止在使用检测建议进行训练时SupCon损失的变化下限，其中阳性样本的数量一直在变化。协会战略。对于tracklet中的查询对象q，我们通过比较它们的类样本来找到一组候选对象。具体地，假设我们具有帧t中的查询对象q的类样本qc，以及帧t+1中的一组检测到的对象D及其类样本dc Dc。我们计算qc和Dc之间的相似性，并选择具有高相似性的候选者。这给出了候选列表C={d| sim（qc，dc）>δ，d∈D}. δ设定为0.5。Faster R-CNN更快的R-CNN（类不可知）0.560.510.560.540.380.260.190.08AP相似学习q∈Q |Q+（q）|q+∈Q+（q）PosD（q）+q−∈Q −exp（sim（q，q−）/τ）+v：mala2255获取更多论文10李思远，丁恒辉，丁伟华，王伟.Huang，Fisher Yu为了从候选列表中确定最终匹配，可以使用任何现有因此，CEM可以很容易地用来取代现有的硬先验匹配。对于我们的最终模型TETer，我们进一步利用准密集相似性学习[39]来学习实例级关联的实例特征。我们使用双向softmax和余弦相似度计算C我们采用具有最大得分的候选者，并且如果得分大于β，则它是成功的匹配。我们将β设为0.5。时间类别校正（TCC）。AET策略允许我们使用丰富的时间信息来校正分类。如果我们跟踪一个对象，我们假设类标签在整个轨迹上是一致的。我们使用简单的多数投票来纠正每帧类预测。5实验我们对不同的评估指标进行了分析，并研究了我们的新跟踪方法对TAO [8]和BDD 100K [50]的有效性TAO提供视频和跟踪标签的常见和罕见的对象与超过800个对象类。虽然驾驶场景的BDD 100K具有较少的标记类别，但有些类别（如火车）的频率远远低于汽车等常见对象。在本节中，我们首先将不同的指标与TETA进行比较。然后，我们在不同的数据集上评估了所提出的TET，并将CEM插入到现有的跟踪方法中，以证明其通用性。实施细节。对于对象检测器，我们使用更快的R-CNN [41]和特征金字塔网络（FPN）[24]。我们使用ResNet-101作为TAO上的主干，与TAO基线相同[8]，并使用ResNet-50作为BDD 100 K上的backone，与QDTrack相同[39]。在TAO上，我们使用重复因子采样在LVISv0.5 [17]和COCO数据集的组合上训练我们的模型。重复因子设置为0.001。我们使用学习率为0.02的SGD优化器，并采用步长策略将学习率衰减、动量和权重衰减设置为0.9和0.0001。我们总共训练了24个epoch，学习率在16和22 epoch时下降。对于具有SwinT主干的TETER[28]，我们使用mmdetection [6]使用的3x调度。对于TETer-HTC，我们使用来自[23]的HTC-X101-MS-DCN检测器。在BDD 100K上，我们从QDTrack [39]加载相同的对象检测器权重，并在BDD 100K检测数据集上微调样本编码器，并冻结其他权重。对于每个图像，我们最多采样256个对象提案。更多详情请参见附录第8.6节。5.1度量分析跨数据集一致性。一个好的指标应该与真实世界的跟踪性能相关。尽管我们面临着不完整注释的困难例如，设计用于跟踪属于TAO上的数百个类别的对象的跟踪器也应该在包含这些类别的子集的新视频序列上工作良好我们通过使用BDD 100K数据集来评估这一点，该数据集具有八+v：mala2255获取更多论文−∞追踪野外的一切11在TAO302010033.3BDD 100K测试32.71.00.80.60.40.2LocA协会CLSA陶0 50 100 150 200 250 300联邦HOTATETA-TAOBDD度量TETA-BDD班数图8：左：我们在TAO（不完整的注释）上预训练模型，并使用默认的BDD度量（IDF1）在BDD（完整的注释）上直接测试它们。我们省略了MOTA，因为它的取值范围是（，1]，这与其他度量不一致右：随着评价类别数目的增加，与TAO重叠的类别。我们将BDD 100 K视为现实世界中的新视频序列，以测试两个跟踪器：QDTrack-TAO [39]，它针对TAO度量进行了优化，我们的跟踪器针对TETA进行了优化。我们只对重叠的类别进行评估，其中也包含了对每个对象的详尽注释。如图8（左）所示，由TAO度量选择的跟踪器对于不完整的TAO数据集设置过度优化，这不能很好地推广到BDD 100K。相比之下，TETA选择的跟踪器可以很好地推广我们的指标给出了相同的排名在完整的注释设置与默认的BDD100K IDF1指标，尽管面临的困难，排名不完整的注释下的跟踪器。全面分析跟踪器。正确理解跟踪器的不同方面对于为各种场景设计跟踪器至关重要。例如，对于自动驾驶车辆来说，检测和理解每个物体的轨迹以避免碰撞是重要的，但是轻微的错误分类可能并不那么重要。在这个实验中，我们评估了类的数量对TAO验证集上的度量分数的影响。我们使用相同的跟踪预测，但通过基于实例数量的降序排序类并组合最后n个类来合并类预测例如，对于n=2，我们将除人类（最常见的类）之外的所有类合并为一个类，并且只对两个类进行评估我们在1（单个类）和302（所有类）之间采样几个n，并对每组类进行评估结果见图8（右）。虽然轨迹预测是相同的，但随着类的数量增加，TAO度量产生的分数显著下降由于TAO度量将分类和跟踪纠缠在一个度量中，这使得很难确定跟踪器的哪个部分出错。另一方面，使用TETA，我们可以分别调查不同的方面。虽然分类性能遵循与TAO度量相同的趋势这使我们能够立即理解退化是由于分类。作弊TAO跟踪mAP度量。图9示出了可以提升TAO轨道mAP的复制粘贴技巧。我们简单地复制和粘贴来自对象检测器的具有低置信度类别预测的现有轨迹，而无需额外的训练。如表1所示，TAO跟踪mAP和联合HOTA度量从0急剧增加到62.9和从4.2急剧增加到68.7。相比之下，TETAQDTrack-TAOAOA特特25.326.324.022.022.819.117.215.815.515.110.87.83.7评分%变化+v：mala2255获取更多论文12李思远，丁恒辉，丁伟，王伟.Huang，Fisher Yu(a) 原始副本膏(b) 复制粘贴后图9表1：欺骗TAO轨道mAP的复制粘贴策略。(a)跟踪结果从我们的跟踪器，它错误地分类鹿作为山羊。(b)复制并粘贴来自所述对象检测器的具有低置信度类预测的现有轨迹。该表显示了TAO轨道mAP和TETA之间的比较，其中对于图1中的序列使用了简单的复制粘贴技巧9表2：TAO结果方法TETA LocA AssocA ClsA表3：BDD 100K的结果方法拆分mMOTA mIDF1 TETA LocA AssocA ClsASORT [4]24.845 48.1314.32 12.08搜索引擎[2]24.1547.4112.9612.08[47]第四十七话25.9848.3517.5212.09AOA [15]25.27 23.4030.5621.86Tracktor++[2]27.9749.0422.8112.05QDTrack [39]30.0050.5327.3612.11特特33.25 51.58QDTrack-SwinT 31.2251.3227.2715.06TETer-SwinT 36.7115.03QDTrack-HTC32.7956.2127.4314.73TETer-HTC36.85 57.5315.70[47]第四十七话Val35.249.348.03 46.3646.6951.04QDTrack [39]Val36.651.647.84 45.8648.4749.20特特Val39.153.350.83 47.16 52.89 52.44[47]第四十七话测试34.050.246.75 45.2647.0447.93QDTrack [39]测试35.752.349.1747.1950.9349.38从47.6到13.8，这表明这个把戏对TETA无效。此外，我们可以清楚地看到复制粘贴带来的后果由于复制粘贴会产生大量假阳性本地化，因此本地化得分会急剧另一方面，该技巧只提高了分类性能。5.2TAO跟踪结果我们使用我们的TETA指标，在表2中的TAO验证集上提供了TETER与竞争方法的全面比较我们将局部聚类的边缘r设置为0.5，因为我们观察到TAO数据集并不拥挤，并且这种选择在非惩罚和过度惩罚FP之间提供了适当的平衡对于这个实验，我们只使用预定义的302个类别，而不考虑未知的类。我们允许每个跟踪器最多输出50个预测每个图像。我们使用相同的FasterRCNN检测器与类无关的NMS用于除AOA之外的所有方法[14]。尽管大量类别增加了难度，但TETER优于所有其他方法，在TETA，LocA和AssocA中提供了一致的改进特别是，TETer将QDTrack [39]的 TETA提高了3个点以上，AssocA提高了7个点以上我们还将我们的方法与ECCV 2020 TAO挑战赛的获胜者AOA [15]进行了比较，使用公开的预测1。AOA结合了多个最先进的少数镜头检测和对象ReID模型，这些模型使用额外的外部数据集进行训练，这使其能够获得非常强大的分类性能。然而，由于它使用TAO度量进行了优化，因此它会做出过多的误报预测，这会受到TETA的惩罚此外，TETer在不使用外部数据集的情况下实现了更好的关联性能1https://github.com/feiaxyt/Winner_ECCV20_TAOTAO跟踪mAP美联社↑AP 50↑AP 75↑AR↑复制前复制后0 0 0 062.9 75.2

下载后可阅读完整内容，剩余1页未读，立即下载