没有合适的资源?快使用搜索试试~ 我知道了~
文件标题:没有花里胡哨的跟踪方法及其性能分析
1没有花里胡哨的跟踪Philipp Bergmann*Tim Meinhardt*Laura Leal-Taixe慕尼黑工业大学摘要跟踪视频序列中的多个对象的问题提出了几个具有挑战性的任务。对于检测跟踪,这些包括对象重新识别,运动预测和处理遮挡。我们提出了一个跟踪器(没有花里胡哨的),它可以在不专门针对任何这些任务的情况下完成跟踪,特别是,我们不对跟踪数据进行训练或优化。为此,我们利用对象检测器的边界框回归来预测对象在下一帧中的位置,从而将检测器转换为跟踪器。我们展示了Tracktor的潜力,并通过简单的重新识别和相机运动补偿扩展它,在三个多对象跟踪基准上提供了一个然后,我们进行了几个国家的最先进的跟踪方法相比,我们的跟踪器的性能和故障情况下的分析。令人惊讶的是,没有一种专用的跟踪方法在处理复杂的跟踪场景,即小的和被遮挡的对象或丢失的检测方面要好得多然而,我们的方法解决了大多数容易跟踪的情况。因此,我们激励我们的方法作为一个新的跟踪范式,并指出有前途的未来研究方向。总的来说,Tracktor产生优于任何当前跟踪方法的跟踪性能,我们的分析暴露了剩余的和未解决的跟踪挑战,以启发未来的研究方向。1. 介绍从视频中理解场景仍然是计算机视觉的一大挑战。人类通常是场景中的注意力中心,这导致在视频中检测和跟踪他们的基本问题通过检测进行跟踪已经成为解决跟踪多个对象的问题的优选范例,因为它通过将其分为两个步骤来简化任务:(i)在每一帧中独立地检测对象位置,(ii)通过在时间上链接相应的检测来形成轨迹。连接步骤,贡献均等。联系人:tim. tum.de或数据关联,由于在拥挤的环境中的丢失和虚假检测、遮挡和目标相互作用,其本身是一项具有挑战性的任务。为了解决这些问题,该领域的研究已经产生了越来越复杂的模型,仅实现了略微更好的结果,例如,在MOT16 [45]基准上,多目标跟踪精度在过去两年中仅提高了2.4%。在本文中,我们推跟踪检测到的限制,只使用一个目标检测方法来执行跟踪。我们表明,可以实现国家的最先进的跟踪结果,通过训练神经网络只对任务的检测。如图1中的蓝色箭头所示,Faster-RCNN [52]等对象检测器的回归量足以在众多具有挑战性的跟踪场景中构建对象轨迹。这提出了一个有趣的问题,我们在本文中讨论:如果探测器可以解决大多数跟踪问题,那么需要专用跟踪算法的真实情况是什么?我们希望我们的工作和Tracktor能够让研究人员专注于多目标跟踪的尚未解决的关键挑战。本文提出了四个主要贡献:• 我们介绍了Tracktor,它通过利用检测器的回归头来处理多对象跟踪,以执行对象边界框的• 我们提出了两个简单的扩展跟踪器,重新识别连体网络和运动模型。由此产生的跟踪器产量的最先进的perfor-曼斯在三个具有挑战性的多目标跟踪基准。• 我们对失败案例和具有挑战性的跟踪场景进行了详细的分析,并显示没有一种专用的跟踪方法比我们的回归方法表现得更好。• 我们提出我们的方法作为一个新的跟踪范式,利用检测器,并允许研究人员专注于剩余的复杂的跟踪挑战。这包括对有前途的未来研究方向的广泛研究。941942t−1不杀了bk?不初始化新bk不t−1不BK不不BKt−1BKt−1不不Dt{b,b,·· ·}K K1 2t t不SK分类检测回归图1:Tracktor仅使用对象检测器完成多对象跟踪,对于给定的帧t,包括两个主要处理步骤(以蓝色和红色表示)。首先,物体探测器的回归对准已经存在-将帧t-1的边界框bk跟踪到帧t处对象对应的对象分类然后使用新的边界框位置的得分Sk来消除可能被遮挡的轨迹。其次,对象检测器(或给定的公共检测集合)提供帧t的检测集合Dt。最后,如果检测已经完成,则初始化新的轨迹与活动轨道集合Bt={bk1,bk2,···}的任何边界框没有实质的交集。t t1.1. 相关工作诸如监视、活动识别或自动驾驶的若干计算机视觉任务依赖于对象轨迹作为输入。尽管有大量关于多目标跟踪的文献[42,38],但它仍然是一个具有挑战性的问题,特别是在拥挤的环境中,遮挡和错误检测是常见的。大多数国家的最先进的作品遵循跟踪检测范式,这在很大程度上依赖于性能的基础检测方法。最近,基于神经网络的检测器明显优于所有其他检测方法[33,52,50]。进化到Faster-RCNN [52]的检测器家族以及诸如SDP [63]的进一步检测器依赖于传递到神经网络的对象分类和边界框回归头的对象提议。后者细化边界框,以紧密围绕对象。在本文中,我们表明,可以重新考虑使用这个回归跟踪的目的。跟踪是一个图形问题。数据关联问题处理保持被跟踪对象的身份给定的可用检测。这可以在在线应用[5,15,48]或逐轨[3]的逐帧基础上完成。由于视频分析可以离线完成,因此批处理方法是优选的,因为它们对遮挡更鲁棒。常见的形式主义是将问题表示为图,其中每个检测是一个节点,并且边缘指示可能的链接。数据关联然后可以用公式表示为最大流[4],或者等价地,具有基于距离的固定成本的最小成本问题[26,49,66],包括运动模型[39],或者学习成本[36]。替代公式通常会导致更复杂的优化问题,包括最小集团[65],通用求解器,如MCMC [64]或多切割[59]。最近的趋势是设计更复杂的模型,其中包括其他视觉输入,例如多相机序列的重建[40,60],活动识别[12],分割[46],关键点识别[10]或联合检测[59]。通常,显著较高的计算成本不会转化为显著较高的准确度。事实上,在这项工作中,我们表明,我们可以在保持跟踪器在线的同时,显着优于所有基于图形的跟踪器。即使在图形模型优化中,也需要定义一个度量来识别两个边界框是否属于同一个人。这可以通过分析行人的外观或其运动来完成外观模型和重新识别。通过外观区分和重新识别(reID)对象尤其是在具有许多对象-对象遮挡的拥挤场景中的问题。在使用外观模型或reID方法来改进多目标跟踪的详尽文献中,基于颜色的模型非常常见[31]。然而,这些对于行人跟踪并不总是可靠的,因为人们可以穿着非常相似的衣服,并且颜色统计经常被背景像素和照明变化污染。作者[34]借用了人的想法,943不t1t2不识别,并使它们适应于在跟踪过程中“重新识别”目标。在[62]中,学习CRF模型以更好地区分具有相似外观的行人。光流形式的外观和短期运动都可以用作暹罗神经网络的输入,以决定两个盒子是否属于同一轨道[35]。最近,[54]表明了学习reID特征对多目标跟踪的重要性。我们在实验中证实了这一观点运动模型和轨迹预测。一些作品诉诸运动来区分行人,特别是在高度拥挤的场景中。最常见的是-sumption是一个恒定速度(CVA)[11,2],但行人运动变得更加复杂,在拥挤的情况下,研究人员已经转向更有表现力的社会力量模型[57,48,61,39]。这样的模型也可以从数据中学习[36]。深度学习已被广泛用于在拥挤的场景中学习社交礼仪,以进行轨迹预测[39,1,55]。[67]使用单个对象跟踪训练的网络来创建tracklet,以进一步后处理为轨迹。最近,[7,51]提出使用强化学习来预测对象在下一帧中的位置。虽然[7]专注于单对象跟踪,但[51]的作者训练了一个由边界框预测器和决策网络组成的多对象行人跟踪器,用于在跟踪对象之间进行协作决策。视频对象检测。没有帧到帧身份预测的多目标跟踪是通常被称为视频对象检测的子问题。为了改善检测,许多方法利用时空一致性。物体的位置。[28]和[27]都生成多帧边界框元组建议,并分别使用CNN和LSTM提取检测分数和特征。最近,[47]的作者通过应用光流在帧之间传播分数来改进对象检测。主要优点:(i)我们不需要任何跟踪特定训练,以及(ii)我们在测试时不执行任何复杂优化,因此我们的跟踪器是在线的。此外,我们证明了我们的方法在几个具有挑战性的跟踪场景中实现了最先进的性能。2.1. 对象检测器我们跟踪管道的核心元素是基于回归的检测器。在我们的案例中,我们使用ResNet-101 [22]和特征金字塔网络(FPN)[41]在MOT 17 Det [45]行人检测数据集上训练了一个更快的R-CNN [52]。为 了 执 行 对 象 检 测 , Faster R-CNN 应 用 RegionProposal Network为每个潜在对象生成大量绑定框建议。每个提案的特征图通过感兴趣区域(RoI)池提取[21],并传递到分类和回归头。分类头为提案分配对象得分,在我们的情况下,它评估提案显示行人的可能性。回归头将边界框位置紧密地细化到对象周围检测器通过将非最大值抑制(NMS)应用于细化的边界框建议来产生最终的对象检测集。我们提出的方法利用上述能力回归和分类边界框执行多对象跟踪。2.2. 跟踪器多对象跟踪的挑战是提取空间和时间位置,即,在给定逐帧视频序列的情况下,这种轨迹被定义为有序对象边界框的列表},其中边界框由其坐标bk=(x,y,w,h)定义,并且t表示视频的帧。我们将集合对象边界框表示为其中Bt={bk1,bk2,· · ·}。 注意,每个Tk最终,[18]提出解决跟踪和检测问题。共同解决问题。他们提出了一种网络,该网络处理两个连续的帧,并利用跟踪地面真实数据来改善检测回归,从而生成或者Bt可以包含少于帧或轨迹。在t=0时,我们的跟踪器重新跟踪第一组检测D0={d1,d2,· · · }=B0. 在图1中,我们展示了使用两帧轨迹。使用后续的脱机方法,0这些轨迹片段被组合成多帧轨迹。然而,我们表明,我们的回归跟踪器不仅是在线的,但在处理对象遮挡优越。特别是,我们不仅在时间上对齐检测,而且保留它们的身份。两个随后的处理步骤(我们的螺母和螺栓方法),即边界框回归和轨道初始化。边界框回归。用蓝色箭头表示的第一步骤利用边界框回归来将活动轨迹延伸到当前帧t。这是通过将帧t-1的边界框bk回归到2. 你只需要我们建议将一个探测器转换成一个Tracktor执行-forming多目标跟踪。几种基于CNN的检测算法[52,63]包含通过回归的某种形式的边界框细化我们提出了一个开发这样一个回归跟踪的任务。这有两t−1对象在在更快的R-CNN的情况下,这对应于在当前帧的特征,但具有先前的边界框坐标。我们的假设是,目标在帧之间仅略微移动,这通常由高帧速率来确保(参见本手册的第B.5944t−1不不补充的帧速率鲁棒性评估跟踪工作[6,25,54]。 为此,我们存储killed(停用)tor)。身份将自动从预非回归版本的曲目bk对于一个固定的数字,注意到回归的边界框,有效地创建了一个轨迹这对于所有后续帧重复。在边界框回归之后,我们的跟踪器考虑了两种情况来杀死(停用)轨迹:(i)如果离开帧或被非对象遮挡的对象的新分类得分s_k低于σ_active,则该对象被杀死,以及(ii)通过将非最大抑制(NMS)应用于所有剩余的B_t及其对应的得分来处理对象之间的遮挡,其中交集大于并集(IoU)阈值λ_active。边界框初始化。为了考虑新目标,对象检测器还提供针对整个帧t的检测Dt。图1中用红色箭头表示的第二步类似于t=0时的第一次初始化。但是从Dt开始的检测仅仅是一个轨迹如果具有任何已经活动的轨迹bk的IoU小于λnew。也就是说,我们认为检测到只有当它覆盖了一个潜在的新物体,而这个新物体不能用任何轨迹来解释时,它才是一个新的轨迹应该再次注意的是,我们的Tracktor不需要任何跟踪特定的训练或优化,仅依赖于对象检测方法。这使我们能够直接受益于改进的对象检测方法,最重要的是,能够相对便宜地转移到不同的跟踪数据集或场景,其中没有地面实况跟踪,但只有检测数据可用。2.3. 跟踪扩展在本节中,我们将为我们的vanilla Tracktor提供两个简单的扩展:运动模型和重新识别算法。两者都旨在改善跨帧的身份保持,并且是用于增强的技术的常见示例,例如,基于图形的跟踪方法[39,62,35]。运动模型我们之前的假设,即对象的位置在帧与帧之间仅略有变化,在两种情况下不成立:大的摄像机运动和低的视频帧速率。在极端情况下,帧t-1的边界框可能根本不包含帧t中的跟踪对象。因此,我们应用两种类型的运动模型,这将改善未来帧中的边界框位置。对于具有移动相机的序列,我们通过使用如[16]中引入的增强相关系数(ECC)最大化经由图像配准对齐帧来应用直接的相机运动补偿(CMC)。对于帧速率相对较低的序列,我们对所有对象应用恒定速度假设(CVA),如[11,2]中所示。重新鉴定。为了保持我们的跟踪器在线,我们建议基于暹罗神经网络生成的外观向量进行短期重新识别(reID)-FreID帧的误码率。然后我们比较将去激活的空间与新检测到的轨道嵌入,并通过阈值重新识别嵌入空间距离由Siamese CNN和每个边界框的外观特征向量计算。应该注意的是,reID网络确实是在跟踪地面真实数据方面进行训练的为了最小化错误reID的风险,我们只考虑具有足够大IoU的停用和新边界框对。运动模型被连续地应用于停用的轨迹。3. 实验我们展示了我们的提议跟踪跟踪器的跟踪性能,以及它的扩展跟踪器++几个数据集上的行人跟踪为重点1此外,我们对上述扩展进行了消融研究,并进一步表明我们的跟踪器在跟踪准确性方面优于最先进的方法,并且在身份保留方面表现出色。MOTChallenge. 多目标跟踪基准测试MOTChallenge2由几个具有挑战性的行人跟踪序列组成,其中包含频繁的遮挡和拥挤的场景。序列在视角、物体大小、摄像机运动和帧速率方面各不相同。挑战包含三个独立的跟 踪 基 准 , 即 2D MOT 2015[37] 、 MOT16 和MOT17[45]。MOT17测试集合包括总共7个序列,每个序列提供有三个公共检测集合。这些检测来自不同的对象检测器,每个对象检测器的性能都在不断提高,即R-CNN [19],Faster R-CNN [52] 和 SDP [63] 。 我 们 的 对 象 检 测 器 是 在MOT17Det [45]检测基准上训练的,该基准包含与MOT17相同的图像MOT16基准也包含与MOT17相同的序列,但仅提供公共检测。2D MOT 2015基准提供了11个序列的ACF [14]检测。跟踪问题的复杂性需要几个指标来衡量跟踪器的性能的不同方面。多目标跟踪精度(MOTA)[29]和ID F1分数(IDF1)[53]量化了两个主要方面,即目标覆盖和身份。公共侦探。为了与其他跟踪方法进行公平比较,我们使用MOTChallenge提供的公共检测进行所有实验。也就是说,本文中比较的所有方法,包括我们的方法及其扩展,处理相同的预先计算的逐帧检测。对于我们的方法,新的轨迹仅从公共检测边界框初始化,即,我们从未1跟踪器代码:https://git.io/fjQr8。2 MOTChallenge网页:https://motchallenge.net。945方法MOTA ↑ IDF1 ↑ MT ↑ ML ↓ FP ↓FN↓ ID Sw. ↓D T [18] 50.124.923.127.13561 52481 2715Tracktor-no-FPN 57.458.730.222.52821 45042 1981跟踪器33.520.736742903 1747Tracktor+reID 61.562.833.520.7367 42903921Tracktor+CMC61.964.135.321.4323 42454458Tracktor++(reID + CMC)61.964.735.321.4323 42454 326表1:本消融研究说明了Tracktor性能的多个方面。特别是通过跟踪特定方法扩展的改进,即,短期边界框重新识别和通过帧对准的相机该组合产生Tracktor++跟踪器。我们只对MOT 17公共检测的FasterR-CNN集进行了箭头指示低或高的最佳度量值。使用我们的对象检测器来检测一个新的边界框。我们只将边界框回归器和分类器应用于ob。分别得到新的bk和skThe MOTChallenge pub-方法MOTA ↑ IDF1 ↑ MT ↑ ML ↓FP ↓FN ↓ID交换机↓Tracktor++53.552.319.536.612201248047 2072eHAF[58]23.437.933212 2367721834FWT[23]51.347.621.435.2 24101 2479212648[30] 2016年12月31日20.937.0 25937 2478221802MOTDT 17[9]50.952.717.535.7 24069 2507682474MHTDAM [32]50.747.220.836.9 22875 2528892314Tracktor++54.452.519.036.9 328079149682[44]49.350.7十七点八 三十九点九 5333 86795391[59]48.851.3十八点二 40.1 6654 86245 481GCRA[43]十二点九 41.1 5104 88586 821FWT[23]47.844.319.138.28886 85487 852MOTDT[9]47.650.9十五点二 三十八点三 9253 85431 792Tracktor++44.146.718.026.26477 265771318AP HWDPLp [8]38.547.18.737.4400533203586AMIR15[56]37.646.0十五点八 二十六点八 7933 29397 1026联合MC[30]35.645.123.239.3 10580 28508 457RAR15pub[17]35.145.413.0 四十二点三 6771 32717381表2:我们将我们的在线多对象跟踪器Track- tor++与其他现代跟踪方法进行了比较。因此,我们实现了一个新的国家的最先进的MOTA的公共检测所有三个MOTChallenge基准。箭头指示低或高的最佳度量值。t tlic基准测试包括多种方法[30,9,13]用训练的神经网络对给定的检测进行分类,因此,我们认为我们对给定检测的处理也是公开的。3.1. 消融研究表1中MOT 17 [45]训练集的消融研究旨在显示三个方面:(i)当应用检测器进行跟踪时我们的方法的优越性,(ii)潜力从一个改进的对象检测方法和(iii)改进,从我们的香草跟踪器,跟踪特定的方法,即,重新识别(reID)和摄像机运动补偿(CMC)。值得注意的是,尽管MOT17 Det和MOT17包含相同的图像,但我们没有对训练集进行交叉验证,因为我们的vanillaTracktor从未接受过跟踪地面真实数据的训练。视频对象检测器和跟踪器D T[18]在跟踪地面实况数据上训练检测器,其生成两帧轨迹。然而,尽管随后的离线动态编程跟踪生成,他们的基于检测器的跟踪器是劣于我们的在线基于回归的跟踪生成多个帧。此外,我们通过展示Tracktor-no-FPN的跟踪性能,即,我们的方法和更快的R-CNN没有特征金字塔网络(FPN)[41]。尽管我们对Tracktor++的扩展性质简单,但它们的贡献对于身份切换的大幅减少和IDF1度量的增加是重要的在下一节中,我们将展示这种效果成功地转化为与测试集上其他最先进方法的比较3.2. 基准评价我们在相应基准测试集上评估Tracktor++的性能,而无需对跟踪训练集进行任何训练或优化。表2列出了所有序列累积的总体结果,以及所有三组公共检测中MOT17的总体结果。为了进行比较,我们只考虑MOTChallenge基准测试中官方发布和我们的补充材料提供了对单个序列的所有结果的详细总结。对于所有序列,使用相机运动补偿(CMC)和reID。唯一的低帧速率序列是2D MOT 2015AVG-TownCentre,我们对其应用上述恒定速度假设(CVA)。对于最初来自KITTI [20]基准的两个自动驾驶序列,我们应用旋转以及平移凸轮运动补偿。注意,我们使用相同的Track-tor++跟踪器,在MOT 17 Det对象检测上进行训练,用于所有基准测试。正如我们所展示的,它能够在所有三个挑战方面实现MOTA特别是,我们对MOT16的结果表明,我们的跟踪器的能力,以应付检测相对较小的性能。由于我们的跟踪器的性质和逐帧边界框回归的鲁棒性,我们在MOT16上的表现优于所有其他跟踪器,特别是在假阴性(FN)和身份保留(IDF1)方面值得注意的是,我们还提供了一个新的国家的最先进的2D MOT 2015,即使场景的特点是非常不同的MOT 17。我们不使用MOT15训练序列,这进一步说明了我们的跟踪器的泛化能力。MOT162D MOT 2015MOT179461 .一、00的情况。80的情况。60的情况。40的情况。20的情况。00的情况。00。2040608物体可见性(%)350003000025000200001500010000500001 .一、0FWT [23]和jCC [30]都对给定序列中的所有检测应用密集离线图优化相比之下,MHT DAM [32]将其优化限制在假设轨迹的稀疏前视图。对象可见性。直观地说,我们预计目标-目标或目标-非目标遮挡的跟踪性能会降低,即,以识别能见度低的目标在图2中,我们比较了成功跟踪的绑定框的比例与它们的可见性。透明的红色条表示每个可见性的地面实况绑定框的出现,并说明了对跟踪器整体性能的正确影响。我们的方法实现了优越的性能,即使是部分闭塞的边界框与violence低至图2:我们说明了跟踪对象的比例,以及在Faster R-CNN public检测中评估的可见性结果清楚地表明,所提出的更复杂的方法都没有实现优于我们的方法的性能。这对于高度遮挡的框尤其明显。透明的红色条表示维生素E的真实分布。方式在线 图 里德 外观模型运动模型其他跟踪器×Tracktor++××相机FWT [23]密集人脸检测jCC [30]密集点轨迹MOTDT 17 [9]×××卡尔曼MHT DAM [32]稀疏×卡尔曼表3:我们的方法和其他最先进的跟踪器的基本特征的总结。4. 分析我们的跟踪器的卓越性能,没有任何跟踪特定的培训或优化需要更彻底的分析。在没有复杂的跟踪方法的情况下,不期望其在拥挤和遮挡中表现出色,而是仅在仁慈的跟踪场景中表现出色。这就引出了一个问题,即更常见的跟踪方法是否也不能专门解决这些复杂的情况。我们的实验和随后的分析应该证明我们的方法的优势,易于跟踪的情况下,并激励未来的研究集中在剩余的- ING复杂的跟踪问题。特别是,我们质疑的共同执行的跟踪检测,并提出了一个新的跟踪模式。随后的分析是在MOT17训练数据上进行的,我们将所有表现最好的方法与公开共享的数据进行了比较。4.1.追踪挑战为了更好地了解我们的跟踪器,我们希望分析具有挑战性的跟踪场景,并将其优缺点与其他跟踪器进行比较。为此,我们在表3中总结了它们的基本特征。0.3. MHT DAM 和 M0TDT17 [9] 的 识 别 保 留 方 面 和MHT DAM和jCC的离线插值能力似乎都不能成功地解决高度遮挡的对象。表2中的高MOTA值很大程度上是由于地面真实电压的不平衡分布。正如预期的那样,我们的扩展版本只实现了对我们的香草Tracktor的微小改进。对象大小。鉴于图2中可见但未被跟踪的对象的大部分,我们认为对象的可跟踪性不仅取决于其可见性,还取决于其大小。因此,我们进行与可见性相同的比较,但对象的大小。在图3的第一行中,我们假设行人的身高与其尺寸成比例,并在所有三个MOT17公共检测集上进行比较所有方法对于大于250像素的物体高度都表现得很好。为了证明它们的缺点,即使是高度可见的对象,我们只计算可见度大于0.9的对象。正如预期的那样,对象的可跟踪性随着其在所有三个检测集上的大小而急剧降低。我们的跟踪器显示了它在补偿不足的DPM和更快的R-CNN检测所有对象大小方面的优势。除MOTDT17外的所有方法都受益于SDP提供的额外小检测对于我们的跟踪器,这在很大程度上是由于我们的Faster-RCNN检测器的特征金字塔网络扩展。然而,在线MOTDT17方法的学习外观模型和reID似乎通常容易受到小检测的影响。外观模型通常遭受小的对象尺寸和很少观察到的像素。总之,除了我们对较差检测的补偿之外,没有一个跟踪器在不同的物体尺寸方面表现出明显更好的性能检测的鲁棒性。检测跟踪方法在可见性和尺寸方面的性能固有地受到底层检测方法的鲁棒性的限制。然而,如针对对象大小所观察到的,跟踪器在它们应对或受益于变化的检测质量的能力方面不同。在图3的第二行中,我们根据检测间隙来量化这种能力TracktorTracktor++ FWTJCCMOTDT 17MHT DAM追踪的物体(%)地面实况9471 .一、00的情况。8700060001 .一、00的情况。8700060001 .一、00的情况。8700060000的情况。6500040000的情况。6500040000的情况。6500040000的情况。430000的情况。430000的情况。430000的情况。2200010000的情况。2200010000的情况。2200010000的情况。01 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0050 100 150 200 250250020001500100050000的情况。01 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0050 100 150 200 250对象高度(像素)TracktorTracktor++FWTJCCMOTDT 17MHT DAM80070060050040030020010000的情况。01 .一、00的情况。80的情况。60的情况。40的情况。20的情况。050 100 15020002503000250020001500100050005 10 15 20 25 305 10 15 20 25 30检测中的间隙长度5 10 15 20 25 30(a) 探测器(b) 更快的R-CNN检测(c) SDP检测图3:两行示出了被跟踪对象相对于以下各项的比率:(i)对象高度和(ii)所提供的公共检测中的间隙的长度。透明的红色条分别指示检测中的高度和间隙长度的真实分布。为了证明所提出的跟踪器的缺点,我们将高度比较限制为能见度大于或等于0.9的对象。完全未检测到的磁道不被视为间隙。因此,SPD产生最多的间隙。因为它也提供了最多的检测。追踪器的覆盖范围我们将检测间隙定义为至少检测到一次的地面实况轨迹的一部分,并将每个间隙的覆盖范围与间隙长度。直觉上,长的间隙更难补偿,因为在线或离线跟踪器必须分别执行更长的半解或插值。我们用透明的红色表示在相应的检测组上出现的间隙长度。对于R-CNN和Faster R-CNN检测,两种解决方案可以实现显著的间隙覆盖:(i)离线内插,例如在jCC中,或(ii)利用卡尔曼滤波器和reID的运动预测,如在 MOTDT中。 与基 于图 的jCC方法 相比 ,在 线M0TDT17方法在覆盖特别长的间隙方面表现出色。然而,这些专用的跟踪方法中没有一种产生与我们的逐帧回归跟踪器类似的鲁棒性,其实现了远优于覆盖范围。这对于具有超过15帧的长检测间隙尤其如此。离线方法从改进的SDP检测中受益最多,并且我们的和MOTDT17跟踪器都没有显著的间隙长度鲁棒性。身份保护。汇总在表2中的我们的Tracktor++的结果表明在IDF1和身份切换方面的身份保留性能与专用跟踪方法相当。这是在没有如jCC [30]或eHAF [58]中的任何离线图优化特别是,MOTDT 17,它应用了一个复杂的应用模型和reID,并没有实质上优于我们的回归跟踪器及其相对简单的扩展。然而,我们的方法在减少MOT17和MOT16中的假阳性数量方面此外,我们已经表明,我们的跟踪器是能够将额外的身份保持扩展。4.2. Oracle跟踪器我们已经表明,没有专用跟踪方法专门针对具有挑战性的跟踪场景,即,物体被严重遮挡或小物体遮挡。因此,我们希望将Tracktor作为一种新的跟踪模式。为此,我们从两个方面分析我们的表现:(i)对象检测器对杀伤策略和边界框回归的影响,(ii)识别跟踪器的潜在扩展的性能上限。在表4中,我们通过用地面实况信息替换我们的算法的部分来呈现几个oracle跟踪器。如果没有另外提及,所有其他跟踪方面都由我们的vanilla Tracktor处理。他们的分析应该提供researchers有用的见解,最有前途的研究方向和扩展我们的跟踪器。追踪的物体(%)地面实况每长度跟踪的对象(%)检测中的事件948方法MOTA↑ IDF1↑FP↓FN↓ID交换机↓跟踪器61.561.1367429031747Tracktor+++0.4+3.6-44-449-1421甲骨文杀+0.7-0.7-178-694+129Oracle-REG+1.4+5.6-218-1401-1463甲骨文-MM+0.9+5.2-168-898-1332Oracle-reID0.0+10.000-1094Oracle-MM-reID+0.9+13.9-168-898-1706Oracle-MM-reID-INTER+2.6+15.9+3774-6769-1680甲骨文+10.7+22.5-360-11745-1743表4:为了展示Tracktor的潜力并指出有前途的未来研究方向,我们展示了多个Oracle跟踪器。每个oracle针对特定任务利用地面实况数据,例如,完美的重新识别(reID)或运动模型(MM)。我们仅评估MOT 17公共检测的Faster R-CNN集以及分别相对于绿色和红色的香草Tracktor的高光性能增益和损失。箭头指示低或高的最佳度量值。探测器神谕。为了模拟一个潜在的完美对象检测器,我们引入了两个oracle:• 神谕杀:而不是用NMS或classifica- tion分数杀死,我们使用地面实况信息。• Oracle-REG:我们将边界框放置在它们的真实位置,而不是回归。这两个神谕都对MOTA和FP产生了实质性的改进。然而,通过地面实况而不是分数进行的杀戮使身份保存恶化,因为回归与否则不可见的边界框进行斗争。扩展神谕。应该注意的是,Tracktor++的非完美扩展已经补偿了检测器的一些不一致性。reID和运动模型(MM)预言机模拟潜在的附加性能曼斯收益。为了保持在线,这些排除了任何形式的事后跟踪间隙插值。• Oracle-MM:运动模型将每个边界框放置在下一帧中地面实况的中心。• Oracle-reID:用地面实况身份执行重新识别。正如预期的那样,这两个预言机大大改进了IDF1和身份交换。组合的Oracle-MM-reID表示Tracktor++的扩展上限。无 所 不 知 的 神 谕 。 Oracle-ALL 执 行 Ground TruthKilling、回归和reID。我们认为它的最高MOTA为72.2%,结合高IDF1和几乎没有假阳性,作为Tracktor的绝对上限,更快的R-CNN和FPN对象检测器。Oracle-MM的显著性能提升表明了使用sophis扩展Tracktor的潜力运动模型特别地,Oracle-MM-reID- INTER建议预测运动模型,其通过长遮挡来遮挡对象的位置。这样的运动模型避免了离线后处理和由长检测间隙和相机移动4.3. 迈向新的追踪模式为了总结我们的分析,我们提出了两种方法来指导如何利用Tracktor作为未来研究方向的起点带延伸装置的追踪器。将Tracktor应用于给定的检测集,并使用跟踪特定方法对其进行扩展。具有大型和高度可见物体的场景将被覆盖-通过帧到帧边界框回归来实现。对于其余的,它似乎最有希望实现hallucinating运动模型,考虑到个体运动的对象。此外,这样的运动预测器减少了对高级杀伤策略的必要性。Tracklet生成。类似于检测跟踪,我们提出了一个跟踪的轨迹的方法。事实上,许多算法已经使用tracklet作为输入[24,65],因为它们具有更丰富的用于计算运动或外观模型的信息。然而,通常使用特定的跟踪方法来创建这些tracklets。我们提倡利用检测器本身,不仅创建稀疏检测,而且创建帧到帧的tracklets。其余的复杂跟踪情况下,应该解决的后续跟踪方法。在这项工作中,我们已经正式定义了这些困难的情况下,分析的情况下,不仅我们的方法,但其他专用的跟踪解决方案失败。通过这样做,我们质疑当前多目标跟踪的研究重点,特别是缺少对抗的挑战跟踪场景。5. 结论我们已经证明,经过训练的Faster-RCNN检测器的边界框回归器足以解决当前基准测试中存在的大多数跟踪场景。转换为Tracktor的检测器不需要跟踪地面实况数据的特定培训,并且能够以在线方式工作。此外,我们已经证明,我们的Tracktor是可扩展的,具有重新识别和摄像机运动补偿功能,为MOTChallenge提供了大量新的最先进技术。我们分析了多种专用跟踪方法在具有挑战性的跟踪场景中的性能,与我们基于回归的Tracktor相比,没有一种方法产生了更好的性能。我们希望这项工作建立一个新的跟踪范式,利用对象检测器鸣谢。这项研究由洪堡基金会通过Sofja Kovalevskaja奖资助。949引用[1] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会责任:拥挤空间中的人体轨迹预测。IEEE计算机视觉和模式识别会议,2016年。3[2] 安东·安德里延科和康拉德·辛德勒。连续能量最小化多目标IEEE计算机视觉和模式识别会议(CVPR),第1265-1272页三、四[3] 我是贝尔克拉兹,弗朗索瓦·弗勒雷和帕斯卡尔·福阿。使用全局轨迹优化进行人体跟踪。IEEE计算机视觉和模式识别会议(CVPR),第744-750页,2006年。2[4] Jerome Berclaz,Francois Fleuret,Engin Turetken,andPas cal Fua.使用k-最短路径优化的多目标跟踪。IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI),33(9):1806-1819,2011. 2[5] Michael D.Breiberg,Fabian Reichlin,Bastian Leibe,Esther Koller-Meier,and Luc Van Gool.使用检测器置信度 粒 子滤 波 器 的 鲁棒 检 测 跟 踪。 IEEE InternationalConference on Computer Vision(ICCV),第1515-1522页2[6] Jane Bromley 、 Isabelle Guyon 、 Yann LeCun 、 EduardSaeckinger和Roopak Shah。使用“连体”时间延迟神经网络的签名验证NIPS,1993年。4[7] Boyu Chen,Dong Wang,Peixia Li,Shuang Wang,and Huchuan Lu.实时“演员-评论家”跟踪。在欧洲计算机视觉会议(ECCV)上,2018年9月。3[8] 龙辰、艾海洲、崇尚、庄子杰、白波。卷积神经网络在线多目标跟踪。第645-649页,2017年9月。5[9] 龙辰、艾海洲、庄子杰、崇尚。实时多人跟踪,具有深入学习的候选人选择和人员重新识别,2018年7月。五、六[10] 崔元君基于局部流描述子的近在线多目标跟踪ICCV,2015年。2[11] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪在世界坐标与单一的,最低限度校准的相机。欧洲计算机视觉会议(ECCV),第553-567页,2010年。三、四[12] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪和集体活动识别的统一框架欧洲计算机视觉会议(ECCV),第2152[13] Young chul Yoon , Abhijeet Boragule , Young minSong,Kwangjin Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功