没有合适的资源?快使用搜索试试~ 我知道了~
HOOT: 严重遮挡目标跟踪基准
48300HOOT: 重遮挡目标跟踪基准0Gozde Sahin南加州大学洛杉矶分校0gsahin@usc.edu0Laurent Itti南加州大学洛杉矶分校0itti@usc.edu0摘要0在本文中,我们介绍了 HOOT,即 H eavy O cclusions inO bject T rackingBenchmark,这是一个新的视觉目标跟踪数据集,旨在处理高遮挡场景的单目标跟踪任务。该数据集包含581个高质量视频,共有436K帧,密集注释了74个目标类别的旋转边界框。该数据集旨在开发、评估和分析对遮挡具有鲁棒性的视觉跟踪算法。它由高遮挡级别的视频组成,每个视频的遮挡帧的中位数百分比为68%。它还提供了关于遮挡的关键属性,包括定义遮挡者的分类法,为每个边界框提供遮挡掩码,每帧的部分/完全遮挡标签等。HOOT旨在鼓励开发针对视觉跟踪中遮挡处理的新方法,通过提供具有高遮挡级别的训练和测试集。这使得HOOT成为第一个针对严重遮挡下的单目标跟踪而设计的密集注释的大型数据集。我们在这个新数据集上评估了15种最先进的跟踪器,作为未来关注遮挡的工作的基准。01. 引言0视觉目标跟踪是计算机视觉中最基本的问题之一,也是更大规模应用(如监控、辅助机器人、智能家居设备和自动驾驶车辆)的基石[1, 2, 12,13]。这些实际应用需要非常强大的视觉跟踪,特别是如果算法被部署用于诸如老年护理或自动驾驶车辆等任务,其中安全性是最重要的方面。尽管近年来在视觉跟踪应用中广泛采用深度学习取得了重大进展[6, 20, 22, 37, 39,41],但仍然存在一些已知会降低跟踪性能的困扰因素(如旋转、变形、遮挡和快速运动)。这些因素一直以来都是视觉跟踪的挑战。0图1:HOOT基准测试的示例帧,显示了不同类别的目标和根据定义的遮挡者分类法提供的各种遮挡掩码(实线:深蓝色,稀疏:紫色,半透明:黄色,透明:红色)。图像裁剪为感兴趣区域,以更好地查看目标旋转边界框和遮挡掩码。0在先驱的单目标跟踪(SOT)基准测试中,如OTB [35,36]和VOT [16, 15],以及最近的LaSOT [9]和GOT-10k[11]中,数据以视频和有时以每帧属性的形式提供。在本文中,我们旨在创建一个专门用于训练、评估和分析在严重遮挡下的视觉跟踪器的新基准。遮挡一直是视觉跟踪器的一个困难挑战,因为它们代表了来自目标对象的视觉信号的缺失。这使得遮挡变得困难。48310多年来,许多算法专注于跟踪应用中的遮挡[8, 18, 27, 30,33]。事实上,遮挡一直是行人和车辆跟踪以及为这些任务策划的数据集的关键部分[7,34]。然而,在直到最近的通用单目标跟踪(SOT)的训练和评估基准中,遮挡在表示方面一直落后[11,17]。在流行的训练和评估数据集中缺乏严重遮挡场景,这导致了对于鲁棒性遮挡算法的开发的困难,因为在低遮挡基准上无法正确评估跟踪器对遮挡的性能。这一情况正在发生变化,最近的HOB数据集[17]是第一个专注于高遮挡场景的SOT评估基准。HOB包含20个高遮挡序列,并注释了一些与每个视频的遮挡相关的属性。然而,与HOOT相比,它在稠密注释和数据集大小方面非常有限,也没有提供训练集。HOOT,即 H eavy O cclusions in O bject T rackingBenchmark,是一个用于训练和评估在严重遮挡场景下的SOT算法的新数据集。它包含581个高质量视频,共计436K帧。HOOT对视觉跟踪的贡献如下:0•视频经过策划,以便67.7%的所有帧都具有不同程度的遮挡,如图1所示。目标类别侧重于日常物品,以鼓励通用目标跟踪,因为对于人和车等主体的高遮挡有更具体的数据集策划[7, 34]。0•视频密集注释了旋转边界框,并且对每帧进行了各种与遮挡相关的标签注释。这些标签包括不同类型的部分和完全遮挡标签,以及与目标相似的对象对目标的遮挡。这些属性注释允许对遮挡下的跟踪器性能进行广泛分析,并且在训练过程中可以提供有益的监督。0•对于所有注释的边界框,都提供了密集的遮挡掩码,如图1所示。我们定义了一个遮挡分类法来配合这些遮挡掩码,以便进一步分析跟踪器在不同类型的遮挡(例如透明与实体)下的性能,如[17]中所指出的那样。0•该基准提供了一个资源,可以对跟踪器在遮挡下进行全面评估,而当前的基准数据集在遮挡表示和标签方面有限,无法实现这一点。0除了介绍这个高遮挡数据集用于视觉目标跟踪之外,我们还在HOOT上对各种最先进的跟踪器进行了基准测试。我们对不同遮挡类型进行了分析,并提供了一个基准0为了未来在遮挡不变的视觉跟踪算法上的工作。虽然我们提供了测试和训练集的划分,但我们将训练基线跟踪器在HOOT上的使用超出了本文的范围,因为有效地使用HOOT遮挡标签进行训练可能需要一代新的跟踪器,这需要一个单独的研究方向。02. 相关工作02.1. 单目标跟踪基准数据集0本节提供了针对单目标跟踪的数据集的概述,以及它们提供的关于遮挡的信息。我们在表1中概述了广泛使用和最新的相关工作,并在下面进一步讨论了HOOT在其中的突出之处。从2013年开始,已经发布了许多专门针对视频中的视觉目标跟踪的数据集。虽然其中一些包含帧级遮挡信息,但其他只提供视频级属性。ALOV300++是当时该领域最大的数据集之一,包含单个视频级遮挡(OCC)属性[29]。OTB-2015[36]是一个具有100个视频的开创性评估数据集(从OTB-2013[35]的50个视频扩展而来),包括视频级遮挡(OCC)和视野外(OV)属性,但不提供有关遮挡的每帧信息。其他数据集如NfS [14],UAV213 [23]和TrackingNet[24]采用类似的方法注释遮挡,并为不同属性(如视野外(OV),完全遮挡(FOC)和部分遮挡(POC))提供视频级注释。除了上述视频级遮挡属性之外,许多其他数据集在不同程度上提供与遮挡相关的每帧注释。VOT是该领域的先驱数据集之一,每年都有一个挑战赛[15,16],其中包含60个用于评估跟踪器的视频。虽然VOT提供了每帧的二进制遮挡标签,可以指示部分或完全遮挡,但它们不提供指示目标离开画面的帧的缺失标签。这些遮挡标签有助于评估遮挡上的跟踪器;然而,VOT视频中的遮挡表示通常很低(多年来大约为10%)。这使得在VOT挑战赛上专门评估处理遮挡的跟踪器变得困难。与VOT类似,NUS-PRO[19]提供逐帧遮挡标签。但是,他们不是提供一个二进制遮挡标签,而是为部分遮挡和完全遮挡情况提供单独的标签。最近,流行的基准数据集LaSOT[9]仅为其1.4K个视频提供每帧的缺失标签。仅有缺失标签无法训练或分析针对每帧部分或完全遮挡的跟踪器,这会显著降低跟踪器的性能。OxUvA [31]是一个General Dataset StatisticsOTB2015 [36]VOT2021 [15] UAV123 [23] TrackingNet [24] GOT-10k [11] LaSOT [9]HOB [17]TOTB [10]HOOT48320常规数据集统计0视频数量 100 60 123 31K 10K 1.4K 20 225 581 帧数量 59K 20K 113K 14M 1.5M 3.2M 55K 87K 436K 类别数量 22 30 9 21 563 70 9 15 74帧率(fps) 30 30 30 30 10 30 - 30 30-60 平均持续时间(秒) 20 11 31 16 15 84 - 12.7 22 训练/测试集 � / � � / � � / � � / � � / � � / � � / � � / � � / �0遮挡相关信息0帧缺失 � � � � � � � � �0视频级属性 � � � � � � � � �0帧部分遮挡 � � � � � � � � �0帧完全遮挡 � � � � � � � � �0遮挡物类型 � � � � � � � � �0帧遮挡级别 � � � � � � � � �0表1:最近和广泛使用的视觉目标跟踪基准与HOOT的概述。表的第一部分关注常规统计数据,而第二部分关注这些基准提供的遮挡特定信息。HOOT作为提供每帧最详细遮挡数据的数据集脱颖而出。0遮挡掩码 � � � � � � � � �02.2. 其他基准0专注于重度遮挡。他们为25个不同类别的对象提供分割掩码,包括动物、车辆和人物。在对象类别方面,我们认为OVIS可以与HOOT高度互补,后者主要由日常物品组成。OVIS基准中实例的遮挡分布如下:18.2%无遮挡,55.5%轻微遮挡,26.3%严重遮挡。虽然OVIS和HOOT都是遮挡较重的,但OVIS计算遮挡级别时考虑实例边界框的交集,而HOOT对目标对象上的所有遮挡类型进行注释,以尽可能准确地表示遮挡区域。0多目标跟踪是另一个与遮挡密切相关的领域。与前一节提到的单目标跟踪基准测试不同,最广泛使用的多目标跟踪基准测试MOT对所有遮挡物和可见性比例进行注释[7]。另一个多目标跟踪基准测试UA-DETRAC[34]也使用边界框交叉注释每帧的遮挡,并提供可见性比例。然而,这两个基准测试都仅关注行人和车辆,而HOOT涵盖了更多来自日常生活的对象。0最后,关于行人检测,CityPersons[38]是第一个专注于高遮挡表示并为每个边界框提供可见性区域的数据集之一。CityPersons提供的粗略遮挡掩码成功地用于预测像[25]这样的作品中的遮挡区域。这些例子表明,就像视觉目标跟踪一样,许多其他计算机视觉社区也越来越关注重度遮挡。48330图2:HOOT中目标类别分布。03. HOOT基准测试0在本节中,我们详细介绍了重度遮挡目标跟踪(简称HOOT)基准测试。HOOT的主要介绍将包括基准测试的设计选择,统计数据的概述,数据收集和注释阶段的详细信息,关于遮挡相关属性和评估协议的深入统计数据。完整的数据集以及评估结果将在https://www.hootbenchmark.org上发布。03.1. 基准测试设计0正如我们在第1节中讨论的那样,HOOT旨在成为第一个具有遮挡密集注释的视觉目标跟踪基准,并提供一个评估新算法在遮挡情况下的性能的空间。当在高遮挡场景下评估时,最先进的跟踪器仍然存在巨大的性能下降(见补充材料第1节),而HOOT可以促进该领域中对遮挡鲁棒跟踪器的进一步发展。在基准测试的收集和注释过程中,我们观察到以下设计选择:严重遮挡的目标:为了鼓励开发和广泛分析遮挡不变的跟踪器,我们将基准测试设计为遮挡密集。HOOT中67.7%的所有帧都有遮挡,而之前的帧级遮挡注释基准测试(如VOT和GOT-10k)的遮挡表示要低得多(VOT约为10%,GOT-10k约为15.43%[11])。HOOT视频中遮挡的中位数百分比为68%。密集遮挡属性:由于HOOT强调解决跟踪中的遮挡问题,我们设计了基准测试来密集注释每个帧中存在的遮挡类型。因此,我们将HOOT的重点放在了注释遮挡类型上,而不是注重照明变化或旋转等属性。0每帧注释6个遮挡属性:缺失、完全遮挡、逐帧切割、部分遮挡、被相似对象遮挡和被多种遮挡器类型遮挡。此外,我们还设计了一个遮挡器分类,详细内容见第3.2节。0密集遮挡器掩码:HOOT不再提供像素级目标分割,而是为每个帧中的目标提供一个旋转的边界框,以及每个边界框的遮挡器掩码。由于像素级注释的成本,我们使用多边形而不是像素级标注来创建遮挡器掩码。这些遮挡器掩码(图1)结合了基准测试中定义的遮挡器分类,为每个帧中来自目标的视觉信号提供了有价值的信息。它们还可以帮助训练具有遮挡感知的视觉跟踪器,并对新的跟踪算法进行深入分析。0类别分布:如第2节所讨论的,除了SOT基准测试外,对于像人或车辆这样的目标,遮挡问题已经受到了很多关注。因此,我们精心策划了HOOT,使其能够与这些其他数据集互补。因此,HOOT中的大多数视频来自于出现在常见检测或跟踪数据集中的日常对象。HOOT中的类别多样性使其成为更适合通用目标跟踪的基准测试。类别分布可以在图2中找到。0训练和评估均可:该基准还设计为足够大,以提供跟踪器的训练和评估选项。HOOT中的视频可以与其他低遮挡数据集一起使用,以训练更具遮挡不变性的跟踪器。我们相信有效地使用HOOT注释来训练更具遮挡鲁棒性的跟踪器可以成为一个更广泛的研究课题,并将其排除在本文的范围之外。我们期望HOOT在未来会不断发展,并继续成为解决视觉目标跟踪中遮挡问题的重要资源。48340(a)目标属性。0(b)运动属性。0(c)遮挡属性。0图3:HOOT中目标、运动和遮挡属性的视频级分布。03.2.基准概述。0本节提供了关于基准的进一步细节,包括一般统计数据,更重要的是其与遮挡相关的属性的详细统计数据。HOOT包括581个高质量视频(1080p或更高分辨率,帧率为30-60fps),每个视频平均持续时间为22.5秒。该数据集拥有超过3小时的录像,并提供近436K帧。更多细节可以在表2中找到。基准中74个物体类别的分布可见于图2。该基准具有13个标记属性,包括目标(3个)、运动(4个)和遮挡(6个)相关属性。目标和运动属性仅标记每个视频,而遮挡属性则同时标记每帧和视频。03.2.1 目标和运动属性。0与目标相关的属性定义了目标是否可变形、自主移动(非人类或设备移动)或有生命力。可变形属性允许我们跟踪在遮挡时形状发生变化的可变形物体的视频,此时边界框可能不太准确。如预期的受控遮挡场景,许多日常物体的视频包括由人类主体移动的目标,这使用自主移动属性进行标注。在我们的评估中,我们没有观察到跟踪器锁定非自主移动的物体的手的模式。我们还为每个视频标记了4个运动属性。摄像机运动标记可能具有不同程度的摄像机运动的视频。虽然HOOT中的大多数目标都是动态的(由动态目标属性表示),但也有一些静态目标场景,其中遮挡物是由视差(摄像机移动导致的遮挡)或移动遮挡物(摄像机静止时)引起的。这些情况由视差属性和移动遮挡物属性表示。HOOT中目标和与运动相关的属性的分布见图3a和图3b。0总视频数 581 最少帧数 41 最短持续时间 0.98秒 总类别数 74 最多帧数 4596 最长持续时间 1分钟38秒 总属性数13 平均帧数 750 平均持续时间 22.5秒 总遮挡属性数 6 中位帧数 708 中位持续时间 21.6秒 遮挡帧百分比 68%总帧数 435,790 总持续时间 3小时38分钟0表2:HOOT基准的一般统计数据。03.2.2 遮挡属性。0HOOT对视觉目标跟踪领域的主要贡献是提供了密集的与遮挡相关的注释,包括:0• 每帧标记的6个遮挡属性,• 遮挡物类型的分类,以及•每个目标边界框的遮挡掩码,按照定义的分类进行标记。0如第3.1节所述,每帧标注的6个遮挡属性为:缺失、完全遮挡、被帧切割、部分遮挡、被相似物体遮挡和被多种遮挡类型遮挡。这些属性的视频级分布可见于图3c,帧级分布可见于图5a,其中显示目标在59.9%的帧中部分遮挡。完全遮挡和缺失的情况也有,但发生的频率远低于其他情况,因为长期跟踪不在该项目的范围内。目标只在0.8%的帧中超出画面范围,即3.6K帧。除了帧级标注的大量部分遮挡外,该基准还具有显著的帧切割表示(物体部分移出画面)。标记为多种遮挡类型的帧可以帮助分析跟踪器对越来越复杂遮挡物的效果。此外,被相似物体遮挡的标签可以帮助评估目标被也可以被视为干扰物的物体遮挡时的性能。除了每帧标记的这6个遮挡属性,HOOT还密集标注了4种遮挡物类型。这些遮挡物分类如下所定义,并在图4中给出了每种类型的视觉示例:48350(a)实体遮挡物(适用于目标apple,bird,clock和remote)。0(b)稀疏遮挡物(适用于目标coin,potted plant,cup和book)。0(c)半透明遮挡物(适用于目标ball,shoe,Rubik'scube和potted plant)。0(d)透明遮挡物(适用于目标rag,orange,plate和glass)。0图4:基准分类中不同类型遮挡物的示例图像。0• 实体 -遮挡物完全阻止了来自目标的视觉信息(例如树干,墙壁)。0• 稀疏 -遮挡物由稀疏分布的实体组成,允许从目标获取不同程度的视觉信息(例如树叶,栏杆,百叶窗)。这使得我们不需要使用像素级分割来标记这些复杂的遮挡物。0• 半透明 -目标完全被允许一些改变的视觉信息通过的遮挡物完全覆盖(例如磨砂玻璃,有色塑料,紧密网格)。0• 透明 -目标完全被允许大部分未改变的视觉信息通过的遮挡物完全覆盖(例如玻璃,透明塑料)。0上述定义的遮挡物类型对于HOOT提供的密集遮挡物掩码尤为重要。如图1中的示例图像所示,每个掩码都标有相应的遮挡物类型。这确保了边界框中目标的粗略像素级遮挡信息。例如,与实体遮挡物相比,透明遮挡物标记的区域可以从目标中获取更多的视觉信息。0(a)遮挡属性分布。0(b)遮挡级别分布。0图5:(a)HOOT中每帧与遮挡相关的属性。(b)HOOT中所有部分遮挡帧中不同遮挡物类型的目标遮挡级别。完全实体遮挡表示目标完全被遮挡,这就是为什么实体遮挡没有具有遮挡比例1.0的部分遮挡帧,而其他类型可能有的原因。0遮挡物。通过这些遮挡物,我们可以计算每帧中目标的遮挡百分比,使用遮挡物掩码与目标边界框的交集。图5b显示了HOOT中目标部分遮挡帧的遮挡比例分布。总体而言,我们发现17.6%、22%、36%和48%的部分遮挡帧中包含透明、半透明、稀疏和实体遮挡物。03.3. 视频收集和注释0HOOT中的视频由作者和其他招募的贡献者(包括研究生)在各种环境(公共和私人)中收集,以增加背景的变化。招募者接受了关于数据集的一般目标和遮挡物分类的教程,以及作者拍摄的示例视频。作者对收集的视频进行了剪辑,以确保第一帧中完整的目标可见性和严重的遮挡。收集的视频的注释由一组研究生团队使用计算机视觉注释工具(CVAT)[28]进行。作者对注释团队进行了培训,以确保一致的注释,并在过程中给予持续反馈。在评估之前进行了两轮验证,以确保注释达到了高标准。有关收集和注释所遵循的详细程序的更多细节可以在补充材料的第2节中找到。03.4. 评估协议0受LaSOT[9]的启发,我们提出了两个协议来评估HOOT基准上的跟踪器。协议I:该协议包括基准中的所有581个视频,旨在提供一个评估和分析跟踪器在不同类型遮挡下的性能的平台。该协议假设被评估的跟踪器在开发过程中没有使用任何HOOT视频。SiamRPN [21]AlexNetCVPR’180.1020.3660.3220.1020.3620.312SiamMask [32]ResNet-50CVPR’190.1260.4130.3540.1370.4430.371ATOM [5]ResNet-18CVPR’190.1210.4150.3560.1210.4200.352SiamRPN++ [20]ResNet-50CVPR’190.1400.4470.3920.1420.4480.389SiamRPN++ (LT) [20]ResNet-50CVPR’190.1350.4170.3820.1480.4400.394SiamDW [40]CIResNet-22CVPR’190.0920.3480.3050.1060.3610.316DiMP [3]ResNet-50ICCV’190.1430.4700.4070.1370.4620.399PrDiMP [6]ResNet-50CVPR’200.1420.4670.4040.1420.4860.420Ocean [41]ResNet-50ECCV’200.1420.4750.3990.1340.4670.389SuperDiMP [3, 6]ResNet-50-0.1520.4990.4350.1410.4950.427TransT [4]ResNet-50CVPR’210.2300.5970.4990.2350.5890.492KeepTrack [22]ResNet-50ICCV’210.1770.5780.4920.1690.5700.484AutoMatch [39]ResNet-50ICCV’210.1580.4800.3990.1600.4780.394Stark-ST50 [37]ResNet-50ICCV’210.2020.5570.4880.2090.5630.491Stark-ST101 [37]ResNet-101ICCV’210.2120.5640.4890.2160.5710.49548360协议I(所有视频) 协议II(测试集) 跟踪器 骨干网络 会议 精度 标准化精度 成功率 精度 标准化精度 成功率0表3:15个最先进的跟踪器在HOOT协议中的整体性能结果,该协议在第3.4节中定义。度量标准的计算方法如第4.1节所述。绿色、红色和橙色数字分别代表前3名表现者。0(a) 协议I0(b) 协议II0图6:在HOOT上评估的最先进跟踪器的成功曲线。跟踪器根据AUC进行排名。0协议II对于协议II,我们提供了一个较小的测试集,用于评估跟踪算法在严重遮挡场景下的性能。测试集包含130个视频。从至少有3个视频的每个对象类中随机选择两个视频,创建一个类平衡的测试集。130个测试集视频的总帧数为95K。遮挡相关属性和遮挡器类型的分布可以在补充材料第3节中找到。对于这个协议,HOOT中的其余视频可用于算法的开发和训练。04. 实验0在本节中,我们在HOOT协议上对各种最先进的跟踪算法进行基准测试,并对不同遮挡属性进行分析。04.1. 性能指标0HOOT使用一次性评估(或OPE)进行评估,就像领域中的许多数据集一样[9, 24,36]。用于计算性能的指标包括成功率、精度和标准化精度。成功率是通过预测框与真实框之间的交并比(IoU)计算的,其中成功表示IoU(或重叠)高于某个阈值。对于成功率,跟踪算法使用0到1之间的曲线下面积(AUC)进行排名。我们还采用精度和标准化精度,后者在[24]中定义。精度通过查看预测框与真实框之间距离在某个阈值以下的帧的百分比来计算[35]。另一方面,标准化精度考虑了分辨率和目标尺度的变化,通过将该距离与真实边界框的大小进行归一化来计算[24]。所有性能结果都是通过将HOOT中的旋转边界框转换为轴对齐框来计算的,这是大多数跟踪器的输出格式。04.2. 总体表现0在本节中,我们在HOOT的两个协议上评估了15个最新的跟踪器,并在上述度量标准的结果中在表3中呈现。我们选择了具有公开可用代码和发布模型权重的跟踪器进行评估。评估的跟踪器代表了各种视觉跟踪器类型。我们评估了5个全卷积Siamese跟踪器:SiamRPN [21],SiamMask[32],SiamRPN++及其长期配置SiamRPN++ (LT)[20],以及SiamDW[40]。我们还评估了最近进行在线训练的作品。其中包括ATOM [5],它训练了一个在线分类器,以及DiMP [3],48370(a) 实心0(b) 稀疏0(c) 半透明0(d) 透明0图7:根据HOOT中注释的不同遮挡器类型计算的协议I的成功曲线。0(a) 完全遮挡0(b) 相似物体0图8:根据HOOT中注释的一些属性计算的协议I的成功曲线。0其中训练了一个在线模型优化器的SiamRPN++[5],以及DiMP变体PrDiMP[6]和SuperDiMP。基于SuperDiMP的最新跟踪器KeepTrack[22]专注于通过利用目标候选关联网络来跟踪干扰物。Ocean [41]是一种无锚点跟踪器,也是最近的AutoMatch[39]的基准。最后,TransT [4]和Stark[37]使用transformers进行视觉跟踪。总体而言,跟踪器在HOOT上表现不佳,最好的表现者TransT、KeepTrack和Stark与它们在LaSOT上的表现相比下降了15-17%(补充材料,第1节)。与[17]类似,这表明目前最先进的跟踪器在严重遮挡场景下仍然容易受到影响。此外,这也证明了将HOOT添加到该领域中,既是一个广泛的评估资源,也是一个训练资源(具有密集的遮挡标签)。两个协议的成功曲线如图6所示,定性结果见补充材料第4节。04.3. 遮挡属性评估0我们还使用协议I评估了具有不同视频遮挡器属性的跟踪器。包含实心、稀疏、半透明和透明遮挡器的视频的成功曲线如下:0图7显示了包含完全遮挡和被相似物体遮挡的HOOT视频的成功曲线。我们发现,对于半透明遮挡器,性能下降更大,这意味着即使在野外一些目标上仍然存在一些视觉信息,但这些遮挡器对跟踪器的影响最大。图8显示了HOOT视频中包含完全遮挡和被相似物体遮挡的情况的成功曲线。我们发现,与KeepTrack相比,顶级transformer跟踪器在完全遮挡方面遭受了更大的下降,而SiamRPN++(LT)在排名上升,因为它专注于长期跟踪。如图8b所示,相似的遮挡器对跟踪器的影响最大。所有跟踪器的AUC分数都有较大下降,包括专注于处理干扰物的KeepTrack。由于空间限制,所有其他属性的进一步结果和讨论可以在补充材料第5节中找到。05. 结论0在本文中,我们介绍了HOOT,即重度遮挡物体跟踪基准,并评估了最先进的跟踪器在数据集中呈现的重度遮挡场景中的表现。HOOT是单目标跟踪中第一个为每个帧详细注释遮挡的数据集。它为数据集中的每个框提供了遮挡器掩码,并定义了一个遮挡器分类法来分析跟踪器对不同遮挡器的性能。通过两个评估协议,HOOT允许对重度遮挡进行跟踪器的训练和测试,并有助于未来开发越来越具有遮挡鲁棒性的跟踪算法。0致谢:本工作得到C-BRIC(JUMP的六个中心之一,由DARPA赞助的半导体研究公司(SRC)计划之一),DARPA(HR00112190134)和美国陆军研究办公室(W911NF2020053)的支持。作者们确认此处所表达的观点仅代表他们自己的观点,不代表美国政府或其任何机构的观点。48380参考文献0[1] Claudine Badue, Rˆanik Guidolini, Raphael VivacquaCarneiro, Pedro Azevedo, Vinicius B Cardoso, AvelinoForechi, Luan Jesus, Rodrigo Berriel, Thiago M Paixao, Fil-ipe Mutz, et al. 自动驾驶汽车:一项调查。专家系统与应用,165:113816,2021年。0[2] Fr´ed´eric Bergeron, Kevin Bouchard, S´ebastienGaboury和Sylvain Giroux。在智能家居中跟踪对象。ExpertSystems with Applications,113:428-442,2018年。0[3] Goutam Bhat, Martin Danelljan, Luc Van Gool和RaduTimofte。学习区分模型预测进行跟踪。在IEEE/CVF国际计算机视觉会议论文集中,页码6182-6191,2019年。0[4] Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, XiaoyunYang和HuchuanLu。Transformer跟踪。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码8126-8135,2021年。0[5] Martin Danelljan, Goutam Bhat, Fahad ShahbazKhan和MichaelFelsberg。Atom:通过重叠最大化实现准确跟踪。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码4660-4669,2019年。0[6] Martin Danelljan, Luc Van Gool和RaduTimofte。概率回归用于视觉跟踪。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码7183-7192,2020年。0[7] Patrick Dendorfer, Hamid Rezato�ghi, Anton Milan, JavenShi, Daniel Cremers, Ian Reid, Stefan Roth, KonradSchindler和LauraLeal-Taix´e。Mot20:拥挤场景中多目标跟踪的基准。arXiv预印本arXiv:2003.09003,2020年。0[8] Xingping Dong, Jianbing Shen, Dajiang Yu, WenguanWang, Jianhong Liu和HuaHuang。考虑遮挡的实时目标跟踪。IEEE多媒体交易,19(4):763-771,2016年。0[9] Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, SijiaYu, Hexin Bai, Yong Xu, Chunyuan Liao和HaibinLing。Lasot:用于大规模单目标跟踪的高质量基准。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码5374-5383,2019年。0[10] Heng Fan, Halady Akhilesha Miththanthaya, SiranjivRamana Rajan, Xiaoqiong Liu, Zhilin Zou, Yuewei Lin, HaibinLing等。透明对象跟踪基准。在IEEE/CVF国际计算机视觉会议论文集中,页码10734-10743,2021年。0[11] Lianghua Huang, Xin Zhao和KaiqiHuang。Got-10k:用于野外通用对象跟踪的大规模高多样性基准。IEEE模式分析与机器智能交易,43(5):1562-1577,2019年。0[12] Omar Javed和MubarakShah。用于自动化监视的跟踪和对象分类。在欧洲计算机视觉会议上,页码343-357。Springer,2002年。0[13] S Hamidreza Kasaei, Miguel Oliveira, Gi Hyun Lim, Lu´ısSeabra Lopes和Ana MariaTom´e。迈向终身辅助机器人:对象感知和操作的紧密耦合。0感知和操作。Neurocomputing,291:151-166,2018年。0[14] Hamed Kiani Galoogahi, Ashton Fagg, Chen Huang, DevaRamanan和Simon Lucey。Need for speed:用于更高帧率目标跟踪的基准。在IEEE国际计算机视觉会议论文集中,页码1125-1134,2017年。0[15] Matej Kristan, Jiˇr´ı Matas, Aleˇs Leonardis, MichaelFelsberg, Roman P�ugfelder, Joni-Kristian K¨am¨ar¨ainen,Hyung Jin Chang, Martin Danelljan, Luka Cehovin, AlanLukeˇziˇc等。第九届视觉对象跟踪vot2021挑战赛结果。在IEEE/CVF国际计算机视觉会议论文集中,页码2711-2738,2021年。0[16] Matej Kristan, Roman P�ugfelder, Ales Leonardis, JiriMatas, Fatih Porikli, Luka Cehovin, Georg Nebehay, GustavoFernandez, TomasVojir等。vot2013挑战赛:概述和额外结果。2014年。0[17] Thijs P Kuipers, Devanshu Arya和Deepak KGupta。视觉对象跟踪中的困难遮挡。在欧洲计算机视觉会议上,页码299-314。Springer,2020年。0[18] Beng Yong Lee, Lee Hung Liew, Wai Shiang Cheah, andYin Chai Wang.视频目标跟踪中的遮挡处理:一项调查。在IOP地球与环境科学会议系列中,卷18,页码012020。IOP出版社,2014年。0[19] Annan Li, Min Lin, Yi Wu, Ming-Hsuan Yang, andShuicheng Yan.Nus-pro:一个新的视觉跟踪挑战。IEEE模式分析与机器智能交易,38(2):335-349,2015年。0[20] Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing,and Junjie Yan.Siamrpn++:具有非常深网络的孪生视觉跟踪的演变。在IEEE/CVF计算机视觉和模式识别会议的论文集中,页码为4282-4291,2019年。0[21] Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, and Xiaolin Hu.具有孪生区域提议网络的高性能视觉跟踪。在IEEE计算机视觉和模式识别会议的论文集中,页码为8971-8980,2018年。0[22] Christoph Mayer, Martin Danelljan, Danda Pani Paudel,and Luc Van Gool.学习目标候选关联以跟踪不需要跟踪的内容。在IEEE/CVF国际计算机视觉会议的论文集中,页码为13444-13454,2021年。0[23] Matthias Mueller, Neil Smith, and Bernard Ghanem.无人机跟踪的基准和模拟器。在Bastian Leibe,Jiri Matas,NicuSebe和Max Welling编辑的《计算机视觉-ECCV2016》中,页码为445-461,2016年。Springer InternationalPublishing。0[24] Matthias Muller, Adel Bibi, Silvio Giancola, Salman Al-subaihi, and Bernard Ghanem.Trackingnet:野外物体跟踪的大规模数据集和基准。在欧洲计算机视觉会议(ECCV)的论文集中,页码为300-317,2018年。0[25] Yanwei Pang, Jin Xie, Muhammad Haris Khan, RaoMuhammad Anwer, Fahad Shahbaz Khan, and Ling Shao.基于掩蔽引导的遮挡注意网络48390行人检测。在IEEE/CVF国际计算机视觉会议的论文集中,页码为4967-4975,2019年。0[26] Jiyang Qi, Yan Gao, Yao Hu, Xinggang Wang, Xiaoyu Liu,Xiang Bai, Serge Belongie, Alan Yuille, Philip HS Torr, andSong Bai.遮挡视频实例分割。arXiv预印本arXiv:2102.01558,2021年。0[27] Gozde Sahin and Laurent Itti.实时视觉目标跟踪的多任务遮挡学习。在2021年IEEE国际图像处理会议(ICIP)上,页码为524-528。IEEE,2021年。0[28] Boris Sekachev, Nikita Manovich, Maxim Zhiltsov, An-drey Zhavoronkov, Dmitry Kalinin, Ben Hoff, TOsmanov,Dmitry Kruchinin, Artyom Zankevich, DmitriySidnev, Mak- simMarkelov, Johannes222, Mathis Chenuet, a andre, te-lenachos, Aleksandr Melnikov, Jijoong Kim, Liron Ilouz, Niki
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功