没有合适的资源?快使用搜索试试~ 我知道了~
5374LaSOT:大规模单目标跟踪范恒1林丽婷2杨凡1楚鹏1邓戈1于思佳1白贺欣1徐勇2廖春元3凌海滨1†1美国费城天普大学计算机与信息科学系2华南大学计算机科学与工程学院&技术,广州,鹏程实验室,深圳,中国3美图HiScene实验室,HiScene信息技术,上海,中国https://cis.temple.edu/lasot/摘要本文介绍了LaSOT,一种用于大型单目标跟踪的高质量基准。LaSOT由1,400个序列组成,总帧数超过350万。这些序列中的每一帧都用边界框仔细地手动注释,使LaSOT成为最大的,据我们所知,密集注释的跟踪基准。LaSOT的平均视频长度超过2,500帧,并且每个序列包括来自野外的各种挑战,其中目标对象可 能 会 消 失 并 再 次 出 现 在 视 图 中 通 过 重 新 租 赁LaSOT,我们希望为社区提供一个大规模的专用基准,用于深度跟踪器的训练和跟踪算法的真实评估此外,考虑到视觉外观与自然语言的密切联系,我们通过提供额外的语言规范来丰富LaSOT,旨在鼓励对自然语言特征的探索以用于跟踪。对LaSOT上的35种跟踪算法进行了全面的实验评估,并进行了详细的分析,结果表明仍有很大的改进空间。1. 介绍视觉跟踪旨在通过第一帧中的初始边界框在视频中定位任意目标,一直是计算机视觉中最重要的问题之一,具有许多应用,如视频监控,机器人,人机交互等[32,47,54]。随着跟踪技术的不断发展,人们提出了大量的跟踪算法.在这一过程中,跟踪基准在客观评估中发挥了至关重要的作用作者对这项工作做出了同等的贡献。†通讯作者。图1.总结现有的跟踪基准与高质量的密集(每帧)注释,包括OTB-2013 [52],OTB-2015 [53],TC-128 [35],NUS-PRO[28],UAV 123 [39],UAV20L [39],VOT-2014 [26],VOT-2017 [27]和LaSOT。的圆直径与基准点的帧数成比例拟议的LaSOT比所有其他基准都大,并侧重于长期跟踪。最好用彩色观看。评估和比较不同的跟踪器。然而,跟踪算法的进一步开发和评估受到现有基准的限制,存在以下几个问题:小规模的。 深层次的表现已经普遍应用-应用于现代物体跟踪算法,恶魔-最先进的表演。然而,由于大规模跟踪数据集的稀缺性,使用跟踪特定视频来训练深度跟踪器是困难的。如图1,现有数据集很少有超过400个序列。因此,研究人员只能利用预先训练的模型(例如,[46]和[18])或来自视频对象检测的序列(例如,[45]和[43])进行深度特征学习,由于不同任务之间的内在差异,这可能导致次优跟踪性能[55]。此外,为了获得更可靠的评估结果,需要大规模的基准点。缺乏高质量的密集注释。为了追踪无人机20LLaSOTUAV123OTB-2013OTB-2015VOT-2014VOT-2017公司简介NUS-PRO5375表1.LaSOT与文献中最流行的密集基准的比较基准视频Min帧是说帧中值帧Max帧总帧总持续时间帧率缺席标签对象类类平衡Num. 的属性舌特征OTB-2013[52]51715783923,87229K16.4分钟30 fps✗10✗11✗OTB-2015[53]100715903933,87259K32.8分钟30 fps✗16✗11✗TC-128[35]128714293653,872五万五千30.7分钟30 fps✗27✗11✗[26]第二十六话251644093071,21010K5·7min30 fps✗11✗n/a✗[27]第27话60413562931,50021K11.9分钟30 fps✗24✗n/a✗[28]第二十八话3651463713005,040135K75.2分钟30 fps✗8✗n/a✗无人机123[39]1231099158823,085113K62.5分钟30 fps✗9✗12✗[39]第三十九话201,7172,9342,6265,52759K32.6分钟30 fps✗5✗12✗NfS[14]1001693,8302,44820,665383K26.6分钟240 fps✗17✗9✗[22]第二十二话10,000----1.5米-10 fps✓563✗6✗LaSOT1,4001,0002,5062,05311,3973.52百万32.5小时30 fps✓70✓14✓致密(即,每帧)具有高精度的注释是重要的,原因有几个。(i)它们确保更准确和可靠的评价;(ii)它们为跟踪算法的训练提供期望的训练样本;以及(iii)它们在连续帧之间提供了丰富的时间上下文,这对于跟踪任务是重要的。值得注意的是,最近提出了针对大规模和长期跟踪的基准,例如[41]和[51],然而,它们的注释或者是半自动的(例如,由跟踪算法产生)或稀疏(例如,每30帧标记一次),限制了它们的可用性。短期跟踪。期望的跟踪器能够在相对长的时间段内定位目标,在该时间段内目标可能消失并重新进入视图。然而,大多数现有的基准都集中在平均序列长度小于600帧(即,20秒,30 fps,再次参见图。1)并且目标几乎总是出现在视频帧中。对这种短期基准的评估可能无法反映跟踪器在实际应用中的真实性能,从而限制了实际部署。分类偏见。一个鲁棒的跟踪系统应该表现出对目标所属类别不敏感的稳定性能,这意味着在训练和评估跟踪算法时都应该抑制类别偏差(或类别不平衡)然而,现有的基准通常只包括几个类别(见表1)。1)视频数量不均衡在文献中,已经提出了许多数据集来处理上述问题:例如,[39,51]用于长期跟踪,[41]用于大规模,[52,35,25]用于精确密集注释。然而,没有一个解决所有问题,这促使LaSOT的建议。1.1. 贡献基于上述动机,我们为社区提供了一个具有多方面贡献的大型单对象跟踪1) LaSOT包含1,400个视频,平均2512个每序列帧。每一帧都经过仔细检查和手动标记,并在需要时对结果进行目视检查和纠正。这样我们就能估计大约352万个高质量的边界框符号。此外,LaSOT包含70个类别,每个类别由20个序列组成据我们所知,LaSOT是迄今为止用于对象跟踪的具有高质量手动密集注释的最大基准通过重新租赁LaSOT,我们的目标是为跟踪算法的开发和评估提供一个专用平台2) 与现有的数据集不同,LaSOT提供了视觉边界框注释和丰富的自然语言规范,最近已被证明有利于各种视觉任务(例如,[21,31]),包括视觉跟踪[34]。通过这样做,我们的目标是鼓励和促进整合视觉和语言功能的强大的跟踪性能的探索。3) 为了评估现有的跟踪器并为将来在LaSOT上进行比较提供广泛的基线,我们在不同的协议下评估了35个有代表性的跟踪器,并使用不同的指标分析了它们的性能。2. 相关工作近几十年来,随着跟踪技术的不断发展在本节中,我们主要关注与我们的工作相关的跟踪基准,并请读者参考跟踪算法的调查[32,47,54,30]。对于系统性综述,我们有意将跟踪基准分为两种类型:一个具有密集手动注释(简称为密集基准),另一个具有稀疏和/或(半)自动注释。下面,我们将分别回顾这两个类别。2.1. 密集基准密集跟踪基准为每个视频序列提供密集的边界为了确保高质量,通常手动标记边界框并仔细检查。对于视觉跟踪任务,这些高度精确的注释是训练和评估跟踪器所需目前,流行的密集基准测试包括OTB [52,53],TC-128 [35],VOT [25],NUS-PRO [28],[14][15][16][17][19]OTB OTB -2013 [52]首先提供了一个测试数据集5376通过在每帧中收集51个具有手动注释的边界框的视频。为了进一步分析跟踪性能,用11个属性对序列进行标记。后来,OTB-2013通过引入额外的50个序列扩展到更大的OTB-2015 [53]。TC-128 TC-128 [35]包含128个视频,专门用于评估色彩增强型跟踪器。这些视频被标记为11个与OTB相似的属性[52]。VOT。 VOT [25]引入了一系列跟踪竞赛,每个竞赛中最多有60个序列,旨在在相对较短的时间内评估跟踪器的性能。VOT数据集中的每一帧都用具有若干属性的旋转边界框进行注释。NUS-PRO。NUS-PRO [28]包含365个序列,重点关注人类和刚性物体跟踪。NUS-PRO中的每个序列都注释了靶位置和闭合水平以供评价。无人机 UAV123和UAV20L用于无人机(UAV)跟踪,分别包括123个短序列和20个长序列。UAV123和UAV20L都标有12个属性。NfS。NfS [14]提供了100个具有240 fps高帧速率的序列,旨在分析外观变化对跟踪性能的影响。- 一万。GOT-10 k [22]包含10,000个视频,旨在为开发和评估跟踪器提供丰富的运动轨迹。LaSOT属于密集跟踪数据集的范畴LaSOT是最大的,有352万帧,平均序列长度为2,512帧。此外,LaSOT为每个视频提供额外的语言描述选项卡. 1提供了LaSOT与现有密集基准的详细对比。2.2. 其他基准除了密集跟踪基准之外,还存在可能不为每个帧提供高质量注释的其他基准。相反,这些基准要么被稀疏地注释(例如,每30帧)或通过跟踪算法(半)自动标记。此类基准的代表包括ALOV [47]、Tracking-ingNet [41]和OxUvA [51]。ALOV[47]由314个标记为14个属性的序列组成。ALOV每5帧提供一次注释,而不是密集地注释每帧。TrackingNet[41]是视频对象检测基准YT-BB [43]的子集,通过选择30 K视频,每个视频都由跟踪器注释虽然用于注释的跟踪器在短时间内被证明是可靠的(即,1秒)在OTB 2015 [53]上,很难在 更 严 格 的 基 准 上 保 证 相 同 的 性 能 。 此 外 ,TrackingNet的平均序列长度不超过500帧,这可能无法证明跟踪器在长期场景中的性能[51]第51话[43]第43话与TrackingNet不同,OxUvA专注于长期跟踪。它包含366个视频,平均长度约为4,200帧。然而,OxUvA的问题在于其在连续帧中不提供密集注释。OxUvA中的每个视频每30帧注释一次,在开发跟踪算法时忽略连续帧之间的丰富时间上下文。尽管降低了标注成本,但对这些基准的评估可能不能忠实地反映跟踪算法的真实性能。此外,这可能会导致需要从注释学习时间模型的一些跟踪器出现问题,因为这些基准中的时间上下文可能由于稀疏注释而丢失,或者由于潜在的不可靠注释而不准确相比之下,LaSOT提供了大量具有高质量密集边界框注释的序列,这使得它更适合于开发深度跟踪器以及在实际应用中评估长期跟踪。3. LaSOT基准3.1. 设计原理LaSOT旨在为社区提供一个专门的数据集,用于训练和评估跟踪器。为此,我们在构建LaSOT时遵循了五个原则,包括大规模、高质量的密集标注、长期跟踪、类别平衡和全面标注。1) 大规模的。 LaSOT的主要动机之一是为训练数据饥渴的深度跟踪器提供数据集,这需要大量的注释序列。因此,我们期望这样的数据集包含至少一千个视频,至少一百万帧。2) 高质量的密集注释。 如前所述,跟踪数据集需要具有高质量的密集边界框注释,这对于训练鲁棒的跟踪器以及忠实的评估至关重要为此,LaSOT中的每个序列都经过手动注释,并进行额外的仔细检查和微调。3) 长期跟踪。与短期跟踪相比,长期跟踪更能反映跟踪器在野外的实际性能。我们确保每个序列至少包括1,000帧,LaSOT中的平均序列长度约为2,500帧。4) 类别平衡。一个鲁棒的跟踪器被期望一致地执行,而不管目标对象属于哪种类别。为了这个目的,在LaSOT中,我们从70个类中包含一组不同的对象,每个类包含相同数量的视频。5) 全面的标签。作为一项复杂的任务,跟踪最近从自然语言规范中得到了改进。为了激发更多的探索,LaSOT的一个原则是为视频提供全面的标签,包括视觉和语言注释。5377初始注释微调注释3.2. 数据收集我们的基准测试涵盖了不同上下文中的各种对象具体而言,LaSOT由70个对象类别组成。大多数类别都是从ImageNet的1,000个类中选择的[12],只有少数例外(例如,无人机),其被精心选择用于流行的跟踪应用。与现有的密集基准不同,现有的密集基准具有少于30个类别并且通常分布不均匀,LaSOT为每个类别提供相同数量的序列以减轻潜在的类别偏差。数据集的详细情况见补充材料。在确定了LaSOT中的70个对象类别之后,我们我从YouTube上搜索了每堂课的视频。最初,我们收集了5,000多个视频。结合跟踪视频的质量和LaSOT的设计原则,我们挑选出1,400个视频。然而,由于大量的不相关内容,这1,400个序列不能立即用于例如,对于人类别的视频(例如,一个运动员),它往往在开始时包含每个运动员的一些介绍内容因此,我们仔细过滤掉每个视频中这些不相关的内容此外,LaSOT中的每个类别由20个目标组成,反映了自然场景的类别平衡性和多样性。最终,我们根据Creative Commons许可从YouTube收集了1,400个序列和352万帧,编制了一个大规模的数据集。LaSOT的平均视频长度是2,512帧(即,84秒,30 fps)。最短的视频包含1,000帧(即,33秒),而最长的一个包括11,397帧(即,378秒)。3.3. 注释为了提供一致的边界框注释,我们定义了一个确定性的注释策略。 给定具有特定跟踪目标的视频,对于每个帧,如果目标对象出现在帧中,则标注器手动绘制/编辑其边界框作为最紧密的右上边界框以适合目标的任何可见部分;否则,贴标签器给帧一个缺席的标签,或者是视野外的,或者是完全遮挡的。注意,这种策略不能保证最小化框中的背景区域,如在任何其他基准点中观察到的然而,该策略确实提供了一个一致的符号,该符号对于学习动态是相对稳定的。虽然上述策略在大多数情况下都很有效,但也存在例外。一些物体,例如。鼠标可以具有细长且高度可变形的部分,例如,一个尾巴,它不仅会造成严重的噪声,在目标的外观和形状,但也提供了很少的信息定位的目标对象。我们在LaSOT中仔细识别这些对象和相关视频,并为它们的表示法设计特定规则(例如,在画老鼠尾巴的时候,熊-12:巴士-19:马-1:人物-14:鼠标-6:图2.我们的LaSOT的示例序列和注释。我们专注于长期视频,其中目标对象可能会消失,然后再次重新进入视图。此外,我们为每个序列提供了自然语言规范。最好用彩色观看。图3. 微调初始注释的示例。边界框)。这种情况的一个例子显示在图的最后一行。二、序列的自然语言规范由描述目标的颜色、行为和环境的句子表示。对于LaSOT,我们为所有视频提供了1,400个句子。注意,语言描述旨在为跟踪提供辅助帮助。例如,如果跟踪器生成用于进一步处理的建议,则语言规范可以通过充当全局语义指导来帮助减少它们之间的歧义。显然,构建高质量的密集跟踪数据集的最大努力是手动标记、双重检查和纠错。为了完成这项任务,我们组建了一个注释团队,其中包括几位博士。相关领域的学生和大约10名志愿者。为了保证高质量的注释,每个视频都由团队处理:标签团队和验证团队。标签团队由一名志愿者和一名专家(博士)组成。学生)。志愿者手动绘制/编辑每帧中的目标然后,由验证团队审查注释结果,该验证团队包括几个(典型的5378表2.LaSOT中14种不同属性的描述属性定义属性定义CM摄影机的突然运动VC视点显著影响目标外观腐目标在图像SV边界框的比率在范围[0.5,2]DEF目标在跟踪过程BC背景具有与目标FOC目标在序列MB目标区域由于目标或摄像机运动而模糊IV目标区域中的照明改变电弧边界框长宽比的比率超出范围[0.5,2]OV目标完全离开视频帧LR目标框在至少一帧中小于1000像素POC目标在序列FM目标的运动大于其边界框的大小(a) LaSOT上每个属性中的序列分布(b)不同基准上的公共属性中的分布比较图4.LaSOT上每个属性的序列分布以及与其他基准的比较最好用彩色观看(三)专家。如果确认团队成员未一致同意注释结果,则将其发送回原始标签团队进行修订。为了尽可能提高注释质量,我们的团队非常仔细地检查注释结果并经常修改它们。大约40%的初始注释在第一轮验证中失败。而且许多帧被修改了三次以上图中给出了最初标记不正确或不准确的帧的一些具有挑战性的3 .第三章。通过所有这些努力,我们最终达到了一个具有高质量密集注释的基准,图中显示了一些示例。二、3.4. 属性为了进一步分析跟踪器的性能,我们为每个序列标记了14个属性,包括照明变化(IV)、完全遮挡(FOC)、部分遮挡(POC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、尺度变化(SV)、摄像机运动(CM)、旋转(ROT)、背景杂波(BC)、低分辨率(LR)、视点改变(VC)、视野外(OV)和宽高比改变(ARC)。属性在Tab中定义。2和图图4(a)示出了视频在每个属性中的分布从图4(a)中,我们观察到LaSOT中最常见的挑战因素是尺度变化(SV和ARC)、遮挡(POC和FOC)、变形(DEF)和旋转(ROT),这些都是现实应用中跟踪的众所周知的挑战。此外,Fig.4(b)显示了LaSOT与OTB- 2015 [53]和TC-128 [35]在重叠属性上的属性分布。从OTB-2015和TC-128的规模变化视频不到70个,LaSOT对规模变化更具挑战性。此外,在out-of-view属性上,LaSOT包含477个序列,比现有的基准测试要大得多。3.5. 评估协议虽然没有限制使用LaSOT,我们建议两个评估协议评估跟踪算法,并进行相应的评估。一议定书 在协议I中,我们使用所有1,400个序列来评估跟踪性能。研究人员被允许使用除LaSOT中的序列之外的任何序列来开发跟踪算法。协议I旨在提供跟踪器的大规模评估。第二号议定书在协议II中,我们将LaSOT分成训练和测试子集。根据80/20原则(即,Pareto原则),我们在每个类别中从20个视频中选择16个用于训练,其余的用于测试1。具体地,训练子集包含具有2.83M帧的1,120个视频,并且测试子集由具有690 K帧的280个序列组成。跟踪器的评估是在测试子集上进行的。协议II旨在同时提供大量视频用于训练和评估跟踪器。4. 评价4.1. 评估指标遵循流行的协议(例如OTB-2015 [53]),我们执行一次通过评估(OPE),并测量两种协议下不同跟踪算法的精度、归一化精度和成功率我们观察到,在洛杉矶有超过1,300个视频SOT涉及尺度变化。 与1相比,培训/测试的划分见补充材料。5379通过比较跟踪结果与以像素为单位的地面实况边界框之间的距离来计算精度。不同的跟踪器根据此指标进行排名,阈值(例如,20像素)。由于精度度量对目标大小和图像分辨率敏感,因此我们如[41]中那样对精度进行通过标准化的精度度量,我们使用0至0.5之间的曲线下面积(AUC)对跟踪算法进行排名。有关归一化精度度量,请参见[41]。成功被计算为跟踪结果和地面实况边界框之间的交集(IoU)使用0到1之间的AUC对跟踪算法4.2. 评估的追踪器我们在LaSOT上评估了35种算法,以提供广泛的基线,包括深度跟踪器(例如,[59]第59话:[59]第59话:[59]第59话:[59 ]第59话:DSiam [16],SINT [49]和VITAL [48]),具有手工制作特征的相关滤波跟踪器(例如,ECO HC [7]、DSST[8]、CN [11]、CSK [19]、KCF [20]、fDSST [9],SAMF [33]、SCT 4 [6]、STC [57]和Staple [3])或深特征(例如,HCFT [37]和ECO [7])和正则化表3.评估跟踪器的总结。代表:稀疏-稀疏表示,颜色-颜色名称或直方图,像素- 像素强度,HoG-定向像素的直方图,H或B- Haar或二进制,Deep-Deep特征。搜索:PF -粒子滤波,RS -随机采样,DS -密集采样。代表搜索IVT [44]MIL [1]IJCV08CVPR09✓H✓✓[第17话]ICCV 11H✓L1APG [2]CVPR 12✓✓[23]第二十三话CVPR 12✓✓CSK [19]ECCV 12✓✓CT [58]ECCV 12H✓第二十四章PAMI 12B✓中文[11]CVPR14✓ ✓✓DSST [8]BMVC14✓ ✓✓MEEM [56]ECCV14✓✓STC [57]ECCV14✓✓[33]第三十三话✓✓✓✓LCT [38]CVPR15✓ ✓✓SRDCF [10]ICCV15✓✓HCFT [37]ICCV15✓✓KCF [20]PAMI 15✓✓Staple [3]CVPR16✓ ✓✓SINT [49]CVPR16✓ ✓SCT4 [6]CVPR16✓✓MDNet [42]CVPR16✓ ✓标准化精确度和成功度分别为0.449和0.358。无需耗时的在线模型自适应,SiamFC实时高效运行。最好的包括MDNet、SiamFC、ECO、PTAV、Staple和MEEM在内的六种典型硬挑战,包括快速运动、完全遮挡、低分辨率、视野外、宽高比。PCA稀疏颜色像素生猪H或B深PFRs技术(例如,BACF [15],SRDCF [10],CSRDCF [36],SiamFC[4]ECCVW 16✓✓U型钉CA[40] CVPR 17✓✓✓StapleCA [40]和STRCF [29]),集合跟踪器(例如,ECO HC [7] CVPR17✓✓[13][14][15][16][17][18][19CVPR17CFNet [50] CVPR17跟踪器(例如,L1 APG [2]和ASLA [23]),其他代表-CSRDCF[36]CVPR 17(例如,[58][59][5[13]第十三话美国[16]选项卡. 3总结了这些跟踪器及其表示BACF[15] ICCV 17按时间顺序排列的方案和搜索策略。fDSST [9] PAMI 17[48]第四十八话 CVPR18机场班车[5] CVPR184.3.方案I STRCF的评价结果[29]CVPR 18整体性能。 协议I旨在提供大型-StructSiam[59]ECCV 18对LaSOT中的所有1,400个视频进行评估每个跟踪器用于评估,没有任何修改。在OPE中使用基于精确度、非属性的性能来处理评价结果报告,展示了它的优势。测试的精度和成功,如图所示五、与现有的跟踪器相比,Net在14个属性上实现了最好的精度分数0.374和成功算法。我们的得分为0.413,VITAL获得了最佳的标准化前最具挑战性的属性,即,cision评分为0.484。 MDNet和VITAL都是经过训练的,并且完全闭塞,如图所示。网络,取得了具有竞争力的结果与0.341精度的定性评价结果,✓ ✓✓ ✓✓ ✓✓ ✓ ✓✓ ✓✓ ✓✓ ✓✓ ✓✓ ✓✓ ✓✓ ✓外观变化。为了分析不同的chal-我们评估所有的跟踪ow的结果在三个快速运动,在视图外的阅读器,以提供基于评估。DS5380LaSOT上OPE的精度图1LaSOT1上OPE的归一化精密度图1OPE在LaSOT上的成功案例0.90.90.90.80.80.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.100 510015 20 25 30 35 40 45 50 0定位误差门限0.050.10.15 0.2 0.25 0.3 0.35 0.4 0.45定位误差门限00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1重叠阈值图5.使用精密度、标准化精密度和成功率对方案I下LaSOT的评价结果最好用彩色观看OPE-Fast Motion的成功案例(296)1OPE的成功图-完全闭塞(542)1OPE的成功图-低分辨率(661)10.90.90.90.80.80.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91重叠阈值00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91重叠阈值00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1重叠阈值图6.跟踪器在协议I下使用成功的三个最具挑战性的属性上的性能最好用彩色观看Meem钉PTAVECOSiamFCMDNetGT图7.六个典型硬挑战中的定性评价:具有快速运动的Yoyo-3、具有完全遮挡的Goldfish-4、具有低分辨率的Pool-4、具有视野外的Basketball-15、具有纵横比变化的Train-1以及具有背景杂波的Person-2。最好用彩色观看分辨率(例如,池-4)由于小目标的无效基于深度特征的跟踪器的解决方案是组合来自多个尺度的特征以将细节并入表示中。具有宽高比变化的视频是困难的,因为大多数现有的跟踪器要么忽略这个问题,要么采用简单的方法(例如,随机搜索或金字塔策略)来处理它。受基于深度学习的对象检测的成功启发,可以利用通用回归器来减少纵横比变化(和尺度变化)对跟踪的影响。对于有背景杂波、跟踪器由于对目标和背景的较少区别性表示而漂移。解决这个问题的一个可能的解决方案是利用上下文信息来增强区分度。4.4. 方案II的评价结果根据协议II,我们将LaSOT分为训练集和测试集。研究人员可以利用训练集中的序列来开发他们的跟踪器,并评估他们在测试集上的表现。为了提供基线,[0.374] MDNet[0.372]生命[0.341]暹罗足球俱乐部[0.340]结构暹罗[0.329] DSiam[0.299] SINT[0.298] ECO[0.292] STRCF[0.272] ECO_HC[0.265] CFNet[0.250] HFFT[0.243]PTAV[0.237] TRACA[0.231]吻合钉[0.231] CSRDCF[0.231]Staple_CA[0.227]SRDCF[0.224] MEEM[0.214] SAMF[0.196] DSST[0.193] LCT[0.192] fDSST[0.186]SCT4[0.185]打击[0.184]KCF[0.184][0.170] ASLA[0.158] CN[0.154] L1APG[0.142] STC[0.136] CSK[0.131] IVT[0.102] CT[0.484]生命[0.481] MDNet[0.449]暹罗足球俱乐部[0.443] StructSiam[0.432] DSiam[0.383] SINT[0.358] ECO[0.353] STRCF[0.330] CFNet[0.327] ECO_HC[0.307] BACF[0.298] U型钉_CA[0.298] TRACA[0.298] MEEM[0.297]吻合钉[0.283]PTAV[0.279] CSRDCF[0.279]SRDCF[0.271]SAMF[0.242] LCT[0.239] DSST[0.236]fDSST[0.231] SCT4[0.228] KCF[0.228]打击[0.224][0.213]ASLA[0.194] L1APG[0.194]中文[0.176] STC[0.174] CSK[0.173] IVT[0.145] CT[0.117] MIL[0.413] MDNet[0.412]生命[0.358]暹罗足球俱乐部[0.356] StructSiam[0.353] DSiam[0.340] ECO[0.339] SINT[0.315] STRCF[0.311] ECO_HC[0.296] CFNet[0.280] MEEM[0.277] BACF[0.272] HCFT[0.271] SRDCF[0.269] PTAV[0.266]吻合钉[0.263] CSRDCF[0.262] U型钉_CA[0.258] SAMF[0.246] LCT[0.234]打击[0.233] DSST[0.232] fDSST[0.228][0.214] SCT4[0.211] ASLA[0.211] KCF[0.186]中国[0.178] CT[0.172] CSK[0.168] L1APG[0.163] MIL[0.151] STC[0.136] IVT[0.250] MDNet[0.245]生命[0.217] ECO[0.214] SINT[0.208] DSiam[0.205] StructSiam[0.200]暹罗足球俱乐部[0.183] ECO_HC[0.180] STRCF[0.168] MEEM[0.157] CFNet[0.150][0.150] PTAV[0.149] SRDCF[0.146] TRACA[0.145] BACF[0.140] CSRDCF[0.138] HCFT[0.130]吻合钉[0.129] LCT[0.127] U型钉_CA[0.126] SAMF[0.121] fDSST[0.117]打击[0.109] DSST[0.109] SCT4[0.097] KCF[0.092] ASLA[0.085]中国[0.078] CT[0.074] CSK[0.073] MIL[0.069] STC[0.069] L1APG[0.304] MDNet[0.304]生命[0.260] StructSiam[0.260][0.255] SINT[0.253]暹罗足球俱乐部[0.247] ECO[0.218] ECO_HC[0.215] STRCF[0.213] MEEM[0.195] CFNet[0.189] SRDCF[0.182] PTAV[0.182] HCFT[0.180][0.176] BACF[0.173] CSRDCF[0.172] SAMF[0.166] LCT[0.164]吻合钉[0.164] U型钉_CA[0.162]打击[0.151] fDSST[0.151] SCT4[0.142] ASLA[0.139] KCF[0.138] DSST[0.119]中国[0.117] CT[0.108] MIL[0.108] CSK[0.105] L1APG[0.097] STC[0.079] IVT[0.308]生命[0.308] MDNet[0.263] ECO[0.259] DSiam[0.257] StructSiam[0.254]暹罗足球俱乐部[0.245] SINT[0.224] STRCF[0.220] ECO_HC[0.197] MEEM[0.192] CFNet[0.189] PTAV[0.187] TRACA[0.186] SRDCF[0.184] BACF[0.180] HCFT[0.176] CSRDCF[0.174][0.168]吻合钉[0.162] U型钉_CA[0.159] LCT[0.158] SAMF[0.155]打击[0.151] fDSST[0.137] DSST[0.133] SCT4[0.129] ASLA[0.125] KCF[0.114]中文[0.101] CT[0.101] L1APG[0.096] CSK[0.093] STC[0.093] MIL[0.070] IVT成功率精度成功率精度成功率成功率5381LaSOT测试集上OPE的精密度图1LaSOT测试集1上OPE的归一化精密度图1LaSOT测试集上OPE的成功图0.90.90.90.80.80.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.100 510015 20 25 30 35 40 45 50 0定位误差门限0.050.10.15 0.2 0.25 0.3 0.35 0.4 0.45定位误差门限00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1重叠阈值图8.使用精密度、标准化精密度和成功率对方案II下LaSOT的评价结果最好用彩色观看并在测试集上进行比较,对35种跟踪算法进行了评价每个跟踪器都用于评估,表4. 在LaSOT上重新训练SiamFC [4]。SiamFC-3s(彩色)没有任何修改或重新训练。评价结果如图所示。8、使用精度高,规格化精度高,成功率高。我们观察到与方案I一致的结果MDNet和VITAL表现出最佳性能,精确度得分为0.373和0.36,标准化精确度得分为0.46和0.453,成功得分为0.397ImageNet视频[45]LaSOT训练集0.39。接下来,SiamFC分别以0.339的精确度得分、0.42的归一化精确度得分和0.336的成功得分实现了排名第 三的性能 。尽管准 确性得分 略低于 MDNet和VITAL,但SiamFC运行速度更快,并实现了实时运行速度,在准确性和效率之间表现出良好的平衡。对于LaSOT测试集上跟踪器的基于属性的评估,我们建议读者参考补充材料因为空间有限。除了评估每个跟踪算法之外,我们还通过在LaSOT的训练集上重新训练两个代表性的深度跟踪器MDNet[42]和SiamFC [4]评估结果表明,这些跟踪器的性能类似,没有重新训练。一个潜在的原因是我们的重新训练可能不遵循原作者使用的相同配置此外,由于LaSOT通常比以前的数据集更具挑战性(例如,所有序列都是长期的),训练这些跟踪器可能需要专用配置。我们把这部分作为未来的工作,因为它超出了这个基准的范围。4.5. LaSOT再训练实验我们通过在LaSOT的训练集上重新训练SiamFC [4]来进行实验,以演示如何使用更多数据来改进基于深度选项卡. 4报告了OTB-2013 [52]和OTB-2015 [53]的结果,并与ImageNet Video [45]上训练的原始SiamFC的性能进行了比较。注意,我们利用彩色图像进行训练,并应用具有3个尺度的金字塔进行跟踪,即,SiamFC-3s(彩色)。所有训练参数和跟踪在这两个实验中保持相同。从Tab。4.我们在两个基准测试中观察到一致的性能增益,显示了特定大规模训练集对深度跟踪器的重要性5. 结论我们提出了LaSOT与高质量的密集边界框注释的视觉对象跟踪。据我们所知,LaSOT是迄今为止最大的具有高质量注释的跟踪基准。通过发布LaSOT,我们希望为跟踪社区提供一个专门的平台,用于训练深度跟踪器和评估长期跟踪性能。此外,LaSOT为每个序列提供了语言注释,旨在鼓励对整合视觉和语言特征以实现鲁棒跟踪的通过发布LaSOT,我们希望缩小深度跟踪器数量不断增加与缺乏大型专用数据集进行训练之间的差距,同时为不同的跟踪器提供更多真实的评估。在两个协议下对LaSOT进行了广泛的评估,这意味着视觉跟踪有很大的改进空间。谢谢。我们衷心感谢B。Huang,X.李角周湖,加-地Chen,J.Liang,J.王和匿名志愿者为他们帮助建设LaSOT。这项工作得到了国家重点研究发展计划(批准号:徐勇感谢国家自然科学基金(U1611461和61672241)、广东省重大基础研究培育项目(2016A030308013)的支持。[0.373] MDNet[0.360]生命[0.339]暹罗足球俱乐部[0.333] StructSiam[0.322] DSiam[0.301] ECO[0.298] STRCF[0.295] SINT[0.279] ECO_HC[0.259] CFNet[0.254] PTAV[0.241] HCFT[0.239]吻合钉[0.239] BACF[0.235] U型钉_CA[0.227] TRACA[0.227] MEEM[0.220] CSRDCF[0.219] SRDCF[0.203] SAMF[0.190] LCT[0.189] DSST[0.184] fDSST[0.181]打击[0.179] SCT4[0.174][0.168] ASLA[0.166] KCF[0.163]中文[0.155] L1APG[0.137] ST
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功