TrackingNet：一个大规模野外目标跟踪的数据集和基准

113 浏览量更新于2023-10-13 收藏 2.63MB PDF 举报

大规模数据集

基准测试

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

TrackingNet：一个用于野外目标跟踪的大规模数据集和基准MatthiasMu¨ller†，AdelBibi†，SilvioGiancola†，Salman Alsubaihi，and Bernard Ghanem阿卜杜拉国王科技大学，Thuwal，KSA{name. surname，matthias.mueller.2}@kaust.edu.sahttp://www.tracking-net.org抽象。尽管在对象跟踪中有许多发展，但是当前跟踪算法的进一步改进受限于小的且大多饱和的数据集。事实上，由于缺乏专用的大规模跟踪数据集，基于深度学习的数据饥渴跟踪器目前依赖于对象检测数据集。在这项工作中，我们提出了TrackingNet，第一个大规模的数据集和基准对象跟踪在野外。我们提供超过30K的视频，其中包含超过1400万个密集的边界框注释。我们的数据集涵盖了广泛和多样化背景下的各种对象类。通过发布这样一个大规模的数据集，我们希望深度跟踪器能够进一步改进和推广。此外，我们引入了一个由500个新视频组成的新基准，其分布与我们的训练数据集相似。通过隔离测试集的注释并提供在线评估服务器，我们为未来的对象跟踪器开发提供了一个公平的基准。深度跟踪器在我们数据集的一小部分上进行了微调，在OTB100上的性能提高了1.6%在TrackingNet测试中为1.7%。我们在TrackingNet上提供了一个广泛的基准，评估了20多个跟踪器。我们的研究结果表明，在野外的对象跟踪是远远没有得到解决。关键词：对象跟踪，数据集，基准测试，深度学习1介绍对象跟踪是计算机视觉中的常见任务，具有跨越几十年的悠久历史[50，30，44]。尽管在该领域取得了相当大的进展，但物体跟踪仍然是一项具有挑战性的任务。目前的跟踪器在已建立的数据集上表现良好，如OTB [48，49]和VOT [25，26，27，24，22，23]基准。然而，这些数据集中的大多数都相当小，并且不能完全代表在野外跟踪对象时所面临的挑战。*这项工作得到了阿卜杜拉国王科技大学（KAUST）赞助研究办公室（OSR）的支持。†表示相等贡献。2M. Mülle r，A. Bibi，S. Gian c ola、S. AlsubaihindB.GHANEMFig. 1. 我们的新TrackingNet测试集的跟踪示例。随着深度学习在计算机视觉中的兴起，跟踪社区目前正在接受数据驱动的学习方法。提交给年度挑战VOT17 [23]的大多数跟踪器都使用深度功能，而在早期版本VOT13 [26]和VOT14 [27]中不存在这些功能。此外，VOT17 [23]中十个性能最好的跟踪器中有九个依赖于深度特征，超过了以前最先进的跟踪器。然而，跟踪社区仍然缺乏专门的大规模数据集来训练深度跟踪器。因此，深度跟踪器通常限于使用来自对象分类的预训练模型[6]或使用对象检测数据集，如ImageNetVideos [42]。作为一个例子，SiameseFC [2]和CFNet [45]通过训练特定的卷积神经网络（CNN）来进行跟踪，显示出出色的结果由于传统的跟踪器依赖于手工制作的功能，并且由于现有的跟踪数据集很小，因此目前用于训练和测试的数据之间没有明确的划分。最近的基准[23，35]现在考虑搁置隔离测试集以提供公平的比较。因此，常见的是参见在VOT [25]上竞争之前在OTB [49]数据集上开发和训练的跟踪器。请注意，VOT15 [24]是从现有的数据集（如OTB100[49]和ALOV300 [43]）中采样的，导致重叠序列（例如篮球、汽车、歌手等）.即使包含冗余，在选择训练视频序列时也需要小心，因为在测试视频上训练深度跟踪器是不公平的。因此，通常没有足够的数据来训练深度网络进行跟踪，并且来自不同领域的数据被用于预训练模型，这是某些架构的限制因素。在本文中，我们介绍了TrackingNet，这是一个大规模的对象跟踪数据集，旨在训练深度跟踪器。我们的数据集有几个优势。首先，大型训练集使得能够开发特定于跟踪的深度设计。其次，用于对象跟踪的数据集的特异性使得新颖的架构能够关注连续帧之间的时间上下文洋流大型TrackingNet：大规模目标跟踪数据集3比例对象检测数据集不提供在时间上密集注释的数据第三，TrackingNet通过对YouTube视频进行采样来代表真实世界的场景因此，TrackingNet视频包含丰富的对象类分布，我们强制在训练和测试之间共享最后，我们评估跟踪器的性能与一个类似的分布在对象类和运动的隔离测试集追踪者无法访问这些视频的注释，但可以通过评估服务器获得结果和见解捐款. (i)我们介绍了TrackingNet，这是第一个用于对象跟踪的大规模数据集。与其他数据集相比，我们分析了TrackingNet的特征，属性和独特性（第3节）。（ii）我们提供了对不同技术的见解，以从粗糙的注释中生成密集的注释。我们表明，大多数跟踪器可以产生准确和可靠的密集注释超过1秒长的时间间隔。（第4节）。（iii）我们为以TrackingNet为基准的最先进追踪器提供扩展我们表明，在TrackingNet上预训练深度模型可以通过将其指标提高1.7%来提高其在其他数据集上的性能（第5节）。2相关工作在下文中，我们提供关于对象跟踪的各种研究的概述现场的任务可以在多对象跟踪[49，25]和单对象跟踪[28，35]之间进行聚类。前者侧重于多实例跟踪类特定的对象，依靠强大而快速的对象检测算法和连续帧之间的关联估计。后者是这项工作的目标。它通过检测跟踪来解决这个问题，它由两个主要组成部分组成：模型表示，生成[20，41]或判别[51，14]，以及对象搜索，计算成本和感兴趣区域的密集采样之间的权衡相关滤波跟踪器。近年来，相关滤波器（CF）跟踪器[4，19，16，1]已成为最常见，最快和最准确的跟踪器类别。CF跟踪器在第一帧学习滤波器，其表示感兴趣的对象。该滤波器在更新之前将目标定位在连续帧中。CF跟踪器令人印象深刻的性能背后的主要原因在于通过循环移位目标块样本实现的近似密集采样[19]。此外，通过有效地解决傅立叶域中的潜在岭回归问题，实现了显着的运行时性能[4]。自具有单通道功能的CF跟踪器[4，19]问世以来，它们已扩展为内核[16]，多通道功能[9]和尺度自适应[32]。此外，许多作品通过调整回归目标[3]，添加上下文[12，37]，空间正则化学习的过滤器和学习连续过滤器[10]来增强原始公式。深度追踪器除了使用来自对象检测网络的深度特征的CF跟踪器之外，很少有研究探索更完整的深度学习方法。第一种方法包括学习大规模对象检测数据集上的通用特征，并连续微调特定于域的层以成为目标。4M. Mülle r，A. Bibi，S. Gian c ola、S. AlsubaihindB.GHANEM具体的在线方式。MDNET [38]通过赢得VOT15 [24]挑战展示了这种方法的成功第二种方法包括训练一个完全卷积的网络，并在跟踪过程中使用特征图选择方法在浅层和深层之间进行选择[47]。我们的目标是找到一个很好的权衡一般语义和更具体的歧视性的功能，以及，以消除嘈杂和不相关的特征图。虽然这两种方法都实现了最先进的结果，但它们的计算成本阻止了这些算法在实际应用中的部署第三种方法包括使用预测连续帧之间的运动的连体网络。这种跟踪器通常使用深度回归[15]或CNN匹配函数[2，45，13]在大规模数据集上进行离线训练。由于其简单的架构和缺乏在线微调，只有一个正向传递必须在测试时执行。这会导致非常快的运行时间（up在GPU上达到100fps），同时实现具有竞争力的精度。然而，由于模型在测试时不更新，因此准确性高度依赖于训练数据集在跟踪各种对象时捕获外观滋扰这种方法将受益于我们在本文中提出的大规模数据集。对象跟踪数据集。许多数据集可用于对象跟踪，最常见的是用于单对象跟踪的OTB [49]，VOT [25]，ALOV300 [43]和TC128 [33]以及用于多对象跟踪的MOT [28，35]。VIVID [5]是建立用于监视目的的跟踪数据集的早期尝试。OTB50 [48]和OTB100 [49]提供51和98个视频序列，每个帧用11个不同的属性和直立边界框表示。TC128 [33]包括129个视频，基于相似的属性和直立的绑定框。AL0V300 [43]包括用14个属性标记的314个视频序列。VOT [25]提出了多达60个视频序列的几个挑战它引入了旋转的边界框以及对对象跟踪注释的广泛研究。VOT-TIR是VOT的一个特定数据集，专注于热红外视频。NUS PRO [29]收集了一个特定于应用程序的365视频集合，UAV123和UAV20L [36]收集了另一个特定于应用的123个视频和20个从无人机捕获或从飞行模拟器生成的长视频集合NfS [11]提供了一组100个高帧率的视频，试图专注于快速运动。表1提供了最流行的跟踪数据集的详细概述。尽管有几个数据集可用于对象跟踪，但大规模数据集对于训练深度跟踪器是必要的。因此，目前深轨-ER依赖于对象检测数据集，如ImageNet Video [42]或Youtube- BoundingBoxes [40]。这些数据集提供视频上的对象检测边界框，在时间上相对稀疏或以低帧速率。因此，它们缺乏关于连续帧中的对象动态的运动信息尽管如此，它们仍被广泛用于预训练深度跟踪器。它们提供了具有对象知识的深度特征表示，可以将其从检测转移到跟踪。TrackingNet：大规模目标跟踪数据集5表1. 用于对象跟踪的当前数据集的比较。数据集Nb视频注：每视频Nb类VIVID [5]9162741808.2-TC128 [33]12955652431.4-OTB50 [48]5129491578.3-OTB100 [49]9858610598.1-VOT16 [22]6021455357.6-VOT17 [23]6021356355.9-[36]第三十六话20586702933.5-UAV123 [36]911134761247.0-新加坡国立大学专业[29]365135305370.7-ALOV300 [43]314151657483.0-NfS [13]1003830003830.0-MOT16 [35]7182326845.6-MOT17 [35]21564228845.6-TrackingNet（列车）3013214205677471.427TrackingNet（测试）511225589441.5273TrackingNet在本节中，我们将介绍TrackingNet，这是一个用于对象跟踪的大规模数据集。TrackingNet总共收集了30，643个视频片段，平均持续时间为16.6秒。从140小时的视觉内容中提取的所有14，431，266帧都用单个直立边界框进行注释。我们在表1和图2中提供了与其他跟踪数据集的比较。我们的工作试图弥合数据饥渴的深度跟踪器和稀缺的大规模数据集之间的差距。我们提出的跟踪数据集比以前最大的数据集大2个数量级。我们构建TrackingNet来解决野外物体跟踪问题。因此，数据集处理各种各样的帧速率，分辨率，上下文和对象类。与以前的跟踪数据集相比， TrackingNet 分为训练和测试。我们从 Youtube-BoundingBoxes [40]中仔细选择了30，132个训练视频，并构建了一组新的511个测试视频，其分布与训练集相似。3.1从YT-BB到TrackingNet训练集Youtube-BoundingBoxes（YT-BB）[40]是用于对象检测的大规模数据集该数据集由大约380，000个视频片段组成，每秒使用直立边界框进行注释。这些视频直接从YouTube上收集，在分辨率、帧速率和持续时间方面存在很大差异。由于YT-BB专注于对象检测，因此对象类与边界框一起提供。该数据集提出了代表YouTube平台上可用视频的23个对象类的为了跟踪的缘故，我们删除对象类，缺乏运动的定义，特别是6M. Mülle r，A. Bibi，S. Gian c ola、S. AlsubaihindB.GHANEM图二. 分布在视频数量和视频平均长度上的跟踪数据集的比较。圆的大小与带注释的边界框的数量成比例。我们的数据集具有最大数量的视频和帧，并且视频长度对于短视频跟踪仍然是合理的盆栽植物和卫生间。由于person类代表了25%的注释，因此我们根据上下文将其分为7个不同的类总体而言，TrackingNet中对象类的分布如图3所示。图三. 对象类和宏类的定义为了确保视频的质量，我们根据属性标准过滤了90%的视频。首先，我们通过删除短于15秒的视频来其次，我们只考虑了覆盖不到50%帧的边界框。最后，我们保留的部分，包含至少一个合理的运动之间的边界框。在这样的过滤期间，我们保留了由YT-BB提供的21个对象类的原始分布，以防止数据集中的偏差我们最终TrackingNet：大规模目标跟踪数据集7使用30，132个视频的训练集，我们将其分成12个训练子集，每个子集包含2，511个视频并保留原始YT-BB对象类分布。粗略注释由YT-BB以1 fps提供。为了增加注释密度，我们依靠最先进的跟踪器来填充缺失的注释。我们声称任何跟踪器在1秒的小时间间隔上都是可靠的。我们在第4节中介绍了最先进的跟踪器在OTB100的1秒长视频段因此，我们使用DCF跟踪器[16]使用前向和后向传递之间的加权平均值密集地注释了30，132个视频。通过这样做，我们提供了一个用于对象跟踪的密集注释的训练数据集，以及用于自动从YouTube下载视频并提取注释帧的代码3.2从YT-CC到TrackingNet测试仪除了训练数据集之外，我们还编译了一个用于测试的新数据集，该数据集包括来自YouTube的511个视频，具有Creative Commons许可证，即YT- CC。我们仔细选择这些视频，以反映训练集中的对象类分布我们确保这些视频不包含任何版权，因此可以共享。然后，我们使用Amazon Mechanical Turk工人（Turkers）来注释这些视频。我们对第一个边界框进行注释，并为Turkers定义我们如在YT-BB中那样定义对象以用于对象检测，即，具有拟合要跟踪的对象的任何可见部分的最小边界框。注释应该以确定性的方式定义，使用在注释过程中达成一致并遵守通过定义最小的垂直包围盒周围的对象，我们避免任何歧义.然而，边界框可能包含大量背景。例如，无论person的姿势如何，person类总是包括手臂和腿。我们希望ATRA能够与可形成的对象进行操作，并了解它正在跟踪什么。同样，动物的尾巴也总是包括在内。此外，对象的边界框根据其在帧中的可见性来调整。估计对象的被遮挡部分的位置不是确定性的，因此应当避免。例如，对象类刀的手柄可以被手隐藏。在这种情况下，仅对刀片进行注释。我们使用VATIC工具[46]来注释帧。它采用光流算法来猜测连续帧中下一个边界框的位置。Turker可以注释对象周围的非紧密边界框或依赖于光流来确定边界框位置和大小。为了避免这种行为，我们在每一轮注释后都对每一帧进行我们要么从头开始重新启动视频注释，要么让Turkers对之前的结果进行微调。通过我们在循环中的监督，我们在几次迭代后确保了注释的质量，阻止了坏的注释者并激励了好的注释者。8M. Mülle r，A. Bibi，S. Gian c ola、S. AlsubaihindB.GHANEM3.3属性随后，每个视频用表2中定义的属性列表注释。为我们的测试集提供了15个属性，前5个通过分析边界框随时间的变化而自动提取，而最后10个通过视觉分析我们数据集的511个视频而手动检查。属性分布概述见图4，并与OTB100 [49]和VOT 17 [23]进行了比较。表2.Tracking- ingNet中表征视频的15个属性的列表和描述。顶部：自动估算。底部：目视检查。属性描述SV比例变化：边界框面积的比例超出范围[0. 5，2]。电弧纵横比更改：边界框纵横比的比率在范围[0. 5，2]。FM快速运动：地面实况边界框的运动大于边界框的大小LR低分辨率：至少一个地面实况边界框具有小于1000个像素。OV视野外：目标的某一部分离开摄像机视野。IV光照变化：目标的光照变化很大。CM相机运动：相机的突然运动MB运动模糊：目标区域由于目标或摄像机的运动而模糊BC背景杂波：目标附近的背景具有与目标相似的外观SOB 相似物体：目标附近有形状相似或类型相同的物体DEF 变形：非刚性对象变形。知识产权平面内旋转：目标在图像平面内旋转OPR 平面外旋转：目标旋转出图像平面。POC 部分遮挡：目标被部分遮挡。FOC 完全遮挡：目标完全遮挡。首先，我们声称对数据集中每个视频的帧数有更好的控制，相对于其他数据集有更多的变化。我们认为，这种包含的长度多样性更适合于具有恒定批量大小的训练。其次，TrackingNet中边界框分辨率的分布更加多样化，从而在要跟踪的对象的尺度上提供更多多样性第三，我们发现OTB 100 [49]和VOT 17 [23]中的挑战集中在运动稍大的对象上，而TrackingNet在YT-BB中移动最快的实例上显示出更自然的运动分布从纵横比变化属性的分布可以得出类似的第四，超过30%的OTB100实例具有恒定的长宽比，而VOT17显示出更平坦的分布。再次，我们认为，Track-ingNet包含了一个更自然的分布对象存在于野外。最后，我们展示了15个属性的统计数据，这些数据将在第5节中用于生成属性特定的跟踪结果。总的来说，我们看到隔离测试集的属性分布与我们的训练集相似。3.4评价不应显示测试集的注释，以确保跟踪器之间因此，我们通过在线服务器评估跟踪器TrackingNet：大规模目标跟踪数据集9见图4。（从上到下，从左到右）：跟踪视频在视频长度、BB分辨率、运动变化、尺度变化和主要跟踪数据集的属性分布方面的分布。以类似的OTB100方式，我们执行一次通过评估（OPE），并在511个视频上测量跟踪器的成功和精度。成功S被测量为地面实况边界框（ BBgt）和由跟踪器生成的边界框（ BBtr ）之间的像素的交集（IoU）。使用曲线下面积（AUC）测量对追踪器进行排名[49]。精度P通常被测量为分别在地面实况和跟踪器边界框的中心Cgt和Ctr之间的以像素为单位的距离使用具有20个像素的常规阈值的该度量对跟踪器进行排名。由于精度度量对图像的分辨率和边界框的大小敏感，因此我们提出了第三个度量P范数。我们在地面实况边界框的大小上对精度进行归一化，如下等式：1. 然后使用AUC对跟踪器进行排序，以获得0和10之间的归一化精度。0.5.通过用归一化的精度代替原始精度，我们确保了在不同尺度的对象跟踪的度量的一致性然而，对于具有相似比例的边界框，成功和归一化精度非常相似，并且显示一个注释与另一个注释的距离然而，我们认为，他们将在不同的尺度的情况下有所不同。为了保持一致性，我们使用精度、归一化精度和成功率提供结果。|BBtr∩ BBgt|trS=|BBtr ∪ BBgt|P= C-Cgt100（一）P. trgtΣgt gtnorm=W C−C2W=diag（BBx，BBy）10M. Mülle r，A. Bibi，S. Gian c ola、S. AlsubaihindB.GHANEMFWBKFWWGWGBK4数据集实验由于TrackingNet训练集（约30 K个视频）是从YT-BB数据集编译而来的，因此它最初每秒都会使用边界框进行注释。虽然这样的稀疏注释对于一些视觉任务（例如，对象分类和检测）可能是令人满意的，但是基于深度网络的跟踪器依赖于学习边界框随时间的时间演变。例如，连体式架构[47，45]需要观察同一对象的大量相似和不相似的补丁。不幸的是，手动扩展YT-BB对于如此大数量的帧是不可行的。因此，我们已经考虑了跟踪器辅助注释的可能性，以生成在稀疏出现的原始YT-BB注释之间产生的缺失的密集边界框注释。最先进的跟踪器不仅在标准跟踪基准上实现了令人印象深刻的性能，而且在高帧速率下也表现良好。为了评估这种能力，我们进行了四个不同的实验，以决定哪种跟踪器在密集注释OTB100时表现最好[49]。我们选择了以下跟踪器：ECO [6]、CSRDCF [34]、BACF [12]、SiameseFC [2]、吻合钉 CA[37]、吻合钉[1]、SRDCF [7]、SAMF [31]、CSK [17]、KCF [18]、[18][19][20][21][22][23][24]为了模拟TrackingNet训练集中的1秒注释，我们假设OTB100的所有视频都以30fps捕获，并且OTB100数据集被分成1916个30帧的较小序列我们通过在OTB100的1916个序列上向前和向后运行它们来评估先前突出显示的跟踪器。t=wt xt+（1−wt）xt（二）然后，通过直接平均两个结果并通过生成凸组合来组合前向和后向（加权平均）根据等式2，其中xtt和xt是轨道-在帧t处分别对前向传递、后向传递和加权平均的结果进行求和。我们测试了线性、二次、三次和指数衰减组合的权重wt。注意，最大序列长度是30，因此t∈[1， 30]。加权平均值为更接近第一帧的帧的前向通过的结果赋予更多权重图5和表3显示，大多数跟踪器在使用加权平均策略时表现几乎一样好。此后，由于STAPLECA [37]以30fps的帧速率生成合理的准确度，我们发现它适合在TrackingNet中注释大型训练集。我们在向前和向后两个过程中运行吻合钉CA，其中两者的结果随后使用线性衰减方式组合在加权平均值中，如等式2中所述。2使用wt=（1-t/ 30）。5跟踪基准在我们的基准测试中，我们比较了各种各样的跟踪算法，涵盖了所有常见的跟踪原则。目前大多数最先进的算法X得双曲余切值.TrackingNet：大规模目标跟踪数据集11OTB 100上的OPE成功图-所有序列1OTB 100上的OPE成功图-所有序列1OTB 100上的OPE成功图-所有序列1OTB 100上的OPE成功图-所有序列10.90.90.90.90.80.80.80.80.70.60.50.40.30.20.10.70.60.50.40.30.20.10.70.60.50.40.30.20.10.70.60.50.40.30.20.1000.20.40.60.81重叠阈值000.20.40.60.81重叠阈值000.20.40.60.81重叠阈值000.20.40.60.81重叠阈值图五. 在将OT100数据集分割成长度为30帧的序列之后，OT100数据集上的12个跟踪器的跟踪结果。从左到右：如等式2中的前向传递、后向传递、线性和指数衰减平均。表3. 使用不同的平均值在1秒长的OTB100数据集上跟踪结果。ECO0.8050.8090.8240.8430.8330.8380.839DCF0.7710.7790.7990.8250.8130.8200.820吻合钉CA0.7990.8030.8230.8410.8300.8360.835基于具有手工制作或深度特征的判别相关滤波器我们选择跟踪器来覆盖特征和内核的组合的大集合。MOSSE [4]，CSK [19]，DCF [16]，KCF [16]使用简单的功能，不适应规模变化。DSST [9]、SAMF [32]和吻合钉[1]使用更复杂的特征，如颜色名，并尝试补偿比例变化。我们还包括跟踪器，提出了某种一般的框架，以改善相关滤波器跟踪证明。其中包括SRDCF [8]、SAMFAT [32]、STAPLECA [37]、BACF [12]和ECO-HC [6]。我们包括CFNet [45]和Siame-seFC [2]来表示CNN匹配跟踪器，以及MEEM [51]和DLSSVM [39]用于基于结构化SVM的跟踪器。最后，我们包括一些基线跟踪器，如TLD [21]，Struck [14]，ASLA [20]和IVT [41]以供参考。表4总结了所选择的跟踪器以及它们的表示方案、搜索方法、运行时间和通用描述。5.1TrackingNet上最先进的基准测试图6显示了完整数据集的结果。请注意，任何跟踪器的最高得分约为60%的成功率，而OTB的成功率约为90%。性能最好的跟踪器是MDNET [38]，它以在线方式进行训练，因此能够最好地适应。然而，这是以非常慢的运行时间为代价的。接下来是CFNet [45]和SiameseFC [2] ，它们受益于在大规模数据集上的训练（ ImageNetVideos）。然而，正如我们稍后所展示的，通过使用我们的训练数据集，它们的性能可以进一步提高。ECO [0.805] - 1.71fpsCSRDCF [0.801] - 8.82fpsSTAPLECA [0.799] - 30.6fpsBACF [0.795] - 20.4fpsSTAPLE [0.795] - 47.6fpsSRDCF [0.792] - 4.56fpsSAMF [0.784] - 15.6fpsCSK [0.776] -169fpsSiameseFC [0.772]-23.4fpsKCF [0.772] -205fpsDCF [0.771] - 261fpsMOSSE [0.743]-324fpsECO [0.809] - 1.55fpsCSRDCF [0.809] - 6.15fpsSTAPLECA [0.803] - 28.7fpsSTAPLE [0.801] - 44.5fpsBACF [0.799] - 19.3fpsSRDCF [0.798] - 4.41fpsSAMF [0.789] - 14.7fpsKCF [0.780] -204fpsDCF [0.779]-338fpsCSK [0.778]-209fpsSiameseFC [0.777]-21.9fpsMOSSE [0.749] -401fpsECO [0.843] - 1.55fpsCSRDCF [0.841] - 6.15fpsSTAPLECA [0.841] - 28.7fpsSTAPLE [0.838] - 44.5fpsBACF [0.834] - 19.3fpsSRDCF [0.833] - 4.41fpsSAMF [0.829] - 14.7fpsKCF [0.826] -204fpsDCF [0.825]-338fpsCSK [0.825]-209fpsSiameseFC [0.815]-21.9fpsMOSSE [0.793] -401fpsECO [0.839] - 1.55fpsCSRDCF [0.838] - 6.15fpsSTAPLECA [0.837] - 28.7fpsSTAPLE [0.835] - 44.5fpsBACF [0.829] - 19.3fpsSRDCF [0.828] - 4.41fpsSAMF [0.825] - 14.7fpsKCF [0.821] -204fpsDCF [0.820]-338fpsCSK [0.818]-209fpsSiameseFC [0.810]-21.9fpsMOSSE [0.781] -401fpsOPE成功案例前向后向平均线性二次三次指数重量（wt）100的情况。5（1−（t/30））我e-0。05吨成功率成功率成功率成功率12M. Mülle r，A. Bibi，S. Gian c ola、S. AlsubaihindB.GHANEM表4. 评估跟踪器。表示：PI-像素强度，HOG-方向梯度直方图，CN-颜色名称，CH-颜色直方图，GK-高斯核，K -关键点，BP -二进制模式，SSVM -结构化支持向量机。搜索：PF-粒子滤波，RS-随机采样，DS-密集采样。跟踪器表示搜索FPS会场美国律师协会[20]稀疏PF2.13CVPR'12IVT[41]PCAPF11.72008年中国国际家具展览会[第14话]哈尔·SSVMRs16.4ICCV'11[21]第二十一话BPRs22.9PAMI'11CSK[19]PI、GKDS127ECCV'12DCF[16]生猪DS175PAMI'15KCF[16]HOG，GKDS119PAMI'15MOSSE[4]PiDS223公司简介DSST[9]PCA-HOG，PIDS11.9BMVC'14SAMF[32]PI、HOG、CN、GKDS6.61ECCVW'14缝钉[1]HOG，CHDS22.1CVPR'16CSRDCFHOG、CN、PIDS6.17IJCV'18SRDCF[8]生猪DS3.17ICCV'15BACF[12]生猪DS12.1ICCV'17ECO HC[6]生猪DS21.2CVPR'17SAMF AT[32]PI、HOG、CN、GKDS2.1ECCV'16[37]第三十七话HOG，CHDS15.9CVPR'17CFNET[45]深DS10.7CVPR'17暹罗足球俱乐部[2]深DS11.6ECCVW'16MDNET[38]深Rs0.625CVPR'16ECO[6]深DS4.16CVPR'17[39]第三十一话：SSVMRS7.57RS5.59ECCV5.2实时跟踪对于许多实际应用，如果不能实时完成跟踪，则跟踪不是很有用。因此，我们进行了一个实验，以评估如何以及跟踪器将执行在更现实的设置，其中帧被跳过，如果一个跟踪器是toslow。我们通过子程序来执行在缓存器的空间上存储的等式。图7显示了整个数据集的实验结果。正如预期的那样，大多数低于实时运行的跟踪器都会降级。在最坏的情况下，这种降解可能高达50%，与Struck [14]的情况相同。最近的跟踪器，特别是深度学习跟踪器，受到的影响要小得多例如，CFNet [45]根本不会降级，即使它只看到每三帧。这可能是由于它依赖于在大规模数据集上训练的通用对象匹配函数。TrackingNet：大规模目标跟踪数据集13基准度量OTB100TrackingNet测试精度标准精确度成功度标准精确度成功度OTB 100的OPE精密度图-所有序列OTB 100的OPE归一化精密度图-所有序列OTB 100上的OPE成功图-所有序列0.80.80.80.60.60.60.40.40.40.20.20.2001020304050定位误差门限000.10.20.30.40.5归一化距离误差阈值000.20.40.60.81重叠阈值TrackingNetTest上的OPE精密度图-所有序列TrackingNetTest上的OPE归一化精密度图-所有序列TrackingNetTest上的OPE成功图-所有序列0.90.90.90.80.70.60.80.70.60.80.70.60.50.40.30.50.40.30.50.40.30.20.10.20.10.20.100 10 20 30 4050定位误差门限000.10.20.30.40.5归一化距离误差阈值00 0.2 0.4 0.6 0.8 1重叠阈值图六、在OTB100（顶部）和TrackingNet（底部）上进行基准测试。TrackingNetTest@vfps上的OPE精密度图-所有序列TrackingNetTest@vfps上的OPE归一化精密度图-所有序列TrackingNetTest@vfps上的OPE成功图-所有序列0.90.80.90.80.90.80.70.60.70.60.70.60.50.40.50.40.50.40.30.30.30.20.10.20.10.20.100 10 20 30 4050定位误差门限000.10.20.30.40.5归一化距离误差阈值00 0.2 0.4 0.6 0.8 1重叠阈值图7.第一次会议。在TrackingNet上以可变帧速率（跟踪器fps）测试基准结果。5.3培训网上再培训我们在TrackingNet的一小部分上微调SiameseFC [2]，以展示我们的数据如何提高基于深度学习的跟踪器的跟踪性能。结果如表5所示。通过仅对我们训练数据集的12个块（2511个视频）中的一个进行训练，我们观察到TrackingNet Test和OTB100上的所有指标都有所增加。使用更多块进行微调有望进一步提高性能。表5. SiameseFC在OTB100和TrackingNet测试上的微调结果。SiameseFC（original）0.7650.6210.5690.5330.6630.571SiameseFC（微调）0.7810.6320.5760.5430.6730.581ECO [0.909]-8.27fpsMDNET [0.885]-0.903fpsECO HC [0.841] -29.6fps吻合钉CA [0.810] -35.1fpsMEEM [0.797] -10.2fpsCSRDCF [0.794] -9.02fpsSAMF AT [0.789] -6.11fpsSRDCF [0.788]-4.51fps缝钉[0.784] - 59.8fpsCFNET [0.769] -13.1fpsDLSSVM [0.767] -4.41fpsSiameseFC [0.765]-21.7fpsSAMF [0.743]-16.8fpsBACF [0.700]-25.4fpsKCF [0.695] - 212fpsDSST [0.693]-28.3fpsDCF [0.690] -333fps点击[0.584]-17.8fpsTLD[0.546]-33.4fpsCSK[0.519]-299fpsASLA [0.513] -ECO [0.752]-8.27fpsMDNET [0.742]-0.903fpsECO HC [0.687] -29.6fps吻合钉CA [0.679] -35.1fpsCFNET [0.660] -13.1fpsSRDCF [0.653]-4.51fpsCSRDCF [0.653]-9.02fps缝钉[0.653]-59.8fpsSAMF AT [0.645] -6.11fpsDLSSVM [0.623] -4.41fpsSiameseFC [0.621]-21.7fpsSAMF [0.617]-16.8fpsMEEM [0.615]-10.2fpsBACF [0.600] - 25.4fpsDSST [0.573]-28.3fpsKCF [0.550]-212fpsDCF [0.549]-333fps点击[0.480]-17.8fps分辨率[0.437]-33.4fpsASLAECO [0.687]-8.27fpsMDNET [0.660]-0.903fpsECO HC [0.630] -29.6fps吻合钉CA [0.598] -35.1fpsSRDCF [0.598] - 4.51fpsCFNET [0.588] -13.1fpsCSRDCF [0.587] -9.02fps缝钉[0.579]-59.8fpsSiameseFC [0.569]-21.7fpsBACF [0.551] -25.4fpsSAMF AT [0.549] -6.11fpsDLSSVM [0.540]-4.41fpsMEEM [0.539]-10.2fpsSAMF [0.535]-16.8fpsKCF [0.477] - 212fpsDCF [0.475] -333fpsDSST [0.470] -28.3fps点击[0.429]-17.8fpsASLA [0.415]-1.6fpsTLD [0.406]-33.4fpsMDNET [0.565]CFNET [0.533]暹罗足球俱乐部[0.533]ECO [0.492]CSRDCF [0.480]SAMF [0.477]ECO HC [0.476]吻合钉[0.470]吻合钉CA [0.468]BACF [0.461][0.460]SRDCF [0.455]SAMF AT [0.447]DCF [0.419][0.418]ASLA [0.406]被击中[0.402

下载后可阅读完整内容，剩余1页未读，立即下载