透明物体跟踪基准：研究、评估和新型跟踪器

42 浏览量更新于2023-10-15 收藏 19.99MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Heng Fan1Halady Akhilesha Miththanthaya2∗Harshit2∗Siranjiv Ramana Rajan2∗Xiaoqiong Liu2Zhilin Zou2Yuewei Lin3Haibin Ling2†1Department of Computer Science and Engineering, University of North Texas, Denton, USA2Department of Computer Science, Stony Brook University, Stony Brook, USA3Computational Science Initiative, Brookhaven National Laboratory, Upton, USAheng.fan@unt.eduhling@cs.stonybrook.edu��107340透明物体跟踪基准0摘要0近年来，视觉跟踪取得了相当大的进展。然而，目前该领域的研究主要集中在不透明物体的跟踪上，而对透明物体的跟踪关注较少。本文通过提出透明物体跟踪基准（TOTB）来首次尝试探索这个问题。具体而言，TOTB包含来自15个不同透明物体类别的225个视频（86K帧）。每个序列都经过手动标记了轴对齐的边界框。据我们所知，TOTB是第一个专门用于透明物体跟踪的基准。为了了解现有跟踪器的性能并为TOTB的未来研究提供比较，我们对25种最先进的跟踪算法进行了广泛评估。评估结果显示，需要更多的努力来改进透明物体跟踪。此外，我们从评估中观察到一些与不透明物体跟踪中的一些常见观点不一致的重要发现。例如，我们发现更深的特征并不总是对改进有益。此外，为了鼓励未来的研究，我们引入了一种名为TransATOM的新型跟踪器，它利用透明特征进行跟踪，并在所有25种评估方法中取得了显著的优势。通过发布TOTB，我们希望促进学术界和工业界对透明物体跟踪的未来研究和应用。TOTB和评估结果以及TransATOM的相关信息可在https://hengfan2010.github.io/projects/TOTB/上获取。01. 引言0目标跟踪是计算机视觉中最基本的问题之一，是许多应用中的重要组成部分[37, 50, 60, 36]，包括机器人技术。0� 这三位作者贡献相等。† 通讯作者。0图1.不透明物体跟踪（a）和透明物体跟踪（b）。与不透明物体跟踪相比，透明目标的跟踪更具挑战性，因为透明物体的外观严重依赖于背景。本文中的所有图表最好以彩色和放大的方式查看。0人机交互、视频分析与理解等方面。在近几十年中，跟踪领域取得了显著的进展。已经提出了许多跟踪算法，显著推动了技术的发展。然而，现有的研究主要集中在不透明物体的跟踪上，对透明物体的跟踪关注非常有限。透明物体（例如，瓶子、杯子、灯泡、罐子等由玻璃和塑料制成的物体）在现实世界中很常见。其中许多与人类的日常生活密切相关，对它们的跟踪对于机器人视觉和人机交互至关重要。例如，机器人可能需要了解人手中透明物体的轨迹以更好地理解行为。与不透明物体的跟踪相比，透明物体的跟踪更具挑战性。由于透明物体的特性，其跟踪更加困难。107350特别是透明物体的外观相对较弱，并且与周围背景图像混合在一起（见图1的示例）。因此，直接利用外观信息来区分目标物体和背景变得更加困难。此外，当目标物体移动时，即使移动缓慢，由于背景变化，其外观也可能发生剧烈变化，使透明物体跟踪变得更加困难。除了上述技术困难之外，透明物体跟踪未被触及的另一个更重要的原因是缺乏基准。基准对于跟踪的进步至关重要。它使研究人员能够客观评估和比较他们的方法，并设计新的算法来改进。目前，存在各种基准（例如[57，45，20，47，54，30，14，25，42]）用于不透明物体跟踪。然而，透明物体跟踪没有基准。尽管一些基准（例如[14，39]）包含透明物体的序列，但它们在视频数量（例如不到10个）和物体类别（例如最多两个类别）方面有限。为了促进透明物体跟踪的研究，需要一个专用的数据集作为公正评估和比较的测试平台。01.1. 贡献0在这项工作中，我们首次尝试探索透明物体跟踪，引入了透明物体跟踪基准（TOTB），这是我们的主要贡献。TOTB包括15个常见的透明物体类别，每个类别包含15个序列。总共，TOTB包含225个序列，共8.7万帧。每个序列都经过手动标注，使用轴对齐边界框进行标记，并带有不同的属性。据我们所知，TOTB是专门用于透明物体跟踪任务的第一个基准。图4展示了TOTB中的几个示例序列。此外，为了了解现有的跟踪算法的性能并为将来在TOTB上进行研究提供比较，我们广泛评估了25种最先进的跟踪器。我们对评估结果进行了深入分析，并观察到一些令人惊讶的发现，这些发现与不透明物体跟踪中的一些普遍观点不一致。例如，人们普遍认为，更深的特征对于提高跟踪性能至关重要，就像现有的不透明跟踪基准（例如[57，14，47，25]）所示。然而，事实证明，更深的特征并不总是能够提高透明物体跟踪的性能，反而可能严重降低准确性。这些观察结果有助于更好地理解透明物体跟踪，并为未来的改进提供指导。此外，为了促进在TOTB上开发跟踪算法，我们引入了一个简单而有效的0通过利用透明性特征进行跟踪，我们提出了一种新的跟踪器。特别是考虑到透明性是透明物体的一个常见属性，其特征应该是通用的，可转移的，并且能够与不透明物体区分开来。为此，我们训练了一个深度网络来学习这种透明性特征，并将其整合到ATOM中进行跟踪。我们的新跟踪器名为TransATOM，通过在TOTB上的评估，其性能显著优于所有评估的算法。需要注意的是，尽管TransATOM很简单，但它展示了透明性特征在提高性能方面的有效性。我们希望它能为未来的研究提供参考。0总结起来，我们的贡献如下：（1）我们提出了TOTB，这是目前为止专门用于透明物体跟踪的首个基准。（2）为了评估现有的跟踪器并进行比较，我们评估了25种跟踪算法，并进行了深入分析。（3）我们引入了一种新颖的透明物体跟踪器，名为TransATOM，以鼓励对TOTB的进一步研究。通过发布TOTB，我们希望促进未来透明物体跟踪的研究和应用。本文的其余部分安排如下。我们在第2节中讨论了本文的相关工作。第3节详细介绍了我们提出的TOTB。第4节介绍了我们提出的跟踪器TransATOM。评估结果在第5节中进行了深入分析，最后在第6节中进行了总结。02. 相关工作02.1. 跟踪算法0作为计算机视觉领域的核心成员之一，视觉跟踪已经研究了几十年，有着庞大的过去文献，其综述超出了本文的范围。在本节中，我们回顾了两个流行的趋势，包括相关滤波跟踪和深度跟踪，并参考[37, 50, 60,36]进行全面的跟踪调查。粗略地说，基于相关滤波的跟踪算法将跟踪视为在线回归问题。[5,24]等相关滤波跟踪器以每秒几百帧的惊人速度运行，并在跟踪社区引起了极大的关注，有许多启发式的扩展用于改进。例如，[38,10]中使用了额外的尺度滤波器来处理目标尺度变化。[11,21, 7,34]中的方法利用正则化技术来提高鲁棒性。[15]中的跟踪器将相关滤波跟踪器与独立的验证器集成在一起，以减轻漂移问题。[43, 12,6]中的方法应用深度特征替代相关滤波跟踪中的手工特征，并取得了显著的改进。受到深度特征在其他视觉任务中的巨大成功的启发，基于深度学习的跟踪器已经被提出。107360近年来，出现了许多跟踪算法的发展。其中，一种流行的系列是Siamese跟踪器[52,2]，它们具有简单的架构和良好的性能。值得注意的是，[2]中引入了一个全卷积的Siamese网络，具有轻量级的结构用于跟踪，从而实现了非常高效的运行性能。受到[2]平衡的准确性和速度的启发，许多其他变体[22, 33, 32, 35, 64, 16,55, 61, 62,17]已经被开发出来，并取得了提升的性能。另一方面，一些深度跟踪器[8, 3,9]将跟踪分解为两个独立的定位和尺度估计任务，分别通过在线分类器和离线交并比（IoU）网络来解决。02.2. 跟踪基准测试0基准测试对于跟踪算法的发展至关重要。我们将现有的基准测试大致分为两类：通用基准测试和特定基准测试。通用基准测试通常包含适用于一般场景的序列。OTB-2013[57]是第一个具有50个序列的通用数据集，后来通过引入额外的视频在更大的OTB-2015 [57]中进行了扩展。TC-128[39]收集了128个彩色序列，以研究颜色信息对跟踪性能的影响。VOT[28]引入了一系列跟踪竞赛，其中包含多达60个序列。NfS[20]专注于评估高帧率视频上的跟踪器。NUS-PRO[31]提供了365个视频，旨在评估刚性物体上的性能。TracKlinic[18]提供了2390个视频，旨在诊断各种挑战下的跟踪算法。最近，为了提供用于开发深度跟踪器的训练数据，提出了许多大规模基准测试。OxUvA[54]提供了366个视频，旨在进行长期评估。TrackingNet[47]包含超过30K个用于深度跟踪的序列。GOT-10k[25]提供了10K个具有丰富运动轨迹的视频用于跟踪。LaSOT[14]包含1400个长期视频和手动注释。随后，LaSOT在[13]中进行了扩展，引入了150个新的视频序列和一个用于未见目标的新评估协议，并进行了更多的分析。特定基准测试除了通用数据集外，还存在其他用于特定目标的基准测试。UAV和UAV123[45]包含由无人机捕获的100个和23个视频。CDTB[42]和PTB[51]旨在评估RGB-D视频上的跟踪性能。VOT-TIR[29]来自VOT，专注于RGB-T序列中的目标跟踪。尽管上述基准测试可用，但它们主要集中在不透明目标跟踪上。透明目标跟踪在现实世界中广泛存在，但却受到非常少的关注。最重要的原因是缺乏透明目标跟踪的数据集，这激发了我们提出TOTB的动机。0图2. 来自15个透明物体类别的样本。第一行:烧杯，玻璃杯，泡泡球，玻璃瓶。第二行:气泡气球，透明动物，玻璃罐，玻璃球和放大镜。第三行:酒杯，烧瓶，玻璃板，灯泡和小玻璃杯。跟踪目标显示在红色边界框中。02.3. 处理视觉中的透明物体0透明物体在现实世界中很常见，已经有大量研究致力于处理它们。例如，[19，44]的方法研究了透明物体识别的问题。[27]的方法探索了飞行时间（ToF）相机来检测和重建透明物体。[40]的方法提出在RGB-D图像中估计透明物体的关键点。[49]的工作研究了RGB-D图像中透明物体的3D形状估计问题。[59，26，58]的方法处理从图像中分割透明物体的任务。特别地，[58]的工作提出了一个用于透明物体分割的大规模基准。我们的工作与[40，49，58]相关，但不同之处在于：（1）TOTB专注于2D物体跟踪，而其他工作专注于3D形状估计[49]，3D标记和关键点估计[40]以及2D物体分割[58]。（2）TOTB处理视频中的透明物体，而[40，49，58]处理静态图像。03. 透明物体跟踪基准0我们的目标是构建一个专门的透明物体跟踪基准（TOTB）。在开发TOTB时，我们涵盖了各种透明物体类别，并为每个视频提供了手动注释，详细信息稍后给出。03.1. 视频收集0在TOTB中，我们选择了15个透明物体类别，包括烧杯，玻璃杯，泡泡球，玻璃瓶，气泡气球，透明动物，玻璃罐，玻璃球，放大镜，酒杯，烧瓶，玻璃板，灯泡和小玻璃杯。请注意，透明窗户和门在现实世界中广泛出现，然而，这两个类别的物体通常是静态的，因此不适合跟踪任务。图2展示了这15个类别的样本。确定了物体类别后，我们从YouTube上搜索每个类别的原始序列，因为它是最大的公共视频平台，并激发了许多跟踪基准（例如LaSOT [13]，TrackingNet [47]，GOT-10k [25]和OxUvA[54]）。最初，我们为每个类别收集了至少30个原始视频，并总共收集了600多个序列。然后，我们仔细检查每个序列，确定其是否适合跟踪，并为每个类别选择了15个序列。我们验证了每个原始序列的内容，并删除了不相关的部分，以获得适合跟踪的视频剪辑。我们将每个视频中的帧数限制为最多500帧，这足以测试跟踪器在透明物体上的性能，并且对于注释来说是可管理的。最终，TOTB由15个透明物体类别的225个序列组成，共有86K帧。表1总结了TOTB，图3展示了TOTB中每个物体类别的平均视频长度。Number of videos225Avg. duration12.7sTotal frames86KFrame rate30 fpsMax frames500Absent labelsOV, FOCMin frames126Object categories15Avg. frames381Number of att.12jects of these two categories are usually static, and there-fore not suitable for tracking task. Figure 2 demonstratesthe samples from these 15 categories.After determining object categories, we search for rawsequences of each class from YouTube1, as it is the largestpublic video platform and motivates many tracking bench-marks (e.g., LaSOT [13], TrackingNet [47], GOT-10k [25]and OxUvA [54]). Initially, we have collected at least 30raw videos for each class and gathered more than 600 se-quences in total. Then, we carefully inspect each sequencefor its availability for tracking and choose 15 sequences foreach category. We verify the content of each raw sequenceand remove the irrelevant parts to acquire a video clip that issuitable for tracking. We limit the number of frames in eachvideo up to 500, which is enough for testing a tracker’s per-formance on transparent objects, while being manageablefor annotation. Eventually, TOTB consist of 225 sequencesfrom 15 transparent object classes with 86K frames. Table 1summarizes TOTB, and Figure 3 demonstrates the averagevideo length of each object category in TOTB.1Each video is collected under the Creative Commons license.107370表1. TOTB的统计摘要。OV: 视野外; FOC: 完全遮挡。0图3.TOTB中每个物体类别的平均视频长度。绿色和棕色的点表示每个类别的最大和最小帧数。03.2. 注释0我们遵循[14]中的相同原则进行序列注释：给定视频中的初始目标，对于每一帧，如果目标出现，注释者会绘制/编辑一个与目标最紧密的轴对齐边界框，以适应任何可见部分。0图4.我们新的TOTB中透明物体跟踪的示例序列。每个序列都用轴对齐的边界框进行了注释。01 每个视频都是根据创作共用许可证收集的。03.3. 属性0对跟踪算法进行更深入的分析对于研究人员来说是很重要的，以了解跟踪器的优势和局限性。因此，我们选择了在视频任务中广泛存在的十二个属性，并使用这些属性对每个序列进行了注释，包括（1）光照变化（IV），（2）部分遮挡（POC），（3）变形（DEF），（4）运动模糊（MB），（5）旋转（ROT），（6）背景杂波（BC），（7）尺度变化（SV），当边界框的比例超出范围[0.5,2]时，将分配该属性，（8）完整的目标对象；否则，将为该帧分配缺失标签，即完全遮挡（FOC）或视野外（OV）。根据上述原则，我们采用三步策略进行注释，包括手动标注、视觉检查和框修正。在第一阶段，每个视频由一位专家进行标注，即一位从事跟踪工作的研究生。由于第一阶段可能存在不可避免的注释错误或不一致性，在第二阶段进行视觉检查以验证注释。每个视频的注释检查由验证团队进行。如果注释结果未得到验证团队成员的一致同意，则将其退回给原始注释者在第三步进行修正。这种三步策略确保了TOTB中透明对象的高质量注释框。有关TOTB框注释的示例可以在图4中找到。我们在补充材料中展示了更多统计信息。IVPOCDEFMBROTBCSVFOCFMOVLRARCIV6924716435202102316POC24110 183859234892671240DEF7184266824070120MB16386695016297186527ROT4359650123 21597276961BC523816214217351011SV2048242959179503301468FOC2907730100300FM10267182753304401129OV270661030900LR31215901401101811ARC1640202761116802901182�� !"#$%��&'&�(�� !")*+)%��,��-��.��-��-��f(X; w) = φ2(w2 ∗ φ1(w1 ∗ X))(1)X = xcls∥xtrs(2)λk∥wk∥2(3)107380表2.TOTB上十二个属性的分布。对角线（用粗体显示）对应于整个基准的分布，每行或每列表示属性子集的联合分布。0遮挡（FOC），（9）快速运动（FM），当目标中心在上一帧中移动了至少其大小的50%时，将分配该属性，（10）视野外（OV），（11）低分辨率（LR），当目标区域小于900像素时，将分配该属性，以及（12）长宽比变化（ARC），当边界框长宽比超出范围[0.5,2]时，将分配该属性。对于每个视频，提供了一个12维二进制向量来指示属性的存在（即，“1”表示某个属性存在，“0”表示不存在）。TOTB上这些属性的分布如表2所示。我们可以观察到，TOTB中最常见的挑战是旋转（包括原地和外平面旋转），这可能导致严重的特征错位并导致跟踪失败。此外，尺度变化和部分遮挡在TOTB的视频中经常发生。04. 一个新的基准：TransATOM0如前所述，透明物体跟踪的技术难点是透明性引起的外观弱化。为了解决这个问题，我们利用透明性特征进行透明物体跟踪。具体来说，考虑到透明性是透明物体的一个常见属性，其特征应该是通用的，并且对于不同的透明实例是可转移的，并且与不透明物体有所区别。受[58]的启发，我们使用一个深度分割网络来学习这种透明性特征，该网络对属于透明区域的每个像素进行分类。与[58]采用复杂网络不同，我们使用了一个更简单的FCN架构[41]和ResNet-18[23]进行高效推理。用于训练我们的分割的图像是从[58]的训练集中借用的。请注意，在我们的任务中，我们只对小型可移动的透明物体进行分割。因此，有2,844个静态图像用于训练。关于分割的详细信息0图5.TransATOM的架构示意图，将传统的分类特征和我们提出的透明度特征集成到目标定位中。0由于篇幅有限，我们的任务的分割网络及其训练在补充材料中展示。训练分割网络后，我们将其应用于提取透明物体的透明特征。我们将这种特征集成到最先进的ATOM[8]中，开发了我们的新跟踪器TransATOM。具体而言，TransATOM由两个特征分支组成。一个分支是预训练的ResNet-18用于分类，如[8]所述，另一个分支是我们训练的分割网络用于提取透明度特征。在这两个分支中，我们提取第4个块之后的特征并将它们连接起来以获得更强大的特征表示。然后，我们采用一个分类网络来定位目标物体。图5显示了TransATOM的分类架构。与[8]类似，分类网络由两个卷积层组成，其公式如下所示：0其中w ={w1，w2}表示网络的参数，φ1和φ2是每个卷积层之后的激活函数。X是输入特征，通过将预训练的图像分类特征xcls和透明度特征xtrs（见图5）组合而成，如下所示：0其中∥表示连接操作。我们使用L2损失来通过学习分类器：0j =1 γ j ∥ f ( X j ; w ) − Y j ∥2 + λ k ∥ w k ∥ 20其中Xj是第j个训练样本，Yj是以目标位置为中心的高斯标签；γj和λk分别控制样本权重和正则化程度。我们采用与[8]相同的优化方法来学习和更新分类器。对于目标尺度估计，我们采用与[8]相同的IoU-Net。需要注意的是，除了透明度之外��107390�� 0图6.ATOM和TransATOM的分类结果。我们可以观察到，TransATOM在定位透明目标物体方面显示出更好的分类结果。输入图像中的黄色框是真值。0透明度特征分支之外，TransATOM的其余部分，包括分类特征分支和IoU-Net，直接借用了基线ATOM[8]的部分。更多细节请参考[8]。0请注意，与ATOM[8]不同，TransATOM旨在探索额外的透明特性以改善对象的定位。图6显示了两种方法的目标定位结果。我们观察到，在透明特性的帮助下，TransATOM更好地定位了对象。此外，我们的TransATOM以26fps的实时运行。值得一提的是，TransATOM中提出的透明特性是通用的，并且可以转移到其他跟踪器（例如DiMP [3]和KYS[4]）以进行改进，如我们在第5.4节的消融研究中所示。05. 评估05.1. 评估方法0根据[14,47]的方法，我们使用一次评估（OPE）来测量每个跟踪器的精度、归一化精度和成功率。精度（PRE）以像素为单位测量跟踪结果的中心与真实边界框之间的距离。不同的算法根据它们在阈值（例如20像素）下的PRE得分进行排名。为了消除不同尺度的影响，采用归一化精度（NPRE），通过对目标区域进行归一化来进行计算。成功率（SUC）通过比较跟踪结果和真实边界框之间的交并比（IoU）来计算，SUC得分通过跟踪结果中IoU大于0.5的比例来计算。05.2. 评估的跟踪器0我们在TOTB上评估了25个最先进的跟踪器，并为未来的比较提供了基础。这些算法可以大致分为三类：相关滤波器跟踪器、Siamese跟踪器和其他深度跟踪器。相关滤波器跟踪方法包括KCF [24]，0SRDCF [11]，HCFT [43]，Staple [1]，ECOhc [7]，ECO[7]，STRCF [34]，StapleCA [46]，CFNet [53]，BACF[21]和ASRCF [6]。Siamese跟踪器包括SiamFC[2]，SiamRPN [33]，DaSiamRPN [64]，C-RPN [16]，SPM[55]，SiamRPN++ [32]，SiamDW [61]和SiamMask[56]。对于其他跟踪器，我们使用MDNet [48]，ATOM[8]，DiMP [3]，PrDiMP [9]，DCFST [63]和KYS [4]。05.3. 评估结果0整体表现。我们对225个序列中的25个跟踪算法和我们提出的TransATOM进行了广泛评估。请注意，现有的跟踪器在评估中没有进行任何修改。为了避免随机性，我们对每个跟踪器运行三次，并对其最终性能的结果进行平均。评估结果以精度（PRE）、归一化精度（NPRE）和成功率（SUC）在OPE中报告。图7显示了15个跟踪器和我们的TransATOM的性能，我们将读者引用到补充材料中以获取所有跟踪器的完整结果。正如图7所示，TransATOM在PRE、NPRE和SUC方面取得了最佳结果，分别为0.668、0.747和0.641。SiamRPN++获得了第二高的PRE得分0.647，SiamMask获得了第二高的NPRE得分0.724，PrDiMP获得了第二高的SUC得分0.633。与这些跟踪器相比，TransATOM在PRE、NPRE和SUC方面分别提高了2.1%、2.3%和0.8%。作为TransATOM基线的ATOM显示了0.641的PRE结果，0.717的NPRE结果和0.641的SUC结果。与ATOM相比，TransATOM分别取得了4.1%、3.0%和2.7%的显著性能提升，证明了透明物体跟踪的透明特性的有效性和优势。0基于属性的性能。为了进一步分析和理解不同跟踪算法的性能，我们在十二个属性下进行了性能评估。我们在图8中展示了三个最常见的挑战（旋转、部分遮挡和尺度变化）的结果，并引用补充材料以获取完整结果。我们观察到，TransATOM在部分遮挡和尺度变化方面表现最好。具体而言，TransATOM在部分遮挡和尺度变化上的SUC得分分别为0.635和0.604，比第二名PrDiMP的SUC得分0.621和0.598高出1.4%和0.6%。在旋转挑战中，PrDiMP显示出最佳结果，SUC得分为0.592。TransATOM以0.591的SUC得分排名第二，与PrDiMP相比具有竞争力。值得注意的是，PrDiMP利用更深的ResNet-50进行特征提取，而TransATOM采用ResNet-18。尽管如此，由于有效的透明特性，TransATOM在与PrDiMP相比表现出更好或相当的性能。此外，在所有三个属性上，TransATOM明显优于ATOM，107400图7.15种最先进的跟踪器和TransATOM在精度、归一化精度和成功率方面的跟踪性能（请查看补充材料中所有跟踪器的完整结果）。我们的TransATOM在这三个指标上取得了最好的结果。0图8. 不同跟踪算法在TOTB上针对旋转、部分遮挡和尺度变化这三个最常见属性的跟踪性能，使用成功率作为评价指标（请查看补充材料中所有跟踪器的完整结果和比较）。0(a) 序列WineGlass-7 (b) 序列Bulb-50(c) 序列GlassSlab-15 (d) 序列JuggleBubble-10(e) 序列ShotGlass-10 (f) 序列TransparentAnimal-110DiMP SiamMask KYS MDNet DCFST ATOM SiamRPN++ PrDiMP TransATOM GT0图9.九个跟踪器在六个典型困难挑战中的定性结果：旋转挑战WineGlass-7，背景杂波挑战Bulb-5，宽高比变化挑战GlassSlab-15，部分遮挡挑战JuggleBubble-1，运动模糊挑战ShotGlass-10和尺度变化挑战TransparentAnimal-11。由于透明特性，我们提出的TransATOM能够在各种挑战下稳定地定位目标对象。0SUC分数分别为0.558、0.611和0.568，显示了透明特性的重要性。0定性评估。为了更好地理解每个跟踪算法，我们展示了顶级跟踪器TransATOM、PrDiMP、SiamRPN++、ATOM、SiamMask、DCFST、MDNet、KYS和DiMP在六个典型挑战（旋转、背景杂波、宽高比变化、部分遮挡、运动模糊和尺度变化）中的定性跟踪结果，如图9所示。从图9中我们可以观察到0其他跟踪器只能处理一个或几个挑战。例如，PrDiMP在处理GlassSlab-15的宽高比变化时表现良好，但在其他挑战中失败。SiamRPN++可以在ShotGlass-10的运动模糊中定位目标，但在Bulb-5的背景杂波中容易漂移。MDNet在WineGlass-7的旋转中表现稳定，但在Bulb-5的背景杂波和ShotGlass-10的运动模糊中丢失目标。其他跟踪器也有类似的观察结果。与这些方法不同的是，107410表3.使用SUC分数分析不同骨干网络对TOTB上的跟踪性能。最好的结果以红色字体显示。0ResNet-18 ResNet-500ATOM [ 8 ] 0.614 0.608 DiMP [ 3 ] 0.6050.594 PrDiMP [ 9 ] 0.639 0.633SiamRPN++ [ 32 ] 0.585 0.6170TransATOM（我们的方法）0.641 0.6320由于透明特性，TransATOM能够很好地处理所有挑战，实现了鲁棒的目标定位。更多定性结果可在项目网站上找到。05.4. 消融研究0骨干网络的深度。深度神经网络显著提高了跟踪性能。在不透明物体跟踪中，许多最近提出的使用ResNet-50作为骨干网络的深度跟踪器明显优于使用ResNet-18作为骨干网络的跟踪器，因为深度特征更强大。然而，当跟踪透明物体时，深度特征并不总是带来性能提升。具体而言，我们在TOTB上比较了四种代表性的最新跟踪器，包括ATOM、DiMP、PrDiMP和SiamRPN++。表3列出了使用SUC分数的比较结果。如表3所示，我们观察到，当使用更深的ResNet-50作为骨干网络时，ATOM、DiMP和PrDiMP的SUC分数分别从0.614、0.605、0.639降低到0.608、0.594和0.633。这表明，对于ATOM和DiMP，更深的特征可能会损害跟踪性能。对于SiamRPN++，当使用更深的ResNet-50作为骨干网络时，SUC分数从0.585显著提高到0.617，显示了深度特征在透明物体跟踪中的有效性。同样，我们使用两种骨干网络对我们的跟踪器TransATOM进行了实验。如表3所示，与ResNet-18骨干网络相比，使用更深的ResNet-50骨干网络的TransATOM的性能下降了。通过分析不同骨干网络对跟踪性能的影响，我们发现深度特征并不总是有利于透明物体的跟踪。我们希望这一发现能为未来透明物体跟踪器的设计提供参考。0透明特征。为了促进在TOTB上开发跟踪算法，我们提出了TransATOM，将透明特征（透明对象的通用特征）明确地融入最先进的ATOM中。为了分析透明特征的效果，我们比较了包括ATOM、TransATOM-V和TransATOM在内的三种跟踪算法。通过从TransATOM中删除视觉分类特征分支，实现了TransATOM-V。除了特征之外，所有其他设置都相同。0表4. 透明特征对跟踪性能的准确性和速度的分析。0视觉特征透明特征 SUC 速度0ATOM [8] - 0.614 37fps TransATOM-V - 0.625 37fpsTransATOM - - 0.641 26fps0表5. 透明特征的可迁移性分析。0跟踪器 SUC0ATOM [8] 0.614TransATOM 0.641 (↑ 2.7%)0DiMP [3] 0.594 TransDiMP0.613 (↑ 1.9%)0KYS [4] 0.597 TransKYS0.619 (↑ 2.2%)0三个跟踪器的设置相同。表4显示了比较结果。与SUC得分为0.614的ATOM相比，TransATOM-V获得了0.625的SUC得分，绝对增益为1.1％，证明了透明特征在提高性能方面的有效性。此外，将视觉特征和透明特征结合的TransATOM进一步将性能推至0.641，并且仍然实时运行。0透明特征的可迁移性。透明是透明物体的共同属性，透明特征应该是通用且可迁移的。为了分析其可迁移性，我们将透明特征与不同的跟踪器集成，如表5所示，类似于TransATOM。我们观察到，TransDiMP和TransKYS分别将其基线DiMP和KYS提高了1.9％和2.2％，证明了透明特征的可迁移性。06. 结论0在本文中，我们探索了一种新的跟踪任务，即透明物体跟踪。特别是，我们提出了TOTB，这是透明物体跟踪的第一个基准，据我们所知。此外，为了了解现有跟踪器的性能并为未来比较提供基准，我们对25种最先进的跟踪算法进行了广泛评估，并进行了深入分析。此外，我们通过利用透明物体的透明特征，提出了一种名为TransATOM的新型跟踪器。TransATOM在性能上明显优于现有的最先进的跟踪算法。我们相信，这个基准、评估和基线跟踪器将激发和促进更多关于透明物体跟踪的未来研究和应用。0致谢。本工作部分得到NSF GrantIIS-2006665和IIS-1814745的支持。107420参考文献0[1] Luca Bertinetto, Jack Valmadre, Stuart Golodetz, OndrejMiksik和Philip HS Torr. Staple: 实时跟踪的互补学习者.在CVPR，2016年。60[2] Luca Bertinetto, Jack Valmadre, Joao F Henriques, AndreaVedaldi和Philip HS Torr. 用于目标跟踪的全卷积孪生网络.在ECCVW，2016年。3, 60[3] Goutam Bhat, Martin Danelljan, Luc Van Gool和RaduTimofte. 学习区分模型预测进行跟踪. 在ICCV，2019年。3, 6, 80[4] Goutam Bhat, Martin Danelljan, Luc Van Gool和RaduTimofte. 了解您的环境：利用场景信息进行目标跟踪.在ECCV，2020年。6, 80[5] David S Bolme, J Ross Beveridge, Bruce A Draper, and YuiMan Lui. 使用自适应相关滤波器进行视觉目标跟踪.在CVPR，2010年。20[6] Kenan Dai, Dong Wang, Huchuan Lu, Chong Sun和Jianhua Li.通过自适应空间正则化相关滤波器进行视觉跟踪.在CVPR，2019年。2, 60[7] Martin Danelljan, Goutam Bhat, Fahad ShahbazKhan和Michael Felsberg. Eco: 用于跟踪的高效卷积算子.在CVPR, 2017. 2, 60[8] Martin Danelljan, Goutam Bhat, Fahad ShahbazKhan和Michael Felsberg. Atom: 最大化重叠的准确跟踪.在CVPR, 2019. 2, 3, 5, 6, 80[9] Martin Danelljan, Luc Van Gool和Radu Timofte.概率回归用于视觉跟踪. 在CVPR, 2020. 3, 6, 80[10] Martin Danelljan, Gustav H¨ager, Fahad Khan和MichaelFelsberg. 准确的尺度估计用于鲁棒视觉跟踪. 在BMVC, 201

下载后可阅读完整内容，剩余1页未读，立即下载