没有合适的资源?快使用搜索试试~ 我知道了~
8886∗可见热无人机跟踪:大规模基准和新基准张鹏宇1、赵杰1、王东1、胡川路1、2、阮翔31大连理工大学信息与通信工程学院2鹏程实验室3Tiwaki Co.Ltd.{pyzhang,zj982853200}@ mail.dlut.edu.cn,{wdice,lhchuan}@dlut.edu.cn,ruanxiang@tiwaki.com摘要随着多模态传感器的普及,可见光-热(RGB-T)目标跟踪在目标温度信息的指导下具有更强然而,缺乏成对的训练样本是释放RGB-T跟踪能力的主要瓶颈。由于收集高质量RGB-T序列是费力的,最近的基准测试仅提供测试序列。 在本文中,我们构建了一个大规模 的 基 准 与 高 多 样 性 的 可 见 光 - 热 无 人 机 跟 踪(VTUAV),包括500序列与170万高分辨率(19201080像素)帧对。此外,全面的应用程序(短期跟踪,长期跟踪和分割掩模预测)与不同的类别和场景被认为是详尽的评估。此外,我们提供了一个由粗到细的属性注释,其中提供帧级属性以利用挑战特定跟踪器的潜力此外,我们设计了一个新的RGB-T基线,命名为分层多模态融合跟踪器(HMFT),融合RGB-T数据在不同的水平。在多个数据集上进行了大量的实验,以揭示HMFT的有效性和不同融合类型的互补性。该项目在这里可用。1. 介绍给定模型不可知目标的初始位置,视觉对象跟踪是在后续帧中捕获目标[28],其中目标可能遭受视野外、遮挡、照明变化和运动模糊。先前的算法解决了可见模态内的这些挑战,当目标处于黑暗、下雨、有雾和其他极端条件下时提供有限的信息(图1中的第一行)。1)。相比之下,热图像作为补充线索,对光照变化不敏感,但当目标和背景不同时,它不能区分目标†通讯作者:Dr.王东,wdice@dlut.edu.cn图1.我们数据集中的样本帧。场景-超级类(序列长度)显示在顶部.序列级属性在底部示出,包括相机移动(C)、变形(D)、极端照明(E)、部分遮挡(P)、完全遮挡(F)、尺度变化(S)、热聚类(H)、快速移动(M)、视野外(O)和低分辨率(L)。在相似的温度下(图中的第二行),1)。为此,由于多模态传感器的便携性和低价格,可见光热(RGB-T)数据跟踪通过提供补充信息扩大了应用范围,这引起了更多的关注[23,47]。Li等人。 [19]发布了一个包含50个视频的灰度RGB-T数据集。后来,RGBT 210[25]和RGBT 234 [20]被提出,包含210和234个测试视频。在2019年 [15]和2020年[16],VOT委员会举行了VOT-RGBT跟踪子挑战赛,从RGBT 234中选择了60个序列来评估竞争对手的准确性和稳健性此外,从性能和时间开销的角度出发,提出了各种算法。李等人[22]提出了一种多-公园-行人(23128)海-船舶(16413)停车场-动物(2046)E D O C F M SS HC D S L公园-行人(2755)通道-行人(646)人行道(1440)P F S H MH PC H公园-车辆(5778)学校-车辆(25294)公路-火车(4013)C D P S MC D S MC SV-T互补热优势显性8887适配器网络学习模态共享和模态特定的表征。 Zhang等人 [48]设计实时RGB-T跟踪器,利用属性注释的有效性。Zhang等人。 [46]将DiMP [2]扩展到RGB-T跟踪,在VOT 2019-RGBT中获得最佳排名。然而,训练数据的缺乏成为RGB-T跟踪的主要瓶颈。现有数据集(GTOT、RGBT 210、RGBT 234和VOT-RGBT)包含284个独特的短期序列。跟踪器必须在另一个测试集[22,48]或从可见模态[46,50]生成的合成数据上进行训练,这些数据具有有限的泛化能力和训练间隙。此外,测试序列是用监控设备捕获的,从而导致有限的视角、帧长度和成像质量。To fully exploit the potential of theRGB-T tracker, this pa- per presents a large-scale RGB-Ttracking dataset with high diversity.主要贡献如下:• 本文构建了一个大规模的、高多样性的无人机可见光热跟踪基准测试系统。据我们所知,VTUAV是最大的多模态跟踪数据集,具有最高的分辨率。此外,本文还综合考虑了短时、长时跟踪和分割掩模预测,实现了具有更广泛应用前景的综合评价我们还提供了一个精致的帧和序列级别的属性注释,这可以满足训练特定于挑战的跟踪器的要求。• 本文提出了一种新的RGB-T跟踪基准HMFT,它将多种多模态融合策略(包括图像融合、特征融合和决策融合)统一到一个分层融合框架中。我们为短期和长期跟踪实施相应的版本此外,我们提供了各种融合类型的深入分析,以开发RGB-T跟 踪 器 。 在 GTOT 、 RGBT 210 、 RGBT 234 和VTUAV上进行了详尽的实验,得出了各种融合类型的结论。2. 相关工作RGB-T跟踪基准。用于RGB-T跟踪的第一个数据集是OTCBVS [39],其包含具有7200帧的6个序列。2012年,LITIV [36]提出了9个视频剪辑和6300个图像对。这两个数据集是过时的,因为它们不是特别为RGB-T跟踪设计的,并且数据有限。2016年,Li等人 [19]提出了一个灰度-热跟踪数据集,即GTOT,包含7800帧。GTOT包含各种具有挑战性的场景,以评估跟踪器在极端条件下的鲁棒性。RGBT210 [25]数据集发布,包含210个视频和超过104K帧。后来,RGBT 234[20],一个扩展版本,RGBT 210将序列的数量扩大到234个,并提供了一个独立于模态的注释,可用于单独学习各个模型。2019年,VOT委员会选择了60个序列并构建了一个新的数据集VOT-RGBT [15],该数据集利用预期平均重叠(EAO)来评估跟踪器的准确性和稳健性LSS数据集[50]是一个新构建的合成数据集,其中使用图像转换或视频着色方法从另一种模态最近,LasHeR [24]包含1224个短期视频和730K帧,具有多个场景和视点。在本文中,我们提出了一个统一的大规模RGB-T跟踪数据 集 , 具 有 高 质 量 的 训 练 对 。 与 最 近 的 数 据 集(LasHeR)相比,可以总结出三个主要差异。首先,我们拥有更高质量的图像和更宽的帧长度分布。其次,LasHeR专注于短期评估,而我们的数据集从三个主流角度衡量跟踪器第三,提供了详细的帧级属性注释,可以满足挑战感知跟踪器的要求[21,48]。RGB-T跟踪算法。最近的RGB-T跟踪器专注于利用多模态信息的对应性和可辨别性[45,51,54,55]。提出了图像融合、特征融合和决策融合等几种对于图像融合,Peng等人。 [33]利用一组层通过共享异构数据的权重来学习互补信息。基于图像融合的方法可以提供多模态的共享表示,但高度依赖于图像对齐,目前尚未得到充分利用大多数跟踪器通过融合特征来聚合表示[38],其可以详细描述为两种类型,即,模态交互和直接融合。前者是在另一个模态的指导下细化单模态特征,然后将两个模态的特征结合起来,从而实现全面的表征[37,38]。相比之下,使用多模态特征作为输入,后者首先将它们组合起来,并通过直接连接[46,51]或注意力技术[33]学习融合表示。特征融合具有高度的灵活性,可以用大量的不成对数据进行训练决策融合模型的每一个模态独立,并融合的分数,以获得最终的候选人。JMMAC [49]采用多模态融合网络,通过考虑模态级别和像素级别的重要性来集成响应。Luo等人。 [30]利用独立框架在RGB-T数据中进行跟踪,然后通过自适应加权将结果合并。决策融合避免了不同模态的异质性,并且对模态配准不敏感。在这项工作中,我们还设计了一个新的基线RGB-T跟踪使用分层-8888化学融合方式,综合上述三种融合方式的优点。在三个流行的RGB-T数据集上的大量结果表明,在不同层次的信息融合可以提供综合贡献,以获得更好的结果。3. VTUAV基准3.1. 基准功能和统计数据• 具有高多样性的大规模序列。最近的RGB-T数据集使用多传感器监控摄像机和2自由度旋转平台。图像质量和灵活性不能满足跟踪的要求。此外,不能用静态相机长时间跟踪目标,导致有限的帧长度。为了解决这些问题,我们的数据集由专业无 人 机 ( DJI Ma- trice 300 RTK ) 捕 获 , 配 备Zenmuse H20 T相机,可以在极端条件下实现稳定飞行,如夜间,雾天和大风场景。热摄像机捕捉8-14微米,我们控制飞行高度从5-20米,以获得适当的目标尺寸。我们收集了500个序列,其中包含1,664,549个RGB-T图像对。图像质量很高,以1920*1080分辨率1存储,jpg格式,采样速度为30 fps。我们分离出250个序列作为训练集,另外250个序列作为测试集。所有序列也被分成长期和短期的集合,根据目标的不存在2。在训练集中,有207个短期序列和43个长期序列。250个测试序列中共有74个属于长期集,以评估长期跟踪的性能。另外176个测试序列用于短期跟踪评估。我们还为短期子集中选择的100个序列(50个用于训练的序列和50个用于测试的序列)提供掩码注释,其可用于视频对象分割和尺度估计学习。可以在选项卡中找到现有数据集之间的1和图第2段(c)分段。• 通用对象和场景类别。相关数据集主要记录在道路、学校等安全监控场景,场景和对象类别有限。我们的目标是构建一个具有足够对象类型和场景的高度多样化的数据集。如图2(a)中,跟踪目标可以分为5个超类(行人、车辆、动物、火车和轮船)和13个子类,可以覆盖大部分的类别,便于实际应用。序列是在15个场景捕捉跨越两个城市,其中包括1热像以640*480的分辨率拍摄,我们重新缩放它们以实现对准过程中的配准。2我们将序列标记为长期,其中目标连续20帧以上不在视野内。道路、街道、桥梁、公园、大海、海滩、球场、学校等。为了强调这两种模式的有效性,数据采集持续了一整年的各种天气条件和气候。具体地,在白天捕获325个序列,并且在不同条件(例如刮风、多云和有雾的天气)下在夜间捕获175个序列。• 分层属性。以前的方法[21,35,48]旨在开发属性信息的潜力,并在挑战情况下实现令人满意的性能。然而,现有的视觉和RGB-T数据集[20,26,40]在序列级别标记属性,这涉及以粗略的方式将各种挑战纳入单个序列。在本文中,除了序列的属性,我们实现了一个层次的属性标注,通过额外的标签帧级属性的训练序列,充分研究基于属性的方法。而不是将整个序列分成几个片段[9],我们保持序列连续性,这允许帧被注释有多个标签或没有标签。Challenges are summarizedas 13 attributes, including target blur (TB), cameramovement(CM),extremeillumination(EI),deformation (DEF), par- tial occlusion (PO), fullocclusion (FO), scale varia- tion (SV), thermalcrossover(TC),fastmoving(FM),backgroundclustering (BC), out-of-view (OV), low- resolution(LR) and thermal-visible separation (TVS).图2(b)列出了来自序列级和帧级的每个属性的数量。贡献的描述在补充材料。• 对齐。鉴于多传感器设备不能确保光心聚合,因此出现视图差异。以前的RGB-T数据集采用帧级对齐来计算单应性变换并逐帧统一视图范围,导致巨大的人力成本并且在现实世界应用中是不可行的。在我们的数据集中,我们在每个视频的初始帧中操作模态对齐,并将其应用于所有帧。我们注意到,大多数帧都对齐良好。不同对准方法的比较可以在补充材料中找到。3.2. 高质量的注释在我们的数据集中,我们提供了三种格式的足够的专家注释,包括边界框,分割掩码和属性注释。示例如图所示。图1和图2(d)。• 边界框。在VTUAV中,我们分别仔细注释两种模态的边界框。我们在10帧的间隔中提供稀疏注释88890.09.08.07.06.05.04.03.02.01.00.03.02.52.01.51.00.50.0UAVRGB-T10.622.942.81海滨庭院4 2比奇河331海× 1012.03.5× 10游乐场954桥12学校15购物20127号车路25911.01帧级序列级商城24号广场通路26对象场景自行车6人行横道行人机组526街35235公园58(一)动物4挖掘机3工程车辆3缆车2船1SVPOEICM TCBC DEFLROV 电视 FMFOTB(b)第(1)款40001200500350200150 305070 100 200500序列数1200(d)其他事项图2.建议数据集的主要特征和统计数据。(a)场景(外部)和对象类别(内部)的分布。(b)帧级和序列级属性的统计。(c)现有数据集和拟议数据集之间的比较。每个周期的面积表示总帧的数量(d)使用边界框和分段掩码进行精确注释更好地查看放大的颜色。表1.现有多模态和无人机跟踪数据集之间的统计比较基准Num.Seq.Avg.帧分钟帧最大帧总帧决议火车子集长期子集Num.隔离区多模态年GTOT [19]50157403767.8K384× 288630× 460630× 460630× 460630× 480✕✕✕✓2016RGBT210 [25]210498404140104.7K✕✕✕✓2017VOT2019-RGBT [15]6033440133540.2K✕✕✕✓2019RGBT234 [20]234498404140116.7K✕✕✕✓2019[24]第二十四话12246005712862734.8K✓✕✕✓2021UAV123[31]DTB [26]VisDrone-SOT [53]12370961246225892109689255276993135113.4K15.7K85K1280× 7201280× 7201360× 765✕✓✕✕ ✕ ✕✓×✕✕✕✕201620172018VTUAV5003329196272131.7M1920× 1080✓✓24.4K✓2021如[32]中所述,可以在最先进的跟踪器的指导下实现密集注释通过这种方式,我们总共提供了326,961个高质量的边界框注释。• 分割掩码。对于可见光和热图像,我们以1 fps注释目标掩模使用Labelme工具包共生成24,464个掩码。• 属性注释。在我们的数据集中,我们提供帧级属性注释来进行详细的基于属性的分析。大多数属性3是la-3根据FM、SV、LR、TVS的属性描述自动标注。由一位全职专家进行鉴定。因此,我们总共标记了301,678帧,具有430,960个属性,并提供了500 * 13个序列级注释。3.3. 评估指标在我们的实验中,所有跟踪器都在一次通过评估(OPE)协议中运行,并通过最大成功率(MSR)和最大精确率(MPR)进行评估,这在RGB-T跟踪中广泛使用[19,20,25]。考虑所有序列的总体性能和属性特定序列的基于属性的用于掩模评价中,我们用Jaccard index(J)和F-score(F)来衡量平均帧6.736.461.365.782.384.240.574.080.902.060.421.200.750.890.720.520.641.450.240.620.190.630.13UA11V1233.4K我们1.7MVis博士对e-SOT85KRGBT210RGBT234VOT2040.19-2KRGBT104.7K116.7KLas她GTOTDTB15.7K734.8K7.8K8890结果[34]。8891v不vnTNv不J∈FPr+Re∈∈∈F·LLNi=1MiGi一vv不不• 最大成功率(MSR)。成功率(SR)是指其中,Pi∈RC <$H<$W和Pi∈RC<$H<$W 指确保跟踪帧的比率,该比率由第i个块输出的互补特征确定,跟踪结果热模态,和pi和pi是第n项和地面真相 对于不同的重叠阈值,在Pi中和Pi。L表示可以获得成功图(SP),并且SR被计算为SP的曲线下面积。由于模态层位移的存在,我们采用帧层的最大重叠作为最终得分.• 最大精确率(MPR)。与精度率(PR)类似,MPR用于计算帧的百分比,其中预测与地面实况之间的中心距离小于阈值τ。在我们的实验中,τ被• Jaccard index(). Jaccard索引被定义为所有N个帧的预测掩码M和地面实况G之间的平均像素级IoU可以是--ResNet50中的块。然后将学习的表示连接以形成总体互补特征PaR2CHW,其中C、H、W分别表示特征的通道数、高度和宽度。复杂-当所有模态都工作良好时,双模态特征更鲁棒,并实现准确的尺度估计。4.2.鉴别特征融合双模态可以提供异构信息,其中可见光图像提供详细的上下文,并且热图像根据温度差获得更多的轮廓信息,从而实现对照明变化的鲁棒性。为了充分利用这两种交通工具的潜力因此,我们首先使用单个特征提取器来建模,计算为J=1N我的天• F-score()。F-score计算基于M和G中的闭合轮廓之间的基于区域的精确度Pr和召回率Re,其可以通过F=2PrRe表示。4. 分层多模态融合跟踪器在本节中,我们将介绍RGB-T跟踪的新基线,以在统一的框架中充分利用各种融合类型,如图所示。3.第 三 章 。 它 包 含 三 个 主 要 模 块 : 互 补 图 像 融 合(CIF)、鉴别特征融合(DFF)和自适应决策融合(ADF). CIF旨在学习两种模式之间的共享模式。DFF引入了异构表示的通道级组合。最后,ADF通过考虑来自判别分类器和互补分类器的响应来提供最终目标候选4.1.互补图像融合如图3中的第三行所示。1,RGB-T图像在相同场景中捕获,并且互补信息(例如语义和轮廓等)存在于两种模态中,这些信息可以相互传播以进行鲁棒特征表示[27]。为此,我们利用融合(DFF)模块来融合这些表示。反DFF融合了可见光图像和热图像的信息,通过引入通道模态权值,提供了一个融合的特征图在DFF中,来自可见光和热图像的特征图DvRCHW DtR、C、H、W相加,并且我们通过全局平均池化(GAP)和全连接(FC)层嵌入来自两种模态的全局向量dg,其可以表示为,dg=Fg(GAP(Dv+Dt)),(2)其中()表示全连接层。 然后,采用两个FC层来产生信道级权重wv,wt对于每种模态,其之后是softmax操作,如等式1所示。(3)和方程(四)、eFv(dg)wv=eFv(dg)+eFt(dg)(3)eFt(dg)wt=eFv(dg)+eFt(dg)(4)最后,可以通过通道之间的加权求和来获得聚合特征,共享骨干网,即, [11]第150章:要想成功,Di=wiDi+wiDi(五)mon功能。为了利用两种模态之间的一致性,我们引入了发散损失div以通过测量它们的KL发散来约束多模态特征分布,其可以表示如下,Ldiv=LKL(Pi||Pi)每一种形态。 然后,我们提出了一个判别特征,8892我NvnvnTN1ΣΣ其中上标i表示所有变量的第i个通道。与建议的DFF,我们构建了一个综合性的功能,融合的潜在表示的可见光-热模态。4.3. 自适应决策融合v ti=1L N=(pii=1n=1log(pi-(p))(一)上述CIF和DFF各自做出决定。他们的模型互补和歧视提示,分别输出为两个响应图。 它8893S·×∈∈⊙ ⊙⊙··LL+Elem。 总和×物料多重化∗ 元素多重化Conv编解码器全球平均值合并目标位置互补图像融合鉴别特征融合自适应决策融合MAM图3.HMFT概述三种融合类型相结合,学习一个全面的表示和预测准确的结果,其中包括互补图像融合(CIF),判别特征融合(DFF)和自适应决策融合(ADF)。CIF旨在提取模态共享表示,而DFF融合个体特征以学习模态无关映射。利用这两个特征来定位目标,ADF通过组合两个分支的输出来做出最终决策对于确定哪种线索对于目标定位是可靠的是至关重要的。因此,我们引入了自适应决策融合(ADF)来融合这两个响应图根据他们的模态置信度。首先,模态聚合模块(MAM)的设计,以获得每一个模态的信心。MAM是一个自我注意网络,它产生模态置信度Md和Mc。该算法以非局部的方式挖掘模态信息,考虑了整体坐标。MAM工艺可以4.4. 实现细节我们采用DiMP [2]作为我们的基础跟踪器,以截断的ResNet50作为骨干网络。我们进行多步骤的培训过程,以适应不同模块的不同目的。首先,我们为区分性和互补性分支训练两个主干。两个分支的损耗表示如下,公式为,M=S(A×X),(6)Ld=Lbb+βLclsLc= Lbb+β Lcls+γ Ldiv(八)A=R(φ1 <$1(X))× R(φ1 <$1(X)),(7)其中X是输入特征,即, Pa或Da。和φ1 1()是可学习的11卷积层。()和()是整形操作和通道求和,节中。表示矩阵乘法。 当计算区分分支和复杂分支Md和Mc的模态置信度时,它们被连接并发送到两层编码器-解码器网络以生成权重图EdRHH HW和EcRH最后,通过RF=RdEd+RcEc获得最终响应,其中表示逐元素产生。其中,bb和cls分别是边界框估计和目标分类损失,详见DiMP [2]。β和γ是分类和发散损失的权重,设置为100。在此之后,学习的骨干是固定的,我们学习DFF模块和类与Eq。(八)、最后,在所有主干固定的情况下,我们开始学习ADF和IoU预测模块[13],并微调两个分类器以适应学习的表示。DFF和ADF的学习率分别为2e−5和2e−4。我们在DiMP [46]中使用相同的设置来训练背部。骨头我们通过将递减因子乘以原始学习率(设置为0.1)来微调网络HMFT在Pytorch平台上实现,并在具有24G内存的单个Nvidia RTX Titan GPU上运行。FvDFF+∗软max +的∗FtMAM研发ADF∗Concat+ RFMAMRc∗Vdis主干判别分支Dis. 分类器T显示主干ConcatIOUPred.0.850.780.60补偿主干共享权重补偿骨干CIFComp. 分类器补支路最终响应IvLdivIt热可见CIFRcADFDFF研发M高×宽×1总和××H×W×CXConcatFCFCFCHW×CC×HWHW×C8894表2.对建议数据集和现有RGB-T跟踪基准(包括GTOT、RGBT 210和RGBT 234)进行短期跟踪的比较结果。前三个跟踪器用红色、蓝色和绿色字体标记。跟踪器VTUAVMSR MPRGTOTMSR MPRRGBT210MSR MPRRGBT234MSR MPRFPSDAFNet [10]45.862.071.289.148.572.654.479.621.0[第48话]46.662.273.990.453.477.857.180.925.0FSRPN [15]54.465.369.589.049.668.952.571.930.3mfDiMP [46]55.467.349.059.452.274.942.864.628.0HMFT(我们的)62.775.874.991.253.578.656.878.830.25. RGB-T跟踪5.1. 短期评价整 体 性 能 。我 们 选 择 了 四 个 RGB-T 跟 踪 器(DAFNet [10], ADRNet [48], FSRPN [15]和mfDiMP [46])。如Tab.所示。2、具有实时性的HMFT算法取得了最好的性能,MSR为62.7%,MPR为75.8%.亚军跟踪器是mfDiMP,它配备了一个框回归模块来应用规模估计。表3.与最先进的RGB-T追踪器在长期子集上进行定量比较。跟踪器MSR MPR FPS亚洲发展报告网[48] 17.5 23.5 10.3DAFNet [10] 18.8 25.3 7.1mfDiMP [46] 27.2 31.525.8FSRPN [15]31.436.6HMFT(我们的)35.5 41.425.1HMFT LT(我们的)46.1 53.68.1第 基于暹罗的跟踪器(FSRPN)和多域网络(DAFNet和ADRNet)获得较差的结果。与现有数据集进行比较。我们还对三种流行的RGB-T跟踪基准进行了分析,包括GTOT,RGBT 210和RGBT 234。为了适应不同的基准测试,我们对GTOT上的HMFT进行了微调,并在RGBT 210和RGBT 234上进行了测试。结果见表。二、HMFT在所有公共基准点上都获得了令人满意的性能,具有实时性。 具体而言,HMFT实现了10.90.80.70.60.50.40.30.20.10精密度图DiMP+CIF+DFF+ADF[0.758]DiMP+DFF[0.739]DiMP+CIF[0.738]DiMP +CIF+DFF[0.738]DiMP-RGB[0.706]DiMP-T[0.655]0 10 20 30 4050定位误差阈值10.90.80.70.60.50.40.30.20.10成功情节DiMP+CIF+DFF+ADF[0.627]DiMP+DFF[0.615]DiMP+CIF+DFF[0.611]DiMP +CIF[0.608]DiMP-RGB[0.589]DiMP-T[0.543]0 0.2 0.4 0.6 0.81重叠阈值GTOT和RGBT 210的最新性能,MSR分别为74.9%和53.5%,MPR分别为91.2%和78.6%在RGBT 234中,我们的跟踪器在MSR和MPR中以56.8%和78.8%的成绩获得了所有竞争对手的前三名。所有的结果表明HMFT的有效性,它具有强大的基线跟踪器的巨大潜力。5.2. 长期评价整体性能。鉴于没有可用的长期RGB-T跟踪器,遵循[6]的思想,我们使用全局跟踪器实现HMFT LT,其中我们使用Glob-alTrack [12]作为全局检测器,RTMDNet[14]作为跟踪器切换器。当RTMDNet识别出目标缺失时,选择GlobalTrack在整个图像中查找目标。我们测试了所有的竞争对手,结果显示在Tab中。3 .第三章。我们的长期变体(HMFT LT)为RGB-T长期跟踪设定了新的基线,其在MSR和MPR中分别以29.8%和29.4%的相对促进优于短期变体(HMFT)。5.3. 消融研究HMFT的消融分析如图所示。4.第一章由于可见光图像包含更详细的信息,更能识别物体,可见光图像的DiMP比可见光图像的DiMP优越得多。图4. HMFT的消融分析热成像。此外,图像融合和特征融合对单模态跟踪器(DiMP-RGB和DiMP-T)的性能都有明显的提升,其中DiMP+CIF和DiMP+DFF在MSR上分别获得3.2%和4.4%的提升。DiMP+CIF+DFF简单地平均来自互补分支和鉴别分支的响应,导致性能略微下降。最后的模型(DiMP+CIF+DFF+ADF)在MSR和MPR上分别提高了2.6%和2.7%,表明了决策融合模块的适应性。5.4. 定性分析图5提供了HMFT和竞争对手之间的可视化结果HMFT在各种挑战中显示了准确的跟踪结果,例如遮挡,摄像机移动和尺度变化,而其他跟踪器错过了目标或无法正确估计尺度。6. VTUAV-V子系统的实验结果我们认为VTUAV在传统的视觉跟踪任务中具有很大的潜力。为了揭示RGB跟踪的功能,我们构建了一个子集,即VTUAV-V,它只包含RGB跟踪的可见模态最大精度率最大成功率8895LTMU [0.753]STARK [0.753]转换T [0.748]DiMP [0.713]SiamRPN ++[0.709]原子[0.697]ECO [0.688]海洋[0.661]LightTrack [0.659]SiamRPN [0.652]RTMDNet [0.649]SiamAPN ++[0.637]SiamTPN [0.624]D3S [0.612]HiFT [0.594]SiamFC [0.592][0.576]全球追踪[0.395]成功率10.9精密度图10.9成功情节0.8 0.80.7 0.70.6 0.60.5 0.50.4 0.40.3 0.30.20.100 10 20 30 4050定位误差阈值0.20.1000.2 0.4 0.6重叠阈值图6.VTUAV-V短期子集评估结果精密度图1成功情节10.9 0.90.8 0.80.70.60.50.40.30.20.10LTMU [0.569]STARK [0.565]转换器[0.476]DiMP[0.445]SiamTPN [0.419][0.418]SiamRPN++[0.415]海洋[0.397]全球追踪[0.377]原子[0.370]LightTrack[0.368]SiamAPN++[0.364]HiFT [0.333]SiamRPN [0.331]D3S [0.300]ECO [0.300]SiamFC [0.288]RTMDNet [0.267]0.70.60.50.40.30.20.100 10 20 30 40 500 0.20.40.60.8 1定位误差阈值重叠阈值TransT RTMDNetADRNetDAFNet图7.VTUAV-V长期子集的评估结果mfDiMPFSRPNHMFT GT性能STARK和LTMU获得最佳性能-图5. HMFT的定性比较。我们的方法在PO,CM和SV上表现出很强的性能。ing.我们在VTUAV-V数据集上评估了许多流行的短期和长期RGB跟踪器,包括LTMU [6],STARK [42],TransT [5],DiMP [2],SiamRPN++ [17],ATOM [8],LightTrack[43],Ocean[52] , SiamRPN[18] , SiamTPN[41] ,SiamAPN++[4], ECO [7], D3S [29], RTMDNet [14], HiFT[3],[44]、SiamFC [1]和GlobalTrack [12]。因为只有可见模态用于跟踪。我们使用SR和PR来衡量他们的每个跟踪器都经过测试,没有任何修改或重新训练。6.1. 短期评价如 图 6 、 基 于 transformer 的 跟 踪 器 ( STARK ,TransT)性能最好,在跟踪中显示出优势。STARK在SR和PR方面的表现最好,分别为64.9%和75.3%。通过全局跟踪器,LTMU能够在摄像机运动和视角变化较大的情况下重新检测目标,在PR方面具有令人满意的性能。在线更新的跟踪器(LTMU、DiMP、ATOM、ECO)获得了后续性能,而基于Siamese的跟踪器( SiamRPN++ 、 LightTrack 、 Ocean 、 SiamRPN 、SiamTPN、SiamAPN ++、HiFT)获得了较差的结果,这表明了模型更新的重要性。6.2. 长期评价如图7,与短期子集上的性能相比,所有跟踪器都表现出下降趋势分别对SR和PR进行管理。通过全局检测机制,所有长期跟踪器(LTMU,Global- Track和SPLT)由于其再检测模块而显著提升其排名。7. 结论在本文中,我们发布了一个大规模的RGB-T跟踪基准。取得了三个主要突破。首先,我们通过提供在各种条件下捕获的多样化和高分辨率配对RGB-T图像来解决可用训练数据很少的问题。其次,据我们所知,这是第一个统一的RGB-T数据集,它考虑了短期跟踪,长期跟踪和像素级预测,以综合评估跟踪器。第三,我们在序列和帧级别上标注了13个挑战,这些挑战可以满足特定场景跟踪器的需求将图像融合、特征融 合 和 决 策 融 合 相 结 合 , 设 计 了 一 种 新 的 基 线HFMT。在三个基准上的显著性能表明了这些融合方法的互补性,以及足够的训练数据的重要性。谢谢。这项工作得到了中国国家自然科学基金的部分资助。62022021、61806037、61725202、U1903215和61829102;大连市科技创新基金,批准号:2020 JJ 26GX 036和大连市创新领军人才支持计划(批准号:2018RD07.#0001#0200第0216第0856第0867第0877#0001第0516三零五六STARK[0.649]TransT [0.639]LTMU[0.626]DiMP [0.593]SiamRPN ++[0.588]原子[0.576]LightTrack [0.564]海洋[0.542]SiamRPN [0.537]SiamTPN [0.528]SiamAPN++[0.527][0.522]D3S [0.519]RTMDNet [0.512][0.489][0.472]SiamFC [0.464]STARK[0.504]LTMU [0.487]TransT [0.422]DiMP[0.387]SiamTPN [0.366]SiamRPN++[0.360][0.360]海洋[0.341]LightTrack[0.332][0.325]第一次世界大战后的中国SiamAPN ++[0.323]HiFT [0.301]SiamRPN[0.290]D3S [0.278]经济指标[0.262]SiamFC [0.238]RTMDNet [0.225]查准率查准率成功率8896引用[1] 放大图片创作者:J. Henriques,Andrea Vedaldi,andPhilip H. S.乇用于对象跟踪的全卷积连体网络。在欧洲计算机视觉研讨会上,第850-865页,2016年。8[2] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测跟踪。在IEEE计算机视觉国际会议上,第6182-6191页,2019年。二、六、八[3] Ziang Cao,Changhong Fu,Junjie Ye,Bowen Li,andYiming Li.Hift:用于空中跟踪的分层特征Transformer。在IEEE计算机视觉国际会议上,第15457-15466页,2021年。8[4] Ziang Cao,Changhong Fu,Junjie Ye,Bowen Li,andYiming Li.Siamapn++:用于实时无人机跟踪的暹罗注意力聚合网络。在智能机器人和系统国际会议上,第3086-3092页,2021年。8[5] 辛辰 、宾 燕、 朱佳 文、 董王、 杨晓 云、 胡川 路。Transformer跟踪。在IEEE计算机视觉和模式识别会议上,第8126- 8136页8[6] Kenan Dai,Yunhua Zhang,Dong Wang,Jianhua Li,Huchuan Lu,and Xiaoyun Yang.高性能的长期跟踪与元更新。在IEEE计算机视觉和模式识别会议上,第6298-6307页,2020年。七、八[7] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg. ECO:用于跟踪的高效卷积运算符。在IEEE计算机视觉和专利识别会议上,第6638-6646页,2017年。8[8] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg. ATOM:通过重叠最大化进行精确跟踪。在IEEE计算机视觉和模式识别会议上,第4660-4669页8[9] 范 恒 , 范 阳 , 楚 鹏 , 林 月 薇 , 林 远 , 凌 海 滨 。TracKlinic:视觉跟踪中挑战因素的诊断。在IEEE计算机视觉应用上,第970 - 979页,2021年。3[10
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功