没有合适的资源?快使用搜索试试~ 我知道了~
10725DepthTrack:揭开RGBD跟踪SongYan1,†,JinyuYang2,3,†,JaniKa¨ pyla¨1,†,FengZheng2,AlesˇLeonardis3,Joni-KristianKa¨ma¨ra¨ inen11坦佩雷大学2南方科技大学3伯明翰大学{song.yan,jani.kapyla,joni.kamarainen} @ tuni.fi,outlook.com,zhengf@sustech.edu.cn,a. cs.bham.ac.uk摘要随着RGBD传感器在机器人等许多应用领域的普及,RGBD(RGB + depth)目标跟踪技术正得到越来越广泛的应用。然而,最好的RGBD跟踪器是最先进的深度RGB跟踪器的扩展。它们使用RGB数据进行训练,深度通道用作遮挡检测等微妙之处的助手。这可以通过以下事实来解释:不存在足够大的RGBD数据集来1)训练“深深度跟踪器”和2)用深度线索对于其是必不可少的序列来挑战RGB跟踪器。这项工作引入了一个新的RGBD跟踪数据集-深度跟踪-它具有比现有最大数据集多两倍的序列(200)和场景类型(40),以及三倍多的对象(90)。此外,序列的平均长度(1473)、可变形对象的数量(16)和注释跟踪属性(15)增加了。此外,通过在DepthTrack上运行SotA RGB和RGBD跟踪器,我们提出了一个新的RGBD跟踪基线,即DeT,这表明深度RGBD跟踪确实受益于一般的训练数据。代码和数据集可在https://github.com/xiaozai/DeT上获得。1. 介绍通用对象跟踪的目标是在给定其在第一帧中的位置的情况下定位视频序列中的未知对象。最流行的跟踪模态是以RGB图像帧作为输入的色觉。此外,视觉对象跟踪(VOT)的问题可以分为短期跟踪和长期跟踪,其被不同地评估[13,14]。短期评估方案通过测量跟踪器的准确性和稳健性来关注跟踪器本身。如果追踪者失去了目标,就会-†同等贡献。图1:建议的DepthTrack和以前的RGBD跟踪数据集的属性比较。影响鲁棒性度量,但是跟踪器被重新初始化,然后评估继续。在长期(LT)协议中,跟踪器不被重新初始化,并且因此LT跟踪器需要用于检测目标是否存在以及在目标不存在操作模式中重新检测的特殊过程两个最新的VOT挑战[13,14]包括用于RGBT(RGB加热红外)和RGBD(RGB加深度)对象跟踪的附加轨道。有趣的是,没有专门针对热特征或深度特征的跟踪器,但性能最好的RGBT和RGBD跟踪器都使用领先的深度跟踪器架构MDNet [22]、ATOM [7]和DiMP [3]学习的RGB特征。附加模态T或D仅用作“助手”,以帮助各种特殊情况,因此,RGBD和RGBT跟踪的潜在应用是什么以及T和D通道是否具有其自身的强大特征仍然不清楚。在这项工作中,我们专注于RGBD跟踪。RGBD跟踪已经在一些最近的作品中进行了研究(例如,,[11,12,17]),但这些使用常规RGB和深度特征,并且劣于VOT 2019和2020 RGBD挑战中基于深度RGB跟踪器的方法[13,14]。VOT中性能最好的跟踪器10726×2020 RGBD挑战赛,ATCAIS,DDiMP和CLGS D,基于最近的深度RGB跟踪器,ATOM [7],DiMP [3]和MDNet [22],并且仅使用深度来去除检测器遮挡、目标消失和目标重新检测。没有用深度序列训练的“深度跟踪器”。主要原因是缺乏合适的训练数据。例如,三个现有的RGBD数据集PTB [24]、STC [25]和CDTB[18]仅包含100+36+80个序列。目标和属性注释仅可用于STC和CDTB数据集,仅留下116个RGBD跟踪序列用于研究目的。同时,现有的RGB跟踪数据集La-SOT[8]、TrackingNet [21]和GOT-10 k [10]包含1.55K+30 K+10 K序列,即在数据量上存在超过两个为了揭示RGBD跟踪中深度的力量,我们需要更大和更多样化的RGBD或仅深度跟踪数据集。在这项工作中,我们报告了一个新的充分注释的RGBD数据集,这是最大的和最多样化的可用的数据集在这一领域。主要贡献是:• 一个新的注释数据集- DepthTrack -用于RGBD跟踪。该数据集比它的前辈大得多,并被划分为训练集和测试集(图1)。1和图2)的情况。• 在DepthTrack上使用SotA RGB和RGBD跟踪器进行广泛实验的结果和发现。这些发现,包括RGB和 深度 特征 的 融合 ,将 促 进未 来收 集 更好 的RGBD跟踪数据集和开发更好的RGBD跟踪器的工作。• 新的RGBD基线DeT,其用深度跟踪数据训练,并且获得比现有SotA跟踪器更好的RGBD跟踪性能。DepthTrack RGBD序列、注释Meta数据和评估代码与VOT 2020 Python工具包兼容,以便使用DepthTrack轻松评估现有和新的2. 相关工作RGBD跟踪数据集。RGBD对象跟踪只有三个公开可用的数据集:1)Prince-ton跟踪基准(PTB)[24],2)时空一致性数据集(STC)[25]和3)颜色和深度跟踪基准(CDTB)[18]。将这些数据集的统计数据与图1中提出的深度跟踪进行比较1.一、PTB包含在室内用Kinect记录的刚性和非刚性对象的100个RGBD视频序列数据集的多样性在场景和属性的数量上是相当有限的,并且大约14%的序列具有RGB和D同步错误,并且8%是未对齐的。STC解决了PTB的缺点。该数据集由华硕Xtion RGBD传感器记录,并且主要包含室内序列和少量低光外部序列。该数据集小于PTB,仅包含36个序列,但包含13个属性的注释。STC解决短期跟踪问题。CDTB是最新的数据集,用于VOT-RGBD 2019和2020挑战[13,14]。它总共包含80个序列和101,956帧。在室内和室外记录序列,作者使用VOT挑战的评价方案。RGBD跟踪算法。直到最近,RGBD跟踪器都是基于工程特征的,并且使用各种特别方法来组合RGB和D[11,12,17],例如,DAL [23]通过深度判别相关滤波器的重构将深度信息嵌入到RGB深度特征中。此外,VOT-RGBD 2019和VOT-RGBD 2020挑战中表现最好的跟踪器是众所周知的深度RGB跟踪器的扩展[13,14]。例如,在VOT-RGBD 2020中获胜的三个RGBD跟踪器是ATCAIS,DDiMP和CLGS D。它们分别是深度RGB跟踪器ATOM [7]、DiMP [3]和MDNet [22]的扩展。这些跟踪器的主要跟踪提示是RGB和深度仅用于长期跟踪任务。在这项工作中,我们报告的第一个RGBD跟踪器的深度分支与真正的深度数据训练的结果,并提供了优越的结果。3. DepthTrack数据集跟踪序列。CDTB数据集[18]是用多个有源(Kinect型)和无源(立体)深度传感器和RGB相机捕获的,但在VOT评估中,采集设备对结果仅具有边际影响,而序列内容是主要因素。因此,使用单个中等价格但高质量的RGBD传感器捕获DepthTrack:415.第四百一十五章RGB和深度帧使用相同的640 360分辨率和30fps的帧速率来存储。RGB图像存储为具有低压缩率的24位JPEG,深度帧存储为16位PNG。英特尔传感器提供时间同步的RGB和深度帧。在我们的数据收集中,我们特别关注内容多样性。DepthTrack的整体属性与图3中的三个可用数据集一致。图1显示了深度跟踪和CDTB之间不同目标类型的更详细比较。3.值得注意的是,有三种对象类型主导CDTB序列:“盒子”、“人类”和“机器人”。同时,DepthTrack的高度多样性在几乎每个测试序列中提供了独特的目标。另一个重要因素是CDTB序列中存在人,并且他们移动简单的刚性目标对象。为了减少一根几乎看不见的绳子10727图2:DepthTrack中的样本帧(用黄色框标记的目标)。这些序列中的一些仅对于RGB特别困难:伪装到背景的动物和人(第1行),可变形物体(第2n行);相似的目标和背景颜色(第3行)、暗场景(第4行)和多个相似对象(第5行)。图3:CDTB [18](顶部)和50个序列的DepthTrack测试组(底部)中不同靶类型的分布。绿色表示非刚性对象。紫色和橙色表示刚体。DepthTrack分为150个训练序列和50个测试序列,因此它们不包含常见的场景和对象。训练集包含218,201个视频帧,测试集包含76,390个视频帧。如图3几乎每一个测试序列都有自己独特的靶类型。只有数据注释。每个DepthTrack帧都使用目标边界框位置和有助于分析结果的多个场景属性进行注释。轴对齐并使用Aibu1注释工具。在该协议中,轴对齐的边界框应该紧密地适合每帧中的目标对象,以避免背景像素。为了允许跟踪结果的详细场景类型级别分析,我们注释了15个每帧属性。除了CDTB(VOT-RGBD 2019和2020)中使用的13个属性外,我们还引入了两个新属性:背景杂波(BC)和相机运动(CM)。BC表示其中目标和背景共享相同颜色或纹理的场景,并且CM表示其中相机移动导致大量目标距离(深度)改变的情况。预期BC帧对于仅RGB跟踪是困难的,并且CM帧对于D-跟踪是困难的。采用VOT-RGBD挑战,我们遵循VOT注释协议1https://github.com/votchallenge/aibu10728只有跟踪。有关各属性的详细描述注释DepthTrack数据的总时间超过150小时。性能指标。DepthTrack是一个长期的RGBD跟踪数据集,其中跟踪器必须检测目标何时不可见,并在目标再次可见时再次重新检测它们。我们的评价方案采用[18]。进行每个序列的单次通过,并且对于序列跟踪器的每个帧,必须提供目标可见性置信度得分和边界框坐标。边界框坐标用于评估其相对于地面实况边界框的精度。精度是衡量的边界框重叠率。置信度分数用于评估跟踪器是否能够召回其中目标被注释为可见的帧。理想的置信度对于没有目标的帧是0,对于没有目标的帧是1。对于目标或其部分可见的帧。总体评估基于跟踪精度(Pr)和召回率(Re)度量[14]。跟踪精度是对目标可见时定位精度的度量跟踪召回测量对标记的可见目标进行分类的准确性作为单个测量,F分数被用作精确度和召回率的调和平均值以对跟踪器进行针对每个帧计算精确度和召回率,然后在所有j=1,. . .、N1个帧。这提供了每个序列的度量,然后在所有i = 1,. . . ,N个序列来计算数据集特定的度量。应当注意,跟踪器置信度影响Pr和Re,因此通过改变置信度阈值τ来计算精确度-召回率图。上述平均协议的一个缺点是,如果视频长度变化很大,则短视频可能在性能度量中获得不合理的大权重例如,在DepthTrack中,序列长度在143到3816帧之间变化。为了缓解这个问题,我们对所有序列的所有帧进行平均(称为基于帧的评估),以及序列特定平均(称为基于序列的评估)。作为最终性能度量,我们存储所有置信度阈值τ上的最高F分数,并且还存储对应的精确度和召回率值。有关我们评估指标的详情,请参阅补充资料。4. 基线RGBD追踪器在本节中,我们介绍了在我们的实验中使用的基线RGBD跟踪器。在最近的VOT-RGBD评估中,从表现最佳的RGB和RGBD跟踪器中选择现有基线跟踪器本着我们的工作精神,我们在第4.2节中引入了一个新的深度数据训练基线。图4:所提出的DeT RGBD跟踪器的特征提取和合并部分。跟踪头取决于所选择的架构(例如,ATOM或DiMP ) , 并 且 可 以改 变 。 F-s 是 骨 干 网 络 (例 如ResNet),但在我们的情况下,D主干分支是用深度跟踪数据从头开始训练的,因此揭示了深度跟踪的强大功能。4.1. 现有基线为了建立一组强大的基线跟踪器,我们选择了以下23个跟踪器:• VOT-RGBD 2019和2020挑战赛的7个获奖作品[13 , 14] : ATCAIS , DDiMP , CLGS D ,SiamDW D,LTDSEd,Siam LTD和SiamM Ds;• 使用手工制作的RGB和深度特征的3个RGBD基线:DS-KCF [5]、DS-KCF-Shape [9]和CA3dMS[17];• 最近的RGBD跟踪器将D线索嵌入RGB通道:[23];• RGB VOT-LT(长期)2020挑战赛的3个获奖作品:RLT DiMP [6],LTMU B,Megatrack;• VOT-ST(短期)2020挑战赛的3个获奖作品:RPT [20]、OceanPlus和Al-phaRef [26];• 最好的RGBD跟踪器使用的6个深RGB跟踪器:SiamFC [2],SiamRPN [15],ATOM [7],DiMP50[3],D3S [19]和PrDiMP50[4]。所有跟踪器都使用其原始作者的代码和默认参数设置。请注意,原作者已经调整了三个现有数据集STC,PTB和CDTB的参数。特别地,提交给VOT的RGBD跟踪器针对CDTB进行了优化。4.2. 新基线-DeT我们提出了一个新的RGBD基线的深度跟踪数据集-深度跟踪跟踪器(DeT)-获得最佳的结果,由于深的深度特征从深度数据中学习。跟踪器架构(图4)受到最近SotA跟踪器ATOM和DiMP的在线结构的启发。因此,我们的基线实际上是深度特征提取器和特征池层,可以与10729----RGBD执行实际跟踪的ATOM或DiMP跟踪器头DeT与原始ATOM或DiMP的主要区别在于,DeT从深度跟踪数据中提取更强大的深度特征。生成深度跟踪数据。深度RGBD跟踪中的主要问题是缺乏深度数据,因为现有数据集仅提供具有RGB和D图像的116个序列(注意,PTB注释不是公开的)。因此,我们开发了一个简单的程序来生成现有的大型RGB跟踪数据集的深度数据。我们在现有的RGB基准La-SOT [8]和 COCO [16]上 采 用 单目 深 度 估 计 算 法DenseDepth [1],并手动选择来自LaSOT的最佳646个序列和来自COCO的82 K图像。这些估计的深度图像用于从头开始预训练DeT。用于跟踪的RGBD功能所 生成的深度跟踪序列用于从头开始训练DeT跟踪器,并且使用与用于ATOM和DiMP的类似的离线训练。与原始作品中的RGB数据类似,训练需要50个epoch,之后训练误差不再 改 善 。之 后 , RGB 训 练 的 颜 色 特 征 和 D(epth)训练的深度特征从两个特征路径提取为DRGB,D D=F rgb(I RGB),F depth(I D),并且针对主跟踪器的参考和测试分支分别计算:D ref和Dtest。由于主跟踪器ATOM和DiMP需要单个特征图像,因此RGB和D更改5.1. 绩效评价定量结果。性能指标和方法排名如表1所示。根据VOT协议,基于其F分数选择最佳跟踪器,但是精确度和召回率提供关于其性能的更多细节图6显示了第4.2节中介绍的建议的深度训练的DeT跟踪器和第4.1节中通过其F分数排名的最佳10个SotA和基线跟踪器以及RGB质量跟踪器DiMP 50的精确度-召回和F分数图所有测试跟踪器的曲线图都在补充材料中。结果提供了以下重要发现:1)VOT-RGBD 2020(使用CDTB)获奖者DDiMP、AT-CAIS和CLGS D也利用DepthTrack测试数据获得了最佳结果,从而验证了它们在RGBD跟踪中的SotA性能; 2)如预期的,长期跟踪器(RGB和RGBD两者)获得比短期跟踪器更好的F分数; 3)在Depth-Track上的SotA性能数字显著低于在VOT的CDTB数据集上的SotA性能数字,例如,VOT 获 胜 者 ATCAIS 在 CDTB 上 获 得 0.702 , 但 在DepthTrack上仅获得0.476/0.483; 4)用生成的深度数据训练的新提出的基线DeT在两个评估协议上获胜,并且获得比第二好的F分数好+12%。同时,DeT跟踪器没有长期跟踪能力,并且运行速度比SotA RGBD跟踪器快得多我们的研究结果验证了基于深度学习的跟踪器,如提出的DeT,在RGBD数据集上提供比RGB跟踪器或adhoc RGBD跟踪器更好的准确性,但需要将nels合并到Dref测试RGBD它们需要用真实的RGBD数据进行预训练(D是gen-D)。在我们的实验中验证)和微调使用数据集专用-我们想从训练中学习RGB和D的合并数据,并因此采用池化层作为标准解决方案。在我们的初步实验中,我们比较了一些典型的池化操作,并发现元素最大化操作执行得最好。在池化操作之后,图1中的DeT特征提取部分的两个输出被合并。4表示DiMP和ATOM术语中的参考(具有估计的边界框的先前帧)和测试(当前帧)分支,并且跟踪头取决于是否使用ATOM、DiMP或另一类似的在线跟踪部分。5. 实验所 有 实 验 在 具 有 Intel i7-CPU@3.40GHZ 、 16 GBRAM和一个NVIDIA GeForce RTX 3090 GPU的同一计算机上运行。在实验中,我们采用DiMP50作为主跟踪器,并采用逐元素最大值操作作为特征池层,我们简称为DeTDeT的变体采用了与主跟踪器相同的主干,例如.ResNet50用于DiMP50或ResNet18用于ATOM。cific训练数据。定性结果。图5示出了某些代表性跟踪器和所提出的深度训练的DeT跟踪器的示例跟踪。在目标和背景颜色相似的情况下,RGBD跟踪器的性能明显优于RGB跟踪器。此外,深度线索有助于在存在多个相似对象的情况下跟踪正确的对象。另一方面,基于深度的跟踪器难以跟踪在深度方向上旋转或快速移动的物体。 这部分是由于现有的RGBD跟踪器提取从RGB数据而不是从RGB和D通道两者学习的特征该问题可以通过从深度数据学习“深度主干”来补偿,如针对在所有示例序列上成功的DeT所做的那样。基于属性的性能分析。最佳10个测试跟踪器的属性特定F分数以及提议的DeT和DiMP50如图所示7.第一次会议。F-和D.10730表1:DepthTrack测试集的跟踪结果。性能指标报告的序列和帧的评估协议。DeT是建议的基线(第4.2)并列出输入模态(RGB/D)和跟踪器类型(短期/长期)。每个度量的最佳三种方法标有它们的排名。跟踪器PR基于序列ReF-scorePR基于帧ReF-score速度FPS类别LT/ST RGB/DDDiMP [13]ATCAIS [13]CLGS D [13]美国[14]⃝10.5030.5000.5840.429⃝2⃝30.4690.4550.3690.4360.485元0.476元0.4530.432⃝20.4900.4960.5340.420⃝20.4580.4700.3760.4290.4740.483元0.4410.4244.771.327.273.77StLTLTLTRGBDRGBDRGBD[14]0.4300.3820.4050.4250.3830.4035.65LtRGBD[13]第十三话0.4180.3420.3760.4100.3060.35013.00LtRGBD[14]第十四话0.4630.2640.3360.4150.2450.30819.35LtRGBDDAL [23]0.5120.3690.4290.4960.3850.43325.98LtRGBDCA3DMS [17]0.2180.2280.2230.2110.2210.21647.70LtRGBDDS-KCF [5]0.0750.0770.0760.0740.0760.0754.16StRGBDDS-KCF-形状[9]0.0700.0710.0710.0700.0720.0719.47StRGBDLTMU B [13]0.5120.4170.4600.5160.4290.4694.16LtRGBRLT DiMP [13]0.4710.4480.4590.4630.4530.45810.21LtRGBMegtrack [13]PrDiMP50 [4]⃝2 0.5830.3970.3220.4140.4150.405⃝1 0.5620.4050.3270.4220.4130.4143.5126.49LtStRGBRGBDiMP50 [3]0.3960.4150.4050.3870.4030.39542.11StRGB原子[7]0.3540.3710.3630.3290.3430.33643.21StRGBSiamRPN [15]0.3960.2930.3370.3070.3200.31313.80StRGBD3S [19]0.2650.2760.2700.2460.2570.25128.60StRGBSiamFC [2]0.1870.1930.1900.1730.1800.177114.06StRGBAlphaRef [13]RPT [13]0.4260.4360.4430.3810.4350.4060.4480.398⃝3 0.4670.3690.4570.38311.015.75StStRGBRGBOceanPlus [13]0.4100.3350.3680.3780.3380.35719.38StRGBDeT0.560元0.506元0.532元0.523元0.479元10.500日元36.88StRGBD最佳VOT-RGBD 2020跟踪器ATCAIS的得分对于DepthTrack序列明显较低。有趣的是,表2:原始RGB跟踪器及其DeT变体的比较DeT在其中的11个中获胜,DDiMP(VOT-RGBD 2020 chal-第二名),其余两名是RLT DiMP和ATCAIS(VOTRGBD 2020冠军)。值得注意的是,长期DDiMP处理目标丢失情况,e.G. 部分遮挡和帧外。虽然我们的DeT在大多数深度相关属性上优于其他跟踪器e.G. 暗场景和深度变化。显然上级...基于序列的跟踪器PrReF-score基于帧PrReF-scoreRGBD相对于RGB的性能是明显的,并且使用D训练数据与DeT使得它在长期跟踪评估中最成功,即使它是短期跟踪器。计算时间。跟踪速度报告于表1中。速度比较的最重要结果表3:仅使用深度通道输入的“主”跟踪器DiMP50的比较(仅深度跟踪)。DiMP50(RGB)表示使用RGB输入的原始RGB DiMP50。DiMP50(D)表示仅使用深度输入的RGB训练的DiMP50。DeT-DiMP 50(D)表示仅具有深度输入的深度训练的DeT。儿子是第二个最好的RGBD跟踪器,DDiMP和AT-CAIS,仅达到4.77fps和1.32fps的速度,由于特设的深度处理。另一方面,获奖的DeT跟踪器是一个简单的深度RGBD跟踪器架构,实时运行。5.2. DeT消融研究基于序列的跟踪器Pr Re F-score基于帧Pr Re F-score追踪大师如第4.2可将DeT附接到期望此类特征提取管线的主跟踪器。最直白的DeT是ATOM [7]和DiMP 50 [3],它们在其原始实现中使用我们将原始的RGB跟踪器与DiMP50 [3]0.3960.4150.4050.3870.4030.395DeT-DiMP 50-最大 0.5600.5060.5320.5230.4790.500原子[7]0.3540.3710.3630.3290.3430.336DeT-ATOM-Max0.4570.4230.4400.4380.4140.426DiMP50(RGB)0.3960.4150.4050.3870.4030.395DiMP50(D)0.2490.1760.2060.2180.1930.205DeT-DiMP50(D)0.4120.3770.3940.4230.4000.41110731图5:DepthTrack测试集的困难示例(深度图像中用红框标记的目标):相似背景颜色(第一行);多个相似对象(第2行);暗场景(第三行);可变形的(第4行);快速旋转目标(第5行)。除了现有基线外,DeT输出由白框标记,并且它是在所有示例序列上成功的唯一跟踪器它们的DeT变体使用针对D通道的深度训练的深度路径。结果在表2中,其示出了在F分数方面相对于原始ATOM的7.7%的明显改善和相对于DiMP50的10.5%的明显改善。深度提示为了进一步验证DeT的优异性能是由于通过利用深度数据进行训练而学习到的更好的深度特征,我们比较了RGB训练的仅深度DiMPDiMP 50(D)和仅采用深度输入DeT-DiMP 50(D)的深度训练的DeT。结果在表3中。DeT-DiMP 50(D)明显优于DiMP 50(D),令人惊讶的是,仅深度的DeT-DiMP50(D)几乎与高度优化的原始RGB DiMP 50相当。RGB和D特征池化。在第4.2节中,我们选择了最大池作为RGB和D特征合并操作。在表4中,示出了三个不同池化层的结果:1)卷积层(“-MC”),2)逐元素最大值(“-Max”)和3)平均值(“-Mean”)。与使用RGB特征用于D通道相比,所有池化层都表现良好。平均值和最大值合并之间只有很小的差异,但我们选择了最大值合并,因为DiMP的表现优于ATOM,并用于方法比较实验。图6:根据F分数排名的10个最佳评估跟踪器的精确度-召回率和F分数曲线,以及拟议的DeT跟踪器及其主跟踪器DiMP 50,每个图中标记的最佳F分数点。顶部:基于序列的评估;底部:基于帧的评估。跨数据集评估。为了验证我们在DepthTrack实验中的发 现 是 有 效 的 , 我 们 在 VOT-RGBD 2019 和 2020 的CDTB数据集 [18]上比较了DiMP和DeT架构,而没有我们-10732图7:视觉属性的重叠阈值上的最佳F分数平均值。绘制了10个最佳评估跟踪器和所提出的DeT跟踪器及其主跟踪器DiMP50的结果(见图11)。6用于跟踪器标记)。每个属性的缩写如下:方位变化(AC)、背景杂波(BC)、深度变化(DC)、快速运动(FM)、暗场景(DS)、完全遮挡(FO)、相机运动(CM)、非刚性变形(ND)、平面外(OP)、帧外(OF)、部分遮挡(PO)、反射目标(RT)、尺寸变化(SC)、相似对象(SO)和未分配(NaN)。表4:DeT特征合并层中的不同池化操作的比较。跟踪器基于序列Pr Re F评分PR基于帧Re F评分DiMP500.3960.4150.4050.3870.4030.395DeT-DiMP50-MC0.5120.4820.4960.4950.4690.482DeT-DiMP 50-最大0.5600.5060.5320.5230.4790.500DeT-DiMP 50-平均值0.5400.5200.5300.5080.4860.497原子0.3540.3710.3630.3290.3430.336DeT-ATOM-MC0.4720.4230.4460.4200.4000.411DeT-ATOM-Max0.4570.4230.4400.4380.4140.426DeT-ATOM-平均值0.4790.4360.4570.4350.4210.428表5:使用CDTB数据集的交叉数据集实验。使用DepthTrack数据训练跟踪器,并且不使用CDTB序列来微调跟踪器或优化其参数。跟踪器基于序列Pr Re F评分PR基于帧Re F评分DiMP500.5490.5550.5520.5460.5490.547DeT-DiMP50-MC0.6310.6210.6260.6220.6240.623DeT-DiMP 50-最大0.6510.6330.6420.6260.6210.624DeT-DiMP 50-平均值0.6740.6420.6570.6640.6440.654原子0.5480.5360.5420.5410.5370.539DeT-ATOM-MC0.5820.5670.5740.5720.5740.573DeT-ATOM-Max0.5830.5870.5850.5750.5830.579DeT-ATOM-平均值0.5830.5740.5780.5890.5850.587在训练中使用任何CDTB数据(交叉数据集)。结果如表5所示,它们验证了所有发现,除了平均值合并使用CDTB数据表现更好。6. 结论在这项工作中,我们引入了一个新的数据集RGBD跟踪。据作者我们的工作是合理的,缺乏公开的数据集RGBD跟踪,尽管RGBD传感器已在消费电子产品多年,并在机器人中很受欢迎。RGB跟踪已经主导了该领域的研究,并且用于跟踪的深度线索的能力仍然未知。在这项工作中,我们完全使用RGBD数据训练了第一个RGBD跟踪器,以便从头开始使用深度图训练深度路径。所提出的DeT跟踪器使用生成的RGBD序列进行预训练,然后使用DepthTrack训练集进行微调。在所有实验中,DeT获得最佳F分数,表明深度加RGB数据训练的跟踪器可以最终揭示深度线索对于RGBD跟踪的能力。引用[1] 易卜拉欣·阿尔哈希姆和彼得·旺卡。通过迁移学习的高质量单目深度估计。arXiv电子打印,abs/1812.11941,2018。[2] LucaBertinetto , JackValmadre , JoaoFHenriques ,AndreaVedaldi,and Philip H S Torr.用于对象跟踪的全卷积连体网络。ECCV 2016研讨会,第850-865页,2016年[3] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测10733ing. 在IEEE计算机视觉国际会议论文集,第6182-6191页[4] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte.了解你的周围环境:利用场景信息进行目标跟 踪。在 欧洲 计算机 视觉会 议上, 第205-221页Springer,2020年。[5] Massimo Camplani 、 Sion L Hannuna 、 Majid Mirme-hdi、Dima Damen、Adeline Paiement、Lili Tao和TiloBurghardt。使用深度缩放、核化相关滤波器和遮挡处理的实时rgb-d跟踪。在BMVC,第4卷,第5页,2015中。[6] Seokeon Choi,Junhyun Lee,Yunsung Lee,and Alexan-der Hauptmann.通过改进的判别模型预测进行鲁棒的长期对象跟踪。arXiv预印本arXiv:2008.04722,2020。[7] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.原子:通过重叠最大化进行精确跟踪 2019 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2019年。[8] Heng Fan , Liting Lin , Fan Yang , Peng Chu , GeDeng , Sijia Yu , Hexin Bai , Yong Xu , ChunyuanLiao,and Haibin Ling. Lasot:用于大规模单个对象跟踪的高质量基准。在IEEE/CVF计算机视觉和模式识别会议论文集,第5374- 5383页[9] Sion Hannuna 、Massimo Camplani 、Jake Hall 、 MajidMirme-hdi 、 Dima Damen 、 Tilo Burghardt 、 AdelinePaiement和Lili Tao。Ds-kcf:rgb-d数据实时跟踪器。Journal of Real-Time Image Processing,16(5):1[10] Lianghua Huang, Xin Zhao, and Kaiqi Huang. Got-10k:用于野外通用对象跟踪的大型高多样性基准测试。IEEE Transactions on Pattern Analysis and MachineIntelligence,第1-1页[11] UgurKart,Joni-KristianK ma r a inen,andJ irMatas. 如何制作一个rgbd跟踪器?在ECCVW,2018年。[12] UgurKart、AlanLu k e zˇicˇ、MatejKristan、Joni-Kristian Ka¨ma¨ r a¨ inen和Ji ˇr´ıMatas。通过用视图特定的鉴别相关滤波器重构的对象跟踪在IEEE计算机视觉和模式识别会议上,2019年。[13] Matej Kristan,Alesˇ Leonardis,Jiˇr´ı Matas,MichaelFels-ber g,RomanPflugfelder,Joni-Kri stianKmarainen,Martin Danelljan , LukaCˇeho vinZajc , AlanLuk ezˇ icˇ ,OndrejDr-Bohlav等人第八届视觉对象跟踪vot2020挑战赛结果出炉。欧洲计算机视觉会议,第547-601页。Springer,2020年。[14] MatejKristan , Jiri Matas , Ales Leonardis , MichaelFelsberg,RomanPflugfelder,Joni-KristianKamarainen , Luka Ce-hovin Zajc , Ondrej Drbohlav ,Alan Lukezic,Amanda Berg,et al.第七届视觉对象跟踪vot 2019挑战赛结果揭晓。在IEEE/CVF计算机视觉研讨会国际会议集,第0[15] Boli,Junjie Yan,Wei Wu,Zheng Zhu,and Xiaolin Hu.基于暹罗区域投影网络的高性能视觉跟踪。2018年IEEE/CVF计算机视觉和模式识别会议(CVPR),2018年。[16] Tsung-Yi Lin,Michael Maire,Serge Belongie,JamesHays ,PietroPerona , DevaRamanan , PiotrDolla'r, andCLawrence10734齐特尼克微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[17] 刘烨、景晓媛、聂建辉、高浩、刘军、蒋国平。用于rgb-d视频中鲁棒对象跟踪的具有遮挡处理的上下文 感 知 三 维 均 值 偏 移 。 IEEE Transactions onMultimedia,21(3):664[18] Alan Lukezic 、 Ugur Kart 、 Jani Kapyla 、 AhmedDurmush 、 Joni-Kristian Kamarainen 、 Jiri Matas 和Matej Kristan。Cdtb:颜色和深度视觉对象跟踪数据集和基准。在IEEE/CVF计算机视觉集,第10013[19] 艾伦·卢克齐克,吉里·马塔斯,马特·克里斯坦。D3s--一个有区别的单镜头分割跟踪器。在IEEE/CVF计算机视觉和模式识别会议论文集,第7133-7142页[20] 马子昂、王林源、张海涛、魏璐、君寅。学习点集表 示 暹 罗 视 觉 跟 踪 。 arXiv 预 印 本 arXiv :2008.03467,2020。[21] 马蒂亚斯·穆勒,阿德尔·比比,西尔维奥·吉安科拉,萨尔曼·阿尔苏拜希,伯纳德·加尼姆。跟踪网:用于野外对象跟踪的大规模数据集和基准。在欧洲计算机视觉会议(ECCV)的会议记录中,第300-317页[22] H. Nam和B.韩视觉跟踪的多域卷积神经网络学习。2016年在IEEE计算机视觉和模式识别会议上发表[23] 钱安林、宋岩、陆艾伦、马泰·克里斯坦、乔尼-克里斯坦·卡
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功