没有合适的资源?快使用搜索试试~ 我知道了~
10013CDTB:一个颜色和深度视觉目标跟踪数据集和基准AlanLukezˇ icˇ1、UgurKart ˇ2、JaniKa¨pyla¨2、AhmedDurmush ˇ2、Joni-KristianKa¨ma¨ ra¨inen ˇ2、Jiˇr´ı Matas3和Matej Kristan11斯洛文尼亚卢布尔雅那大学计算机和信息科学学院2芬兰坦佩雷大学计算机科学3捷克共和国alan. fri.uni-lj.si摘要提出了一种新的颜色和深度通用视觉目标跟踪基准(CDTB)。CDTB由几种被动和主动RGB-D设置记录,包含在阳光直射下采集的室内和室外序列。CDTB数据集是用于RGB-D跟踪的最大和最多样化的数据集,其帧数量比相关数据集大一个数量级序列已被仔细记录,以包含显着的对象姿态变化,杂波,遮挡,和长期目标缺席的时期,使跟踪器在现实条件下的评估。序列每帧注释有13个视觉属性,用于详细分析。RGB和RGB-D跟踪器的实验表明,CDTB比复杂的数据集更具挑战性。最先进的RGB跟踪器优于最近的RGB-D跟踪器,指示两个场之间的大间隙,这尚未被现有的基准检测到。根据分析结果,我们指出了机会,为未来的研究在RGB-D跟踪器的设计。1. 介绍视觉目标跟踪由于其提出的科学挑战和巨大的实用潜力,几十年来一直受到研究界的极大关注在其最一般的表述中,它解决了视频的所有帧中的任意对象的定位,给定在一帧中指定的单个注释。这是自监督学习的一项具有挑战性的任务,因为跟踪器必须定位并仔细适应显著的目标外观变化,应对环境变化,杂波,并检测遮挡和目标消失。因此,通用对象跟踪器满足了一系列应用和研究挑战,如监控系统、视频编辑、体育分析和自主机器人技术。在跟踪基准[40,44,27,25,37,36]的出现推动下,促进了不同方法的客观比较由于RGB相机的广泛采用,基准测试主要集中在彩色(RGB)跟踪上,图1.来自CDTB的RGB和深度序列。深度为颜色提供了补充信息:两个相同的对象在深度上更容易区分(a),如果深度信息可用,则低照明场景(b)对于跟踪器来说挑战性较小,在深度上跟踪可变形对象简化了问题(c),并且突然的深度显著变化是遮挡的有力线索(d)。序列(a,b)由ToF-RGB相机对捕获,(c)由立体相机传感器捕获,以及(d)由Kinect传感器捕获。结合颜色和热(红外)模态的传感器和跟踪器[28,26,23,24]。直到最近,各种深度传感器,如RGB-D,时间-a)、b)、c)、d)、10014飞行时间(ToF)和激光雷达(LiDAR)已经变得广泛可用。深度为跟踪提供了重要线索,因为它简化了关于遮挡的推理,并且与仅颜色相比提供了更好的对象到背景分离此外,深度是在没有先前3D模型的情况下获取对象3D结构和3D姿态的强有力线索,这在机器人操作等研究领域中至关重要[5]。RGB-D基准的出现推动了RGB-D跟踪的进展[41,45],但该领域明显落后于仅RGB跟踪的进展。RGB-RGB-D一般对象跟踪性能差距的一个原因从实际应用的角度来看,序列相对较短,物体从不离开和重新进入视场,它们仅经历短期遮挡并且很少显著地旋转离开摄像机。数据集仅用Kinect类传感器在室内记录,这禁止将结果推广到一般的室外设置。这些限制对于该领域的早期发展至关重要,但进一步的提升需要更具挑战性的基准,这就是本文的主题。在这项工作中,我们提出了一个新的颜色和深度跟踪基准(CDTB),使一般对象RGB-D跟踪领域的几个贡献(i)CDBT数据集由几个颜色和深度传感器记录,以捕获广泛的深度信号。(ii)这些序列在室内和室外记录,以扩展跟踪设置的范围。(iii)该数据集包含显著的对象姿态变化,以涵盖来自真实世界跟踪环境的深度外观可变性。(iv)物体被遮挡或离开视场较长时间,以强调跟踪器能够报告目标丢失并执行重新检测的重要性(v)我们比较了几种最先进的RGB-D跟踪器以及最先进的RGB跟踪器及其RGB-D扩展。CDTB数据集的示例如图1所示。本文件其余部分的结构如下。第2节总结了相关工作,第3节详细介绍了数据集的获取和属性,第4节总结了性能指标,第5节报告了实验结果,第6节总结了论文。2. 相关工作RGB-D基准。与RGB跟踪中的那些相比,RGB-D数据集的多样性是有限的。许多数据集是特定于应用的,例如,pedes-trian跟踪或手跟踪。 例如,Esset al.[11]提供由校准的立体对捕获的五个3D边界框注释序列,RGB-D人物数据集[42]包含单个行人序列, 由静态RGB-D相机和斯坦福办公室拍摄的走廊[8]包含17个静态序列和一个静态序列,移动的Kinect Garcia-Hernando等人[13]介绍了用于手部跟踪和动作识别的RGB-D数据集。RGB-D相机的另一个重要应用领域是机器人,但这里的数据集通常很小,主要目标是基于模型的实时3D姿态估计。例如,RGB-D对象姿态跟踪数据集[7]包含4个合成和2个真实RGB-D图像序列,以基准视觉跟踪和6-DoF姿态估计。由于深度方法需要大量训练集,生成合成数据已经变得很流行[39],但目前还不清楚这些方法预测现实世界的性能有多好只有两个数据集专用于一般对象跟踪。最受欢迎的是普林斯顿跟踪基准(PTB)[41],其中包含100个用Kinect记录的刚性和非刚性物体的RGB-D视频序列。传感器的选择将数据集约束为仅室内场景。由于许多序列共享相同的跟踪对象和背景,因此数据集多样性进一步降低。一半以上的镜头都是人在跟踪。序列由五个全局属性注释。RGB和深度通道校准得很差。在大约14%的序列中,RGB和D通道不同步,大约8%的序列未对齐。Bibi等人[3]解决了校准问题,并发表了校正数据集。PTB解决了长期跟踪,其中跟踪器必须检测目标丢失并执行重新检测。因此,数据集包含几个完全遮挡,但目标永远不会离开并重新进入视场,从而限制了重新检测跟踪器的评估能力性能被评估为百分比的帧,其中的边界框预测跟踪超过0。5、与真理的结合当跟踪器准确预测目标不存在时,重叠被人为地设置为1。长期跟踪器性能评估[43,33]的最新工作反对使用单一阈值,[33]进一步表明PTB中使用的测量的解释强度降低。时空一致性数据集(STC)[45]最近被提出来解决PTB的缺点。该数据集由华硕Xtion RGB-D传感器记录,该传感器还将数据集限制为仅室内场景和一些低光室外场景,但已注意增加序列多样性。该数据集小于PTB,仅包含36个序列,但由13个全局属性表示。STC处理短期跟踪情况,即,跟踪器不需要执行重新检测。因此,序列相对较短,并使用短期性能评价方法。这使得数据集不适合评估在许多实际设置中有用的跟踪器,其中目标丢失检测和重新检测是至关重要的功能。RGB追踪器近年来,短期跟踪器(ST),特别是歧视性相关性的激增,10015基于DCF的方法由于其数学上的简单性和优雅性而受到欢迎。Bolmeet al. [4]提出使用DCF进行视觉对象跟踪。Henriques等人[16]通过利用循环卷积的性质提出了一种有效的训练方法Lukezic等人[32] Galoogahiet al.[12]提出了一种处理边界问题的机制,[32]中引入了基于分段的DCF约束。Danelljan等人[10]使用了一个因式分解卷积算子,并在著名的基准测试中取得了优异的成绩。作为ST的自然扩展,已经提出了长期跟踪器(LT)[18] , 其 中 跟 踪 被 分 解 为 短 期 跟 踪 和 长 期 检 测 。Lukezic等人通过存储在不同时间尺度上训练的多个相关滤波器,提出了一种完全相关的LT [31]Zhang等人[46]使用深度回归和验证网络,他们在VOT-LT 2018中排名第一[25]。尽管作为ST发布,MDNet [38]已证明自己是一种有效的LT。MDNet使用区分训练的卷积神经网络(CNN)并赢得了VOT 2015挑战赛[26]。RGB-D追踪器与RGB跟踪器相比,关于RGB-D跟踪器的文献相当有限,这可以归因于直到最近才缺乏可用的数据集。2013年,PTB [41]的出版点燃了对该领域的兴趣,并且通过采用不同的方法进行了许多尝试。PTB的作者提出了使用HOG [9]、光流和点云的不同组合的多个基线跟踪器。 作为粒子滤波跟踪器家族的一部分,Meshgiet al. [34]提出了一种使用潜在遮挡标志的具有遮挡感知的粒子滤波器框架。它们能够预先预测遮挡,在遮挡的情况下扩大搜索区域。Bibi等人[3]用稀疏的、基于部分的3-D长方体表示目标,同时采用粒子滤波作为其运动模型。Hannuna等人[14],Anet al. [1]和Cam- planiet al. [6]通过添加深度通道扩展了核相关滤波器(KCF)RGB跟踪器[16]Han- Nuna等。和Camplaniet al.提出了一种快速的深度图像分割方法,用于尺度、形状分析和遮挡处理。An等人提出了一个将跟踪问题分为检测、学习和分割的框架。为了在DCF公式中固有地使用深度,Kart等人。[20]在CSRDCF [32]训练中对深度图像采用高斯前景掩模。他们后来通过使用具有颜色和深度先验的图切割方法来扩展他们的工作,用于前景掩模分割[19],并且最近提出了使用基于对象Liu等[30]提出了一种具有遮挡处理的3D均值漂移跟踪器。Xiao等[45]通过采用时空一致性控制引入了目标束缚3. 颜色和深度跟踪数据集我们使用了几种RGB-D采集设置来增加采集硬件方面的数据集多样性。这允许不受约束的室内和室外序列采集,从而使数据集多样化,并拓宽了真实世界跟踪环境的场景范围。使用了以下三种采集设置:(i)RGB-D传感器(Kinect),(iii)立体摄像机配对。设置如下所述。RGB-D传感器序列使用Kinect v2捕获,Kinect v2输出24位1920×1080RGB图像(每个颜色通道8位)和512×42432位浮点深度图像,平均帧速率为30fps。JPEG压缩-在RGB帧上应用了一个新的颜色,而深度数据被转换为16位无符号整数并以PNG格式保存。RGB和深度图像在内部同步,无需进一步同步。ToF-RGB对由Basler tof 640 - 20 gm飞行时间相机和Basler acA 1920 - 50 gc彩色相机组成。ToF相机具有640x480pix分辨率和最大20 fps帧速率,而彩色相机具有1920x1200pix分辨率,最大帧速率为50 fps。两台摄像机都可以通过摄像机的I/O从外部触发,实现外部同步。摄像机安装在高精度CNC加工的铝制底座上,摄像机的基线为75.2 mm,摄像机传感器中心点位于同一水平线上。TOF相机内置了57×43(HXV)视场的光学器件彩色相机配备了一个12毫米焦距镜头(VS-1214 H1),其中有56。1”传感器的9×44摄像机通过外部触发装置以20 fps的速率彩色摄像机输出的是8位原始拜耳图像,而ToF摄像机输出的是16位深度图像。原始Bayer图像后来被解拜耳为24位RGB图像(每个颜色通道8位)。立体相机对由两台Basler acA 1920 - 50 gc彩色相机组成,它们安装在高精度加工的铝底座上,基线为70 mm。相机配备6 mm焦距镜头(VS-0618 H1),98。5米× 77米。1”传感器的9英寸(HxV)视场。 相机由外部触发装置以40fps的速率在全分辨率下同步。相机输出是8位原始Bayer图像,随后Bayer将其去马赛克为24位RGB图像(每个颜色通道8位)。将半全局块匹配算法[17]应用于校正的立体图像,并使用相机校准参数将其转换为度量深度值。100163.1. RGB和深度图像对齐所 有 三 个 采 集 设 置 均 使 用 Caltech CameraCalibration Rector 1进行校准,并进行标准修改,以处理RGB-D传感器和ToF-RGB对设置的不同分辨率的图像对。 标定给出了摄像机外部参数:旋转矩阵R3×3和平移矢量t3×1,摄像机内部参数:焦距f2×1,主点c2×1,倾斜α和镜头畸变系数k5×1。前向投影定义为[15]m=P(x)=(Pc<$R)(d),(1)其中x=(x,y,z)T是世界坐标中的场景点,m是图像坐标中的投影点,d=1深度(m)是深度。R是由R和t定义的刚性欧几里德变换xc=R(x),Pc是f和α利用k和仿射映射K进行的透视运算νε、失真 运 算 D 的 本 征 运 算 Pc ( xc ) = ( K<$D<$νε )(xc).RGB-D传感器和ToF-RGB对的深度图像按像素与RGB图像对齐,如下所示。使用(1)的逆作为x=P-1(m,d)来计算与校准深度图像中的每个像素相对应的3D点。将这些点投影到RGB图像,并使用线性插值模型来估计丢失的每像素对齐的重新投影的深度值。对于进一步的研究,我们可根据要求提供原始数据和校准参数。3.2. 序列注释VOT Aibu图像序列注释器2用于通过轴对齐的边界框手动注释靶。通过最大化边界框内的目标像素数量并最小化边界框外的目标像素数量,按照VOT [28]定义放置边界框。所有的边界框都由几个注释者检查以进行质量控制。在出现分歧的情况下,作者进行了合并,并就注释达成了一致意见。所有序列都用十三个属性按帧注释。我们选择了用于短期跟踪(部分遮挡、可变形目标、相似目标、平面外旋转、快速运动和目标大小变化)和用于长期跟踪(目标视野外和完全遮挡)的标准属性。我们还包括RGBD跟踪特定属性(反射目标,暗场景和深度变化)。手动标注了以下属性:(i)目标视野外,(ii)完全遮挡,(iii)部分遮挡,(iv)平面外旋转,(v)相似对象,现场属性(ix)快速运动被分配给其中目标中心在连续帧中移动其尺寸的至少30%的帧,(x)当21个连续帧3中的最大和最小目标尺寸之间的比率大于1.5时分配目标尺寸变化,以及(xi)当最大和最小纵横比之间的比率(即,宽度/高度)大于1.5。属性(xii)当连续21帧中目标区域内深度中值的最大值和最小值之间的比值大于1.5时,指定深度变化。没有用前十二个属性中的任何一个注释的帧被注释为(xiii)未分配。4. 绩效评价措施在目标可能消失/重新出现的长期跟踪场景中,跟踪器评估需要测量定位精度,以及重新检测能力和报告目标不可见的能力为此,我们采用了[33]中最近提出的长期跟踪评价方案,该方案用于VOT 2018长期挑战[25]。跟踪器在第一帧中初始化,并在没有干预的情况下运行直到序列结束。实施的性能指标是来自[33]的跟踪精度(Pr)和召回率(Re)。跟踪精确度衡量的是当目标被视为可见时目标定位的准确性,而跟踪查全率衡量的是对具有可见目标的帧进行分类的准确性。这两种测度结合成F-测度,它是最基本的测度。在下文中,我们简要介绍如何计算这些措施。有关详细信息和推导,我们请读者参考[33]。我们将Gt表示为地面实况目标姿态,并且将At(τθ)表示为由跟踪器在帧t处给出的姿态预测。评估协议要求跟踪器除了姿态预测之外还报告帧t中的跟踪器的置信度表示为θt,而置信度阈值表示为τθ。如果目标在帧t中不可见,则地面实况是空集,即,Gt= 0。类似地,如果跟踪器没有报告预测或者如果置信度分数低于置信度阈值,即,θt<τθ,则输出是空集At(τθ)= θ。根据目标检测文献,当跟踪器预测与地面实况之间的交-交-并(At(τθ),Gt)超过重叠阈值τt正确预测的定义高度依赖于最小重叠阈值τΩ。在[33]中,通过在所有可能的重叠阈值上整合跟踪精度和召回率来(vi)可变形目标,(vii)反射目标和(viii)暗目标3我们观察到,目标尺寸和纵横比的变化是可靠的,1http://www.vision.caltech.edu/bouguetj/calib_doc2https://github.com/votchallenge/aibu在当前时间步之前和之后的10个帧处检测的微分值-因此离散时间导数考虑21个帧。10017这导致以下测量-基于红外的深度获取。的属性1Pr(τθ)=Σn(At(τθ),Gt),(2)与STC相当,远高于PTB。序列的数量(Nseq)与当前Np t∈{t:At(τθ)/=θ}最大的数据集PTB,但是CDTB在帧数(Nfrm)上超过相关数据集一个数量级1Re(τθ)=NΣn(At(τθ),Gt),(3)事实上,CDTB的平均序列大约是6比相关数据集(Navg)长一倍,这提供了一个gt∈{t:Gt <$}其中Ng是目标可见的帧的数量,即,Gt/= 0和Np是跟踪器进行预测的帧的数量,即,At(τθ)/= π。跟踪精度和召回率相结合。一分之一的成绩。计算跟踪F-更准确地评估长期跟踪性能。在许多实际应用中需要的一个关键的跟踪器属性应用是目标缺失检测和目标再检测。STC缺少这些事件。CDTB中靶点消失后重新出现的数量与测量F(τθ)=2Re(τθ)Pr(τθ)/Re(τθ)+Pr(τθ)。PTB,但消失时间(N出)要长通过计算所有置信度阈值τθ的分数,在精确度-召回率和F-测量图上可视化跟踪性能。F-measure图上的最高F-measure表示最佳置信度阈值,用于对跟踪器进行排名。该过程也不需要分别为每个跟踪器手动设置阈值。性能指标直接扩展到每个属性的分析。特别地,跟踪精度、重新调用和F测量是根据对与特定属性相对应的帧的预测来计算的。5. 实验本节介绍CDTB数据集上的实验结果。第5.1节总结了受试追踪器的列表,第5.2节比较了CDTB数据集与大多数相关数据集,第5.3节报告了总体追踪性能,第5.4节报告了每个属性的性能。5.1. 测试跟踪器选择以下16个追踪器进行评价。我们测试了(i)RGB基线和最先进的短期相关性和深度跟踪器(KCF[16],NCC [29],BACF [22],CSRDCF [32],SiamFC[2],ECOhc [10],ECO [10]和MDNet [38]),(ii)RGB最先进的长期跟踪器 (RGB [18],FuCoLoT [31]和MBMD [46])和(iii)RGB-D最先进的跟踪器(OTR [21]和Ca 3dMS[30])。此外,以下RGB跟踪器已修改为使用深度信息:ECOhc- D [19]、CSRDCF-D [19]和KCF-D 4.5.2. 与现有基准的比较表1比较了CDTB与两个当前可用数据集PTB [41]和STC [45]的属性。CDTB是唯一一个包含在室内和室外跟踪场景中使用多个设备捕获的序列的数据集。STC[45]实际上包含一些户外序列,但这些仅限于没有阳光直射的场景,4通过在相关滤波器中使用深度作为特征通道来修改KCF-D10018在CDTB。 目标缺席的平均时间(Navgout)在PTB中,约为6帧,这意味着仅存在短期遮挡。CDTB中目标的平均缺席周期比传统方法大近10倍,这使得跟踪器评估在更具挑战性和现实性的条件下进行。CDTB中的姿势变化比其他两个数据集更频繁。例如,在PTB和STC(N序列)中,目标经历180度的面外旋转,每个序列少于一次。由于CDTB捕捉更多的动态场景,每个序列的目标经历了近5次这样的姿态变化。外观变化、真实性、消失和序列长度的水平导致更具挑战性的数据集,其允许性能评估比STC和PTB更类似于真实世界的跟踪环境为了量化这一点,我们在三个数据集上评估了Ca 3dMS、CSR-D和OTR跟踪器,并对它们的结果进行了平均。使用PTB性能指标在STC和CDTB上对跟踪器进行了评估,因为PTB不提供用于公共评估的地面实况边界框。表1显示,跟踪器在PTB上实现了最高的性能,使其具有最小的挑战性。STC的性能下降,这支持了[45]中提出的具有挑战性的CDTB的性能进一步显著下降,这证实了该数据集是三者中最具挑战性的。5.3. 整体跟踪性能图2示出了根据F-度量进行排名的跟踪器,而跟踪精确度-召回图被可视化以获得额外的见解。一个惊人的结果是,所有表现最好的跟踪器都是纯RGB跟踪器,它们根本不使用深度信息。MDNet和MBMD达到了相当的F分数,而FuCoLoT排名第三。值得一提的是,这三种追踪器都是长期的,具有很强的再探测能力[33]。尽管MD-Net最初是作为一个短期跟踪器发布的,但由于其强大的基于CNN的分类器,它已被证明在长期场景中表现良好[33,35,43]10019.5.4.3.2.10F-measure索引(Indexed)腐表1. 在用于采集的RGB-D设备的数量(NHW)、室内和室外序列的存在(In/Out)、每帧属性注释(Per-frame)、属性数量(Natr)、序列数量(Nseq)、帧总数(N frm)、平均序列长度(N avg)、tar get不可见的帧数量(N out)、tar get消失的数量方面,CDTB与相关基准的比较◦(Ndis)、摄像机缺席期间的平均长度(Navgout)、摄像机从摄像机开始旋转一周至少180次的次数(N )的情况下,每个序列的平均目标旋转数(Nseqrot)和在PTB协议下的跟踪性能(Nseqrot)。(五)。数据集NHW在 出来每帧Natr N序列NfrmN个呼叫平均N个纳夫古 N显示氮腐病Nseqrot100美元。5CDTB3CCC1380101,9561,27410,65656.41893584.50.316STC [45]1CCC12369,195255000300.80.530PTB [41]1C✗✗59520,3322148466.3134830.90.749fier具有选择性更新和硬否定挖掘。另一个长期跟踪器,ESTA,尽管其重新检测能力,排名非常低,由于一个相当简单的视觉模型,这是无法捕捉复杂的目标出现的变化。最先进的RGB-D跟踪器OTR和CSRDCF-D仅使用手工制作的功能,可实现与基于复杂深度功能的短期RGB相当的性能000005 10 15 20 25 30 35 40 45 501跟踪器ECO和SiamFC。这意味着现代RGB深度特征可以在一定程度上补偿深度信息的缺乏。另一方面,最先进的RGB跟踪器在通过深度通道(CSRDCF-D、ECOhc-D和KCF-D)扩展时显示出改进这意味着现有的RGB-D跟踪器落后于最先进的RGB跟踪器,这是通过利用与深度信息相结合的深度特征进行改进的巨大机会总体而言,最先进的RGB和RGB-D跟踪器表现出相对较低的性能。例如,跟踪Recall可以解释为与地面的平均重叠0.90.80.70.60.50.40.30.20.100 0.10.20.30.40.50.60.70.80.9 1在目标可见的帧上的真实性。对于所有跟踪器,该值均低于0.5,这意味着数据集对于所有跟踪器而言都是特别具有挑战性的,并且为跟踪器改进提供了巨大的潜力。此外,我们计算了跟踪F-测量与每个深度传感器 捕 获 的 序 列 。 结 果 相 当 - 0.30 ( ToF ) , 0.33(Kinect)和0.39(立体声)-但它们也意味着ToF是最具挑战性的传感器,立体声是最不具查全率分析为了进一步的性能洞察,我们将最佳跟踪点处的跟踪精度和召回率可视化,即,在图3中,在最高F测量处。对于大多数跟踪器来说,精确度和召回率同样很低FuCoLoT、CSRDCF-D和Repeat获得了比Re-call显著更高的精度,这意味着在这些跟踪器中报告目标丢失的机制是相当保守的-这是我们在所有长期跟踪器中观察到的典型的NCC跟踪器实现了比召回率高得多的精确度,但这是一种退化的情况,因为目标在序列的大部分中被报告为丢失(非常低的召回率)。另一个有趣的观察是,跟踪精确-图2.整体跟踪性能表示为跟踪F-measure(上)和Tracking Precision-Recall(下)。跟踪器按其最佳跟踪性能(最大F-测量)进行排名。0.40.30.20.10图3.在最佳点计算的跟踪精度和召回率(最大F测量值)。FuCoLoT的性能与性能最好的MDNet和MBMD相当,这表明FuColoT所做的预测与性能最好的跟踪器所做的预测相似。另一方面,表现最好的MDNet和MBMD具有更高的召回率,这表明它们能够正确地跟踪更多精度召回MDNet(0.454)MBMD(0.445)FuCoLoT(0.392)OTR(0.337)SiamFC(0.335)CSRDCF-D(0.333)ECO(0.330)ECOhc-D(0.309)ECOhc(0.300)KCF-D(0.297)KCF(0.292)价格(0.274)精准召回10020qMDNet带MBMDFuCoLoTrOTRSiamFCCSRDCF-DuECOiECOhc-DoECOhcaKCF-DsKCFdfCa3dMSg净捐助国0.60.50.40.30.20.1快速运动(0.10)0.60.50.40.30.20.1尺寸变化(0.15)0.60.50.40.30.20.10.60.50.40.30.20.10.60.50.40.30.20.10 qw0.60.50.40.30.20.100.60.50.40.30.20.10RYUIOASDFGHJ0 qw0.60.50.40.30.20.1010.80.60.40.20RYUIOASDFGHJ00.60.50.40.30.20.1010.80.60.40.2000.60.50.40.30.20.100.60.50.40.30.20.1000.60.50.40.30.20.10图4.跟踪性能w.r. t视觉属性前11个属性对应于具有可见目标的场景(显示F-度量)。整体跟踪性能在每个图中用黑点显示完全遮挡和视野外属性表示目标不可见的时间段,真阴性率用于测量性能。目标可见的帧,这可能再次归因于深度特征的使用。总体调查结果。根据总体结果,我们可以确定跟踪架构中看起来很有希望的几个良好实践。基于深度特征的方法在捕获复杂目标外观变化方面显示出希望。我们相信,在深度上训练深度特征为性能提升提供了机会。可靠的故障检测机制是RGB-D跟踪的一个重要特性。深度为检测此类事件提供了方便的线索,并且结合图像范围的重新检测,一些RGB-D跟踪器很好地解决了长期跟踪最后,我们认为,深度提供了丰富的信息补充RGB的三维目标外观建模和基于深度的目标从背景中分离没有一个前RGB-D跟踪器集成了所有这些架构元素,这开辟了许多新的研究机会。5.4. 每属性跟踪性能还在图4中的13个视觉属性(第3.2节)上评价了跟踪器。具有可见目标的属性的性能通过平均F-测量来量化,而真阴性率(TNR [43])用于量化完全遮挡和视野外目标消失下的性能。所有跟踪器的性能在快速运动中非常低,使其成为最具挑战性的属性。性能下降的原因很可能是帧到帧的目标搜索范围相对较小。一些长期RGB-D和RGB跟踪器,例如,MBMD和CSRDCF-D从其他跟踪器中脱颖而出,这是由于设计良好的图像范围重新检测机制,它补偿了小的帧到帧感受野。下一个最具挑战性的属性是目标大小的变化和方面的变化。MDNet和MBMD显著优于其他跟踪器,因为它们明确估计目标方面。尺寸变化与深度变化有关,但RGB-D跟踪器没有利用这一点,这为进一步研究基于深度的鲁棒尺度自适应提供了机会部分遮挡对于RGB和RGB-D跟踪器都特别具有挑战性。未能检测到遮挡可能导致视觉模型适应遮挡对象和最终的跟踪漂移。此外,帧间目标搜索区域过小会导致遮挡后目标重检测失败。与整体性能相比,相似对象、平面外旋转、可变形、深度变化和暗场景的属性不会然而,跟踪器的整体性能相当低,这留下了大量的改进空间。我们观察到ECOhc-D在相似对象属性上的特别大的下降,这表明跟踪器在重新检测阶段锁定到不正确的/相似的对象反射目标属性是金属杯等对象所特有原因在于,这类对象在RGB中与背景区分得相当好,而它们的深度图像始终不可靠。这意味着,未分配(0.40)Qwryuioasdfghj平面外(0.29)Qwryuioasdfghj深度变化(0.31)Qwryuioasdfghj完全闭塞(0.27)Qwryuioasdfghj外观变化(0.19)Qwryuioasdfghj视野之外(0.36)Qwryuioasdfghj部分闭塞(0.23)Qwryuioasdfghj反应目标(0.32)Qwryuioasdfghj变形(0.33)Qwryuioasdfghj整体(0.32)Qwryuioasdfghj类似物体(0.28)Qwryuioasdfghj黑暗场景(0.34)Qwryuioasdfghj10021RGB-D追踪器的信息融合部分。深度跟踪器(MDNet,MBMD,SiamFC和ECO)很好地解决了可变形和暗场景的属性,这使得它们最有希望应对这种情况。看起来CNN中的归一化、非线性和池化使得深度特征对于在实践中观察到的图像强度变化和对象变形足够不变。完全闭塞通常是短暂的事件。平均而言,跟踪器以一定延迟检测到完全遮挡,因此大百分比的遮挡帧被误认为目标可见。这意味着区分由于遮挡引起的外观变化与其他外观变化的能力差全遮挡时的最佳目标缺失预测是通过预测目标存在时最保守的目标缺失预测来实现的。目标离开视野(视野外属性)时的情况比完全遮挡更好预测,因为目标缺席时间较长长期跟踪器在这些情况下表现非常好,保守的视觉模型更新似乎是有益的。进行了[33]中的无重新检测实验,以测量所考虑的跟踪器中的目标重新检测能力(图5)。在该实验中,将标准跟踪召回率(Re)与在修改的跟踪器输出上计算的召回率(Re0)进行比较-在零重叠的第一次出现之后将所有重叠设置为零(即,第一目标损失)。召回之间的较大差异(Re-Re0)表明跟踪器具有良好的再 检 测 能 力 。 具 有 最 大 再 检 测 能 力 的 跟 踪 器 是MBMD 、 FuCoLoT ( RGB 跟 踪 器 ) 和 CSRDCF-D(CSRDCF的RGB-D扩展),其次是OTR(RGB-D跟踪器)和两个RGB跟踪器MDNet和SiamFc。Re -Re 00.20.100.40.30.20.10图5.没有再检测实验。跟踪召回在底部图表中显示为深蓝色条。修改后的跟踪召回率(Re0)显示为黄色条,并且通过在第一次跟踪失败后将每帧重叠设置为零来计算两次召回之间的差异显示在顶部。较大的差异表明跟踪器具有良好的重新检测能力。6. 结论我们提出了一个颜色和深度的通用视觉对象跟踪基准(CDTB),超越了现有的基准在几个方面。CDTB是唯一一个使用由几个颜色和深度传感器记录的RGB-D数据集的基准,它允许包含在不受约束的条件下捕获的室内和室外序列(例如,直接的太阳光)并且覆盖了宽范围的具有挑战性的深度信号。与相关数据集的经验比较表明,CDTB包含更高级别的对象姿态变化,并且在帧的数量上超过其他数据集一个数量级。这些物体消失和重新出现的频率要高得多,消失时间比其他基准长十倍跟踪器在CDTB上的性能低于相关数据集。因此,CDTB是目前最具挑战性的数据集,其允许在涉及目标消失和再现的各种现实条件下进行RGB-D一般我们评估了CDTB上最新的最先进(SotA)RGB-D和RGB跟踪器。结果表明,SotA RGB跟踪器的性能优于SotA RGB-D跟踪器,这意味着RGB-D跟踪器的架构可以从采用(和适应)最新RGB SotA的元素中受益然而,所有RGB和RGB-D跟踪器的性能都相当低,留下了显著的改进空间。详细的性能分析显示了一些见解。基线RGB跟踪器的性能已经从直接添加深度信息中得到了改善。目前RGB-D跟踪器中的颜色和深度融合机制效率低下,也许应该考虑在RGB-D数据上训练的深度特征。 RGB-D跟踪器没有充分利用深度信息进行鲁棒的对象尺度估计。快速运动对所有跟踪器都特别具有挑战性还必须改进目标探测和探测目标丢失的机制。我们相信,这些见解与现有基准相结合,将推动RGB-D跟踪的进一步发展,并有助于缩小RGB和RGB-D之间的差距。由于CDTB是一个仅用于测试的数据集,我们将致力于构建一个大型的6DOF数据集,该数据集可用于在未来训练RGB-D跟踪的深度模型。鸣谢。这项工作得到了芬兰商务部1848/31/2015号拨款、斯洛文尼亚研究机构项目P2- 0214以及项目J2-8175和J2-9433的支持。J. Matas得到捷克共和国技术局项目TE 01020415-V3 C视觉计算能力中心的支持召回召回010022引用[1] 宁安,赵晓光,侯增光。通过检测-学习-分割的在线RGB-D跟踪。InICPR,2016. 3[2] LucaBertinetto , JackValmadre , JoaoFHenriques ,AndreaVedaldi,and Philip H S Torr.用于对象跟踪的全卷积连体网络。在ECCV研讨会,2016年。5[3] Adel Bibi,Tianzhu Zhang,and Bernard Ghanem.具有自动同步和配准的三维零件稀疏跟踪器。在CVPR,2016年。二、三[4] David S.放大图片作者:John W.德雷珀和雷瑞文使用自适应相关滤波器的视觉对象跟踪CVPR,2010。3[5] AndersGlentBuch , DirkKraft , Joni-KristianKamarainen,HenrikGordonPetersen和NorbertK rüger. 使用局部结构特定形状和外观上下文进行姿势估计InICRA,2013. 2[6] Massimo Camplani、Sion Hannuna、Majid Mirmehdi、Dima Damen 、 Adeline Paiement 、 Lili Tao 和 TiloBurghardt。使用深度缩放核相关滤波器和遮挡处理的实时RGB-D跟踪。在BMVC,2015年。3[7] Chang Hyun Choi和Henrik Iskov Christensen。 RGB-D对象跟踪:一种基于GPU的粒子滤波方法。InIROS,2013.2[8] Wongun Choi,Caroline Pantofaru,and Silvio Savarese.一个 从移 动摄像 机跟 踪多个 人的 通用框 架。 IEEEPAMI,2013年。2[9] Navneet Dalal和Bill Triggs。用于人体检测的有向梯度直方图在CVPR,2005年。3[10] Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,andMichaelFelsberg.ECO : EfficientConvolutionOperators for Tracking高效卷积算子。在CVPR,2017年。三、五[11] Andreas Ess,Bastian Leibe,Konrad Schindler,and Lucvan Gool.一种鲁棒多人跟踪的移动视觉系统。CVPR,2008。2[12] Hamed Kiani Galoogahi,Terence Sim,and Simon Lucey.有限边界相关滤波器CVPR,2015。3[13] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准-带有RGB-D视频和3D手部姿势注释。在CVPR,2018年。2[14] Sion Hannuna 、Massimo Camplani 、Jake Hall 、 MajidMirme-hdi 、 Dima Damen 、 Tilo Burghardt 、 AdelinePaiement和Lili Tao。DS-KCF:RGB-D数据的实时跟踪器Journal of Real-Time Image Processing,2016。3[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。第二版,2004年。4[16] Joao F. Henriques,Rui Caseiro,Pedro Martins,JorgeBatista.核相关滤波器的高速跟踪。IEEE PAMI,37(3):583-596,2015年。三、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功