没有合适的资源?快使用搜索试试~ 我知道了~
视觉跟踪器综述及其在移动机器人中的应用分析尤少泽1,2,朱华1,2,*,李孟刚1,2,李玉潭1,2,1中国矿业大学机电工程学院,江苏徐州221116;youshaoze@cumt.edu.cn2中国矿业大学江苏省智能矿山装备协同创新中心,江苏徐州221008;*通信地址:zhuhua83591917@163.com;电话:2019 - 05 - 16 00:00:00翻译后摘要:近年来,计算机视觉已经得到了显着的关注,这是机器人获取有关外部环境的信息的重要组成部分之一。视觉跟踪器可以为移动机器人提供必要的物理和环境参数,其性能关系到机器人的实际应用本研究提供了一个全面的调查视觉跟踪器。在简要介绍视觉跟踪器的基础上,分析了视觉跟踪器的基本框架和然后介绍了产生式和判别式方法的结构,并总结了用于跟踪器的特征描述符、建模方法和学习方法随后,我们从三个方向回顾和评估了判别式跟踪器的最新进展:相关滤波器,深度学习和卷积特征。最后分析了移动机器人视觉跟踪器的研究方向,并对移动机器人视觉跟踪器的发展趋势进行了展望。关键词:视觉跟踪;计算机视觉;相关滤波器;深度学习;移动机器人1. 介绍眼睛是人类获取外界信息的重要器官。据统计[1],近80%的环境信息(颜色、亮度、形状、运动、深度等)来自于愿景。计算机视觉(CV)赋予计算机像人类一样“看世界”的能力。它利用摄像机来模仿人眼的功能,从而实现对目标的提取、识别和跟踪等功能。视觉跟踪是计算机视觉中最具挑战性的问题之一,它可以为机器人提供对指定目标的跟踪、定位和识别,并将目标或环境的参数提供给控制器供后续使用。它在机器智能领域有着广泛的应用,包括移动机器人、自动驾驶、人机交互、自动监控和眼动跟踪技术等。1.1 跟踪算法和视觉跟踪器传统的跟踪算法不同于CV中的视觉跟踪算法。前者更适合作为跟踪策略。这种算法通过提出数学公式对目标在时域内的状态空间变化进行建模,预测下一帧目标的运动状态后者是CV中检测算法、跟踪策略、更新策略、在线分类器、重检测器等分支算法的集成,具有更复杂的系统结构。本文重点介绍和分析了后者的相关工作1.2 目标和纲要作为计算机视觉领域的研究热点之一,为了评估视觉跟踪器的综合性能,从PETS [2]和VIVID [3]开始,许多研究人员提供了评估数据集,也有许多人提出了跟踪训练集[4-6](如表1所示)。从Wu的评估基准[7,8]到VOT [9-14]视觉竞赛,最先进的视觉跟踪器的性能已经排名,并且一些跟踪器已经开源。第二节结合评测数据库的数据作为参考,首先介绍了视觉跟踪的难点和基本框架。在第3节中,总结了基于检测跟踪的最新跟踪器。第四章分析了移动机器人领域中所需要的跟踪器的特性。最后,在第五节中给出了结论和未来的发展方向.表1.近年来提出的数据集数据集年视频持续时间帧速率宠物[2]200428St30FPSVIVID [3]20059Lt30FPSOTB-50 [7]201350St30FPSPTB [15]2013100St30FPSALOV++[16]2013314St30FPSVOT [12]2014-201825、60、601、602、603St30FPSTC-128 [17]2015129St30FPSOTB-100 [8]2015100St30FPS[18]第十八话2015365St30FPS英国[4]20154,417 TrST LT-无人机-123 [19]2016123S +20LST LT30FPSNfS [20]2017100St240FPS[21]第二十一话201770St30FPSAMP [22]2017100St30FPS[23]第二十三话201750Lt24/30FPSYTBB [5]2017380,000特里ST LT-VOT-LT[24]201835Lt30FPSTrackingNet [6]201830,132 Tr + 511TeST LT-[25]第二十五话2018366Lt-注意ST:短期,LT:长期,Tr:训练集,Te:测试集。2. 视觉跟踪器架构和分类2.1 跟踪系统视觉跟踪在过去的几十年里得到了显著的发展[26-32],并且视觉跟踪的过程从它第一次被提出到现在已经很清楚对于输入的视频或图像序列,首先将目标当前帧的状态作为跟踪的初始状态(初始化模型参数),然后提取关键点并进行建模。然后将目标模型应用于后续帧,并通过跟踪策略(滤波法、光流法等)估计目标的当前状态此外,目标模型由当前状态更新。最后,在下一帧中跟踪目标模型视觉跟踪的基本流程图如图1所示Fig. 1.视觉跟踪系统的框架流程。Naiyan Wang等人[33]详细划分了传统的视觉跟踪算法框架。他们将视觉跟踪分解为五个部分:运动模型、特征提取器、观察模型、模型更新器、包围盒后处理器.实验结果表明,在视觉跟踪中,特征提取远比观测模型重要在上述跟踪框架中,特征提取器是描述目标的过程。在提取目标特征的基础上,构建目标描述模型根据目标特征提取和观测模型(在线学习方法)的不同,跟踪器可以分为两类:生成式跟踪器和判别式跟踪器。用于预测观测模型中目标轨迹的方法是跟踪策略,例如卡尔曼滤波器[34],扩展卡尔曼滤波器[35],粒子滤波器[36],L-K光流算法[37],马尔可夫链蒙特卡罗算法[38],归一化互相关[39],Mean-Shift [28,40]和Cam-shift [41]。在视觉跟踪过程中,目标及其周围环境的状态是不断变化的(图2),这不仅给特征提取和模型构建带来困难,而且要求跟踪器具有更强的鲁棒性和更高的精度。在此基础上,实时跟踪也是可能的。图2.视觉跟踪的挑战和困难。在跟踪中存在普遍认识到的困难:(1)外观变形;(2)光照变化;(3)外观相似性;(4)运动模糊;(5)背景杂乱;(6)遮挡;(7)视野外;(8)比例变化;(9)平面外旋转;(10)平面内旋转;(11)背景相似。2.2 生成方法在学习过程中,生成式方法是通过求条件概率分布P(Y描述目标建模目标提取特征当前输入输出帧初始化| X) from the data maximization joint probability P (X, Y), as the prediction model [42]. 即,建立在全局状态P(Y)上的数据可能性模型|X)= P(X,Y)/P(X)。生成方法试图找出数据是如何生成的。通常,它可以学习代表目标的模型,并通过目标搜索图像区域,然后分类信号并最小化重建误差。在此生成模型的基础上,找到与生成模型描述相似的目标,然后进行模板匹配,找到图像中最匹配的区域,即当前帧的目标。具体步骤见图3 [43]。图三.生成方法跟踪器框架。首先输入视频帧,选择目标进行初始化,并提取当前帧中的目标特征。然后根据目标的特点,建立概率密度分布函数,对模型进行描述。然后对下一帧图像区域进行搜索,最后,输出目标包围盒。在视觉跟踪器框架中,目标描述过程中的目标特征提取步骤非常重要,对跟踪的精度和速度有很大影响它不仅是常用的特征表示见表2。如图3所示,目标描述和建模是生成式方法中的重要步骤,它会影响跟踪器的效率和精度根据目标的难易程度不同,模型描述方法也不同。常用的描述方法有核技巧[44,45]、增量学习[46]、高斯混合模型[47]、线性子空间[48]、贝叶斯网络[49]、稀疏表示[50]、隐马尔可夫模型[51]等,最后采用相似性度量函数作为置信度指标来反映各个跟踪结果的可靠性,从而判断目标是否丢失。2.3 判别法判别式方法的基本思想是利用数据直接学习决策函数Y = f(X)或最大化条件概率分布P(Y |X)作为学习过程中的预测模型。步骤是在有限样本条件下建立判别函数(后验概率函数),建立数据P(Y)的可能性模型|X)在全局状态下,不考虑样本的生成模型,而是直接研究预测模型[42]。在计算机视觉中,这种方法通常使用图像特征与机器学习的思想。在提取目标特征后,利用机器学习方法训练分类器,将目标与背景区分开。判别类跟踪方法的架构如图4所示。由于在训练中加入了背景信息,背景和目标可以显著区分,性能更加鲁棒,逐渐占据视觉跟踪领域的主流地位。在计算机视觉中,目标跟踪和目标检测是两个重要的部分。的目的...检测是在视频中发现静态或动态目标,跟踪是对动态目标进行定位。跟踪算法最初是用来解决检测算法的速度问题该算法首先预测下一帧目标的位置,然后利用检测算法标记出目标的位置。后来,有人将视频序列按照一定的时间段进行分割,并对这段时间内的每一帧图像进行检测,这样检测就可以达到相似跟踪的效果。这种跟踪相当于检测每一帧,这是一种伪跟踪。跟踪发展到“动态检测”,又称Tracking-by-Detection,是当今视觉跟踪的主流研究方向[52]。表2.视觉描述符的最新进展。特征描述符优势代表性方法灰度特征[53]第五十三话:我的世界,我的世界最早,最简单,最直观,非常快。EDFT[56],CSK[57],[29]第二十九话直方图的几何和光学变形可以保持不变。梯度特征[59]第五十八话:一个人的世界DSST[60-62]、CSR-DCF[63]时空特征[64]第65话:我的世界,我的世界在固定背景下,具有较好的实时性和鲁棒性用于闭塞。[66]第六十七话:一个人纹理特征Gabor波[68]、LBP等[69-72]、WLD[73]灰度不变性和旋转不变性。[74]颜色特征CN[75]、CBP[76]、CC[77]对光度变化具有很强的鲁棒性。CN[75],[79]第78话:我的世界Haar-like特征[81]第80话:我的世界速度非常快,在任何尺度下以恒定时间计算。[83]第八十三话:一个人的世界深度特征Conv. [第84话]最先进的功能。基于CNN的跟踪器多特征融合-通过补充,各种方法。HOG-LBP[85]、TOFF[86](LAB+HOG+LBPF)通常有两种检测跟踪方法:一种是相关滤波(CF),它通过将输入特征回归为目标高斯分布来训练滤波器,并在预测分布中找到响应的峰值,以定位目标在后续帧中的位置[87-91]。另一种是深度学习(DL),通过更新分类器中前景和背景的权重,可以提高区分目标与其邻域背景的能力[92-94]。近年来,大量的机器学习方法已经被修改来处理检测跟踪问题,作为训练分类器的方法。在分类器训练中,监督学习和半监督学习通常用于机器学习,而无监督学习则较少使用(表3)。新帧下一帧见图4。判别方法框架。判别式方法不关心数据是如何产生的,它只关心信号之间的差异,它把跟踪问题看作是一个二元分类问题,然后简单地通过差异对给定的信号进行分类。一般来说,找到目标和背景是决策边界。跟踪被视为逐帧检测问题,目标帧是从第一帧中手动选择的。表3.常见的机器学习方法方法代表综合学习[98]第95话:我的世界,我的世界在线学习Co-Training [99],Multi-Instance Learning [82],SVM [100],[103]第101话:我的世界,我的世界随机学习通用报告格式[104]深度学习CNN [105],DBN [106],SAE [107],RBN [108],R-CNN[109]贝叶斯分类器Naive Bayes [110],TAN [111],BAN [111],GBN [112]回归网络[114]第113话:我的世界3. 视觉跟踪技术3.1 相关滤波器相关滤波器(CF),又称判别相关滤波器(DCF),其原理是两个相关信号f和g的卷积响应大于不相关信号的卷积响应(1)。其中f*是f的复共轭,在连续域中使用Σ,在离散域中使用Σ。在视觉跟踪中,滤波器只对每个感兴趣的对象产生高响应,对背景产生低响应。由于循环矩阵的引入以及快速傅立叶变换(FFT)、离散傅立叶变换(DFT)和逆FFT(IFFT)的应用,使视频采样的速度得到了较大的提高。比较一个从最小值(N2)到最小���值(N log N)���的比较。∞()()=������������中文���(简体���)中文(繁体������)������������������−∞∞()[]=[][+������]������������������������������−∞(一)由于Bolme等人学习了合成精确滤波器(ASEF)[115]和最小输出平方误差和(MOSSE)滤波器[116]的平均值,基于相关滤波器的跟踪器(CFTs)在接下来的几年中引起了视觉跟踪社区[57,117]的极大关注Chen等人[118]总结了近年来相关滤波视觉跟踪方法的总体框架(图5)。目前的大多数差价合约都是基于这一框架,只是改进或取代其中的一MOSSE算法仅使用单通道灰度特征,显示速度高达615FPS,充分体现了相关滤波的优势然后CSK [57]基于MOSSE扩展了填充和循环矩阵。在Galoogahi 等 人 学 习 具 有 多 通 道 特 征 的 MCCF[119] 之 后 , 改 进 的 多 通 道 特 征 版 本 KernelCorrelation前景(目标)正约束分类器跟踪器更新模型更新窗口负权重约束更新背景建立模型目标初始化过滤器(KCF)[117]通过CSK,其精度和FPS在当时的OTB50 [7]上优于最佳(Struck [120])(表4)。CN [75]基于CSK扩展了颜色特征Color Names随着特征通道的增加,从MOSSE(615FPS)到CSK(292FPS)、KCF(172FPS)、CN(152FPS),跟踪器的速度在逐渐下降,但效果越来越好,始终能保持在实时高速水平。CSK [57],KCF/DCF [117]和CN [75]已被用作各种数据库中的基准,是基于相关过滤器的跟踪器。在VOT2014视觉跟踪竞赛中,基于相关滤波器的跟踪器[62,117,121]占据前三名。由于CSK是学习的,基于稀疏表示的跟踪器[83,122,123]已逐渐被更快,更简单的CFTs所取代图五.相关滤波视觉跟踪方法的一般框架。在第一帧初始化之后,在每个后续帧中,裁剪先前估计位置处的图像块作为当前输入。随后,通过提取不同的视觉特征可以更好地描述输入,并且通常使用余弦窗口来平滑窗口的边界效果。然后利用卷积定理,得到了输入信号与学习滤波器的相关性FFT用于将信号转换到频域,并且图中的符号“0”表示逐元素计算。相关后,通过IFFT得到空间置信度图,其峰值可以预测为目标的新位置。最后,提取新的估计位置的特征以训练和更新具有期望输出的相关滤波器。表4.与当时最先进的跟踪器相比,基于CSK基于CSK其他跟踪KCF [117]DCF [117][第120话][74]MOSSE[116]特征生猪原始像素生猪原始像素平均精度百分之七十三点二56.0%百分之七十二点八45.1%百分之六十五点六百分之六十点八43.1%平均FPS1721542922782028615使用更好的特征层会导致跟踪器变慢,并且滤波器大小是固定的,这使得它不可能很好地响应目标的尺度变化因此,许多研究者都致力于改进相关的过滤框架。Danelljan等人提出了仅具有HOG特征的DSST [62],并创建了基于平移滤波器与尺度滤波器组合的滤波器架构。利用DCF作为滤波器检测目标的平移,训练类似于MOSSE的相关滤波器检测目标的尺度变化然而,DSST的回归公式是局部最优问题由于平移滤波器和尺度滤波器是分开求解的,所以其实时性不好(25FPS)。为了克服这个问题,Danelljan等人提出了使用PCA降维的f-DSST [61]的加速版本,将33个尺度减少到17个,并提高了运行速度(54 FPS)。Yang Li等人提出了基于KCF的SAMF [121],其类似于DSST,并使用HOG添加CN特征。首先对图像块进行多尺度缩放,然后利用平移滤波器检测目标。与DSST不同,SAMF将尺度估计与位置估计相结合,通过迭代优化实现全局最优。Kiani等人提出了一种基于MOSSE的跟踪器,通过添加掩码矩阵P,滤波器可以从大的圆形移位块中裁剪真实的小尺寸样本,从而增加真实样本的比例,其中包括基于灰度特征的CFLB两者都可以实时运行(CFLB-87 FPS,BACF-35 FPS)。Sui等人提出的RCF [126]在CF的原始结构中使用了三个稀疏相关损失函数,可以很好地提高跟踪的鲁棒性和实时性(37 FPS)。Zhang等人发现了使用跟踪器的新方法,他们提出了MEEM [127],这本质上是一种组合跟踪器。它可以同时调用多个跟踪器,并根据累计损失函数的计算选择最佳跟踪器,但实际运行效果一般(13FPS)。CF模板匹配方法对目标快速变形和快速运动的跟踪效果较差,颜色特征对光照变化和背景相似性的跟踪效果较差,单独使用时跟踪效果不理想Bertinetto等人学习的Staple [128]结合了基于模板的特征方法DSST和基于颜色直方图特征的方法DAT [78](15 FPS)。他们发现,结合HOG特征对光线变化的鲁棒性强和CN特征对变形不敏感的优点,跟踪器的准确性和速度比单独的两个跟踪器更高。组合跟踪器速度高达80FPS。从那时起,HOG和颜色名称已经成为跟踪算法中手工制作特征的标准。然后Bertinetto等人提出了Staple+ [128]来改善跟踪性能,它将特征通道的数量从28增加到56,并将大位移光流运动估计的响应项添加到平移检测中。性能得到了改善,但代价是不实时。同样,Lukezic等人结合DAT和CFLB的思想提出了CSR-DCF[63]。利用CFLB的掩模矩阵P,加入自适应系数,通过CF响应图和颜色概率加权求和确定响应点最大响应点由CF响应图和颜色直方图的加权和效果令人印象深刻,但速度只有13FPS。边界效应一直是视觉跟踪的难点之一,由于运动速度快,真实样本会从余弦窗口中逃逸,从而将背景训练到分类器中,导致样本被污染,跟踪失败。为了解决这个问题,Danelljan等人提出了SRDCF [129],学习空间正则化项以惩罚边界区域中的滤波器系数并抑制边界效应。然而,没有封闭的解决方案的优化迭代导致跟踪器不能实现实时(5FPS)。Gundogdu等人分析了余弦窗的缺点,提出了一种新的窗函数SWCF [130],可以抑制目标的无关区域,突出目标的相对区域部分然而,由于新窗口函数的复杂性,跟踪器的速度仅为5 FPS。Hu等人提出了MRCT [131],一种基于流形正则化的相关滤波器。该方法利用增强样本和无监督学习训练分类器建立回归模型,并与BACF相似,由目标区域裁剪的一个正样本和非目标区域裁剪的多个负样本生成增强样本,以减少边界效应。Bibi等人提出的CF+AT [132]框架,通过将循环移位测量产生的样本替换为实际平移测量,可以对目标响应进行正则化,从而解决边界效应。Mueller等人提出了一种基于上下文感知的相关过滤器框架CACF [66],该框架可以用于传统CF的学习阶段,并且该框架可以广泛用于许多不同类型的CFTs。CF+AT和CACF显著提高了跟踪器的性能,但跟踪器的速度也受到计算时间增加的影响。跟踪置信度是跟踪器中必不可少的组成部分之一,用于判断目标是否丢失。生成式方法通常使用相似性度量函数,��������������������������������������������������方法具有由机器学习方法训练的分类器提供的分类概率。一般情况下,CFTs通常使用最大响应峰值(MRP,2,每通道)Rmax作为置信度参数,但难以在复杂环境中有效地确定目标位置。最早的相关滤波方法(MOSSE)采用峰旁瓣比(PSR,3)结合MRP来判断置信度。Wang等人提出的LMCF [133](85 FPS)基于手工制作的特征,Deep-LMCF(8 FPS)基于CNN特征。将该结构的支持向量机与CF相结合,提出了平均峰值相关能量(APCE,4),能够有效地处理目标遮挡和丢失的问题。姚遂等提出了基于RCF [126]的 PSCF [134],使用新的度量方法来增强峰值增强(PS,5),其用于提高相关滤波器的鉴别能力。该跟踪器可以在桌面上以13PFS运行。Lukezic等人认为每个通道的检测可靠性体现在每个通道响应中主模值的表现上,因此他们在CSR-DCF中提出了Spatio Reliability(6)[63]。通过与MRP相结合,该跟踪器执行13FPS。R=max()( 2)������������������������������������其中,fd提供滤波器,Sd提供区分特征通道,归一化标量λ确保即∑R= 1。������������P R=−������������������������������������其中,gmax是峰值,µsl和σsl是旁瓣的平均值和标准差。|2������������������������������������|2(三)PCE=2�������������������������∑������,ℎ�R������,ℎ−R��������������������(四)其中Rmax、Rmin和Rw,h表示响应峰值1212��������−ǁ�� −��ǁ(五)1个2其中,R表示响应的峰值,Rj表示第j个响应值,n表示峰值周围的相邻响应值的数 量 ,并且TT和T分别表示响应峰值(相关输出)和地面真值峰值(目标位置的中心)的位置。R(������������)= 1 −mi n���R2������������ 1(六),R1 2空间可靠性基于响应图中第二和第一主模式之间的比率。并且每信道检测可靠性被估计为(6)。大多数的CFTs只关注短期跟踪的性能,而没有考虑目标会随时遮挡或消失的长期跟踪。Kalal等人首先提出了一种新的长期跟踪框架ESTA(Tracking-Learning-Detection)[74],该框架采用中值流跟踪器进行跟踪,P-N学习机制和随机蕨类分类器进行检测。虽然P2P不使用CF,但它提供了长期跟踪的原始想法,并且跟踪器可以实时运行。Ma等人提出了LCT [135],基于DSST的平移滤波器和尺度滤波器,增加了第三个相关滤波器,负责检测目标置信度。采用随机蕨类分类器作为在线检测器,运行速度为27FPS。Ma等人进一步提出了LCT+,一种具有长期和短期记忆的滤波器,增加了在线SVM检测器和CNN功能。LCT+基于手工制作的功能,通过使用CNN功能以20 FPS和14 FPS运行。Hong等人基于Atkinson-Shiffrin记忆模型提出了具有长期和短期记忆的MUSTER [136],性能良好,但运行速度非常慢(0.287FPS)。Zhu等人提出了一种新的协作相关跟踪器(CCT)[137],使用多尺度核相关跟踪(MKC)和在线CUR滤波器进行长期跟踪。通过对CUR1滤波器的检测,矩阵A的1CUR近似由三个矩阵C、U和R组成,其中C由A的列组成,R是减少了由于模型长期闭塞或脱离而引起的损伤跟踪器可以达到52FPS。从上述工作可以看出,CFTs的主要研究方向是:(1)采用更好的学习方法;(2)优化回归方程;(3)提取更强大的特征;(4)减少尺度变化的影响;(5)削弱边界效应的影响;(6)使用更好的置信准则;(7)与长期目标记忆模型相结合等。3.2 深度学习近年来,深度学习(DL)受到了广泛关注[84]。CNN作为一种代表性算法,经过一系列的发展,以其强大的特征表达能力在图像和语音识别方面取得了惊人的成绩在视觉跟踪领域中,基于DL的跟踪器大多属于判别式跟踪。从2015年开始,从国际顶级会议(ICCV、CVPR、ECCV)可以看出,越来越多基于DL的跟踪器取得了令人惊讶的性能[11]。由韩国POSTECH团队提出的CNN-SVM [142]是最早的基于DL的跟踪器之一,它将卷积神经网络(CNN)与支持向量机(SVM)分类器相结合。最后,以特定目标的显著图为观测对象,采用序贯贝叶斯滤波进行跟踪。在此之后,大量基于CNN的跟踪器(CNT)如雨后春笋般涌现。MDNet [143]作为CNN-SVM的改进,通过深度学习提取运动特征,并将运动特征添加到跟踪过程中。它向人们展示了CNN在视觉跟踪领域的潜力,但跟踪器只适合在桌面计算机或服务器上运行,不适合在ARM上运行。为了提高基于DL的方法的速度,Held et al.提出了第一个基于DL的跟踪器可以运行在100FPS2.为了提高速度,该算法利用了离线训练的大数据量然而,这些措施可以获得更高的FPS,但代价是较低的跟踪精度。Bertinetto等人提出的SiameseFC(SiamFC)[144]使用Siamese架构(图6)。它是第一个使用VID [4]数据集训练样本的跟踪器它在这段时间内的表现优于GOTURN和SRDCF在VOT 2016上,基于ResNet的SiamFC-R和基于AlexNet的SiamFC-A表现出色,是VOT 2017上速度测试的赢家[9,10]。SiamFC以其优异的性能受到了广泛的关注可以说为基于DL的视觉跟踪开辟了另一个方向,VID数据集也因其非常适合预训练而成为基于DL的跟踪器的标准训练数据库在短短的一年内,有这样好的工作要跟进[145-150]。从VOT2017[9]的结果可以看出,SiamFC系列是少数幸存的端到端离线训练跟踪器,是目前唯一可以对抗CFTs的方向,也是最有希望受益于大数据和DL的方向图六、全卷积连体结构。SiamFC学习一个函数(, ),该函数比较由A的行组成,并且产品CUR非常接近A。2所有基于DL的跟踪器都使用GPU速度。将样本图像Z转换为相同大小的候选图像X,并且如果这两个图像描绘相同对象则返回高分,否则返回低分。卷积是关于样本和候选图像的全卷积输出是标量值得分图,其维度取决于候选图像的大小。然后在一次评估中计算搜索图像内所有平移的子窗口的相似性响应,并根据下式学习度量函数g:最后,通过度量函数g确定目标位置。由于细胞神经网络的结构特性,其运行速度总是受到限制。在此之后,许多研究人员提出将CF与CNN相结合,以加快跟踪器的速度。Bertinetto等人为SiamFC提出了一个改进的工作CFNet [145],在这项工作中,他们推导了CF的可微封闭解,使其成为CNN的一层CF用于在SiamFC中构建滤波器的模板然后,CNN-CF可以用于端到端训练,这更适合CF跟踪的卷积特征。使用conv5时,Tracker可以运行43FPS同时,Wang等人提出了DCFNet [146],在判别相关滤波器(DCF)中使用CNN特征代替HOG特征。除了CNN特征,其他部分仍然在频域中快速计算特征分辨率比CFNet高近3倍,定位精度更高。跟踪器的速度为60FPS,但边界效应限制了检测区域。最新版本的DCFNet 2.0已经使用VID进行了训练,在性能上比CFNet有了显著的飞跃,并且在GPU上以100 FPS的速度运行。CFCF [151](VOT2017挑战赛的获胜者),由Gundogdu等人提出,还构建了CNN,可以基于VID数据集进行端到端训练。与之前的跟踪器不同,CFCF使用了这种微调的CNN来提取卷积特征,其余部分与C-COT完全相同,并且这种跟踪器不能实时。Fan等人提出了PTAV [152],使用SiamFC结合f-DSST,多线程技术,并借鉴VSLAM中并行跟踪和映射的经验通过验证器对跟踪器进行校正,从一个新的角度研究了这个问题,并取得了良好的实验结果(25 FPS)。韩国感知和智能实验室也对CNN-CF方法做了很多研究[153-156],使用随机森林,深度强化学习,马尔可夫链等机器学习算法来优化分类器的准确性,但两者都不能达到实时。Huang等人提出了第一个CPU友好的CNT早期停止跟踪器(EAST)[147],也是对SiamFC的改进。它使用简单特征(HC)跟踪简单帧(类似或静态),而复杂帧(明显变化)使用更强的卷积特征进行跟踪。这样做的好处是,跟踪器的平均速度达到23FPS,其中50%的时间可以在190 FPS下运行。另一方面,需要卷积特征的复杂帧跟踪非常慢,这也说明跟踪器的帧率波动会很大。Tao等人提出了基于内容的图像检索(CBIR)的SINT [157],它只使用来自第一帧的目标的原始观察通过离线训练得到匹配函数,利用Siamese网络根据匹配函数对与初始帧标校目标最佳匹配的面片进行跟踪。在实验中,SINT加入了光流跟踪模块(SINT+),效果有所提高,但都不能实时运行。Wang等人提出了SINT++ [158],它增加了正样本生成网络(PSGN)和硬正变换网络(HPTN),以提高样本的准确性。虽然该方法新颖,并且使用了最流行的生成对抗网络(GAN),但实际效果并不令人印象深刻。Chen等人提出的CRT [159]与传统的DCF不同之处在于它不需要获得回归问题的解析解。它试图通过梯度下降法和单个卷积层来求解回归方程,以获得近似解。由于卷积回归仅在没有背景的“真实”样本上训练,因此理论上可以包含无限的负样本。Zhu等人提出的UCT [150]将特征提取和跟踪过程视为卷积运算,从而形成完全卷积的网络架构。同样,使用随机梯度下降(SGD)来解决DCF中的岭回归问题,并使用CNN的离线训练来加速。同时,他们学习了一个新的置信度参数峰噪比(PNR,7),并提出了标准UCT(使用ResNet- 101)和UCT-Lite(使用ZF-Net)可以在41 FPS和154 FPS下运行Song等人提出了CREST [160],它也将DCF重新定义为一层CNN,并使用神经网络集成端到端对特征提取、响应图生成和模型更新进行培训。他们了解到,通过基础和残差映射将特征转换为响应图,以获得更好的跟踪性能。Park等人提出了Meta-Tracker [161],这是一种基于离线元学习的方法,用于调整在线自适应跟踪中使用的初始深度网络他们在基于CNN的MDNet [143]和基于CNN-CF的CREST [160]上展示了这种方法Yao等人在BACF的基础上研究了深度表示和模型自适应的联合学习[125],然后提出了RTINet [162],它可以以9FPS运行,快速版本的实时R−R ������������������ ������PNR =你好,我是���说,������������������������������(七)表5整理了Wang3等人维护的网络评估数据库,显示了现阶段表现最好的20个跟踪器,包括CVPR 2018。除了基于CF的跟踪器BACF和基于HC的跟踪器ECO-HC(Turbo BACF速度可以超过300 FPS,但源代码不开放4),其余的跟踪器都是基于DL框架的,而且大多数都是基于CNN的,但帧率一般都在个位数。PTAV(基于SLAM)、SiamRPN(基于暹罗网络)和RASNet可以实现实时(GPU速度)。表5. 跟踪器按平均重叠分数排序。跟踪器AUC-CVPR2013精密度-CVPR2013AUC-OTB100精密度-OTB 100深度学习实时MOSSE [116]––31.141.4N中文(简体)[163]第163话––71.393.2Y–电子邮件[164]70.993.069.491.0Y中文(简体)CFCF [151]69.292.267.889.9YN(1.7)LSART [165]––67.292.3YN(1)MDNet [143]70.894.867.890.9YN(1)SANet [166]68.695.069.292.8YN(1)[155]第155话––67.891.7YN(1)TCNN [167]68.293.765.488.4YN(1)C-COT [168]67.289.968.2–YN(0.3)TSN [169]––64.486.8YN(1)RASNet [170]67.089.264.2–Y中文(简体)[164]第164话65.284.764.385.6NY(60)CRT [159]––64.287.5YN(1.3)BACF [125]67.8–63.077.6NY(35)MCPF [171]67.791.662.887.3YN(0.5)SiamRPN [172]––63.785.1YY(160)CREST [160]67.390.862.383.7YN(1)DNT [173]66.490.762.785.1YN(5)PTAV[152]66.389.463.584.9YY(25)ADNet [174]65.990.364.688.0Y(3)注:AUC(曲线下面积)和精密度是标准指标。实时-FPS,速度从原来的纸,不测试在同一平台上。红色- 最好的,绿色-第二,蓝色-第三。近年来的研究表明,如何使基于GPU的实时跟踪器在CPU上运行良好一直是一个难点SiamFC [144]不能在CPU上实时运行,因为AlexNet将运行与刻度数相同的时间,这严重延迟了运行速度。最快的DCFNet[146]使用两层CNN而不是HOG,使用conv2的计算量是可以接受的,但预训练和微调的过程会使其在CPU上变弱。EAST [147]作为一个基于CNN的跟踪器,在大多数情况下它以KCF的形式进行跟踪,只有在困难的场景中才会使用conv5功能。鉴于上述情况,如果CNT在CPU或ARM上执行,需要注意三点:(1)需要控制CNN容量的数量,卷积层是计算的主要(2)目标图像在线3https://github.com/foolwood/benchmark_results第http://www.hamedkiani.com/bacf.htmlun-update(无微调),在CNN离线训练后目标特征将被固定,从而避免了随机梯度下降(SGD)和反向传播几乎不可能实时跟踪的问题。3.3 卷积特征CFT具有良好的速度和精度。碳纳米管具有更高的精度,可以保持GPU上的高速为了提高CFTs的性能,有必要采用深特征。CF端到端培训可以添加到CNT。CF和DL不是独立发展的,它们是相辅相成、相互促进的。跟踪器目前的发展方向如图7所示。图7.第一次会议。当前跟踪器的开发树目前,有三种跟踪方法:(1)基于CF的方法;(2)基于CNN的方法;(3)其他。方向主要是CF和DL。黑色的大字体代表了发展的阶段。粉红线代表Danelljan等人的贡献。黄线代表Ma等人的贡献。图7的右侧表示基于CF的跟踪器。根据专题频道的选择,大部分可以分为一种是结合手工艺特征的相关滤波,如HOG,CN或CH(颜色直方图),可以确保非常高的速度和良好的精度,如BACF [125],ECO-HC [164]和Staple [128]。另一个是CF结合深度卷积特征,可以实现更高的准确性。预训练CNN模型的卷积特征很强,泛化能力很好,但速度较差,如C-COT[168],ECO [164]和CFCF [151]。图7的左侧表示基于DL的跟踪器,其中大多数使用CNN来训练样本,它们也可以分为两个子类别。面向精度的MDNet [143]及其扩展可以对抗数据集上的顶级CFTs,但由于训练集的限制,泛化能力可能会受到质疑。基于速度的SiamFC [144]及其扩展可以在GPU上实现更高的实时速度。特别是引入CF层后,卷积特征提取可以与CF的检测结合起来,CNN框架也可以实现密集检测。精度和速度都可以达到更高的水平。Danelljan等人的一系列工作[61,62,75,163,164,168,175]可以代表的历史,CFTs从改进相关滤波结构到解决边界效应,再到使用更好的特征,再到提取亚像素精度的特征。追踪器的效果越来越好。他们提出了学习连续卷积算子跟踪器[168]C-COT算法通过三次插值将不同分辨率的特征图插值到连续空间域。该算法跟踪效果良好,但由于计算量大,速度仅为0.3FPS。ECO [164]是C-COT [168]的加速版本该算法引入因子分解卷积算子、紧凑生成模型和区间更新策略,同时提高了跟踪速度和鲁棒性。GPU版本的ECO运行速度为8 FPS,而ECO-HC可以在CPU上运行60 FPS。在ECO的基础上,He等人提出CFWCR [176]由双层CNN特征(conv1和conv5)加权,完全放弃HC特征。虽然性能优于ECO,但代价是放弃运行速度。CFWCR在GPU上的平均运行速
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功