没有合适的资源?快使用搜索试试~ 我知道了~
实时陈博宇1[0000−0003−2397−7669]、王东1 *[0000−0002−6976−4004]、李佩霞1[0000−0001−6167−5309]、王双2[0000−0002−6462−6040]、鲁沪川1[0000−0002−6668−9758]1大连理工大学信息与通信工程学院2阿里巴巴集团,中国*通讯作者bychen@mail.dlut.edu.cn,wdice@dlut.edu.cn www.example.com,www.example.com,www.example.compxli@mail.dlut.edu.cn @uu.wsalibaba-inc.com,lhchuan@dlut.edu.cn抽象。在这项工作中,我们提出了一种新的跟踪算法的实时性能的基础上的“演员批评”框架。该框架由两个主要部分组成: 对于离线训练,然后,我们修改了原来的深度确定性的政策梯度算法,以有效地训练我们的对于在线跟踪,据我们所知,这项工作是第一次尝试利用连续的行动和“演员批评”框架的视觉跟踪。广泛的实验结果表明,建议的跟踪器对许多国家的最先进的方法,具有实时性能表现良好。关键词:视觉跟踪,实时跟踪,强化学习1介绍视觉跟踪的目的是定位初始帧中指定的目标,在视频监控、增强现实、行为分析等方面有着广泛的应用尽管已经做了许多努力[1近年来,基于深度学习的跟踪算法显著提高了跟踪性能[4预先训练的卷积神经网络(例如,AlexNet、VGG-16和VGG-M)来获得用于鲁棒跟踪的丰富特征表示。在这些方法中,MDNet跟踪器[5]在流行的基准测试(如OTB-100 [8]和VOT 2015 [9])中实现了顶级性能。2B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆(a)(b)(c)第(1)款图1.一、不同追踪器的搜寻策略。(a)MDNet [5]:随机抽样搜索(b) ADNet [10]:具有一系列离散动作的迭代搜索(三)跟踪器:快速搜索,只有一个连续的行动。该方法将离线训练的VGG-M网络嵌入到粒子滤波框架中,其中随机生成256个候选样本,并且在每帧中使用基于CNN的观测模型来验证每个样本然而,由于随机抽样搜索策略,它非常慢。为了解决这个问题,Yun等人。 [10]提出了一种基于强化学习的跟踪器,带有动作决策网络(ADNet)。该方法采用一系列离散的动作来迭代地搜索每帧中的被跟踪对象。实验结果表明,ADNet跟踪器的性能稍差,但比MDNet方法快三倍。MD-Net和ADNet方法的搜索策略分别在图1(a)和(b)中示出。我们注意到,[10]中的学习迭代策略也远远不能满足实时要求,因为它需要在每个帧中执行许多迭代步骤。在这项工作中,我们开发了一个基于学习的搜索策略与连续的行动的基础上的“演员批评”的这项工作的核心思想是使用“Actor”模型来预测仅一个连续动作,利用强化学习来离线训练用于确定最优动作的良好策略。此外,“批评家”网络充当离线培训和在线跟踪的验证方案。实验结果表明,我们的这项工作的贡献可以总结如下。(1) 我们的工作是第一次尝试利用视觉跟踪的连续行动视觉跟踪被视为一个动态的搜索过程,其中只有一个动作输出的(2) 我们的工作也是第一次尝试发展的“演员批评”跟踪框架。 此外,我们还改进了深度确定性策略算法,实时3梯度算法,有效地训练我们的(3) 该跟踪器与一些国家的最先进的跟踪器使用流行的基准进行比较,实验结果表明,我们的跟踪器取得了良好的效果与实时性能。2相关工作视觉追踪从目标定位的角度来看,视觉跟踪可以被视为一个动态的搜索过程,以准确地定位目标在当前帧的基础上以前的观察。通常,这种动态搜索过程可以通过采样-验证框架来实现。在每一帧中,一组候选状态被随机或密集地采样以描述可能的对象位置[11-13]。然后,观察模型被用来验证每个候选人,并确定跟踪对象的最佳状态然而,对于传统方法[14-17]和深度视觉跟踪器[5,18,19],具有鲁棒观察模型的跟踪器将非常慢,因为它需要计算大量采样样本的验证分数相关滤波器(CF)技术[20]可以加速验证具有循环矩阵结构的密集采样的candidates,从而产生许多具有良好性能的实时跟踪器。已经进行了许多尝试来改进原始CF模型,例如特征组合[21,22],尺度估计[23,24],基于部分的扩展[25,26],多任务学习[27,28],边界效应[29,30],仅举几例。然而,当我们将CF与深度特征相结合以追求更高的准确性时,CF的这种速度优势显着减弱(如HCFT [4],C-COT [31],ECO [7],LSART [32],DRT [33])。此外,可以采用迭代搜索过程来进行视觉跟踪,例如Meanshift [34],Lucas-Kanade [35]及其变体[36这些方法是非常有效的,因为它们仅需要相对小的迭代步骤(而不是大量的采样候选者)来定位每个帧中的被跟踪对象。然而,由于以下两个原因,它们的跟踪精度不令人满意。首先,所采用的低级手工制作的特征限制了它们的性能。其次,他们的搜索策略是基于图像或直方图梯度,而不考虑的高层语义信息。因此,利用深度神经网络研究基于学习的搜索策略可以促进跟踪器 Yun等人[10]开发基于强化学习的ADNet跟踪算法,其中一系列迭代步骤(对应于运动动作)由离线训练的动作决策网络确定。它将相关MDNet方法[5]的速度提高了三倍以上,而不会损失太多的准确性。然而,[10]中的学习迭代策略也远远不能满足实时要求,因为它需要在每个帧中执行许多迭代步骤在这项工作中,我们试图开发一种基于学习的搜索策略,在每个帧中只有一个连续的动作,这将显着加快跟踪方法。强化学习。强化学习(RL)是一种利用试错法的序列学习方法,其目标是生成一个最大化累积未来回报的智能体由于深度神经网络的强大能力,RL技术已应用于许多计算机视觉任务[40最近,有一些4B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆不尝试利用RL技术进行视觉跟踪。在[10]中,Yun等人提出了一种基于RL的动作决策网络,它学习一个好的策略来从动作池中选择一系列动作(包括平移移动,缩放变化和停止的11个候选动作)。然后,跟踪器决定顺序动作,以搜索当前帧中跟踪对象的最佳位置,然后去处理下一帧。在[43]中,Huang等人利用RL学习早期决策策略,用于在跟踪过程中自适应地选择有效特征。基于学习的策略,采取八个离散的动作来决定跟踪器是否将跟踪对象定位在早期层上或继续处理子序列层。该方法可以有效地加速深度跟踪器而不损失准确性,因为它鼓励跟踪器处理具有廉价特征的简单帧,同时仍然处理具有昂贵深度特征的困难帧。在[44]中,跟踪器被建模为主动代理,以在线决定代理是否仍然要在[45]中,RL方法被用于构造模板选择策略,鼓励跟踪器在每帧中从有限的候选模板中选择最佳模板与上述方法不同,我们提出了一种新的3通过“演员-评论家”网络进行的测试3.1概述视觉跟踪的目的是在给定其在第一帧中的初始位置的情况下推断任意对象在每个后续帧中的位置在这项工作中,我们试图在一个新的“演员-评论家”框架内进行跟踪“Actor”模型旨在给出一个连续的动作,以直接使跟踪器将边界框移动到当前帧中的对象位置。它可以通过基于深度强化学习的“Critic”网络进行有效的离线训练。在跟踪过程中,“评论家”模型结合了“演员”产生的动作,以确定动作的质量,并有助于提高跟踪性能。我们的跟踪框架的细节如下所示。3.2问题设置考虑到跟踪作为一个顺序的决策问题,我们的算法遵循马尔可夫决策过程(MDP)。MDP的基本组成部分包括状态s∈S、动作′a∈A,状态转移函数s=f(s,a),报酬r(s,a).在我们的MDP框架中,跟踪器被视为代理,以推断在每帧中跟踪对象 该智能体通过一系列观察s1,s2,...与环境交互 s t,动作a1,a2,..., 并且奖励r1,r2,…Rt. 在第t帧中,智能体根据当前的′状态s_t,并获得跟踪结果为s_t。在这项工作中,动作at被定义为被跟踪对象的相对运动指示其边界框应如何移动实时5′a_conv151107*107*3Qc_fc6_train*51*96a_conv211*11*256a_conv33*3*512a_fc4火车512a_fc5512a_fc6ΔxΔyΔsc_conv1火车c_fc6_test512+3火车c_fc5测试512c_fc4c_conv33*3*512c_conv2测试评分51211*11*25651*51*96107*107*3图二、所提出的跟踪算法的流水线。直接在帧t中。与ADNet [10]不同,我们的跟踪器只需要一个连续的动作来定位跟踪对象,这使得我们的跟踪器更有效。s、a、f(s,a)和r的详细设置如下所示(为了清楚起见,我们在本小节中删除了帧索引t状态在这项工作中,我们将状态s定义为边界框b=[x,y,h,w]内的观察图像块,其中(x,y)是中心位置,h和w分别代表高度和宽度具体来说,我们定义了一个预处理函数s=φ(b,F)来裁剪给定帧F中的边界框b内的图像块,并调整其大小以适合深度网络的输入大小。动作和状态转换。 为了进行连续控制,动作空间被假定为连续的,指示边界框应该如何直接移动。在这里,我们使用动作a =[x,y,s]来描述被跟踪对象的相对运动,其中x和y表示相对水平和垂直平移,s表示相对尺度变化。 考虑到跟踪问题中的时间连续性,我们引入一些约束来限制动作a的范围:−1≤ n x ≤ 1,−1≤∆y≤1且−0。05≤0.05≤0。05. Σ通过将Σ应用于原始动作a′ ′ ′ ′ ′边界框b,新的边界框b=x,y,h,w可以获得′x= x+ ∆x×hy′′=y+∆y×w.(一)Hw′ =h+∆s×h=w+∆s×w′然后,状态转换过程C.如果sΣ=f(s,a)可以通过应用预处理函数φ b,F.在这项工作中,我们尝试使用“演员”模型基于状态s直接推断最佳动作aa=µ(s|θ µ)。µ(. )表示我们的“Actor”模型的深度网络6B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆)的情况。s = s,a =µ(s)µ(s|θ培训策略,然后申请在线跟踪。在实践中,我们利用双边界框方案来构建“演员”模型(即,目标尺寸的两个边界框和具有相同中心位置的两倍目标尺寸的边界框)。奖励 奖励函数r(s,a)描述了定位精度的提高′当将状态S转换为状态S时对于给定的动作a.因此,它可以被定义为′基于新边界框b和地面实况G的重叠比,r( s,a)=.′1,如果IoU(b,G)>0.7−1else、(二)其中IoU表示交集优于并集准则(即,IoU(u,v)=uv/uv(对于边界框u和v)。每一个动作都会产生奖励,然后用于更新离线学习中的深度网络。3.3线下培训网络结构。受最近成功的轻量级深度网络跟踪器的启发,我们使用预训练的VGG-M模型来初始化我们的“Actor”和“Critic”网络。如图2所示,两个网络中都有三个卷积层,这与VGG-M网络的前三个卷积层一致。对于对于离线训练,通过DDPG进行培训。在这项工作中,我们使用DDPG方法[46]训练我们的给定N对′(si,ai,ri,si),′Q学习利用目标网络µ可以通过最小化以下损失来实现,′Q表示学习过程1ΣL=( y -Q(s,a|θQ))2,(3)′′ ′你我我我“µ”Q其中y i= r i+ γQ(si,μ(si|θ)|θ )。然后,关于模型参数从起始分布J1ΣθµJ≈N我.aQ(s,a|公司简介我我)|s=si.(四)在训练迭代期间,我们随机选择一段训练序列[Fk,Fk+1,. . . ,Fk+T]与它们的地面真值[Gk,Gk+1,. . . ,Gk+T](k是起始帧编号,T是帧长度)。之后,我们申请′我们的跟踪器在所选择的序列中以获得帧t处的训练对(st,at,rt,st)。µ实时7算法1离线训练输入:训练序列[F]及其对应的地面实况[G]输出:“Actor”网络的训练权重初始化“Critic”Q(s,a)和“Actor”µ(s|(1)以(1)和(2)为权重。′初始化目标网络Q初始化重放缓冲区R重复′和µ′权重θQ′←θQ,θµ←θµ随机选择一段帧[F k,F k+1,. . .,F k+T]与它们的基础事实[Gk,Gk+1,. . . ,G k+T]根据Fk和Gk接收初始观测状态sk利用s1训练对于每个t= 2,T+ 1做1. 根据状态st−1和Fk−1+t得到状态st2. 选择操作at= µ(st|θ µ)根据现行政策和勘探概率;3. 根据Eq. 1,观察奖励rt,如等式2和′下一个状态st′4. 将转换(st,at,rt,st)存储在R端′对来自R的N个转换(si,ai,ri,si)的随机小批量进行通过最小化以下等式的损失来更新3更新'Actor' µ(s|θ μ)使用以下等式的采样策略梯度:4更新目标网络:′θQ← τθQ+(1− τ)θQ′′’(5)θµ← τθµ+(1− τ) θµ直到奖励变得稳定培训过程改进。直接应用原始DDPG框架来训练我们的模型是不可行的,因为在我们的跟踪问题中动作空间非常巨大因此,我们试图从以下两个方面改进培训过程。(1) 由于巨大的动作空间,当智能体对给定的视频片段遵循随机探索策略时,很难获得正奖励。这将使DDPG方法在训练我们的模型时效率降低为了解决这个问题,我们利用第一帧的监督信息来初始化即通过自适应矩估计方法对1min MΣMm=1[µ(s m|θ µ)− a m]2,(6)其中M是训练样本的数量,μ(. |θ µ) denotes the ‘Actor’ network with parameter θµ. S,m是第m个采样状态,并且A,m表示其地面实况动作。8B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆不m=1m=1Mm=1(2) 上述初始化方案不能完全解决正样本和负样本的不平衡问题,因为存在许多导致跟踪漂移的不可预测的挑战。因此,我们利用专家的决定来指导学习过程。原始′DDPG算法引入了探索策略µ 通过添加从噪声过程N到执行者策略µ(s t)=µ(s t|θ µ)+N。然而,这种类似的探索机制是不适合我们的跟踪任务,由于巨大的行动空间。因此,我们采用一种概率专家决策指导来代替探索强化学习的机制。在视频序列中,以一定的概率,应用专家决策指导来替换由“Actor”网络输出的动作概率在训练过程中逐渐减小。我们的'Actor'网络可以通过DDPG方法进行有效的离线训练,并进行了上述两项改进。算法1中总结了整个训练过程。3.4在线跟踪网络初始化。为了使我们的跟踪器进一步适合当前序列,我们在第一帧中使用地面真实值初始化对于“Actor”,我们首先对M个候选边界框进行采样|M地面实况并计算其相应的 精确动作|M各地. 然后我们使用预处理提取候选位置Bm的图像观测值Sm函数sm=φ(bm,F)(定义见3.2节)。因此,使用Adam方法进行微调,以最小化L2损失1ΣMm=1[µ(sm|θ µ)-a m]2。对于在线跟踪,“批评者”模型v(s|是一个分类网络。为了初始化它,我们使用以下规则将二进制标签lm分配给第m个候选者,.lm=1 如果IoU(b,m,G)>0.7,(7)0其他其中G表示地面实况边界框。使用收集的图像-标签对{s m,lm}|M,下面的损失函数,Σarg min−θνs∈S+p+(s|ν;θν)−Σs∈S− p−(s|ν; θ ν),(8)其中S+和S-分别表示正和负训练集“Critic”网络工作输出用于地面和背景的概率p +(s|v;θv)和p−(s|v;θv)。通过“Actor-Critic”进行测试。 对于在线跟踪,我们在跟踪和验证方案内利用“Actor”和“Critic”网络工作。e. 在第eΣt帧中,我们首先计算使用预处理函数φ′bt−1,Ft′(bt−1 表示最优t-1帧中的对象位置,F是图像帧)。第二,我们把国家st进入“Actor”网络, a t= µ(s t|θ µ)。与′ ′如果我们将at和位置bt−1代入,我们可以得到新的位置bt及其对应的实时9′在c u中陈述st。rrentfΣrame.然后,我们利用′vation,即,v′S t|θ ν.如果“评论家”网络给出的分数′将动作at视为可靠,并将位置bt作为最佳位置第t帧。否则,我们利用一个重新检测技术使用为了评估一系列采样的候选项B m|M′围绕B(与抽样tm=1t−1′网络初始化中的策略)。之后,获得最佳位置bt作为候选人与最高分输出的网络更新。一个有效的更新策略可以帮助我们的跟踪器在鲁棒性和效率之间取得很好的平衡。由于我们的离线训练,“Actor”模型在跟踪过程中具有稳定的如果“Critic”给出的验证分数小于0,我们认为它与当前环境中的外观变化不太吻合,并使用在前10帧中收集的3.5实现细节样品属。离子。为了在离线和在线跟踪两个阶段中跟踪网络我们采样Xi= xi,yi,zi,i = 1,. . . ,N(X和y是水平和垂直平移)。tt不不(z表示尺度)从高斯分布c. 由对象Σ位置输入在帧t-1中。协方差是一个对角矩阵, 0的情况。09d2,0. 09d2,0. 25、哪里d是被跟踪对象的宽度和高度的平均值。离线训练为了离线训练我们的我们在视频中随机选择连续的20到40帧用于每次迭代。 为了在第一帧中初始化“Actor”网络,我们收集了32个样本,这些样本的IoU分数大于0。7 .第一次会议。在初始化阶段,学习速率被设置为1 e-4。采用专家决策的可能性被设置为0。5,每一万次迭代后减少5%。我们每一万次迭代更新一次目标网络。目标网络更新中的τ被设置为0.001。“Actor”和“Critic”网络的学习率此外,我们使用的重放缓冲区大小为104。经过25万次迭代,我们完成了“演员”网络的训练在线跟踪。对于在线跟踪,我们在第一帧中收集500个阳性样本和5000个阴性样本,其中地面真实。只有正样本用于训练我们以学习率1 e-4初始化“Actor”网络,“Actor”和“Critic”模型的批大小分别为64和128。当所有候选目标的最高前景得分的预测目标位置小于0时,我们认为它是跟踪失败,并进行重新检测,以捕获错过的目标。我们抽取了256个样本用于重新检测方案。同时,我们从每个成功的跟踪帧中收集50个阳性样本和150个10B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆ACT(Ours)SiameFCECO-HC KCFPTAV图三. 我们的ACT方法和其他跟踪器对一些具有挑战性的序列(ClifBar,Girl2,Matrix,MotorRolling,Skiing,Walking2)的定性结果。4实验我们的跟踪器是在Python中使用Pytorch框架实现的,它在具有3.4GHz CPU和32G内存的PC上以30 fps的速度运行,并且具有12G内存的TITAN GPU我们的ACT方法的网站可在https://github.com/bychen515/ACT上获得。为了清楚起见,我们基于“演员-评论家”网络的跟踪器我们使用标准跟踪基准(如在线跟踪基准(OTB)[8,48]和2016年视觉对象跟踪挑战(VOT2016)[49])将我们的跟踪器与许多最先进的跟踪器进行一些代表性目视结果如图3所示4.1OTB评价在本小节中,我们使用OTB-2013 [48]和OTB-2015 [8]数据集评估我们的跟踪器建议的跟踪器与10个国家的最先进的跟踪器进行了比较,具有真实的实时11时间性能包括PTAV [50]、CFNet [51]、ACFN [52]、SiameFC [6]、ECO-HC [7]、LCT [53]、LMCF [54]、U型钉[22]、DSST [55]和KCF [20]。前四算法采用来自CNN的特征描述符,而其余的方法基于传统的手工特征。在这项工作中,我们采用精度和成功的情节来评估不同的跟踪器。精度曲线图示出其中对象位置与地面实况之间的中心位置误差小于预定义阈值的帧的百分比。而成功图展示了预测的和地面实况边界框的交集对并集(IOU)的帧的百分比高于给定比率。跟踪器可以在精度图中以20像素阈值的准确度和在成功图中以曲线下面积(AUC)得分进行OTB-2013。我们首先使用OTB-2013数据集[48]与十种竞争方法进行比较,评估我们的跟踪器。该数据集是最受欢迎的基准之一,包括50个完全注释的视频序列,具有11个各种挑战性因素,如快速运动,遮挡,照明变化,运动模糊和背景杂波。这些属性可以帮助理解我们的跟踪器的特性图4(a)示出了0 TB- 2013中50个序列的精度和成功图。从这个图中,我们可以看到,我们的ACT方法在精度方面实现了最佳性能,在成功方面实现了第二好的结果。这些出色的结果部分归功于CNN特征的强度,这使得我们的跟踪器与低级手工制作的特征相比,有效地描绘了被跟踪对象的外观。与使用深度网络的CFNet,SiameFC和ACFN方法相比,由于所提出的用于确定准确动作的学习方案,我们的ACT算法仍然具有更好的性能。表1总结了OTB-2013中11个具有挑战性的属性的不同跟踪器的平均精度得分。从该表可以看出,我们的ACT方法在处理大多数挑战方面表现得更好。ECO-HC和PTAV也取得了良好的性能,由于改进的相关滤波器技术或显式组合的跟踪器和验证器。OTB-2015。Wu等人。 [8]将OTB-2013数据集扩展为50多个视频,表示为OTB-2015。OTB-2015数据集为评估在线跟踪算法带来了更多挑战图4(b)报告了OTB-2015中结果表明,所提出的跟踪器仍然是非常与其他方法相比具有竞争力。4.2VOT2016评测此外,我们报告了VOT2016数据集[49]的评价结果,该数据集包含60个具有实质性变异的序列。与OTB数据集不同,在VOT挑战协议中,每当跟踪失败时初始化。评估模块报告准确性和鲁棒性两者,分别对应于总边界框重叠率和失败次数。VOT2016挑战赛引入了预期平均重叠(EAO)作为对跟踪算法进行排名的新指标。它反映了算法的准确性,同时考虑了鲁棒性。我们的算法与七个跟踪器进行了比较,这些跟踪器都加入了VOT2016挑战。我们报告的平均精度和鲁棒性排名的所有跟踪器在12B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆10.90.80.70.60.50.40.30.20.10OPE的精密度图10.90.80.70.60.50.40.30.20.10OPE的成功图05101520253035404550定位误差门限00.10.20.30.40.50.60.70.80.91重叠阈值10.90.80.70.60.50.40.30.20.10OPE的精密度图(a) OTB-201310.90.80.70.60.50.40.30.20.10OPE的成功图05101520253035404550定位误差门限00.10.20.30.40.50.60.70.80.91重叠阈值(b) OTB-2015见图4。OTB-2013(a)和OTB-2015(b)数据集。我们可以看到,我们的ACT方法比其他竞争对手的跟踪器性能更好表1.不同属性的平均精度分数:照明变化(IV)、平面外旋转(OPR)、比例变化(SV)、遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、视野外(OV)、背景杂乱(BC)和低分辨率(LR)。最好的和第二好的结果分别是红色和蓝色IVSVOCC DEFMBFM知识产权OPROVBCLRAVACT(我们的)0.855 0.910 0.871 0.882 0.806 0.805 0.867 0.889 0.788 0.915 0.873 0.905PTAV [50] 0.848 0.837 0.902 0.892 0.815 0.805 0.853 0.894 0.853 0.880 0.615 0.894ECO-HC [7] 0.793 0.838 0.913 0.863 0.777 0.797 0.801 0.862 0.883 0.816 0.666 0.874ACFN [52] 0.793 0.813 0.856 0.902 0.709 0.719 0.814 0.870 0.788 0.783 0.429 0.860LCT [53]0.792 0.758 0.845 0.873 0.664 0.665 0.802 0.850 0.728 0.796 0.352 0.848LMCF [54] 0.783 0.775 0.844 0.869 0.714 0.730 0.779 0.826 0.695 0.848 0.555 0.842SiameFC [6] 0.709 0.796 0.802 0.743 0.698 0.723 0.743 0.788 0.780 0.732 0.659 0.809CFNet [51] 0.728 0.799 0.758 0.759 0.705 0.691 0.762 0.785 0.500 0.806 0.619 0.807钉书钉[22] 0.741 0.733 0.787 0.812 0.688 0.643 0.773 0.773 0.679 0.753 0.550 0.793DSST [55] 0.730 0.738 0.706 0.658 0.544 0.531 0.768 0.736 0.511 0.694 0.479 0.740KCF [20]0.728 0.679 0.749 0.740 0.650 0.602 0.725 0.729 0.650 0.753 0.381 0.740ACT [0.905]PTAV [0.894]ECO−HC [0.874]ACFN [0.860]LCT [0.848]LMCF [0.842]澳门银河[0.809]CFNet [0.807]吻合钉[0.793]KCF [0.740][0.740]PTAV [0.663]ACT [0.657]ECO−HC[0.652]LCT [0.628]LMCF [0.628]CFNet [0.611]澳门银河[0.607]ACFN [0.607]吻合钉[0.600][0.554]KCF [0.514]ACT [0.859]ECO−HC [0.856]PTAV [0.848][0.795]LMCF [0.788]吻合钉[0.784]澳门银河[0.771]LCT [0.762]CFNet [0.748]KCF [0.696][0.680]精度ECO−HC [0.643]PTAV [0.634]ACT [0.625]澳门银河[0.582]吻合钉[0.581]LMCF [0.580]ACFN [0.571]CFNet [0.568]LCT [0.562][0.513]KCF [0.477]精度成功率成功率实时13表2.此外,EAO指标也显示在该表中,该表给出了所有跟踪器的顺序如表2所示,我们的ACT方法也获得了非常有竞争力的结果。C-COT和MLDF方法比我们的ACT方法执行得更好,然而,它们仅运行不到2fps。表2. VOT2016中准确度(A)、稳健性(R)和预期重叠(EAO)的总体排名得分跟踪器C-COT [31] MLDF ACT(我们的)MDNet-N SiamAN SO-DLT [56] KCFDSST精度1.872.772.251.632.372.232.982.60稳健性2.081.953.472.553.433.983.874.45EAO0.33100.31060.27460.25720.23520.22130.1924 0.18144.3分析自我比较。为了验证我们算法中每个组件的贡献,我们实现了我们方法的几个变体,并使用OTB-2013对其进行评估这些版本包括:(1)'ACT-vgg':ACT方法不需要预先训练,简单地采用VGG-M模型的初始参数来初始化“Actor”网络;(2)“ACT-rl”:没有强化学习过程的ACT方法;(3)“ACT-init”:(4)“ACT-ex”:用ACT方法代替传统DDPG方法中的专家决策指导,通过常规的探索来实现。图5中报告了所有变体和我们的最终ACT的性能,从中我们可以看出,所有组件都有助于提高跟踪性能。例如,“ACT-rl”和最终ACT方法的比较表明,强化学习过程可以有效地学习一个好的策略,The ‘ACT-rl’ method cannot learn the actionpolicy 我们注意到,没有离线训练的与ADNet [10]和MDNet [5]相比。 我们注意到最相关的追踪器我们的ACT方法的最佳实例是ADNet [10]和MDNet [5],因为它们采用VGG-M模型作为基本网络结构,但具有不同的搜索策略。详细比较报告见表3。MDNet方法在准确性方面表现最好,但由于随机抽样搜索策略,运行速度ADNet跟踪器利用迭代搜索策略,在每帧中具有很少的离散动作,其快速版本可以实现15fps,与MDNet相比损失约3%的准确度我们的ACT方法的表现略差于ADNet跟踪器,并实现了与ADNet-fast相当的精度。然而,我们的跟踪器运行速度为30fps,是ADNet-fast的两倍,是原始ADNet的十倍以上。这可以主要归因于所采用的连续动作,其在每帧中仅使用一个动作来定位被跟踪对象。14B. Chen,中国粘蝇D.Wang,P.Li,S.Wang,H.陆10.90.80.70.60.50.40.30.20.10OPE的精密度图10.90.80.70.60.50.40.30.20.10OPE的成功图05101520253035404550定位误差门限00.10.20.30.40.50.60.70.80.91重叠阈值图五、对于我们算法的不同变体,OTB50上的精度和成功图。表3. 我们的ACT跟踪器与OTB中的ADNet [10]和MDNet [5]方法的比较。方法ACT(我们的)ADNet [10] ADNet-fast [10] MDNet [5]预处理(20 px)在OTB-20130.9050.9030.8980.948OTB的IOU(AUC)0.6570.6590.6700.708预处理(20 px)在OTB-20150.8590.8800.8510.909OTB的IOU(AUC)-0.6250.6460.6350.678FPS3031515结论本文提出了一种基于强化学习的“演员-评论家”跟踪方法。The ‘Actor’ model actsas an action decision network to generate an optimal action 与现有算法相比,该方法在每帧中只需要一个连续的动作,因而效率很高对于离线训练,“评论家”网络与“演员”网络集成以构建“演员-评论家”框架,该框架可以有效地对于在线跟踪,类似的大量的实验表明,所提出的跟踪算法实现了更好的性能比许多国家的最先进的实时跟踪器。谢谢。 本论文得到了国家自然科学基金部分资助#61751212,#61502070,#61725202,#61771088,#61472060,#61632006,#91538201,部分由中央大学基础研究基金资助#DUT18JC30。这项工作也得到了阿里巴巴集团通过阿里巴巴创新研究(AIR)计划的支持。引用1. Yilmaz,A.,Javed,O. Shah,M.:对象跟踪:一个调查。ACM Computing Surveys38(4)(2006)ACT [0.905]ACT−rl [0.876]ACT−ex [0.861]ACT−init [0.849]ACT−vgg [0.787]精度ACT [0.657]ACT−rl [0.639]ACT−ex [0.616]ACT−init [0.577]ACT−vgg [0.550]成功率实时152. Li,X.,胡伟,Shen,C.,张志,迪克,A.R.,van den Hengel,A.:视觉对象跟踪中外 观模 型研 究综 述ACM Transactions on Intelligent Systems and Technology4 ( 4)(2013)58:13. Li,P.,Wang,D.,中国科学院,Wang,L.,美国,Lu,H.:深度视觉跟踪:综述和实验比较儿子模式识别76(2018)3234. 马,C.,Huang,J.B.,杨,X.,Yang,M.H.:用于视觉的分层卷积特征跟踪. In:ICCV. (2015年)5. Nam,H.,汉,B.:视觉跟踪的多域卷积神经网络学习。在:CVPR中。(2016年)6. 贝尔蒂内托湖Valmadre,J.,Henriques,J.F.,Vedaldi,A.,Torr,P.H.:用于对象跟踪的全卷积连体网络。In:ECCV. (2016年)7. Danelljan,M.,Bhat,G.,Khan,F.S.,Felsberg,M.:ECO:用于跟踪的高效卷积算子。在:CVPR中。(2017年)8. 吴,Y.,Lim,J.Yang,M.:对象跟踪基准。IEEE Transactions on Pattern Analysis andMachine Intelligence37(9)(2015)18349. 克里斯·坦,M.,Matas,J.,Leonardis,A., Felsbe r g,M., Ceh o vin,L., Fern a'ndez,G.,Vo j 'ı r,T.,H ¨ ge r,G., Nebeha y,G.,普夫卢格费尔德河P.:视觉对象跟踪VOT2015挑战结果。In:ICCV. (2015年)10.Yun,S.,崔,J.,Yoo,Y.Yun,K.,Choi,J.Y.:基于深度强化学习的视觉跟踪行动决策网络在:CVPR中。(2017年)11. Grabner,H.,Bischof,H.:在线增强和视觉。在:CVPR中。(2006年)12.地方检察官罗斯Lim,J. Lin,R.,Yang,M.:鲁棒视觉跟踪的增量学习。国际计算机视觉杂志77(1-3)(2008)12513. Babenko,B.,杨,M.,Belongie,S.J.:具有在线多实例的鲁棒目标跟踪学习IEEE Transactions on Pattern Analysis and Machine Intelligence33(8)(2011)161914.Jia,X.,吕,H.,Yang,M.:基于自适应结构局部稀疏表观模型的视觉跟踪。在:CVPR中。(2012年)15.Zhong,W.,吕,H.,Yang,M.:基于稀疏协同外观模型的鲁棒目标跟踪。IEEETransactions on Image Processing23(5)(2014)235616. Hare,S.,Golodetz,S.,Saffari,A.,Vineet,V.,Cheng,M.,Hicks,S.L. Torr,P.H.S.:被击中:使用内核的结构化输出跟踪。IEEE Transactions on Pattern Analysis and MachineIntelligence38(10)(2016)209617. Li,Z.,张杰,张,K.,李志: 用加权自适应局部稀疏ap进行通过时空上下文学习的行为模型IEEE Transactions on Image Processing27(9)(2018)447818. 王,N.,Yeung,D.:学习用于视觉跟踪的深度紧凑图像表示于:NIPS。(二零一三年)19.Li,H.,李,Y.,Porikli,F.:DeepTrack:通过卷积神经网络学习区分特征表示,用于视觉跟踪。在:BMVC. (2014年)20.Henriques,J.F.,Rui,C.,Martins,P.巴蒂斯塔,J.:使用核相关滤波器的高速跟踪。IEEE Transactions on Pattern Analysis and
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功