基于迭代移位的深度强化学习视觉跟踪方法

197 浏览量更新于2023-10-13 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于迭代移位的深度强化学习视觉跟踪任亮亮1，*，袁欣1，*，陆继文1，†，杨明2，周杰11 2清华大学; 地平线机器人公司{renll16，yuanx16}@ mails.tsinghua.edu.cn;{lujiwen，jzhou}@tsinghua.edu.cn;ming. horizon-robotics.com抽象。视觉跟踪面临的困境是既准确又有效地定位目标，并在线决定是否以及如何调整外观模型，甚至重新开始跟踪。在在本文中，我们提出了一种用于单目标跟踪的具有迭代移位的深度强化学习（DRL-IS）方法，其中引入了演员-评论家网络来预测对象边界框的迭代移位，并评估移位以采取是否更新对象模型或重新初始化跟踪的行动。由于定位对象是通过迭代移位过程实现的，而不是在许多采样位置上进行在线分类，因此所提出的方法对于处理大变形和突然运动是鲁棒的，并且由于找到目标需要多达10次移位，因此计算效率高。在离线训练中，评论家网络指导学习如何以端到端的方式联合做出关于运动估计和跟踪状态的决策。在具有大变形的OTB基准上的实验结果将跟踪精度提高了1.7%，并且比竞争的最先进的方法快约5倍关键词：视觉目标跟踪，强化学习，演员-评论家算法1介绍视觉对象跟踪（VOT）的目的是在视频序列中有效地定位目标，经过几十年的深入研究，由于变形、突然运动、遮挡和照明，这在无约束应用中仍然是一个具有挑战性的问题[5，10，20，36，41，42，51]。本质上，VOT需要解决3个关键问题：1）如何表示目标，即观察模型;2) 如何有效地利用运动平滑性假设来定位下一帧中的目标; 3）如何在线更新跟踪模型，如果需要的话，以处理动态场景。外观模型已经从强度模板[19]，颜色直方图[14]和稀疏特征[4]发展到由CNN模型提取的主要深度特征[47]因此，自然地，跟踪可以被公式化为*表示平等捐款。†通讯作者。2任亮亮，袁欣，陆继文，杨明，周杰(a) 基于分类的方法（b）基于迭代移位的方法图1：使用分类（左列）与迭代移位（右列）：跟踪快速移动的车辆（第一排）和跟踪具有大变形的跳水运动员（第二排）。给定初始框（绿色），基于分类的方法对许多建议进行采样，选择具有最高分类得分的框（红色），并收集阳性（黄色和红色）和阴性样本（蓝色）以在线微调分类器在这些困难的场景中，可能没有足够的相比之下，所提出的迭代移位跟踪逐步地调整边界框以定位目标（例如，目标）。车辆3个步骤，运动员2个步骤），并通过强化学习正式决定何时以及如何更新对象模型移位过程通常倾向于更有效，因为与基于分类的方法相比，更少的候选区域分类或检测和关联问题[35]使用CNN分类器。即使是强大的观测模型也可能无法捕获目标的所有可能变化，并且需要在跟踪期间实时更新。然而，在线分类器学习可能容易受到在硬场景中具有模糊标签的样本的影响，例如变形、快速运动和遮挡等。，从而如果t. 存储器管理的检测仅基于图像的运动状态和跟踪状态，即：，是否以及如何更新观测模型，甚至在必要时重新启动跟踪这些确实是在线追踪期间做出的艰难决定为了解决上述问题2和3，我们引入了深度增强学习过程，以在VO T中对大量的存储器和存储器的存储器进行局部处理。很多人都在美国，我。e. 在这种情况下，对对象绑定的块的实现和捕获是通过预先确定的网络来实现的高效执行。跟踪者的状态、如何更新观测模型以及是否停止和重新开始跟踪由行动者网络确定。提出的方法被称为深度强化学习（DRL-IS），它不依赖于对象的模型，DRL-IS视觉跟踪3估计和当前跟踪状态。预测和演员网络是从由评论家网络引导的大量训练视频序列离线学习的，关于如何在给定当前帧和先前目标位置和表示的情况下采取动作。该方法利用强化学习作为学习如何在跟踪期间做出决策的原则性方法，因此，它在处理诸如变形或突然运动之类的困难情况时特别鲁棒，其中更新模型或停止并重新启动可能是明智的动作。相比之下，现有方法ADNet [52]，EAST [21]和POMDP [44]采用强化学习来分别估计运动或对跟踪状态做出决策。此外，如图1，迭代地估计跟踪结果，而不是对许多候选位置执行CNN分类，从而导致有效的计算。本文的主要贡献在于两个方面：1）我们提出了一个Actor- Critic网络来预测对象运动参数并根据跟踪状态选择动作，其中不同动作的奖励根据其影响专门设计;2）我们将对象跟踪描述为迭代移位问题，而不是对可能的边界框进行CNN分类，从而有效准确地定位目标所提出的DRL-IS特别能够处理具有大变形和突然运动的对象，因为运动参数由预测网络迭代地估计和累积我们的跟踪器在OTB 2015基准测试中实现了0.909的距离精度和0.671的重叠成功率，在Temple-Color 128基准测试中实现了0.812的距离精度和0.590的重叠成功率，与最佳性能相当，并且比竞争的最先进的方法快约52相关工作视觉跟踪在视频序列中如何表示和定位目标，并在必要时在线调整观察模型，针对识别任务预先训练的深度神经网络在跟踪中描绘对象外观方面也往往是有效的，例如：[10][12][13][14][15][16][17][18][为了找到当前帧中的目标，假设运动模型对一些候选位置进行采样，如卡尔曼滤波器[1]或粒子滤波器[22，38]中那样。然后，可以在数百个这些位置上评估观察模型，作为MOSSE [5]和KCF [20]中的相关滤波，或者作为判别分类[11]或回归问题[16]，这在计算中是有要求的。或者，观察模型可以允许逐渐地和迭代地计算或搜索候选位置，如在光流[14]或均值漂移跟踪[9]中，这通常是有效的，因为仅检查几个位置这促使我们提出迭代移位过程，其中预测网络4任亮亮，袁欣，陆继文，杨明，周杰t−1以迭代的方式调整目标位置，并且评估神经网络的次数少得多在跟踪期间可能需要更新观察模型以跟随目标的变化外观，例如，通过收集阳性和阴性样本[24]或袋[3]以进行在线学习[50]。跟踪器必须在何时以及如何更新观察模型方面做出非常艰难的决定对于一些困难的场景，如变形，遮挡和突然的运动，一方面，没有任何模型更新，跟踪器可能会失去目标，另一方面，由于一些模糊或错误的标签，跟踪器可能会漂移到杂乱的背景后，在线更新。在这些困难但并不罕见的情况下，明智的决定可能是停止跟踪并求助于对象检测或其他方法来重新初始化，而不是盲目和无声地漂移。这一基本问题需要一个正式的决策程序跟踪。深度强化学习[2，6，7，23，26，29，33，34，40]是一种学习如何在线做出决策和选择动作的原则性paradig-m，它在Atari游戏[34]，搜索注意力补丁[7]以及查找对象[29]和视觉关系[40]中取得了巨大的成功。最近，强化学习已被用于跟踪[21，25，44，52，53]，例如。动作决策网络[52]，用于生成寻找目标对象的位置和大小的动作，或者决策策略跟踪器[44]，通过使用强化学习来决定在即将到来的帧中查看哪里在本文中，我们扩展到学习如何共同推导出目标运动，并作出决定的跟踪器的状态，由一个新的和统一的演员评论家网络。3方法所提出的具有迭代移位的深度强化学习（DRL-IS）方法涉及三个子网络：1）演员网络，2）预测网络和3）评论网络，它们共享卷积层和一个全连接层（fc 4），如图所示。二、在下面的小节中，我们详细阐述了用于跟踪的DRL- IS的制定3.1基于迭代移位的视觉跟踪我们制定视觉对象跟踪作为一个迭代移位问题。给定当前帧和先前的跟踪结果，预测网络Φ迭代地移动候选边界框以定位目标，同时，动作器网络θ对跟踪状态做出决定，是否更新目标表示和预测网络，或者甚至重新开始跟踪。形式上，给定视频V={I1，I2，...，IN}，其中It是第t帧。跟踪器通过裁剪目标来初始化，其中l1={x1，y1，w1，h1}为第一帧及其外观由特征F1表示，即，得双曲余切值.如果C4Layer的输出位于该共享网络中，则将其存储在该共享网络中。在l*=的trakingreults中DRL-IS视觉跟踪5t−1t−1t−1t−1行动者网络FC5FC6继续停止更新帧t停止忽略重启输入FC91024*100 100*4FC10conv1conv2fc7fc8conv3FC45125123*3*51211*11*25651*51*96100*11032*100评论家网络107*107*3共享层100*41024*100预测网络图2：DRL-IS跟踪方法概述给定目标的初始包围盒，我们首先从fc 4层提取深度特征f∈R1<$512然后，我们将候选框f的特征和当前目标特征f∈R1 512连接起来。我们使用预测网络ψ生成移位δ，并使用演员网络θ。对于动作的继续，我们根据ψ的输出δ来调整目标的包围盒。对于动作停止和更新，我们停止迭代并更新目标的外观特征和ψ的参数，而对于动作停止和忽略，我们跳过更新。当采取动作重新开始时，目标可能会丢失，因此我们重新采样为初始边界框。在训练阶段，我们使用一个深度评论者网络，用δ估计当前动作的Q值，并对预测网络ψ和行动者网络θ进行{xt−1，yt−1，wt−1，ht−1}和f*，我们首先提取ftofIt cropped byl*得双曲正弦值.利用预测网络Φ来预测目标在frames，它取ft和f作为输入：δ=ψ（ft，f*）的情况。（一）我们将预测网络的输出表示为δ={∆x，∆y，∆w，∆h}：∆x=（xt−xt−1）/wt−1，∆y=（yt−yt−1）/ht−1，∆w=log（wt/wt−1），∆h=log（ht/ht−1），（2）其中，xmax和xyy指定边界框的尺度不变平移，xmax和xh指定边界框相对于前一帧的宽度和高度的对数空间平移[17]。当目标快速运动或变形时，很难一步准确估计目标的运动和形状变化。因此，预测网络迭代地输出边界框的调整因此，神经网络在等式1中的每个步骤的It和δk处的Kt次二是积累。这种迭代移位过程比在数百个边界框上运行分类网络要快得多。6任亮亮，袁欣，陆继文，杨明，周杰t−1t−1t−1t−1不不t−1不不t−1同时，跟踪状态也可能影响结果，例如，如果需要，实时更新预测网络为了对目标的当前状态和目标的当前状态共同做出决策，我们使用动作n或k θ根据多项式分布来生成动作a1、a2、· · ·、ak、· · ·、a K t：Σp（a）|st，k）= π（st，k|θ），p（ai|s（t，k）= 1，（3）我其中ak∈ A={继续，停止更新，停止忽略，重新开始}，并且初始状态st，0={It，lt，0，f*}包含图像It，初始位置lt，0=l*，和外观特征f*，和π（st，k|θ）从演员网络θ。对于动作continue（继续移动而不更新模型），请按步骤k，移位δk=ψ（ft，k，f*）由预测网络ψ生成。ft，k是从作物lt，k中提取的。目标的位置lt，k根据δk迭代更新，其中lt，k−1。对于动作stopupdate（停止移位并更新模型），我们停止迭代，取l*=lt，Kt作为对象的位置，并更新目标的特征和预测网络的参数ψ，f*=ρft，K +（1−ρ）f、（四）ψt=ψt−1+μEs，a Q（s，a，δ|φ）δ、（五）∂δ ∂ψ其中ρ是权重系数，因为等式(5)是跟踪中的常见实践，允许目标特征演变为当前和先前表示的加权和当量(6)是更新预测网络的在线学习规则，因此μ是适当的学习率。Q（s，a，δ）是批评网络φ的输出，并在等式中定义。11.该动作指示可靠的跟踪，足够自信以更新目标表示和模型。对于动作stop&ignore（停止移位而不更新对象特征），我们停止迭代并将l*=lt，k作为对象的位置，并继续跟踪下一帧中的目标，其中外观特征f*和预测网络ψ没有更新。该动作指示目标被找到，但是跟踪器不确信更新模型，例如，，如果存在运动模糊或遮挡。对于动作restart（重新开始跟踪），我们通过重新采样来重新开始迭代l*周围的候选块Lt的随机集合在It中，然后选择修补程序其具有最高的Q值，其在Eq.12根据IoU目标，作为初始位置：lt，0=argma*xs={It，l，ft−1}，l∈LtQ（s，a =停止&更新，δ = 0 |φ）。（六）该动作表示跟踪器暂时丢失目标并采取广泛搜索以重新初始化跟踪的情况。图3呈现了跟踪中的示例动作序列预测和演员网络以统一的方式制定运动估计和跟踪状态变化不DRL-IS视觉跟踪7在强化学习中采取行动的方式。然而，学习这些神经网络需要为每种类型的行为专门设计奖励3.2DRL-IS中神经网络的训练在本小节中，我们详细介绍了通过深度强化学习从大量标记的视频序列中训练预测，演员和评论家网络的过程。注意，预测网络是离线预训练的，而在在线跟踪期间，预测和行动者网络都由行动者-评论者方法联合更新。学习预测网络：预测网络根据连续帧中的对象位置和特征来估计给定帧中的对象的迭代移位。我们以端到端的方式预训练卷积神经网络网络架构：如示于图2，预测网络使用三个卷积层在预训练期间从目标块和当前候选框中提取特征。然后将特征连接并馈送到两个完全连接的层中以产生估计位置平移和缩放变化的参数网络输入：我们从每两帧之间的序列中采样成对的作物来馈送网络。第一次裁剪是前一帧中的对象位置，第二次裁剪是当前帧中的相同位置。作物被填充有与对象尺度的固定比率，这在我们的实验中凭该网络接收一对被扭曲成107× 107像素的作物，并估计两个相邻帧之间的运动δ网络预培训：我们没有提取区域proposals的特征并对边界框进行回归，而是训练一个完全端到端的网络来直接学习位置平移和变形。我们通过采样多个样本进行数据增强，这些样本具有靠近目标边界框的尺度变化，然后在当前帧中创建作物。使用标记的视频帧和这些增强的样本，预测网络的训练促进以较少的迭代步骤定位目标。DRL-IS与Actor-Critic：我们利用演员-评论家算法[28]来联合训练三个子网络θ，ψ，φ。首先，我们根据跟踪性能定义奖励动作的奖励以δt，k继续，由调整边界框的IoU而不是IoU定义。rt，k=1个IoU≥0−<∆IoU<，（7）−1∆IoU≤−8任亮亮，袁欣，陆继文，杨明，周杰不J其中，k>0，并且kIoU计算为：∆=g（l*，l）−g（l*，l），g（l，l）=li∩ lj.（八）IOU不t，k不t ，k−1ijli∪lj对于停止更新和停止忽略操作，奖励由最终预测的IoU和地面事实定义为了鼓励以较少的迭代停止跟踪，正奖励与迭代次数Kt有关。我们将l*作为对象的位置，奖励计算如下：10/Ktg（l*，lt，K）≥0。7ttrt，K=00。4≤ g（l*，lt，K）≤ 0. 7 .第一次会议。（九）ttt−5其他对于动作重启，考虑到高计算成本，当最终预测和地面事实的IoU小于0.4时，奖励为正的重新启动。−1g（l*，lt，K）≥0。7ttrt，K=00。4≤ g（l*，lt，K）≤ 0. 7 .第一次会议。（十）ttt1其他然后定义每个动作的Q值的计算。动作continue和其他动作的Q值有很大的不同，因为continue的奖励是基于IoU的增量，而其他动作是基于IoU评估的跟踪性能。作用连续δt，k的Q值计算如下：ΣKtQ（s，a，δt，k）=γ（i-k）rt，i.（十一）I=k动作stopupdate、stopignore、restart的Q值计算如下：Q（s，a，δt，k= 0）=ΣNj=tγj−trj，k.（十二）当量(12)对当前帧中的步骤k上的奖励求和，而等式（1）(13)对时间步长t上的奖励求和。方程中Q值的不同计算的原因是：(12)和等式(13)动作“继续”在帧T中定位具有当前模型的目标，而其它动作涉及基于先前跟踪性能来决定是否停止跟踪。最后，我们将φ和θ的优化问题公式化如下：φ= argminL（φ）= Es，a（Q（s，a|φ）−r−γQ（s′，a′，|φ−））2，（13）φθ= argminJ（θ）= −Es，alo g（π（a，s|θ））A（s，a）.（十四）θs′is thenex tstateanda′=argmax aQ（s′，a|φ−）。Action-值A（s，a）和d值函数V（s）计算如下：A（s，a）=Q（s，a|φ）−V（s），（15）DRL-IS视觉跟踪9不... 帧t帧t+1帧t+1帧t+2 ...继续21001停止更新10停止忽略重启帧t帧t+1帧t+1图3：关于由行动者网络跟踪状态改变的动作的说明性示例; 1）在It处，通过两个连续的动作和一个在u r f *&t处的距离fe和相应地在w或kφ之间的预确定的更新的数据动作容易地定位目标; 2）在It+1处，首先，继续动作跟踪到附近的分心者，然后跟踪器发现这一点并采取重新开始动作以重新初始化跟踪; 3）移位过程在It+1处重新开始，具有继续动作，目标被发现但尺度不可靠，并且然后停止&忽略动作返回结果但不更新目标特征f*V（s）=Esπ（s，a|θ−）Q（s，a|φ−），（16）其中φ−是目标网络，它与φ具有相同的架构，但每10次迭代才更新一次。有关再学习的详细信息，请参阅[37]。我们更新评论者网络φ和演员网络θ的参数如下：φ=φ−µφθ=θ−µθL（φ）、（十七）∂φJ（θ） .（十八）∂θ算法1总结了所提出的方法的学习。4实验为了验证所提出的方法，我们对流行的对象跟踪基准[48，49]，Temple-Color 128 [31]和VOT-2016 [30]进行了实验，并与最近的最先进的跟踪器进行了比较。4.1数据集和设置我们在标准基准上进行了实验：OTB-2015、Temple-Color 128和VOT-2016。OTB-2015 [49]包含100个视频序列，其中每个视频都用地面实况边界框进行了完全注释。Temple-Color 128包含128个颜色序列。这两个数据集上的视觉对象跟踪的挑战性属性包括照明变化（IV）、尺度变化（SV）、遮挡（OCC）、变形（DEF）、运动模糊（MB）、运动模糊10任亮亮，袁欣，陆继文，杨明，周杰不算法一：DRL-IS中的网络训练输入：训练集：V ={Vi}，ψ，收敛误差1，最大迭代次数M。输出：φ、θ和θ1：初始化φ和θ;2：对于所有m = l，2，. . . ，M do3：随机选择一个视频V;4：使用第一帧中的地面实况初始化外观特征f和11. .，N do6：使用θ生成动作a;7：whilea==continue do8：使用ψ计算δ;9：调整It=It+δ10：使用θ生成动作a; 11：end while12：更新ψ，f*或根据a重新开始;13：结束14：计算Jt（θ）和Lφ;15：更新演员网络θ和评论家网络φ;16：如果l >1，|Jt（θ）−Jt−1（（θ））|+的|Lt（φ）−Lt−1（（φ））|<1然后第17章：回去18：如果结束19：结束20：返回θ、ψ和φ;快速运动（FM）、平面内旋转（IPR）、平面外旋转（OPR）、视野外（OV）、背景杂波（BC）和低分辨率（LR）。我们遵循这些基准测试的标准评估指标。我们使用具有距离精度度量和重叠成功图度量的一次通过评估（OPE），其中每个跟踪器用地面实况位置初始化，直到每个序列结束。具体地，重叠成功率测量预测的边界框与地面实况边界框之间的重叠，并且距离精度度量是其中来自地面实况的估计的位置中心误差小于给定距离阈值的帧的百分比。在我们的实验中，我们将所有跟踪器的阈值距离设置为20像素。VOT-2016数据集由300多个视频中的60个具有挑战性的视频组成。在我们的实验中的准确性（与地面实况重叠）和鲁棒性（故障率）方面的性能注意，在VOT-2016数据集上，跟踪器在失败的情况下由地面实况重新启动。4.2实现细节我们使用Pytorch库在Python中实现了我们的跟踪器。在配备英特尔酷睿i7 3.4GHz CPU和24GB RAM的PC上进行了实施，并在GeForce GTX1080 Ti GPU上训练了深度神经网络DRL-IS视觉跟踪1111GB VRAM在我们的设置中，建议的跟踪器在这两个基准上每秒运行约10帧[48，49]。预测网络：预测网络有三个卷积层，由在ImageNet [15]上预训练的VGG-M [8]网络初始化。接下来的两个完全连接的层具有512和100个具有ReLU激活的输出单元。输出全连接层有4个输出单元与tanh激活相结合。演员评论网：演员网络有两个完全连接的层，100和4个输出单元，具有ReLU激活。评论者网络类似于演员网络，但最后一层只有一个输出单元。当前和候选特征被连接作为这两个网络的输入。我们使用Adam优化器[27]，学习率为0.0001，折扣为β（设置为0.95）来训练演员-评论家网络。我们通过使用从VOT-2013，VOT-2014和VOT-2015 [30]中随机采样的序列来训练我们的演员-评论家网络，其中排除了与OTB和Temple-Color重叠的每个帧的最大动作数设置为10，每个片段的起始帧是随机选择的。结束操作由最后5个预测边界框与一个序列的总帧的真实边界框相比的平均IoU比率来确定如果平均IoU低于0.2或在序列结束时，我们终止事件并更新模型。我们对网络进行了总共50，000集的训练，直到收敛。在VOT-2016数据集上，我们使用Ima-geNet作为我们的tacker的训练集进行了实验由于训练集上的每个对象仅具有一个帧（静态图像），因此我们在等式（1）中将γ12、去掉了停止忽略的动作。4.3结果和分析定量评估：我们对OTB- 2015数据集、Temple-Color数据集和VOT-2016数据集进行了定量评估OBT-2015数据集。我们将我们的方法与最先进的跟踪器进行了比较，包括CREST [43]，ADNet [52]，MDNet [36]，HCFT [32]，SINT[45]，DeepSRDCF [12]和HDT [39]。图 4显示了不同跟踪器在精度和成功率方面的性能，基于OTB-2015上的中心位置误差和重叠率。我们还评估了OTB-2015数据集上不同跟踪方法的性能和处理速度（fps）总体而言，我们的跟踪器在精度和成功率方面表现良好，同时运行速度为10.2 fps，比最先进的跟踪器MDNet（Pytorch实现中为2.1fps）快5倍我们的跟踪器的一个变体只有两个动作类型，稍后显示运行速度更快，精度可接受的权衡我们还分析了我们的跟踪器的性能为每个序列标记的三个不同的我们在8个主要视频属性下计算距离精度度量的OPE。如图5、我们的跟踪器显示所有属性的竞争结果。具体而言，变形属性的有效性取决于预测网络根据捕获目标外观12任亮亮，袁欣，陆继文，杨明，周杰10.90.80.70.60.50.40.30.20.10OPE的精密度图MDNet [0.909]我们的[0.909]ADNet [0.880]深度SRDCF [0.851]HDT [0.848]冠[0.838]HCFT [0.837]SINT [0.789]0 10 20 30 4050定位误差门限10.90.80.70.60.50.40.30.20.10OPE的成功图MDNet [0.678]我们的[0.671]ADNet [0.646]深度SRDCF [0.635]冠[0.623]SINT [0.592]HDT [0.564]HCFT [0.562]0 0.2 0.4 0.6 0.8 1重叠阈值图4：通过在OTB-2015数据集上使用一次通过评价的所有序列的精度和成功率[49]。图例包括每个跟踪器OPE的成功图-快速运动（34）1OPE-变形的成功图（40）1OPE成功图-量表变异（55）10.90.90.90.80.80.80.70.70.70.60.60.60.50.40.30.20.10.50.40.30.20.10.50.40.30.20.100 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.8 1重叠阈值图5：OTB-2015变化对于尺度变化，我们的跟踪器仍然表现良好，这表明我们的预测网络对目标对象的尺度变化具有鲁棒性。我们的跟踪器在所有三个挑战中的表现都优于ADNet [52]，ADNet也是一种基于深度强化学习的跟踪器。主要原因是我们的预测网络可以根据策略网络学习到的动作进行调整同时，停止忽略和停止更新动作可以指导跟踪器是否更新目标特征，避免了长期跟踪中我们在快速运动中也获得了类似的性能，其中MDNet [36]和我们的跟踪器都受益于卷积特征和重新检测过程。然而，使用重新检测的帧占MDNet [36]的总帧的百分比很高，导致更多的计算。模板颜色数据集。我们在包含128个视频的Temple-Color数据集上评估了我们的方法。图图7示出了基于中心位置误差和重叠率的不同跟踪器在精度和成功率方面的性能C-COT跟踪器[13]和MEEM[54]达到0.781和0.706的平均距离精度分数我们的方法改进了一个显著的标记-我们的[0.671]MDNet [0.666]ADNet [0.657]深度SRDCF [0.652][0.642]SINT [0.577][0.576]HDT [0.574]我们的[0.631]MDNet [0.614]ADNet [0.610]深度SRDCF [0.569]冠[0.557]HDT [0.551]SINT [0.540]HCFT [0.536]我们的[0.652]MDNet [0.634]ADNet [0.633]深度SRDCF [0.604]顶部[0.570]SINT [0.556]HDT [0.486]HCFT [0.484]成功率精度成功率成功率成功率DRL-IS视觉跟踪13图7：精确度和成功图我们的MDNet ADNetCREST所有序列通过使用一遍求值图6：我们对Temple-Color数据集的定性评估。图例跟踪器MDNet[36]，ADNet [52]包含7个具有挑战性的核心的平均距离精度s-和CREST [43]以及曲线下的面积得分对每个跟踪器进行表1：在VOT-2016数据集上与最先进方法在鲁棒性和准确性排名方面的比较（越低越好）基线MDNet N DeepSRDCF钉MLDF SSAT TCNN C-COT DRL-IS稳健性5.755.925.704.234.604.182.922.70精度4.634.884.236.173.424.224.853.60杜松子酒，得分为0.818。在图中的成功图中。7，我们的方法还实现了1的显著绝对增益。与最先进的方法C-COT相比，曲线下面积评分降低2%VOT-2016数据集。表3显示了我们的方法与VOT-2016挑战中前5名竞争追踪器如表1所示，我们在VOT-2016数据集上使用最先进的方法获得了具有竞争力的准确性和鲁棒性排名我们的方法取得了良好的效果，在准确性方面，同时保持了较低的失败率，这归因于决策的运动估计和跟踪状态的指导下，强化学习。注意MDNet N是MDNet的变体，它不使用其他跟踪数据集预训练MDNet N也像我们的方法一样使用ImageNet初始化我们的DRL-IS提高了MDNet N的性能，这表明我们的跟踪器在不使用跟踪序列作为训练数据的情况下具有良好的通用性定性评价：图6显示了最佳执行视觉跟踪方法的定性比较，包括MDNet [36]，ADNet [52]，CREST [43]和我们在7个挑战序列上的方法。我们的跟踪器在所有序列中对这些方法进行了比较此外，没有其他方法是能够跟踪目标的CarScale序列，而我们的跟踪器成功地定位目标，以及估计规模的变化。原因有两个：1）我们的方法通过迭代地调整对象的边界框来考虑由变形和背景杂波（Bird 1、Soccer和Freeman 4）引起的外观变化; 2）利用深度强化学习自适应地更新对象和模型的特征，以考虑外观变化。14任亮亮，袁欣，陆继文，杨明，周杰表2：在OTB-2015数据集上，DRL-IS的不同消融变体在距离精度和重叠成功图上的比较变体移动（22fps）Shift+IS（15fps）DRL-IS（10.2fps）预处理（20px）0.8220.8870.909IOU（AUC）0.5930.6510.671不同部件的消融研究：为了显示我们的跟踪器的不同组件的影响，我们通过将预测网络与不同类型的策略组合集成来开发我们的跟踪器的三个变体，并对OTB-2015进行评估。这些参数变化如下：1）“S h i f t“是基线跟踪器，其仅包含一个基于预训练的预处理器k的模块; 2）“S h i f t + I S“是预处理器k的预处理器k，其中hich是由两种操作类型（continue和stopup）引导的;以及3）“D R L- IS“ 是我们的最终模型，其由完整的操作类型（continue、restart、stop ignore和stop update）表2显示了O T B - 2015 d上各变量的距离精度和over-lap空间使用率。“Sh if t”跟踪器只能获得基于深度卷积特征的一步移位，这不能很好地执行，因为在跟踪期间模型没有更新，并且在将距离保持为零的情况下可能失败。“Sh i f t + IS”可实现迭代移位，并根据由行动者网络学习的策略更新模型，其比基线跟踪器的性能好6倍。5%和5。7%的产品已售出并售出。此外，“D R L-IS”将所有动作与预测网络合并，并实现8. 7%和2。2%的百分比形式分别增加了“S高”和“S高+IS”变化的百分比形式5结论在本文中，我们提出了一个DRL-IS方法的视觉跟踪，这表明强化学习是一种有效的方法来建模的艰难决策过程的跟踪，即。同时执行运动估计和改变跟踪状态。新的迭代移位由深网络比在线分类更有效地定位目标，并且很好地处理视频中存在变形或运动模糊的情况。在3个公开数据集上的实验验证了该方法在跟踪鲁棒性和效率方面的优势。确认这项工作部分得到了中国国家重点研究与发展计划（2017YFA0700802）的支持，部分得到了中国国家自然科学基金（61672306、U1713214、61572271）的支持，部分得到了深圳市基础研究基金（课题安排）（JCYJ2017041217）的支持0602564.DRL-IS视觉跟踪15引用1. 新罕布什尔州阿里Hassan，G.M.：卡尔曼滤波跟踪第99集9.2 The Father（2014）2. Ammar，H.B.，Eaton，E.，Ruvolo，P.，泰勒，M.：策略梯度方法的在线多任务学习。在：ICML。pp. 12063. Babenko，B.，Yang，M.H.，Belongie，S.：具有在线多实例学习的视觉跟踪。在：CVPR中。pp. 9834. 鲍角吴，Y.，Ling，H. Ji，H.：使用加速近端梯度方法的实时鲁棒l1跟踪器。在：CVPR中。pp. 18305. Bolme，D.S.，贝弗里奇，J.R.，德雷珀，文学士，吕耀明：使用自适应相关滤波器的视觉目标跟踪。在：CVPR中。pp. 25446. 凯西多JC Lazebnik，S.：使用深度强化学习进行主动目标定位。In：ICCV.pp.24887. 曹Q.林，L.，施，Y.，梁湘，李，G.：通过深度强化学习实现注意感知的人脸幻觉。在：CVPR中。pp. 6908. Chatfield，K.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：魔鬼在细节中的回归：深入研究卷积网络。02 The Dog（2014）9. Comanicu，D.，Ramesh，V.，Meer，P.：利用均值漂移对非刚性物体进行实时跟踪。在：CVPR中。pp. 14210. 崔志，Xiao，S.，冯杰，Yan，S.：循环目标跟踪。在：CVPR中。pp. 144911. 当我们在一起时，M.， H g e r，G.， Khan，F. 美国， Felsberrg，M. ：Discrimivesa ce跟踪。TPAMI（8），156112. Danelljan，M.，Hager，G.，Shahbaz Khan，F.，Felsberg，M.：学习用于视觉跟踪的空间正则化相关滤波器In：ICCV.pp. 431013. Danelljan，M.，Robinson，A.，Khan，F.S.，Felsberg，M.：超越相关滤波器：学习用于视觉跟踪的连续卷积算子。In：ECCV. pp. 四七二488. Springer（2016）14. Decarlo，D.，Metaxas，D.：可变形模型的光流约束及其在人脸跟踪中的应用。IJCV（2），9915. Deng，J.，Dong，W.，索赫尔河Li，L.，Li，K.，Li，F.：Imagenet：一个大规模的分层图像数据库。在：CVPR中。pp. 24816. 高，J.，Ling，H.胡伟，Xing，J.：基于迁移学习的高斯过程回归视觉跟踪。In：ECCV.pp. 18817. Girshick，R.B.，Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，准确的对象检测和语义分割.在：CVPR中。pp.第58018. Gordon，D.，Farhadi，A.，Fox，D.：Re3：用于对象跟踪的实时递归回归网络。CoRR（2017）19. Hager，G. D.，Belhumeur，P.N.：利用几何和照明的参数化模型进行有效的区域跟踪。TPAMI（10），102520. Henriques，J.F.，卡塞洛河Martins，P.巴蒂斯塔，J.：核化相关滤波器的高速跟踪。TPAMI（3），58321. 黄，C.，Lucey，S.，Ramanan，D.：深度特征级联自适应跟踪的学习策略。In：ICCV.pp. 10522. Isard，M.，布莱克，A.：用于视觉跟踪的冷凝条件密度传播，（1998）。IJCV pp.5-2823. 杰，Z.梁湘，冯杰，Jin X卢伟，Yan，S.：用于顺序对象定位的树结构强化学习在：NIPS。pp. 12724. Kalal，Z.，Mikolajczyk，K.，Matas，J.：跟踪-学习-检测TPAMI（7），140916任亮亮，袁欣，陆继文，杨明，周杰25. Kamalapurkar河安德鲁斯湖Walters，P. Dixon，W.E.：无限时域近似最优跟踪的基于模型的强化学习。TNNLS（3），75326. Karayev，S.，Baumgartner，T.，Fritz，M.，达雷尔，T.：及时识别物体。在：NIPS。pp. 89927. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法CoRR（2014）28. Konda，V.R.，Tsitsiklis，J.N.：演员-评论家算法。在：NIPS。pp. 1008-1014（2000年）29. 孔，X. Xin，B.，王玉，Hua，G.：用于联合对象搜索的协作深度强化学习。在：CVPR（2017）30. Kristan，M.，妈妈，J。， Leonardis，A.， Voj´ıˇr，T.， Pf lug felder，R.， Fernanddez，G.，别这样G Pori k li，F.， Cˇehovin，L. ：一种针对单目标跟踪器的新方法。TPAMI（11），213731. Liang，P.，Blasch，E.，Ling，H.：编码用于视觉跟踪的颜色信息：算法和基准。TIP（12），563032. 马，C.，Huang，J.B.，杨，X.，Yang，M.H.：用于视觉跟踪的分层卷积特征。In：ICCV.pp. 307433. Mathe，S.，Pirinen，A.，Sminchisescu，C.：视觉对象检测的强化学习。在：CVPR中。pp. 289434. Mnih ， V. ， Kavukcuoglu ， K. ， Silver ， D. ， Rusu ， A.A. ， Veness ， J. ，Bellemare，M.G.格雷夫斯，A.，Riedmiller，M.，Fidjeland，A.K.，Ostrovski，G.，等：通过深度强化学习实现人级控制

下载后可阅读完整内容，剩余1页未读，立即下载