基于深度强化学习的视觉跟踪决策网络

82 浏览量更新于2023-10-15 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1……基于深度强化学习的视觉跟踪决策网络Sangdoo Yun1 Jongwon Choi1 Youngjoon Yoo2 Kimin Yun3 and Jin Young Choi11ASRI，Dept.电气与计算机工程系韩国首尔国立大学2韩国首尔国立大学融合科学技术研究生院3韩国电子通信研究院（ETRI）{yunsd101，i0you200，jychoi}@ snu.ac.kr，gmail.com @kimin.yun etri.re.kr摘要本文提出了一种新的跟踪器，它是通过顺序追求深度强化学习学习的动作与现有的使用深度网络的跟踪器相比，所提出的跟踪器被设计为实现轻计算以及在位置和规模上令人满意的跟踪精度。控制动作的深度网络使用各种训练序列进行预训练预训练通过利用深度强化学习以及监督学习来完成。强化学习的使用使得即使是部分标记的数据也能够成功地用于半监督学习。通过OTB数据集的评估，所提出的跟踪器被验证为实现比最先进的基于深度该方法的快速版本在GPU上实时运行，性能优于最先进的实时跟踪器。1. 介绍视觉跟踪是计算机视觉领域的基本问题之一。由于运动模糊、遮挡、光照变化和背景杂波等跟踪障碍的存在，目标物体的定位是很困难的。传统的跟踪方法[17，42，7，15，13]使用低级手工制作的特征来跟踪目标对象。虽然它们实现了计算效率和相当的跟踪性能，但由于它们的特征表示不足，它们在解决上述障碍方面仍然受到限制。最近，已经提出了使用卷积神经网络（CNN）的跟踪方法[35，14，24]，用于在丰富特征表示的帮助几种算法-图1：所提出的视觉跟踪的概念控制的顺序行动。第一列显示了目标的初始位置，第二列和第三列显示了在每帧中找到目标边界框的迭代动作流。由所提出的方法选择的顺序动作控制跟踪器在每帧中迭代地将初始边界框（蓝色）移动到目标边界框rithms [35，14]在ImageNet [26]等大规模分类数据集上利用预训练的CNN。然而，由于分类和跟踪问题之间的差距，预先训练的CNN不足以解决困难的跟踪问题。Nam等人[24]提出了一种检测跟踪算法，使用[40，20]等跟踪视频数据集训练CNNs，并实现了与传统跟踪器更好的性能兼容性。然而，这种方法通常侧重于提高使用外观模型区分目标和背景的能力，因此可能忽略以下问题：（1）探索感兴趣区域并通过与跟踪模型匹配来选择最佳候选者的低效搜索算法，以及（2）需要大量标记的跟踪序列用于训练并且不能利用未标记的跟踪序列。在半监督情况下的帧。2711……2712在这项工作中，为了解决上述问题，我们提出了一种新的跟踪器，通过建议的行动决策网络（ADNet）控制的重复行动来跟踪目标的变化所提出的视觉跟踪的基本概念如图1所示。ADNet旨在生成动作，以在新帧中找到目标对象的位置和大小。ADNet学习选择最佳行动的策略，以从其当前位置的状态跟踪目标。在ADnet中，使用卷积神经网络[4]设计策略网络，其中输入是在先前状态的位置处裁剪的图像块，输出是包括平移和尺度变化的动作的这种动作选择过程的搜索步骤比滑动窗口或候选采样方法少[31，24]。此外，由于我们的方法可以通过选择动作来精确定位目标，因此不需要边界框回归等后处理[24]。我们还提出了一种监督学习（SL）和强化学习（RL）的组合学习算法来训练ADNet。在SL阶段，我们使用从训练视频中提取的在这一步中，网络学习在没有顺序信息的情况下跟踪一般对象。在RL阶段，SL阶段中的预训练网络我们通过跟踪模拟使用由采样状态，动作和奖励组成的训练序列来执行RL。该网络使用基于策略梯度的深度强化学习进行训练[38]，使用跟踪模拟期间获得的奖励。即使在训练帧被部分标记的情况下（半监督情况），所提出的框架也通过根据跟踪模拟的结果分配奖励来成功地学习未标记的帧。2. 相关工作2.1. 视觉对象跟踪正如[41，29]中所调查的那样，各种跟踪器在各种跟踪基准上显示了其性能和有效性[20，18，40]。基于跟踪的方法-by-Detection [10，11，1，17]旨在构建区分目标与周围背景的判别分类器。通常，这些方法通过使用分类器检测最匹配的位置来捕获目标位置。提出了在线提升方法[10，11]，以在线方式更新判别模型提出了多实例学习（MIL）[1]和跟踪学习检测（STO）[17]方法来更新对噪声具有鲁棒性的跟踪模型。基于相关滤波器的跟踪方法[2，7，13，15，5]由于其计算效率和竞争性能而引起关注这种方法学习傅立叶域中的相关滤波器具有低计算负荷。Bolme等人[2]提出了一种最小输出平方误差和（MOSSE）滤波器，Henriques等. [13]提出了具有多通道特征的核相关滤波器（KCF）。Hong等人[15]提出了采用短期相关跟踪器和长期记忆存储器的组合系统。Choi等人[5，6]提出了综合跟踪系统来处理具有注意力机制的各种类型的相关滤波器为了克服手工特征的不充分表示，在相关滤波器中使用了深度卷积特征[8，9]，这些滤波器已经实现了最先进的性能。然而，由于它们需要训练各种尺度滤波器来处理尺度变化并计算深度特征，因此它们比传统的基于尺度滤波器的方法慢得多。最近，已经提出了基于CNN的方法[36，21，22，34，14，35，31，24，12]来学习跟踪模型。早期的尝试[36，21，22]在训练他们的网络时遇到了数据不足的为了解决数据不足的问题，通过在大规模分类数据集（如ImageNet [26]）上利用预训练的CNN提出了转移方法[14，35]然而，由于目标分类和跟踪域之间的差距，这些方法仍然存在局限性。最近提出的方法[31，24，12]通过用大量跟踪视频数据集[40，20，29]训练其网络来Held等人[12]提出了利用深度回归网络捕获目标位置的跟踪算法但是，该方法没有在线更新过程，在目标运动过快或发生遮挡时难以跟踪目标。Tao等人[31] Namet al. [24]提出了通过检测进行跟踪的方法，该方法使用经过训练的CNN区分目标和周围背景，并成功实现了最先进的然而，这些方法[31，24]需要计算效率低下的搜索算法，例如滑动窗口或可扩展采样。2.2. 深度强化学习强化学习（RL）的目标是学习一种策略，通过最大化累积的未来奖励来决定顺序动作[30]。RL领域的最新趋势[23，32，28，27]是通过表示RL模型（如值函数或策略）将深度神经网络与RL算法相结合。通过诉诸深层特征，许多困难的问题，如玩Atari游戏[23]或Go [27]可以在半监督设置中成功解决此外，还提出了几种方法来解决计算机视觉问题，例如通过采用深度RL算法进行对象定位[3]或动作识别[16在深度RL算法中有两种流行的方法-2713状态转换−1conv1conv2conv3fc4 fc5fc6行动3*3*51251211*11*25651*51*96512 +信心=（，）112*112*3+1个fc7 2=（，）+1个+1个……图2：拟议网络的架构。虚线表示状态转换。在该示例中，选择“向右移动”动作来捕获目标对象。重复该动作决策过程，直到确定每个帧中目标的位置。Rithms：深度Q网络（DQN）和策略梯度。DQN是一种使用深度神经网络进行函数逼近的Q学习形式。DQN的目标是通过最小化时间差误差来学习由深度网络给出的状态-动作值函数（Q）[23]。基于DQN算法，提出了各种网络架构，如双DQN [32]和DDQN[37]，以提高性能并保持稳定性。策略梯度方法通过使用梯度下降相对于预期的未来回报优化深度策略网络来直接学习策略。Williams等人[38]提出的REINFORCE算法简单地使用即时奖励来估计策略的价值。Silver等人[28]提出了一种确定性算法，以提高高维动作空间中策略梯度的性能和有效性。在Silveret al. [27]，表明在采用策略梯度之前使用监督学习预训练策略网络可以提高性能。在跟踪问题中，我们用监督学习来训练所提出的网络，以学习目标对象的外观特征，并使用策略梯度方法用强化学习来训练跟踪目标的动作动力学。3. 动作控制的跟踪方案3.1. 概述视觉跟踪解决的是从当前位置到新帧中目标的位置。所提出的跟踪器动态追求的目标，得到由图2所示的决策网络（ADNets）控制的顺序行动（细节是在第3- tion3.2）。所提出的网络预测的行动，以追逐目标从当前跟踪器的位置。跟踪器由当前状态的预测动作移动，然后从移动的位置预测下一个动作。通过在测试序列上重复此过程，我们解决目标跟踪问题。ADNet通过监督学习（第4.1节）和强化学习（第4.2节）进行在实际跟踪期间，进行在线调整（第4.3节）。3.2. 问题设置基本上，我们的跟踪策略遵循马尔可夫决策过程（MDP）。MDP由状态s∈ S，动作a∈ A，状态转移函数s′=f（s，a）和报酬r（s，a）定义.在我们的MDP公式中，跟踪器被定义为一个代理，其目标是捕获具有边界框形状的目标。该动作被定义在一个离散的空间和一个序列的动作和状态是用来迭代地追求在每个帧中的结果边界框的位置和大小。在每一帧中，智能体决定顺序动作，直到确定目标状态表示包括目标的边界框处的外观信息和先前的代理通过决定代理是否成功跟踪对象来接收帧l的最终状态的奖励。状态和动作分别表示为s t，l和a t，l，其中t = 1，...， T 1且l = 1，…，其中T1是帧1处的终端步骤，并且L表示视频中的帧的数量。第1帧中的终端状态被转移到下一帧，即，s1，l+1：=sT1，l.在下文中，除了章节4.2和4.3之外，为了简单起见，当我们描述每个帧中的MDP时，我们省略了下标l行动上动作空间A由11种动作组成，包括平移动作、缩放变化和停止动作，如图3所示。平移移动包括四个方向的移动，{左，右，上，下}，也有他们的两倍大的移动。比例变化被定义为两种类型，{按比例放大，按比例缩小}，其保持跟踪目标的纵横比。每个动作都由11维向量编码，具有one-hot形式。…跟踪序列…2714，r（sT）被分配，.平移移动比例变化停止图3：我们方法中定义的操作。r（sT）=1，如果IoU（b T，G）> 0。7-1，否则，（三）状态状态 st 被定义为元组（ pt ， dt ），其中pt∈R112×112×3表示边界框内的图像块（下面我们简称为“块”），dt∈R 110表示由包含第t次迭代的前k个动作的向量（下面称为“动作动态向量”）表示的动作动态.块pt由4维向量bt=[x（t），y（t），w（t），h（t）]指向，其中（x（t），y （t））表示中心位置，w（t）和h（t）分别表示跟踪框的宽度和高度。在帧图像F中，迭代t处的块pt被定义为，pt=φ（bt，F），（1）其中φ表示预处理函数，该函数在bt∈R4处从F裁剪补丁pt，并调整其大小以匹配我们的网络的输入大小。动作动力学向量dt被定义为级联的过去k个动作向量。我们将过去的k个动作存储在动作动态向量dt= [k（a t−1），.，其中，[k（a t−k）]表示one-hot编码函数。令k= 10，dt具有110维，因为每个动作向量具有11维。状态转换函数。在状态st中判定出动作at后，由状态转移函数fp（·）和动作动力学函数fd（·）得到下一个状态 st+1. 贴片转移函数定义为 bt+1=fp （ bt ，at），它通过相应的动作来移动贴片的位置离散移动量定义为：其中α为0。在我们的实验中。例如，如果动作被选择，面片bt+1m的位置移动到[x（t）−<$x（t），y（t），w（t），h（t）]和[x（t），y（t），w（t）+x（t），h（t）+y（t）]。其他动作以类似的方式定义。动作动力学函数定义为dt+1=fd（dt，at），表示动作历史的过渡。当“停止”动作被关闭时选定后，我们确定当前帧中目标的补丁位置，代理将获得奖励，然后将结果状态转移到下一帧的初始状态。奖励奖励函数被定义为r（s），因为代理通过状态s获得奖励，而不管动作a如何。在帧中的MDP中的迭代期间，奖励r（st）保持为零在终止步骤T处，也就是说，T是其中IoU（bT，G）表示具有交并准则的目标的终端贴片位置bT和地面真值G的重叠比。跟踪分数zt被定义为终端奖励，zt=r（sT），其将用于在强化学习中更新模型。3.3. 行动决策网络预训练的VGG-M模型[4]用于初始化我们的网络。像VGG-M这样的小CNN模型[4]在视觉跟踪问题上比深度模型[24]更有效。如图2所示，我们的网络有三个卷积层{conv 1，conv 2，conv 3}，它们与VGG-M网络的卷积层相同。接下来的两个全连接层{fc 4，fc 5}与ReLU和dropout层组合，每个层都有512个输出节点。fc5层的输出与具有110维的动作动态矢量dt连接。最后一层{fc 6，fc 7}分别预测给定状态的动作概率和置信度得分第i层的参数用wi表示，整个网络参数用W表示.fc6层有11个输出单元，并与softmax层相结合，表示条件动作概率分布p（a|s t; W）对于给定的状态。概率p（a|s t; W）表示在状态s t中选择动作a的概率。如图2所示，所提出的网络迭代地追踪目标位置。智能体依次选择动作并更新状态，直到确定目标的位置在振荡情况下，通过选择停止动作或下降来达到最终状态例如，当顺序动作被获得为{左，右，左}时，发生中断情况，这意味着代理返回到先前的状态。具有两个输出单元的置信层（fc7）产生针对给定状态st的目标和背景类的概率。目标概率p（目标|s t;W）被用作跟踪器在s t处的置信度得分。置信度分数用于跟踪期间的在线自适应（第4.3节）。4. ADNet培训在本节中，我们将介绍ADNet的培训框架。首先，在离线方式下，ADNet使用训练视频通过监督学习（第4.1节）和强化学习（第4.2节）进行预训练，目的是学习跟踪一般对象。在监督学习中，所提出的网络被训练来预测适当的动作，一个给定的状态。在强化学习中，通过对网络进行跟踪模拟来更新所2715Jl=1l=1JJ训练序列和利用动作动态。在预训练ADNet之后，对网络应用在线自适应（第4.3节），以适应跟踪测试序列期间目标的外观变化或变形。在第4.4节中，描述了训练ADNet的实现细节。框架#160框架#190帧#2204.1. 用监督学习训练ADNet在监督学习阶段，网络参数W SL，{w 1，...，#21077;，是经过训练的。我们首先需要生成训练样本来训练ADNet（WSL）。训练样本由图像块{pj}、动作标签{o（act）}，类标签{o（cls）}。在这个阶段，行动迪-图4：Walking2序列上半监督情况红框和蓝框分别表示地面实况和预测目标在该示例中，仅帧#160、#190和#220被注释。通过连续的动作，智能体在帧#190处获得+1奖励，在帧#220处获得-1奖励。因此，来自帧j j#161到#190在#191和#220之间将是+1和-1。不考虑namics，我们设置动作动力学向量dj为零。训练数据集提供视频帧和地面实况补丁位置和大小。通过将高斯噪声添加到地面真值来获得样本补丁pj，并且由y分配对应的动作标签o（act）o（act）=ar gmaxIoU（f<$（pj，a），G），（4）补充资料中描述了使用RL训练ADNet的详细算法在训练迭代期间，我们首先随机选取一段训练序列{F l} L和地面真理{G l} L。然后，我们通过跟踪模拟与地面真理注释的训练图像序列进行强化学习。一跟踪仿真可以生成一组顺序状态其中G是地面真值补丁，f<$（p，a）表示由动作a从p修改的补丁。类标签o（cls）对应于Pj的定义如下，.{st，l}、相应的动作{at，l}和奖励对于时间步长t= 1，.，T1和帧索引l= l，… L. 状态st，l的动作a t，l由下式赋值a t，l=argmax p（a|s t，l; W RL），（7）o（cls）=1、如果IoU（pj，G）>0。七（五）0，否则，请执行以下操作。其中p（a）t，l|st，l一）表示条件动作概率。训练批次具有一组随机选择的训练样本{（pj，o（act），o（cls））}m。ADNet（WSL）经过训练当跟踪模拟完成时，跟踪得分{zt，l}用地面真值{Gl}计算。跟踪模拟中的得分z=r（s）是在时间t处的奖励j j j=1t，l我，我通过随机最小化多任务损失函数梯度下降多任务损失函数通过如下最小化损失LSL来定义，在帧l处，对于跟踪成功，其获得+1，对于跟踪失败，其获得-1，其被定义为Eq.（三）、通过利用跟踪分数，网络参数WRL为LSL=1ΣmM j=1L（oj（act），oj（act））+1ΣmM I=jL（oj（cls），oj（cls）），通过随机梯度上升[38]更新以如下最大化预期跟踪分数，（六）ΣL联系我们Tl对数p（at，l|st,l;WRL）兹特湖（八）其中m表示批量大小，L表示交叉熵loss，并且oj（act）和oj（cls）分别表示由ADNet预测的动作和类。4.2. 用强化学习训练ADNet在强化学习阶段，网络参数WRL，（{w1，.，W6}），除了FC 7层被训练之外。本节中使用RL训练ADNet旨在通过策略梯度方法改进网络[38]。初始RL网络WRL具有与SL（WSL）训练的网络相同的参数。动作动态dt在每次迭代中通过累积最近的k个动作并以先来先出策略移动它们来更新。由于RL的目的是学习状态-动作策略，因此我们忽略了跟踪阶段所需的置信奖励：-1奖励：+12716公司简介L我们的框架可以训练ADNet，即使部分地给出了基础事实{G1}，这意味着如图4所示的半监督设置。监督学习框架不能学习未标记帧的信息，而强化学习可以以半监督的方式使用未标记帧。为了在RL中训练ADNet，应该确定跟踪分数{z t，l}，然而，不能立即确定未标记序列中的跟踪分数。相反，我们将跟踪分数分配给从跟踪模拟结果中获得的奖励在其他工作中，如果在未标记序列期间的跟踪模拟的结果在标记帧处被评估为成功，则跟踪得分不2717我我k=l−J+1L对于未标记的帧，由zt，l= +1给出。如果不成功，则zt，l被赋值为-1，如图4所示。4.3. 追踪中的在线适应所提出的网络在跟踪期间以在线方式更新。这种在线自适应可以使跟踪算法对外观变化或变形更具鲁棒性。更新ADNet时，我们修复卷积滤波器{w 1，w 2，w 3}并微调全连接层{w 4，.，因为卷积层将具有通用跟踪信息，而全连接层将具有视频特定知识。建议的跟踪和在线自适应方案的详细程序在供应材料中描述。跟踪是通过用状态-动作概率p（a）决定顺序动作来执行的|s; W）。我们采用[24]的在线更新适应在线自适应是通过使用跟踪过程中生成的时间训练样本进行监督学习来微调ADNet 对于监督学习，需要带有标签的训练样本。为了标记，我们必须确定基本事实。由网络确定的跟踪的补丁位置用于时间地面实况。与SL（第4.1节）类似，用于在线自适应的训练样本集S由在跟踪的块位置周围随机采样的图像块{pi}以及对应的动作标签{o act}和类标签{o cls}组成。标签通过Eq.（4）和等式（五）、在第一帧，使用初始目标位置生成初始样本S init，并且ADNet被微调以适合给定目标。在帧l（≥2）处，如果估计的目标的置信度得分c（st，l）高于0.5，则使用跟踪的块位置b T l，l来生成训练样本Sl。状态st，l的置信度得分c（st，l）被定义为目标概率p（target |s t，l; W）。进行在线改编，协方差矩阵是diag（（0. 3w）2，（0. 3h）2，（0.1w）2，（0. 1h）2）），到地面实况位置G（= [x，y，w，h]）。在预训练ADNet时，我们在每帧中绘制250个样本。我们将卷积层（fc 1 -3）的学习率设置为0.0001，全连接层（fc 4 - 7）的学习率设置为0.001[24] ，动量设置为 0.9 ，权重衰减设置为 0.0005 ，minibatch大小设置为128。对于使用K个训练视频预训练ADNet，每个视频的训练迭代次数设置为300在强化学习的每次迭代中，我们随机选择长度为L（= 10）的序列进行跟踪模拟。跟踪过程中的在线调整。对于在线自适应，我们只训练学习率为0.001的全连接层（fc 4 -7）我们在第一帧处用TI（= 300）次迭代微调ADNet，并且在线自适应用TO（= 30）次迭代微调ADNet每I（=10）帧进行在线训练，并且从过去的J（= 20）帧中采样训练数据对于重新检测，我们绘制Ndet（= 256）个目标位置候选。在在线自适应中，在第一帧中生成NI（= 3000）个样本，并且在置信度高于0的帧中生成NO（= 250）个样本。五是跟踪。此外，为了减少实际跟踪中的计算，我们可以在在线自适应中使用少量样本来应用ADNet的快速版本，称为在ADNet-fast中，我们将NI设置为300，NO设置为50，I设置为30，Ndet设置为64。使用ADNet-fast进行跟踪的性能下降了3%，但实时速度比标准版本的ADNet快4倍左右5. 实验我们在流行的视觉跟踪基准，对象跟踪基准（OTB）[39，40]上评估了我们的方法，并与现有的跟踪器进行了比较。此外，我们通过展示各种自适应网络来验证ADNet的有效性。每I帧使用训练样本{Sk}l，比较。实验在以下几个方面进行低规格：i7- 4790 K CPU，32 GB RAM，这意味着在线自适应使用训练样本，从过去的J帧生成的ples 当分数c t，l小于-0时。5，表示跟踪器未命中目标，则进行重新检测以捕获未命中目标。目标位置候选者{nb}Ndet是在GTX TITAN X GPU使用MATLAB 2016 b和MatCon-vNet工具箱[33]。在我们的设置中，ADNet和ADNet-fast在GPU上分别以3 fps和15 fps运行。程序和基准测试结果已上传到网上1.ii=1当前目标位置与随机高斯噪声。重新检测到的目标位置b通过以下方式来选择：b=argmaxc（bi），（9）伊布卜岛并且状态sT，l由目标位置b和动作动态矢量dT，l指定。4.4.实现细节我们在两个OTB数据集上评估了我们的方法：OTB-50 [39]，其具有50个视频序列，以及OTB-100 [40]，其具有包括OTB-50的100个视频序列。为了预训练ADNet，我们使用了来自 VOT2013 [19]，VOT2014[20]，VOT2015 [18]和ALOV 300 [29]，其中排除了与OTB- 50和OTB-100重叠的视频。跟踪性能通过基于两个指标进行一次通过评估（OPE）来测量：中心定位误差和重叠率tio [39].中心位置误差测量距离预训练ADNet。在每一帧中，我们生成了火车-通过添加平均值为零的高斯噪声来对样本进行采样1https://sites.google.com/view/cvpr2017-adnet2718(a) 前一帧（b）检测跟踪方法(c) 我们的方法(a) OTB-50图5：现有检测跟踪方法[24]（第二列）和所提出的方法（第三列）对Deer和Jogging-1序列的搜索策略比较。详细的解释在第节. 第5.1节图6：OTB实验的自我比较结果-100.图例中的分数表示当精密度图的位置误差阈值为20 像素时的平均精密度和成功图的曲线下面积（AUC）边界框重叠比率测量跟踪的边界框与地面实况之间的交并（IOU）比率。5.1. 分析自我比较。为了验证ADNet组件的有效性，我们进行了ADNet的四个变体，并使用OTB-100对其进行了评估我们首先进行了基线在ADNet-init中，卷积网络（conv 1 -3）的参数使用VGG-M [4]模型初始化，全连接层（fc 4 -7）使用随机噪声初始化。“ADNet+SL” isthe pre-trained models with supervised learning using“ADNet+SS” is trained using partially labeled data in thesemi-supervised (SS) 在ADNet+SS的训练中，仅每10帧提供一次地面然后分别用强化学习（RL）方法训练ADNet +SL和ADNet +SS，得到ADNet+SL+RL是该方法的最终版本。自我比较的精度和成功率如图6所示。通过进行(b) OTB-100图7：OTB-50 [39]和OTB-100 [40]的精度和成功曲线。仅列出前10名跟踪器。表1：OTB-100的实验总结算法预处理（20px）IOU（AUC）FPSGPUAdnet88.0%0.6462.9OADNet-fast85.1%0.63515.0O非实时[24]第二十四话百分之九十点九0.678<1OC-COT [9]90.3%0.673<1ODeepSRDCF [8]85.1%0.635<1O[25]第二十五话百分之八十四点八0.5645.8O[15]第十五话76.7%0.5283.9X实时MEEM [42]百分之七十七点一0.52819.5XSCT [5]76.8%0.53340.0XKCF [13]69.7%0.479223XDSST [7]百分之六十九点三0.52025.4XGoturn [12]百分之五十六点五0.425125OSL 、 ADNet+SL 和 ADNet+SS 实现了 3. 6% 和 2 。与ADNet-init相比，精度性能提高了6% 在半监督的情况下，精度为1。0%，因为缺乏地面实况注释，所以比监督情况下的低。当进行RL时，ADNet+SL+RL和ADNet+SS+RL 增益为 1 。 9% 和 1 。精度性能比ADNet+SL和ADNet+SS分别提高0%实验结果表明，强化学习不仅可以提高半监督情况下的性能，而且可以提高监督情况下的性能。分析行动。在实验中，帧使用重新检测到整个帧左右9%，而需要超过5个动作来捕捉目标的帧占整个帧的比例仅为4%左右，即大多数帧在每帧中需要少于5个动作来追逐目标。图5说明了与基于检测跟踪策略的现有跟踪器相比，所提出的方法通过顺序动作追踪目标的效率[24]。在图中-2719图8：ADNet在BlurCar3、Bolt、Football1和Tiger2序列上选择的顺序操作示例。该跟踪算法中的状态转换与图像块和相应的动作一起呈现。#10#70#10#120图9：Ironman和Diving序列上所提出方法的失败案例蓝色和红色边界框分别表示ADNet的地面实况和跟踪结果。在图5（b）中，绿色、红色和蓝色框分别表示图5（c）显示了通过选择顺序动作的ADNet跟踪过程。包括所需动作和通过重新检测的候选的搜索步骤的平均数目是28。每帧26个，比MDNet [24]等最先进的跟踪器（=每帧256个）小得多。5.2. 最新技术水平比较我们将ADNet与13种最先进的跟踪器进行了全面比较，包括MDNet [24]，C-COT [9]，GOTURN2 [12]，HDT [25]，DeepSRDCF [8]，[31]第34话，我是你的朋友。[14][15][16][17][18][19图7分别示出了基于中心定位误差和重叠率的精度和成功率的曲线图，并且表1总结了跟踪性能与计算速度（fps）的比较。所提出的方法在精度和成功率方面与最先进的跟踪器MDNet [24]和C-COT [9]具有相当的性能。该方法计算效率高ADNet-fast是ADNet的快速版本2我们使用作者的代码在OTB数据集上评估了GOTURN [12]性能下降，但实时运行（15 fps），并显示出与其他基于CNN的跟踪器（如DeepSRDCF [8]和HDT [25]）相当的性能。如表中所示。1、ADNet-fast在实时跟踪算法中性能最好。图8显示了ADNet选择的顺序操作示例。从初始位置（蓝色）到捕获的目标位置（红色）的边界框流显示在最左侧的列中，状态的顺序转换由图像补丁和选定的图9显示了所提出的方法的一些失败案例。ADnet无法跟踪Ironman序列中目标的突然移动，并且所提出的动作无法适应Diving序列中长宽比的剧烈变化。6. 结论本文提出了一种由动作决策网络（ADNet）控制的跟踪器，该跟踪器通过迭代的顺序动作来跟踪目标。据我们所知，这是第一次尝试采用由深度强化学习训练的追踪动作控制的跟踪策略。基于时间序列的跟踪对降低跟踪中的计算复杂度做出了重要贡献。此外，强化学习使得部分标记数据的使用成为可能，这将极大地有利于实际应用。根据评估结果，所提出的跟踪器在3 fps内实现了最先进的性能，比现有的基于深度网络的跟踪器采用检测跟踪策略快三倍。此外，所提出的跟踪器的快速版本实现了实时速度（15 fps），其精度优于最先进的实时跟踪器。谢谢。这项工作得到了 MSIP/IITP 的 ICT 研发计划（ No.B0101-15-0552 ，预测视觉智能技术的开发和No.B0101-15- 0266，高性能视觉大数据发现平台的开发），首尔国立大学三星智能校园研究中心和Brain Korea 21 Plus项目的部分支持。足球1BlurCar3老虎2螺栓2720引用[1] B. Babenko，M. H. Yang和S.贝隆吉鲁棒的ob- 在线多实例学习的对象跟踪。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 33 （ 8 ）： 1619-1632，2011。2[2] D. S.博尔梅贝弗里奇湾A. Draper和Y. M.律使用自适应相关滤波器的视觉目标跟踪在计算机视觉和模式识别（CVPR）， 2010年IEEE会议上，第2544-2550页。IEEE，2010。2[3] J. C. Caicedo和S. Lazebnik使用深度强化学习进行主动目标定位。在IEEE计算机视觉国际会议论文集，第2488-2496页，2015年。2[4] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。 arXiv预印本arXiv：1405.3531，2014。二四七[5] J. Choi，H. Jin Chang，J. Jeong，Y. 德米里斯，崔永使用注意调制分解与整合的视觉追踪。在IEEE计算机视觉和模式识别会议论文集，第4321-4330页，2016年。二七八[6] J. 崔，H。Jin Chang，S.Yun，T.Fischer，Y.德米里斯，崔永自适应视觉跟踪的注意相关滤波网络。在IEEE计算机视觉和模式识别会议论文集，2017年。2[7] M. 达内尔扬湾 H？ge r，F. khan和M. 费尔斯贝河用于鲁棒视觉跟踪的精确尺度估计。在英国机械视觉会议上，诺丁汉，2014日。BMVA Press，2014. 一、二、七、八[8] M.达内尔扬湾Hager，F. Shahbaz Khan和M.费尔斯伯格。基于相关滤波器的视觉跟踪的卷积特征。在IEEE计算机视觉研讨会国际会议论文集，第58二七八[9] M. Danelljan，A. Robinson，F. Shahbaz Khan和M.费尔斯伯格。超越相关滤波器：学习用于视觉跟踪的连续卷积算子。在ECCV，2016年。二七八[10] H. Grabner，M. Grabner和H.比肖夫通过在线增强进行实时跟踪在BMVC，第1卷，第6页，2006中。2[11] H.格拉布纳角Leistner和H.比肖夫鲁棒跟踪的半监督在线增强欧洲计算机视觉会议，第234-247页Springer，2008. 2[12] D. Held，S. Thrun和S. Savarese学习追踪以每秒100帧的速度运行。 arXiv 预印本 arXiv ： 1604.01802 ，2016。二七八[13] J. F.恩里克斯河Caseiro，P. Martins，and J.巴蒂斯塔核化相关滤波器的高速跟踪。 IEEE Transactions onPattern Analysis and Machine Intelligence，37（3 ）：583-596，2015。一、二、七、八[14] S. Hong，T.你S Kwak和B.韩利用卷积神经网络学习判别显著图的arXiv预印本arXiv：1502.06796，2015年。一、二、八[15] Z. 洪，智-地Chen C.，马缨丹属Wang，X.Mei，D.普罗霍罗夫，以及D. 涛. Multi-store tracker（muster）：一种受认知心理学启发的对象跟踪方法。在2015年IEEE计算机视觉和模式识别会议，第749-758页中。一、二、七、八[16] D. Jayaraman和K.格劳曼在你跳跃之前向前看：通过预测运动的影响进行端到端的主动识别arXiv预印本arXiv：1605.00164，2016。2[17] Z. Kalal，K. Mikolajczyk和J.马塔斯跟踪-学习-检测IEEEtransactionsonpatternanalysisandmachineintelligence，34（7）：1409-1422，2012. 一、二[18] M.作者：J. Matas，A. Leonardis，M.费尔斯贝格湖策霍温，G.Fernandez，T.沃吉尔湾Hager、G.Needlessy，和R. 弗鲁菲尔德视觉对象跟踪vot2015挑战赛结果。在IEEE计算机视觉研讨会国际会议论文集，第1-23页二、六[19] M. 克里斯坦河Pflugfelder，A.Leonardis，J.Matas，F.波里克利，L.切霍温湾内格罗蓬特湾Fernandez，T. Vojir，A. Gatt等人视觉对象跟踪vot2013挑战赛结果。在2013年IEEE计算机视觉研讨会国际会议论文集，第98-111页。6[20] M.克里斯坦R.弗卢格费尔德，A.莱昂纳迪斯，J. Matas，L. Ceh o vin，G. Nebeha y，T. Voji r、G. 费尔南德斯和A. 卢克兹·克雷奇。视觉对象跟踪vot2014挑战结果。在 ECCV2014 上的 Visual Object Tracking Workshop2014，2014。一、二、六[21] H. Li，Y.Li和F.波里克利使用单个卷积神经网络进行稳健的在线视觉跟踪亚洲计算机视觉会议，第194-209页。Springer，2014. 2[22] H. Li，Y.Li和F.波里克利Deeptrack：在线学习判别特征表示，以实现强大的视觉跟踪。IEEE Transactions onImage Processing，25（4）：1834 2[23] 诉嗯K.Kavukcuoglu，D.小银A. 格拉夫I.安东诺格鲁D. Wierstra和M. 里德米勒用深度强化学习玩雅达利。arXiv预印本arXiv：1312.5602，2013。二、三[24] H. Nam和B.韩学习多域卷积神经网络的视觉跟踪。arXiv预印本arXiv：1510.07945，2015年。一、二、四、六、七、八[25] Y. Qi，S.张丽Qin，H.姚湾，澳-地Huang和J. L. M.- H.杨对冲深度跟踪。在IEEE计算机视觉和模式识别会议论文集，2016年。七、八[26] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S. 妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等， Imagenet 大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211一、二[27]D. Silver，黑胫拟天蛾A.黄角J.

下载后可阅读完整内容，剩余1页未读，立即下载