自适应注意力相关滤波网络的视觉跟踪方法

100 浏览量更新于2023-10-15 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4807GOH或醇C自适应视觉跟踪的注意力相关滤波网络Jongwon Choi1Hyung Jin Chang2Sangdoo Yun1TobiasFischer2 Yiannis Demiris2Jin YoungChoi11ASRI，部门电气与计算机工程系韩国首尔国立大学2英国伦敦帝国理工学院电气与电子工程系个人机器人实验室jwchoi. gmail.com{hj.chang，t.fischer，y.demiris}@ imperial.ac.uk{yunsd101，jychoi}@ snu.ac.kr摘要我们提出了一个新的跟踪框架与注意力机制，选择一个子集的相关性，lation过滤器，以提高鲁棒性和计算效率。根据跟踪目标的动态特性，深度注意力网络自适应地选择滤波器子集。我们的贡献是多方面的，现概述如下：（i）引入Attentional相关滤波器网络，该网络允许动态目标的自适应跟踪。（ii）利用将注意力转移到最佳候选模块的注意力网络，以及预测当前活动模块的估计准确性(iii)扩大了相关滤波器的种类，包括目标漂移、模糊、遮挡、尺度变化和灵活的宽高比。（iv）通过大量实验验证了视觉跟踪注意机制的我们的方法实现了类似的性能，非实时跟踪器，和国家的最先进的性能之间的实时跟踪器。1. 介绍人类在观察和跟踪物体时依赖于各种线索，并且注意力线索的选择高度依赖于根据当前场景的动态的基于知识的期望[13，14，28]。类似地，为了推断目标对象的准确位置，跟踪器需要考虑几个外观（照明变化、模糊、遮挡）和动态（扩展、收缩、纵横比变化）属性的变化。虽然视觉跟踪研究在过去几十年中取得了显着的进步[21-基于深度学习的方法可以分为两大类。首先，在线深度学习跟踪-图1. 视觉跟踪的注意机制。所提出的框架的跟踪结果（红色）与地面实况（青色）一起显示。圆圈表示当时的注意力，其中一个区域表示一个跟踪模块。当目标像第一行中那样缩小时，注意力集中在圆圈左上区域中具有缩小变化的模块上。如果目标遭受如第二行中的形状变形，则选择具有颜色特征的模块，因为它们对形状变形是鲁棒的ers [29，33，35，36，41]，需要频繁微调网络以学习目标的外观。这些方法具有很高的鲁棒性和准确性，但速度太慢，无法应用于实际环境。其次，利用深度卷积特征的基于相关滤波器的跟踪器[6，8，26，30]也显示出最先进的性能。每个相关滤波器在傅立叶域中将目标与附近的异常值区分开然而，为了覆盖更多的特征和动态，需要添加更多不同的相关滤波器，这会减慢整个跟踪器的速度。由于先前的基于深度学习的跟踪器关注目标的外观属性的变化，因此只能考虑有限的动态属性。此外，为基于在线深度学习的跟踪器更新整个网络在计算上要求很高，尽管深度网络在任何时候都只有稀疏的激活[29，33，35，36，缩小目标变形目标颜色生猪颜色颜色生猪生猪颜色颜色生猪生猪颜色生猪480841]。类似地，对于基于相关滤波器的跟踪器，一次只有一些卷积特征是有用的[6，8，26，30]。因此，通过引入注意力特性的自适应选择，可以考虑额外的动态特性以提高准确性和鲁棒性，同时保持计算时间恒定。在本文中，我们提出了一种注意力机制，自适应地选择所有可用的相关滤波器的最佳拟合子集，如图所示。1.一、这允许增加总体滤波器的数量，同时保持计算负担低。此外，跟踪器的鲁棒性由于利用先前的经验而增加，这允许集中于预期的出现和动态变化，而忽略场景的不相关神经科学研究的最新趋势[13，14，28]以及视觉注意力计算方面的理论工作[12，34]突出了人类视觉系统注意力机制的重要性同样，我们发现我们的框架使用注意力机制优于使用所有模块跟踪器的网络，同时速度明显更快。2. 相关研究基于深度学习的跟踪器：近期作品基于在线深度学习的跟踪器表现出很高的性能[29，33，35，36]。Wang等人[35]提出了一种框架，该框架将浅卷积层与深卷积层融合，以同时考虑目标的详细信息和上下文Nam和Han [29]介绍了一种多域卷积神经网络，该网络从大量候选补丁中确定目标位置。Tao等人[33]利用Siamese网络来估计先前目标和候选补丁之间的相似性。Wang等人[36]提出了一种用于视觉跟踪的卷积神经网络的顺序训练方法然而，由于这些跟踪器学习目标的外观，网络需要频繁的微调，这是缓慢的，并禁止实时跟踪。基于相关滤波器的跟踪器：基于相关滤波器的方法最近变得越来越流行，由于相关滤波器计算的快速速度[2，3，5，7，16，18，27]。Henriques等人[16]通过将基于相关滤波器的跟踪器扩展到多通道输入和基于内核的训练，改进了Danelljan等人[5]发展了一种覆盖目标尺度变化的相关滤波器，Maet al. [27]和Honget al. [18]使用相关滤波器作为具有额外长期记忆系统的短期跟踪器。Choi等人[3]提出了一种具有各种相关滤波器的集成跟踪器，这些相关滤波器由空间注意力权重图加权。Danelljan等人[7]开发了一种正则化相关滤波器，该滤波器可以通过应用空间正则化权重以抑制背景。深度学习+相关过滤跟踪器：基于相关滤波器的跟踪器在使用深度卷积特征等丰富特征时显示出最先进的性能[6，8，26，30]。Danelljan等人[6]扩展了正则化相关滤波器以使用深度卷积特征。Danelljan等人[8]还提出了一种新的相关滤波器，以在连续域中找到目标位置，同时结合各种分辨率的特征他们的框架显示了最先进的性能和深度卷积特性。Ma等人[30]通过融合从粗到细方案中的各种分辨率的卷积特征获得的响应图来估计目标的位置。Qi等人[26]通过利用应用于来自深度卷积特征的响应图的自适应对冲算法来跟踪目标。然而，尽管每个卷积滤波器都工作得很快，但深度卷积特征的维度太多，无法实时处理。此外，为了识别目标的尺度变化，基于相关滤波器的算法需要训练尺度滤波器，或者重复应用相同的滤波器由于这会显著增加深度卷积特征的计算时间，因此有几种方法不考虑尺度变化，包括Ma等人提出的方法。[30] Qiet al. [26]第10段。自适应模块选择框架：在动作识别领域，时空注意力重定位（Spatio-Temporal Attention REloca）是一种新的研究方法。STARE）[25]提供了一种信息理论方法，用于参加多个活动中不确定性最高的然而，STARE确定了一个预定义的策略后的注意在机器人领域， HAMMER（ Hierarchical ， Attentive ， MultipleModelsforExecution and Recognition）[9在[4]中提出了一种基于预先计算的性能图来预测数千种不同机器人行为的性能的方法。在我们的框架中，我们专注于提高适应动态变化的能力。3. 方法所提出的注意相关滤波器网络（ACFN）的整体方案如图所示。二、ACFN由两个网络组成：相关过滤网络和注意力网络。相关滤波器网络有很多跟踪模块，它们估计验证分数作为它们的精度。在注意力网络中，预测子网络预测当前帧的所有模块的验证分数具有最高估计验证分数的活动模块（最佳模块）用于确定目标的位置和尺度。最后，使用活动模块的估计验证分数以及非活动模块的预测验证分数来生成最终验证分数4809AWMKCF确认功能浸提试验AWMKCF确认功能浸提试验× ××±±图2. 提出的算法方案。该框架由相关过滤网络和注意力网络组成。根据由先前的验证分数获得的来自注意力网络的结果，操作相关滤波器网络中的跟踪模块的自适应子集基于子集中具有最佳验证分数的跟踪模块来确定目标，并且相应地更新跟踪模块。用于下一帧。每个跟踪模块根据最佳模块的跟踪结果进行更新。由于注意力网络学习动态目标的一般期望，而不是场景或目标的特定属性，因此它可以预先训练，并且在跟踪时不需要更新。3.1. 相关滤波网络相关滤波器网络结合了各种各样的跟踪模块，每个模块覆盖特定的外观或动态变化，包括由于模糊、结构变形、尺度变化和遮挡而引起的变化。使用基于注意力特征的相关滤波器（AtCF）[3]作为跟踪模块，其由注意力权重图（AWM）和核相关滤波器（KCF）[16]组成。由于一次只有所有跟踪模块的一个子集处于活动状态，因此我们可以增加模块的总数，从而允许我们考虑新的属性类型：可变纵横比和漂移目标的延迟更新。3.1.1跟踪模块类型跟踪模块基于四种不同类型的目标特性和动态的组合：两种特征类型、两种内核类型、十三种相对比例变化和五个延迟更新步骤。因此，相关滤波器网络总共包含260（2 2 13 5）个不同的跟踪模块。功能类型：我们使用两种功能类型：颜色特征和方向梯度直方图（HOG）特征。我们将跟踪盒离散成网格，网格大小为Ng×Ng。对于彩色图像，我们构建一个6维颜色通过分别对RGB和Lab空间中的R、G、B和L、a、b值进行平均来生成特征向量对于灰色图像，我们将沿x和y方向的强度和拉普拉斯值平均作为三维颜色特征向量。HOG特征的细胞提取与Nh维。内核类型：作为跟踪模块的相关滤波器，使用KCF[16]。它允许改变内核类型，我们利用高斯内核和多项式内核。相对比例变化：为了处理形状变形以及观察方向的变化，我们使用灵活的纵横比。目标尺度从先前的目标尺寸以四个步骤（1个单元和2个单元）沿着x轴、沿着y轴和沿着两个轴同时改变，这导致包括静态情况在内的13种可能的尺度变化延迟更新：为了处理目标漂移、部分遮挡和微小的尺度变化（太小而无法在帧到帧的基础上检测到），我们引入了具有延迟更新的跟踪模块。对于这些模块，模块更新被延迟，使得跟踪模块可以访问多达四个先前帧，即在漂移/遮挡/尺度变化发生之前。3.1.2跟踪模块特征图提取：每个跟踪模块的感兴趣区域（ROI）以先前目标的位置为中心。为了覆盖附近区域，ROI的大小是先前目标大小的β倍。对于具有尺度变化的跟踪模块，我们将ROI的图像大小归一化2）的情况。相关滤波网络AWMest.KCF验证更新选择最佳模块注意网络−1−2选择子网预测子网络顶选层顶选层验证KCFAWMest.特征提取特征提取Max-pooling0001Tanh层FC（260x1）ReLUFCReLUFCReLUFCFC（260x1）ReLUFCReLUFCReLUFCLSTM x256 LSTM x2560004810×SS联系我们∈×ΣΣ∈--OE∈R^从调整大小的ROI中，通过跟踪模块的特定特征类型获得具有大小WH的特征图。注意力权重图估计：注意权重图（AWM）W ∈RW×H是目标置信度回归图WS和中心偏差图Ww的加权和。然而，为了估计Wt，时间t，我们对Wt和Ww的权重不同：t tW（p）=λsWw（p）Ws（p）+（1−λs）Ww（p），（1）其中p =（p，q），其中p为1，...，W和q1，…，H.与[3]相反，Wt在第一项中被Ww加权，以给予中心的特征更多权重，如果Wt有噪声，则会导致更高的性能。[3]据估计，(a) 验证评分(b) 验证得分估计S权重因子λs动态地从先前的帧，跟踪器对目标外观的突变鲁棒性较差。因此，我们固定λs以向目标置信度回归图提供稳定的目标位置调整：通过将关联的相关滤波器应用于由AWM Wt加权的特征图来获得在时间t的响应图Rt RW × H。目标的位置是量化的，由于网格的单元格大小Ng Ng的特征地图。当单元尺寸由于温度变化而增加时，这可能导致严重的漂移问题增加的塔尺寸。因此，我们通过以如下的插值范围Np对峰值位置p′t附近的响应值进行插值来找到ROI内的目标位置p′t图3. 验证评分估计。（a）比较基于所述相关滤波器响应图的峰值和所述建议的验证分数，确定所述跟踪模块的位置相对于所述跟踪模块的阶数的均方距离误差与峰值相反，新估计方法得到的阶数与距离误差高度相关。（b）验证分数的新估计方法，该方法比使用峰值更可靠。3.1.3跟踪模块更新在260个跟踪模块中，我们只更新了4个基本跟踪模块;每个特征类型和内核类型一个。具有尺度变化的模块可以与没有尺度变化的基本模块共享相关滤波器，因为Nppt=p′t+（i，j）Rt. p′+（i，j）≠.（二）缩放模块的大小被调整为与基本跟踪模块的ROI相同的大小延迟更新的模块i=−Npj=−Np使用ROI内的内插位置，通过下式估计图像上的目标的位置：（xt，yt）=（xt−1，yt−1）+。（三）验证：跟踪模块的精度由验证分数。先前的基于相关滤波器的跟踪器[5，18]通过比较利用各种尺度变化获得的相关滤波器响应图的峰值来确定尺度变化但是图图3（a）显示，由于响应图的强度范围根据相关滤波器的各种特性（特征类型，内核）显著变化，因此该测量因此，我们选择具有最少数量的噪声峰值的滤波器，因为它最有可能代表如图所示的目标。3（b）款。基于这种直觉，我们的新验证分数可以重新使用先前帧的相关滤波器。在如果具有延迟更新的模块是最佳执行的，则具有相同延迟更新的基本跟踪模块被用作更新源。基本跟踪模块由注意力权重图加权的特征图更新，如[3]和[16]中所述。3.2. 注意网络3.2.1预测子网络我们采用深度回归网络，根据先前的验证分数Qt-1，Qt-2，.，预测当前帧t处所有模块的验证分数Q t260。，其中QtR260。由于长短期记忆（LSTM）[17]可以高精度地对序列数据进行建模，我们使用它来考虑验证分数的动态变化。我们首先将在前一帧Qt-1处获得的验证分数Qt是由响应图t−1Qt−1−min（Qt−1）ORt和理想响应图Rt：Q=max（Qt−1 ）−min通过通过峰Np4811t−1OO 2OG 宽×窗口大小W×H，以p′t为中心，方差σ2。（Qt−1）、（五）Qt= exp（− Rt−Rt <$2），（4）其中min和max提供最小值和最大值输入向量的所有元素之间的值则其中Rt=G。p′t，σ2是一个二维高斯分布G标准化的分数Q1被顺序地馈送到LSTM中接下来的四个全连接层估计4812∗˜^⟨⟩∗^−^⟨⟩2N<$Q^（i）−QGT（i）<$2<$1−s（i）<$Q^（i）−QGT（i）<$$>+λln1+<$h（i）<$1不Oi=1当前帧的归一化验证分数。详细的网络架构如图所示。二、最后，基于预测验证分数的范围与先前验证分数的范围相同的假设，验证分数，我们将归一化分数转换回来并获得预测验证分数：为了训练LSTM层，注意力网络依次由前十帧的验证分数提供。在输入注意力网络之后，我们获得预测的验证分数Q（i）和注意力二元向量s（i）。来自第i个训练样本的最终验证分数然后根据等式定义（7）：Q^t =Qt.max（Qt−1）−min（Qt−1）+min（Qt−1）的情况。（六）Q（i）=（1s（i））Q（i）+s（i）QGT（i）。损失函数：我们开发了一个基于稀疏性的损失函数，该函数使最终验证分数Q（i）和地面真实验证分数QGT（i）之间的误差最小化。3.2.2选择子网同时使用最少数量的活动模块：基于预测的验证分数Qt，选择子网络选择针对当前帧激活的跟踪模块选择子网络的作用NE=i=120、（8）是双重的。一方面，它应该选择可能表现良好的另一方面，如果跟踪模块长时间未被激活，则很难估计其性能，因为预测误差随着时间的推移而累积，因此应该不时地激活模块其中N是训练样本的数量。但随着我们需要估计损失函数的梯度，离散变量s（i）被替换为连续的注意力分数s（i），结果是ΣN ¨。Σ。Σ¨Σ因此，选择子网络由履行这些角色的两个部分组成第一部分是top-k选择层E=i=1<$1−s（i）<$Q^（i）−QGT（i）<$2+λ<$s（i）<$0.（九）其选择具有最高预测验证分数的K个模块，从而产生二进制向量。第二部分由四个完全连接的层组成，然后是一个tanh层来估计预测误差，从而得到一个值在-1到1之间的向量通过最大池化对两部分的结果进行整合，得到注意力得分st∈[0，1].通过选择st内具有最高值的Na个跟踪模块来获得二进制注意力向量，其中n·t用于表示包含二进制值的向量。当Na大于k且tanh层的结果小于1时，基本上包括前k部分的所有模块，并且N一-k训练顺序：我们分两步训练网络，也就是说，我们首先训练预测子网络，然后然后选择子网络。我们发现，将网络作为一个整体进行训练会导致选择子网络每次都选择相同的模块，这反过来也会阻止预测子网络学习所选跟踪模块的准确性。为了训练预测子网络，通过将s（i）的所有值设置为零来去除稀疏项，使得目标变为最小化预测误差：Σ。¨¨2Σ具有最高估计预测误差的模块。在当前帧处，相关滤波器网络内应被激活的模块根据阈值被选择，因此激活模块的验证得分Qt∈R260可以从相关滤波器网络获得选择子网络然后，应执行与原始损失函数，如方程。（八）、然而，我们发现错误并没有充分地反向传播到完全连接的层，由于最大池化，工作如图所示。2（Qo包含模的零未被激活）。然后，最终的验证分数Qt公式化为Qt=（1−st）Qt，（7）其中表示逐元素乘法。tanh层。如果假设预测是固定的，则前k部分的输出可以被认为是恒定的。然而，tanh层仅压缩最后一个全连接层h的输出，但不改变稀疏性。因此，损失函数可以采用由第i个训练样本获得的h（i）用于稀疏项：Σ2E=2、ΣN ¨。Σ。Σ¨。Σ培训数据：我们随机选择训练样本i的所有帧中。然后，通过将目标位置设置为数据集中给出的地面实况并操作所有相关滤波器来获得地面实况验证得分QGT（i）（十一）其中稀疏性范数由稀疏性感知惩罚项近似，如[37]中所述。优化：我们使用Adam优化器[20]来优化预测子网络，并使用梯度下降[24]来优化选择子网络。E=.（十）3.2.3培训i=1Σ、、4813Max√x轴缩小x-轴线扩大表1. CVPR 2013数据集的定量结果[38](a) 注意力地图（b）全球注意力地图图4. 注意地图。（a）注意力地图内的每个区域代表一个跟踪模块，每个模块覆盖另一个尺度变化。绿色表示一次运行的活动模块，用于确定跟踪结果的最佳模块为红色。(b)具有不同特征类型、内核类型和延迟更新属性的多个注意力地图。3.3. 处理完全闭塞如果分数Qt=最佳性能跟踪模块的max（Qt）下降到如Qtt−1<λQ不于Q=t−1最大0RMaxMaxCVPR 2013数据集中的计算速度为15.0 FPS（1−γ）QMax不Max和QMax1Max. λr是de-[38]，注意力网络每帧只需要3ms保护比阈值，γ是插值因子。如果如果在时间t检测到完全遮挡，则在Nr帧的时间段内添加并激活四个附加的基本跟踪模块，而不更新它们。这些模块的ROI在时间t被固定到目标位置。如果重新检测模块中的一个被选择为最佳模块，则所有跟踪模块被在时间t保存的模块替换。4. 实验结果4.1. 执行20%（Na=52）的模块被选为活性模块。其中四分之一（k = 13）由顶部-k层选择。将注意力权重图估计的权重因子设置为λs=0。9，插值范围为Np=2。将用于训练注意力网络的稀疏权重设置为λ=0。1 .一、完全遮挡处理的参数λr和Nr在实验中使用包含完全遮挡的场景设置为0.7和30 其他参数如[3，16]中所述设置：Ng= 4，Nh=31，β=2。5，σG=WH/10，γ=0。02.这页-所有训练和评估序列的参数都是固定的调整输入图像的大小，使初始边界框的最小长度等于40个像素。为了初始化LSTM层，前十帧的所有模块都被激活。我们使用MATLAB实现相关滤波器网络，使用TensorFlow [1]实现注意力网络。两个网络相互通信预测子网络和选择子网络分别训练了1000K次迭代，大约需要 10 个小时。计算环境具有 Intel i7- 6900 KCPU@3.20GHz 、 32 GB RAM 和 NVIDIA GTX 1070GPU。我们发布了跟踪和训练的源代码以及附带的实验结果。14.2. 数据集为了评估所提出的框架，我们使用了CVPR 2013[38]（51个目标，50个视频），TPAMI 2015 [39](100目标，98个视频）和VOT2014 [22]数据集（25个目标，25个视频），其中包含每帧目标边界框的地面实况这些数据集经常被使用[3，8，15，16，18，29，42]，因为它们包括各种各样的环境来评估视觉跟踪器的一般为了训练注意力网络以在CVPR 2013和TPAMI 2015数据集上进行评估，使用了VOT 2014 [22]和VOT 2015[21在去除与CVPR 2013和TPAMI 2015数据集重叠的场景后，保留44个为了对VOT 2014数据集进行评估，我们在消除重叠场景后，使用CVPR 2013数据集的39个序列训练注意力网络。对于这两种情况，我们通过在八个方向上稍微移动目标位置的地面真实值（目标大小的10%向左，右，上，下，左上，右上，左下和右下）以及通过改变跟踪框的大小因此，我们有11个通过TCP-IP套接字。跟踪模块更新和注意力网络并行运行，以加快执行速度。https://sites.google.com/site/jwchoivision/y轴缩小y轴按比例放+γQ=Q特征颜色生猪内核P.G.P.G.延迟更新01234算法Pre. 评分平均FPS规模提出ACFN86.0%15.0OCFN+predNet百分之八十二点三14.4OCFN81.3%6.9OCFN+simpleSel.百分之七十九点四15.7OCFN-百分之七十八点四15.5O实时SCT [3]84.5%40.0XMEEM [42]81.4%19.5XKCF [16]百分之七十四点二223.8XDSST [5]百分之七十四25.4O[第15话]百分之六十五点六10.0O[19]60.8%21.7O非实时C-COT [8]百分之八十九点九<1.0O[29]第二十九话百分之八十七点七<1.0O4814ACFN [0.860]CFN+predNet [0.823]CFN [0.813]CFN+simpleSel. 0.794CFN-[0.784]ACFN [0.607]CFN+predNet [0.589]CFN [0.566]CFN+simpleSel.【0.563】CFN-[0.539]ACFN [0.802]标准普尔500指数[0.768]MEEM [0.773]KCF [0.699]DSST [0.687]被击中[0.640]价格[0.597][0.575]标准普尔500指数[0.534]MEEM [0.529]KCF [0.480]DSST [0.518]被击中[0.463]TLD [0.427]ACFN [0.666]标准普尔500指数[0.574]MEEM [0.604]KCF [0.534]DSST [0.546]ACFN [0.501]标准差[0.392]MEEM [0.414]KCF [0.381]DSST [0.442](a) CVPR 2013数据集(b) TPAMI 2015数据集上的评估图(c) VOT 2014数据集上的评价图图5. 评价结果。 ACFN在自我比较中表现出最佳性能，并且在TPAMI 2015 [39]和VOT 2014 [22]数据集中的实时跟踪器中表现出最先进的性能。图例中的数字是中心误差阈值等于20像素时的平均精度（顶行），或成功图曲线下的面积（底行）。弗里曼4歌手1几旅鼠散步2滑雪ACFN SCT MEEM KCF DSST图6. 定性结果。使用的序列是Freeman 4、Singer 1、Couple、Lemming、Walking2和Skiing。与没有增强的原始序列相比，是可用训练数据的两倍。4.3. 评价作为性能度量，我们使用了[38]中提出的一次评估（OPE）的平均精度曲线。通过对所有序列的精密度曲线求平均值来估计平均精密度曲线，该曲线使用两种碱基获得：定位误差阈值和重叠阈值。基于位置误差阈值的精度曲线（精度图）显示了基于跟踪框的中心与地面实况之间的距离的正确跟踪帧的百分比。基于重叠阈值的精度曲线（成功图）指示基于跟踪框和地面实况之间的重叠区域的正确跟踪帧使用中心误差阈值等于20像素时的平均精度和成功图的曲线下面积作为为了定性地描述跟踪模块上的注意力，我们构建了一个注意力图，如图所示4.第一章在注意力地图中，一个区域代表一个跟踪模式-特定尺度变化的规则，并且在全局注意力地图内，存在具有不同特征类型、内核类型和延迟更新的许多地图4.4. 自身对照为了分析注意力网络的有效性，我们将完整的框架与四个额外的跟踪器进行了比较。相关滤波器网络（CFN）操作所有关联的跟踪模块。CFN类似于SCT[3]，但使用ACFN的所有 260个滤波器而不是仅4个。在CVPR 2013数据集中，ACFN最常将20%的模块选为最佳模块，而有限扩散过滤器网络（CFN-）始终运行这些模块具有简单选择机制的CFN（CFN+simpleSel.）利用最佳的验证分数作为预测的验证分数，并且具有高验证分数的前k个模块被选择为活动模块，而其他活动模块被随机选择。带有预测子网络的 CFN（CFN+predNet）使用分数预测网络来预测当前验证分数，但随机选择预测误差高的模块。从训练好的ACFN中提取CFN+predNet的预测网络。4815与这四种跟踪器的比较结果如图所示5（a）和表1。由于CFN的性能比SCT差因此，ACFN提供了一个有意义的解决问题的集成相关滤波器的各种特性。注意机制导致更高的准确性和更高的效率。此外，ACFN优于仅包含完整框架的子集的跟踪器有趣的是，CFN-表现出比CFN更差的性能，这证实了各种各样的跟踪模块对于所有帧放大框架收缩框架故障场景1.00.0追踪目标通过比较CFN和CFN+simpleSel.的性能可以看出，在不考虑目标动态变化的情况下从CFN+predNet和ACFN的性能可以证实，选择子网络对跟踪器的性能有重要作用。4.5. 在基准数据集最先进的方法，包括 FCNT [35] ， STCT [36] ，SRDCF-Deep [6]，SRDCF [7]，DSST [5]和C-COT [8]从作者处获得。此外，MDNet-N[29]，MUSTER [18]，MEEM [42]，KCF [16]，SCT[3]，Struck [15]和ESTA [19]使用作者的实现进行了估计MDNet-N是MDNet [29]的一个版本，它是由VOT 2016 [23]中描述的 Image-Net[31]的图像训练的在表1中，给出了CVPR 2013数据集的精度评分所提出的算法运行速度足够快，可以实时使用。在实时跟踪器中，ACFN显示了两个基准数据集的最新性能特别是，在考虑尺度变化的实时跟踪器中，与CVPR 2013数据集中的先前最先进算法DSST [5]相比，ACFN将相对性能提高了12%图5显示了实时跟踪器的性能，其中ACFN在TPAMI 2015和VOT 2014数据集中展示了最先进的性能ACFN的一些定性结果如图所示。六、4.6. 注意力网络为了分析注意力网络的结果，通过对CVPR 2013数据集中每个模块被选为活动模块或最佳模块的频率进行归一化来获得频率图[38]。图7示出了用于不同跟踪情况的频率图。在所有序列中获得的频率图中，具有HOG和高斯核的模块跟踪器最常被选为最佳模块，而不同的模块则被选为最佳模块。图7. 不同跟踪情况的频率图。的注意力的分配由目标的动态变化决定在各种情况下被选为活动模块。在包含放大目标的场景中，检测尺度增加的跟踪模块比其他模块更常被选择，而在包含缩小目标的场景中，检测尺度减小变化的模块有趣的是，当我们从 CVPR 2013 数据集（Matrix、MotorRolling、IronMan）的跟踪故障场景中估计频率图时，活动模块的分布相对相同，这意味着当错过目标时，注意力变得分散。5. 结论提出了一种基于注意机制的视觉跟踪框架。拟议的框架包括两个主要网络：相关过滤网络和注意力网络。由于注意机制减少了计算量，相关滤波器网络可以考虑目标的更多状态和动态变化，包括灵活的长宽比和延迟更新等新特性。通过对动态变化的一般期望来训练注意力网络，自适应地选择所有跟踪模块的注意子集。即使在快速计算的情况下，注意力机制的高鲁棒性也验证了视觉跟踪的有效性。在基于几个跟踪基准数据集的实验中，所提出的框架的性能与无法实时操作的基于深度学习的跟踪器相当，并且在实时跟踪器中显示出最先进的性能。作为未来的工作，我们将注意力机制扩展到采用深度卷积特征的相关滤波器。鸣谢：这项工作得到 & 了 MSIP/IITP 的 ICT 研发计划（No.B0101-15-0552，预测视觉智能技术的开发），SNU-Samsung智能校园研究中心，Brain Korea 21 Plus项目和欧盟FP 7项目WYSIWYD的部分支持。我们感谢NVIDIA公司的GPU捐赠。频段活动模块地图频段最佳模块地图4816引用[1] M. Abadi等人TensorFlow：异构系统上的大规模机器学习，2015。软件可从tensorflow.org获得。6[2] D. S.博尔梅贝弗里奇湾A. Draper和Y. M.律使用自适应相关滤波器的视觉目标跟踪。在CVPR，第2544-2550页，2010中。2[3] J. Choi，H. J.张，J.郑岛，澳-地Demiris和J. Y.崔使用注意调制分解与整合的视觉追踪在CVPR中，第4321二三四六七八[4] A. Cully，J.Clune、D.Tarapore和J. -B. 穆雷能像动物一样适应环境的机器人Nature，521（7553）：5032[5] M.达内尔扬湾Hager，F. S. khan和M.费尔斯伯格反犯罪空间追踪。 IEEE Trans. 关于PAMI以供发表。二四六八[6] M.达内尔扬湾Hager，F. S. khan和M.费尔斯伯格基于相关滤波器的卷积特征视觉跟踪。在ICCV研讨会上，第58-66页，2016年。一、二、六、八[7] M.达内尔扬湾Hger，F. khan和M.费尔斯伯格学习空间正则相关滤波器的视觉跟踪。在ICCV，第4310-4318页，2015年。二、六、八[8] M. Danelljan，A. Robinson，F. S. khan和M.费尔斯伯格超越相关滤波器：学习用于视觉跟踪的连续卷积算子。在ECCV，第472一、二、六、八[9] Y.德米里斯模仿是一个具有预测和学习成分的双途径过程：一个生物学上合理的计算模型《动物和人工制品的模仿》，第327-361页。MIT Press，2002. 2[10] Y.德米里斯湖Aziz-Zadeh和J.你好灵长类和机器镜像神经元系统中的信息处理。Neuroinformatics，12（1）：63-91，2014. 2[11] Y. Demiris和B.Khadhouri 分层注意多模型的执行和识别的行动。Robotics and Autonomous Systems，54（5）：361-369，2006. 2[12] S. Frintrop、E.罗马和H。I.克里斯滕森计算视觉注意系统及其认知基础：一个调查。 ACM Trans. Appl. 感知。，7（1）：6：1-6：39，2010. 2[13] C. D. Gilbert和W.李自上而下影响视觉加工。NatureReviews Neuroscience，14（5）：350 一、二[14] R. M. Haefner，P. Berkes，and J.费瑟知觉决策作为神经抽样的概率推理Neuron，90（3）：649-660，2016.一、二[15] S. Hare ， S.Golodetz ， A. 萨法里河谷 Vineet ， M.M.Cheng，S.L. Hicks和P. H. S.乇Struck：使用内核的结构化输出跟踪。 IEEE Trans. PAMI，38（10）：2096 -2109，2016。六、八[16] J. F.恩里克斯河Caseiro，P. Martins，and J.巴蒂斯塔核化相关滤波器的高速跟踪IEEE Trans. on PAMI，37（3）：583-596，2015. 二三四六八[17] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation，9（8）：1735-1780，1997. 4[18] Z. 洪，智 - 地 Chen C. ，马缨丹属 Wang ， X.Mei ，D.Prokhorov和D.涛.多商店跟踪器：一种受认知心理学启发的目标跟踪方法。在CVPR，第749-758页二四六八[19] Z. Kalal，K. Mikolajczyk和J.马塔斯跟踪-学习-检测IEEETrans. on PAMI，34（7）：1409-1422，2012. 六、八[20] D. Kingma和J. BA. Adam：一种随机优化方法. 2015年，在国际学习代表会议上。5[21] M. Kristan等人视觉对象跟踪VOT2015挑战赛结果。在ICCV研讨会，第11、6[22] M. Kristan等人视觉对象跟踪vot2014挑战赛结果。在ECCV 2014研讨会论文集第二，第191一、六、七[23] M. Kristan等人视觉对象跟踪VOT2016挑战赛结果。在ICCV研讨会，2016年。1、8[24] Y. A. 勒昆湖博图湾B. 或者r和k R. 穆勒河有效的反向传播。神经网络：交易技巧，第9Springer，2012. 5[25] K. Lee ， D.Ognibene ， H.J. 张 TK. Kim 和 Y. 德米里斯Stare：Spatio-Temporal Attention Relocation for MultipleStructuralActivitiesDetection.TransactionsonImageProcessing，24（12）：5916-5927，2015。2[26] C.妈，杰- B. Huang，X.杨和M.- H. 杨用于视觉跟踪的分层卷积特征。在ICCV，第3074-3082页，2015中。一、二[27] C.妈，X。杨角，澳-地Zhang，M. H.杨长期相关跟踪。在CVPR中，第5388-5396页，2015年。2[28] H. Makino和T.小宫山学习增强了视觉皮层中自上而下处理的相对影响。 Nature Neuroscience ， 18 ： 1116-1122，2015. 一、二[29] H. Nam和B.韩学习多域卷积神经网络用于视觉跟踪。在CVPR，第4293一、二、六、八[30] Y. Qi，S.张丽Qin，H.姚湾，澳-地黄，J.Lim和M.H.杨对冲深度跟踪。在CVPR中，第4303-4311页一、二[31] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨特伊什妈，Z. Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦，A.C. Berg和L.飞飞Imagenet大规模视觉识别挑战赛。IJCV，115（3）：211-252，2015. 8[32] A. W. M. Smeulders，D.斯穆尔德斯D.M. 楚河，巴西-地库奇亚拉，S。卡尔德拉拉A. Dehghan，和M。Shah. 视觉跟踪：一项实验调查。IEEE Trans. on PAMI，36（7）：1442-1468，2014. 1[33] R. Tao，E. Gavves和A. W.史默德斯搜索跟踪的连体实例。在CVPR中，第1420-1429页，2016年。一、二[34] J. K. 佐斯视觉注意力的计算观点。MIT Press，2011. 2[35] L. Wang，W.欧阳X. Wang和H.陆使用完全卷积网络进行视觉跟踪。在ICCV，第3119- 3127页一、二、六、八[36] L. Wang，W.欧阳X.Wang和H.陆Stct：顺序训练卷积网络进行视觉跟踪。在CVPR中，第1373-1381页一、二、六、八[37] J. Wes

下载后可阅读完整内容，剩余1页未读，立即下载