动态记忆网络用于目标跟踪的研究

29 浏览量更新于2023-10-13 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

学习动态记忆网络的目标跟踪杨天宇[0000 - 0002 - 9674 - 5220]和安东尼B. 陈[0000−0002−2886−2513]香港城市大学计算机科学系，中国香港tianyyang8-c@my.cityu.edu.hk网站，abchan@cityu.edu.hk抽象。模板匹配方法的视觉跟踪得到了普及，最近，由于其相当的性能和速度快。然而，它们缺乏有效的方法来适应目标对象的外观的变化，使得它们的跟踪精度仍然远远达不到最先进的水平。在本文中，我们提出了一个动态记忆网络，以适应模板跟踪过程中的目标的外观变化。LSTM被用作存储器控制器，其中输入是搜索特征图，并且输出是用于存储器块的读取和写入过程的控制信号。由于目标的位置最初在搜索特征图中是未知的，因此应用注意力机制以将LSTM输入集中在潜在目标上。为了防止侵略性的模型自适应，我们应用门控残差模板学习来控制用于与初始模板相结合的检索内存的量。不像跟踪检测方法，其中对象的信息是由神经网络的权重参数，这需要昂贵的在线微调是适应性，我们的跟踪器运行完全前馈和适应目标的外观变化，通过更新外部存储器。此外，与离线训练后模型容量固定的其他跟踪方法不同，我们的跟踪器的容量可以很容易地随着任务的内存需求的增加而扩大，这有利于记忆长期的在OTB和VOT上的广泛实验表明，我们的跟踪器MemTrack在保持50 fps的实时速度的同时，对最先进的跟踪方法关键词：可寻址记忆，门控残差模板学习1介绍随着卷积神经网络在物体识别中的成功，和检测，越来越多的跟踪器[4，13，22，26，31]已经采用深度学习模型进行视觉对象跟踪。其中有两种主要的跟踪策略。一种是在线训练的检测跟踪方案对象外观分类器[22，26]，用于将目标与背景区分开。首先使用初始帧学习模型，然后基于新预测的边界框使用在后续帧中生成的训练样本进行微调。另一种方案是模板匹配，它采用第一帧[4，29]或前一帧[14]中的目标块2T. Yang和A.B. 陈以构建匹配模型。为了处理目标外观的变化，第一帧中构建的模板可以由最近生成的具有小学习率的对象模板插值[30]。这两种策略之间的主要区别在于，通过检测进行跟踪的方法将标记的应用形式存储在直接神经网络的神经网络中，因此需要利用随机梯度下降（SGD）进行在线微调以使模型自适应，而相比之下，模板匹配将标记的应用形式存储在对象模型中，其通过前向计算来生成。由于检测跟踪中所需的计算昂贵的模型更新，这种方法的速度通常很慢，例如[21，22，26]以大约1fps运行，尽管它们确实实现了最先进的跟踪精度。然而，模板匹配方法是快速的，因为不需要更新神经网络的参数。最近，几个跟踪器[4，13，36]采用完全卷积的Siamese网络作为匹配模型，其表现出有希望的结果和实时速度。然而，由于缺乏用于在线适应外观变化的有效方法，在模板匹配模型和通过检测进行跟踪之间仍然存在很大的性能差距在本文中，我们提出了一个动态的记忆网络，其中的目标信息存储和召回从外部存储器，保持模板匹配的对象外观与通过检测的跟踪不同，其中在新的神经网络k中形成的特征被存储，并且模型的容量在离线训练之后是固定的，我们的记忆网络的模型容量可以通过增加外部存储器的大小来容易地扩大，这对于记忆长期的外观变化是有用的由于积极的模板更新是容易过拟合最近的帧和初始模板是最可靠的，我们使用的初始模板作为保守的参考对象和残留的模板，从检索的内存中获得在跟踪期间，残余模板被逐通道门控，并与初始模板组合以形成最终匹配模板，然后将其与搜索图像特征卷积以获得响应图。残差模板的通道式门控控制检索到的模板的每个通道应该被添加到初始模板的量，这可以被解释为用于适配模板的特征/部件选择器。LSTM（长短期存储器）用于控制外部存储器的读取和写入过程，以及用于残差模板的通道式门此外，由于目标位置在搜索图像中最初是未知的，因此我们采用注意力机制来粗略地在搜索图像中定位对象，从而导致目标的软表示用于输入到LSTM控制器。这有助于检索内存中最相关的模板整个框架是可区分的，因此可以使用SGD进行端到端的培训。总之，我们的工作贡献如下：– 我们设计了一个用于视觉跟踪的动态记忆网络由具有注意力机制的LSTM控制的外部存储器块允许适应外观变化。学习动态记忆网络的目标跟踪3– 我们提出了门控残差模板学习来生成最终的匹配模板，它有效地控制了被添加到初始匹配模板的每个通道中的检索内存中的外观变化量这防止了过度的模型更新，同时保留了目标的保守信息。– 我们广泛评估我们的算法在大规模数据集OTB和VOT。我们的跟踪器表现良好，对国家的最先进的跟踪方法，同时拥有50 fps的实时速度。2相关工作模板匹配跟踪器。基于匹配的方法最近由于其快速的速度和相当的性能而受到欢迎。最值得注意的是全卷积暹罗网络（SiamFC）[4]。虽然它只使用第一帧作为模板，SiamFC实现了竞争力的结果和快速的速度。SiamFC的主要缺陷是缺乏有效的在线更新模型为了解决这个问题，[30]提出了使用具有小学习率的新模板的线性插值的模型更新，但只看到模型更新。提高了准确性。最近，RFL（递归滤波器学习）跟踪器[36]采用卷积LSTM进行模型更新，其中遗忘门和输入门控制历史目标信息的线性组合，即。e. 、LSTM的存储器结构，以及结合节点的实施例。Guo等人。[13]提出了一种动态连体网络，具有用于目标外观变化和背景抑制的两个一般变换。为了进一步提高SiamFC的速度，[16]通过使用深度强化学习来训练策略，以便在响应置信度足够高时提前停止CNN的前馈计算，从而降低了简单帧的特征计算成本SINT [29]也使用Siamese网络进行视觉跟踪，并且具有更高的准确性，但由于使用更深的CNN（VGG16）进行特征提取，并且光流用于其候选采样策略，因此运行速度比SiamFC慢得多（2 fps vs 86 fps）。与使用滑动窗口或随机采样来生成用于测试的候选图像块的其他模板匹配模型不同，G0TURN[14]通过比较先前和当前图像块来直接对块的边界进行分类。尽管它在处理尺度和长宽比变化以及快速方面具有优势，但其跟踪精度远低于其他最先进的跟踪器。不同于现有的基于匹配的跟踪器，其中自适应能力受到神经网络大小的限制，我们使用SiamFC [4]作为基线特征提取器，并将其扩展为使用可寻址存储器，其存储器大小与神经网络无关，因此可以随着任务的存储器需求增加而容易地扩大，以适应对象外观的变化。记忆网络。最近使用卷积LSTM进行视觉跟踪[36]表明，记忆状态对于长时间尺度上的对象模板管理是有用的。记忆网络通常用于解决自然语言处理中的简单逻辑推理问题，如问答和情感分析。开创性的工作包括NTM（神经图灵机）[11]和MemNN（记忆神经网络）[33]。他们都提议4T. Yang和A.B. 陈NTM是一种具有读写机制的可寻址外部存储器，它MemN2N [28]通过去除对支持事实的监督来进一步改进MemNN，这使得它可以以端到端的方式进行训练。基于他们的前身NTM，[12]提出了一种称为DNC（可微分神经计算机）的新框架，它使用不同的访问机制来缓解内存重叠和干扰问题。最近，NTM也通过重新设计读写记忆的方法应用于一次性学习[25]，并且在快速编码和检索新信息方面显示出有希望的结果。我们提出的内存模型与上述内存网络的不同之处在于以下方面。首先，对于问答问题，每个时间步的输入是一个句子，即。特征向量的序列（每个词对应于一个向量），其需要嵌入层（通常为RNN）来获得内部状态。而对于目标跟踪，输入是搜索图像，其需要特征提取过程（通常为CNN）来获得更抽象的表示。由于图像块中的像素位置是未知的，因此本文提出了一种基于图像块中像素位置的注意机制，该注意机制可以在图像块中对像素位置进行有效的跟踪. 其次，存储在存储器中用于自然语言处理的特征向量的维数相对较小（MemN2N中为50，而我们的情况为6×6×256=9216）。直接使用原始模板进行地址计算比较耗时。因此，我们在特征图上应用平均池化来生成用于寻址的模板密钥，这在实验上是高效和有效此外，我们应用通道的门控残差模板学习模型更新，并重新设计的内存写入操作，更适合于视觉跟踪。3用于跟踪的动态记忆网络在本节中，我们提出了一个动态的记忆网络与视觉跟踪的读写机制整个框架如图1所示给定搜索图像，使用CNN提取第一特征。图像特征被输入到注意力LSTM中，该LSTM控制记忆读取和写入。从存储器中读取残余模板，并将其与从第一帧学习的初始模板组合，形成最终模板。将最终模板与搜索图像特征进行卷积以获得响应图，并且提供大范围边界。使用预测的边界框来填充新的图像，提取特征，然后将3.1特征提取给定在时间t的输入图像It，我们首先将帧裁剪成具有由先前预测的边界框计算的矩形的搜索图像块St然后，经由全卷积神经网络（FCNN）将其编码为高级表示f（St），其是空间特征图在这项工作中，我们学习动态记忆网络的目标跟踪5t我写ht−1内存Mt关注LSTM读帧It搜索图像特征提取f（*）htct控制器边界框最终模板+的残留模板初始模板对象图像Ot特征提取f（*）Fig. 1. 我们的追踪算法的流水线。绿色矩形是用于目标搜索的候选区域目标图像和搜索图像的特征提取具有相同的结构和参数。注意力LSTM在搜索特征图上提取目标残余模板与初始模板组合，以获得用于生成响应分数的最终模板然后使用新预测的使用来自SiamFC的FCNN结构[4]。在得到预测的边界框之后，我们使用相同的特征提取器来计算用于存储器写入的新对象模板。3.2注意方案由于需要搜索图像中的对象信息来检索相关模板进行匹配，但对象位置最初是未知的，因此我们应用注意力机制，使LSTM的输入更多地集中在目标上定义fi，i∈Rn×n×c为f（St）上第i个n×n×c的滑动窗口正方形曲面片1每个正方形块覆盖搜索图像的特定部分。这些正方形块的基于注意力的加权和可以被视为对象的软表示，然后可以将其馈送到LSTM中以生成用于记忆检索的正确读取密钥然而，这个软特征映射的大小为了进一步减小每个正方形块的大小，我们首先在f（St）上采用具有n×n滤波器f（St）=平均池化n×n（f（St））（1）f∈Rc是第i块的特征向量1我们使用6×6×256，这与匹配模板的大小相同。ct−16T. Yang和A.B. 陈t我t我t我图二、注意力权重图的可视化：对于每一对，（左）搜索图像和地面实况目标框，以及（右）搜索图像上的注意力图。对于可视化，使用双三次插值调整注意力图的大小以匹配原始图像的大小。然后将关注特征向量计算为特征向量的加权和，的t= ΣLi=1αt，if（二）其中L是正方形斑块的数量，注意力权重αt，i由softmax计算，α=Σexp（rt，i）（三）哪里t我Lk=1 exp（rt，k）rt，i=Wa tanh（Whht−1+Wf f*+b）（4）是一个注意力网络，它取LSTM的前一个隐藏状态ht−1控制器和一个正方形贴片f*作为输入。 W a、W h、W f和b是权重矩阵和网络的偏差。通过比较在每个正方形块中的预定义区域中的注意力的高度或计算形式，注意力网络可以生成在目标上具有较高值并且对于周围区域具有较小值的注意力权重。图2示出了具有注意力权重图的示例搜索图像。我们可以看到，我们的注意力网络可以始终专注于目标，这在检索模板匹配的记忆时是有益的。3.3LSTM内存控制器对于每个时间步，LSTM控制器将在注意力模块中获得的关注特征向量at和先前的隐藏状态ht−1作为输入，并输出新的隐藏状态ht以计算存储器控制信号，包括读取密钥，读取强度，偏置门和衰减率（稍后讨论）。LSTM的内部架构使用标准模型（详见补充部分），而输出层被修改以生成控制信号。此外，我们还为LSTM使用层归一化[2]和dropout正则化[27]初始隐藏状态h0和单元状态c0分别通过将初始值的函数在n × n个顶点层和两个单独的具有双曲型激活函数的全连通层上映射得到学习动态记忆网络的目标跟踪7不阿格什河不不不插槽1插槽2插槽3存储键存储键访问向量读写读取密钥kt擦除因子ew强度读βt偏压门gw，gr，ga衰减率DR新模板控制器写入加权检索模板读权重图3.第三章。内存访问机制图。3.4存储器读取通过用读取权重向量计算所有存储器槽的加权和来检索存储器，读取权重向量由读取键与存储器键之间的余弦相似性确定这旨在检索存储在内存中的最相关设Mt∈RN×n×n×c表示存储模块，使得Mt（j）∈Rn×n×c是存储在第j个存储槽中的模板，N是存储槽的数目LSTM控制器输出读密钥kt∈Rc和读强度βt∈[1，∞]，kt =Wk ht+bk（5）βt=1 + log（1 + exp（Wβht+bβ））（6）其中Wk、W6、bk、b6是对应的权重矩阵和偏置。读密钥kt用于匹配存储器中的内容，而读强度βt指示所生成的读密钥的可靠性。给定读取键，读取强度，读取权重wr∈RN被计算用于存储器检索，wr（j）=Σexp{C（kt， kMt（j））βt}（七）j′e×p{C（kt，kMt（j′））βt}其中kMt（j）∈Rc是由Mt（j）上的n×n平均池化C（x， y）是向量之间的余弦相似度，C（x， y）=x·y。最后，从存储器中检索模板作为加权和，Tretr= ΣNj=1w r（j）M t（j）。（八）8T. Yang和A.B. 陈不见图4。特征通道响应目标零件：图像从我们的跟踪器中使用的CNN的conv5重建。每个图像是通过累积来自相同通道的重构像素来输入图像显示在左上角。3.5残差模板学习直接使用检索到的模板进行相似性匹配容易过拟合最近的帧。相反，我们通过将检索到的模板与通道方向的门向量相乘来学习残差模板因此，我们的最终模板被公式化为，Tfinal= T0+rt Tretr，（9）t t其中T0是初始模板，⊙是通道乘法。rt∈Rc是LSTM控制器产生的残差门rt =σ（Wrht+br），（10）其中Wr、br是对应的权重和偏置，并且σ表示S形函数。残差门控制检索到的模板的每个通道被添加到初始模板的多少，这可以被视为特征选择的一种形式。通过使用反卷积将目标特征图的不同通道投影到像素空间，如[37]所示，我们发现通道聚焦于不同的对象部分（见图4）。因此，逐通道特征残差学习具有单独更新不同对象部分的优点。实验部分5.1显示这产生了很大的性能改进。3.6存储器写入将具有目标新位置的图像块用于模型更新，即记忆书写。新对象模板Tnew是使用特征提取CNN。记忆体写入有三种情况：1）当新对象模板不可靠时（例如，包含大量背景），不需要将新信息写入存储器; 2）当新对象外观与前一帧相比变化不大时，应更新先前读取的存储器槽; 3）当新的目标具有较大的外观变化时，应覆盖新的存储器插槽。为了处理这三种情况，我们将写入权重定义为ww =gw 0 +gr wr +ga wa，（11）t t t学习动态记忆网络的目标跟踪9不不不不不不不其中0是零向量，wr是读取权重，w是是分配权重，负责为内存写入分配新位置。写入门gw、读取门gr和分配门ga由具有softmax函数的LSTM控制器产生。[gw，gr，ga]= softmax（Wght+bg），（12）其中，Wg，bg是权重和偏置。由于gw+gr+ga= 1，这三个门控制三种情况之间的插值。如果gw= 1，那么ww= 0，什么也不写。如果gr或ga具有更高的值，则新模板用于更新旧模板（使用wr）或写入新分配的位置（使用wa）。分配权重的计算公式为，. 1、ifi=argminwu（一）wa（i）其中wu是访问向量，我0，否则t−1（十三）wu =λ wu+ wr + ww，（14）t t−1t t其指示存储器存取（读取和写入两者）的频率，且λ是衰减因子。不经常访问的内存插槽将被分配新模板。写入过程是以写入权重结合写入权重来执行的。用于清除存储器的擦除因子Mt+1（i）= Mt（i）（1− ww（i）ew）+wt（i）wewTnew，（15）t t其中ew是擦除因子，ew=dr gr+ga，（16）并且dr∈[0，1]是由LSTM控制器产生的衰减率dr=σ（Wdht+bd），（17）其中σ是sigmoid函数。Wd和bd是对应的权重和偏置。如果gr= l（并且因此ga= 0），则dr用作用于更新存储器槽中的模板的衰减率（情况2）。如果ga= 1（并且gr= 0），则dr对ew没有影响，并且因此存储器槽将在写入新模板之前被擦除（情况3）。图3显示了内存读写过程的详细示意图4实现细节我们采用像SiamFC [4]中那样的类似于Alex的CNN进行特征提取，其中目标图像和搜索图像的输入图像尺寸是127× 127× 3，并且255×255 ×3。我们使用相同的策略进行裁剪搜索，10T. Yang和A.B. 陈如[4]中的对象图像，其中在裁剪对象图像时添加目标周围的一些上下文边距整个网络是在ILSVRC [24]的VID数据集（视频对象检测）上从头开始离线训练的，大约需要一天的时间。Adam [17]优化用于长度为16的8个视频剪辑的初始学习率为1 e-4，并乘以每10k次迭代0.8通过从每个视频均匀地采样帧（保持时间顺序）来构造视频剪辑这旨在使一个片段中的外观变化多样化以用于训练，其可以模拟快速运动、快速背景变化、抖动对象、低帧速率。我们使用数据增强，包括小图像拉伸和目标图像和搜索图像的平移LSTM控制器中的记忆状态的维数是512，LSTM的丢弃中使用的保留概率是0.8。内存插槽的数量为N=8。用于计算访问向量的衰减因子为λ = 0。99. 在测试时，跟踪器运行完全前馈，不需要在线微调我们基于SiamFC [4]中的上采样响应图定位目标，并通过在三个尺度上搜索目标来处理尺度变化1。05[-1，0， 1]。为了平滑尺度估计并惩罚大位移，我们通过指数平滑s t=（1 −γ）*s t−1+γs new来更新对象尺度，其中s是尺度值，指数因子γ = 0。6. 类似地，我们用余弦窗口将响应图衰减0.15的指数因子。我们的算法在Python中使用TensorFlow工具箱实现[1]。它在一台配备四个英特尔（R）酷睿（TM）i7-7700 CPU@3.60GHz和一个带有11GB RAM的NVIDIA GTX 1080 Ti的计算机上运行速度约为50 fps。5实验我们评估我们提出的跟踪器，表示为MemTrack，在三个挑战-ing数据集：OTB-2013 [34]、OTB-2015 [35]和VOT-2016 [18]。我们遵循标准方案，并使用精确度和成功图以及曲线下面积（AUC）进行评估。5.1消融研究我们的MemTrack跟踪器包含三个重要组件：1）注意力机制，其计算用于存储器读取的关注特征向量;2）动态注意力网络w或k，其不影响该标记的应用和变量;以及3）残差模板学习，其控制模板的每个通道的模型更新的为了评估它们对我们的跟踪器的单独贡献，我们实现了我们方法的几个变体，并在OTB-2015数据集上进行了验证我们首先设计了一个没有注意力机制的MemTrack变体（MemTrack-NoAtt），其对所有L个特征向量求平均以得到用于所述特征向量的特征向量LSTM输入。在数学上，它将（2）变为a=1ΣLf*。我们可以看到tLi=1 t我在图5（左）中，没有注意力的Memtrack会降低性能，显示了在搜索学习动态记忆网络的目标跟踪11MemTrack [0.626]MemTrack-NoAtt [0.611]MemTrack-NoRes [0.603]MemTrack-HardRead [0.600]MemTrack-Queue [0.581]成功率OPE的成功图1OPE的成功图10.8 0.80.6 0.60.4 0.40.2 0.200 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.8 1重叠阈值图五、消融研究：（左）OTB-2015上跟踪器不同变体的成功图;（右）OTB-2015上不同内存大小{1，2，4，8，16}的成功图。形象我们还设计了一个简单的策略，简单地写入新的目标模板顺序到内存插槽作为一个队列（MemTrack-Queue）。当内存被完全占用时，最旧的模板将被新模板替换通过对存储在存储器槽中的所有模板求平均值来生成检索到的模板。参见图5（左），这样简单的方法不能产生好的性能，这说明了我们的动态内存网络的必要性我们接下来设计硬模板读取方案（MemTrack-HardRead），即，用最大余弦距离检索单个模板，以代替软加权和读取方案。图5（左）示出了硬模板可能由于其不可微性而降低性能。为了验证门控残差模板学习的有效性，我们设计了MemTrack的另一变体-去除逐通道残差门（MemTrack-NoRes），即直接将检索到的模板与初始模板相加得到最终模板。从图5（左），我们的门控残差模板学习机制提高了性能，因为它有助于选择用于模板更新的正确残差信道特征。我们还研究了内存大小对跟踪性能的影响图5（右）显示了OTB-2015上使用不同数量内存插槽的成功曲线。跟踪精度随着内存大小的增加而增加，并在8个内存插槽处饱和。考虑到运行时和内存使用情况，我们选择8作为默认值。5.2比较结果我们将我们的方法MemTrack与OTB-2013和OTB-2015上的9个最新实时跟踪器（≥15 fps）进行了比较，包括CFNet [30]，LMCF [32]，ACFN [5]，RFL [36]，SiamFC [4]，SiamFC U [30]，Staple [3]，DSST [7]和KCF [15]到为了进一步展示我们的跟踪精度，我们还与OTB-2015上的另外8个最新的非实时速度的最先进的跟踪器进行了比较，包括CREST [26]，CSR-DCF [19]，MCPF [38]，SRDCFDecon [9]，SINT [29]，SRDCF [6]，HDT[23]，HCF [20]。OTB-2013结果：OTB-2013 [34]数据集包含51个序列，具有11个视频属性和两个评估指标，即中心位置误差和重叠率。图6显示了与OTB-2013上最新实时跟踪器的一次比较结果。我们的跟踪器在成功图上实现了最佳AUC，在精度图上获得了第二名与SiamFC [4]相比，MemTrack-M8 [0.626]MemTrack-M16 [0.625]MemTrack-M4 [0.607]MemTrack-M2 [0.590]MemTrack-M1 [0.586]成功率12T. Yang和A.B. 陈ACFN [0.860]MemTrack（我们的）[0.849]LMCF [0.842]SiamFC [0.809]SiamFC_U [0.806]吻合钉[0.793][0.786]CFNet [0.785]KCF [0.740][0.740]MemTrack（我们的）[0.820]ACFN [0.799]LMCF [0.789]吻合钉[0.784]RFL [0.778]CFNet [0.777]澳门银河[0.771]SiamFC_U [0.769]KCF [0.696][0.680]成功率成功率OPE的精密度图1OPE的成功图10.8 0.80.6 0.60.4 0.40.2 0.200 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值图六、OTB-2013上最近实时跟踪器的精度和成功图。OPE的精密度图1OPE的成功图10.8 0.80.6 0.60.4 0.40.2 0.200 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值图7.第一次会议。最近的实时跟踪器在OTB-2015上的精度和成功图。在没有在线更新的基于匹配的方法的基线下，我们的跟踪器在精确图上实现了4.9%的改进，在成功图上实现了5.8%的改进我们的方法也优于SiamFC U，SiamFC的改进版本[30]使用简单的线性插值的旧的和新的过滤器，具有小的学习率在线更新。这表明我们的动态记忆网络可以更好地处理对象外观的变化，而不是简单地用旧模板插入新模板。OTB-2015结果：OTB-2015 [35]数据集是OTB- 2013到100个序列的扩展，因此更具挑战性。图7显示了近期实时跟踪器的精度图和成功图。我们的跟踪器在这两个方面都优于所有其他方法具体来说，我们的方法比RFL [36]执行得更好，RFL[36]使用LSTM的记忆状态来维持对象外观变化。这证明了使用外部可寻址存储器来管理对象外观变化的有效性，与使用受隐藏状态大小限制的LSTM存储器相比此外，MemTrack改善了基于模板的方法SiamFC [4]的基线，分别为6.4%的精密度图和7.6%的成功图。我们的跟踪器在AUC分数上也优于最近提出的两种跟踪器LMCF [32]和ACFN[5]，具有较大的图8呈现了8个最新技术水平的非实时跟踪器的AUC分数（左图）的比较结果，以及所有跟踪器的AUC分数与速度（右图）的比较结果。我们的MemTrack实时运行，具有与CREST [26]，MCPF [38]和SRDCFDecon [9]相似的AUC性能，它们都以约1 fps运行。此外，我们的MemTrack也超过了SINT，这是另一种基于匹配的方法，其光流为MemTrack（我们的）[0.642]LMCF [0.628]SiamFC_U [0.618]SiamFC [0.607]ACFN [0.607]吻合钉[0.600]CFNet [0.589]RFL [0.583][0.554]KCF [0.514]MemTrack（我们的）[0.626]SiamFC_U [0.588]CFNet [0.586]SiamFC [0.582]吻合钉[0.581]RFL [0.581]LMCF [0.580]ACFN [0.573][0.513]KCF [0.477]精度精度学习动态记忆网络的目标跟踪13OPE的成功图10.65AUC vs速度0.80.60.60.40.2000.20.40.6 0.810.550.50.450 50 100150200 250重叠阈值速度（fps）图8. （左）OTB-2015上的成功图，将我们的实时MemTrack与最近的非实时跟踪器。（右）AUC分数与最近跟踪器的速度。OPE的成功图-照明变化（38）1OPE的成功图-平面外旋转（63）1OPE的成功图-规模变化（64）1OPE的成功图-闭塞（49）10.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 0.20.40.60.81重叠阈值OPE的成功图-运动模糊（29）100 0.20.40.60.81重叠阈值OPE的成功图-快速运动（39）100 0.20.40.60.81重叠阈值OPE的成功图-平面内旋转（51）100 0.20.40.60.8 1重叠阈值OPE的成功图-低分辨率（9）10.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 0.20.40.60.81重叠阈值00 0.20.40.60.81重叠阈值00 0.20.40.60.81重叠阈值00 0.20.40.60.8 1重叠阈值见图9。OTB-2015在八个具有挑战性的属性上的成功图：照明变化、平面外旋转、比例变化、遮挡、运动模糊、快速运动、平面内旋转和低分辨率运动信息，在精度和速度方面图9进一步示出了在不同视频属性下0TB-2015上的实时跟踪器的AUC分数，所述视频属性包括照明变化、平面外旋转、尺度变化、遮挡、运动模糊、快速运动、平面内旋转和低分辨率。我们的跟踪器在这些属性上优于所有其他跟踪器。特别是，对于低分辨率属性，我们的 MemTrack 超过了第二名（SiamFC），AUC评分提高了10.7%。此外，我们的跟踪器也可以很好地工作在平面外旋转和尺度变化。图10示出了我们的跟踪器与6个实时跟踪器相比的一些定性结果。VOT-2016结果：VOT-2016数据集包含60个视频序列，每帧都有注释的视觉属性。对象使用旋转的边界框进行标记，以更好地适应其形状。我们将我们的跟踪器与基准测试中的8个跟踪器（四个实时和四个最高性能）进行比较，包括SiamFC [4]，RFL [36]，HCF [20]，KCF[15]，CCOT [10]，TCNN [21]，DeepSRDCF[8]，[22]《明史》表1总结了结果。虽然我们的MemTrack在EAO上的表现比CCOT，TCNN和DeepSRDCF差，但它的运行速度为50 fps，而其他的运行速度为1 fps或更低。我们的跟踪器始终优于基准SiamFC和RFL，以及其他实时跟踪器。如VOT2016中所报告，SOTA结合为EAO0.251，MemTrack超过（0.273）。MCPF [0.628]SRDCFDecon [0.627]MemTrack（我们的）[0.626]冠[0.623]SRDCF [0.598]SINT [0.592]CSR-DCF [0.585]HDT [0.564]HCF [0.562]MCPFSRDCFDeconMemTrack（我们的）CRESTSRDCFSINTCSR-DCFHDTHCFCFNetSiamFC吻合钉RFLLMCFACFNDSSTKCFMemTrack（我们的）[0.614]LMCF [0.602]吻合钉[0.598]CFNet [0.574]RFL [0.571]SiamFC [0.568]ACFN [0.567][0.558]SiamFC_U [0.549]KCF [0.479]MemTrack（我们的）[0.605]CFNet [0.558]SiamFC [0.558]LMCF [0.557]SiamFC _U [0.547][0.547]ACFN [0.543]吻合钉[0.534][0.470]KCF [0.453]MemTrack（我们的）[0.602][ 0.559]SiamFC [0.552]CFNet [0.552]SiamFC _U [0.550]ACFN [0.547]LMCF [0.525]吻合钉[0.525][0.468]KCF [0.394]MemTrack（我们的）[0.581]LMCF [0.556]吻合钉[0.548]SiamFC [0.543][ 0.541]SiamFC_U [0.540]ACFN [0.538]CFNet [0.536][0.453][0.443]MemTrack（我们的）[0.611]CFNet [0.584]RFL [0.573]LMCF [0.561]ACFN [0.561]SiamFC [0.550]吻合钉[0.546]SiamFC_U [0.514][0.469]KCF [0.459]MemTrack（我们的）[0.623]RFL [0.602]CFNet [0.583]SiamFC [0.568]ACFN [0.561]SiamFC_U [0.558]LMCF [0.551]吻合钉[0.537]KCF [0.459]DSST [0.447]MemTrack（我们的）[0.606]CFNet [0.590][0.574]SiamFC_U [0.572]SiamFC [0.557]吻合钉[0.552]LMCF [0.543]ACFN [0.543]DSST [0.502]KCF [0.469]MemTrack（我们的）[0.684]SiamFC [0.618]SiamFC_U [0.586]CFNet [0.582]RFL [0.573][0.515]吻合钉[0.396]LMCF [0.385][0.370]KCF [0.290]成功率成功率成功率成功率成功率成功率AUC分数成功率成功率成功率14T. Yang和A.B. 陈图10个。我们的MemTrack以及SiamFC [4]、RFL [36]、CFNet [30]、Staple [3]、LMCF [32]、ACFN [5]对8个挑战序列的定性结果。从左到右，从上到下：board，bolt2，dragonbaby，lemming，matrix，skiing，biker，girl2。跟踪器MemTrack SiamFC RFLHCF KCFCCOT TCNN DeepSRDCF MDNetEAO（↑）0.27292012年12月31日0.3310 0.32490.27630.2572A（↑）0.530.53 0.52 0.440.540.550.520.54R（↓）1.441.91 2.51 1.45 1.950.890.831.230.91fps（↑）5086 15 11 1720.3111表1. VOT-2016与顶级表现者的比较结果。评价指标包括期望平均重叠值（EAO）、准确度和鲁棒性值（A和R）、准确度和稳健性等级（Ar和Rr）。最好的结果用粗体表示，其次是最好的是下划线。向上的箭头指示较高的值对于该度量更好，而向下的箭头意味着较低的值更好。6结论在本文中，我们提出了一个动态记忆网络与外部可寻址内存块的视觉跟踪，旨在适应匹配模板对象外观变化。具有注意力的LSTM方案通过参数化内存交互来控制内存访问我们开发了通道式门控残差模板学习来形成最终的匹配模型，该模型保留了初始目标中存在的保守信息，同时提供了每个特征通道的在线自适应性一旦离线训练过程完成，就不需要在线微调，这导致50 fps的实时速度标准跟踪基准上的广泛实验证明了我们的MemTrack的有效性。鸣谢本研究获中国香港特别行政区研究资助局拨款资助（项目编号：20000000）。[T32-101/15-R]及城大11212518），以及香港城市大学策略研究资助计划（项目编号：7004887）。我们非常感谢NVIDIA公司的支持，为这项研究捐赠了Tesla K40 GPU。学习动态记忆网络的目标跟踪15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，等：Tensorflow：异构分布式系统上的大规模机器学习。2016年《ArXiv2. BA J.L.Kiros，J.R.Hinton，G.E.：图层规范化。2016年《ArXiv3. 贝尔蒂内托湖Valmadre，J.，Golodetz，S.，Miksik，O.，Torr，P.：Staple：Comple-用于实时跟踪的学习者见：CVPR（2016）4. 贝尔蒂内托湖Valmadre，J.，Henriques，J.F.，Vedaldi，A.，Torr，P.H.S.：用于目标跟踪的全卷积连体网络。In：ECCV Workshop on Visual Object Challenge（2016）5. 崔，J.，Chang，H.J.，Yun，S.，Fischer，T.，Demiris，Y.，Jin Young Choi：用于自适应视觉跟踪的衰减相关滤波网络。在：CVPR（2017）6. Danelljan，M.，Gustav，H. Khan，F.S.，Felsberg，M.：学习用于视觉跟踪的空间正则化相关滤波器In：ICCV（2015）7. 当我们在一起时，M.， H g e r，G.， Khan，F.， Felsberrg，M. ：鲁棒视觉跟踪的集中式搜索算法。电影BMVC（2014）8. Danelljan，M.，Hager，G.，Khan，F.S.，Felsberg，M.：基于卷积特征的相关滤波视觉跟踪。在：ICCV视觉对象挑战研讨会（2015）9. 当我在这里的时候，M.， H g e r，G.， Khan，F. 美国， Felsberrg，M. ：在训练集的最小值处进行检测：判别式视觉跟踪的统一公式。见：CVPR（2016）10. Danelljan，M.，Robinson，A.，Khan，F.S.，Felsberg，M.：超越相关滤波器：学习用于视觉跟踪的连续卷积算子。In：ECCV（2016）11. 格雷

下载后可阅读完整内容，剩余1页未读，立即下载