基于局部结构的实时视觉跟踪算法

171 浏览量更新于2023-10-15 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于实时视觉跟踪的张云华【0000−0003−3567−215X】、王丽君【0000−0003−2538−8358】、齐金庆【0000−0002−3777−2405】、王东【0000−0002−6976−4004】、冯梦阳【0000−0002−7112−4655】、卢沪川【0000−0002−6668−9758】大连理工大学信息与通信工程学院{zhangyunhua，wlj，mengyang feng}@ mail.dlut.edu.cn{wdice，jinqing，lhchuan}@ dlut.edu.cn抽象。目标物体的局部结构对于鲁棒跟踪是必不可少的。然而，基于深度神经网络的现有方法大多从全局角度描述目标外观，导致对非刚性外观变化和部分遮挡的高敏感性。在本文中，我们绕过这个问题，提出了一个局部结构学习方法，同时考虑局部模式的目标，得到更准确的目标跟踪和它们的结构关系为此，局部模式检测模块被设计成自动地识别目标对象的有区别的区域检测结果通过消息传递模块进一步细化，该模块在局部模式之间强制执行结构上下文以构造局部结构。我们表明，消息传递模块可以制定为条件随机场（CRF）的推理过程，并通过可微操作实现，允许整个模型以端到端的方式进行训练通过考虑局部结构的各种组合，我们的最后通过目标模板与候选模板之间的结构模式匹配过程实现目标跟踪在三个基准数据集上的广泛评估表明，所提出的跟踪算法在以45 fps的高效速度运行时，与最先进的方法相比表现良好关键词：跟踪，深度学习，连体网络1介绍单目标跟踪是计算机视觉中的基本问题，其中目标对象在第一视频帧中被识别并且在后续帧中被连续跟踪。虽然在过去的几十年中已经取得了很大的进展，仍然存在巨大的挑战，在设计一个强大的跟踪器，可以很好地处理显着的外观变化，姿势变化，严重的闭塞，和背景杂波的实时速度。2A.作者和B。作者一项调查[18]通过在线微调预训练的深度模型[34，35，28，32]或直接利用预训练的深度特征来表征目标[10，7，21，30，29]，研究了最近用于视觉跟踪的深度神经网络（DNN）虽然有前途的性能已被报道，这些方法只利用整体模型的目标表示和忽略详细的信息。上述问题在传统方法中主要由基于部件的模型来处理[19，20]。基于部件的方法不是用一个全局模型来描述整个对象，而是将目标区域划分为许多固定的矩形块，并且能够捕获目标的局部图案。因此，它们在处理非刚性外观变化方面更灵活然而，这些方法具有其自身的缺点。一方面，这些方法独立地处理局部模式，并且不能利用它们的结构关系，从而引起噪声和不准确的预测。另一方面，这些方法大多依赖于手工制作的特征。使用深度学习技术探索局部模型仍然非常罕见，这是由于针对多个局部区域的深度特征提取所涉及的为了解决上述问题，本文提出了一种新的基于结构约束的局部模型，用于使用DNN进行视觉跟踪与先前的基于部分的跟踪器相反，我们的方法不明确地将目标划分为部分。相反，我们使用本地模式检测模块，这是计算效率更高的判别模式识别对象部分为了加强局部模式之间的结构关系，通过使用消息传递模块考虑来自相关模式的上下文信息来进一步细化预测的局部模式。对于一个更有原则的解决方案，我们制定的信息传递模块的CRF，可以有效地实现使用微分运算和嵌入到神经网络的推理过程。结果，整个模型可以以端到端的方式被训练以用于在线跟踪，使得局部模式检测模块可以学习自动识别关键对象部分，同时消息传递模块学习对检测到的模式之间的结构关系进行目标跟踪最终实现通过模板候选匹配检测到的本地模式，使用连体网络架构。我们的方法比现有的基于DNN的跟踪器有三个优点。首先，我们的方法在对象部分级别上执行，因此在处理非刚性外观变化和部分遮挡方面更加灵活。同时，由于局部模式检测模块，我们的方法是高效的，运行在45帧/秒的实时速度此外，我们的方法可以有效地利用局部模式之间的结构上下文，产生更准确的目标检测。本文的主要贡献可以概括如下：i）我们提出了一个局部模式检测方案，它可以自动识别目标对象的有区别的局部部分。ii）我们通过可微操作实现消息传递过程，并通过神经网络模块对其进行重新表述通过这样做，我们的网络可以同时学习本地模式很长的标题3以及本地模式之间的关系。这产生更准确的跟踪结果。（3）提出了一种新的基于Siamese网络的匹配框架，该框架连续地应用和集成了新技术，并以实时速度运行。在三个广泛采用的基准上进行的广泛评估表明，所提出的方法在跟踪精度和效率方面与最先进的方法相比具有更好的性能。2相关工作本节回顾现有的跟踪方法，这些方法大多与我们的方法相关。通过区别性外观建模进行跟踪：使用深度网络进行视觉跟踪的一种简单而有效的方式是在深度卷积神经网络（CNN）的多维特征图上直接应用相关滤波器，其中预先训练的CNN模型是固定的。最近，Danell-jan等人.[10]已经引入了一种称为C-COT的连续空间域公式，允许多分辨率深度特征的有效集成。C-COT及其改进版本ECO [7]在VOT挑战[17]中实现了最佳性能，但由于跟踪速度相当慢，因此不适合实时应用。另一类深度跟踪器[34，35，24]在线更新预先训练的CNN，以考虑测试时的目标特定外观。例如，Wang et al.[34]提出了一种特征图选择方案，并预测了具有大量在线更新时间表的目标的响应图。然而，这些方法[34，35，24]依赖于计算效率低下的搜索算法，例如滑动窗口或候选采样，这显著降低了它们在实时场景中的适用性。同时，它们还高度依赖于在线更新，这在计算上是低效的，并且对于实时任务来说是不可取的。通过Siamese网络进行跟踪：基于Siamese网络的跟踪器[31，3]通过在图像对上离线学习的匹配函数从候选块中选择目标。匹配函数通常由具有绑定参数的双分支CNN实现，其将图像对作为输入并预测它们的相似性。虽然SiamFC [3]可以超越实时运行，但由于缺乏在线自适应能力，其跟踪精度仍然不如最先进的跟踪器尽管SINT [31]实现了更高的跟踪精度，但它采用光流来促进候选采样，并且比SiamFC慢得多（约2 fps）。最近，DSiamM跟踪器[11]提出通过将相关滤波器集成到网络中来执行连体网络的在线更新在[14]中，学习了一个策略来决定是否在早期层上定位对象以加速跟踪过程。虽然我们也采用了暹罗网络架构的跟踪，我们的方法显着不同于现有的方法，我们是能够自动检测本地模式的目标外观和模型的结构关系。实验证实，我们的方法可以更好地处理挑战的情况下，如剧烈的外观变化，部分遮挡，旋转。4A.作者和B。作者基于零件的跟踪器：近年来，对非刚体目标的跟踪方法引起了人们的极大关注。由于普通的跟踪器几乎不能处理极端的变形，一些跟踪器针对这一任务，试图利用零件信息，并取得良好的性能。在[27]中，集成了在单个补丁上操作的在线梯度提升[38]在超像素图上使用马尔可夫链，但是根据结构，通过图的信息传播可能很慢。Ting etal.[20]和Yang et al.[19]提出了基于相关滤波器的基于补丁的跟踪器，并在粒子滤波器框架内组合补丁。然而，这些方法分别学习每个部分的相关滤波器，并记录每个部分与目标中心之间的相对位置此外，现有的基于补丁的跟踪器刚性地将目标对象划分为固定数量的片段。这种粗糙的刚性面片划分不能保持局部结构的区分性，并且这种面片的特征包含的语义信息很少。这种方法的合理更新策略难以设计，并且容易因变形变化剧烈而漂移。用于图像分割的条件随机场：条件随机场（CRF）已被广泛用于图像分割任务[4，40，16]。他们利用CRF在图像中的所有像素对上建立成对电位，以利用像素的相互作用。该方法[16]开发了一种完全连接的成对CRF，具有有效的计算以捕获精细的边缘细节，同时还满足长范围依赖性。该模型被证明在很大程度上提高了基于提升的像素级分类器的性能Chen等人[4]使用CRF来细化从CNN和Zheng等人获得的分割结果。[40]将CRF推理过程嵌入到网络中，并实现端到端训练。它们都使用CRF来捕获像素的相互作用，并在图像分割任务中实现受他们方法的启发，我们采用CRF推理，通过消息传递来建模局部模式的上下文信息与采用固定的高斯核来制定成对项相反，我们使用可学习的卷积核来建模成对项，这可以更好地编码对象局部模式。3结构化暹罗网络3.1概述在这项工作中，我们提出了一个结构化的连体网络，它同时进行歧视性模式检测，局部结构学习和集成在一个端到端的方式。图1概述了我们的跟踪算法的流水线。双流连体网络[3]被离线训练，以在更大的255× 255搜索图像x中定位127× 127模板图像z。学习相似度函数以密集地比较模板图像z与搜索图像x中的相同大小的每个候选区域，以便预测突出目标区域的得分图。具体地，提出了互相关层来计算很长的标题5裁剪目标127*127*314096模板帧1逐像素softmax卷积内核*切片concat一元成对连接搜索区域255*255*3174096当前帧17当地上下文一体化图案建模检测模块Fig. 1. StructSiam算法的流水线。在一次通过中X中的所有平移子区域的相似性F（z，x）=（z）*（x）+v，（1）其中，卷积特征是由每个网络流生成的卷积特征嵌入;v∈R表示偏差;和F（. ，的。）表示大小为17 × 17的预测置信度得分图。网络的两个流共享相同的架构和参数，由三个组件组成：本地模式检测器，上下文建模模块和集成模块。这些组件的详细信息将在以下章节中详细介绍最后的互相关操作是基于所获得的映射，我们称之为结构模式。训练网络采用逻辑损耗：L=log（1+e-yv），（2）其中v是单个模板候选对的实值得分，并且y∈[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][193.2信息局部模式检测器信息局部模式是表征目标外观的关键线索。我们设计了局部模式检测器，通过端到端的训练来自动识别有区别的模式，而不是手动将目标区域划分为预先固定的部分局部模式检测器包括两个卷积层，核大小分别为11× 11和5× 5这些卷积层中的每一个都遵循6A.作者和B。作者Z（I）批处理归一化层[15]，ReLU层[23]和3× 3最大池化层。该模块将图像裁剪作为输入，并检测目标外观的局部图案。输出特征图具有256个通道，每个通道对应于特定的局部模式。Softmax层用于跨通道归一化输出特征图。与具有低分辨率和有限详细信息的较深层中的特征相反，所提出的仅具有两个卷积层和两个最大池化层的局部模式检测器具有相对小的感受野。因此，它可以更好地聚焦于目标的局部区域并保留更详细的信息（参见图1中的局部图案检测器模块的可视化结果作为示例）。这种设计也与视觉跟踪中的最新发现[10，7]一致，即详细的低级别特征更具区分性，适用于目标匹配。然而，局部模式检测器具有主要缺点。由于各个模式由输出特征图的不同通道独立地检测，因此这些局部模式之间的结构关系大多被忽略。因此，检测结果可能不准确并且容易受到背景噪声的影响。基于这种观察，我们引入了上下文建模模块进行细化。3.3情境建模模块通常，我们的局部模式检测器倾向于捕获局部模式，如人的头部，腿部和躯干，汽车或自行车的车轮，以及具有显著边缘的区域（我们将在第4节的图4中显示示例它们在视觉跟踪任务中很常见，并且它们的外观对于不同的目标、序列和时间可以显著不同。因此，将这些通用局部模式的先验知识我们把先验知识看作是局部模式之间的关系当被跟踪目标经历复杂的背景或剧烈的外观变化时，单个局部模式的检测结果是不可靠的。因此不同局部模式之间的关系（即，上下文信息）以便于检测过程。上下文信息的整合是通过消息传递来实现的，这可以加强高度结构化的区域的响应，并抑制噪声背景响应。为了有效地实现消息传递过程，我们引入了条件随机域（ CRF ）approximatintoournetwork。利用图的形式来模拟图像的局部模式检测问题，并通过CRF对前一阶段生成的局部模式之间的联合概率关系进行令Xi是与像素i相关联的随机变量，其表示分配给像素i的局部图案的类型，并且可以从预定义集合P ={pi，p2，…p，c}，并且c是特征图的通道大小。我们认为每个通道代表一个特定的局部模式。设X是由随机变量 X1， X2，…，其中N是特征图中的像素数。给定图G=（V，E），其中V={X1，X2，.，X，N}和全局观察（图像）I，则对（I，X）可以被建模为由形式P（X = X，N）的G i bb s分布表征的CRF。|I）=1e−E（x|I）的第10条。HereE（x）iss很长的标题7j=max（0，i-R）j=max（0，i-R）Zi6称组态x∈ LN的能量，Z（I）为配分函数。从现在开始，为了方便起见，我们在符号中去掉了对I标签分配X的能量由下式给出：E（x）=<$i<$u（xi）+<$i <$min（N−1，i+R）<$p（xi，xj），（3）其中，一元能量分量Wu（xi）测量像素i从属于局部图案xi的逆似然（并且因此，成本），并且成对能量分量Wp（xi，xj）测量将局部图案类型xi，xj同时分配给像素i，j的成本，并且R是成对能量计算所考虑的周围像素的范围在我们的模型中，unaryeneregie是获得的从从一个局部的模式类型分配器的输出，其中h i c h prd i c t i c标签的像素，而不考虑的平滑性和一致性的成对能量用作数据相关的平滑项，并鼓励将相关类型分配给具有相似特征的像素考虑到自然图像的平移不变性，我们使用卷积运算实现成对能量，如下所示：ψp（xi，xj）=Σmin（N−1，i+R）wi，j*xj+bi，（4）其中，对于i = 1，…， N被共享用于本地地址映射中的所有位置，并且w是wi，j=i=0，以将数据p从xi保留到其自身。最小化上述CRF能量E（X）产生最可能的局部结构。输入图像的真实分布由于直接最小化是困难的，我们采用平均场变分推断来近似CRF分布在QP（z）上，其中具有独立的边值问题，即。例如，Q（z）=iQ（zi）.为此，我们首先考虑平均场的各个步骤算法1中总结的算法，并使用可微分运算实现它们设Ui（p）表示一元能量的负值，即，Ui（p）=−ψu（Xi=p），其中p表示局部模式类型。在我们的CRF中，一元能量ψu直接从局部模式检测器的输出中获得。在算法1的第一步中，我们用Qi（p）←1eUi（p）初始化Qi（p），其中Zi=ΣpeUi（p）。请注意，这相当于在每个像素处的所有标签上的一元电位U上然后，通过如⑷中所述在Q上应用两个3X3卷积核来执行消息传递（算法1中的步骤4）。每个输出像素为5× 5，即5目标对象的输出大小（考虑到目标模板）并且足以对目标结构进行由于没有激活层（例如，ReLU），它们可以用于实现（4）中的线性映射，其参数少于一个5× 5卷积层。学习核以在局部模式中编码上下文结构信息。从一元输入U逐元素地减去来自消息传递级的输出。最后，迭代的归一化步骤可以通过另一个没有参数的softmax操作来实现。8A.作者和B。作者算法1平均场近似。1：对于所有i，初始化Q〇，Q〇（p）=l（Ui（piZi2：初始化迭代次数L。3：对于t= l：Ldo4： Q~（p）=Σj=min（N−1，i+R）w？Qt−1+bij=max（0，i-R）i，jji5： Qi←Ui（p）−Q~i（p）6： Qt←1eQi（p）iZi7：结束给定上述实现，平均场算法的一次迭代可以被公式化为公共神经网络层的堆叠。可以通过使估计的概率Q多次循环地通过网络来实现多次在实践中，我们发现三个迭代步骤就足以获得令人满意的性能。每个局部模式接收来自其他模式的信息，这些信息可以被看作是上下文信息。上下文信息固有地指示输入图像的结构信息。因此，在消息传递阶段之后，局部模式图被有效地细化。当跟踪目标正在经历杂乱的背景和剧烈的变形挑战时，最终得分图的噪声较小。在一般情况下，通过局部模式之间的消息传递，CRF概率模型描述了通用对象的通用结构信息，而不管目标的类别。由于上下文建模模块的所有操作都是可区分的，因此可以以端到端的方式训练整个网络。3.4集成模块上下文建模模块的输出映射能够在形式上捕获预建模的对象。在不同的局部位置处，将模板与搜索区域直接相关容易变形。与SiameseFC[3]使用具有空间布局的特征进行相关相比，我们的集成模块将局部模式（目标和候选者）聚合到1 ×1特征图中，每个通道都作为一个属性来指示特定模式的存在，而不管其位置如何。在我们的方法中，对应于模板和搜索区域的特征图被馈送到6 ×6卷积层，这导致1× 1× 4096张量表示模板，17× 17× 4096张量T表示搜索区域。将这两个张量相关以获得最终响应。显然，搜索区域中的每个空间位置（x，y）具有对应的1× 1× 4096张量T（x，y，：），该张量与其他张量不同最终图中的每个像素指示区域的局部图案信息，并且最终相关性找到将该局部图案合并为该区域的像素（作为目标的中心）。通过这种方式，可以在一定程度上减少由变形变化引起的应变，这将在第4节中得到证明。很长的标题9表1.跟踪器的速度比较。我们的ACFN LCT SCT MEEM CFNet-conv 2 SiameseFC Staple KCF DSST速度/fps 45 15 27 40 10 75 58 80 172 24OPE的精密度图1OPE的成功图1OPE的精密度图1OPE的成功图10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.50.50.50.40.40.40.40.30.20.30.20.30.20.30.20.10.10.10.1005101520253035404550定位误差门限000.10.20.30.40.50.60.70.80.91重叠阈值005101520253035404550定位误差门限000.10.20.30.40.50.60.70.80.91重叠阈值(a) 与OTB2013的比较（b）与OTB2015的比较图二.使用距离精确率（DPR ）和重叠成功率（AUC ）对OTB2013 和OTB2015进行比较。4实验4.1实现细节培训数据。由于我们的网络的动机与Siame-seFC不同，Siame-seFC旨在学习匹配函数以执行度量学习，因此仅在ILSVRC 2014 VID数据集上训练是不合适的。视觉对象跟踪任务是跟踪通用对象，无论是什么类别。ILSVRC2014 VID数据集更偏向于包含头部、四肢和躯干的动物，这将导致我们的结构化网络的无效学习。结构模式学习的目标是响应结构区域的中心，旋转对象是结构模式学习的必要条件。为了对通用对象内部结构进行建模，我们使用ILSVRC 2014 VID数据集[25]和ALOV数据集[26]。为了进行公平的比较，我们丢弃了测试数据集中出现的常见序列。参数设置。我们使用Tensorflow库[1]在Python中实现了所提出的方法。整个网络的参数由高斯分布随机引导初始化[12]。众所周知，softmax会导致梯度消失，这使得网络训练效率低下。因此，我们将特征图乘以常数β，这将使网络收敛得更快。β被设置为等于特征图的通道大小，即，β= 256。训练在50个时期内进行，每个时期由60，000个样本对组成每次迭代的梯度使用大小为8的小批量来估计，并且学习率在每个时期从10- 2到10- 5进行几何退火，如[3]所示我们使用SGD方法进行优化，并使用单个NVIDIA GeForce GTX1080和3.6GHz的Intel Core i7-4790训练网络跟踪算法利用学习的StructSiam，我们将我们的跟踪算法总结如下：给定目标位置在I1，即，a边界框b1∈R，我们裁剪相应的区域作为目标模板O1，即StructSiam[0.880]ACFN[0.860]LCT [0.848]SCT [0.839]MEEM[0.830]SiamFC[0.809]CFNet-conv2[0.807]吻合钉[0.782]KCF [0.740][0.740]结构Siam [0.638]LCT [0.628]CFNet-conv2 [0.611]SiamFC [0.607]ACFN [0.607]SCT [0.595]吻合钉[0.593]MEEM [0.566][0.554]KCF [0.514]StructSiam [0.851][0.795]吻合钉[0.784]MEEM[0.781]澳门银河[0.771]SCT [0.764]LCT [0.762]CFNet-conv2[0.748]KCF [0.696]DSST [0.687]结构Siam [0.621]SiamFC [0.582]吻合钉[0.578]ACFN [0.571]CFNet-conv2 [0.568]LCT [0.562]SCT [0.531]MEEM [0.530][0.517]KCF [0.477]成功率精度精度成功率10A.作者和B。作者0.9OPE的成功图-背景杂波（31）0.9OPE-变形的成功图（44）OPE 的成功图-平面内旋转（51）1OPE 的成功图-低分辨率（10）10.80.80.90.90.70.70.80.80.60.60.70.70.50.40.30.50.40.30.60.50.40.30.60.50.40.30.20.10.20.10.20.10.20.1000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值OPE 的成功图-运动模糊（31）1OPE 的成功图-闭塞（49）1OPE 的成功图-平面外旋转（63）1OPE 成功图-量表变异（65）10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.40.30.50.40.30.50.40.30.50.40.30.20.20.20.20.10.10.10.1000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值000.10.20.30.40.50.60.70.80.91重叠阈值图三.成功绘制了八个跟踪挑战，包括背景杂波，变形，平面内旋转，低分辨率，运动模糊，遮挡，平面外旋转和尺度变化。比b1稍大，以b1为中心。然后我们提取O1的深层特征得到F1。当在第t帧处跟踪时，我们在三个尺度上裁剪搜索区域，即，1.一、025{−1，0， 1}×S0，其中S0是原始比例，以bt−1为中心。然后，我们通过（1）得到3个响应图我们在三个响应图中搜索最大值，并得到其各自的位置和尺度，从而得到bt。4.2OTB2013上的实验OTB2013 [36]包含50个完全注释的序列，这些序列是从常用的跟踪序列中收集的。我们将我们的跟踪器与其他9种最先进的实时跟踪器进行比较，包括LCT [22]，MEEM [39]，SiameseFC [3]，Staple [2]，[13]，[14]，[15]，[16]，[17]，[18]，[19]。按照[36]中的方案，我们使用两个指标报告了一次通过评估（OPE）的结果：精确度和成功图，如图2（a）所示。精度度量计算其中心位置在与地面实况位置的某一距离内的帧的速率。成功度量计算所跟踪的边界框与地面实况边界框之间的重叠比率。此外，我们报告了成功图的曲线下面积（AUC）得分和每种跟踪方法的精度图中20像素阈值处的距离精度得分。总体而言，StructSiam在该数据集上的表现优于其他实时最先进的跟踪器。我们的跟踪器实现了 87.4%的距离准确率（ DPR）和 AUC得分为0.638，实时速度为45 fps。此外，它在准确性方面优于其他竞争对手的实时系统。4.3OTB2015上的实验OTB2015 [37]数据集是OTB2013的扩展，更具挑战性。两个基准的评价标准相同。与上述相同的实时跟踪器相比，结果如图2（b）所示，速度比较如表1所示在OTB2015数据集上，我们的StructSiam [0.588]吻合钉[0.561]LCT [0.550]CFNet-conv2 [0.549]SCT [0.542]ACFN [0.528]DSST [0.523]SiamFC [0.523]MEEM [0.519]KCF [0.498]结构Siam [0.571]吻合钉[0.550][0.535]SCT [0.506]SiamFC [0.506]LCT [0.499]MEEM [0.489]CFNet-conv2 [0.473][0.436]DSST [0.427]StructS iam [0.601]CFN et-co nv2 [0.568]Siam FC [0.557]LCT [0.557]吻合钉[0.548]AC FN [0.538]M E E M [0.529]SC T [0.518][0.505]KC F [0.469]Struc tS ia m [0.6 04 ]CF N e t-c on v 2 [0.5 90 ]Siam F C [0.5 73 ]AC FN[0.4 14 ]吻合钉 [0.39 4 ][0.39 0 ]M E E M [0.3 55 ]LC T [0.3 30 ]标准差[0.3 10 ]KC F [0.3 07 ]澳门银河[0.642]Siam FC [0.568]CFN e t-conv 2 [0.567][0.555]吻合钉[0.553]M E E M [0.545]LCT [0.532]SC T [0.514]DS S T [0.488]KC F [0.456][0.602]Siam FC [0.543]吻合钉[0.542]AC FN [0.533]CFN et-co nv2 [0.516]LCT [0.507]M E E M [0.504]SC T [0.498][0.460][0.443]结构 Sia m [0.5 94 ]Sia m F C [0.5 58 ]AC FN[0.5 43 ]CF N e t-c on v 2 [0.5 42 ]LC T [0.5 38 ]吻合钉 [0.5 33 ]M E E M[0.5 25 ]SC T [0.5 13 ]DS S T [0.4 77 ]KC F [0.4 53 ]StructS iam [0.605]Siam FC [0.557]AC FN [0.546]CFN e t-conv 2 [0.539]吻合钉[0.525]LCT [0.492]DS S T [0.482]M E E M [0.474]SC T [0.439]KC F [0.399]成功率成功率成功率成功率成功率成功率成功率成功率很长的标题11不同帧上的响应图全球模型的响应图结构暹罗ACFN钉MeemSCTLCTCFNet暹罗足球会DSSTKCF见图4。定性评估所提出的算法和其他国家的最先进的实时跟踪器上的七个序列（Skater2，Walking2，MotorRolling，Jump，Girl2，Bolt2和Trans.追踪器实现85.1%的DPR和62.1%的AUC。考虑到速度和精度，我们的方法取得了非常有竞争力的结果。基于属性的评估。我们进一步分析了OTB 2015 [37]中不同属性下Struct-Siam的性能，以证明局部结构之间的信息传递对特征学习的有效性图3示出了八个主要属性的OPE图，包括背景杂波、变形、平面内旋转、低分辨率、运动模糊、遮挡、平面外旋转和尺度变化。从图3中，我们有以下观察结果。首先，我们的方法是有效的处理遮挡，由于局部结构之间的关系是隐式建模通过消息传递。相比之下，SiameseFC方法仅使用单个全局特征模型作为输出来预训练网络，这在处理部分遮挡方面效率较低其次，我们的方法在运动模糊的存在下表现良好，因为从模糊图像中提取的噪声特征可以通过CRF模块进行细化基于相关滤波器和SiameseFC的其他跟踪器对运动模糊敏感，这种现象可能是由提取的特征12A.作者和B。作者OPE的成功图10.90.80.70.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91重叠阈值图五、消融研究。在发生运动模糊时被破坏因此，该属性也证明了CRF近似的有效性此外，该方法取得了更好的性能，其他挑战性的因素，这进一步证明了我们的方法具有良好的泛化能力。定性评价。在图4中，我们选择了三个有代表性的序列（包括变形，遮挡和旋转的挑战），以可视化我们的算法与其他实时跟踪器相比的有效性。图4顶部的响应图的每一列表示一个典型的变化的响应，该变化的响应是针对具有差异的帧和差异序列的相关分层的如我们所见，所选择的通道易于在人的头部、腿部和躯干以及摩托车的车轮周围它们的响应在不同的输入下是稳定的。为了进一步将我们的算法与全局模型进行比较，我们在右侧显示了全局模型（使用AlexNet实现）的响应它们噪声太大，无法区分目标和背景，并且在严重变形后无法在帧间一致地突出相同的局部部分。更多结果显示在图4的底部总体而言，视觉评估表明，我们的StructSiam跟踪器与其他实时最先进的跟踪器相比表现良好消融研究。该算法包括局部模式检测器、消息传递层和集成层。我们进行了消融分析，以比较每种成分在15天时对O T B性能的影响。如图5所示，a、b和c分别表示局部模式检测器、消息传递模块和集成层，并且onlyVID表示仅用ILSVRC VID数据集训练的网络。特别地，我们测试了通过用简单的3× 3卷积层代替消息传递层来实现无消息传递层的网络。结果表明，在这个框架中提出的所有组件是必不可少的，相互补充建议的跟踪器的性能由于通过积分模块的相对大的性能增益，我们进一步证明了简单地将积分模块嵌入到SiameseFC（表示为“SiameseFC + c”）中导致了一个更好的性能。因此，我们的性能改进并不主要来自集成层。自从暹罗足球俱乐部我们的[0.621]唯一VID [0.610]a+b [0.588]b+c [0.531]a+c [0.524]暹粒FC +c [0.506]成功率很长的标题13实验基线的排序图（平均值）510StructSiamSiamANSiamRN DeepSRDCF15STAPLEp EBTCCOT202530钉35353025 20 15 10 5鲁棒性秩图六、与VOT2016基准进行比较仅使用ILSVRC VID数据集进行训练，我们在没有ALOV 300训练数据集的情况下测试了我们的跟踪器的性能，以进行公平的比较。正如我们在图5中所看到的，在这种情况下，我们的跟踪器比SiameseFC表现得更好，具有较大的裕度，这说明了我们算法的有效性。4.4VOT2016基准测试实验[17]VOT-2016有60个序列，当它错过目标时会重新初始化测试跟踪器。考虑边界框重叠率（准确性）和重新初始化次数（稳健性）的预期平均重叠（EAO）作为VOT-2016的主要评估指标我们在VOT 2016基准测试中将我们的StructSiam跟踪器与最先进的跟踪器进行了比较，包括CCOT [10]，Staple[2]，EBT [41]，DeepSRDCF [9]和SiamFC [3]。如VOT2016报告[17]所示，在EAO指标下，严格的最新界限为0.251也就是说，当跟踪器的EAO值超过0.251时，跟踪器被认为是最先进的跟踪器。表2和图6显示了我们的StructSiam跟踪器和最先进的跟踪器的结果。在这些方法中，CCOT在预期平均重叠（EAO）度量下实现了最好的结果然而，顶级的性能跟踪器离实时要求还很远。CCOT和DeepSRDCF都小于1 fps，EBT只有3 fps。同时，我们的Struct-Siam跟踪器的性能高于与我们的网络深度相同的SiamANSiamRN代表了使用ResNet作为架构的SiameseFC，其性能高于我们，但速度要慢得多。这可能是由于更深的网络。StructSiam实现了最快的速度，SiamAN的较低速度可能归因于其硬件条件。根据对VOT报告的分析和严格的最先进的界限的定义，我们的StructSiam跟踪器可以被视为一个最先进的方法与实时性能。准确度等级14A.作者和B。作者表2.使用预期平均重叠（EAO）测量方法与VOT 2016数据集上最先进的跟踪器进行比较CCOT Staple EBT DeepSRDCF StructSiam SiamAN SiamRNEAO0.3310.295 0.2910.2760.2640.2350.277转速0.5 11 30.3816955结论这项工作提出了一个功能强大的本地结构为基础的视觉目标跟踪siamese网络该网络能够自动检测具有区分性的局部模式，并通过消息传递以概率方式对上下文信息进行建模以形成对象的结构最终匹配过程基于目标对象的最终结构图案，这有助于处理若干挑战，诸如剧烈的外观变化、旋转、部分遮挡和运动模糊。实验结果表明，我们的跟踪器实现了良好的性能与实时速度。在未来，我们将扩展所提出的结构化连体网络来处理其他视觉任务。6确认本工作得到了国家自然科学基金项目 61725202 、 61751212 、61771088、61632006和91538201的资助。很长的标题15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.：Tensorflow：异构分布式系统上的大规模机器学习。In：arXiv preprint arXiv：1603.04467（2016）2. 贝尔蒂内托湖Valmadre，J.，Golodetz，S.，Miksik，O.，Torr，P.H.S.：缝钉：用于固定的组件In：CVP R（2016）3. 贝尔蒂内托湖Valmadre，J.，Henriques，J.F.，Vedaldi，A.，Torr，P.H.S.：用于目标跟踪的全卷积连体网络在：ECCV研讨会（2016）4. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：基于深度卷积网和全连接crfs的语义图像分割。载于：ICLR（2015）5. 崔，J.，Chang，H.J.，Jeong，J.，Demiris，Y.，Jin，Y.C.：使用注意调制分解与整合的视觉追踪。见：CVPR（2016）6. 崔，J.，Chang，H.J.，Yun，S.，Fischer，T.，Demiris，Y.，Jin，Y.C.：自适应视觉跟踪的注意相关滤波网络。在：CVPR（2017）7. Danelljan，M.，Bhat，G.，Khan，F.S.，Felsberg，M.：ECO：用于跟踪的高效卷积运算器。在：CVPR（2017）8. Danelljan，M.，Hger，G.，Khan，F.S.，Felsberg，M.：用于鲁棒视觉跟踪的精确尺度估计。电影BMVC（2014）9. Danelljan，M.，Hger，G.，Khan，F.S.，Felsberg，M.：卷积特征用于基于相关滤波器的视觉跟踪。在：ICCV研讨会（2015）10. Danelljan，M.，Robinson，A.，Khan，F.S.，Felsberg，M.：超越相关滤波器：学习用于视觉跟踪的连续卷积算子。In：ECCV（2016）11. Guo，Q.，Feng，W.，Zhou，C.，中国地质大学，黄河，巴西-地万湖，加-地Wang S.：学习动态连体网络用于视觉目标跟踪。In：ICCV（2017）12. H e，K.， Zhang，X.， Ren，S.， Sun，J. ：Delvinge pintorcti

下载后可阅读完整内容，剩余1页未读，立即下载