用于鲁棒视觉跟踪的ROI池相关滤波器

59 浏览量更新于2023-10-19 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5783用于视觉跟踪的ROI池相关滤波器孙宇轩1，孙冲2，王东1，游和3，沪川路1，41大连理工大学信息与通信工程学院2腾讯优图实验室3海军航空大学4鹏程实验室rumsyx@mail.dlut.edu.cn，waynecsun@tencent.com，和友f@126.com，{wdice，lhchuan}@ dlut.edu.cn摘要基于感兴趣区域的池化方法对各种样本的裁剪后的感兴趣区域进行池化操作，并在目标检测方法中取得了巨大的成功。该算法在保持定位精度的同时压缩了模型的尺寸，在视觉跟踪领域有很好的应用前景。虽然基于ROI的池化操作是有效的，但相关滤波公式中尚未考虑该操作.本文提出了一种新的用于鲁棒视觉跟踪的ROI池相关滤波器（RPCF）算法.通过数学推导，我们表明，基于ROI的池化可以等效地通过对学习的滤波器权重施加额外的约束来此外，我们开发了一个有效的联合训练公式的相关滤波器算法，并推导出有效的模型训练的傅立叶求解器。最后，我们在OTB-2013，OTB-2015和VOT-2017基准数据集上评估了我们的RPCF跟踪器。实验结果表明，我们的跟踪器性能良好，对其他国家的最先进的跟踪器。1. 介绍视觉跟踪的目的是在连续的帧中定位人工指定的目标对象，由于其在自动驾驶、人机交互、行为识别等方面的广泛应用，在过去的几十年中得到了广泛的研究。由于训练数据的有限性和现实世界中的遮挡、变形、光照变化等问题，视觉跟踪仍然是一个非常具有挑战性的任务。近年来，相关滤波器（CF）因其计算效率高而成为视觉跟踪中应用最广泛的公式之一。成功的Corre-* 通讯作者：博士王RPCF ECO C-COT KCF CF2图1.我们的方法和其他四个竞争算法的可视化跟踪结果。我们的追踪器性能优于最先进的。lation filter主要来自两个方面：首先，利用循环矩阵的性质，CF算法不需要显式地构造训练样本和测试样本，并且可以在傅立叶域进行有效的优化，使其能够处理更多的特征;其次，优化相关滤波器可以等效地转换为求解线性函数系统，因此滤波器权重可以用解析解获得（例如，[9，8]）或通过具有二次收敛的优化算法[9，7]来求解。由于边界效应和过拟合问题，原始相关滤波算法的跟踪性能有限。边界效应现象是由训练样本的周期性假设引起的，而过拟合问题则是由模型参数个数与5784训练样本虽然边界效应在最近的几篇论文中已经得到了很好的解决（例如，SRDCF [9]，DRT [29]，BACF[12]和ASRCF [5]），过拟合问题仍然没有引起足够的重视，仍然是一个具有挑战性的研究热点。平均/最大池化操作已被广泛用于通过池化层的深度学习方法中，这被证明在处理过拟合问题和变形方面是有效的。目前，深度学习方法中广泛使用两种池化操作。第一个对整个输入特征图执行平均/最大池化，并获得具有降低的空间分辨率的特征图。在CF公式中，对输入特征图的池化操作可能导致较少的可用合成训练样本，这限制了学习滤波器的区分能力。此外，较小尺寸的特征图将显著影响定位精度。然而，基于ROI（感兴趣区域）的池化操作是一种替代方案，其已经成功地嵌入到几个对象检测网络中（例如，[14，26]）。基于ROI的池化方法不是直接对整个特征图执行平均/最大池化，而是首先裁剪大量的ROI区域，每个ROI区域对应于目标候选，然后独立地对每个候选ROI区域执行平均/最大池化。基于ROI的池化操作具有上述池化操作的优点，同时保留了训练样本的数量和用于定位的空间信息，因此将基于ROI的池化引入CF公式中是有意义的。由于CF算法无法访问真实世界的样本，因此如何在相关滤波器公式中利用基于ROI的池化仍有待研究。本文研究了池化操作对视觉跟踪的影响，提出了一种新的ROI池化相关滤波算法。尽管基于ROI的池化算法已成功应用于许多基于深度学习的应用中，但在视觉跟踪领域，特别是在基于相关滤波器的方法中，很少考虑它由于相关滤波器公式并没有真正提取正样本和负样本，因此不可能像Fast R-CNN [14]那样执行基于ROI的池化。通过数学推导，我们提供了一个替代的解决方案来实现基于ROI的池。提出了一种等式约束的相关滤波算法我们提出了一个交替方向乘子法（ADMM）算法来解决优化问题，并提供了一个有效的求解器在傅立叶域。在OTB-2013 [31]、OTB-2015[32]和VOT-2017 [20]数据集上进行的大量实验验证了所提出方法的有效性（见图1和第5节）。本文的贡献有三个方面：本文是首次尝试引入这一理念相关过滤器公式中基于ROI的池化。提出了一种带等式约束的相关滤波算法，通过该算法可以等效地实现基于ROI的池化操作，而不需要提取真实世界的ROI样本。学习的滤波器权重不受过拟合问题的影响，并且对变形更鲁棒。本文提出了一种鲁棒的ADMM方法，在傅立叶域中优化所提出的相关滤波器公式。利用计算得到的拉格朗日乘子，本文将共轭梯度法用于滤波器学习，并为每一步提出了有效的优化策略。本文在三个公共数据集上进行了大量的实验。实验结果验证了该方法的有效性2. 相关工作最近关于视觉跟踪的论文主要基于相关滤波器和深度网络[21]，其中许多具有令人印象深刻的性能。在这一部分中，我们主要关注基于相关滤波器的算法，并简要介绍了池化操作的相关问题鉴别相关滤波器。基于相关滤波器的跟踪器是近年来研究的热点，在各种数据集上取得了很好的性能。视觉中的相关滤波算法跟踪可以追溯到MOSSE跟踪器[2]，其将单通道灰度图像作为输入。尽管跟踪速度令人印象深刻，但精度并不令人满意。基于MOSSE跟踪器，Henriqueset al.通过引入核函数[18]和高维特征[19]来推进最新技术水平。Ma等人[24]利用相关滤波器公式中丰富的深层特征表示信息，通过由粗到细的搜索策略融合各种卷积特征的响应。Qi等人[25]延长工作[24]的方法，利用Hedge方法自适应地学习每种特征的重要性。除了MOSSE跟踪器之外，上述算法还学习对偶空间中的滤波器权重，其已经被测试为不如基于原始空间的算法有效[8，9，19]。然而，在原始空间中学习的相关滤波器受到边界效应和过拟合问题的严重影响正因为如此，丹尼尔-詹等人。[9]在学习的滤波器权重上引入加权正则化约束，鼓励算法学习目标对象的中心区域上的更多权重。SRDCF跟踪器[9]已成为许多后续跟踪器的基线算法，例如，[11]第11话，···578514012010080604020015101520∈∈y−¨2¨yˆ−2∈¨2CFDecon [10]. BACF跟踪器[12]提供了另一种解决边界效应的可行方法，它生成真实世界的训练样本，并大大提高了学习滤波器的判别能力。虽然上述方法已经很好地解决了边界效应，但过拟合问题却很少被考虑.ECO跟踪器[7]联合学习投影矩阵和滤波器权重，通过它大大压缩了模型大小与ECO跟踪器不同，我们的方法将基于ROI的池化操作引入到相关滤波器公式中，这不仅解决了过拟合问题，而且使学习的滤波器权重对变形更具鲁棒性。池化操作。池化操作的思想已经被用于计算机视觉的各个领域，特征提取[6，22]，卷积神经网络[27，16]，仅举几例。大部分的合并操作-在整个特征图上执行迭代以获得更稳定的特征表示或快速压缩模型大小。在[6]中，Dalalet al.将图像窗口划分为几十个单元，计算每个单元内梯度方向的直方图。计算的特征表示比基于单个像素的特征表示更鲁棒。在大多数基于深度学习的算法中（例如，[6，22]），通过以下方式执行池化操作：框架1框架5框架10框架15框架20帧图2.插图显示ROI合并特征对目标变形的鲁棒性比原始特征更强。对于这两个特征，我们计算从帧2-20和帧1中提取的特征之间的102损失，并分别通过红色和蓝色点可视化距离。相关滤波器算法通过将xd与滤波器权重wdRN卷积来计算响应。基于上述定义和描述，可以通过优化以下目标函数来获得最优滤波器权重一个池化层，用于累积多个响应在一个小的邻域内激活。这个...¨1¨E（w）=<$¨2ΣD¨wdxd+λD（1）第二章网络的标定精度通常会在2¨d=1¨22d=1池化操作。代替原始的最大值/平均值池化层，更快的R-CNN方法[14]利用ROI池化层来确保定位精度，同时压缩模型大小。该方法首先通过区域建议网络（RPN）为每个候选目标对象提取ROI区域，然后执行其中，ω表示循环卷积算子，w=[w1，w2，.，是级联滤波器向量，λ是平衡回归之间的重要性的折衷参数。以及正规化损失。根据Parseval定理，Eq.在傅立叶域中，1可以等效地写为：对ROI区域进行最大池化操作，以获得更多鲁棒的特征表示。我们的方法受到[14]中提出的ROI池化的启发，并且是第一次尝试将基于ROI的池化操作引入到分布式计算中。¨1¨E（w）= <$¨ΣDd=1¨2联系我们¨¨2d=1（2）第一次见面。过滤器公式。3. 相关滤波器和池化在本节中，我们简要回顾了与我们的方法密切相关的两个关键技术（即，相关滤波器和池化操作）。3.1. 再谈相关滤波器为了帮助更好地理解我们的方法，我们首先介绍原始相关滤波算法。给定输入特征图，相关滤波器算法旨在学习一组滤波器权重以回归高斯形响应。我们使用ydRN来表示期望的高斯形响应，并且使用x来表示具有D个特征通道x1，x2，.的输入特征图，xD.对于每个功能通道其中⊙是Hadamard乘积。我们使用y_d，w_d，x_d来表示向量y，w_d和x_d的傅立叶域。3.2. 视觉跟踪中的池化操作正如许多深度学习方法[27，13]所描述的那样，池化层在解决过度拟合问题方面起着至关重要的作用一般来说，池化操作试图将邻域响应激活融合为一个，通过该操作可以有效地压缩模型参数除了解决过拟合问题外，池化特征图对变形变得更加鲁棒（图2）。目前，两种池化操作被广泛使用，即，基于整个特征图的池化操作（例如，[27，16]）和基于候选ROI区域的池化操作（例如，[26]）。的L2范数距离wxdd2+5786e∈∈×2¨2P∈∈λΣ¨浸提样品池化作物W/e * H/e基于特征图的池化操作浸提样品作物池化W*H基于ROI的池化操作图3.显示功能之间差异的插图相关滤波器不显式地提取训练样本，因此不可能在图3中的流水线之后执行基于ROI的池化操作。在本文中，我们推导出基于ROI的池化操作可以通过在学习的滤波器权重上添加额外的约束来实现。给定对应于具有L个元素的目标区域的候选特征向量v，我们使用池化核大小e对其执行平均池化操作。为了简单起见，我们设置L=eM，其中M是正整数（如果L不能被e整除，则可以使用填充操作）。池化特征向量v′∈RM可以是计算为v′=1Uv，其中矩阵U∈RM×Me为基于地图和基于ROI的池化操作。为了清楚起见，我们使用8作为步长，用于在原始图像上进行样本提取这对应于HOG特征中的步幅= 2的特征提取，其中单元大小为4池化内核大小设置为e = 2，构造为：1e0e··· 0e0e0e1e··· 0e0e这个例子。U=.. ..0e（3）第一章前一种方法在具有深度特征的CF跟踪器中得到了广泛的应用，而基于ROI的池化操作却很少被考虑。如第1节所述，直接对输入特征图执行平均/最大池化将导致较少的训练/测试样本，0e0e··· 1e0e0e0e···0e1e其中1eR1×e表示所有元素都设置为1的向量，0eR1×e是零向量。基于合并向量，我们将响应计算为：定位精度较差。我们用一个例子来说明不同的合并方法如何影响样品的提取，r=w′v′=w′mUV/e= .⊤′Σ⊤U Wv/e，（4）在图3中的提取过程中，提取的样品在右手侧可视化。为简单起见，此示例基于密集采样过程。该结论也适用于相关滤波器方法，该方法本质上是通过密集采样的循环Candi来训练的日期.在基于特征图的池化操作中，首先将特征图大小减小到W/e×H/e，从而导致其中w′是对应于池化特征向量的权重，U=w′=[w′（1）1e，w′（2）1e，.，w′（M）1e]n.很容易得出结论，平均池化操作可以通过将每个池化核中的滤波器权重约束为具有相同的值来等效地实现。基于上述讨论，我们将ROI合并相关性过滤器定义如下：更少的样本。然而，基于ROI的池化第一个作物从W H特征图中提取样本，然后对它们进行池化操作，因此不影响训练数量。较少的训练样本将导致感染-¨¨E（w）=1？y−ΣDd=1¨2�D+22d=12002年4月22日学习过滤器的更高的辨别能力，而更少S. t. wd（iη）=wd（jη），（iη，jη）∈ P，η=1，.，K（五）测试样品将导致不准确的目标定位。因此，在相关滤波算法中引入基于感兴趣区的池化操作是很有意义的。由于最大池化操作会引入非线性，使得模型难以优化，因此本文优选基于ROI的平均池化操作4. 我们的方法4.1. ROI合并相关滤波器在本节中，我们提出了一种新的相关跟踪方法与基于ROI的池化操作。与传统方法[18，11]一样，我们在一维域中引入了基于CF的跟踪算法，并且结论可以很容易地推广到更高的维度。以来其中我们考虑K个等式约束以确保每个池化核中的滤波器权重具有相同的值，表示两个滤波器元素属于同一池化核的集合，iη和jη表示权重向量w_d中的元素的索引。由方程式其中，pd RN是裁剪对应于目标区域的滤波器权重通过引入pd，我们确保滤波器仅具有每个圆形构造样本的目标区域的响应向量gdRN是正则化权重，其鼓励滤波器学习目标对象的中心部分中的更多在[9，12]中已经提出了引入pd和gd的想法，而我们的跟踪器是第一次尝试集成它们。在等式约束中，我们考虑池化核中两个任意权元素之间的关系（pw）.5787（e-2）！二！¨N×1N ×1N×1−PDD E∈RK×N∈C，V∈RD2∈ ∈∈∈∗-−所以K=e！（（L-e）/e+1），其中L是pd中非零值的数量。注意，仅在与每个样本的目标区域相对应的滤波器系数中执行约束，并且所计算的K基于一维情况。根据Parseval5可以等价地写为：�D�2第二节1¨Σˆ¨λΣ¨ˆ¨E（w）=2？yD+22d=1 ¨Gdwd¨2S. t. V1F−1w=V2F−1w（a）（b）DDdDDd（六）图4. 基线过滤器重量之间的比较−其中Fd表示傅里叶变换矩阵，并且F表示逆变换矩阵。矢量p_dC_N×1、y_dC、x_dC和w_dC表示相应信号矢量y、x_d、p_d和w_d的傅里叶系数。矩阵Pd和Gd是T奥普利茨矩阵，其第（i，j）个元素是pd（（N+i−j）%N+1）和gd（（N+ij）%N+1），其中%表示模运算。它们是基于卷积定理构造的，以确保Pdwd=pdwd，gdwd=gdwd。由于离散的Fcoe ffi-方法（即，基于无感兴趣区的相关滤波算法（二）提出的方法。(a)一个玩具模型，显示我们学习的过滤器元素在每个池化内核中是相同的（b）通过基线和我们的方法学习的过滤器权重的我们的算法比基线方法学习更紧凑的滤波器权重，因此可以更好地解决过拟合问题。虽然优化目标函数是非凸的，但当w和n中的任意一个固定时，它就变成了一个凸的x函数。实值信号的分量是厄米特对称的，即，如果固定了内存，则可以通过共轭运算来计算内存p<$d（（N+ij）%N+1）=p<$d（（N+ij）%N+1）在我们的例子中，我们可以很容易地得出Pd=<$H和G<$d=G<$H，其中H表示的共轭转置梯度下降法[4]。我们计算目标函数相对于等式中的w的梯度。8，并通过将梯度设置为一个复杂的矩阵在约束项中，V1K×N是一个零向量：和V2∈R是指数矩阵，其中，d1−1（A）A+FVVF−1+λGHG）w=EHy−FV，（9）0作为条目，VdFdwd=[wd（i1），.，wd（iK）]和V2F−1w=[w（j），.，w（j）]。DDdd1个dK当F∈CDN×DN，G∈ N时，DN×DN DK×DN当量6可以改写为一个紧凑的公式：和V∈RDK×DN是块对角矩阵，�D�2第二节第d个矩阵块集为Fd，Gd，Vd和γdVd，E=1¨Σˆ¨λΣ¨ˆ¨E（w）=2y−Edwd？+2¨Gdwˆd¨、（7）[E，E，. ED]，A=EHE.在共轭梯度中，¨d=1¨1 22d=1S. t. VF−1wF=0ent方法，计算量主要集中在这三项上D Ddˆ⊤−1公司简介输入图像基线我们目标区域低置信度高置信度PwxdddD−¨、15788∈d=1d=12¨¨1ΣΣ¨¨Au、FVVFu和λGGug表示搜索方向其中，E=XP，X=dia g（x（1），.， x∈（N））是di-u∈=[u∈，.，你知道的。接下来，我们将介绍更多的-d d d d d d d d d 1D偏角矩阵，Vd=V1−V2。4.2. 模型学习由于Eq.7是二次规划问题，Dd5789D⊤D我们如何有效地计算这三项每个三项中的每一项都可以看作是一个向量，有D个子向量。计算了A的第d个子向量H.H.D.联系我们5790线性约束，我们使用增广拉格朗日作为PdXdj=15791Xj（Pjuj），其中Pd =Pd，如所述5792有效的模型学习方法。拉格朗日函数对应于Eq. 7定义为：5793以上由于pd的傅立叶系数（具有5794二进制值）密集分布，因此非常耗时5795¨�DL（w，）= <$y−¨5796-2Edwd？+λGdwd在任意的完备向量上直接计算Pdvgv. 本文用同伦理论来求解，最近计算了Pv。第二个的第d个子向量57972¨德国-1d=1¨21美元2¨ ¨d=12−1¨25798（八）⊤项为FdVdD⊤Vdud=γdFdVd5799VDUD。作为基质5800+dVdFdwd+2γd？VdFdwd？2，V和V仅由1和−1组成，因此计算5801其中，Rk表示第d个通道，γd是惩罚参数，γ d =[γd，.，我是说。5802关于VD 通过查表可以有效地进行V_d_u_d第三项对应于卷积运算，其卷积核通常小于5，因此它1个DADMM方法用于交替优化w和w。也可以有效地计算。

下载后可阅读完整内容，剩余1页未读，立即下载