无人机高性能视觉跟踪与自动时空正则化

145 浏览量更新于2023-10-25 收藏 13.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

#095#107#025#207#005119230AutoTrack: 面向无人机的高性能视觉跟踪与自动时空正则化0Yiming Li † , Changhong Fu † , � , Fangqiang Ding † , Ziyuan Huang ‡ , and Geng Lu §0† 同济大学 ‡ 新加坡国立大学 § 清华大学0yimingli9702@gmail.com, changhongfu@tongji.edu.cn, lug@tsinghua.edu.cn0摘要0大多数基于判别相关滤波器（DCF）的现有跟踪器尝试引入预定义的正则化项来改善目标对象的学习，例如通过抑制背景学习或限制相关滤波器的变化率。然而，预定义的参数在调整时需要付出很大的努力，而且它们仍然无法适应设计者没有考虑到的新情况。在这项工作中，提出了一种新的方法来在线自动和自适应地学习时空正则化项。引入了空间局部响应图变化作为空间正则化，使DCF专注于对象可信部分的学习，而全局响应图变化则决定了滤波器的更新速率。对四个无人机基准测试的大量实验证明了我们的方法相对于最先进的基于CPU和GPU的跟踪器的优越性，单CPU上运行的速度为每秒约60帧。我们的跟踪器还提出应用于无人机定位。在室内实际场景中进行了大量测试，证明了我们定位方法的有效性和多功能性。代码可在https://github.com/vision4robotics/AutoTrack获得。01. 引言0视觉目标跟踪是计算机视觉领域的基本任务之一，旨在仅通过第一帧给出的信息顺序定位对象。为无人机（UAV）赋予视觉跟踪能力带来了许多应用，例如航拍摄影[1]、人物跟随[2]、飞机跟踪[3]和交通巡逻[4]。目前在这个领域有两个主要的研究兴趣：基于判别相关滤波器（DCF）的方法[5, 6,7, 8, 9, 10, 11, 12, 13, 14]以及基于深度学习的方法[15, 16,17, 18, 19, 20]。考虑到0� 通讯作者0全局响应变化0遮挡严重的光照变化视野之外0局部响应变化0阈值0图1.我们跟踪器的核心思想。利用空间局部和全局响应变化。局部变化表示对象边界框的局部可信度。第25和95帧的严重光照变化以及第107和207帧的部分遮挡会降低外观的可信度。AutoTrack会受到惩罚以学习这些外观，从而避免局部干扰。在全局变化方面，较大的值可能表示错误的跟踪结果，我们会停止相关滤波器的学习，而相对较大的值应该加速相关滤波器的学习，以提高适应性。0由于无人机上的功率容量和计算资源的限制，选择了DCF框架，因为它在傅里叶域中的计算具有高效性。为了改进基于DCF的跟踪器，目前有三个方向：a）构建更强大的外观模型[18, 17, 20,21]，b）减轻边界效应或在学习中施加限制[8, 22, 17, 14,23]，c）减轻滤波器退化[24, 12, 14,25]。强大的外观确实可以提高性能，但会导致繁重的计算。另一方面，滤波器退化并不能从根本上改善它。大多数跟踪器尝试通过引入正则化项来改善性能。最近，一些关注点已经转向使用在检测阶段生成的响应图来形成学习中的限制[26]。其背后的直觉是,(1)119240响应图包含了关于当前物体与外观模型相似度的关键信息。然而，[26]只利用了我们称之为空间全局响应图变化的信息，而忽略了在图像中不同位置的局部响应变化，这些变化指示了不同位置的可信度：剧烈的局部变化意味着低可信度，反之亦然。我们充分利用局部-全局响应变化来通过自动时空正则化训练我们的跟踪器，即AutoTrack。虽然其他人提出的正则化项中的大多数参数都是需要大量调整的超参数，并且很难适应设计者没有考虑到的新情况，但我们提出了一种自动和自适应地学习一些超参数的方法。AutoTrack在与最先进的跟踪器的比较中表现出色，同时在单个CPU上以约60帧每秒（fps）的速度运行。我们的主要贡献总结如下：0•我们提出了一种新颖的时空正则化项，同时利用响应图中隐藏的局部和全局信息。0•我们开发了一种新颖的DCF-based跟踪器，可以动态调整时空正则化项的超参数。0•我们在278个困难的无人机图像序列上评估了我们的跟踪器，并且评估结果验证了我们的跟踪器相对于当前基于CPU和GPU的跟踪器的最先进性能。0•我们引入了一种新颖的将视觉目标跟踪应用于无人机定位的方法，并证明了它在实际场景中的有效性和通用性。02. 相关工作0通过检测进行跟踪：将跟踪视为分类问题的跟踪-检测框架在无人机中被广泛采用[5, 6, 7, 27,28]。其中，DCF表现出了良好的性能和异常的效率。传统的基于DCF的跟踪器[7, 5,29]在单个CPU上的速度约为数百fps，远远超过无人机的实时要求（30fps）。然而，它们主要面临以下问题。a)边界效应：循环样本在边界处遭受周期性拼接，降低了滤波器的区分能力。一些方法可以缓解边界效应[22, 8, 14,30]，但它们使用的是恒定的空间惩罚，无法适应不同目标的各种变化。K.Dai等人在时间域中优化了空间正则化[31]。与[31]不同，我们利用DCF框架中的内在信息，因此我们的方法更加通用。此外，我们在航空场景中在速度和精度方面取得了更好的性能。0b)滤波器退化：通过线性插值方法更新的外观模型无法适应普遍的外观变化，导致滤波器退化。一些尝试已经被提出来解决这个问题，例如训练集管理[20, 24, 32]，时间限制[14,25]，跟踪置信度验证[23,12]和过拟合缓解[33]。其中，时间正则化是一种有效且高效的方法。然而，非自适应正则化容易在滤波器损坏后导致跟踪漂移。基于深度学习的跟踪：最近，基于深度学习的跟踪由于其鲁棒性而受到广泛关注，例如深度特征表示[18, 34,17,20]，强化学习[16]，残差学习[35]和对抗学习[36]。然而，对于移动机器人来说，上述跟踪器即使配备高端GPU也无法满足实时感知的要求。目前，最先进的深度跟踪器[14, 37,38, 39, 40,41]主要是基于孪生神经网络[15]构建的。预训练的孪生跟踪器只需要在前向传递的方式下遍历，以获取物体定位的相似度分数，便于在GPU上实时实现。然而，在仅有CPU的移动设备上，孪生跟踪器的速度无法满足实时需求。C.Huang等人提出了一种CPU友好的深度跟踪器[42]，通过以级联方式训练一个代理来工作。它可以通过减少在简单帧上的计算来以接近实时的速度运行。总之，深度跟踪器很难满足CPU上的实时需求。基于视觉的定位：基于视觉的定位对于无人机尤其是在无GPS环境下至关重要。A.Breitenmoser等人开发了一种基于可见光谱中被动标记的单目6D姿态估计系统[43]。然而，它在低光环境下的性能较差。M.Faessler等人提出了一种基于红外LED的单目定位系统，以提高在杂乱环境中的鲁棒性[44]。然而，它的通用性有限，因为该系统只能在红外光谱中工作。基于[44]，我们开发了一种基于视觉跟踪的定位系统。鉴于我们的跟踪器在各种场景中如光照变化、遮挡和变形方面的鲁棒性和通用性，我们的定位系统比基于红外LED的系统[44]更加多功能。03. 重新审视STRCF0在本节中，我们重新审视了我们的基线STRCF[14]。帧t中的最优滤波器Ht通过最小化以下目标函数来学习：0E(Ht)= 102∥y−0k=1xkt�hkt∥22+10k=1∥u⊙hkt∥220+θ0k=1∥hkt−hkt−1∥220其中，xkt∈RT×1(k=1,2,3,...,K)是在帧t中提取的长度为T的特征，K表示特征通道数。E(Ht, θt) = 12∥y −K�k=1xkt ⊛ hkt ∥22 + 12K�k=1∥˜u ⊙ hkt ∥22+ θt2K�k=1∥hkt − hkt−1∥22 + 12∥θt − ˜θ∥22, (5)E(Ht, θt, �Gt) = 12∥y −K�k=1�xkt ⊙ �gkt ∥22 + 12K�k=1∥˜u ⊙ hkt ∥22+ θt2K�k=1∥�gkt − �gkt−1∥22 + 12∥θt − ˜θ∥22.119250通道，y∈RT×1是期望的高斯形状响应。hkt，hkt−1分别表示在t帧和(t−1)帧中训练的第k个通道的滤波器，�表示卷积运算符。注意，Ht=[h1t,h2t,h3t,...,hKt]。对于正则化，空间正则化参数u∈RT×1呈碗状，并从SRDCF[8]借用以减少边界效应，而时间正则化即公式1中的第三项首次提出，通过惩罚当前滤波器与先前滤波器之间的差异来限制滤波器的变化。尽管STRCF[14]取得了良好的性能，但它存在两个限制：a）固定的空间正则化无法解决不可预见的航空跟踪场景中的外观变化问题；b）不变的时间惩罚强度θ（在[14]中设置为15）在各种情况下都不是通用的。04. 自动时空正则化0在这项工作中，局部和全局响应变化被充分利用，以实现同时的空间和时间正则化，以及自动和自适应的超参数优化。04.1. 响应变化0首先，我们定义局部响应变化向量Π=[|Π1|,|Π2|,...,|ΠT|]，如图1所示，用于准备空间正则化。其第i个元素|Πi|定义如下：0Πi = Rt[ψ∆]i − Ri(t−1)0Rit−1，(2)0其中，[ψ∆]是移位运算符，使得两个响应图Rt和Rt−1中的两个峰值重合，以消除运动影响[26]。Ri表示响应图R中的第i个元素。自动空间正则化：局部响应变化反映了当前帧搜索区域中每个像素的可信度。因此，应该限制学习位于像素可信度较低的位置的滤波器。我们通过引入局部变化Π到空间正则化参数˜u中来实现这一点：0˜u = P�δlog(Π+1)+u，(3)0其中，P�∈RT×T用于裁剪滤波器中心位置的对象部分。δ是用于调整局部响应变化权重的常数，u是从STRCF[14]继承的，用于减轻边界效应。通过公式3，位于具有剧烈响应变化的像素处的滤波器将部分地被阻止学习新的外观，因为存在空间惩罚。自动时间正则化：在STRCF[14]中，两帧之间的滤波器变化率受到惩罚。0通过固定参数θ对损失进行惩罚。AutoTrack试图通过联合优化其值和滤波器的值来自适应地和自动地确定这个超参数的值。因此，我们定义一个参考˜θ，以准备与全局响应相关的目标函数：0˜ θ =01+log(ν∥Π∥2+1)，∥Π∥2≤φ，(4)0其中，ζ和ν表示超参数。当全局变化高于阈值φ时，意味着响应图中存在异常，因此相关滤波器停止学习[26]。如果低于阈值，响应图变化越剧烈，参考值就越小，这样可以放松对相关滤波器时间变化的限制，并且可以在外观变化较大的情况下更快地学习。备注1：注意这里定义的是参考值而不是超参数本身。对于时间正则化的超参数，我们使用联合优化来在线估计其值，以便根据响应图的变化情况进行在线自适应调整。外观变化剧烈时，相关滤波器学习速度更快，反之亦然。04.2. 目标优化0我们的联合优化滤波器和时间正则化项的目标函数可以写成：0其中 ˜ θ 和 θ t 分别表示参考和优化的时间正则化参数， ˜u 表示通过方程 3计算得到的自动空间正则化。为了优化，我们引入一个辅助变量 � g t ，通过排序得到 � g t = √0T Fh t ( � G = [ ˆg 1 t , ˆg 2 t , ˆg 3 t , ..., ˆg K t ]) ，其中F ∈ C T × T 表示正交矩阵，符号 ˆ表示信号的离散傅里叶变换（DFT）。然后方程 5转化为频域：0(6) 通过最小化方程 6，可以通过交替方向乘子法（ADMM）[ 45]得到最优解。方程的增广Lagrangian形式为：Lt(Ht, θt, �Gt, �Mt) = E(Ht, θt, �Gt) + γ2K�k=1∥�gkt −√TFhkt ∥22+K�k=1(�gkt −√TFhkt )⊤ �mkt,(7)where �Mt = [ �m1, �m2, ..., �mK] ∈ RT ×K is the Fouriertransform of the Lagrange multiplier and γ denotes thestep size regularization parameter.By assigning vkt=Lt(Ht, θt, �Gt, �Vt) = E(Ht, θt, �Gt)+ γ2K�k=1∥�gkt −√TFhkt + �vkt ∥22.(8)�G∗ = arg min�G{12∥�y −K�k=1�xkt ⊙ �gkt ∥22+ θt2K�k=1∥�gkt − �gkt−1∥22 + γ2K�k=1∥�gkt −√TFhkt + �vkt ∥22}.Γ ∗j ( �Gt) = arg minΓj( ˆGt){∥�yj − Γj( �Xt)⊤Γj( �Gt)∥22+γ∥Γj( �Gt) + Γj( �Vt) − Γj(√TFHt)∥22+θt∥Γj( �Gt) − Γj( �Gt−1)∥22},(10)Γ ∗j ( �Gt) =1γ + θt (I −Γj( �Xt)Γj( �Xt)⊤θt + γ + Γj( �Xt)⊤νj( �Xt))ρ ,(11)by:3).(14)119260方程 6 可以表示为：0γ ( V k t = [ v 1 t , v 2 t , ..., v K t ]) ，方程 7 可以重写为：0然后我们通过ADMM解决以下子问题。子问题 � G：给定 H t ， θ t ， � V t ，最优解 � G � 为：0(9) 直接求解方程 9非常困难，因为它的复杂性。因此，我们决定对每个像素中的所有 K 个通道的 � x t进行采样，以简化我们的表达式，写成：0其中 Γ j ( � X ) ∈ C K × 1 表示包含所有 K 个通道的� X在像素 j ( j = 1 , 2 , ..., T )上的值的向量。通过使用ShermanMorrison公式进行求导，我们可以得到其解：0其中向量 ρ 采用以下形式 ρ = Γ j ( � X t ) � y j + θ t Γ j (ˆ 0T FH t ) 用于展示。子问题 H ：给定 θ t ， � G t ， � V t ，我们可以优化 h k0arg minh_k { 102 ∥ u ⊙ h_k^t∥_2^2 + γ02 ∥ g_k^t- √0T Fh_k^t + v_k^t∥_2^2 } . (12)0h_k的闭式解可以表示为：0h_k^* = [ U � U + γT I ]^(-1) γT (v_k^t (v_k^t + g_k^t)0( u ⊙ u ) + γT,0其中U = diag(u) ∈R^T×T表示对角矩阵。子问题θ_t：在已知方程8中的其他变量的情况下，θ_t的最优解可以确定为：0θ^*_t = argmin θ_t { θ0k =1 ∥ g_k^t -g_k^(t-1) ∥_2^2 + 102 ∥ θ_t - ˜ θ∥_2^2 }0= ˜ θ - K k =1 ∥ g_k^t - g_k^(t-1) ∥_2^20拉格朗日乘子更新：在解决了上述三个子问题之后，我们可以更新拉格朗日乘子如下：0V_i+1 = V_i + γ_i ( G_i+1 - H_i+1 ) , (15)0其中i和i+1表示迭代索引，步长正则化常数γ（初始值为1）采用γ(i+1) = min(γ_max, βγ_i)的形式。（β = 10，γ_max=10000）通过迭代求解上述四个子问题，我们可以有效地优化目标函数并获得帧t中的最优滤波器G_t和时间正则化参数θ_t。然后，G_t用于帧t+1中的检测。04.3. 目标定位0通过搜索响应图R_t的最大值来定位被跟踪的目标，计算方法如下：0R_t = F^(-�0k =1 ( ⊙ z_k^t ⊙ g_k^(t-1) ) ,(16)0其中R_t是帧t中的响应图，F^(-1)表示逆傅里叶变换（IFT）算子，z_k^t表示帧t中提取的特征图的傅里叶形式。05. 通过跟踪进行定位0对于无人机的自我定位对于自主导航至关重要。为了在动态和不确定的环境中开发出强大而通用的定位系统，我们首次将视觉目标跟踪引入到无人机定位中。具体而言，我们利用了[44]中的开源软件，但使用AutoTrack同时跟踪四个对象，而不是在红外光谱中分割LED。主要工作流程简要描述如下。先决条件：系统需要了解四个对象的配置（非对称），即它们在世界坐标系中的位置（在运动捕捉系统中观察到），以及固定在无人机上的相机的内在参数。初始化和跟踪：在手动分配了四个对象之后，AutoTrack开始独立地跟踪它们，并在RGB图像中输出它们的位置。与仅适用于红外光谱的系统[44]不同，我们的系统可以在多种环境中使用。对应搜索和姿态优化：首先明确世界坐标中跟踪对象配置与图像帧中跟踪结果之间的对应关系，然后通过微调重投影误差[44]来优化最终的6D姿态。∗https://www.quanser.com/products/autonomous-vehicles-research-studio/00.20.40.60.8rack[0.717]AutoTF [0.696]ASRC[0.693]TADTt [0.690]MDNe[0.669]IBCCF[0.664]MCPF[0.658]UDT+ [0.637]CFNetHCF [0.616]ADNet[0.571]00.20.40.60.8rack[0.479]AutoTF [0.469]ASRC[0.464]TADT[0.462]UDT+[0.460]IBCCFt [0.456]MDNe[0.433]MCPFt [0.422][0.393]CFNetHCF [0.415]ADNe1192706. 实验0在本节中，我们首先使用当前最先进的跟踪器在四个困难的无人机基准测试[46, 47, 48,49]上评估AutoTrack的跟踪性能。然后，在Quanser上评估所提出的定位系统。0在室内实际场景中的平台。使用MATLABR2018a在一台配备i7-8700K处理器（3.7GHz）、32GBRAM和NVIDIA GTX 2080GPU的PC上进行了跟踪性能评估实验。定位系统的测试是在ROS[50]上使用C++进行的。对于AutoTrack的超参数，我们设置δ = 0.2，ν = 2 × 10^(-5)，ζ =13。φ的阈值为3000，ADMM迭代设置为4。所有参数的敏感性分析可以在补充材料中找到。06.1. 在无人机数据集上的评估0为了进行严格全面的评估，我们将AutoTrack与最先进的方法在四个具有挑战性和权威性的无人机基准上进行了比较：DTB70 [46]，UAVDT [47]，UAV123@10fps[48]和VisDrone2018-test-dev[49]，共计119,830帧。请注意，我们使用与这四个基准[46,47, 48, 49]相同的评估标准。06.1.1 与基于深度的跟踪器的比较0DTB70：DTB70[46]由70个困难的无人机图像序列组成，主要解决严重无人机运动的问题。此外，还包括各种杂乱的场景和不同大小和宽高比的物体。我们将AutoTrack与九种最先进的深度跟踪器进行比较，即ASRCF [31]，TADT [51]，HCF[18]，ADNet [16]，CFNet [52]，UDT+ [53]，IBCCF[54]，MD-Net [55]，MCPF[19]，在DTB70上报告了最终结果，如图2所示。仅使用手工特征，AutoTrack就超过了基于深度特征的跟踪器（ASRCF [31]，HCF [18]，MCPF [19]和IBCCF[54]）以及预训练的基于深度架构的跟踪器，即MDNet[55]，ADNet [16]，UDT+ [53]和CFNet[52]。总之，AutoTrack在不失效率的情况下表现出对剧烈无人机运动的强大鲁棒性，并且在不同场景中跟踪不同物体的普适性。UAVDT：UAVDT[47]主要强调各种场景中的车辆跟踪。UAVDT涉及的三个类别是天气条件、飞行高度和相机视角。与包括ASRCF[31]、TADT [51]、SiameseFC [15]、DSiam [56]、MCCT[13]、ADNet [16]、CFNet [52]、DeepSTRCF[14]、UDT+ [53]、HCF [18]、C-COT [17]、ECO[20]、IBCCF [54]、MCPF [19]和CREST[35]在内的深度跟踪器相比，单个CPU的AutoTrack表现出00 10 20 30 40 50 位置误差阈值0精度0DTB70上的精度曲线0(a)00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0DTB70上的成功率曲线0(b)0图2. 在DTB70[46]上与深度跟踪器的整体比较。AutoTrack在精度和成功率上排名第一。0在精度和速度方面，表1显示了AutoTrack与深度跟踪器在UAVDT[47]上的比较。*表示GPU速度。红色、绿色和蓝色分别表示第一、第二和第三名。06.1.2 与基于CPU的跟踪器的比较0我们使用了12个实时跟踪器（速度>30 fps），即KCF[7]，DCF [7]，KCC [57]，fDSST [11]，DSST [58]，BACF[22]，STAPLE-CA [10]，STAPLE [10]，MCCT-H[13]，STRCF [14]，ECO-HC [20]，ARCF-H[26]，以及五个非实时跟踪器，即SRDCF [8]，SAMF[6]，CSR-DCF [30]，SRDCFdecon [24]，ARCF-HC[26]进行比较。实时跟踪器在四个数据集上的结果显示在图3中。此外，表2展示了前十名基于CPU的跟踪器在速度和精度方面的平均性能。可以看出，AutoTrack是CPU上最好的实时跟踪器。图4和图6展示了一些跟踪结果。0整体性能评估：AutoTrack在DTB70 [46]、UAVDT[47]和UAV123@10fps[48]上的精度和成功率均优于所有基于CPU的实时跟踪器。在VisDrone2018-test-dev[49]上，AutoTrack在精度和成功率方面与最佳跟踪器MCCT-H和ECO-HC的性能相当。至于前十名的平均性能0表1. AutoTrack与UAVDT[47]上的深度跟踪器在精度和速度方面的比较。*表示GPU速度。红色、绿色和蓝色分别表示第一、第二和第三名。0跟踪器精度 FPS 跟踪器精度 FPS0AutoTrack 71.8 65.4 UDT+[53] 69.7 60.4*0DeepSTRCF[14] 66.7 6.6* ADNet[16] 68.3 7.6* DSiam[56] 70.4 15.9*TADT[51] 67.7 32.5* MCPF[19] 66.0 0.67* MCCT[13] 67.1 8.6*Siamese[15] 68.1 37.9* ECO[20] 70.0 16.4* C-COT[17] 65.6 1.1*CREST[35] 64.9 4.3* ASRCF[31] 70.0 24.1* HCF[18] 60.2 20.15*CFNet[52] 68.0 41.1* IBCCF[54] 60.3 3.39*00.20.40.60.8AutoTrack[0.717]STRCF [0.649]ECO-HC [0.643]ARCF-H [0.607]MCCT-H [0.604]BACF [0.590]fDSST [0.534]Staple-CA [0.504]KCF [0.468]DCF [0.467]DSST [0.463]KCC [0.440]Staple [0.365]00.20.40.60.8AutoTrack[0.479]ECO-HC [0.453]STRCF [0.437]ARCF-H [0.416]MCCT-H [0.405]BACF [0.402]fDSST [0.357]Staple-CA [0.351]KCC [0.291]KCF [0.280]DCF [0.280]DSST [0.276]Staple [0.265]00.20.40.60.8AutoTrack[0.718]ARCF-H [0.705]Staple-CA [0.695]BACF [0.686]DSST [0.681]ECO-HC [0.681]MCCT-H [0.667]fDSST [0.666]Staple [0.665]KCC [0.649]STRCF [0.629]KCF [0.571]DCF [0.559]00.20.40.60.8AutoTrack[0.450]BACF [0.433]ARCF-H [0.413]STRCF [0.411]ECO-HC [0.410]MCCT-H [0.402]Staple-CA [0.394]KCC [0.389]fDSST [0.383]Staple [0.383]DSST [0.354]KCF [0.290]DCF [0.288]00.20.40.6AutoTrack[0.671]ECO-HC [0.634]STRCF [0.627]ARCF-H [0.612]MCCT-H [0.596]Staple-CA [0.587]Staple [0.573]BACF [0.550]KCC [0.531]fDSST [0.516]DSST [0.448]DCF [0.408]KCF [0.406]00.20.40.6AutoTrack[0.477]ECO-HC [0.462]STRCF [0.457]ARCF-H [0.434]MCCT-H [0.433]Staple-CA [0.420]Staple [0.415]BACF [0.397]fDSST [0.379]KCC [0.374]DSST [0.286]DCF [0.266]KCF [0.265]00.20.40.60.8-H [0.811]MCCTHC [0.797]ECO-ARCF-H [0.791]rack[0.788]AutoT[0.783]StapleCA [0.782]Staple-0.781]KCC [F [0.778]STRC[0.774]BACF[0.762]DSST[0.698]fDSST0.685]KCF [0.669]DCF [00.20.40.60.8C [0.578]HECO-rack[0.573]AutoTMCCT-H [0.572]F [0.567]STRCBACF [0.567]Staple [0.566]-H [0.563]ARCF-CA [0.550]Staple[0.541]DSST0.530]KCC [[0.510]fDSST0.413]KCF [0.408]DCF [1192800 10 20 30 40 50 位置误差阈值0精度0DTB70上的精度曲线00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0DTB70上的成功率曲线00 10 20 30 40 50 位置误差阈值0精度0UAVDT上的精度曲线00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0UAVDT上的成功率曲线00 10 20 30 40 50 位置误差阈值0精度0UAV123@10fps上的精度曲线00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0UAV123@10fps上的成功率曲线00 10 20 30 40 50 位置误差阈值0精度0VisDrone 2018 -test-dev上的精度曲线00 0.2 0.4 0.6 0.8 1 重叠阈值0成功率0VisDrone 2018 -test-dev上的成功率曲线0图3. 基于CPU的实时跟踪器在（a）DTB70 [46]、（b）UAVDT [47]、（c）UAV123@10fps [48]和（d）VisDrone2018-test-dev[49]上的整体性能。使用一次评估（OPE）[59]的两个指标进行评估。精度曲线可以展示估计边界框与真实边界框之间距离小于不同阈值的情况的百分比，20像素处的分数用于排名。成功率曲线可以显示估计边界框与真实边界框之间重叠大于不同阈值的情况的百分比。曲线下面积（AUC）用于排名。0表2.四个基准上十个基于CPU的跟踪器的平均速度（fps）和精度。红色、绿色和蓝色分别表示第一、第二和第三名。所有报告的速度都是在单个CPU上运行的。请注意，AutoTrack是CPU上最好的实时跟踪器。0跟踪器 AutoTrack ARCF-HC[26] ECO-HC[20] ARCF-H[26] STRCF[14] MCCT-H[13] STAPLE CA[10] BACF[22] CSR-DCF[30] SRDCF[8]0精度 72.4 71.9 69.1 67.3 67.1 67.0 64.2 65.6 67.7 62.70速度 59.2 19.3 69.5 53.4 28.4 58.8 58.5 53.1 11.8 14.20在基于CPU的跟踪器中，AutoTrack在精度上表现最佳，速度为59.2fps，仅比ECO-HC（69.5fps）慢，然而与ECO-HC相比，我们在精度上平均提高了4.8%。此外，AutoTrack在精度上优势为7.9%，速度优势为108.5%，超过了基准STRCF。0图4.bird13、car18、MountainBike5和person122的AutoTrack（红框）和STRCF（绿框）的跟踪结果和响应图。由于自动正则化，AutoTrack（第三行）的响应比STRCF（第二行）更少分散。0备注2：M.Muller等人从记录的30fps数据集中创建了一个10fps的数据集[48]，因此跟踪对象在连续帧之间的运动更大，带来了更多的挑战。在UAV123@10fps上，AutoTrack在精度上比第二名的ECO-HC有5.8%的显著优势，证明了它对于大运动的鲁棒性。备注3：与仅使用固定参数抑制全局响应变化的ARCF-HC[26]相比，我们充分利用局部-全局信息以自动方式微调时空正则化项。大量实验证明，AutoTrack在提供更好性能的同时，速度更快，是ARCF-HC的3.1倍。基于属性的评估：图5展示了八个属性的成功率曲线。在正常外观变化场景（变形、平面旋转、视角变化）中，由于自动时序正则化可以平滑地帮助滤波器适应新的外观，AutoTrack在成功率上比STRCF分别提高了15.9%、15.5%和4.6%。在光照变化和大遮挡（异常外观变化）方面，由于自适应空间正则化以及异常监测机制可以在污染之前停止训练，AutoTrack相比STRCF分别具有7.0%和15.7%的优势。00.20.40.60.8DTB70: Deformation (18)AutoTrack[0.452]ECO-HC [0.404]STRCF [0.390]MCCT-H [0.354]ARCF-H [0.308]BACF [0.302]Staple-CA [0.270]fDSST [0.243]KCC [0.234]DSST [0.225]KCF [0.208]DCF [0.208]Staple [0.207](a)00.20.40.60.81Overlap threshold00.10.20.30.40.50.6Success rateUAV123@10fps: Illumination variation (31)AutoTrack [0.380]ECO-HC [0.362]STRCF [0.355]MCCT-H [0.342]Staple-CA [0.338]ARCF-H [0.326]Staple [0.326]KCC [0.303]fDSST [0.296]BACF [0.285]DSST [0.210]DCF [0.185]KCF [0.183](b)00.20.40.60.81Overlap threshold00.20.40.60.8Success raterack[0.454]AutoTHC [0.410]ECO-[0.393]STRCF-H [0.383]ARCFMCCT-H [0.376][0.371]BACF[0.326]fDSSTCA [0.311]Staple-0.271]KCC [.268]0DCF [0.268]KCF [[0.256]DSST[0.235]StapleDTB70: In-plane rotation (47)(c)00.20.40.60.81Overlap threshold00.20.40.6Success rateUAVDT: Large occlusion (20)AutoTrack[0.369]MCCT-H [0.348]ECO-HC [0.347]BACF [0.340]ARCF-H [0.339]fDSST [0.332]Staple-CA [0.324]STRCF [0.319]Staple [0.308]KCC [0.304]DSST [0.299]DCF [0.232]KCF [0.229](d)00.20.40.60.81Overlap threshold00.20.40.60.8Success raterack[0.468]AutoTF [0.447]STRCC [0.434]ECO-H[0.412]BACF-H [0.395]ARCFMCCT-H [0.334][0.285]fDSSTCA [0.260]Staple-0.212]DCF [KCF [0.212]0.199]KCC [[0.193]DSST[0.156]StapleDTB70: Motion blur (27)(e)00.20.40.60.81Overlap threshold00.10.20.30.40.50.6Success rateAutoTrack[0.405]C [0.391]HECO-F [0.389]STRC-H [0.376]MCCT-H [0.361]ARCFStaple-CA [0.354][0.351]Staple[0.314]fDSST[0.311]BACF0.302]KCC [[0.246]DSST0.226]DCF [0.223]KCF [UAV123@10fps: Partial occlusion (73)(f)00.20.40.60.81Overlap threshold00.10.20.30.40.50.6Success raterack[0.412]AutoTC [0.400]HECO-F [0.394]STRCStaple-CA [0.362]-H [0.361]MCCT[0.360]StapleARCF-H [0.359]0.326]KCC [[0.321]BACF[0.304]fDSST[0.231]DSST0.213]DCF [0.210]KCF [UAV123@10fps: Viewpoint change (60)(g)00.20.40.60.81Overlap threshold00.10.20.30.40.50.6Success raterack[0.407]AutoTF [0.389]STRCHC [0.387]ECO-MCCT-H [0.365]-CA [0.343]Staple[0.332]Staple-H [0.330]ARCF[0.318]BACFfDSST [0.317]0.268]KCC [[0.245]DSST0.222]DCF [0.222]KCF [UAV123@10fps: Out-of-view (30)(h)Figure 5. Attribute-based comparison on deformation, illumination variation, in-plane rotation, large occlusion, motion blur, parti

下载后可阅读完整内容，剩余1页未读，立即下载