跨模态流形排名下的鲁棒RGB-T目标跟踪方法

160 浏览量更新于2023-10-13 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

鲁棒RGB-T跟踪李成龙1、2[0000−0002−7233−2739]、朱成立2[0000−0001−8714−6755]、黄燕1[0000−0002−8239−7229]、唐金2[0000−0002−4123−268X]、王亮1[0000−0001−5224−8647]1智能感知与计算研究中心（CRIPAC）中国科学院自动化研究所模式识别国家重点实验室2安徽大学{lcl1314，zcl912，jtang99029}@ foxmail.com，{yhuang，wangliang}@nlpr.ia.ac.cn抽象。由于可见光（RGB）和热红外（T）数据的互补优势，RGB-T目标跟踪最近吸引了越来越多的关注，以提高在不利照明条件下的性能现有的RGB-T跟踪方法通常使用边界框来定位目标对象，其中跟踪器或检测器经常受到包含背景杂波的影响为了解决这个问题，本文提出了一种新的方法来抑制背景效应的RGB-T跟踪。我们的方法依赖于一种新的跨模态流形排名算法。首先，我们将软跨模态一致性集成到排序模型中，该模型允许稀疏不一致性来解释这两种模态之间的不同属性其次，我们提出了一个最佳的查询学习方法来处理标签噪声的查询。特别是，我们引入了一个中间变量来表示最佳标签，并制定它作为一个基于l1-优化的稀疏学习问题。此外，我们提出了一个单一的统一优化算法来解决所提出的模型具有稳定和有效的收敛行为。最后，排名结果被纳入到基于块的对象特征，以解决背景效应，然后采用结构化SVM进行RGB-T跟踪。大量的实验表明，所提出的方法表现良好，对国家的最先进的方法在大规模的基准数据集。关键词：视觉跟踪，信息融合，流形排序，软跨模态一致性，标签优化1介绍RGB-T跟踪的目标是在给定初始真实边界框的情况下，通过融合RGB和热（分别对应于可见光和热红外光谱数据）信息来估计视频中的目标对象的状态。最近，研究人员越来越关注RGB-T跟踪[1，2，3，4，5]，部分原因如下。i）成像质量2李成龙，朱成利，黄燕，唐进，王亮(a)（b）第（1）款图1.一、RGB和热数据的典型互补优势[5]。（a）热源优于RGB光源，其中可见光谱受到低照度、高照度和雾的干扰（b）RGB源优于热源，其中热光谱受到玻璃和热交叉的干扰。可见光谱在恶劣的环境条件下受到限制（例如，低照度、雨、霾和烟雾等）。ii）热信息可以为可见光谱提供补充益处，特别是在不利的照明条件下。iii）热传感器与其他传感器相比具有许多优点，例如远距离成像能力、对照明条件不敏感以及穿透薄雾和烟雾的能力强。图1示出了一些示例。大多数RGB-T跟踪方法都集中在稀疏表示上，因为它具有抑制噪声和误差的能力[2，3，4]。然而，这些方法仅采用像素强度作为特征表示，因此难以处理复杂场景。Li等人[5]将空间有序和加权的补丁描述符[6]扩展基于深度学习的跟踪器[7，8，9]采用强大的深度特征或网络来提高跟踪性能，但将其扩展到多模态跟踪器存在以下问题：i）将热视为RGB的一个通道或直接连接其特征可能无法最好地利用多模态的互补优势[4]。例如，如果一个模态发生故障，则将其融合等于添加噪声，这可能会干扰跟踪性能[4]。ii）设计多模态网络通常导致耗时的网络训练和测试过程，特别是对于多输入视频。在本文中，我们提出了一种新的跨模态排名算法鲁棒RGB-T跟踪。给定目标对象的一个边界框，我们首先将其划分为非重叠的补丁，其特征在于RGB和热特征（如颜色和梯度直方图）。因此，边界框可以用具有图像块作为节点的图来表示。受[6，5]的启发，我们为每个补丁分配一个权重来抑制背景信息，并提出了一种跨模态排序算法来计算补丁权重。然后将补丁权重合并到RGB-T补丁特征中，并通过应用结构化SVM [10]最终预测对象位置。图2显示了我们方法的流水线。特别是，我们的跨模态排名算法在以下方面的进步现有的。鲁棒RGB-T跟踪3首先，我们提出了一个有效的多模态融合的一般计划RG-B和热模态是异质的，具有不同的性质，并且这两种模态之间的硬一致性[11，4]可能难以进行有效的融合。因此，我们提出了一个软的跨模态一致性，以强制模态之间的排名一致性，同时允许稀疏的不一致性存在。其次，我们提出了一种新的方法来减轻排名噪声的影响。在传统的流形排名模型中，查询质量对于排名精度非常重要，因此如何设置好的查询需要手动设计[12，13，14]。在视觉跟踪中，初始块权重的设置（即，查询）并不总是合理的，这是由于跟踪结果的噪声和不规则的对象形状[6]。为了解决这个问题，我们引入了一个中间变量来表示初始补丁的最佳标签，并基于视觉上相似的补丁往往具有相同的标签或权重的观察，以半监督的方式对其进行优化。我们将其制定为基于l1优化的稀疏学习问题，以促进推断查询和初始查询之间的不一致的稀疏性（因为大多数初始查询应该是正确的，其余的是噪声）。我们称这个过程为最优查询学习在本文中。最后，我们提出了一个有效的求解器的目标。而不是单独考虑每个问题，我们提出了一个单一的统一的优化框架-工作学习补丁权重和最佳查询在同一时间，这可能是有益的，以提高各自的性能。特别地，采用有效的ADMM（交替方向乘法器方法）[15]，并且还采用线性化操作[16]以避免矩阵求逆以提高效率。通过这种方式，我们的算法具有稳定的收敛行为，并且每次迭代具有较小的计算复杂度。总之，我们对RGB-T跟踪和相关应用做出了以下贡献。i）我们将软一致性集成到跨模态排名过程中，以对两种模态之间的相互依赖性进行建模，同时允许存在稀疏不一致性以考虑它们的异构特性。所提出的跨模态一致性算法具有通用性，可应用于其他多模态融合问题。ii）为了减轻初始补丁的噪声影响，我们引入中间变量来表示初始补丁的最优标签，并将其表示为基于l1-优化的稀疏学习问题。它也是通用的，适用于其他半监督任务，如显着性检测和交互式对象分割。iii）我们提出了一个统一的基于ADMM的优化框架来解决具有稳定和有效收敛行为的目标，这使得我们的跟踪器非常有效。iv）为了证明所提出的方法相对于现有技术方法的效率和优越性能，我们在两个大规模基准数据集上进行了广泛的实验，即，GTOT [4]和RGBT210[5]。4李成龙，朱成利，黄燕，唐进，王亮2相关工作视觉跟踪的方法浩如烟海，我们只讨论与我们最相关的。RGB-T跟踪在计算机视觉通信领域引起了广泛的关注与热红外传感器的普及和可负担性有关[17]。作品关于RGB-T跟踪的研究主要集中在稀疏表示，因为其能够抑制噪声和误差[2，3，18，4]。Wu等人[2]将来自RGB和热源的图像块的强度特征连接成一维向量，其在目标模板空间中稀疏地表示。在贝叶斯滤波框架下，通过将重建残差定义为似然，进行RGB-T跟踪。Liu等人[3]对RGB和热模态两者执行联合稀疏提出了一种拉普拉斯稀疏表示，以使用对空间局部信息和遮挡处理进行编码的重建系数来学习多模态特征[18]。Li等人。[4]提出了一种基于协作稀疏表示的跟踪器，通过为每个模态分配可靠性权重来自适应地融合RGB和热模态然而，这些方法仅采用像素强度作为特征表示，因此难以处理复杂的场景。Kim等人[6]提出了一种基于随机游走算法的目标对象空间有序和加权块（SOWP）描述符，并实现了良好的跟踪性能。Li等人[19]通过优化动态图来扩展SOWP，并且进一步提出了另一种扩展以自适应地整合多模态信息用于RGB-T跟踪[5]。与这些工作不同，我们从一个新的角度提出了一种新的跨模态排序算法的RGB-T跟踪。特别是，我们的方法具有以下优点。（一）一般性。所提出的模型和方案是通用的和适用的，包括软跨模态一致性和最优查询学习，并可以很容易地扩展到其他视觉问题。ii）有效性。我们的方法在两个大规模基准数据集上对最先进的RGB和RGB-T跟踪器表现良好iii）效率。所提出的优化算法具有快速和稳定的收敛行为，这使得我们的跟踪器非常有效。3跨模态排序算法我们的跨模态排名算法的目的是计算补丁的权重，以抑制背景影响的包围盒描述的目标对象。本节将详细介绍我们的跨模态排名模型和相关的优化算法。将在下一部分中详细描述加权块特征构造和对象跟踪。为了清楚起见，我们在图1中呈现了我们的跟踪方法的流水线。二、鲁棒RGB-T跟踪5热联合学习...→联系我们我1我n交叉模态流形排序...RGB特征描述符...热特征描述子...前景面片权重...RGB-T特征表示RGB（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）图二、管道我们的方法。（a）裁剪区域，其中红色边界框表示初始片的区域。(b)补丁初始化用红色表示。(c)从初始修补程序优化结果（d）利用软跨模态一致性对结果进行(e)RGB-T特征表示。(f)结构化SVM (g)跟踪结果。3.1模型配方基于图的流形排序问题描述如下：给定一个图和该图中的一个节点作为查询，其余节点基于它们与给定查询的亲和力进行排序我们的目标是学习一个定义未标记节点和查询之间相关性的排名函数[12]。我们采用基于图的流形排序模型来解决我们的问题。给定目标边界框，我们首先将其分割成一组非重叠的块，这些块用RGB和热特征（例如，颜色、温度和梯度直方图）。为了减轻背景信息的影响，我们为每个补丁分配一个权重，描述其属于目标的重要性，并通过跨模态排名算法计算这些权重给定图块特征集Xm={Xm，...， x m}，一些补丁被标记为查询而其余的需要根据它们与查询的亲和性来排序在这里，m1、2、……M表示第m个模态，M表示模态的数量。请注意，RGB-T数据是M= 2的特殊情况，我们从适用的角度讨论其一般形式设sm：XmRn表示将排序值s_m分配给每个补丁x_m我我在第m模态中，并且s_m可以被视为向量s_m= [s_m，…，sm]T.在 1N在这项工作中，我们将初始补丁权重视为查询标签，并且因此SM是补丁权重向量。令qm= [qm，…表示指示向量，其中=1如果1n iXm是目标对象块，并且如果Xm是背景块，则qm= 0qm为我我我由初始地面实况（对于第一帧）或跟踪结果（对于第二帧）后续帧）如下。对于第i个面片，如果它属于缩小的区域的边界框，则= 1，如果它属于展开的区域的边界框，然后q m=0，如图所示。第3（a）段。剩余的面片是非确定的，并且将被其他面片漫射。一般来说，排名是以两阶段的方式进行的，分别考虑背景和物体[13]，但我们的目标是将它们集成到一个统一的模型中。为此，我们在Γi=1处找到了一个独立的向量Γth，并在Γi=1处找到了独立的向量ΓthhH HHHHH Ǆ6李成龙，朱成利，黄燕，唐进，王亮◦SMC=i-thpatchisforegroundorba ckgroundpatch，且dri=0denttthat第i个片是不确定片。给定第m个模态的图G_m，通过扩展传统的流形排名模型[12]，通过求解以下优化问题来计算查询的最优排名1∑M ∑nsmsmλminWM||2+λ||Γ◦（s m − q m）||2+ 2 s m 2，||2+2∥s m∥2,DD{sm}2Ijmmm=1i，j =1iijjF2F（一）其中λ是用于平衡平滑项和拟合项的参数，并且λ2是正则化参数。表示元素级乘积。Dm是图亲和矩阵Wm的度矩阵，其计算如下。在第m模态中，如果图节点vi和vj与8个邻居相邻，则它们通过边e连接，其被分配权重Wm = exp（−γ<$xm−xm<$），ij ijijij其中γ是缩放参数，在本文中将其设置为5在（1）中，它内在地表明可用模态是独立的，这可能显著地限制在处理个别源的偶然扰动或故障时的性能此外，初始块权重（即，查询）并不总是合理的，由于噪声的跟踪结果和不规则的对象形状，如图所示第3（a）段。在本文中，我们集成软跨模态一致性和最优查询学习到（1）来处理上述问题，分别。软跨模态一致性。为了利用RGB和热数据的互补优势，我们需要在排名过程中施加模态一致性Wang等人[11]提出一种多图正则化流形排序方法，使用硬约束整合不同的蛋白质结构域，即，采用多个图来正则化相同的排名分数。它不适合我们的问题，因为RGB和热源是异质的，具有不同的属性。因此，我们引入了一个软的跨模态一致性，以执行模态之间的排名一致性，同时允许稀疏不一致性存在，以考虑其异构属性。为此，我们提出软跨模态一致性作为基于l1优化的稀疏学习问题，如下所示：最小λ1联系我们∑Mm=2||1 = m i n λ 1||CS||第一条、第二条||1,(2)其中λ1是正则化参数，并且S =[s1;s2;. ; sM]。C是十字架--模态一致性矩阵，其定义为：I1−I20 00I2−I3......其中I是单位矩阵。0 IM−1−IM鲁棒RGB-T跟踪7−i，j=1IJ我J最优查询学习。为了减轻初始补丁权重的噪声影响，我们引入了一个中间变量来表示最佳的，并在半监督的方式优化它。详情如下。D entingintermeding 我们先到那边去1N两个函数都是针对f e r ringm，i. 例如，可见，最小的稀疏性约束是不可见的，并且是不可见的稀疏性约束。第一个约束假设视觉上相似的面片它有一个简单的表格和表格，并有一个设备。我们要把它加到-mothnesstermnWm（qm−qm）2thatcanmakevisualsimilaritybe图平滑度约束。第二个约束旨在迫使稀疏印昆通过在数据噪声中共同使用l 1 -范数的稀疏性来调节q m，这已经被证明是有效的，即使当数据噪声不稀疏时[20，21]。 Therefore，weformulateitas||qm−qm||1，其中，rel1-范数用于促进关于推断标签与初始标签之间的不一致性的稀疏性（因为大多数初始标签应该是正确的，而剩余的标签是噪声）。图3示出了l1范数优于l2范数。通过组合这两个约束，所提出的l1优化问题被公式化如下：∑nm inαWm（qm−qm）2+β||qm−qm||第一条、第三条联系我们i，j=1i j i j其中α和β是平衡参数。将软跨模态一致性（2）和最优查询学习（3）集成到（1）中，最终的跨模态排名模型被写为：min1∑M∑n（SMWM||√iDSM-√jD||Γ◦（s m − q m）||2||2{sm}，{qm}2λIjmmm=1i，j =1iijj∑nF（四）+2sm2+αWm（qm−qm）2+β||qm−qm||1）+λ1||CS||1 .一、2Fi，j=1i j i j虽然（4）看起来很复杂，但如实验所示，跟踪性能对参数变化不敏感。3.2优化算法虽然（4）的变量不是联合凸的，但是固定其他变量的每个变量的子问题是凸的并且具有封闭形式的解。ADMM（交替方向乘法）算法[15]是解决类似（4）的问题的高效且有效的求解器为了将ADMM应用于我们的问题，我们将两个任意可变的P=CS和fm=qm映射（4）是可比较的。通过一些代数运算，我们得到min（（s m）TLms m+λ||Γ◦（s m−qm）||2+λ2sm2{sm}，{qm}，P，{fm}m=1F2F（五）+2α（fm）T（Dm−Wm）fm+βqm−qm1）+λ1P1，S. t.P =CS，fm=qm，∑M8李成龙，朱成利，黄燕，唐进，王亮y×2M mm−2m◦◦122∑M图三. l1-范数和l2-范数在学习最优查询中的比较。(a)目标边界框（红色）、收缩边界框（白色）和扩展边界框（绿色）。(b)通过l1-范数优化的热图。(c)l2范数优化的热图。(d)没有最优查询学习的热图。在此，热图表示排名结果。其中L m= I−（D m）−1 W m（D m）−1 是归一化拉普拉斯矩阵，第m模态。（5）的增广拉格朗日函数是：L（{sm}，{qm}，P，{fm}，Y1，Y2）=（（sm）TLms m+λ||Γ◦（sm−qm）||2+λ2sm2m=1F2F+2α（fm）T（Dm−Wm）fm+βqm−qm1）+λ1P1（六）+µ（P−CS+Y12+Mq22）2µF12 2µFm=1-2µ（Y1F+Y2F），其中Y1和Y2=[y1，y2，…[1]是拉格朗日乘子，μ是2 2 2拉格朗日参数由于篇幅所限，我们给出了详细的推导过程。补充文件中的选项 ADMM可替换地通过最小化（6）来更新一个变量，同时固定其他变量。除拉格朗日乘子外，还包括四个变量，其中包括S、qm、P和f以求解。在S-子问题中，矩阵的求逆运算是非常耗时的。为了处理这个问题，我们采用线性化操作[16]来避免矩阵求逆以提高效率。由于篇幅所限，我们只给出这些子问题的解如下：fm=（4α（Dm−Wm）+µI）−1（µqm+ym）ymq=softthr（s，f，q，λΓΓ，µP =软thr（CS−Y1，λ1）µ，β）2（七）Sk+11=Sk−ηµSkµ µJ k其中，softthr是软阈值化算子，softthr1也是软阈值化算子，其中softthr具有不同的输入，参见补充文件∑M鲁棒RGB-T跟踪9L=MKHKF2我我y详细定义。k表示第k次迭代，Jk是缩写的J（Sk，Qm，Pk，Y1，k，µk）=STLSk+λΓ◦（Sk−Qk）2+µkPk−CSk+Y1，k2+λ2Sk2，其中Q=[q1;q2;... ;qM]，anddµkF2FL10 00L2...0 LM1∑Mm2SJ是J对S的局部微分，且η=Mm=1 X1996年详细推导见补充文件。4RGB-T目标跟踪本节首先对所提取的多光谱特征施加优化的分块权重以用于更鲁棒的特征表示，并且然后呈现分块的细节。4.1特征表示我们执行交叉模态排序以获得补丁权重，即， s1，s2，… 的作案令xi=[xi;…;x M] ∈ RdM×1是第i个面片的RGB-T特征向量。然后，我们通过合并patchweig hts来构造最终的协作特征表示。具体而言，对于在Ch处的HP，我们可以通过如下组合所有模态权重来最终i=1 ∑Msm 、（8）1 + exp（−σm=1（i）其中σ 是在这项工作中固定为35的缩放参数协作特征描述由yx=[x1x1;... ;nxn]∈RdMn×1.4.2跟踪本文采用结构化SVM（S-SVM）[10]进行对象跟踪，也可以使用其他跟踪算法，如相关滤波器[22]。S-SVM不使用二进制标记的样本，而是使用由同一帧中的目标边界框和附近框组成的结构化具体地，它约束目标边界框y_t的置信度得分比附近框y的置信度得分大由两个框之间的交集与并集重叠比率（表示为IoU（y_t，y））确定的余量：∑h *= arg min ξ||H ||2 +max {0，△（yt，y）− h T（yt，y）}，（9）10李成龙，朱成利，黄燕，唐进，王亮−不−|V|不不ytt−10其中△（yt，y）= 1 −IoU（yt，y），ε（yt，y）=Ψ（yt）−Ψ（y），ξ=0。0001是正则化参数。Ψ（y，t）表示表示在第t帧处的边界框y，t飞机在本文中，我们采用随机方差降低梯度（SVRG）技术[23]来优化（9）。通过这种方式，S-SVM可以减少错误标记的不利影响。给定前一帧（t1）中的目标对象的边界框，我们首先在当前帧t中设置搜索窗口，并且在搜索窗口内采样一组候选者。S-SVM通过最大化分类得分来选择第t帧中的最佳目标边界框y*y*= arg max（ωhTΨ（yt）+（1-ω）hTΨ（yt）），（10）其中ω是平衡参数，h t-1是（t）的决策平面的法向量1）-第帧。在初始帧中学习h 0，这可以防止它从学习剧烈的外观变化。为了防止不可靠跟踪结果的影响，我们只在跟踪结果的置信度大于阈值θ时更新分类器，其中第t帧跟踪结果的置信度定义为我们已经完成了对存储库和存储器的加密，并已将其更新为p或tvec，作者：1不v∈Vt vTΨ（y*），其中Vt是在时间t此外，我们使用方法[24]。5绩效评价5.1评估设置数据仅存在两个大的RGB-T跟踪数据集，即，GTOT [4]和RGBT210[5]。它们足够大，具有挑战性，我们评估了我们对它们进行全面验证的方法GTOT包括50个RGB-T视频剪辑，具有不同场景和条件下的地面实况对象位置RGBT 210是用于RGB-T跟踪评估的另一个更大的数据集。它是高度一致的，并包含210个视频剪辑与RGB和热数据。该数据集考虑了许多挑战，例如相机移动、不同的遮挡水平、大规模变化和环境挑战。精确率（PR）和成功率（SR）被用来衡量各种跟踪器的定量性能。参数我们在实验中固定所有参数和其他设置。我们将所有边界框分割成64个非重叠的区块以平衡准确性-效率权衡[6]，并提取每个区块的RGB-T特征，包括颜色、热和梯度直方图，其中梯度和每个颜色通道的维度被设置为8。为了提高效率，每个帧被缩放到32个像素中的一个边界的最小值处，并且该最小值是32个像素。搜索窗口的长度被固定为2WH，其中W和H是搜索窗口的长度。鲁棒RGB-T跟踪11- -联系我们10.90.80.70.60.50.40.30.20.1精密度图10.90.80.70.60.50.40.30.20.10成功计划00 5 10 15 2025定位误差门限0 0.2 0.4 0.6 0.8 1重叠阈值见图4。公共GTOT基准数据集上的成功率（SR）。10.90.80.70.60.50.40.30.20.10精密度图0 10 20 30 4050定位误差门限10.90.80.70.60.50.40.30.20.10成功情节0 0.2 0.4 0.6 0.81重叠阈值图五、在公共RGBT210基准数据集上的评估结果PR/SR的代表性评分见图例。缩放的边界框的宽度和高度我们将跟踪的边界框（lx，ly，W，H）收缩和扩展为（lx +0. 1 W，ly +0。1H，0. 8 W，0. 8H）和（lx W’，lyH’，W+2W’，H+2H’），其中（lx，ly）表示所跟踪的边界框的左上坐标，W’和H’分别表示面片宽度和高度所提出的模型涉及（6）中的几个参数，包括α、β、λ、λ1和λ2，并且在表1中示出了具有不同参数的跟踪灵敏度。结果表明，当α、β λ、λ 1和λ 2分别为0.65、0.002、0.56、0.3和0.4时，两种不同的模态参数变化的结果是一致的。在S-SVM中，我们根据经验设置ω，θ = 0。598，0。3，并采用线性核。基线。为了进行综合评估，我们将我们的方法与23种流行的跟踪器进行了比较，其中一些来自GTOT和RGBT210基准测试。由于RGB-T跟踪器很少[2，3，4，18，5]，我们通过将RGB和热特征连接到单个向量中或将热视为额外通道，将一些RGB跟踪方法扩展到RGB-T跟踪器，例如KCF [22]，Struck [25]，SCM [26]和CFnet [27]。此外，我们还选择了最近提出的最先进的跟踪器进行比较，如C-COT [9]，ECO[28]，ACFnet [29]，SiameseFC [30]和Staple-CA [31]，详见图4和图5。我们的[0.643]ECO[0.631]SGT[0.628]CSR[0.616]吻合钉-CA[0.614]吻合钉[0.608][0.605]SRDCF[0.591]ACFN[0.576]CFnet+RGBT[0.571]CCOT[0.567]SCM+RGBT[0.562]SAMF -AT[0.542]暹罗足球俱乐部[0.54]打击+RGBT[0.533]CN+RGBT[0.502]STC+RGBT[0.462]JSR[0.432]L1-PF[0.427]TLD+RGBT[0.412]KCF[0.401]KCF+RGBT[0.396][0.851]我们的[0.827]ECO[0.77]吻合钉[0.751]CSR[0.749]吻合钉-CA[0.744]BACF[0.732]SRDCF[0.719]CCOT[0.712]CFnet+RGBT[0.705]ACFN[0.702]打击+RGBT[0.681]SAMF-AT[0.677]SCM+RGBT[0.674]CN+RGBT[0.659]泰国足球会[0.655]STC+RGBT[0.608]L1-PF[0.551]KCF[0.522]KCF+RGBT[0.496]JSR[0.45CCOT[0.502]ECO[0.498]我们的[0.46 3]BACF[0.451]SRDCF[0.442]SGT[0.430]吻合钉[0.429]吻合钉-CA[0.421]暹罗足球俱乐部[0.412]SOWP[0.379]ACFN[0.374]CFnet+RGBT[0.360]SAMF-AT[0.346]MEEM[0.332]CNN+KCF+RGBT[0.331]CSR[0.330][0.324]MEEM+RGBT[0.319]KCF+RGBT[0.285]KCF[0.284]L1_ PF[0.274]精度CCOT[0.705]我们的[0.694]ECO[0.690]SGT[0.675]SRDCF[0.619][0.616]SOWP[0.599]吻合钉[0.595]暹罗足球俱乐部[0.586]吻合钉-CA[0.580][0.530][0.522]CFnet+RGBT[0.518]MEEM[0.516]MEEM+RGBT[0.505]CNN+KCF+RGBT[0.493]CSR[0.491]SAMF-AT[0.489]KCF+RGBT[0.440][0.429]L1_PF[0.420]JSR[0.311]精度成功率成功率12李成龙，朱成利，黄燕，唐进，王亮表1. 在GTOT数据集上具有不同参数的所提出的方法的成功率（SR）。Param 设置Sr Param 设置Sr Param 设置Sr0.3250.6240.0002 0.615α0.650.643β0.0020.6431.30.590.020.6330.280.620.150.6280.20.602λ0.560.643λ10.30.643λ20.40.6431.120.6050.60.6280.80.632表2. RGBT 210数据集上基于属性的精确率和成功率（PR/SR %），9个追踪器包括CSR [4]、DSST [32]、MEEM [33]、CNN [22]、SOW- P [6]、KCF[22]、SGT [5]、CFnet [27]和ECO [28]。最好和第二结果分别是红色和绿色ECOSOWPDSSTCSRSgtKCF+RGBTMEEM+RGBTCNN+KCFRGBTCFnet+RGBT我们没有 87.7/64.3 75.0/46.1 70.2/41.4 68.1/45.2 82.4/50.7 56.6/36.3 64.7/41.263.7/42.969.7/52.2 86.1/59.4PO72.2/52.5 61.3/39.5 57.0/35.1 52.7/36.6 75.4/48.3 49.6/31.6 57.4/35.556.0/36.457.2/38.4 77.1/52.2何58.3/41.3 52.0/32.8 39.4/25.7 37.1/24.3 53.1/34.1 33.0/22.2 37.2/24.236.6/25.939.3/27.3 54.3/34.6李66.6/45.6 48.3/30.7 47.8/29.0 47.3/31.1 71.6/44.7 48.3/30.4 39.2/25.652.8/34.549.8/33.6 71.4/46.4LR64.1/38.1 51.0/29.1 52.8/29.1 46.0/23.1 65.8/37.5 42.6/26.2 44.9/23.454.6/32.545.2/27.7 64.8/37.4TC82.1/58.8 70.0/44.9 50.9/32.2 43.2/29.3 64.9/40.7 39.0/24.1 58.2/35.649.6/33.242.8/29.4 65.8/43.0DEF 61.2/45.0 61.4/41.7 46.5/33.0 44.7/33.0 65.3/45.9 40.6/29.5 48.7/33.544.8/34.448.9/35.2 65.2/45.8FM58.2/39.2 56.0/32.3 34.4/21.2 42.6/25.0 58.0/33.1 33.3/19.1 43.5/26.837.1/24.136.5/23.0 58.8/34.9SV74.5/55.4 62.8/37.7 58.7/33.5 53.3/37.5 67.4/41.7 42.4/27.5 52.8/33.050.3/32.656.7/40.6 72.5/49.2MB67.8/49.9 55.2/38.3 32.3/23.2 34.7/23.8 58.6/39.6 29.1/20.7 46.2/31.430.4/22.030.3/22.458.4/40CM 61.7/45.0 55.8/36.9 38.7/26.9 38.9/27.4 59.0/40.7 37.5/26.0 48.7/31.936.2/27.037.2/27.9 59.7/41.8BC52.9/35.2 47.2/28.6 43.8/26.3 38.4/23.7 58.6/35.5 41.0/25.6 40.5/23.442.3/28.443.7/28.1 57.9/35.2所有 69.0/49.8 59.9/37.9 52.2/32.4 49.1/33.0 67.5/43.0 44.0/28.5 50.5/31.949.3/33.151.8/36.0 69.4/46.35.2比较结果GTOT评估。我们在GTOT数据集上给出了评估结果在图4中。总的来说，所提出的算法相对于现有技术的方法有利地执行。特别是，我们的方法优于使用具有清晰边缘的深度特征的最先进方法，例如，PR/SR评分高于ECO [28] 5.0%/1.2%，高于C-COT [9] 11.5%/7.6%该方法有利于可见光和热信息的有效融合。注意，基于深度特征的方法在GTOT（包括ECO和C-COT）上具有较弱的性能。这可能部分是由于在表示低分辨率的目标对象（许多目标在GTOT中很小）的深层特征的弱点。我们的方法可以处理这个具有挑战性的因素。图4示出了我们的跟踪器针对最先进的RGB-T方法表现良好，这表明所提出的融合方法是有效的。SGT [5]在PR中优于我们的跟踪器，这主要是由于通过引入模态权重对不同模态进行自适应融合，但在SR中的表现弱于我们。RGBT210评估。我们进一步评估了我们的方法在RGBT210数据集图。5和表2。比较曲线表明，我们的跟踪器也表现良好，对RGBT210上的最先进的方法。特别是，我们的方法优于最先进的RGB-T跟踪方法，例如，PR/SR评分分别为SGT [5]的1.9%/3.3%和CSR [4]的20.3%/13.3%证明了该方法在多模态信息融合中的有效性鲁棒RGB-T跟踪13表3.在GTOT数据集上使用不同版本的所提出方法的PR/SR（%）Ours-noCOurs-noqOurs-noS我们PR78.778.071.182.7Sr61.263.157.664.3用于视觉跟踪。对于使用深度特征的最先进方法，所提出的跟踪器在所有方面都优于SiameseFC [30]和CFnet [27]所提出的跟踪器在PR方面与C-COT [9]和ECO [28]方案表现同样好，在SR方面稍差。此外，该算法在多个方面对C-COT和ECO方法进行了改进。– 它不需要费力的预训练或大型训练集，也不需要保存大型预训练深度模型。我们在第一帧中使用地面实况边界框初始化所提出的模型，并在后续帧中更新它。– 该模型的每个子问题都有一个封闭形式的解决方案，因此很容易实现。– 它在更便宜的硬件设置上的效率方面优于最先进的深度跟踪方法（我们的：4.0GHz CPU上的8 FPS，ECO：8 FPS，3.4GHz CPU和NVIDIA Tesla K40m GPU，C- COT：1 FPS）。– 在某些情况下，它比ECO和C-COT方法更鲁棒。特别是，它优于ECO方法的部分遮挡，低光照，对象变形和背景clutter的PR和SR方面的序列，这表明我们的方法在融合多模态信息和抑制跟踪过程中的背景效应的有效性此外，在补充文件中给出了RGBT 210和GTOT上的示例可视化结果，进一步定性地验证了我们的方法的有效性。5.3消融研究为了证明的主要组成部分的意义，我们实现了3个版本的GTOT的实证分析我们的方法这3个版本是：1）我们的- noC，其在没有跨模态一致性约束的情况下计算贴片权重。2）Ours-noq算法，去除了排名模型中的最优查询学习3）Ours-noS，其移除特征呈现中的补丁权重从表3中报告的评价结果，我们可以得出以下结论。1）协同对象表示中的块权重14李成龙，朱成利，黄燕，唐进，王亮通过观察Ours的性能优于Ours-noS，在RGB-T跟踪中发挥关键作用。2)Ours对Ours-noq的改进证明了引入的最优查询学习的有效性。3)软一致性对于跨模态排名很重要，因为我们的noC远低于我们的。5.4运行时性能实验是在一台配有Intel i7 4.0GHz CPU和32GB RAM的PC机上进行的，并在C++中实现。建议的跟踪器执行约8帧每秒。特别是，我们的排名算法在30次迭代内收敛，每帧花费约20毫秒（在所有数据集上测试）。注意，我们的代码不包括任何优化和并行操作，并且特征提取和结构化SVM占用每帧的大部分时间（80%以上）。6结论在本文中，我们提出了一个基于图的跨模态排名算法学习鲁棒的RGB-T目标特征的视觉跟踪。在排序过程中，我们引入了软跨模态一致性模态和最优查询学习，以提高鲁棒性。所提出的模型的求解器是快速的，使得跟踪器有效。在两个大规模的基准数据集上进行的大量实验证明了所提出的方法对最先进的跟踪器的有效性和效率。然而，我们的方法有以下两个主要限制。首先，跟踪性能受到一些单个源的成像限制的影响，如表2（TC）所示。其次，运行时不满足实时应用的需求。在未来的工作中，我们将在我们的模型中引入模态权重[4，5]以解决第一个限制，并使用并行计算来实现我们的方法以提高效率，例如基于多线程的多模态特征提取和基于GPU的结构化SVM [34]。确认本工作得到了国家重点研究发展计划（2016YFB1001000）、国家自然科学基金（ 61702002 ， 61472002 ， 61525306 ， 61633021 ， 61721004 ，61420102015）、北京自然科学基金（ 4162058 ）、首都科技领军人才培养项目（Z181100006318030）、国家博士后科学基金、安徽省自然科学基金（1808085QF187）、安徽省高等学校自然科学基金（KJ2017A017）、信息供给协同创新中心&安徽大学保险技术学院。鲁棒RGB-T跟踪15引用1. Cvejic，N.，Nikolov，S.G.，Knowles，H. D.，Loza，A.，Achim，A.，布尔，D.R.，Cana- garajah，C.N.：像素级融合对多传感器监控视频中目标跟踪的影响。IEEE计算机视觉与模式识别会议论文集。（2007年）2. 吴，Y.，Blasch，E.，Chen，G.，巴伊湖Ling，H.：基于稀疏表示的多源数据融合用于鲁棒视觉跟踪。信息融合国际会议论文集。（2011年）3. 刘洪，孙，F.：基于联合稀疏表示的彩色和红外图像融合跟踪。Informat1nSciences55（3）（2012）5904. Li，C.，郑洪，Hu，S.，Liu，X.，中国科学院院士，唐，J.，Lin，L. ：学习合作的 S- 解析表示灰度热跟踪。 IEEE Transactions onImageProcess ing25（12）（2016）57435. Li，C.，赵，N.，吕，Y.，Zhu，C.，Tang，J.：用于rgb-t目标跟踪的加权稀疏表示正则化图学习ACM国际多媒体会议论文集（2017年）6. Kim H.U. Lee，D.Y.，Sim，J.Y.，Kim，C.S.：Sowp：用于视觉跟踪的空间有序和加权的块描述符。在：IEEE计算机视觉国际会议

下载后可阅读完整内容，剩余1页未读，立即下载