没有合适的资源?快使用搜索试试~ 我知道了~
自动匹配网络设计与视觉跟踪
13339→ →→学习匹配:用于视觉跟踪的自动匹配网络设计Zhipeng Zhang1,2,Yihao Liu2,Xiao Wang3,Bing Li1,2,†,and Weiming Hu1,2,4,†1中国科学院自动化研究所模式识别国家重点实验室2中国科学院大学AI学院3鹏程实验室4中科院脑科学与智能技术摘要近年来,连体跟踪取得了突破性的性能,其本质是有效的匹配算子互相关及其变体。除了显著的成功之外,重要的是要注意启发式匹配网络设计在很大程度上依赖于专家经验。此外,我们通过实验发现,一个单一的匹配算子很难在所有具有挑战性的环境中保证稳定的跟踪。因此,在这项工作中,我们介绍了六个新的匹配算子的角度,特征融合而不是显式相似性学习的目的-我们的SiamRPN++ Ocean即级联、逐点加法、成对加法关系、薄膜、简单变压器和感应式制导,探讨了匹配操作器选择的更多可行性。分析揭示了这些算子对不同环境退化类型的选择适应性,启发我们将它们结合起来,探索其互补特征。为此,我们提出了二进制通道操作(BCM),以寻找这些运营商的最佳组合。BCM通过了解一个操作员对其他跟踪步骤的贡献,决定重新培训或放弃该操作员。通过将学习到的匹配网络插入到强大的基线跟踪器Ocean [47],我们的模型实现了67的有利增益。2七十一四,五十二。6五十八三,七十。3七十六。OTB100、LaSOT和TrackingNet上的成功率分别为0。值得注意的是,我们的跟踪器被称为AutoMatch,使用的训练数据/时间比基线跟踪器少一半,并且使用PyTorch以50 FPS运行。代码和模型在www.example.com上发布https://github.com/JudasDie/SOTS。1. 介绍通用对象跟踪旨在推断视频序列中任意对象的位置和尺度,是计算机视觉中的基本问题之一[16,21,25,33]。最近流行的暹罗方法[3,6,11,18,41,42,电子邮件:zhangzhipeng2017@ia.ac.cn†通讯作者。图1:我们的方法与基于深度方向互相关的跟踪器SiamRPN++ [18]和Ocean [47]的比较。我们的模型,采用自动搜索的匹配网络,可以更好地处理不同的挑战性因素,例如,第一个视频中的干扰物,第二个视频的遮挡和尺度变化,第三个序列的背景杂波和快速运动。47],将跟踪问题分解为关系学习任务和状态估计任务。在前一种情况下,目标是测量样本和candidate(搜索)图像之间的相似性。第二个任务通常包括前景分类和尺度回归[8,18,47],然后估计目标状态。受有助于边界框回归的对象检测的出现的推动,近年来用于状态估计的网络设计已经取得了实质性进展[6,8,19,41,47]。然而,关系学习的进展是有限的。以前的工作一般执行形式的关系学习与启发式设计的匹配运算符。具体地,开创性的工作SiamFC [3]采用互相关来对示例图像和候选图像之间的关系进行建模。后续研究提出了上行通道互相关[19]和深度互相关[18]学习细粒度特征相似性。除了他们的巨大成功,重要的是要注意13340匹配网络的设计需要人类专家的大量努力,并且在所有具有挑战性的环境中保证鲁棒性是极其困难的,如图2中的实验所证实的。1和Tab。1.一、一种直接的解决方案是在各种情况下找到最佳匹配算子,然而这显然是繁琐和不实用的。因此,很自然地提出一个问题:我们能搜索一个通用的匹配网络来追踪暹罗吗?在这项工作中,我们表明答案是肯定的,提出了一个搜索算法的自动匹配网络设计。我们不采用传统的互相关及其变体,而是探索了匹配算子选择的更多可行性。具体地说,除了互相关,我们还引入了六种新的匹配算子,即级联,逐点相加,成对关系,薄膜,简单变换器和传感器引导。我们揭示了这些运营商的内在差异,通过比较他们的性能在不同的环境退化类型。令人惊讶的是,通过简单地将互相关替换为级联,强基线跟踪器Ocean [47]在OTB100 [40]的成功得分上实现了1.2分的增益(参见表1)。①的人。此外,我们观察到,匹配操作者在各种挑战性因素和图像内容上表现出不同的弹性。这启发我们将它们结合起来,利用互补的信息功能。为此,我们提出了一种搜索算法,即二元通道操纵(BCM),自动选择和组合匹配算子。首先,我们用上述七个算子构造一个搜索空间。样本和候选图像通过所有匹配算子以生成对应的响应图。对于每个响应通道,我们为其分配一个可学习的操纵器,以指示其对其他跟踪步骤的贡献。Gumbel-Softmax [37]用于将操纵器离散为二元决策,并保证可区分的训练。然后,我们聚集所有通道的操纵器,以确定操作员的潜力,以适应基线跟踪器。我们的搜索算法旨在找到匹配网络,在不同的跟踪环境中具有更好的泛化能力。因此,验证集上的表现被视为奖励或适合性。具体地说,我们使用双层优化来解决搜索算法,双层优化在具有其他层的权重的验证集上找到最佳操纵器(例如,卷积核)。值得注意的是,我们同时预测状态估计中的分类和回归分支的匹配网络。分类和回归的不同搜索结果表明,我们的方法能够找到任务相关的匹配网络。最后,我们将学习的匹配网络集成到基线跟踪器[47]中,并按照标准的Siamese程序对其进行训练。建议框架的有效性在OTB100 [40],LaSOT [10],GOT10K [14],TrackingNet上得到验证[27] [39]第39话我们的方法在所有五个基准上都超过了基线跟踪器[47]。值得注意的是,所提出的跟踪器在评估数据集的所有标准上也优于最近的在线更新方法DiMP [4]和KYS [5]。这项工作的主要贡献是两方面的。• 我们介绍了六种新的匹配算子的暹罗跟踪。系统的分析表明,常用的(深度)互相关不是必需的,并且适当的匹配算子可以进一步带来显着的性能增益。• 本文提出了一种概念上简单的算法,即二进制通道操作(BCM)算法,用于利用引入的运算符进行自动匹配网络设计。通过将学习的匹配网络集成到基线跟踪器中,它在跟踪速度上的开销可以忽略不计的情况下实现了显着的性能增益。2. 相关工作在本节中,我们回顾了基于匹配的跟踪的相关工作,并简要描述了最近蓬勃发展的Siamese跟踪器,基线跟踪器属于其中。2.1. 通过启发式匹配的在视觉跟踪的背景下,它通常对应于预测前景概率的过程,作为一个单次匹配问题。[36 ]第36话学习匹配函数,用于识别与所述初始对象外观匹配的候选图像位置。匹配函数被简单地定义为点积运算。Held等人介绍了GOTURN [13],其通过直接回归示例和候选图像的级联特征来预测目标位置。Global Track [15]和ATOM[8] 通过将哈达玛积应用于样本和候选嵌入,将目标信息注入到区域建议网络中。最近突出的暹罗跟踪器[3,19,18]在所有基准上取得了突破性的结果,这主要归功于有效的互相关模块及其变体。我们观察到,当为跟踪方法选择匹配函数时,不可避免地需要实验和大量实验。此外,启发式匹配网络可能不是最优的架构设计。在这项工作中,我们提出了一个differentiable搜索算法,自动确定使用哪些匹配功能,以及如何将它们结合在视觉跟踪。由于所提出的搜索算法应用于连体框架,在下文中,我们简要回顾连体跟踪的发展。13341C Hz WzHx Wx Hz WzCFz :HWCFx :HWC 矩阵乘法重置+1x1Conv1x1ConC∈∈∈×××CFz :HWCF z :1 1CFi:HC²CXX xR:HWx2CROI AlignCCCCF z :1 1CFx :HWCRi:1 1C附加ROI对齐CCCCF z :1 1CFx:HWxC加法乘法1x1卷积ROI对齐(a) 级联(b) 逐点加法(c) 成对关系(d) 膜图2:匹配运算符:(a)级联(b)逐点加法(c)成对关系(d)薄膜(见第2节)第3.1节)。2.2. 暹罗追踪暹罗跟踪由于其平衡的准确性和速度而引起关注。暹罗追踪器的开创性工作,即。SiamFC [3]引入了互相关层作为目标匹配的相似性度量,这显著提高了跟踪效率。SiamRPN [19]随后通过倡导用于规模估计的区域建议网络来改进SiamFC。后续工作通过减轻位置偏差[18]和感知不一致性[46]释放了暹罗跟踪中更深骨干网络的能力。最近,估计网络从基于锚的机制发展到无锚机制[6,11,47,41]。虽然更深的主干和先进的估计网络显著增强了跟踪模型的可转移性,但匹配网络设计的可行性仍然较少研究。在这项工作中,我们缩小了这一差距,通过引入新的匹配算子和搜索他们的最佳组合,国家暹罗跟踪。3. 匹配算子3.1. 实例化标准暹罗跟踪器将样本图像z和候选图像x作为输入。图像z表示第一帧中的感兴趣对象,而x通常更大并且表示后续视频帧中的搜索区域。这两个图像首先被馈送到共享骨干网络中以生成两个对应的特征图FzRHz×Wz×C和FxRHx×Wx×C。然后应用匹配网络将样本Fz的信息注入到Fx,其输出相关特征R,R=(Fz,Fx).(一)最近排名第一的暹罗跟踪器将fine定义为深度交叉相关[18,42,6,11,41,47]。值得注意的是,当Fz的空间大小为1×1(fz)时,我们探索其它匹配算子,即级联、逐点加法、成对关系、薄膜、简单Transformer和转换引导。据我们所知,在以前的工作[ 13 ]中已经利用了级联运算符,而其他人则没有。我们在下面详细介绍它们中的每一个。连接由关系网络[35]中的成对函数用于视觉推理。我们还探索了的级联形式,如图所示。2(a):R= Conv([fz,Fx]),(2)这里fzR1×1×C是F z上的合并特征(在边界框内)。[·,·]表示级联,并且Conv是11个卷积层,输出通道为C。逐点加法类似于哈达玛乘积,但将第2(b)段):R=fz+Fx,(3)其中+表示逐元素加法。成对关系广泛用于视频对象分割[44]。它是非局部注意力的变体[43],并被定义为:R=matmul(S(Fx),S(Fz)), ⑷其中S将Fx和Fz重新成形为HX WX C的大小,并且C H z W z(见图第2段(c)分段)。 这里,matmul表示矩阵乘法。成对关系测量样本特征中的每个单元对候选特征中的所有单元的亲和力。电影最初是在视觉推理中引入的[30]。它学习通过基于一些“输入”对网络的“中间特征”应用模糊变换来自适应地影响神经网络的输出。对于视觉跟踪,我们将样本特征fz视为更正式地说γ= Conv(fz),深度方向互相关类似于Hadamard乘积[15 ]第10段。除了深度方向互相关之外,在这项工作中,β= Conv(fz),R=γFx+β,(五)高x宽C13342CC Hz Wz公司简介zzC× ×C表1:不同运营商在OTB100上的表现(成功率)[40]。照明变化(IV)、比例变化(SV)、遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、平面外旋转(OPR)、视野外(OV)、背景杂波(BC)和低分辨率(LR)是11个具有挑战性的属性。数量#操作员整体IVSVOCCDEFMBFM知识产权OPROVBCLR©深度互相关67.269.367.762.865.268.367.567.866.663.962.667.9级联68.471.567.365.266.570.069.069.867.262.765.365.6©逐点加法67.166.666.261.561.865.666.867.765.952.258.169.7№成对关系67.867.066.563.765.168.066.666.768.257.263.659.8③膜67.469.466.960.463.766.967.366.865.253.758.566.8®简易变压器65.867.365.860.162.165.965.766.866.055.460.764.8➆传感制导65.064.868.361.661.267.265.064.965.057.656.064.2Fz :HWCFx :HWC 矩阵乘法重排+1x1Conv1x1Conv+重新缝合(a) 简易变压器(b) 传感制导图3:匹配运算符:(a)简单变换器(b)变换器引导。详细信息见第二节。第3.1条其中系数γ和偏置β是两个大小为 11C的张量,如图所示。第2段(d)分段。Simple-Transformer的动机是最近的蓬勃发展视觉Transformer [12],其中,query= Conv(F),key=Conv(F),value=图4:不同匹配操作者的激活图。(a)深度互相关(b)级联(c) 逐点加法(d)成对关系(e)薄膜(f)简单变换器(g)变换制导。其中Mz是第一帧的伪掩码。具体来说,边界框内外的像素分别设置为1和0,如图所示。3(b)款。 G作为目标定位的空间指导,其中每个像素指示位置的前景概率。然后将空间引导与视觉特征融合,X zConv(Fz).Att是一多头关注层在Visual Transformer [12]中,并由PyTorch [ 29 ]中的“nn.multiheadAttention” 实 现 更 多 细 节 呈 现 在 图 1B中。第3(a)段。3.2. 分析R=G + Fx。(九)转导引导源自视频对象分割中的掩码传播机制[44,45],其中先前帧的分割掩码引导当前帧的预测。在我们的工作中,我们专门修改它以用于暹罗跟踪。首先,通过下式预测示例特征和候选特征之间的亲和力:A= matmul(S(Fx),S(Fz))。(七)该步骤与成对关系的计算相同。利用该能力,通过传播第一帧的伪掩模来学习空间引导。G= matmul(A,S(Mz)), (8)节中3.1中,除了传统的深度方向互相关外,我们还引入了六种新的匹配算子用于暹罗跟踪。人们自然会问:这些新的运营商如何执行,以及传统的深度互相关可以被这些建议的运营商取代?我们回答本节中的问题。个人操作员的表现。 为了研究每个操作员对暹罗跟踪的影响,我们将其应用于最近的跟踪器Ocean [47],并评估OTB100上的性能[40]。如Tab.所示。1、具有深度互相关(©)的vanilla Ocean [ 47 ]实现了67.2的总体成功。 当用Simple-Transformer(®)替换深度方向互相关时CC Hz WzCFz:HWzCFx:HWxCMz:HWz1C 矩阵乘法加法1x1Conv+重新整形高x宽CDeFGCB一13343∼我--图5:建议的框架AutoMatch的概述。搜索空间中的匹配算子探索样本和候选特征之间的关系。十字和虚线箭头指示在利用二进制通道操纵进行搜索之后丢弃的运算符。 与绿色箭头连接的操作符构成搜索到的匹配网络。 搜索算法既适用于分类,也适用于回归,为了简单起见,这里只说明其中一种和传导引导(),总得分下降到分别为65.8和65.0。性能下降说明随机选择匹配算子可能会给跟踪框架带来负面影响。但令人惊讶的是,所有其他四种算子(③)的结果都与深度互相关相当,甚至更好。这些比较启示我们,经典的相关系数法不是最佳选择对于暹罗跟踪,适当的匹配算子可以导致更好的跟踪精度。互补的潜力。虽然一个设计良好的匹配算子在某些情况下可能超过经典的深度方向互相关,但不能保证对所有具有挑战性的情况的改进。如Tab.所示。1,虽然串联运算符()在大多数具有挑战性的因素上表现出优越性,它 在尺度变化(SV)方面,它不如传感制导(RS),在面外旋转(OPR)方面,它不如成对关系(RS),在视外(OV)方面,它不如相关互相关(©),在低 分辨率(LR )方面, 它不如点加法(©)。我们进一步可视化图1中匹配输出的激活图。4.第一章它表明,深度交叉相关(a),成对关系(d)和转换指导(g)倾向于过滤掉上下文特征并专注于目标本身。相反,级联(b)、逐点加法(c)、简单变换器(e)和薄膜(e)利用更多的上下文信息。可能的原因是上下文引入的困难的反例有助于防止过度拟合简单的背景。简单地说,表1中的定量比较。 1和定性分析图。4表明,不同的匹配算子对各种挑战性因素和图像内容表现出不同的弹性。这启发我们将它们结合起来,以利用互补的信息特征。而不是搜索最佳匹配运算符在各种情况下,这显然是不切实际的,我们提出了一种自动的方法,可以自适应地学习选择和组合的匹配函数。4. 方法4.1. 自动匹配概述所提出的框架自动匹配在图中示出。五、典型的暹罗跟踪框架包含三个主要步骤,即:特征提取、匹配和目标定位。给定样本图像z和候选图像x,首先应用骨干网络来提取视觉特征Fz和Fx。 然后,Fz和Fx通过匹配网络来学习它们的关系。在最近的作品中,通常将其定义为深度互相关[18,47]。在我们的研究中,匹配网络设计从启发式选择演变为自动搜索。 具体地,Fz和Fx被馈送到搜索空间中的匹配运算符(参见第2节)。3.1),其获得m个多信道响应特征r1,r2,…rm. 响应特征的每个通道被分配有可学习的操纵器w,j,指示特征通道对其他跟踪步骤的贡献。我们引入了二进制Gumbel-Softmax [37]来离散二进制决策的操纵器,并保证可微训练。机械手的学习是formulated作为双层优化(见第二节)。4.3)。最后,基于学习的操纵器的指导保留两个操作者,并且它们的响应图被连接作为以下步骤的输入。使用学习的匹配网络,遵循分类和回归网络来预测目标状态(参见第2节)。 5.1)。4.2. 二进制通道操作令0={〇1,〇2,…是由可应用于示例和候选特征的可选匹配算子响应集R由下式得到:1基于二进制通道操作的匹配网络搜索2Manipulator›奥沃德45落后GumbelSample›M31*31*256*K31*31*256*KCNN15*15*256CNN31*31*256M匹配运算符Chopped Edges/运算符保留边缘/操作员3Sigmoid共享骨干...13344R我我我∈LΣ=σ(w)。(十二)我联系我们c=1我CCJΣ2JJ1我我−1− 2R={o1(z,x),., o m(z,x)}。(十)搜索算法的目的是根据响应集找到最佳的算子组合。我们提出了二元通道操纵(BCM),以决定一个运营商的目标状态预测的贡献。 每个元素4.3. 双层优化利用二进制通道操纵,我们的目标是联合学习操纵器w和其他层的权重θ(例如,操作符中的卷积层)。类似于可区分架构搜索[23],其中验证集性能被视为奖励或适合性,我们的目标是R中的rj是大小为Hx× Wx× C的张量。我们分配优化验证损失。设L火车 和LVal表示每个特征通道具有可学习的操纵器wj,然后通过级联来聚合R中的加权映射,E=[σ(w1)r1,…,σ(w j)rj,.,σ(wC)rC],(11)训练和验证损失。匹配网络搜索的目标是找到最小化验证损失Lval(θ*;w*)的w*,其中网络参数11iimM其中rj表示第i个响应特征的第j个信道。 σ是sigmoid。ERHx×Wx×C|O|表示聚集特征,其用作后续目标估计网络的输入。操纵器定义通道的与体系结构相关的θ*训练损失θ*=argminwtrain(θ,w*)。这意味着一个双层优化问题[23,7],其中w作为上层变量,θ作为下层变量,对目标位置的贡献。对于每个操作符,我们将通道操纵器的总和定义为势pi最小wLval(θ*(w);w),(17)用于适应基线跟踪器的操作员的能力,Cpiij=1受信道修剪[1]和可微网络架构搜索[7,23]的启发,我们将连续解w j转换为离散解以进行最终决策。使用Gumbel-Softmax [ 37 ]对这些离散决策进行端到端训练。 具体地说,给定一个具有(2)类概率π={π1=σ(w),π2=1−σ(w)},S.T.θ*(w)= argminθ Ltrain(θ,w).(十八)为了加快训练过程中的双层优化,刘等人。在[ 23 ]中提出一个简单的近似,wLval(θ*(w);w)(19)≈ ∇wLval(θ−ϵ∇θLtrain(θ, w), w),(20)其中ε是内部优化步骤的学习率。这个推导超出了本书的范围。关于近似的更多细节,我们请读者参考[23我离散样本D可以使用,我总之,我们提出了二进制通道操纵识别匹配运算符的贡献然后我们d= onehot(arg min[log(πk)+gk]),(13)K其中gk是从Gumbel分布中提取的噪声样本。k1,2表示二进制分类。Gumbel-Softmax通过将argmax替换为softmax来定义连续的可微近似。exp((log(πk)+gk)/τ)通过双层优化学习机械手。我们同时将搜索算法应用于状态估计中的分类和回归分支,以学习任务相关的匹配网络。在训练之后,保留具有最大潜在p i的前两个操作符(参见图1中的绿色箭头)。(五)。最后,我们遵循基线跟踪器[47]的过程来训练搜索到的架构。yk=exp((log(π)+g)/τ).(十四)5. 实验代入π1=σ(w,j),π2= 1σ(w,j),等式14被简化为(对于二进制情况k= 1wj+g gy =σ(i)。(十五)τ由于篇幅所限,推导过程附在补充资料中。在[2,37]之后,τ被设置为1,gk对于离散样本d,在向前通过期间使用硬值,并且在向后通过期间从软值获得梯度:5.1. 实现细节网络架构。我们采用最新的暹罗跟踪器Ocean [47]作为基线模型。骨干网络是修改后的ResNet50 [26]。目标局部化网络由分类分支和回归分支组成。虽然Ocean [ 47 ]的更新分支没有在我们的工作中使用,但我们的跟踪器明显优于其在线更新版本。关于基线跟踪器的更多细节,我们请读者参考[ 47 ]。在这项工作中,我们同时寻13345我找目标相关的匹配网络-d =. y1> 0。5≡wj+g1−g2τ=wj>0,向前适用于分类和回归分支。y1,向后。(十六)培训程序。训练过程由两个阶段组成,即,匹配网络搜索和新跟踪器13346×××表2:五个跟踪基准的结果比较。红色、绿色和蓝色表示排名第一、第二和第三的表现。海洋[47]是我们的基线模型,我们在其上应用所提出的搜索算法。-训练在第一阶段,我们使用Sec. 4,并基于验证性能确定最佳单元。在第二阶段,我们使用优化的匹配网络在基线方法Ocean上构建新的跟踪器[47]。这两个阶段都使用Youtube-BB [31],ImageNet-VID [32],ImageNet-DET [32],GOT 10 K [14]和COCO [22]进行(包括训练集和验证集)。搜索算法学习率从10−3到10−4呈指数衰减。新跟踪器的训练遵循基线模型[47]。 值得注意的是,我们通过减少来简化Ocean [47]训练时期从50到20以加速学习过程。对于前5个epoch,我们以10 −3的预热学习率开始。对于剩余的时期,学习率从510−3指数衰减到510−5。两个阶段都在4个GTX2080 Ti GPU上使用同步SGD [ 17 ]进行训练,每个GPU托管32个图像。5.2. 最新技术水平比较搜索算法为分类和回归分支确定不同的匹配网络。在第一阶段训练之后,针对分类分支重新训练Simple-Transformer和Film,同时针对回归分支保留Film和Pairwise-Relation。我们在五个基准上将新的跟踪器与最先进的模型进行了比较。我们的跟踪器在以超过50FPS的速度运行时实现了令人信服的性能。值得注意的是 , 第 二 阶 段 训 练 只 需 要 不 到 24 小 时 ( 使 用 4 个GTX2080Ti GPU),这为进一步研究提供了强大而有效的基线。OTB100 [40]. OTB100是由100个序列组成的经典跟踪基准。通过成功曲线下面积(AUC)和精确度(Prec.)对方法进行排序。如Tab.所示 2,我们的模型实现了排名最高的AUC评分,其优于Sia-mAttn [ 42 ]的先前最佳结果,即。,71.4对 71.2。当为基线跟踪器Ocean [47]配备我们搜索的匹配网络时,它带来了有利的4.2点增益,即。,71.4对 67.2。所提出的模型也优于在线更新模型ATOM [8]/DiMP[4],分别为4.5/2.6点。LaSOT [10]。LaSOT是为长期跟踪而设计的跟踪基准。选项卡. 2显示了280个测试视频的比较结果。我们的方法实现了最佳的AUC和精确度得分,分别优于Ocean[47]的5.7和7.3分。与DiMP [4]相比,我们的方法在成功分数上提高了1.4分。值得注意的是,所提出的跟踪器以50FPS运行,这与Ocean的58FPS相当,并且比DiMP的43FPS更快。比较表明,该方法带来了显着的性能增益与小的开销。TrackingNet [27]. TrackingNet是一个大规模的跟踪数据集,由511个用于测试的序列组成。在在线服务器上执行评估。我们在Tab中报告结果。二、与基线跟踪器Ocean [47]相比,它在成功分数上获得了5.7分的增益。我 们 的 模 型 也 超 越 了 TrackingNet 上 基 于 元 学 习 的MAMLTrack [38],即,成功评分为76.0vs 75.7。[14]. GOT10K的评估在在线服务器上。我们报告平均重叠(AO),成功率(SR 0。5,SR 0。75)在Tab. 二、比较提出的模型方法年份OTB100 LaSOT TrackingNet TNL2K GOT10K成功预处理成功预处理成功预处理成功预处理AOSR0。5SR 0。75SiamFC [3]201658.777.233.633.957.166.329.528.634.835.39.8MDNet [28]201667.890.939.737.360.656.531.032.229.930.39.9ECO [9]201769.191.032.430.155.449.232.631.731.630.911.1重要[34]201869.191.739.036.0--36.635.335.036.09.0GradNet [20]201963.986.136.535.1--31.731.8---SiamDW [46]201967.490.538.435.6--32.332.641.647.514.4SiamRPN++[18]201969.692.349.649.173.369.441.341.251.761.632.5原子[8]201966.787.951.550.570.364.840.139.255.663.440.2DiMP [4]201968.689.956.956.774.068.744.743.461.171.749.2SiamFC++[41]202068.391.254.354.775.470.538.636.959.569.547.9D3S [24]2020----72.866.438.839.359.767.646.2MAMLTrack [38][42]第四十二话2020202071.271.292.692.652.356.053.1-75.775.272.5-28.4-29.5------SiamCAR [11]2020--50.751.0--35.338.456.967.041.5SiamBAN [6]202069.691.051.452.1--41.041.7---KYS [5]202069.591.055.455.874.068.844.943.563.675.151.5海洋[47]202067.290.252.652.670.368.838.437.759.269.546.5自动匹配我们71.492.658.359.976.072.647.243.565.276.654.313347×简易变压器c_{k-2}逐点加法级联简易变压器逐点加法2深度互相关3c_{k}c_{k-1}简易变压器逐点加法10图6:LaSOT上的结果比较的可视化。对于基线Ocean [47],我们获得了6个点的增益7.1分,AO上7.8分,SR 0。5,SR 0。75,分别。值得注意的是,我们的模型优于SiamBAN [6]1.6点,同时运行速度更快(50FPS与 40FPS)。TNL2K[39]. TNL2K是一个新的数据集,由2000个高多样性视频组成,用于自然语言引导跟踪。引入对抗样本和热图像来提高跟踪评估的通用性。除了通过自然语言进行跟踪外,还提供了通过边界框进行跟踪的结果。在选项卡中。2,我们给出了700个测试序列的结果。它表明,我们的模型在比较的跟踪器中取得了最好的成功和精度分数。5.3. 消融和分析一个或多个操纵器。我们将操作器中的每个通道与操纵器连接起来。不同的是,在可微神经网络搜索[23]中,算子由标量识别。我们也尝试这个策略,即, 在搜索期间为匹配运算符分配标量。 我们实现OTB100的最终成功评分为69.5 [40],LaSOT为54.7 [10]。结果是劣于我们的模型,这表明我们的搜索算法的优越性。我们推测,信道信息的聚合可以为运营商选择提供更好的指导。随机搜索。为了证明搜索算法的有效性,我们评估了随机搜索的性能。分别为分类和回归分支随机保留两个操作符。我们报告了三次随机搜索和训练的平均性能。OTB100和LaSOT的平均成功得分分别为69.1和53.2。结果表明,该搜索方法能有效地找到较优的算子组合。NAS样匹配细胞。在可微神经网络搜索[23]中,它将基本操作单元表示为有向无环图(DAG)。每个单元包含多个节点,并且每个节点聚合多个基本运算符(例如,33卷积层)。 一个直观我们的想法是直接用我们的设计匹配函数,然后搜索匹配网络。如图7、我们使用DARTS [23]来图7:顶部:用于分类的NAS类匹配网络。下图:用于回归的类NAS匹配网络。搜索一个匹配的单元格,它看起来像NAS中的单元格。虽然搜索的细胞比我们的复杂得多,但它并没有表现出优越性。具体地,NAS样细胞在LaSOT上实现了55.7的成功分数,并且以35FPS运行。性能和推理速度都低于所提出的模型。比较表明,直接借用NAS来匹配网络搜索可能不是最佳选择。由于篇幅的限制,我们将详细介绍DARTS类结构搜索和补充材料中的相关工作。6. 结论在这项工作中,我们引入了六个新的操作,探索更多的可行性,在暹罗跟踪匹配算子的选择。定量和定量分析表明,经典的(深度方向)互相关不是连体跟踪的最佳选择。我们同时找到了最佳匹配网络的分类和回归分支的状态估计与建议的二进制通道操纵(BCM)。将学习后的匹配网络应用于基线跟踪器,实验结果表明,该方法在短期和长期基准上都具有较好的鲁棒性。在未来的工作中,我们将把我们的方法应用于其他基于匹配的框架,例如,原子。鸣谢。我们感谢恒帆在ICCV2021反驳期间的帮助。 本研究得到了国家重点研究发展计划(批准号:2020AAA 0106800 ) 、 国 家 自 然 科 学 基 金 ( 批 准 号 :61902401号61972071号61906052号62036011号61721004号61972394,不。U2033210),CAS密钥重新-前沿科学研究计划(批准号:QYZDJ-SSWJSC 040)、博士后创新人才支持计划BX 20200174、国家博士后科学基金资助项目2020 M682828。 李冰的工作也得到了中科院青年创新促进会的支持。深度互相关0膜成对关系膜3级联c_{k-1}深度互相关级联级联2c_{k-2}1c_{k}13348引用[1] Babak Ehteshami Bejnordi ,Tijmen Blankevoort 和MaxWelling。用于学习条件信道选通网络的批成形。arXiv预印本arXiv:1907.06627,2019。6[2] YoshuaBengio,NicholasL e'onard和AaronCourville。通过随机神经元估计或传播梯度以进行条件计算。arXiv预印本arXiv:1308.3432,2013。 6[3] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。ECCV研讨会,第850-865页。施普林格,2016年。一、二、三、七[4] Goutam Bhat,Martin Danelljan ,Luc Van Gool ,andRadu Timofte. 学习判别模型预测跟踪。在ICCV,第6182-6291页,2019年。二、七[5] Goutam Bhat,Martin Danelljan ,Luc Van Gool ,andRadu Timofte.了解你的周围环境:利用场景信息进行目标跟踪。在欧洲计算机视觉会议上,第205-221页Springer,2020年。二、七[6] Zedu Chen,Bineng Zhong,Guorong Li,升平Zhang,and Rongrong Ji.用于视觉跟踪的连体盒自适应网络。在CVPR中,第6668-6677页,2020年。一、三、七、八[7] Xiangxiang Chu , Tianbao Zhou , Bo Zhang , andJixiang Li.公平飞镖:消除差异化架构搜索中的不公平优势在European Conference on Computer Vi-sion,第465-480页中Springer,2020年。6[8] Martin Danelljan , Goutam Bhat , Fahad ShahbazKhan,and Michael Felsberg.原子:通过重叠最大化进行精确跟踪在CVPR中,第4660-4669 页,2019 年。一、二、七[9] Martin Danelljan , Goutam Bhat , Fahad ShahbazKhan,Michael Felsberg,et al. Eco:用于跟踪的高效卷积运算器。在CVPR中,第6931-6939页,2017年。7[10] Heng Fan , Liting Lin , Fan Yang , Peng Chu , GeDeng , Si-jia Yu , Hexin Bai , Yong Xu , ChunyuanLiao,and Haibin Ling. Lasot:大规模单目标跟踪的高质量基准。在IEEE计算机视觉和模式识别会议论文集,第5374二七八[11] Dongyan Guo,Jun Wang,Ying Cui,Zhenhua Wang,and Shengyong Chen. Siamcar : 用 于 视 觉 跟 踪 的Siamese全卷积分类和回归。在CVPR中,第6269-6277页,2020年。一、三、七[12] 韩凯,王云鹤,陈汉庭,陈兴浩,郭建元,刘振华,唐业辉,安晓,徐春静,徐义兴,等.视觉Transformer的研究概况。arXiv预印本arXiv:2012.12556,2020。4[13] David Held Sebastian Thrun和Silvio Savarese学习使用深度回归网络以100 fps的速度进行跟踪。欧洲计算机视觉会议,第749施普林格,2016年。二、三[14] Lianghua Huang,Xin Zhao,and Kaiqi Huang. Got-10k:用于野外通用对象跟踪的大型高多样性基准测试arXiv预印本arXiv:1810.11981,2018。二、七[15] LianghuaHuang,XinZhao,andKaiqiHuang.Globaltrack :一个简单而强大的长期跟踪基线。在AAAI人工智能会议论文集,第34卷,第11037-11044页二、三13349[16] Hamed Kiani Galoogahi Ashton Fagg Simon Lucey学习用于视觉跟踪的背景感知相关滤波器。在IEEE国际计算机视觉会议集,第1135-1143页,2017年。1[17] Yann LeCun 、 Bernhard Bose
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JSP+SSM科研管理系统响应式网站设计案例
- 推荐一款超级好用的嵌入式串口调试工具
- PHP域名多维查询平台:高效精准的域名搜索工具
- Citypersons目标检测数据集:Yolo格式下载指南
- 掌握MySQL面试必备:程序员面试题解析集锦
- C++软件开发培训:核心技术资料深度解读
- SmartSoftHelp二维码工具:生成与解析条形码
- Android Spinner控件自定义字体大小的方法
- Ubuntu Server on Orangepi3 LTS 官方镜像发布
- CP2102 USB驱动程序的安装与更新指南
- ST-link固件升级指南:轻松更新程序步骤
- Java实现的质量管理系统Demo功能分析与操作
- Everything高效文件搜索工具:快速精确定位文件
- 基于B/S架构的酒店预订系统开发实践
- RF_Setting(E22-E90(SL)) V1.0中性版功能解析
- 高效转换M3U8到MP4:免费下载工具发布
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功