没有合适的资源?快使用搜索试试~ 我知道了~
10176双注意陈雪松*1严希玉*2冯征<$3姜勇2,4夏淑涛2,4赵勇1冀蓉蓉4,51北京大学欧洲经济学院2清华大学3南方科技大学4鹏程实验室5厦门大学网址:cedarchen@pku.edu.cn,yanqy17@mails.tsinghua.edu.cn,网址:www.example.com,zhengf@sustech.edu.cn摘要#第1帧#第50帧#第100帧#第150计算机视觉中几乎所有的对抗性攻击都针对预先已知的对象类别,这些对象类别可以被离线训练以生成扰动。但对于视觉目标跟踪来说,跟踪的目标类别通常是事先未知的。然而,跟踪算法也有被攻击的潜在风险,这可能被恶意地用来欺骗监视系统。同时,由于被跟踪目标是自由模型的,对抗性攻击的跟踪问题因此,我们认为,...原始…摄动…原始…袭击…原始…袭击原始袭击为了帮助引起更多对潜在风险的关注,我们研究了对跟踪算法的对抗性攻击。在本文中,我们提出了一种新的一次性对抗性攻击方法来生成自由模型单目标跟踪的对抗性示例,其中仅在初始帧中对目标块添加轻微的扰动会导致最先进的跟踪器在后续帧中丢失目标。具体而言,所提出的攻击的优化目标由两个组件组成,并利用双重注意力机制。第一个组件采用有针对性的攻击策略,通过置信度关注优化批量置信度损失;第二个组件采用一般扰动策略,通过信道关注优化特征损失。实验结果表明,我们的方法可以显着降低最先进的基于暹罗网络的跟踪器的准确性在三个基准。1. 介绍视觉目标跟踪(VOT)在智能监控系统等实际安全应用近年来,在视觉对象跟踪算法[2,25,5,17,*平等捐款。这一工作是陈雪松和严希玉在访问南科大冯正实验室时完成的†通讯作者。图1.我们只是在视频的初始帧中稍微扰动目标块,导致后续帧的跟踪失败第一行:成功跟踪原始视频帧。二线:仅在初始帧中攻击目标可能使跟踪器瘫痪。绿色框表示地面实况,红色框表示跟踪器的跟踪结果。28,16]由深度学习的进步带来的例如,基于Siamese网络的SiamRPN++跟踪器[16]在OTB100基准[30]上达到了91%的精度然而,基于深度学习的对象跟踪算法是否像它们看起来那样强大是一个值得思考的问题。在过去的几年里,对计算机视觉中深度学习模型的对抗性攻击引起了越来越多的兴趣[1]。有许多针对深度网络的对抗性攻击成功地欺骗了图像分类器和对象检测器。例如,Szegedyet al.证明了在人类视觉系统(几乎)无法感知的图像中放置小扰动可以欺骗深度学习模型进行错误分类[24]。最近,[26]创造了一个小的对抗补丁,用作隐身设备,以隐藏人员从人探测器。通常,几乎所有这些攻击都不是针对自由模型的(即。任意的目标),但预先已知的类别。实际上,在cer中的自由模型目标块上添加对抗性扰动,10177时间帧可能导致现有技术的跟踪器在随后的帧中丢失目标,这可能被恶意地因此,有必要研究对视觉对象跟踪算法的对抗性攻击,以帮助改善对这些潜在风险的预防。然而,攻击跟踪器以丢失连续视频帧中的对象首先,由于被跟踪目标是自由模型的,视频帧是连续的,在线视觉跟踪无法预先知道被跟踪对象的类别,也无法事先学习其次,很难设置优化目标来生成对抗性示例,因为对跟踪任务的成功攻击与对多分类任务的成功攻击显著不同,具体地,每帧中的跟踪任务与将所有候选框分类为一个正样本和将其他分类为负样本的任务相同。这种特殊的二进制分类问题使得如果仅选择一个候选框来增加其置信度,则难以执行成功的攻击。为了应对这些挑战,本文研究了针对视觉对象跟踪的对抗性攻击。我们的目标是一系列基于Siamese网络的优秀跟踪器针对这些跟踪器,我们提出了一种一次性攻击框架--只需稍微扰动视频初始帧中目标块的像素值,就可以达到在后续帧中攻击跟踪器的目的。SiamRPN跟踪失败1)。提出了一种基于双损失和双注意机制的攻击方法,在初始帧对目标块产生我们提出的攻击方法的优化目标由两个部分组成,每个损失与其相应的精心设计的注意力权重相结合,以进一步提高攻击能力。一方面,我们将这种基于暹罗网络的跟踪问题表述为一个特定的分类任务--将跟踪的候选对象作为分类的标签,以最大置信度成功地匹配目标模板和候选框。 因此,我们可以有针对性地扰动跟踪器,使其匹配“最佳盒”。在这里,我们通过抑制优秀候选人的置信度和刺激中等候选人的置信度来优化批量置信度损失。为了进一步区分高质量的候选框,采用距离导向的注意机制来扩大优秀候选框之间的距离另一方面,我们通过优化特征损失来应用一般扰动策略,该特征损失最大化特征空间中干净图像与其对抗示例之间的距离,以进行强大的攻击。进一步确保在有限的扰动条件下,考虑了一次性攻击的泛化能力,特征映射的特征通道激活导向注意力。最终 我们在三个跟踪基准上评估我们的攻击,包括OTB100[30],LaSOT [4]和GOT10K [11]。实验结果表明,我们的方法可以显着降低最准确的先进的暹罗网络追踪器总之,本文的主要贡献如下。• 据我们所知,我们是第一个研究针对VOT的一次性对抗攻击的人。针对基于暹罗网络的跟踪器,提出了一种一次性攻击方法,通过干扰初始帧,使跟踪器无法• 提出了一种新的优化目标函数,利用双注意机制产生对抗扰动,以保证一次性攻击的效率。• 三个流行的基准测试的实验结果表明,我们的方法是能够显着降低最先进的暹罗网络为基础的跟踪器的准确性2. 背景及相关工作在本节中,我们首先简要描述对抗性攻击问题的背景。接下来,回顾了计算机视觉(CV)任务中对抗性攻击方法最后,我们讨论了基于暹罗网络的跟踪器,我们在这项工作中采用的攻击目标2.1. 对抗性攻击的背景有必要介绍一些与计算机视觉中深度学习模型的对抗性攻击相关的常见技术术语,剩余的论文也遵循这些术语的相同定义。敌对的例子。它是一个与自然干净样本相关的概念,通过特定的算法处理模型的错误决策而得到。它可以通过干净样本的全局像素扰动来生成,或者通过向干净样本添加对抗补丁来生成。全局像素扰动被应用到我们的工作。对抗性攻击。根据攻击者对模型的理解程度另外,根据攻击者攻击的目标,又可以分为有针对性的攻击和无针对性的攻击。白盒攻击这意味着当攻击者知道模型的所有知识,包括模型的结构、参数和可训练权值时,10178神经网络模型,它们可以生成对抗性的示例来误导模型。黑箱攻击。这意味着,当攻击者只有有限的或没有关于模型的信息时,他们会构造出可以欺骗大多数机器学习模型的对抗性示例。有针对性的攻击。它通常用于攻击分类器。在这种情况下,攻击者希望将预测结果更改为某个指定的目标类别。无针对性的攻击。相反,在这种情况下,攻击者的目标仅仅是使分类器给出错误的预测,而不管错误分类变成哪个类别。我们的攻击是在这两个案子的中间我们的工作重点是白盒,测试时攻击的视觉对象跟踪算法,和其他家庭的攻击不直接相关,我们的设置在这里不讨论。2.2. CV任务中的对抗性攻击Szegedy等人[24]首先提出为成功误导分类器的分类模型生成对抗示例。随后,Goodfellow et al.[7]扩展这条线并创建快速梯度符号方法(FGSM)来生成对图像的对抗攻击。此外,基于梯度的攻击方法包括BIM[15],JSMA [22],DFool [20],Carlini和Wagner攻击(C& W)[3]等。这些攻击大多针对图像分类,这是最基本的视觉任务。近年来,针对语义分割、目标检测等高级任务的对抗性攻击有了一些探索例如,[31]首先将攻击任务转换为生成任务,并提出采用Dense AdvertisementGeneration(DAG)方法优化损失函数以生成对抗性样本,然后使用生成的对抗性样本攻击基于深度网络的分割和检测模型。这种转变使得攻击不再局限于传统的基于梯度的算法,而是引入了更多的生成模型,如GAN。然后,[26]提出了一种方法来生成对抗补丁的目标与大量的类内品种,并成功地隐藏一个人的人检测器。最近,PAT [29]和SPARK [9]通过对视频帧的迭代优化生成然而,在线迭代的攻击策略限制了它们的应用场景。首先,为了生成对抗序列,它们总是需要在攻击过程中访问模型的权重。其次,前向-后向传播迭代难以满足跟踪任务的实时性要求。2.3. 基于Siamese网络的跟踪视觉对象跟踪(VOT)的目的是预测目标在视频序列中的位置和大小。在第一帧中指定了get [18]。最近,基于暹罗网络的跟踪器[25,2,8,32,27,10]由于其简单性和有效性而引起了极大的关注。Bertinetto等人[2]首先提出了一种基于Siamese全卷积网络的网络结构,用于对象跟踪(SiamFC)。从那时起,研究人员提出了许多最先进的跟踪算法[32,10,17,16,28]。例如,代表性跟踪器-SiamRPN [17]在Siamese网络之后引入了区域推荐网络,并将分类和回归结合起来进行跟踪。这些暹罗跟踪器将VOT问题公式化为互相关问题,并从具有暹罗网络结构的深度模型学习跟踪相似性图,一个分支用于学习目标的特征表示,另一个分支用于搜索区域。为了保证跟踪效率,离线学习的暹罗相似度函数通常在运行时是固定的。同时,目标模板在初始帧中被获取并且在后续视频帧中保持不变。在每帧的跟踪阶段,目标模板和包括多个候选框的搜索区域被馈送到Siamese网络以生成表示候选框的置信度的置信度图。值得注意的是,高斯窗口被广泛应用于细化跟踪任务中推理阶段的候选框的置信度。与检测任务[23,6]中用于抑制低置信度候选的非最大值抑制(NMS)算法[21]不同,高斯窗口在跟踪中的作用是削弱远离最后一帧中预测目标中心位置的候选框的置信度高斯窗之所以能有效地使用,是因为在跟踪任务中,视频帧的连续性是先验知识,即目标在相邻的两帧中不能移动太远。3. 方法在本节中,我们首先介绍了跟踪算法的对抗性攻击方法的问题定义。然后,一个一次性的攻击框架设置对暹罗基于网络的跟踪器进行了详细说明。最后,我们详细介绍了所提出的双注意攻击方法。3.1. 问题定义我们的攻击目标是最流行的VOT管道-上面描述的基于暹罗网络的跟踪器,其将VOT公式化为通过针对目标模板和搜索区域学习的特征表示之间的互相关来学习一般相似性图(参见图11)。2)。在这些跟踪器中,离线学习的暹罗相似度函数和第一帧中给出的目标模板在运行时间期间是固定的这种跟踪10179反向传播迭代置信度损失特征丢失正磁阻秩Softmax…更新更新正装迭代DXdydwdh…CNN回归分支CNN分类处图2.基于双重注意机制的对暹罗跟踪器的一次性攻击框架没有模型更新和模板更新的过程可能会遇到攻击。注意,其他具有更新的跟踪器,如CREST,MDNet和ATOM,更容易受到攻击,因为对抗性信息会导致模型的特征绘制到错误的空间。然后,他们几乎无法工作后,攻击由于错误的更新。因此,本文不讨论这些问题虽然有许多现有的攻击方法用于其他高级CV任务,如检测和分类,但攻击跟踪任务是一个相当大的挑战,因为跟踪任务与这些任务非常不同。具体分析了暹罗跟踪器的特点与检测和分类相比。首先,在线视觉跟踪无法预先知道跟踪对象的类别,因为目标位置仅在视频的第一帧中给出用于模型训练。 因此,它不能离线学习预先扰动像素值的机制,同时也不可能生成一般的类级对抗性扰动,这通常用于针对分类和检测的攻击算法中。第二,提出了与误分类不同的故障跟踪概念,即最大化置信度次高的类别的概率,以超过目标攻击的正确类别的概率。如上所述,暹罗跟踪器输出度量搜索区域中目标和候选的相似性的置信度图。在排名中具有最高置信度的候选者被选择用于对象的预测只有简单地最大化具有第二高置信度的框例如,SiamRPN中的所有锚点(候选框)都用于回归到目标位置,这使得相当多的锚点能够准确地返回到目标位置。最后,与检测中使用的NMS算法不同,在跟踪任务中,高斯窗口被广泛应用于细化框置信度,这导致难以平衡攻击的强度和成功。例如,当只考虑-从攻击的威力来看,离目标最远的盒子然而,远距离盒子的置信度被高斯窗口抑制得更多,选择这些盒子作为目标可能会导致攻击失败。为了应对这些挑战,我们提出了几个标准来生成对抗性扰动。首先,由于跟踪目标的类别未知,需要对任意目标因此,我们建议只在每个视频的初始帧中添加对抗性扰动,即一次性攻击。其次,我们的对抗性攻击必须能够扰动一定数量的盒子,这可以增加攻击的成功率。具体地说,添加扰动可以降低几个高质量框的置信度,并提高许多低质量框的置信度,导致跟踪器输出具有大偏差的错误预测框。因此,我们建议通过优化批量置信度损失来学习攻击扰动。此外,我们需要考虑一般攻击,设计一个特征损失函数,以确保攻击的力量。因此,我们提出了两种优化策略。一种是批量置信度损失,另一种是从CNN的特征空间中攻击所有候选数据。最后,为了进一步提高攻击能力,我们在这两个损失函数中加入了在批量置信损失方面,我们使用置信注意力对不同的候选项进行区分性抑制。在特征损失方面,我们增加了对特征图通道的关注,以通过特征关注来区分不同通道的重要性,这是受[12]的启发。考虑到这些标准,我们提出了基于双重注意的一次性攻击,这在接下来的两节中详细介绍。3.2. 一击双失给定跟踪目标的初始帧和地面真值包围盒,即可得到目标块z. 我们的一次性攻击的目标是生成一个广告-预测框...个自信10180K克KI1我我KKa+b asarial目标图像z(z=z+ zz)仅在初始帧中具有轻微的像素值扰动,这可以使得跟踪结果偏离地面实况(即,故障跟踪)。我们定义攻击跟踪器的对抗示例如下:3.3. 双重注意力攻击此外,我们还在两个损失函数中加入了注意力机制,以进一步提高攻击能力。信心注意。通过将置信注意机制应用于损失函数,我们可以区分z =arg min|≤ε| ≤εL(z,z≠0)(1)不同置信度的候选人的抑制和刺激程度。Eq。(2)被重写为其中zk表示干净图像z的每像素,而zk表示干净图像z的每像素是指对手z中的哪一个,ε代表∗L1= ΣR1:p{wi·f(z,xi)}−ΣRq:r{f(z)},xi)}(四)图像中每像素值的最大扰动范围。在我们的实验中,ε被设置为16,对于这种强度的全局扰动被认为是S.T. |zk−z|≤ε。其中wi定义为人类视觉系统的一种难以察觉的变化。批量置信损失函数L1和特征损失函数1wi=a+b·tanh(c·(d(x)−d(x)、(五)L2在下面详细说明。批次置信度损失。我们的一次性攻击只发生在每个视频的初始帧中,因此我们在初始帧中模拟跟踪过程(给定跟踪模板),生成对抗性示例。请注意,在此阶段中尚未开始常规跟踪任务的测试。遵循暹罗跟踪器,我们假设搜索区域X在目标周围并且是其大小的两倍,包括n个候选者{x1,...,xn}。设f(z,xi)表示以z∈Rm和xi∈Rm为输入的跟踪模型并将每个候选者的置信度作为输出。出去-n个候选者的置信度f(z,xi)具有排序R1:n. 因此,批量置信度损失函数可以被分解。其中d(xi)表示排序的置信度列表中的任何第i个候选xi与第一个xi当量(5)受到收缩损失的启发[19],其中a,b和c是控制超参数。特别地,c代表收缩率,并且a和b都将权重wi限制在(1,1)的范围内。特征注意。 由于有限的扰动条件下,我们进一步考虑通道式激活-引导特征图的注意力来区分不同信道的重要性,保证了一次性攻击的通用性。 同样,Eq。(3)重写为:Σ∗′ ∗罚款如下:Σ ΣL1=f(z≠,x)−R1:pRq:rf(z≠,x),(二)L2=−||wj·{(φj(z)−φj(z)}||二、j=1:CS.T. |zk−z|≤ε。(六)S.T. |zk−z|≤ε。其中,R1:p表示第一个p中的排序,Rq:r表示第二个p中的排序。其中,wj定义为:1wj=a′+b′·tanh(c′·(m(φ(z))−m(φ(z)、(7)))在置信度排名中从q到r排序。 该方法基于批置信度,目的是抑制高置信度的候选项,激发中等置信度的候选项。jjmin其中m(·)和m(·)min代表每个通道φj(z)的平均值和最小平均值,a′,b′和c′是控制超参数。双重注意力缺失。 我们结合了L公司的优势,功能丢失。考虑到2011年的挑战,高斯窗口和平衡的强度和成功的攻击力,我们应用另一种策略,精确攻击和L2一般攻击,甚至-最终获得双重注意力损失:从CNN的∗ ∗令φ(·)表示CNN的特征图,则z和z的特征图的欧几里得距离被最大化。因此,损失函数定义如下:ΣL=αL1+βL2,(8)其中因子α和β将根据经验确定。我们的优化器的目标是最小化总损失L。在实现中,我们使用Adam优化器[13]来最小化-∗10181K通过迭代地扰动沿着L2=−j=1:C||二、||2,(三)梯度方向内的补丁区域,并生成当迭代次数达到100或S.T. |zk−z|≤ε。其中C表示特征图的通道。排序Rτ[1]的第一候选在初始排序R0中在p之后。整个攻击过程在算法1中给出。10182τ算法1:针对VOT的一次性白盒攻击输入:视频的第一帧图像中的目标裁剪z输出:一个对抗性的例子z。1初始化对手z=z;2初始化迭代变量τ=0;3馈送干净的z和包含n个候选者的搜索区域Xxi输入到网络中得到置信度图f(z,xi);4对f(z,xi)进行排序,得到初始秩R0[1:n];5 保存原始RankR0[1:n]中的候选索引;6 当迭代次数τ+<+100时,7对f(z≠,xi)进行排序,得到新的秩Rτ[1:n];8如果Rτ[1]中的候选项的排序> R0中的p,则9例破裂;另外10个11双重注意攻击;12z:=z;13端部14的端4. 攻击评估在本节中,我们描述了我们的实验设置,并分析了所提出的双重注意力攻击算法在3个挑战跟踪数据集上对不同跟踪器的攻击结果然后,我们评估所提出的方法的有效性,通过消融研究各种对比实验。4.1. 实验环境攻击目标。我们展示了四个代表性的基于暹罗网络的跟踪器的对抗攻击结果,包括SiamFC [2],SiamRPN[17],SiamRPN++ [16]和SiamMask [28]。此外,我们的实验使用具有两个不同主干的SiamRPN++,包括ResNet-50和MobileNet-v2,它们在下面分别被称为SiamPRN++(R)和SiamPRN++(M)。评估指标。为了公平的评估,我们采用标准的评估方法来衡量我们的攻击效果。在OTB100和LaSOT数据集中,我们应用了具有精度图和成功图指标的一次通过评估(OPE)。精度曲线反映了跟踪结果与地面实况之间的中心位置阈值距离设置为20像素。同时,成功率度量了检测到的盒子与地面实况之间的重叠率,可以在尺度上反映跟踪的精度。在GOT10K数据集中,我们在所有帧上应用跟踪结果和地面实况之间的重叠率(AO)的平均值以及阈值为0.50的成功率(SR)。我们认为成功的攻击和失败的跟踪是一致的。具体地,跟踪的准确度越低,攻击的成功率越高。表1.在精度和成功率方面,将结果与原始、随机噪声以及我们对OTB100数据集的不同暹罗跟踪器的攻击进行比较追踪器精度(%)成功率(%)实施详情。我们的算法由Pytorch实现,并在NVIDIATesla V100 GPU上运行。对于每个受攻击的视频,我们使用Adam优化器[13]来优化生成的对抗扰动,迭代次数为100次,学习率为0.01。基于注意模块的不同目的,我们采用了不同的超参数设置.具体来说,对于置信度注意力模块,我们设置a= 0。5,b= 1。5,c=0。二、同时,对于特征关注模块,我们分别设置a′= 2,b′=-1,c′=20为了平衡权重参数α和β,我们设置β= 1,而α是模型敏感参数。在我们的实验中,ter在0.2到0.8的范围内。由方程式(2),p、q、r的超参数分别被设置为45(9·5此外,以下所有结果均为在这些设置下重复五次实验的平均值。4.2. 总体攻击结果OTB100上的结果。表1比较了OTB100数据集中这些跟踪器的总体结果。我们将随机噪声与初始帧中目标块上的对抗性示例进行比较,并观察到它们对跟踪结果的影响非常小,但我们的对抗性攻击可以对跟踪方法造成几乎毁灭性的结果。其中,SiamFC、SiamRPN、SiamRPN++(R)、SiamRPN ++(M)加入随机噪声后的精度分别降低了3.1%、4.5%、6.4%和5.7%。而在相应的跟踪器上加入对抗性扰动的精度则大大降低了49.4%、59.8%、57.7%和51.1%。图3显示了OTB100数据集上的成功和精度图,并将原始跟踪器的结果与我们相应攻击后的结果进行了比较 我们可以看到,五个跟踪器在受到攻击后,精度结果和成功率都明显降低。在精度图中,我们观察到所提出的攻击方法对SiamRPN和SiamRPN++(R)具有最好和第二攻击效果,分别降低了59.8%和57.7%的精度同样,我们的攻击方法在SiamRPN和SiamRPN++(R)上的成功率分别降低了46.2%和44.4%关于LaSOT 我们将我们的攻击与这些Org噪声我们Org噪声我们SiamFC76.573.427.157.856.032.3SiamRPN87.683.127.866.663.320.4SiamRPN++(R)91.485.033.769.664.925.2SiamRPN++(M)86.480.735.365.858.026.11018312112OTB100上OPE的精密度图OPE在OTB100表4.双重注意攻击的消融比较研究0.90.80.70.60.50.40.30.20.10.90.80.70.60.50.40.30.20.1SiamRPN++(ResNet-50)精密度(%)成功率(%)随机噪声85.0 64.9L1攻击38.8 29.1攻击由L37.1 27.6L2攻击38.7 27.7攻击由L34.3 25.6L1+L2攻击37.5 26.9∗ ∗0.005101520253035404550定位误差门限0.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0重叠阈值L1+L2的攻击33.7 25.2图3.在OTB100数据集上有或没有对抗性攻击的跟踪器的评估结果表2.在精度和成功率方面,将结果与原始结果、随机噪声以及我们对LaSOT数据集的不同Siamese跟踪器的攻击进行比较。追踪器精度(%)成功率(%)表3.结果与原始,随机噪声以及我们在AO和SR 0方面对GOT10k数据集进行的不同Siamese跟踪器的攻击的比较。50块跟踪器OrgAO(%)噪声我们SrOrg0的情况。50(%)噪声我们SiamFC53.850.234.657.854.328.4SiamRPN60.856.131.271.465.226.5SiamRPN++(R)65.165.031.276.775.726.5SiamRPN++(M)64.161.039.475.070.234.7SiamMask64.464.155.676.575.964.1LaSOT数据集上的跟踪器[4]。表2显示了这些跟踪器在攻击后表现不佳的总体结果。通过结果可以看出,这五 种 跟 踪 器 的 精 度 都 有 明 显 的 下 降 , SiamFC 、SiamRPN、SiamRPN ++(R)、SiamRPN ++(M)和SiamMask 分 别 占 到 原 始 结 果 的 34.9% 、 25.5% 、24.3%、25.1%和74.1%。在 GOT10K 上 的 结 果 。 我 们 还 在 大 型 跟 踪 数 据 集GOT10K上对这五个跟踪器实施了攻击[14]。表3显示,在攻击后,这些跟踪器的总体结果显着下降。结果表 明, 这五 种追 踪器的 AO 分别 下降 了64.3%、51.3%、61.5%、47.9%和86.3%分析. 从这些跟踪器在不同数据集上的攻击结果中,我们发现了一个有趣的现象,即最简单的SiamFC在OTB100和LaSOT上都表现出良好的鲁棒性,我们认为这是由于算法的欠拟合。更具体地说,在某种程度上,SiamFC可以被视为只有一个锚钉的SiamRPN通常,锚点太少会使SiamFC无法准确估计目标。同时,它降低了被敌对样本攻击的风险。此外,我们可以看到,我们的攻击方法对SiamRPN的攻击效果最好,在OTB100上的精确度降低了59.8%,成功率降低了46.2%。因此,可归因于过多的头部参数,使得SiamRPN难以得到充分训练。在一定程度上,这个问题已经在siamRPN++中得到了解决,它采用了多阶段学习和更高效的互相关。我们可以看到,siamRPN++具有更好的鲁棒性,更难被攻击。此外,与其他跟踪器相比,我们的攻击方法对SiamMask的攻击程度最低。例如,对SiamMask的攻击在OTB100上的准确率和成功率分别降低了18.7%和16.5%,这可以归因于SiamMask的多任务学习。 与SiamRPN和SiamRPN++相比,SiamMask增加了语义分割分支,并以像素级关注跟踪对象,使学习的特征更具鲁棒性。4.3. 双重注意攻击的消融研究我们实施了一系列的实验来分析和评估我们的双注意力攻击的每个组件的贡献。我们选择当前最先进的跟踪器SiamRPN++(R)作为代表,在OTB100上的跟踪结果如表4所示。直观地说,我们观察到随机噪声对跟踪结果的影响很小,但我们的对抗性攻击会导致跟踪准确性显著下降。另外,在实验中分别使用L1和L2损失量,大大降低了跟踪的准确性和对跟踪在数据方面彼此相似。这要归功于我们的候选L1的选择策略和L2的全局特征扰动机制。其次,我们测试了L1成分中的距离导向的置信度注意机制,即L。具体而言,L1方法进一步降低了1.7%和1.5%的精度和成功率指标的基础上的跟踪精度。同时,我们验证了L2组件中面向激活的特征注意机制(L_∞)的贡献,并将跟踪性能分别降低了4.4%和2.1%。SiamRPN++(R)SiamRPNSiamRPN++(M)SiamMaskA_SiamMaskSiamFCA_SiamRPN++(M)A_SiamRPN++(R)A_SiamFCA_SiamSiamRPN++(R)SiamRPNSiamRPN++(M)SiamMaskA_SiamMaskSiamFCA_SiamFCA_SiamRPN++(M)A_SiamRPN++(R)精度成功率Org噪声我们Org噪声我们SiamFC34.433.712.035.234.716.7SiamRPN42.442.210.843.343.114.7SiamRPN++(R)50.249.312.249.648.514.9SiamRPN++(M)45.545.511.445.244.914.710184112图4.对OTB100数据集的视频示例Human7和Human2进行对于两个子图中的每一个,第一列表示在初始帧中生成的对抗性示例,除了第一行中的干净示例绿色、蓝色和红色的矩形代表地面实况的边界框,在被攻击之前和之后跟踪结果而且,通过实验分析,我们可以看到特征注意机制比置信度注意机制带来更大的增益。这可能是因为,L的注意机制将候选人缩小到了一个更合适的范围,所有这些候选人都被选中了盒子会对袭击起作用此外,特征关注机制可以迫使算法在庞大的特征空间中挖掘对攻击贡献较大的通道,有效地缩小了关注范围。渴望L2攻击。此外,该攻击策略同时使用两个基本分量L_∞和L_∞,更深层次的模型5. 结论在这项工作中,我们强调了反对VOT的对抗扰动,以规避潜在的风险的监督系统。本文重点研究了针对自由模型单目标跟踪的对抗性攻击,攻击目标是一系列基于Siamese网络的优秀跟踪器。我们提出了一个一次性的攻击方法,只有轻微的在每一个基础上。最后,双重注意攻击法通过同时采用两种注意力机制获得最佳攻击效果。4.4. 定性评价图图4示出了针对各种跟踪器的对抗性攻击的示例我们可以看到,五个跟踪器的初始帧扰动是如此微妙,以至于很难被人眼观察到。通常,添加对抗性攻击会导致跟踪结果的较大偏差其中,当目标规模变化较大时,对SiamFC和SiamRPN的攻击更强。相比之下,SiamRPN++的结果的影响并不明显,这部分归因于使用视频的初始帧图像的像素值,导致后续帧中的跟踪失败。实验结果表明,我们的方法可以成功地攻击先进的暹罗网络为基础的跟踪器。希望在未来的研究中,能够有更多的研究者关注跟踪算法的对抗性攻击与防御。鸣 谢 本 工 作 得 到 国 家 自 然 科 学 基 金 项 目 61972188 、61771273、国家重点研究发展计划项目2018 YFB 1800204、深圳市研发&计划项目JCYJ 201805 -08152204044、深圳市科技计划项目(No.201805 -08152204044)、国家自然科学基金项目2018 YFB 1800204、国家自然科学基金项目2018YFB 18000204、国家自然科学基金项目2018 YFB 1800204、国 家 自 然 科 学 基 金 项 目 2018YFB18JCYJ20180503182133411)和PCL未来区域网络设施大规模实验和应用研究基金(PCL 2018 KP 001)。#1#65#126#249#1#260#668#1076SiamRPN++SiamRPN++(Mobile-v2)(Rsenet50)SiamRPNSiamFC地面实况10185引用[1] Naveed Akhtar和Ajmal Mian。对抗性攻击对计算机视觉中深度学习的威胁:一个调查。IEEE Access ,6:14410[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在欧洲计算机视觉研讨会(ECCV研讨会)会议记录中,第850-865页[3] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。在安全和隐私研讨会(SP),第39-57页[4] Heng Fan , Liting Lin , Fan Yang , Peng Chu , GeDeng , Si-jia Yu , Hexin Bai , Yong Xu , ChunyuanLiao,and Haibin Ling. Lasot:大规模单目标跟踪的高质 量 基 准 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,第5374-5383页[5] 范恒和凌海滨。Sanet:用于视觉跟踪的结构感知网络。在IEEE计算机视觉和模式识别研讨会(CVPR研讨会)中,第42-49页[6] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEInternational Conference on Computer Vision(ICCV),第1440-1448页[7] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。[8] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。在IEEE计算机视觉国际会议(CVPR)的会议记录中,第1763[9] 郭庆 ,谢 晓飞 ,马 磊, 李忠国 ,薛 万里 ,冯 伟。Spark:针对视觉跟踪的空间感知在线增量攻击。在arxiv预印本arXiv:1910.0868,2019。[10] Anfeng He , Chong Luo , Xinmei Tian , and WenjunZeng.用于实时目标跟踪的双重连体网络。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第4834-4843页[11] Lianghua Huang, Xin Zhao, and Kaiqi Huang. Got-10k:用于野外通用对象跟踪的大型高多样性基准测试arXiv预印本arXiv:1810.11981,2018。[12] Nathan Inkahwhich,Wei Wen,Hai Helen Li,and YiranChen.特征空间扰动产生更多可转移的对抗性示例。 在IEEE计算机视觉和模式识别会议(CVPR)中,第7066-7074页[13] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[14] Matej Kristan , Ales Leonardis , Jiri Matas , MichaelFels- berg , Roman Pflugfelder , Luka Cehovin Zajc ,TomasVojir , GoutamBhat , AlanLukezic ,Abdelrahman Eldesokey , et al. The sixth visual objecttracking vot2018 challenge results.在欧洲计算机视觉会议(ECCV)的会议记录中,第0-0页[15] Alexey Kurakin,Ian Goodfellow,and Samy Bengio.物理 世 界 中 的 对 抗 性 例 子 。 arXiv 预 印 本 arXiv :1607.02533,2016。[16] Bo Li,Wei Wu,Qiang Wang,Fangyi Zhang,JunliangXing,and Junjie Yan.Siamrpn++:siamese视觉跟踪与非常深的网络的演变。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第4282-4291页[17] Boli,Junjie Yan,Wei Wu,Zheng Zhu,and Xiaolin Hu.基于暹罗区域投影网络的高性能视觉跟踪。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第8971-8980页[18] 李佩霞、董王、王丽君、胡川路。深度视觉跟踪:回顾和实验比较。Pat-tern Recognition(PR),76:323[19] Xiankai Lu,Chao Ma,Bingbing Ni,Xiaokang Yang,Ian Reid,and Ming-Hsuan Yang.具有收缩损失的深度回归跟踪在欧洲计算机视觉会议(ECCV)的会议记录中,第353-369页[20] Seyed-Mohsen Moosavi-Dezfoooli , Alhussein Fawzi ,and Pascal Frossard. Deepfool:欺骗深度神经网络的简单而准确的方法。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2574-2582页[21] Alexander Neubeck和Luc Van Gool。有效的非最大抑制。在第18届模式识别国际会议(ICPRIEEE,2006年。[22] Nicolas Papernot,Patrick Mcdaniel,Somesh Jha,MattFredrikson,Z. Berkay Celik和Ananthram Swami深度学习在对抗环境中的局限性。IEEE欧洲安全隐私研讨会,2016年。[23] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统进展(NeurIPS),第91-99页,2015年[24] Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna 、 Dumitru Erhan 、 Ian Goodfellow 和 RobFergus。神经网络的有趣特性。arXiv预印本arXiv:1312.6199,2013。[25] Ran Tao,Efstratios Gavves,and Arnold WM Smeulders.搜索跟踪的连体实例。在IEEE计算机视觉和模式识别会议(CVPR)的会议中,第1420-1429页[26] SimenThys,WeibeVanRanst,andToonGoedem e´. 自动监控摄像头:攻击人员检测的对抗补丁。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功