学习不利地模糊视觉对象跟踪

84 浏览量更新于2023-10-14 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110839学习不利地模糊视觉对象跟踪QingGuo1，5*，ZiyiCheng2*，FelixJuefei-Xu3，LeiMa4†，XiaofeiXie5†，YangLiu5，6，JianjunZhao21天津大学智能与计算学院，中国2日本九州大学，3美国阿里巴巴集团，4加拿大阿尔伯塔大学5新加坡南洋理工大学6中国浙江理工大学摘要在曝光期间由对象或相机的移动引起的运动模糊可能是视觉对象跟踪的关键挑战，显著影响跟踪精度在这项工作中，我们从一个新的角度探索视觉对象跟踪器对运动模糊的鲁棒性，即，对抗性模糊攻击（ABA）。我们的主要目标是在线传输输入帧到他们的自然运动模糊的同行，同时误导国家的最先进的跟踪器在跟踪过程中。为此，我们首先根据运动模糊的产生原理，综合考虑运动信息和光线积累过程，设计了用于视觉跟踪的运动模糊合成方法。通过这种合成方法，我们提出了基于优化的ABA（OP-ABA），通过迭代优化对抗目标函数对跟踪w.r. t。运动和光累积参数。OP-ABA能够产生自然的对抗性示例，但迭代可能导致大量的时间成本，使其不适合攻击实时跟踪器。为了缓解这个问题，我们进一步提出了一步ABA（OS-ABA），其中我们在OP-ABA的指导下设计和训练联合对抗运动和累积预测网络（JAMANet），该网络能够以一步的方式有效地估计对抗运动和累积参数在四个流行数据集（例如，OTB100，VOT2018，UAV123和LaSOT）表明，我们的方法能够在四个具有高可转移性的最先进的跟踪器上导致显著的准确性下降。请在https://github.com/tsingqguo/ABA上找到源代码1. 介绍视觉对象跟踪（VOT）在当今各种计算机视觉应用中发挥着不可或缺的作用。*Qing Guo和Ziyi Cheng是共同第一作者，贡献相等。† MaLei和Xiaofei Xie为通讯作者（ma. acm.orgxfxie@ntu.edu.sg，www.example.com）。第（t1）帧直播视频...对原始帧和反向模糊帧的预测结果：第t帧逆模糊第t帧展开的追踪器高级模糊攻击图1：对抗性模糊攻击部署的跟踪器的示例，例如SiamRPN++ [30]。两个相邻的帧被馈送到我们的攻击，它生成一个adversarially模糊的帧，误导跟踪器输出一个不准确的响应图。从增强现实[1，46]到视频监控[47]，从人机交互[36，32]到交通控制[49]等。由于深度学习的注入，VOT在算法性能和效率方面变得更加强大[20]，导致支持VOT的设备上应用程序的部署更加普遍。然而，当面对不太理想的视频馈送时，VOT仍然可以表现出鲁棒性脆性。在诸如照明变化、噪声变化等许多已知的劣化因素中，运动模糊可能是视觉对象跟踪的最重要的不利因素之一，其由对象或相机在曝光期间的移动引起，并且可以严重地危害跟踪精度[18]。大多数现有基准[28，50，35]仅指示视频或帧是否包含运动模糊，并且这条信息仍然不足以通过控制所有变量来分析来自运动模糊的影响，消除了来自其它退化模式的其它可能的干扰，所述干扰可能导致关于这些基准中的运动模糊的影响的不完整结论。此外，目前有限的数据集，虽然是大规模的，不能很好地涵盖在现实世界中的运动模糊的多样性，因为运动模糊是由相机和物体在场景中移动，这是动态的和未知的。现有的运动模糊生成方法不能110840彻底揭示对视觉对象跟踪的恶意或无意的威胁，即，但是它们只能产生自然的运动模糊，这不足以暴露视觉对象跟踪器的对抗性脆弱性。因此，有必要探索一种新的运动模糊合成方法来分析视觉对象跟踪器的鲁棒性，该方法不仅要生成自然的运动模糊帧，而且还要嵌入恶意的对抗性或无意的威胁。在这项工作中，我们研究了视觉跟踪器的鲁棒性，从一个新的角度，即对抗性模糊攻击（ABA）的运动模糊我们的主要目标是在线传输输入帧到他们的自然运动模糊的同行，同时误导国家的最先进的跟踪器在跟踪过程中。我们在图中示出了直观的示例。1.一、为此，本文首先根据运动模糊的产生原理，综合考虑运动信息和光照积累过程，设计了用于视觉跟踪的运动模糊合成方法通过这种合成方法，我们进一步提出了基于优化的ABA（OP-ABA），通过迭代优化对抗性目标函数来对抗轨道。ing w.r.t.运动和光累积参数。OP-ABA能够产生自然的对抗性示例，但迭代可能导致不适合攻击实时跟踪器的繁重的耗时过程为了缓解这个问题，我们进一步提出了一步 ABA （ OS-ABA），其中我们在OP-ABA的指导下设计和训练联合对抗运动和累积预测网络（JAMANet）在四个流行数据集（例如， OTB 100 、 VOT 2018 、 UAV 123 和LaSOT）恶魔-我们的方法能够在四个最先进的跟踪器上引起显著的准确性下降，同时保持高的据我们所知，这是研究VOT对抗鲁棒性的第一次尝试，研究结果将有助于未来一代视觉对象跟踪器在野外更稳健地执行。2. 相关工作视觉对象跟踪（VOT）。 VOT是计算机视觉中的一项重要任务。最近，提出了大量的跟踪器，其使用卷积神经网络（CNN）提取特征，并取得了惊人的性能。在这些工作中，基于Siamese网络的方法[2，14，31，19，55，45，54，44]离线训练Siamese网络并在搜索区域和对象模板之间进行在线匹配，其速度非常快，跟踪性能很高。特别是，SiamRPN [31，30]将区域建议网络[40]嵌入到朴素的Siamese跟踪器[2]中，允许高效估计对象的纵横比变化并实现最先进的在此之后，一些作品使用历史帧来在线更新跟踪模型。例如，DiMP [3]收集过去帧此外，PrDiMP [9]从概率分布的角度改进了具有KL散度和信息熵的损失函数KYS [4]考虑先前帧与当前帧之间的相关性。这些跟踪器运行超过实时，并在几个基准测试中获得最高精度虽然已经取得了很大的进展，有很少的工作研究其对运动模糊的鲁棒性。在这项工作中，我们确定了一种新的方法来实现这一目标，积极合成adversarally运动模糊愚弄国家的最先进的跟踪器。运动模糊合成。在VOT任务中，由于目标的高速运动，运动模糊是一个非常常见的场景。它通常用于评估跟踪器的质量[50，13，18]。近年来，运动模糊合成在渲染界得到了广泛的研究[38，18]。然而，这些方法通常需要完全理解场景的速度和深度作为输入。为了得到更真实和高质量的图像与运动模糊，布鲁克斯等人。[5]识别一种简单的解决方案，通过光流[42，26]扭曲两个即时图像，并将这些中间帧与特定权重融合，以合成模糊图片。这种方法是合成逼真的运动模糊的去模糊任务，而我们的工作是用于adversarially模糊的帧跟踪。另一项相关工作，即ABBA [21]采用单个图像作为其输入，并生成视觉上自然的运动模糊对抗示例，以欺骗基于深度神经网络的分类。具体地说，ABBA模拟运动的对象和背景，分别反向移动，忽略了在场景中的真实运动。不同于ABBA，我们的方法侧重于视觉对象跟踪与实际物体的运动表示的两个相邻的帧。最近，已经提出了一些技术[4，9，44为此，我们的方法提出了更好地评估这些VOT的鲁棒性对抗性攻击。大量的工作已经证明，最先进的深度神经网络仍然容易受到对抗性攻击，通过向原始图像添加视觉上不可感知的噪声或自然退化[16，43，8，15，21]。FGSM [16]通过快速梯度符号方法沿着梯度方向扰动正常示例。MI-FGSM [11]将动量项集成到迭代过程中，可以帮助稳定更新方向。C.W.[6]通过迭代优化，提出了三种针对不同范数（L0，L2，L∞）的然而，由于速度有限，上述方法无法满足实时要求[22]。为了实现高效的攻击，[52，51]通过对目标模型进行离线训练来提出一步攻击。然而，这些方法都是为分类任务而设计的，不能直接攻击跟踪器最近，已经提出了一些工作来攻击视觉对象跟踪。[48]第48章：你是谁？110841不不不不不不i=1不不不i=1不不i=1我tt不-{}⊙--（b）第（1）款帧t-1帧t模糊均匀运动OP-ABA结果OS-ABA结果图2：（a）示出了具有两个帧的运动模糊合成过程，即， It和It−1，以及两组变量，即{Ai}和{Wi}，应该是决心进攻。（b）示出了匀速运动下的正常模糊、OP-ABA模糊结果和OS-ABA模糊结果的三种情况通过白盒攻击的纹理。SPARK [22]研究如何适应现有的对抗性攻击Chen等人[7]建议在初始帧处的模板上添加对抗扰动CSA [52]提出了一种一步方法，并通过强制预测的边界框缩小来使对象对跟踪器不可见。与上述工作不同的是，我们使用运动模糊来执行对抗攻击。我们的工作旨在应对三大挑战：如何合成符合视频中物体和背景运动的自然运动模糊;如何使模糊帧容易地欺骗现有技术的跟踪器;如何有效地执行对抗模糊攻击。据我们所知，这是对抗性攻击社区的首次尝试3. 对抗跟踪的在本节中，我们首先研究如何在Sec中的视觉跟踪任务下合成自然运动模糊。3.1并总结了执行攻击应该求解的变量。然后，我们提出了基于优化的ABA（OP-ABA）在第二节。图3.2中示出了具有新颖的目标函数以经由迭代优化过程来引导运动模糊生成的方法。为了使高效的攻击实时跟踪器，我们进一步提出了一步ABA（OS-ABA）在第二。3.3在OP-ABA目标函数的指导下，训练一个新设计的关节运动和核预测网络。最后，我们总结了OP-ABA和OS-ABA的攻击细节。三点四分。3.1. 用于视觉跟踪的运动模糊合成以生成It的运动模糊对应物，其能够欺骗跟踪器来估计对象的不正确的边界框，同时具有自然的运动模糊图案。为此，我们回顾了真实运动模糊的生成原理[37，39，5，21，18]：相机传感器通过在快门过程中接收和积累光线来捕获图像每个时刻的光线都可以表示为一个瞬间图像，快门过程有一系列的瞬间图像当物体或背景移动时，光积累将导致模糊效果，这可以通过对即时图像进行平均来近似。在上述原则下，当我们想要对抗性地模糊It时，我们需要做两件事：首先，在快门过程中合成即时图像，并使其跟随视频中对象和背景的运动;第二步，对所有瞬时图像进行累加，得到运动模糊It.主要的挑战是如何使这两个步骤可以反向调整，以在保持自然运动模糊模式的同时容易地欺骗跟踪器。对于第一步，我们建议在光流Ut的指导下生成即时图像，光流U t描述了It及其邻居It-1之间的像素移动距离和方向。具体来说，给定两个相邻的视频中的帧，例如，It−1和It，我们把它们看作分别用于照相机快门过程的开始和结束时间戳。假设有N个即时图像，我们将它们表示为{Ii}N，其中I1=It−1且IN=It。然后，我们计算It-1和It之间的光流Ut，并将其分成N 1个子运动，即 UiN−1其中Ui表示Ii和Ii+1之间的光流。我们将Ui定义为t t t在典型的跟踪过程中，给定实况视频的第t帧和在第一帧处指定的对象模板，跟踪器使用预先训练的深度模型来预测对象的位置和大小（即，边界框紧密地扭曲对象），其中θt表示模板相关参数，并且可以在跟踪过程期间更新。对于对抗性模糊攻击，我们的目标是用逐像素比率缩放Ut（即，Wi）Ui=Wi⊙Ut，（1）其中W1具有与U1相同的大小，并且表示逐像素乘法。W i中的所有元素的范围从0到1，并且我们约束WiN的总和在相同的位置上为一，即， p，ΣN −1Wi[p]= 1（一）=+++即时图像累积.........即时图像合成光学流导缠绕光流110842Σ不不·i=1N--W A一WAWWA规范规范1不N−1i=1j=1不不不j=I不不不i=1不i=1不Σi=1Σ⊙--·tNA{}W{}A{}W{}A范数W范数不i=1其中Wi[p]表示Wi中的第p个元素。请注意，为此，我们通过最小化Wt和At来不比率矩阵，即，{Wi}N不确定运动模式。∗t i=1我一个N−1arg minJ（θ（Blur（It，It−1，Wt，At）），Yt）例如，如果我们有p，{Wt[p]=N−1 }i=1且不Wt，At可以通过{Ui=1Ut}N-1计算子运动，所有N−1Wi[p]= l，Ai[p]=l，（四）等式（1），我们得到所有子运动（即，{Ui}N−1）和i i通过扭曲Itw.r.t.不同其中对Wi和Ai的两个约束确保光流例如，我们通过t t合成Iii−1不N−1合成运动模糊不具有明显的失真。函数J（）是距离函数并且被设置为L2。的回归目标Y*表示期望的响应图，并且是Ii=1扭曲（I，ΣWj⊙Uj）+1warp（I，ΣWj⊙Uj），tt2t−1t t2j=1tt tj=I（二）在原始Yt的指导下获得。具体地，利用原始响应图Yt，我们知道对象其中i-1WjUj表示It−1和Ii，ΣN−1Wj⊙Uj表示光流背景区域根据对象大小。然后，我们可以找到位置（例如， q）在Yt的背景区域具有最高响应分数，然后我们设置Y*[q]= 1函数warp（·）是将It−1不或It，并且使用空间Transformer网络的[21对于第二步骤，在得到IiN之后，我们可以通过用逐像素累积权重{Ai}NI=ΣAi⊙Ii.（三）适用于基于回归的跟踪器，例如，DiMP和KYS，并且可以进一步适用于攻击基于分类的跟踪器，SiamRPN++，通过将J（）设置为交叉熵损失函数和Y*[q]=1与它的其他元素 1.一、常见的对抗性攻击[17，12，22，21]，我们可以解决方程。（4）经由有符号梯度下降，并且以指定的步长迭代地更新Wt和At，以及tt ti=1迭代数我们显示合成的运动模糊图中的OP-ABA。二、显然，OP-ABA能够合成具有相似外观的自然运动模糊帧其中Ai与Ii具有相同的大小，并且所有元素的范围t t到正常运动模糊。从零到一。为了模拟真实的运动模糊，通常将Ai的所有元素固定为1，其表示所有瞬时图像的累积。总的来说，我们通过等式2表示整个模糊过程。（3）和（2）为{It=Blur（It，It-1，t，t）。为了对帧It执行对抗模糊攻击，我们需要求解两组变量，即，t=WiN-1决定运动模式，t=AiN决定累积策略。节中3.2、我们遵循现有的对抗性攻击流水线，并提出了基于优化的ABA通过定义和优化跟踪相关的目标函数，以得到Wt和At。节中3.3，我们设计了一个网络来预测Wt和At以一步的方式。3.2. 基于优化的对抗性模糊攻击在本节中，我们提出通过优化跟踪相关目标函数来求解t和t。具体地，给定原始帧It，跟踪器可以通过Yt=0t（It）来估计响应或分类图，其最大值指示对象在I t中的位置。我们的攻击目标是产生模糊I（即，I=Blur（I，I，W，A））至3.3. 一步对抗模糊攻击为了允许有效的对抗模糊攻击，我们提出预测运动和累积权值（即，t和t）与表示为联合对抗运动和累积预测网络（JAMANet）的新设计的网络以一步的方式进行比较，该网络通过目标函数Eq. （4）和自然感知损失函数。具体来说，我们使用JAMANet来处理neigh-镗架（即，It和It−1），并分别预测t和t同时，我们还使用预先训练的网络来估计It和It−1之间的光流Ut。在这里，我们使用PWCNet [42]，因为它取得了良好的效果在不同的场景。然后，Eq。（2）-（3），我们可以获得运动模糊帧之后，我们将{It}馈送到损失函数中，并计算JAMANet的参数梯度以执行优化。我们在图中显示了框架3 .第三章。JAMANet的架构我们首先建立两个具有常数值的参数集，它们被表示为norm= Ai和norm= Wi 。和中的所有元素分别固定为和1。我们t ttt−1t规范t−1测试生成令预测的对象位置由Yt=θt（It）远离由Yt指示的原始值。通过Eq。（二）、JAMANet基于U-Net架构构建[41]，但包含两个解码器分支，它们N像素遵循均匀运动。受p，i，而Y*的其他元素为零。请注意，上述设置110843一LW W WWA a aA不i=1不i=1不规范关闭不i，i=j--不--哇哇图3：JAMANet的架构。被馈送N个即时图像IiN并且输出偏移w.r.t.规范和标准我们将它们命名为关闭和关闭.输入IiN的大小为（N，3，H，W）。我们将其大小调整为（1，3N，H，W），并将值归一化为-1到1. 该架构是一个完整的卷积编码器/解码器带跳过连接的模型。在编码器阶段，我们使用六个卷积，内核大小为4x4，LeakyReLU[33]激活功能。与标准的U-Net不同，JA-MANET有两个解码器。具体地，一个分支被设置为估计关闭，包含六个转置卷积[53] 使用最新的激活函数 Tanh 。我们可以通过t=norm+off 来计算最终的 t 。另一个分支是预测 off 并得到t=norm+off。该架构与前一个架构相同，但是遵循Softmax以迎合Eq.（4）1.损失函数。我们用两个损失训练JAMANet功能：L=Ladv+λLnatural，（5）其中第一损失函数，即，adv1被设置为等式1中的目标函数。（4）确保背景内容而不是对象被突出显示。注意，该损失函数意味着增强对抗性攻击的能力，即，误导原始跟踪器。然而，它忽略了对抗模糊的自然性。为此，我们定损函数L自然作为N培训详情。我们使用GOT-10 K [25]作为我们的训练数据集，其中包括10，000多个序列和500多个对象类。对于GOT-10 K [25]中的每个视频，我们将第一帧设置为模板，并将两个相邻帧作为图像对，即，（It−1，It）。我们从每个视频中选择八个图像对。模板和两个相邻的框架组成一列火车-正在取样。在这里，我们实现了OS-ABA攻击两个跟踪器，即 SiamRPN ++[30] 与 ResNet 50 和 Mo-bileNetv2。在实验中，我们表明，OS-ABA对其他国家的最先进的跟踪器具有很强的可转移性。在训练迭代期间，我们首先计算模板积极的活动SiamRPN++的离子图然后，我们得到Yt*，并通过Blur（It，It−1）初始化模糊帧。我们可以通过方程计算损失。（5）并获得JAMANet的梯度通过反向传播进行参数更新。我们训练JAMANet 10个epoch，在单个Nvidia RTX 2080Ti GPU上总共需要大约9个小时。我们用亚当[27]以0.0002的学习率优化网络参数，并且损失权重λ等于0.001。3.4. 攻击细节直观地说，给定目标跟踪，我们可以在在线跟踪过程中通过OP-ABA和OS-ABA模糊每一帧来攻击它，如图所示。1.一、攻击可以是白盒的，即，等式（1）中的跟踪模型。（4）是Lnatural=ΣAi−Ai2.（六）该损失函数促使估计的累积参数类似于正常的累积参数，从而导致自然的运动模糊。1为了让At也满足约束，对于任意像素p，我们首先选择元素ity，即跟踪模型Eq.（4）与目标不同。注意，OP-ABA基于迭代优化并且是耗时的，因此我们每五个帧进行OP-ABA，同时对所有帧执行OS-ABAj= arg minAi[p]，然后设置Aj[p]=1−ΣNAi[p]。在实践中，我们执行模糊的搜索区域当量(2)+SoftMax4×4 Conv，64LeakyReLU（0.2）4×4 Conv，128，BNB NL，eLaekaykRyeRLeUL（U0.（20）.2）4×4 Conv，256，BNLeakyReLU（0.2）4×4 Conv，512，BNLeakyReLU（0.2）4×4 Conv，512，BNLeakyReLU4×4 ConvT，512BN，ReLU4×4 Conv，512，BNReLU4×4 Conv，256，BNReLU4×4 Conv，128，BNReLU4×4 Conv，64，BNReLU4×4 Conv，3NTanh4×4 ConvT，512BN，ReLU4×4 Conv，512BN，ReLU4×4 Conv，256BN，ReLU4×4 Conv，128BN，ReLU4×4 Conv，64BN，ReLU4×4 Conv，3NTanh我与目标轨迹相同，导致高精度下降。它也可以是黑盒，也称为可转移的。i，i∈[1，N]110844WA的W表1：OP-ABA和OS-ABA在OTB 100和VOT2018上使用ResNet 50和MobileNetv 2对SiamRPN++的攻击结果。最佳结果用红色突出显示。SiamRPN++攻击Org. 预处理OTB预降↑100Org. 成功成功下降↑VOOrg. EAOT2018EAO下降↑ResNet50OP-ABA87.841.766.531.20.4150.375OS-ABA87.832.566.528.10.4150.350MobNetv2OP-ABA86.449.665.837.60.4100.384OS-ABA86.437.365.830.10.4100.338表2：OP-ABA和OS-ABA对具有ResNet 50和MobileNetv 2的SiamRPN++在UAV 123和LaSOT上的攻击结果。最佳结果用红色突出显示。SiamRPN++攻击Org. 预处理UAV1预降。↑23Org. 成功成功下降↑Org. 预处理Las预降↑OTOrg. 成功成功下降↑ResNet50OP-ABAOS-ABA80.480.430.429.661.161.123.119.949.049.028.726.849.749.725.226.4MobNetv2OP-ABAOS-ABA80.280.234.731.960.260.226.924.044.644.629.722.544.744.728.118.7以加快攻击速度。具体地，在帧t处，我们裁剪以检测到的对象为中心的搜索区域作为It。与此同时，我们在与It−1相同的位置从上一帧中裁剪一个区域。然后，我们使用PWCNet [42]来计算光流。我们得到原始的响应图与目标跟踪器和如果我们使用OP-ABA作为攻击方法。然后，我们可以进行OP-ABA或OS-ABA来生成对抗性模糊帧。在OP-ABA方面，我们将迭代次数设置为10，并且用于更新t和t的步长分别设置为0.002和0.0002。对于OP-ABA和OS-ABA两者，中间帧的数目N固定为174. 实验结果我们设计的实验，调查三个方面：首先，我们验证了我们的两种方法对国家的最先进的跟踪器在四个公共跟踪基准的有效性。四点二。其次，我们设计烧蚀实验，以验证t和t在秒的影响。四点三。第三，我们比较我们的方法与国家的最先进的跟踪攻击，他们的可转移性和帧质量在秒。4.44.1. 设置数据集。我们在四个流行的数据集上评估了对抗模糊攻击，即 [2018 - 12 -18][2018 - 12 -19][2018 -11][2018 -19][2019 - 19]VOT2018和OTB100是广泛使用的数据集，分别包含100个视频和60个视频。LaSOT是最近的一个大规模跟踪基准，包含 280 个视频。UAV123 [35]专注于跟踪无人机相机捕获的物体，包括123个跟踪模型。我们使用ResNet50对最先进的跟踪器进行攻击，包括SiamRPN++ [30][23] 和 MobileNetv2 [24] ， DiMP [3] 与 ResNet50 和ResNet18，以及KYS [4]。具体地说，我们确认白-使用OP-ABA和OS-ABA对SiamRPN++的盒攻击[30]与ResNet50 [23]和MobileNetv2在Sec.4.2，其中运动模糊帧由目标跟踪器的模型本身引导我们选择SiamRPN++[30]，因为它是基于Siamese网络的方法的经典跟踪器[44，31，10，2，19]，可实现出色的跟踪精度和实时跟踪速度。我们还通过使用SiamRPN++与ResNet50制作的运动模糊来攻击其他跟踪器来进行可转移性指标. 就OTB100、UAV123和LaSOT数据集而言，我们遵循它们的常见设置，并使用包含成功率和精度两个指标的一次通过评估（OPE）。前一个基于地面实况边界框和所有帧的预测边界框之间的交集（IoU），而后者基于地面实况和预测之间的中心位置误差（CLE）。详情请参阅[50]。为了评估攻击的能力，我们使用不同攻击的成功率和精度的下降，这被表示为成功。Drop和Prec.下降更高的掉落意味着更有效的攻击。就VOT2018而言，当对象丢失时，它会重新启动预期平均重叠（EAO）[29]是评估准确性和稳健性的主要标准。类似于成功。滴，我们使用EAO滴（即，EAO Drop）用于评估攻击。与其他基于加性噪声的攻击相比，我们使用了BRISQUE[34]作为图像质量评估。攻击需要产生不仅是自然的，而且能够欺骗跟踪器的对抗性示例。BRISQUE是评价图像自然度的常用度量，较小的BRISQUE意味着更自然的图像。基线。有几种跟踪攻击，包括冷却收缩攻击（CSA）[52]，SPARK [22]，基于一次攻击的攻击[7]和PAT [48]。其中，CSA和SPARK已经发布了他们的代码。我们选择CSA和SPARK作为基线。110845WA一一一WAWA的WWAW AAWAW WW一一一表3：使用ResNet50和MobileNetv2的三种攻击和SiamRPN++的速度和时间成本。SiamRPN++攻击者Org. FPS每帧攻击时间（ms）↓攻击FPS↑ResNet50OP-ABA70.25661.906.79OS-ABA70.2542.9717.62MobNetv2OP-ABA107.62508.308.79OS-ABA107.6240.8819.964.2. 验证结果攻击结果。我们分别攻击了两个使用ResNet50和MobileNetv2作为主干的SiamRPN++跟踪器。对四个公共数据集的攻击结果分别在表1和表2中呈现。我们观察到：OP-ABA和OS-ABA在所有基准上都显著降低了两个目标跟踪器的成功率和精度具体而言，在OTB 100数据集上，OP-ABA使SiamRPN++与ResNet 50的精度和成功率分别降低了41.7和31.2，几乎是原始分数的50%这些结果表明，所提出的攻击能够有效地欺骗最先进的与OS-ABA相比，OP-ABA实现了更高的精度下降，因为它在每次优化过程中针对特定位置进行攻击，而OS-ABA生成一般模糊图像，使跟踪器无法看到对象。总体上，所有的结果表明OP-ABA和OS-ABA在通过对抗性模糊攻击误导跟踪模型方面 ⑶ 比较SiamRPN++（ResNet50）和SiamRPN++（MobileNetv2）的性能下降，我们观察到前者在相同的攻击下通常具有相对较小⑶根据图1所示的可视化结果4，我们看到这两种方法都能够生成视觉上自然模糊的帧，这会误导SiamRPN++。通常，OP-ABA包含一些伪影，但能够比OS-ABA更有效地误导跟踪器。相比之下，在所有三种情况下，OS-ABA总是速度分析。我们测试了OP-ABA的时间成本和OS-ABA，并报告攻击前后SiamRPN++跟踪器的FPS。如表3所示，我们观察到OP-ABA将显著减慢跟踪速度。例如，由于在线优化，OP-ABA将具有ResNet-50的SiamRPN++的速度感谢通过JAMANet在Sec. 3.3，根据每帧的平均攻击时间，结果，OS-ABA实现了接近实时的速度 17.62 FPS 和 20.00 FPS ，攻击 SiamRPN++（ResNet50）和SiamRPN++（MobileNetv2）。在攻击后的FPS方面，OS-ABA也比OP-ABA快3倍左右。表4：通过攻击0 TB 100上的SiamRPN++（ResNet 50），t和t对OP-ABA和OS-ABA的影响。最佳结果用红色突出显示。攻击者成功率成功下降↑预处理预降↑原始66.50.087.80.0标准模糊65.31.286.21.6OP-ABAw/oAtOP-ABAw/oWtOP-ABA51.540.935,315.025.631.267.653.446.120.234.441.7OS-ABAw/oAtOS-ABAw/oWtOS-ABA61.041.638.45.524.928.180.858.355.37.029.532.54.3. 消融研究在本节中，我们将讨论t和通过构建OP-ABA和OS-ABA 的两个变体来攻击 OTB 100 数据集上的SiamRPN++（ResNet 50）跟踪器。具体来说，对于这两种攻击，我们只调整t并将t固定为范数，因此我们得到两个变体OP-ABA w/ot和OS-ABA w/ot。类似地，我们用norm替换t并逆向调整t，因此我们分别得到OP-ABA w/ot和OS-ABA w/ot此外，为了证明对抗性模糊降低了性能，我们构建了它将运动模糊与范数和范数合成，表示现实世界中可能出现的范数模糊。我们在表4和图4中总结了结果 4并具有以下观察结果：当我们固定OP-ABA和OS-ABA的t或t时，成功率和精度下降显著降低，表明调整两种运动模式（即，t）和累积策略（t）可以有益于对抗性模糊攻击。根据性能下降的方差，我们看到调整累积策略（t）对有效攻击的贡献更大。例如，如果不调优t，成功率下降将从OS-ABA 和 OP-ABA 分别为 28.1 和 31.2 至 5.5 和15.0SiamRPN++对Norm-Blur具有鲁棒性，成功率和精度略有下降。相反，对抗性模糊导致显著的性能下降，表明对抗性模糊确实对视觉对象跟踪构成威胁。⑶根据图1中的可视化结果，在图4中，我们具有与表4中的定量结果类似的结论：OP-ABA w/ot可以生成运动模糊帧，但对预测精度几乎没有影响。一旦我们调整t，跟踪器就可以有效地被愚弄，但也引入了一些伪像4.4. 与其他攻击的在这一节中，我们通过将所提出的攻击与基线攻击进行比较来研究它们的可转移性，即CSA[22][23][24][25][26]具体来说，对于所有比较的攻击，我们使用SiamRPN++（ResNet50）作为性能优化或训练的指导。例如，我们在OP-ABA的目标函数中设置θt（即当量（4）作为模型110846的W图4：OP-ABA w/o的三个可视化结果t、OP-ABA w/ot、OP-ABA和OS-ABA对SiamRPN++（ResNet 50）的作用。相应的跟踪结果用红色边界框示出。表5：关于可转移性的比较结果具体来说，我们使用广告-从SiamRPN ++（ResNet50）制作的对抗性示例攻击OTB100上的四个最先进的跟踪器，包括SiamRPN++（MobileNetv2）[30]、DiMP50[3]、DiMP18 [3]和KYS [4我们还计算了所有对抗性示例的平均BRISQUE值。跟踪器SiamRPN++（MobNetv2）DiMP50DiMP18KYSBRISQUEOrg. 预处理86.489.287.189.520.15CSA0.23.42.70.833.63火花0.92.01.00.924.78OP-ABA2.56.610.37.921.39OS-ABA0.210.711.212.322.94的SiamRPN++（ResNet50）。我们在表5中报告了攻击后的精度下降，并将BRISQUE作为生成的对抗帧的图像质量评估。如表5所示，我们观察到：我们的方法，即OP-ABA和OS-ABA获得最佳和次佳的可转移性（即，更高的精度下降）对抗DiMP50，DiMP18 [3]和KYS [4]，暗示我们的方法对于黑盒攻击更实用根据BRISQUE结果，对抗性模糊帧的值比其他对抗性示例小，这表明我们的方法能够生成更自然的帧，因为运动模糊是现实世界中常见的退化。5. 结论在这项工作中，我们提出了一种新的对抗性攻击视觉对象跟踪，即对抗性模糊攻击（ABA），考虑运动模糊而不是噪声对最先进的跟踪器的影响我们首先发现-对跟踪过程中的运动模糊合成过程进行了分析，在此基础上提出了基于优化的ABA（OP-ABA）算法。该方法通过迭代地优化跟踪感知目标来欺骗跟踪器，但导致沉重的我们进一步提出了一步ABA通过训练一个新设计的网络预测模糊参数在一个步骤的方式。在四个公开数据集上的攻击结果、可视化结果和比较结果证明了本文方法的有效性和优越性这项工作不仅揭示了运动模糊对跟踪器的潜在威胁，而且可以作为一种新的方法来评估运动模糊鲁棒性的跟踪器在未来。鸣谢：这项工作得到了JSPS的部分支持KAKENHI格兰特 No.JP20H04168，JP19K24348，JP 19 H 04086，JP 21 H 04877，JST-Mirai计划批准号JPMJMI 20 B8，日本。马磊还得到了加拿大CIFAR AI计划和加拿大自然科学与工程研究委员会的支持。这项工作还得到了新加坡国家研究基金会在其人工智能新加坡计划（AISG 2-RP-2020- 019）下的支持，新加坡国家研究基金会，总理办公室在其国家网络安全研发计划（第 2020 号）下的支持。 NRF2018NCR-NCR005-0001），NRF Investi-Gatorship NRFI 06 -2020-0001，国家研究基金会通过其国家网络安全研发（NCR）资助下的国家值得信赖的软件系统卓越卫星（ NSOE-TSS ）项目（编号：NRF2018NCR-NSOE003 -0001 ）。我们衷心感谢NVIDIA AI技术中心（NVAITC）对我们研究的支持110847引用[1] R. Azuma，Y.拜约河Behringer，S. Feiner，S. Julier还有B. 麦金太尔增强现实的最新进展。 IEEE ComputerGraphics and Applications，21（6）：34-47，2001. 一个[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。欧洲计算机视觉会议，第850-865页。施普林格，2016年。二、六[3] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte. 学习判别模型预测跟踪。在ICCV，第6181-6190页，2019年。二、六、八[4] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte. 了解您的周围环境：利用场景信息进行对象跟踪。欧洲计算机视觉会议，第205-221页Springer，2020年。二、六、八[5] Tim Brooks和Jonathan T.巴伦学习合成运动模糊。在CVPR，2019年。二、三[6] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。二个[7] Xuesong Chen，Xiyu Yan，Feng Zheng，Yong Jiang，Shu-Tao Xia，Yong Zhao，and Rongrong Ji.对具有双重注意力的视觉跟踪的一次性对抗攻击在IEEE/CVF计算机视觉和模式识别会议论文集，第10176-10185页三、六[8] Yupeng Cheng ， Qing Guo ， Felix Juefei-Xu ， XiaofeiXie，Shang-Wei Lin，Weisi Lin，Wei Feng，and YangLiu.Pasadena：感知和隐形对抗去噪攻击。IEEE Transactions on Multimedia，2021。二个[9] M.达内尔扬湖Van Gool和R. Timofte用于视觉跟踪

下载后可阅读完整内容，剩余1页未读，立即下载