点积注意力对对抗性补丁具有危害性

127 浏览量更新于2023-10-25 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15234请注意：点积注意力对对抗性补丁鲁棒性有害Giulio Lovisotto1，2 Nicole Finnie2 Mauricio Munoz2 Chaithanya Kumar Mummadi2，3 JanHendrik Metzen21牛津大学2博世人工智能中心3弗莱堡大学giulio. cs.ox.ac.uk，{Nicole.Finnie，AndresMauricio.MunozDelgado，ChaithanyaKumar.Mummadi，JanHendrik.Metzen}@ de.bosch.com图1. DETR的干净输入和反向修补输入的比较[8]。补丁将目标键标记移向查询标记集群（中间列）。对于点积注意力，这有效地将所有查询的注意力引导到恶意令牌，并防止模型检测剩余的对象。右列比较了干净输入和修补输入之间的查询摘要基于注意力的神经架构，如视觉转换器，正在彻底改变图像识别。它们的主要好处是注意力允许对场景的所有部分进行联合推理。在本文中，我们展示了（缩放）点积注意力的全局推理如何在面对对抗性补丁攻击时成为主要漏洞的来源。我们提供了一个理论上的理解，站在这个漏洞，并将其与对手的能力，误导所有查询的注意力到一个单一的关键令牌的控制下的我们提出了新的对抗性目标，用于制作明确针对此漏洞的对抗性补丁。我们展示了所提出的补丁攻击对流行的图像分类（ViTs和DeiTs）和对象检测模型（DETR）的有效性。我们发现，占输入的0.5%的对抗性补丁可以导致ImageNet上ViT的鲁棒准确率低至0%，并将MS COCO上DETR的mAP降低至3%以下。1. 介绍注意机制在近年来变压器在不同的语言和图像处理任务中的成功中起着突出的作用。使用视觉变换器[12，23，37]的图像识别的最新突破激发了不同架构ing [3，6，15，15，19，24，30，36，49]和低水平视觉任务[9，21，42，47]。这些不同的转换器使用点积注意力机制作为其架构设计的一个组成部分，以模拟不同输入或功能补丁之间的全局交互。了解这些基于点积注意力的网络对针对安全关键漏洞能力的对抗性攻击的跨视觉任务的变压器研究的兴趣越来越大，激发了最近的几项工作[2，5，7，14，1523516，27-一些先前的作品[2，5，28，34]假设变压器比卷积神经网络（CNN）更强大，可以抵御这些攻击。另一方面，[14，16，27，43]已经表明，视觉转换器也不例外，并且也容易受到对抗性攻击。特别是，[43]表明可以针对transformer定制对抗攻击，以实现高对抗可转移性。这些发现表明，为CNN设计的鲁棒性评估协议（攻击）可能对变压器来说是次优的。在同一工作领域，我们在变压器中广泛使用的点积注意力中发现了一个原则性漏洞，该漏洞通常可以被基于图像的对抗补丁攻击所利用。点积注意力计算查询标记与所有关键标记的点积相似度，稍后使用softmax运算符对其进行归一化以获得每个标记的注意力权重。然后将这些注意力权重基于注意力的对抗性攻击通过架构中的所有组件（包括注意力权重）反向传播梯度。我们观察到，在预训练的视觉转换器上，由于软最大值，通过注意力权重的梯度流通常比通过价值令牌的流小得多（参见第二节）。4.1）。因此，具有标准对抗性目标的基于梯度的攻击偏向于关注通过价值令牌传播的对抗性影响，并且对注意力权重引入很少或没有对抗性影响，从而限制了攻击我们的工作旨在对抗性地影响注意力权重，即使这些权重在基于梯度的对抗性攻击受损的饱和软最大具体来说，我们提出了支持对手将大多数查询的注意力误导到对应于对抗补丁的关键令牌的损失，即，以增加查询对目标密钥令牌的关注权重。我们进一步研究必要条件（参见第二节）。4.2）对于一个成功的攻击，误导注意力权重：两者都是(a) 使投影矩阵具有大的奇异值以及（b）具有较高的嵌入维数，允许放大单个令牌中的扰动效应，从而显著改变单个密钥的嵌入。此外，（c）对点积注意力具有较少中心化的输入（输入平均值的较大绝对值）会导致彼此远离的查询和键的不同聚类。在这种情况下，将一个键移近查询聚类中心可以使该键同时与大多数查询最相似（参见图1）。我们提出了一系列对抗性损失和攻击，称为Attention-Fool，直接作用于点积输出（前softmax点积相似性）。这些损失优化了对抗补丁以最大化点积所有查询与期望的键（通常是其令牌对应于具有对抗补丁的输入区域的键）的相似性。这种方法最大化了关注头部中的目标键的查询数量，请参考图2以获得说明。我们将这些损失应用于transformers中的多个注意力头和层，以将模型的注意力从图像内容误导到对抗补丁，从而鼓励错误的预测。我们表明，我们的Attention-Fool对抗性损失改善了针对不同视觉变换器ViTs [12]和DeiTs [37]的基于梯度的攻击，用于图像分类，并且还显着提高了攻击我们的贡献可以概括如下：• 确定点产品注意力层权重中存在漏洞的必要条件，请参见第4.2节。• 提供此漏洞可能无法被基于普通梯度的对抗性攻击充分利用的原因，请参见第4.1节。• 引入Attention-Fool，一个新的损失家族，它直接在注意力层点积相似性上定义损失，见第5节。• 证明用于图像分类和对象检测的变换器对小的adversar- ial斑块高度敏感，见第6节。2. 相关工作视觉变换器（ViTs）[12]最近的成功激发了几个研究其对抗对抗攻击的鲁棒性的作品[2，5，14，16，27虽然一些作品[2，5，28，28，34]假设ViT在不同的白盒和黑盒传输攻击设置（包括通用对抗补丁）下比CNN更鲁棒，但其他作品[7，27，29，43]声称ViT至少与CNN一样脆弱。特别是，[2]将ViT的假定鲁棒性归因于其捕获全局特征的能力。[5，34]分析说，ViTs依赖于对对抗性扰动具有鲁棒性的低频特征。[34]已经指出ViT具有比CNN更好的认证鲁棒性，并且进一步表明对抗训练的ViT具有与其CNN对应部分相当的鲁棒性。然而，当使用快速对抗训练时，他们观察到ViTs的灾难性过拟合[45]，这表明需要改进对抗训练。另一方面，[7]声称在更大的数据集上预训练的ViTs[27 ， 29 ， 43] 提出，可以通过仔细定制针对Transformer架构的对抗攻击来改善ViTs之间以及从ViTs到CNN的对抗可[27]探索了CNN和ViT模型的集成，以提高攻击的可转移性。的作者15236年q1Q 2K3年q3K1K2年q1q2q3K1K2K32 ⌧⌧2F（年q3点积加权点积加权X1清洁输入/功能X2年q1k1q1v1Q2k2q2k1k2k3k1k2k3点积相似性输出值注意力权重v1v2v3注意力权重v v vX1输入/功能补丁X2年q1k1q1v1Q2k2q2k1 k2k3点积相似性输出值注意力权重v1v2v3注意力权重v v v补丁2年q3XQ12 3注意力权重v2对抗性XQ1 23注意力权重3k33v v v贴片3k33v v vv31 2 3v312 3图2.干净（左）和对抗补丁攻击（右）设置的点积（自）注意力机制示例这里，q、k和v代表输入特征的投影查询、键和值标记左：点积注意力计算查询与所有键的点积相似性，稍后使用softmax进行归一化以获得每个标记的注意力权重。这些与价值令牌相乘，以控制它们在注意力块中的贡献。右图：Attention-Fool损失优化了X3处输入的对抗补丁，以最大化所有查询与关键字k3（以红色/黑色标记）的点积相似性，这对应于将k3移动到更靠近查询集群的位置。k3查询的点积相似性的增加将模型的注意力从图像内容误导到对抗性补丁。[29]提出了一种自集成技术：将单个ViT模型分割成网络集合以提高传输能力。[43]提出了一种跳过注意力梯度的攻击，以生成高度可转移的对抗性扰动。在这项工作中，我们的目标是了解广泛使用的点积注意力在变压器的鲁棒性和暴露其脆弱性对抗补丁攻击。这些是通过定制对抗性目标来专门欺骗点产品注意力机制而构建的与我们的工作相一致，[14，16]也使用图像补丁欺骗变压器中的注意力[16]使用传统的对抗补丁攻击来误导模型对扰动补丁的注意力，以促进错误的预测。他们还表明，对抗补丁推广到图像中的不同位置[14]优化对抗补丁，以增加所有其他补丁的注意力权重（post-softmax）来攻击模型。我们讨论了优化后softmax注意力权重的局限性，如[14]（参考第4.1节），并建议直接优化查询和键的前softmax点积相似性，以引起对对抗补丁的注意。除了优化补丁的内容之外，还存在用于优化补丁在输入中的位置的方法。Joshi等人[18]根据标记显著性选择adversar- ial斑块的位置。Fu等人。[14]根据图像补丁在干净图像中吸引的注意力，选择一个显著的图像补丁来包含对抗补丁。我们的工作抽象从选择补丁的位置，并专注于损失的补丁的内容的优化任何补丁位置选择方法都是正交的，可以与我们的注意力损失相结合。本工作重点关注点积，广泛应用于变压器中。我们将其他注意力机制[20，39，50]的脆弱性的调查留给未来的工作。3. 预赛介绍了补丁鲁棒性评价的目标，总结了一种寻找对抗补丁的优化算法，并概述了缩放点积注意力。通用目标公式。给定（归一化）图像x[0，1]3hw和相关标签y，我们制作一个对抗补丁p[0，1]3phpwwith phh，pw最大化以下目标：arg maxpL（f（F（x，p， L）），y），（1）其中L指定补丁p在较大图像x内的位置，将补丁应用到图像上的函数（即，f是给定大小的输入区域），并且f是目标模型。对于分类任务，我们感兴趣的是0-1损失L（x，y）= L0，1（x，y）=0x=y，这对应于找到1X y最大化错误分类。我们注意到，p2[0，1]3phpw可以写为||p-0。5||10的情况。五、威胁模型。我们专注于白盒威胁模型，其中对手可以访问模型的内部（包括中间网络层输出）。作为在[10，14]中，我们不认为补丁的不可感知性是一个要求。我们还专注于单个补丁固定位置威胁模型（等式1中的L是先验固定的）。请注意，用于选择贴片位置的方法[14，18]可以与所提出的方法相结合优化算法对于补丁优化，在整篇论文中，我们使用投影梯度下降（PGD）[26]来处理1范数有界扰动：pt+1= pt+ n·sgn（rpL（f（F（x，p，L），y）.（二）k1 k2k3k1 k2k3k1 k2 k3v15237L| R|RH⇡RVrAh（X）1XpVLQKV22QKV- ··P2 22.（rXAh（X））X0小时我们从[0，1]3 <$p h<$pw随机初始化p0uniform。由于0-1损失0，1是分段常数，因此它不适合基于梯度的优化。因此，代理人通常使用诸如交叉熵L=Lce表1.对于6个编码器层上的模型，在随机自然图像上的令牌和头部上的（XAh（X））X）/（Ah（X）1X）的中值。该表的较大版本见附录第A2ViT-T ViT-S ViT-B DeiT-T DeiT-S Detr然而，我们在第5节中提出了替代损失。点产品注意。在其基本形式中，点积注意力[25，38]为每个查询计算注意力权重，作为查询与所有键的点积。然后，softmax函数应用于关键维度。然后将这些注意力权重乘以以下值：Attention （ Q ， K ， V ） = softmax（ QK> ） V 。（ 3 ）这里， QR_n_d 模型， KR_n_d模型和V_R_n_d模型分别是 n 个查询、键和值的矩阵根据 Vaswani etal.[38]，对于大的D模型值，查询和键之间的点积可能在量级上变大。这会将softmax函数推入饱和状态，在此状态下，它具有极小的梯度。这是由于softmax函数中各个查询键点积的幂运算。因为这可能对训练有害，他们引入了缩放点-产品注意力，其中QK>由1/pd模型缩放。在实践中，通过将查询、键和值线性投影H次到dk、dk和dv来使用H >1注意力头这是一个很好的选择[38]。第h个注意力头（AH）的输出变为：QWh（ KWh）>对于每个注意层和头部 h ，需要梯度 XSelfAH h（X）。通过乘积规则，我们得到：rXSelfAHh （ X ） =[ （ rXAh （ X ）） X+Ah（X）1X]WV，其中1X是与X形状相同的1的矩阵。梯度rXSelfAHh（X）相应地，是元素的比率||.我们总结了这个比率在代币上的中值，不同型号和层的表1中的头如图所示，典型的机制（即，对于>50%的情况）是对于ViT [ 12 ]、DeiT[ 37 ] 以及 DETR [ 8 ] 的内部编码器层，（ XAh（X））X比Ah（X）1X小20倍。在此设置中，可以近似XSelfAH h（X）（Ah（X）1X）Wh，即：梯度将注意力权重Ah（X）视为有效常数。因此，基于梯度的攻击Q =0，Q K）VWh，（4）DK因为基于端到端损失（如ce）的PGD将偏向于关注X中的对抗效应，可以通过值V=XWh（线性）传播，其中Wh2研发模型，Wh2 Rd型号：Wh2V自我关注，同时有效地忽略潜在的不利影响研发模型是（学习的）投影矩阵。的输出各个注意力头部被连接并乘以另一个学习的投影矩阵WORH dvd模型。一种特殊情况是具有Q=K=VRnd模型的自注意，其通常用于图像识别模型的编码器层。我们定义了通过注意力权重Ah（X）传播的X的（和非线性）效应。我们注意到，使用基于梯度的优化器进行模型训练的后期阶段也会受到点积注意力属性的负面影响。更详细的研究留待今后的工作。10、A（A）= A（B）=A（XWh（XWh）>dk）24.2. 点积注意力权重的鲁棒性Rnn.第h个自我关注头变成：SelfAHh（X）=Ah（X）XWh4. 点积注意（五）我们现在研究注意力权重Ah（X）的程度点产品的注意力会受到对抗性补丁攻击为此，我们使用具有正态分布X的受控设置，其中每个特征具有均值μ和方差1：Xj<$N（μ·1，1）。此外，我们选择在本节中，我们首先讨论为什么（缩放的）点积自注意力对于基于梯度的对抗性攻击（如PGD）具有挑战性。然后，我们提供了一个例子，一个对抗性的弱点，在注意力权重本身。4.1.点积自注意dk=d模型和对角线WQ=wIdk和WK=wIdk，即WQ和WK都具有尺度w但符号相反。我们研究一个简单的威胁模型：攻击者只能修改X0，X的n个条目中的第一个（X可以被认为是补丁的嵌入，X0对应于嵌入的攻击补丁），具有约束为了计算rpL（F（x，p，L) ，y）中的Eq. 2、是nec-||1美元。||1✏. 此外，广告的目标是实现Ah（ Xadv）0j≥0.99>0。95，即：在p需要通过整个模型进行反向传播。这层10.0480.0590.0640.0440.0490.188层20.0320.0270.0320.0420.0330.040层30.0350.0320.0280.0340.0280.034层40.0290.0350.0360.0350.0290.058层50.0410.0320.0480.0660.0360.074层60.0300.0290.0360.0400.0340.112152381nJ152390--| |KQLKQLQQK101输入平均值µ= 0。50101输入平均值µ= 1。00101输入平均值µ= 5。0010010010010-1100101体重秤w10-1100101体重秤w10-1100101体重秤w图3. 达到攻击者的目标所需的最小“1”范数扰动（即，强制查询注意第4.2节中受控设置上的第一个关键字。增加权重w、增加嵌入维数dk和增加输入均值范数μ可以简化攻击：随着这三个量的增加，实现目标所需的微扰减小。表2. 投影权矩阵WQ（WK）>用于随机初始化和训练的模型。ViT/DeiT-B维生素BDeiT-BDETR编码器随机训练训练随机训练层10.8060.96175.281.277.93层20.7922.6765.861.2910.61层30.8011.7654.191.2515.35层40.795.8844.951.2745.26层50.794.9129.361.2849.82层61.214.8328.721.2629.30至少95%的查询需要关注具有大于或等于0的关注权重的第一键。九十九。通过设计，设置例如[31]的方案也在头部中使用仿射而不是线性查询/关键字投影，其中关键字和查询的投影中的不同偏差将具有与非中心输入类似的效果。最后，我们还观察到，对于许多视觉变换器，投影权重矩阵的乘积与随机初始化投影相比，WQ（WK）>权重矩阵（见表2）。大的奇异值可以被认为是类似于我们的控制设置中的因此，我们预计，经过训练的视觉转换器的点积注意力通常在注意力权重Ah（X）可能是补丁攻击的漏洞来源的情况下运行，但基于梯度的攻击Xadv=X0对于µ>0，-是强攻击，因为-1·例如PGD偏向于忽略这种脆弱性(as节中讨论4.1）。对应于（WQWk）（μ1）的方向，即投影查询和键均值的差。我们研究了如何根据µ、w和dk选择攻击者，以利用上述攻击和威胁模型进行成功攻击。结果示于图3中。一般来说，可以观察到，具有较小扰动量的成功攻击需要：（a）增加投影矩阵的尺度w，（b）更高的嵌入维度dk，以及（c）较少中心化的输入X（较大的μ）。这些发现(a) 和（b）可以归因于更高的维度和更大的5. 注意-傻瓜我们已经讨论了注意力权重Ah（X）在原则上可能会受到对抗补丁的很大影响，但我们也证明了基于梯度的攻击在利用这个漏洞时会受到损害。为了鼓励注意力权重的欺骗，我们引入了一系列直接定义在前softmax注意力logits上的损失XWh（XWh）>QK权重允许每个输入中的微小扰动的影响，Bh（X）=损失pd.我们表示基于这些的把维度放大。经过更仔细的检查（参见附录中的B部分），我们可以将发现（c）归因于将投影键和查询分离为不同的聚类，用于不太集中的输入：所有的查询都彼此接近，所有的键都彼此接近，但是查询-键对都彼此远离。在这种情况下，可以使单个键与每个查询最相似，只需将该键向查询集群的方向移动（请参见图1中的实际数据说明）。在经过训练的图像转换器中，点积注意力通常在哪种状态下对于许多architec- tures，dk是相对较大的设计。此外，点积注意力的输入通常不是中心的（零均值），这是由于在非中心区域内启用了仿射变换注意力傻瓜。我们注意到，无论攻击是有针对性的还是无针对性的，攻击者总是最大化注意力损失此外，虽然本文关注的是自我注意力，但将这些损失扩展到交叉注意力是很简单的。hl：攻击一个注意力头。我们首先关注于在特定的自我注意力层l中反向地修改特定头部h的注意力权重。我们提出了一个损失HL，旨在最大限度地提高查询注意的i？-th投影键，即：最大化那些将大部分注意力集中在这个键上的查询的数量。当然，我？选择，使得其标记对应于对抗补丁被放置的输入。自我关注之前的自我化层。许多实施-我们用Phl=XhlWhl2迪姆斯dk41683264128所需数量范数c15240pLLLLKQP=BKQLPPLL LLLKQPhl1hlQKQnJ吉伊最大化LhlKQHKQKQLKQKKQPLlPhl8LPlLLjyiLL图4.在注意力头部的12个ViT层中的每一层上嵌入用于干净和修补的输入图像的投影关键和查询令牌，这些层显示出最大的注意力变化。We design Attention-Fool to target all layers and heads at once.最后一列报告了最后一层上对抗键的注意力地图权重通过Phl=XhlWhl2Rn<$dk和投影键。的补充材料。K KPhl（P hl）>我们有Bhl=QKDK2Rnnn，where the first dimen-第一个是索引查询，第二个是键。Bhl的每个元素量化相应的关注头h和层l中的关键字和查询之间的点积相似性。我们现在设置Lhl=1Bhl，其中j索引查询。KQ因此对应于最大化平均值kqy：瞄准一个特殊的类令牌。kq损失平等地对待所有查询，并且旨在将大多数查询的注意力误导然而，对于许多体系结构，[2019- 02-17]查询和目标键之间的点积相似性kq：同时攻击所有的注意层和头部。在上一段中，我们介绍了一种针对单个头部和层的损失。然而，在一般情况下，愚弄一个头部可能是不够的，并且先验地不清楚哪个头部将是最易受伤害的头部。这同样适用于层的选择，当有多个层使用点积注意。因此，我们建议同时将损失应用于所有层和头。然而，简单地在所有头部和层上平均化hl可能不是最佳的，因为它可能总体上有利于许多较小的头部变化，而不是在更大程度上成功地愚弄头部和层的子集。因此，我们将使用平滑最大值smax（x）=log iexiovererLh l. 具体来说，我们定义=logel和=logeL。我们emperically比较选择这个平滑的最大值超过平均值和硬最大值在第C.1节和选择l在l在第C.2节。我们在图4中可视化了kq为了使不同头和层的损失可比较，我们还建议将存在一个特殊的类令牌，它应该是AC-在各层上累积类别证据。我们提出了一个版本的kq损失，专门针对某一查询的注意，例如对应于类令牌。让j？应该是目标查询的索引。我们定义并如上所述使用头和层上的平滑最大值推广到kqy在下面的实验中，我们将使用kq或kqy与标准交叉熵损失ce的组合来进行方程1的对抗补丁优化。我们将利用点积注意力弱点的攻击结果集表示为 Attention-Fool。注意，Attention- Fool不同于并发工作Patch-Fool[14]，后者定义了后softmax注意力权重的损失，平均值为头h和查询j的年龄：PF=hjAh（X）j。特别是，Attention-Fool（与Patch-Fool相反）不是受第4.1节中描述的小梯度问题的影响，因为它是在pre-softmax注意力权重上定义的。6. 别名：Attention-Fool我们评估了不同的视觉变换器对使用我们提出的注意力傻瓜对抗损失生成的对抗补丁的鲁棒性我们首先研究了ViT [12]和改进的DeiT [37]的鲁棒性厄赫尔Phl1hl通过P Q投影键和查询 =Q/n||PQ||1、2和第6.2节。然后，我们展示如何注意傻瓜一般-普尔=K/||P||X||1、2 =||1,2=PnsPdk是将其转换为第6.3节中的DETR [8]，它使用混合CNN加上Transformer架构来执行对象检测。KnKijI jL1，2范数。注意，归一化是按indi应用的。vidual头，并使查询和keys的平均` 2范数等于1。然后根据P<$hl计算Bhl，6.1. 评估设置我们使用PGD作为优化器来求解方程1。我们Pl，使损失Lhl可抵消。我们将PGD的初始步长设置为0 = 8 / 255，并在第C.3节中，我们将详细评估这种归一化的效果，即余弦衰减：Δ t（t+1）=Δ t（0）1（1 + cos（Δt））。增补─2NX215241不pL⇥⇥LLLLLLL⇥⇥LKQLp表3.在1000张ImageNet图像上对抗补丁攻击下的鲁棒准确率（%）干净的性能，以及对补丁傻瓜损失[14]和补丁RS [10]的鲁棒准确性被显示为基线。底部块中的所有行都是使用PGD250计算的，其中步长λ=8/255和交叉熵损失Lce。将注意力傻瓜项添加到损失（Lkq或Lkqs），并且可选地将动量添加到PGD。括号中的数字报告了相对于R.T.的稳健准确度的改善或降低Lce基线。所有型号都使用224 <$224分辨率，除非型号名称中标有“384”，则使用384<$384。补丁大小始终为16 16。ResNet50ViT-T维生素BViT-B-384DeiT-TDeiT-BDeiT-B-384清洁80.673.585.086.469.482.082.0[14]第十四话-0.317.547.83.252.968.2Patch-RS [10]70.818.649.865.944.057.371.2PGD250（含Lce）+Lkq55.1-0.10.5（+0.4）13.55.0（31.218.0（19.813.1（36.035.5（58.855.1（+Lkqs-0.3（+0.2）2.6（13.0（11.7（33.7（57.2（+动力49.00.03.113.21.516.841.7此外，我们为对抗补丁鲁棒性评估添加了更强的基线，我们通过在优化中添加归一化动量来使用PGD的改进版本[11]：交叉熵Attention-Fool在ViT-T和DeiT-T模型中可以将精度降低到0%，甚至在ViT-B-384中也可以低至1.90%，其中补丁仅占输入图像的值得注意的是，与先前的工作相比，m（t）=m（t-1）+（1-n）rp/||Rt||二、并使用m（t）代替PGD中的梯度rt。6.2. 视觉Transformer上的注意力傻瓜我们使用第5节中描述的新的注意力傻瓜攻击来比较使用新损失kq和kq优化的对抗补丁的有效性。使用交叉熵损失CE优化的对抗补丁。我们使用ImageNet 2012[33]数据集中的1，000张图像并执行无目标攻击，其中y在等式中。1是im-age地面真相。我们还在附录的D节中报告了针对性攻击的结果。在实验中，我们在左上角放置了一个16 × 16像素的对抗补丁，我们分别在第C.4节和第C.5节中研究了不同的位置和大小。为了进行评估，我们使用来自 timm的预训练 ViT 模型[44]。我们选择的模型将输入图像分成16个16图像子块;这样，对抗补丁恰好占据图像子补丁之一。我们考虑输入图像分辨率为224224或384384的模型;对抗补丁分别覆盖输入的0.5%和0.17%。为了进行比较，我们还对CNN ResNet50进行了攻击，使用相同的设置，但仅使用ce我们在表3中报告了由此产生的鲁棒精度。我们发现注意力傻瓜的kq和kq？无论PGD的动量如何，大多数模型的基线交叉熵都有所改善。虽然表3显示kq已经降低了大多数设置的鲁棒精度，但使用特定于架构的Attention-Fool损失变体kq？在所有模型中降低了更稳定的鲁棒精度，通常具有较大的性能增益，（参见第二节。2）我们发现，当补丁被放置在左上角时，所有ViT/DeiT变体的鲁棒性都比ResNet 50低得多，而将补丁放置在中心可能会对CNN产生更大的影响。我们包括与Patch-Fool的“注意力感知损失”的额外比较为了与Patch-Fool进行对照比较，我们进行了两项调整：（i）我们忽略基于显著性的斑块位置选择（[ 14 ]中的第4.3节），（ii）我们用PGD（动量= 0.9）替换Adam。这从攻击细节中抽象出来，使我们能够直接比较损失。结果表明，补丁傻瓜的注意感知损失低于注意傻瓜损失;确认优化后softmax注意力权重的局限性（在第2节中讨论）。4.1）。此外，我们比较了Patch- RS[10]，一种基于随机搜索的黑盒补丁攻击。Patch-RS的劣化结果表明，无梯度攻击是没有可行的替代方案，利用现有的漏洞在注意力权重。6.3. DETR上的注意力傻瓜由于Attention-Fool的目标是点产品注意力层，因此它可以适用于使用这种注意力的各种任务和架构。在这里，我们将Attention-Fool应用于使用DETR的对象检测[8]，它将CNN骨干与Transformer编码器-解码器相结合注意力傻瓜配置。而kq？显示super-根据第6.2节中ViT/DeiT的先前结果，它不适用于DETR，因为DETR中缺少类令牌。相比之下，我们使用（1）：针对所有查询和头部但仅针对第一Transformer编码器层（l=1）而不是一次全部的丢失我们关注l=1，因为我们假设-+Lkq+Lkqs--0.0（-0.0）0.1（0.0（-0.0）0.1（15242KQ48第48章：我的天ce42.0827.6937.8941.32+Lkq34.88（-7.20） 18.94（-8.75） 9.80（-28.09） 17.05（-24.26）（一）（一）KQLL⇥KQL⇥⇥LLKQL表4.DETR模型上，存在使用L ce计算的对抗性补丁和使用AttentionFool（1）计算的补丁时的平均平均精度（mAP）。在干净图像集上获得基线干净mAP 三种不同的补丁大小和四种不同的DETR模型被认为是，根据R50或R101骨架以及有和没有扩张DC 5。R50DC5- R50R101DC5- R101清洁mAP53.0054.2554.4156.7464岁64：Lce34.91 17.67（一）+L21.03（-13.88） 7.34（-10.33）31.762.07（-29.70）34.714.19（-30.52）KQ带贴片盒的部分大于检测盒面积的50%。我们对地面实况做同样的事情，以便在干净的输入和修补的输入之间进行公平的比较。结果与上一节类似，我们使用ce作为攻击基线，并测试mAP的改进（降级），因为我们将其与Attention-Fool损失（1 ）相结合。我们测试了三种不同的补丁大小，64 64、56、56和48 48个，分别占全国的0.64%、0.49%和0.36输入图像。考虑到DETR的更高复杂性（与ViT相比），我们在该实验中将PGD迭代次数增加到1000次。我们在表4中报告了得到的mAP：干净图像上的基线mAP，使用 ce 的目标攻击下的mAP，以及使用组合Attention-Fool时的mAP变化L+L（1）损失。表4显示了添加L（1）re-CEKQ KQLkq 只2019年12月19日（+0.12）32.60（+4.91） 12.85（-25.04）17.55（-23.77）在DETR中，从CNN到Transformer编码器的过渡由于来自CNN主干的大量激活而特别脆弱出于类似的原因，我们使用最大值函数而不是第4节中使用的smax来汇总注意力头的损失。评估设置。我们通过选择目标作为后台类来评估对DETR的有针对性的注意力傻瓜攻击，这有效地迫使错过检测（即，假阴性）。我们评估了来自官方存储库[1]的四个预训练的DETR模型，其主干是ResNet50或ResNet101，并且在ResNet第5层卷积（DC5）中有或没有请注意，DC5模型在主干提取的特征映射中具有两倍的分辨率我们从MS COCO 2017验证集[22]中选择100张图像，并使用默认的DETR验证图像加载器，该加载器将图像重新缩放为最短边800像素。我们通过针对单个关键令牌（CNN特征图中的单个单元）来评估Attention-Fool，我们在附录的E节中提供了消融，其中我们将对抗效应单独归因于该令牌我们将对抗补丁放置在图像左上角，以80，80像素为中心。因此，我们在非扩张模型中以索引2，2为目标，在扩张模型中以索引4，4为目标-我们记录了主要的COCO挑战指标，即平均精确度（mAP），它在不同的交集对并集（IoU）阈值下平均精确度-召回曲线得分。为了不使评估偏向于局部补丁效应，我们忽略了检测框，降低了所有型号和所有补丁大小的mAP性能我们发现，DETR为101的较大模型更容易受到注意力傻瓜的影响，其中mAP可以降低到2.07-这相当于抑制了绝大多数物体的检测。图示见图1表4还提供了一种设置，其中我们不对模型的输出使用任何损失在大多数情况下，这会导致比直接使用ce7. 结论我们重新讨论了图像识别中的transformer对补丁攻击的鲁棒性。我们确定了点积注意力这可能导致先前的工作高估了鲁棒性。我们提出了Attention-Fool，它直接针对点产品的注意力权重，并允许更严格的鲁棒性估计。总之，Attention- Fool提高了所有考虑的视觉转换器的香草鲁棒性评估，并且能够通过微小的远程补丁欺骗DETR局限性。我们专注于点产品的关注。其他注意力机制[20，39，50]可能不会受到所识别的弱点的相同程度的然而，由于点产品注意力是变压器中的主要注意力机制，我们的方法是广泛适用的。潜在的负面社会影响。像我们这样的对抗性攻击可以用于良性目的，比如可靠地评估ML系统的鲁棒性，也可以用于恶意目的，比如利用这些系统的弱点。我们的研究为未来研究更强大的注意力机制提供了基础，这些机制可以减轻已确定的脆弱性以及由此产生的负面社会影响的可能性。（一）Lkq 只29.52（-5.39）15.03（-2.64）2.05（-29.71）10.18（-24.53）56年56：Lce37.7424.1332.0638.28（一）+L28.19（-9.55）14.68（-9.45）3.30（-28.76）6.82（-31.46）15243引用[1] DETR ：端到端的目标检测与变换器。https://github.com/facebookresearch/detr.访问时间：2021-11-16。8[2] 艾哈迈德·阿尔达杜，瓦西姆·哈米杜什，奥利维耶·德福格斯.揭示视觉变换器对对抗性攻击的鲁棒性。arXiv预印本arXiv：2106.03734，2021。一、二[3] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioLuc i c'，andCord e liaSchmid. Vivit：一个视频视觉 Transformer 。 arXiv 预印本 arXiv ：2103.15691，2021。1[4] Josh Beal， Eric Kim，Eric Tzeng ，Dong Huk Park，Andrew Zhai，and Dmitry Kislyuk.面向基于transformer的对象检测，2020年。1[5] Philipp Benz ， Soomin Ham ， Chaoning Zhang ， AdilKarjauv，and In So Kweon.视觉Transformer和mlp-mixer对 cnn 的对抗鲁棒性比较。 arXiv 预印本 arXiv ：2110.02797，2021。一、二[6] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？arXiv预印本arXiv：2102.05095，2021。1[7] SrinadhBhojanapalli ， AyanChakrabarti ， DanielGlasner，Daliang Li，Thomas Unterthiner，and AndreasVeit.了解图像分类中变压器的鲁棒性.arXiv预印本arXiv：2103.14586，2021。一、二[8] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。一二四六七[9] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE/CVF计算机视觉和模式识别会议的论文集，第12299-12310页1[10] Francesco Croce ， Maksym Andriushchenko ， Naman DSingh，Nicolas Flammarion，and Matthias Hein. Sparse-rs：一个多功能的查询高效稀疏黑盒广告攻击框架。arXiv预印本arXiv：2006.12834，2020。三、

下载后可阅读完整内容，剩余1页未读，立即下载