通过注意力提高对抗样本的可迁移性

176 浏览量更新于2023-10-25 收藏 12.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Among these two sorts of black-box attacks,thetransfer-based one has attracted ever-increasing attentionrecently [8]. In general, only costly query access to de-ployed models is available in practice. Therefore, white-box attacks hardly reﬂect the possible threat to a model,while query-based attacks have less practical applicabilitythan the transfer-based counterparts due to the prohibitivequery cost they may incur [8].Thanks to the observed cross-model transferability of ad-versarial samples, a popular practice is to freely employany white-box attack strategy as transfer-based black-boxattacks [21]. Unfortunately, the malicious images synthe-sized by such a scheme are prone to overﬁt to the exclu-sive blind spots of the source model [39, 8, 41, 7]. Specif-ically, although the crafted adversarial samples can attack11610通过注意力提高对抗样本的可迁移性0吴伟斌1，苏宇鑫1�，陈希贤2，赵胜林2，金灿1，刘远1，戴宇荣201 香港中文大学计算机科学与工程系，2 腾讯0{ wbwu，yxsu，king，lyu } @cse.cuhk.edu.hk，{ xixianchen，henryslzhao，yuwingtai } @tencent.com0摘要0深度模型的广泛部署需要在实践中评估模型的脆弱性，特别是对于自动驾驶和医学诊断等安全和安全敏感领域。因此，基于转移的图像分类器攻击引起了越来越多的关注，攻击者需要根据本地代理模型构造对抗性图像，而无需来自远程目标模型的反馈信息。然而，在这种具有挑战性但实用的设置下，合成的对抗样本往往由于过度拟合于所使用的本地模型而取得有限的成功。在这项工作中，我们提出了一种新的机制来缓解过度拟合问题。它通过对提取的特征计算模型的注意力来规范对抗性示例的搜索，优先考虑可能被不同架构采用的关键特征的破坏。因此，它可以促进生成的对抗实例的可迁移性。在ImageNet分类器上进行了大量实验证实了我们的策略的有效性以及其在白盒和黑盒设置中优于最先进基准的优越性。01. 引言0深度神经网络（DNNs）已经成为解决广泛实际应用领域的尖端解决方案，例如目标检测、语音识别和机器翻译[27]。尽管这些深度学习技术的性能令人印象深刻，但它们对所谓的对抗样本却异常脆弱[36]。例如，通过有意地在合法图像上施加人类难以察觉的噪声，结果对抗性输入可能会导致最先进的图像分类器产生错误的预测。这引发了对这些高性能黑盒可靠性的日益关注，并阻碍了这些模型在实践中的部署，特别是在自动驾驶和医学诊断等安全和安全敏感领域[3]。0� 对应作者。0因此，攻击在评估模型和揭示其盲点之前扮演着重要角色，其中最基本和公认的任务之一是生成针对DNN图像分类器的对抗性图像[3]。为了模拟DNN图像分类器可能面临的威胁，文献中通常考虑两种威胁模型[20]。一种是白盒设置，攻击者可以完全访问受害模型，如模型架构和参数。另一种是黑盒设置，攻击者只能对目标模型进行查询访问，即提供输入图像并获取输出预测。0根据它们所针对的威胁模型，存在两种攻击类型：白盒攻击和黑盒攻击[20]。白盒攻击可以利用受害模型的精确梯度信息来构造恶意实例[36, 9,5]，而黑盒攻击根据攻击者采用的机制可以进一步分为两类[8]。一种是基于查询的，另一种是基于转移的。基于查询的黑盒攻击通常需要大量查询才能成功尝试[16]。相反，没有来自目标模型的反馈信息，基于转移的黑盒攻击使用现成的本地模型（即源模型）生成对抗样本，并直接利用生成的样本欺骗远程目标模型（即受害模型）[41, 8]。Inception V3 VGG 16 ResNet V2 Figure 1: The attention heatmaps of three representativemodels (VGG 16 [33], ResNet V2 [12, 13], and InceptionV3 [35]) for a cat prediction. The visualization is generatedwith the technique of [30] as detailed in Section 4.2. Redderregions possess higher importance to the model decision.the source model with near 100% success rates, they sufferfrom limited success against the target model.In this work, we aim to promote such transfer-based at-tacks, which requires improving the transferability of ad-versarial samples crafted with white-box attack strategies.We expect that the crux is to guide the search of adversarialimages towards the common vulnerable directions of boththe source and the target models. Therefore, it inspires us toseek for the common characteristics of diverse models andexploit such information to ameliorate the overﬁtting issue.We discover that before different models arrive at a cor-rect decision, they should ﬁrst extract various features andthen weigh these features appropriately, namely, allocatingsuitable attention over extracted features1. Although somemodels may adopt exclusive feature extractors, the mostcritical features that diverse architectures employ tend tooverlap largely in our numerous observations. For instance,as demonstrated in Figure 1, when different models recog-nize a cat image, albeit one of the models (Inception V3)also looks for features extracted from the cat neck, all ofthem tend to pay attention to the face-related features spon-taneously.The similarity among different models in the employedfeatures inspires us to exploit the model’s attention toguide the search of adversarial perturbations. Figure 2 il-lustrates the proposed strategy.In short, we ﬁrst adoptback-propagated gradients to approximate the importanceof different features to model decisions (i.e., attention ex-traction). Then we require the adversarial manipulation tocontaminate attention-weighed feature outputs. As a result,the synthesized malicious noise can focus on underminingthe most vital image features that the local source modelemploys (i.e., critical feature destruction). Since differ-ent models strongly rely on such features, we can alleviateoverﬁtting to a speciﬁc source model and boost the transfer-ability of resultant adversarial samples.In summary, we would like to highlight the following1In this work, we consistently employ the term “feature” to refer tothe hidden representations of images extracted by middle layers of DNNs,rather than the raw image pixels.Face 𝛼1 𝛼𝑛 𝛼2 𝛼1 ∗ + 𝛼2 ∗ + + 𝛼𝑛 ∗ Cat Cat Gradient Backpropagation Attention Extraction () 𝛼2 > 𝛼𝑛 > ⋯    11620�0�0关键特征破坏（��）0图2：模型注意力提取的提出过程及其在引导欺骗样本搜索中的应用。详见第4节。0本文的贡献：0•我们提出了一种新的策略来提高对抗图像的可转移性。它引入了模型注意力来规范欺骗性噪声的搜索，从而减轻对源模型特定盲点的过拟合。•大量实验证明我们的注意力引导转移攻击（ATA）可以严重破坏各种高性能图像分类器和防御器。经验证据还证明，我们的方法在白盒和黑盒场景下优于现有基准的性能。•我们展示了我们的策略通常与其他基于转移的攻击兼容，并且可以方便地集成到几种最先进的方法中以提高它们的性能。02. 相关工作0根据攻击者的知识，文献中通常有两种威胁模型[3]。一种是白盒设置，攻击者可以完全访问受害者模型，例如模型架构和参数。另一种是黑盒设置，对手只能获取查询访问权限，即上传图像输入和下载预测输出。在这两种情况下，攻击者旨在通过扰乱合法样本来合成对抗样本，以误导学习算法。argmax f(x′) ̸= t,(1)11630以人类难以察觉的方式修改图像。根据它们所针对的设置，攻击被称为白盒攻击和黑盒攻击[3]。白盒攻击在早期攻击深度神经网络的研究中非常流行[36，9，18，5]。与模型训练过程不同，它们在输入空间中进行优化以提高训练损失。快速梯度符号方法（FGSM）通过沿着模型损失函数梯度的符号方向对干净种子图像进行改变[9]。它的后继者，基本迭代方法（BIM），迭代地应用较小幅度的FGSM扰动以提高攻击成功率[18]。投影梯度下降（PGD）通过随机起点扩展BIM以增加合成的对抗实例的多样性[22]。Carlini和Wagner攻击（C＆W）设计了一个新的攻击目标来吸收扰动预算约束[5]，它还允许在搜索欺骗性噪声时使用像Adam[17]这样的复杂优化器。基于雅可比矩阵的显著性图攻击（JSMA）[25]旨在寻找具有最小l0范数的对抗性噪声。因此，它提出优先修改最重要的图像像素以影响模型决策。然而，白盒攻击很难反映实际模型面临的威胁，因为在大多数现实情况下只允许查询访问。因此，黑盒攻击近年来引起了越来越多的关注。根据它们采用的机制，大致可以分为两种黑盒攻击。一种是基于查询的[24，2，10]，另一种是基于转移的[41，39，8，21，23]。基于查询的黑盒攻击可以根据目标模型对给定输入的响应确定受攻击模型的易受攻击方向[10]。或者，攻击者可以通过训练一个本地副本[24]或有限差分技术[2]来近似目标模型的损失梯度。然而，这种攻击通常需要大量查询才能成功，因此在实践中的适用性有限[8]。基于转移的黑盒攻击是基于对抗样本在不同模型之间的可转移性而产生的。具体而言，攻击者首先对他们可以完全访问的现成本地模型发起攻击。然后，欺骗性样本直接传输以欺骗远程受害模型。因此，攻击者可以在此任务中应用任何白盒攻击算法，例如FGSM和BIM。不幸的是，这种直接的策略经常受到对本地源模型特定弱点的过拟合和有限成功的困扰。我们展示了通过在对抗样本的优化过程中引入正则化器，我们可以显著提高这种基于转移的黑盒攻击的性能。还存在两种方法来促进对抗性的可转移性。基于集成的机制-0通常需要推导出的扭曲对一组模型[21, 32]或图像[39, 8,23]保持有害。与我们的工作更相关的是基于正则化的方法：由[41]引入的可转移对抗扰动（TAP）。TAP将两个正则化项注入模型的香草训练损失函数中，以引导对抗操作的搜索，从而减轻梯度消失问题并减少结果对抗样本的变化。我们发现不同的模型在进行正确预测时具有相似的注意力。因此，我们可以利用这个特性来增强恶意图像的可转移性。有大量的并行提案来增强深度模型的鲁棒性。不幸的是，由于流行的反应式防御方法[3]，防御者在与攻击者的对抗中似乎落后很远。失败的尝试包括对输入图像进行预处理以减小恶意噪声[11, 1]，防御性蒸馏以掩盖梯度[26,6]，以及特征压缩以检测对抗样本[40, 14,38]。对抗训练可以说是迄今为止最有效和最有前景的防御方法，其中防御者主动为其模型制作欺骗性图像，并将这些实例与干净的训练数据一起用于训练模型[9, 22,20]。此外，利用为不同保留模型量身定制的恶意示例还可以加强防御，并为基于转移的黑盒攻击提供鲁棒性[37]。因此，我们还使用最先进的对抗训练模型来研究我们的策略对抗防御模型的性能。03. 准备工作0我们将DNN图像分类器表示为函数 f ( x )，通常它是神经元层的层次组合。它输出给定图像 x的概率向量，其中 f ( x )[ i ] 表示图像 x 属于类别 i的概率。我们将层 k 中的 x 的隐藏表示表示为 A k ( x ) = fk ( x )，它由多个特征图组成。当上下文清楚时，我们将省略输入x 。因此，A c k 是层 k 中的第 c 个特征图，A c k [ m, n ]是其中空间位置 [ m, n ] 的神经元的输出。给定模型 f，干净图像 x 的对抗对应物 x ′ 应满足以下两个条件：0并且 || x ′ − x || p ≤ �. (2)0第一个条件形成了攻击对象，即通过恶意实例 x ′误导目标模型进行错误预测。第二个条件确保11640对原始图像 x 的引入扭曲是不可察觉的，因为 �通常是一个相当小的数。在本工作中，我们采用了l∞范数，因为它是社区中最广泛提倡的范数[9]。我们还注意到，我们的方法通常适用于其他范数选择。令 l ( f ( x ) , t )表示用于指导模型 f训练的损失函数。攻击者可以将训练损失函数作为Eq.（1）中的攻击对象的替代，并将对抗图像 x ′的生成形式化为以下优化问题：0最大化 l ( f ( x ′ ) , t ) ,0满足 || x ′ − x || p ≤ �. (3)04. 方法0在基于转移的黑盒攻击设置下，攻击者只能利用现成的本地模型制造欺骗样本。然而，由于过度拟合源模型，上述优化问题的解通常具有有限的可转移性。为了克服这个缺点，我们建议在Eq.（3）中使用基于注意力的正则化项来增强香草训练损失函数。它鼓励在更新欺骗扰动时搜索不同深度架构中常见的有害方向。如图2所示，我们首先使用相应的反向传播梯度近似提取特征的模型注意力（第4.1节）。然后，我们将特征图的注意力加权组合的破坏形式化为Eq.（3）的正则化项（第4.3节）。最后，我们解释了我们用于解决改进的优化问题以生成对抗样本的算法（第4.4节）。04.1. 注意力提取0我们假设基于迁移的攻击者可以从DNN图像分类器中明确攻击隐藏的特征检测器中获益。与依赖手工设计特征的传统图像分类方法不同，基于深度学习的图像分类器以其自动提取图像中有区别的特征的能力而闻名[15]。因此，我们可以将DNN图像分类器分为两部分：分层特征提取模块和softmax分类器。DNN图像分类器的学习特征提取器通常是如此通用，以至于它们可以适应不同的领域和任务[31]。受到这个事实的启发，我们期望许多特征描述符在相同任务的不同架构之间是共享的，例如，用于人脸识别的边缘检测器。因此，如果合成的对抗性噪声不仅可以欺骗目标模型的最终预测，而且还可以严重污染提取的中间特征，那么它更有可能在不同的模型之间进行迁移。0然而，在有限的扰动预算下污染中间特征仍可能遭受过拟合到特定模型的问题，因为有一些特征过滤器是源模型专有的。为了解决这个问题，我们要求欺骗性噪声专注于破坏模型预测的关键特征。我们假设虽然不同的模型可能寻找不同的特征证据来做出最终决策，但一个模型关注的最关键特征在各种架构中经常是共享的。例如，对于一张猫的图像，不同的模型在进行正确预测时很可能都需要利用与面部相关的特征（图1）。因此，我们需要推导出不同特征对模型决策的重要性，即模型的注意力。我们将一个完整的特征图视为基础特征检测器。因此，我们使用空间汇聚的梯度来近似特征图Ack（即第k层中的第c个特征图）对于类别t的重要性：0αck[t] = 10Z0�0m0�0n0∂f(x)[t]∂Ack[m,n]. (4)0这里Z是一个归一化常数，使得αck[i]∈[−1,1]。我们将αk[t]称为模型对于在第k层中提取的各种特征相对于类别t的注意权重。04.2. 注意力可视化0基于推导出的注意权重，我们提出使用[30]的技术来可视化各种模型的注意力图。这种可视化旨在探索模型的注意力是什么样子的，并检查不同模型是否对于相同正确分类的图像展示类似的注意力。因此，它作为我们想法的概念验证。具体而言，我们首先使用相应的模型注意力权重αck[t]来缩放不同的特征图。然后，我们对同一层中的所有特征图进行逐通道求和。之后，我们进行ReLU操作，得到关于标签预测t的注意力图：0Htk = ReLU(�0cαck[t] ∙ Ack). (5)0我们在这里应用ReLU操作来消除注意力图中的负像素，以便我们可以专注于支持性特征，这些特征对所关注的类别具有积极影响。负像素可能代表来自其他类别的特征。我们注意到Htk与第k层的特征图具有相同的空间分辨率。由于不同层和模型的特征图大小不同，我们最终将注意力图双线性插值到与输入图像相同的分辨率，以便进行更好的比较。对于相同的猫图像，图1显示了各种ImageNet分类器关于猫的注意力热图λ�k||Htk(x′) − Htk(x)||2.(6)λ�k||Htk(x′) − Htk(x)||2,x′k+1 = clipx,ǫ{x′k + ǫ′ sign(∂l(f(x′k), t)∂x)},(8)1: ǫ′ = K2: x′0 = x3: for k = 0 to K − 1 do4:x′k+1 = clipx,ǫ{x′k + ǫ′ sign(∂J(x, x′k, t, f)∂x)}11650预测。我们注意到所有这些模型都正确分类了猫的图像。这证实了我们的假设，即不同的模型在进行正确预测时会展示出类似的注意力。04.3. 关键特征破坏0在获得模型的注意力之后，我们现在可以要求对抗样本不仅误导目标模型的最终决策，还要破坏关键的中间特征。我们将这两个目标结合为一个新的代理攻击目标函数，即方程 (1 )：0最大化 J ( x , x ′ , t, f ) ，其中 J ( x , x ′ ,t, f ) = l ( f ( x ′ ) , t )+0这里 J中的第一项是传统的训练损失（即交叉熵损失），我们最大化它以实现第一个目标。第二项衡量了原始特征输出和损坏对应特征的注意力加权组合之间的距离。它对具有较大注意力权重的特征更倾向于进行大幅度的改变，从而实现第二个目标。λ是一个可调节的权重，用于控制第二项的正则化效果。04.4. 优化算法0将提出的攻击目标函数（方程 ( 6 )）代替方程 ( 3 )中的目标函数后，我们现在可以将可转移对抗样本的制造重新表述为以下优化问题：0最大化 J ( x , x ′ , t, f ) ，其中 J ( x , x ′ ,t, f ) = l ( f ( x ′ ) , t )+0满足 || x ′ − x || p ≤ �. (7)0因此，我们可以自由地应用不同的主干优化算法来获得解决方案。为了公平比较，我们在本文中应用的优化策略与白盒基准 (BIM)相同，它是FGSM的迭代改进。具体来说，BIM将FGSM扩展为每次运行中步长较小的迭代过程：0其中 x ′ 0 = x ，clip x ,� { x ′ } 对生成的图像 x ′进行逐像素的裁剪。因此，它确保 x ′ 保持在种子图像 x 的l ∞ � -邻域内。0算法 1 注意力引导的转移攻击 (ATA)0要求：分类器 f ，攻击目标函数 J （方程 ( 6)），干净图像 x ，以及其真实标签 t 要求：扰动预算 �，迭代次数 K 确保：|| x ′ − x || ∞ ≤ �05: 结束 for 6: 返回 x ′ = x ′K0算法 1总结了我们制造可转移对抗样本的算法。简而言之，它在BIM的优化过程中引入了基于注意力的正则化项。05. 实验0在本节中，我们首先阐明了第 5.1节中的实验设置。然后，我们报告了我们对多种顶级模型的攻击结果，并与许多最先进的基准方法进行了比较，详见第5.2节。随后，我们研究了超参数对攻击成功率的影响，详见第5.3节。最后，我们验证了我们的策略对兼容算法的补充效果，详见第 5.4 节。05.1. 实验设置0我们专注于攻击在ImageNet [ 29]上训练的图像分类器，这是最广泛认可的基于转移的黑盒攻击的基准任务 [ 20 , 4 ]。我们遵循基线方法 [ 41 ]的协议，为了公平比较，策划了实验数据集和目标模型。数据集。我们需要两种类型的数据集来开发和评估我们的攻击。开发数据集是ILSVRC 2012验证数据集 [ 29]，我们在其中调整超参数。用于评估我们的技术的测试数据是NeurIPS 2017对抗竞赛发布的与ImageNet兼容的数据集[ 20]。该测试集包含1000张不包含在原始ImageNet数据集中的图像。因此，它满足在实践中评估攻击算法的泛化能力的要求。目标模型。我们使用未防御和防御模型来检验我们的技术。对于未防御的模型，我们采用多种具有不同架构的顶级模型，包括ResNet V2 [ 12 , 13 ]，Inception V3 [ 35]，Inception V4 [ 34 ]和Inception-ResNet V2 [ 34 ] 2 。02 这些预训练模型都可以在https://github.com/Cadene/pretrained-models.pytorch上公开获取。ResNet V2FGSM14.6%56.3%64.8%66.8%63.1%BIM4.4%53.2%62.0%63.8%54.3%C&W37.7%94.5%96.4%98.5%98.5%JSMA27.2%59.3%65.2%62.1%64.4%TAP9.5%51.2%60.1%55.5%50.3%ATA8.7%52.9%58.3%55.1%49.4%Inception V3FGSM65.7%27.2%70.2%72.9%76.2%BIM76.8%0.01%67.7%70.2%73.6%C&W86.9%24.5%93.5%96.2%96.0%JSMA66.4%22.4%57.2%60.3%68.9%TAP48.2%0.1%24.5%26.3%34.2%ATA47.2%0.1%22.1%25.7%31.9%Inception V4FGSM68.3%67.1%50.3%72.8%76.4%BIM62.1%40.9%0.9%69.1%55.5%C&W86.7%91.7%49.5%93.2%92.9%JSMA70.7%68.9%30.0%65.2%68.9%TAP58.4%27.3%1.8%24.2%51.7%ATA59.9%24.8%0.9%22.1%50.3%Inception-ResNet V2FGSM71.7%69.0%76.5%57.2%78.7%BIM60.4%41.5%51.5%1.2%54.5%C&W85.6%91.7%92.4%49.0%93.5%JSMA55.4%62.7%66.8%50.3%64.9%TAP53.3%25.9%33.2%4.8%48.2%ATA49.8%22.1%30.1%1.2%45.3%ing FGSM [9], BIM [18], C&W [5], and JSMA [25], toshowcase the effectiveness of our algorithm in alleviatingthe overﬁtting issue and improving the transferability ofwhite-box attacks. Since the original C&W implementationcannot strictly meet the l∞ budget, we employ the modiﬁedl∞ version of C&W as introduced by [41], which can ex-plicitly satisfy the l∞ norm constraint. Similar to our strat-egy, TAP [41] boosts adversarial transferability through tworegularization terms and is the state-of-the-art approach un-der this category. Therefore, we also include TAP in thecompeting benchmarks.Metric. We compare different attacks via the top-1 ac-curacy of target models. Accordingly, lower accuracy ofvictim models on the synthesized adversarial samples rep-resents better attack performance.Parameter. We only include the last convolutional layerof the source model in our regularization term based onour preliminary experiments.For fair comparisons, weadopt default parameters as recommended in benchmark ap-proaches and Foolbox [41, 28]. The random noise is sam-pled from a clipped normal distribution with mean 0 andvariance 1.11660攻击 ResNet V2 Inception V3 Inception V4 Inception-ResNet V2 集成模型0无扰动 89.6% 96.4% 97.6% 100% 99.8%0随机噪声 84.5% 91.7% 94.6% 97.8% 98.1%0表1：未受攻击的模型的准确率。第一列显示所使用的源模型，而第一行则说明了远程目标模型。0我们还攻击了相应的集成模型（称为集成模型），其预测是上述所有模型的平均概率输出。对于防御模型，我们采用了多个最先进的对抗训练模型作为远程目标[37,19]，因为对抗训练可以说是迄今为止最有前途和最有效的防御方法[22]。这些对抗训练模型包括对抗训练的InceptionV3（Adv-Inc-v3）、对抗训练的Inception-ResNetV2（Adv-IncRes-v2）、对抗训练的InceptionV3与三个模型（Ens3-Adv-Inc-v3）和四个模型（Ens4-Adv-Inc-v3）的混合样本（Ens4-Adv-Inc-v3）3。基准。我们将我们的攻击性能与三种基准技术进行比较。作为一个天真的基准攻击，我们在相同的范数约束下给干净图像添加高斯噪声，这被称为随机噪声攻击。更重要的是，我们将我们的策略与各种最先进的白盒攻击进行比较，包括FGSM [9]、BIM [18]、C&W [5]和JSMA[25]，以展示我们的算法在减轻过拟合问题和提高白盒攻击的可转移性方面的有效性。由于原始的C&W实现不能严格满足l∞预算，我们采用了由[41]引入的修改后的l∞版本的C&W，它可以明确满足l∞范数约束。与我们的策略类似，TAP[41]通过两个正则化项提高对抗性可转移性，并且是该类别下的最先进方法。因此，我们还将TAP包括在竞争基准中。度量。我们通过目标模型的top-1准确率来比较不同的攻击。因此，受害者模型在合成的对抗样本上的准确率越低，攻击性能越好。参数。根据我们的初步实验，我们只在源模型的最后一个卷积层中包含我们的正则化项。为了公平比较，我们采用了基准方法和Foolbox [41,28]中推荐的默认参数。随机噪声是从均值为0，方差为1的截断正态分布中采样的。03这些模型都可以在https://github.com/tensorflow/models/tree/master/research/adv_imagenet_models上公开获取。Adv-Adv-Ens3-Ens4-Inc-IncRes-Adv-Adv-v3v2Inc-v3Inc-v3FGSM62.1%85.7%77.4%77.8%BIM64.7%82.6%72.3%74.7%ResNetC&W94.0%96.3%92.8%90.5%V2JSMA58.2%80.3%75.2%75.9%TAP49.2%66.5%59.1%56.0%ATA49.2%60.3%57.8%58.2%FGSM72.1%93.6%85.1%86.4%BIM82.4%93.9%88.2%88.5%InceptionC&W93.0%96.4%92.3%90.0%V3JSMA81.4%93.6%89.5%87.4%TAP55.8%68.8%61.3%60.6%ATA54.1%61.3%60.2%60.2%FGSM74.8%93.8%88.1%86.9%BIM71.9%92.9%85.3%85.3%InceptionC&W92.8%94.8%91.9%90.0%V4JSMA70.6%91.7%87.9%88.4%TAP65.3%90.4%83.2%87.3%ATA69.1%89.8%80.9%82.9%FGSM73.9%92.7%86.9%87.3%Inception-BIM70.8%92.9%84.8%86.9%ResNetC&W91.8%94.9%91.9%89.3%V2JSMA72.1%94.9%83.3%84.6%TAP60.5%87.8%81.2%84.3%ATA58.9%85.9%80.9%81.4%(b) ATA11670攻击0表2：在攻击下对抗训练模型的准确率。第一列显示所使用的源模型，而第一行则表示远程目标模型。0根据[41]，我们将扰动预算ε固定为16，对所有方法进行网格搜索以确定我们算法的最佳超参数。在所有实验中，攻击迭代次数K设置为5。正则化权重λ大致平衡了损失函数J（方程（6））中每个项的贡献。05.2. 攻击的可迁移性0在这里，我们研究了我们的攻击对无防御和有防御模型的性能。具体而言，我们首先固定一个源模型，并在该模型上运行我们的算法以生成对抗样本。然后，将生成的样本直接输入源模型和其他不同的模型，以模拟白盒和黑盒设置。我们首先攻击无防御模型，表1报告了结果。我们得出以下观察结果。首先，所有这些模型都具有令人印象深刻的干净准确率，并且对随机噪声具有抵抗力。容量较大的模型通常表现更好。其次，在白盒设置下，BIM是最佳攻击方法。我们的算法与BIM的结果相匹配，并且明显优于其他方法。第三，在黑盒设置下，我们的攻击显著提高了BIM的可迁移性。例如，0(a) 干净的0图3：一个干净的源图像和使用提出的ATA生成的对应的对抗图像。目标模型是InceptionV3。尽管对人类来说扰动是难以察觉的，但它可以成功地欺骗高性能模型。0当将InceptionV3作为源模型时，我们的攻击成功率相对于BIM平均提高了40.4%。此外，我们击败了除TAP之外的所有其他基准方法，只有两种情况稍微落后于TAP。我们注意到TAP使用了两个正则化项，一个用于最大化内部特征距离，另一个用于平滑生成的扰动。相反，我们的方法只应用一个正则化项来最大化加权内部特征距离，在几乎所有情况下都优于TAP。接下来，我们攻击通过对抗训练进行防御的模型。为了与基线方法[41]进行公平比较，我们仍然使用无防御模型作为本地源模型。因此，我们在源模型和目标模型具有更不同特性的更具挑战性的黑盒场景中进行了探索。我们在表2中呈现了结果。我们得出以下结论。首先，我们始终大幅提高了BIM的可迁移性。例如，当将InceptionV3作为源模型时，我们将BIM的攻击成功率平均提高了29.3%。其次，我们的ATA在除两种情况外明显优于所有其他基准方法，只有稍微落后于TAP。图3显示了我们的攻击对InceptionV3生成的一个对抗图像。我们注意到对干净图像的推导操作几乎不可见。这证实了我们的攻击是隐蔽的。05.3. 超参数对攻击成功率的影响0正则化权重λ是我们算法中的主要超参数，在这里我们探索它对攻击成功率的影响。具体而言，我们在保持其他参数不变的情况下变化λ以合成对抗样本。与之前的实验类似，我们报告了目标模型在生成的恶意示例上的top-1准确率。TAP58.4%27.3%1.8%24.2%51.7%65.3%90.4%83.2%87.3%TAP+ATA53.6%22.7%0.8%19.8%48.1%57.9%85.3%73.2%72.9%TI5

下载后可阅读完整内容，剩余1页未读，立即下载