黑盒模型对抗性特征攻击：EigenBA在ImageNet、CIFAR-10和WebVision上的攻击效率超越基线

17 浏览量更新于2023-10-25 收藏 590KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15254|黑盒模型的对抗性特征攻击周林军1崔鹏1张星轩1蒋一楠2杨世强11清华大学2中国电子信息工程研究院cuip@tsinghua.edu.cn，zhoulj16@mails.tsinghua.edu.cnxingxuanzhang@hotmail.com，jiangyinan@126.comyangshq@mail.tsinghua.edu.cn摘要黑盒对抗攻击由于其攻击模型几乎没有可用信息以及对查询预算的附加约束而引起了研究的广泛关注提高攻击效率的常用方法是传输在额外数据集上训练的白盒替代模型的梯度信息在本文中，我们处理了一个更实际的设置，其中一个预先训练的白盒模型与网络参数提供了没有额外的训练数据。为了解决白盒模型和黑盒模型之间的模型失配问题我们从理论上证明了每一步扰动的最佳方向与预训练白盒模型的雅可比矩阵的右奇异向量密切相关。在Ima-geNet、CIFAR-10和WebVision上进行的大量实验表明，EigenBA在成功率和攻击效率方面始终显著优于最先进的基线。1. 介绍尽管深度学习发展迅速，但其安全性问题也引起了人们的广泛关注.已经证明，可以在不知道模型的具体实现的情况下，以较小的查询成本成功攻击深度学习模型这种技术被称为黑盒攻击[6，11，19]，近年来被广泛研究，旨在促进机器学习向鲁棒性发展。在以往的研究中，有两种设置与黑盒攻击有关。一种是纯黑盒攻击，除了黑盒模型的输入和输出之外，什么都在这种设置中使用的常用技术是零阶优化[11]，其中通过对不同方向的扰动进行采样并聚合与输出相关的某个损失函数的相对变化另一种设置是基于传输的攻击[10]，其中在额外的训练数据集上训练替代白盒模型，并利用白盒模型的梯度信息来帮助提高攻击黑盒模型的效率。通常，通过利用额外的信息，基于传输的攻击比纯黑盒攻击更有效。但是完全重新训练一个复杂的模型是耗时的，如果没有足够的训练数据，甚至是不可行的。在本文中，我们的目标是一个新的设置转移为基础的策略。考虑到预训练模型的容易获得性，我们假设给出了预训练的白盒模型（即其网络结构和参数），但没有额外的训练数据集可用。换句话说，预先训练的模型在用于黑盒攻击之前不能被修改或微调。然后在这种情况下，我们需要解决的关键挑战是预训练的白盒模型和黑盒模型之间的模型不匹配一个是两个模型的条件概率P（y x）是不同的。这将导致两个模型在梯度方向上的不一致另一个更具挑战性的情况是，白盒和黑盒模型中的在文献中，第一种情况由[2，7，25]部分解决同时，它们要求两个模型的标签集相同，并在攻击时利用预先训练好的模型给出的输出类概率信息。这限制了实际应用，因为在实际应用中，两个模型的标签集完全相同的情况很少见，甚至在更极端的情况下，预训练模型以无监督的方式训练[8]，其中预训练模型中没有标签信息为了解决更广泛场景下的模型失配问题，我们结合白盒攻击和黑盒攻击的思想我们将白盒模型的中间表示到黑盒模型的输出的映射函数看作是一个黑盒函数，并利用黑盒攻击的常见做法对这个黑盒函数进行攻击。同时，从原始输入到中间表示层的映射是预训练的15255|→∉→◦→模型，可以像在白盒设置中一样进行处理。值得注意的是，该想法的合理性取决于预训练白盒模型中中间表示层的泛化能力。这可以通过以前的研究发现来理解，即深度神经网络的下层，即表示学习层可以在不同的数据集或数据分布之间传输[26]。更具体地说，我们提出了一种新的特征黑盒攻击（EigenBA）方法，系统地集成了基于梯度的白盒方法和零阶优化的黑盒方法。从理论上证明了最有效的攻击方法是对白盒模型中原始输入的中间表示层的雅可比矩阵进行奇异值分解，并迭代地用k个最大奇异值对应的右奇异向量扰动输入样本。我们进行了广泛的实验，以评估EigenBA在多种设置中的有效性结果表明，EigenBA在成功率和攻击效率方面可以持续且显着地超越最先进的基线。消融研究表明，只要白盒模型的表征层具有适度的泛化能力，EigenBA2. 相关作品白盒攻击需要知道被攻击模型的所有信息。白盒攻击作为对抗性攻击中最早的研究领域，已经有了大量的文献，我们在这一部分只对抗性的例子首先由[23]提出。他们发现在原始样本中加入一些特定的小扰动可能会导致神经网络的分类错误，[4]进一步将这种现象解释为神经网络在高维空间中的线性行为。随后，提出了几种算法来找到具有高成功率和效率的对抗性示例经典的一阶攻击算法包括FGSM [4]、JSMA [21]、CW攻击[1]、PGD [16]。这些方法的共同原理是迭代地利用特定损失函数相对于神经网络输入具体来说，每次迭代的扰动方向由梯度的特定变换确定。黑箱攻击黑箱攻击处理的是被攻击模型未知的情况，获取黑箱模型信息的唯一途径是用输入迭代查询模型的输出。因此，黑箱模型的效率评估包括三个方面：成功率、查询次数以及对原始样本的扰动的l2或l∞范数。黑箱战术可以分为两类：利用梯度估计的黑盒攻击和利用替代网络的黑盒攻击[19]。前者使用一种称为零阶优化的技术。典型的工作包括NES [11]，Bandits-TD [12]，LF-BA [5]，SimBA [6]。这些文件的想法是估计梯度采样。最近，一些工作将该问题视为黑箱优化，并提出了几种算法来找到最佳扰动，例如，[19]使用子模块优化方法，[22]使用baking优化方法和[18]使用进化算法。后者利用白盒替代网络来帮助攻击黑模型。替代网络既可以在额外的样本上训练，也可以从预先训练的模型中训练，前者包括替代训练[20] ， AutoZOOM [24] ， TREMBA [10] ， NAttack[15]，后者包括P-RGF [2]，Subspace Attack [7]，TIMI[3]和LeBA [25]。这些基于传输的方法的效率如果两个网络之间的模型失配严重，则基于转移的方法可能会低于具有梯度估计的方法我们的工作遵循后一种设置，但在更广泛的应用场景中，我们甚至可以处理白盒预训练模型中只有表示层信息可用的情况3. 模型3.1. 问题公式化假设我们有一个输入样本xRn和一个黑色模型F：Rn[0，1]cb，用未知参数的输出概率pF（y x）分类cb黑盒攻击的一般目标是找到一个小的扰动δ，使得预测argmaxF（x+δ）=ytrue，其中ytrue是对应x的真标签。基于分数的黑盒攻击的一个常见做法是在给定输入的情况下，迭代地查询输出概率向量，并添加一个演化扰动。三个指标用于反映攻击算法的效率：攻击一个样本的平均查询次数、成功率和平均l ~2-范数或l~ ∞-范数扰动（即. e. ||δ||2或||δ||∞）。我们提出了一种新的设置基于传输的黑盒攻击。我们进一步假设存在白盒模型G（x）=gh（x），其中h：Rn Rm将原始输入映射到低维表示空间，g：Rm[0，1]cw将表示空间映射到输出分类概率，cw是关于G的类的数量。分类器F和G的原始类可以相同或不同。 g和h的参数是已知的，但是不允许通过附加的训练样本来进一步调整我们的目标是利用G来增强15256M|||···◦∇---Jδ1δi···|| |||| ||···∇y···→在给定输入的情况下攻击黑模型F的效率. 即减少黑盒模型由方向导数的定义给出X在相同的扰动范数下。Σ。gΣz[g- 是的·Ablli，3.2. EigenBA算法i=1阿斯特尔岛z（三）3.2.1总框架其中一个主要挑战是白盒预训练模型G可能显示出与实际攻击模型F的模型不匹配。即使具有相同的输出类，概率pG（y x）也可能不同于pF（y x）。因此，基于白盒方法直接攻击pG（y x）可能在F上不起作用，更不用说不同的输出类情况了。但是，受益于深度神经网络的泛化能力，如果两个模型的分类任务是相关的，G的表示层有一个对F的输出类具有一定的预测能力。形式上，按照3.1节中的符号G=gh，黑盒模型F可以近似为gh，其中h是l1，l2，···，lma reor tho gona l.为了完全反映g的梯度，我们可以迭代地将z的扰动方向设置为任意正交基群l∈1，l∈2，，lm，总共使用m个样本每次迭代。然而，对于黑盒攻击效率，存在一组最优基，这将在下一节中介绍。3.2.2转移黑箱攻击在本节中，我们将介绍我们的EigenBA算法，以最大限度地提高攻击效率。核心问题是在相同的条件下，扰动范数||δ||并减少查询次数，编码器的白盒模型G，和g：Rm[0，1]cb是一个新的映射函数，来自G到被攻击模型F的输出。由于存在一个最优目标函数，但我们不知道它的具体实现，因此函数g可以看作是一个新的黑箱目标。为了表示方便，我们记F=gh作为以下分析中的假设。因此，黑箱攻击可以重新表述为：最小pF（y|x+δ）minpgh（y|x+δ）S.T.||δ||2≤ρ2迭代我们首先考虑在表示空间上寻找正交基，通过在原始输入空间上的微扰方向上的搜索来最大化表示的相对具体地，考虑由下式给出的表示空间中的变化的一阶近似：δi=Jh（x）δi（4）其中δi是原始输入空间上的扰动，δ δ（一）在本文中，我们只考虑l2攻击。利用梯度下降法迭代地找到最优扰动由xt+1=xt<$x[F（x;θ）y]给出。由于黑箱模型中x[F（x;θ）y]是未知的，我们需要通过对一些扰动进行采样并聚集输出的相对变化来估计它。注意到查询号在黑盒攻击中也很重要，将攻击效率测量为在相同DP/||δ||每次迭代为2，其中dp= |pF（y|x + δ）− pF（y|x）|.具体地，定义z=h（x），梯度可以分解为：<$x[F（x;θ）y]=Jh（x）T<$z[g<$（z;θ<$）y]（2）其中Jh（x）是m×n雅可比矩阵<$（z1，z2，···，zm）表示空间的变化为πi，最优扰动可以被看作是解决以下迭代问题：（P-1）Max||Jδ1||2s. t.||δ1||2≤ϵ（P-2）Max||Jδi||2s. t.||δi||2≤10，δTJTJδi=0或allji，i>1（五）其中Jh（x）被简化为J。我们迭代求解δ1 ，δ2，，δm的问题。这样，第一个约束保证了相对l2-范数从原始空间到表示空间的变化，即，e. δi2/δi2达到最大值，并且第二约束确保表示空间上的变化是正交的。定理1（P1）和（P2）给出的问题的最优解δ1，δ2，···，δm为特征向量相对于n（x1，x2，，xn）h，下标y表示第y个对应于JTJ的前m个特征值。g的输出的分量。因为h是白盒函数，我们可以得到Jh（x）的精确值。相比之下，g是一个黑盒函数，我们需要估计梯度z[g<$（z;θ<$）]y通过采样。就像下面的等式一样证明见附录1.1。因此，如果我们迭代-将扰动按顺序采样到δ1、δ2、δm，一步实际扰动x[F（x;θ）y]可由方程2和方程3近似。15257◦····|−····|····K..|···12···K···|由于特征值的尾部可能很小，即，表示空间的扰动范数可能对具有相应特征向量方向的原始输入空间上的扰动不敏感。为了在不牺牲攻击效率的情况下减少查询次数，我们只保留了前K个扰动用于探索，δ1，δ2，，δK。通过对雅可比矩阵J进行截断奇异值分解（SVD），可以快速计算出J T J的特征向量，只保留前K个分量。从上面的讨论中，我们证明了我们找到的基组在相同的输入扰动范数下使表示空间上的变化最大化。其次，我们将结论推广到输出空间上的变化。下面的定理保证，通过对（P1）和（P2）给出的最优扰动进行严格的证明见附录1.2。定理2（本征扰动的性质）假定g的梯度没有先验信息（实际梯度的方向均匀分布在单位半径的m维球的表面上）。给定用于每次迭代的查询预算K，扰动算法1无目标攻击的特征BA算法输入：目标黑盒模型F，替代模型 G=g h，输入x及其标号y，步长α，奇异值K。输出：输入δ上的扰动。1：设δ = 0，p = pF（y1，y2，，ycbx），succ= 0.2：whilesucc=0do3：计算雅可比矩阵w.r.t.h：J=Jh（x+δ）。4：过程截断奇异值分解作为trunc-svd（J，K）为U，V，T。5：归一化V的每一列：qi= normalize（V[：，i]）。6：对于i=1···K，7：pneg=pF（y1，，ycbclip（x+δ α qi））//clip（）用于输入的有效性8：如果pneg，ypy，则<9：δ=clip（x+δ−α·qi）−x10：p=p阴性//负方向会降低概率。11：其他12：ppos=pF（y1，ycbclip（x+δ+α qi））13：如果ppos，ypy，则<14：δ=clip（x+δ+α·qi）−x15：p=ppos在表示空间和相应的扰动，问题（P1）和（P2）求解的输入空间上的函数δ1，δ2，，δK在探索表示空间上的K个正交扰动向量的任何选择中是最有效的。具体地，对于θ[gθ（z;θ）]的最终一步梯度为//正方向会降低概率。16：如果结束17：如果结束18：如果py maxy′py′，则估算方法：z[gΣi=1g阿斯图里亚斯岛zz y·⃗liΣ19：成功=1折断;20：如果结束21：结束二十二： end while第23章：意外在所有情况下，当输入空间的l2范数相同时，输出概率dPF（yx）的期望变化都达到最大.3.2.3查询号码另一个重要的改进是受到SimBA [6]的启发（参见附录5中的算法2）。SimBA不是在处理一步梯度下降之前通过探索一系列方向导数来估计梯度，而是通过选择随机正交方向并根据哪种操作会降低输出概率来添加或减去主要区别在于，SimBA通过使用相对模糊的梯度估计来追求更少的查询。SimBA不关心方向导数的绝对值，而只关心正或负。这样，正交基的扰动用于探索真实梯度的方法也有助于降低输出概率。受SimBA的启发，我们将他们随机选取的基或DCT基替换为我们的正交基δ1，δ2，δK，由解决问题五、我们的EigenBA算法的整个过程如算法1所示。考虑到时间效率，对于每一个循环，我们对该循环的输入初始状态计算一次奇异值分解，并以相应的K个特征向量作为扰动进行K步方向导数探索。The idea ofSimBA significantly reduces the number of queries, asshown in [6].此外，对于我们的EigenBA算法的复杂度分析和一些技巧，以降低时间复杂度，我们请读者参考附录2。.15258√·||||±·∇||4. 实验4.1. 设置在基于转移的黑盒攻击的实际场景中，存在两个主要的模型失配来源：被攻击的模型在模型架构或输出类（或两者）上不同于预先训练的模型。因此，在实验部分，我们将从两个方面来评估我们的EigenBA算法对于第一组实验，我们使用在ImageNet上训练的ResNet- 18[9]作为固定的白盒预训练模型，攻击模型是在ImageNet的相同训练数据集上训练的ResNet-50或Inception- v3。被攻击的图像是从ImageNet验证集中随机抽样的，这些图像最初被正确分类，以避免人为夸大成功率。对于所有基线，我们使用同一组受攻击的图像。对于第二组实验，我们展示了两种不同的情况。一个相当简单的情况是使用在CIFAR-100 [13]上训练的ResNet-18作为白盒模型，而被攻击的模型是在CIFAR-10 [13]上训练的ResNet-18。更复杂的是使用在ImageNet上训练的ResNet-18来攻击在WebVision2.0上训练的ResNet-50。WebVision2.0包含来自5,000个不同视觉概念的 1600 万个训练图像其中1,000 个概念与ImageNet重叠，但图像是从ImageNet的不同来源中选择的，其他4,000个概念是新添加的。为了显示输出类的差异，为了简单起见，我们从非重叠的4,000个类中随机选择包含1,000个类的子集被攻击的模型仅限于对挑选的1，000个类进行分类。我们选择攻击在WebVision数据集上训练的模型的原因是，关于WebVision超过查询限制将被视为不成功的攻击。每个设置有1,000个图像要攻击。我们从4个指标评估我们的算法和所有基线：仅成功样本的平均查询次数、所有被攻击图像的平均查询次数、成功率和成功样本的平均l2-范数扰动。我们将EigenBA与几个基线进行比较。尽管我们的l2攻击设置，我们也测试了一些国家的最先进的基线为l∞攻击，作为l2范数||δ||2是由dim（δ） δ∞有界的，l∞攻击的算法也可以适用于l2攻击.基线算法可以分为分成两个分支。其中一个分支是没有附加信息的常见黑盒攻击，我们比较了几种最先进的算法，包括SimBA [6] ， SimBA-DCT [6] 和吝啬黑盒攻击（ParsiBA）[19]。通过与这些方法进行比较来解释的主要问题是，显示探索由具有轻微分布偏移的预训练模型提供的表示空间比原始输入空间或低级图像空间（例如DCT空间）更有效。另一个分支是一些可扩展的一阶白盒攻击方法，可以适应这种设置。我们设计了两个基线：Trans-FGSM和Trans-FGM。两个基线基于快速梯度符号法和快速梯度法[4]。在进行它们时，我们使用与我们的算法相同的预训练白盒模型。两个基线通过从表示空间上的Cartesian基中随机选择来迭代地运行SimBA算法并且输入空间上的扰动的更新规则由下式给出：Trans-FGSM： δt+1=δt±α·sign（xh（xt;ei））这两个数据集的gories有足够的不同，以显示我们的算法的优越性，Trans-FGM：δ 电话+1=δtαxh（xt;ei）||2||2更像是真实的场景模型同样，被攻击的图像也从CIFAR-10或WebVision2.0的验证集的正确分类的图像中随机抽样我们在表1中总结了所有实验的设置。上面的两个设置和下面的两个设置分别说明了上面描述的两种类型的模型不匹配，并对模型上的差异进行了更详细的描述。与以往的黑盒攻击文献一样，我们也对非目标攻击和目标攻击进行了处理。主要区别在于，有针对性的攻击要求模型将对抗样本错误分类到指定的类别，而无针对性的攻击只是使模型错误分类。与非目标攻击相比，目标攻击的目标是增加pF（cx）而不是减少pF（yx），其中c是as- signed类。因此，我们只需要做一个小小的改变，通过将p F（y）代入到算法1，|x）乘−pF（c|X）。对于所有实验，我们将攻击算法限制为ImageNet的10，000次查询，CIFAR-10的2，000次和5，000次其中，ei是所选择的第i个基，并且x_h（x_t;ei）是第i个输出表示值z_i相对于输入x_t的梯度。通过对这两种方法的比较，我们将证明在表示空间上寻找特征向量正交子空间比其他子空间更有效，这与定理2是一致的。值得注意的是，ParsiBA和Trans-FGSM都是针对l∞攻击的。实验设置的更多详细信息见附录2.3。此外，值得注意的是，P-RGF [2]，Subspace Attack[7]和LeBA [25]也可以处理第一种设置，即模型架构的更改。然而，它们利用了比我们更多的来自预训练模型的输出分类概率的信息，导致更有效的攻击，但使用场景更窄。他们的方法不能处理没有分类层的预训练模型（例如，以无监督的方式训练）或预训练模型和被攻击模型之间的不同标签集（即，第二个是我们的实验）。因此15259表1.我们的实验总结：预训练模型和黑盒模型在4个方面的区别。复选标记表示两个模型在相应方面不同。括号中的内容显示了模型的训练数据集。预训练模型被黑盒模型攻击ResNet-18（ImageNet）ResNet-50（ImageNet）ResNet-18（ImageNet）Inception-v3（ImageNet）ResNet-18（CIFAR-100）ResNet-18（CIFAR-10）ResNet-18（ImageNet）ResNet-50（WebVision）模型变量模型类型训练数据标签✓✓ ✓✓ ✓✓ ✓ ✓表2.针对ResNet-50（在ImageNet上训练）的无目标和有目标攻击的结果最大查询数= 10000方法转移非目标针对性Avg.查询（成功）Avg.查询（全部）成功率Avg.L2Avg.查询（成功）Avg.查询（全部）成功率Avg.L2辛巴没有132214170.9893.989576267190.7748.424SimBA-DCT没有8049330.9863.096438754370.8136.612ParsiBA没有99713120.9653.957507568780.6348.422跨FGSM是的5106140.9894.634357348070.8089.484Trans-FGM是的6758430.9823.650356258670.6428.200EigenBA（Ours）是的3835180.9863.622273041400.8067.926在本报告中，我们只采用适用性相同的基准作为我们的公平比较方法。4.2. 更改架构在本节中，我们在表2和表3中显示了攻击ImageNet的主要结果，即表1中显示的前两个设置。我们调整我们的方法和所有基线的超参数步长α，以确保扰动的平均l2范数接近，并比较平均查询和成功率，以便更容易比较。表2显示了在预训练模型ResNet-18和被攻击模型ResNet-50下的无目标攻击和有目标攻击的结果。与没有转移预训练模型的EigenBA算法相比，我们的方法在非目标攻击中最多使用了56%的查询数，在目标攻击中最多使用了76%的查询数，并且达到了相当的成功率，这表明利用较小模型的表示空间比原始像素空间或手动设计的低级DCT空间更有效。此外，一些最先进的方法，例如，SimBA-DCT是利用图像的一般特性而不能推广到其它领域的一种新的DCT算法。相比之下，我们的方法适用于任何具有预训练模型的黑盒通过比较特征BA和Trans-FGM（它比Trans-FGSM更适合于l2结果表明，探索求解问题所产生的特征向量子空间，表3.攻击Inception-v3（在Imagenet上训练）的无目标攻击结果。最大查询数= 10000方法Avg.查询（成功）Avg.查询（全部）成功率Avg.L2辛巴254135330.8675.906SimBA-DCT162521690.9354.245ParsiBA171028290.8656.916跨FGSM96714820.9435.571Trans-FGM95517330.9144.759EigenBA（Ours）96813560.9574.629在表示空间上由5生成的子空间比由随机选择的正交基生成的子空间更有效，这与我们在第3节中的理论反映一致。值得注意的是，Trans-FGM的性能与SimBA-DCT相似甚至更差，这表明基于转移的方法并不一定优于纯黑盒攻击方法，这取决于转移模型提供的表示空间是否足够强大以及算法本身的效率图 1 进一步示出了针对 EigenBA 、 SimBA-DCT 和Trans-FGM的成功率随着查询数量限制的变化而变化。我们可以得出每种攻击方法的1000张攻击图像的查询数量分布。我们的EigenBA算法在查询次数限制相对较小时表现得更好，152601.0非目标0.8针对性0.80.60.40.20.60.40.20.00 2000400060008000 10000询问流动0.00 2000400060008000 10000询问流动图1.攻击ResNet-50（在ImageNet上训练）的固定查询限制的成功率变化将大大降低查询成本。表3显示了在预训练模型ResNet-18和被攻击模型Inception- v3下的无目标攻击结果我们的EigenBA算法在所有基线中仍然表现最好，所有攻击图像的平均查询次数最小，成功率最高，扰动几乎最小，这表明即使预训练模型与攻击模型完全不同，我们的EigenBA算法仍然工作得很好。4.3. 输出类别更困难的设置是，受攻击模型的训练数据集和输出类与预训练模型完全不同，参见表1中的底部两个设置。然而，与ImageNet上的实验类似，我们的EigenBA方法在攻击CIFAR-10时仍然表现最好，使用CIFAR-100 上训练的预训练模型，如表 4 所示，并使用ImageNet上的预训练模型攻击WebVi- sion，如表6所示。对CIFAR-10的攻击，与SimBA-DCT相比，该算法在非目标攻击和目标攻击时分别使用了23%和29%的查询次数，同时获得了更高的成功率。与Trans-FGM相比，比例分别为 73% 和 58% 。此外，在更困难的WebVi- sion数据集上，即使训练数据集、输出类和模型结构都发生了变化，我们的EigenBA算法仍然比SimBA-DCT算法节省了约19%的查询次数相比之下，其他两个转移算法的性能不如纯黑盒攻击。这进一步表明，我们的算法可以更有效地利用预训练模型的信息。总之，即使被转移模型的类别与被攻击模型的类别不同，依靠神经网络强大的泛化能力，被转移网络的表示空间仍然可以得到改善黑盒攻击的效率。同样值得注意的是，我们的EigenBA算法的性能高度依赖于预训练模型对与被攻击模型相关的类别的泛化能力，这在很大程度上归因于预训练模型和被攻击模型的两个训练数据集的相似性由于CIFAR-100和CIFAR-10的关系比ImageNet和WebVision更密切，因此我们的算法在攻击CIFAR-10时表现得更好在下一节中，我们将展示更多的实验证据之间的关系的泛化能力和攻击的效率4.4. 消融研究：泛化能力如何影响攻击效率？从4.2节和4.3节的结果来看，一个有趣的问题是预训练的白盒模型的泛化能力有多强可以帮助提高黑盒攻击的效率。在本节中，我们对这个问题进行了消融研究。在这个实验中，我们将预训练的模型和被攻击的模型设置为在CIFAR-10上训练的相同的ResNet- 18，但将预训练的模型随机设置一定比例的参数为零当参数保留率为1.0时，预训练后的模型与被攻击后的模型完全相同，随着保留率的降低，预训练后的模型泛化能力变弱。将参数的随机部分设置为零也可以被视为改变预先训练好的网络的结构。我们在不同的保留率比率下测试了EigenBA的攻击效率，并将结果与表5中的纯黑盒方法SimBA-DCT进行比较。我们还报告了通过固定最终表示层以下的网络参数，仅用CIFAR- 10的训练数据集重新训练顶级分类器，在不同设置下预训练模型的准确性，这反映了预训练模型的泛化能力。EigenBA（Ours）SimBA-DCTTrans-FGMEigenBA（Ours）SimBA-DCT成功率成功率15261表4.针对ResNet-18的无目标和有目标攻击的结果（在CIFAR-10上训练）。最大查询数= 2000方法转移非目标针对性Avg.查询（成功）Avg.查询（全部）成功率Avg.L2Avg.查询（成功）Avg.查询（全部）成功率Avg.L2辛巴没有4604670.9950.5748178830.9440.782SimBA-DCT没有4264360.9940.5737728300.9530.777跨FGSM是的1111150.9980.6383053100.9970.918Trans-FGM是的1291350.9970.5243694190.9690.747EigenBA（Ours）是的95990.9980.4722412440.9980.692表5.将EigenBA中预训练模型的一定比例的参数设置为零，用于攻击CIFAR-10。方法参数Avg. 查询成功率平均值 l2预训练模型保留率（全部）精度1.0881.0000.45389.19%0.9851.0000.44686.17%EigenBA0.81300.9970.45977.78%0.71950.9990.56069.36%0.63820.9910.76035.36%0.57000.9210.95127.57%SimBA-DCT-4400.9980.575-表6.攻击ResNet-50的无针对性攻击的结果（在WebVision上训练）。最大查询数= 5000方法Avg.查询（成功）Avg.查询（全部）成功率Avg.L2辛巴142916720.9324.306SimBA-DCT89110680.9574.354跨FGSM97317130.8165.125Trans-FGM85313750.8744.402EigenBA（Ours）6798610.9584.406模型结果表明，当保留率大于0.7时，预训练模型有助于提高黑盒攻击的效率（查询次数和平均l2都较低）。当保留率小于0.5时，模型会降低攻击效率。盈亏平衡点可能出现在0.6左右。这表明，即使预训练的模型不能达到被攻击模型的分类精度，它仍然可以提高黑盒攻击的效率，例如。在这个实验中，保留率为0.7的预训练模型在CIFAR-10上的分类率仅为69.36%，大致相当于一个浅层卷积网络[17]，大大低于攻击模型的89.19%。因此，作为现代社会15262神经网络一般具有很强的可移植性[26]，我们的EigenBA算法在实际中具有很强的适用性。5. 结论在本文中，我们处理了一个新的设置为转移的黑盒攻击。攻击者可以利用固定的白盒预训练模型，而无需额外的训练数据，以提高黑盒攻击的效率。为了解决这个问题，我们提出了EigenBA，它迭代地向输入样本添加或减去扰动，使得传递模型的表示空间上的预期变化是与预训练模型的雅可比矩阵的前K个奇异值对应的右奇异向量的方向。实验结果表明，EigenBA算法在非目标攻击和目标攻击中的查询效率均优于现有的基于转移和基于梯度估计的攻击方法，相信该算法在现实世界中的适用性将促进对鲁棒深度学习和深度学习模型间泛化能力的更多研究.6. 确认这项工作得到了国家重点研发计划（2005年）的部分支持。2018AAA0102004）、国家自然科学基金（No.U1936219，62141607）和北京人工智能研究院（BAAI）。15263引用[1] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。2[2] Shuyu Cheng，Yinpeng Dong，Tanyu Pang，Hang Su，and Jun Zhu.用基于转移的先验改进黑盒对抗攻击神经信息处理系统的进展，第10932-10942页，2019年。一、二、五[3] 董银鹏，庞天宇，苏航，朱军。利用平移不变性攻击规避对可转移对抗样本的防御。在IEEE/CVF计算机视觉和模式识别会议论文集，第4312- 4321页2[4] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。二、五[5] Chuan Guo，Jared S Frank，and Kilian Q Weinberger.低频对抗干扰。arXiv预印本arXiv：1809.08758，2018。2[6] Chuan Guo ， Jacob Gardner ， Yurong You ， AndrewGordon Wilson，and Kilian Weinberger.简单的黑盒对抗攻击。在国际机器学习会议上，第2484-2493页，2019年。一、二、四、五[7] Yiwen Guo，Ziang Yan，and Changshui Zhang.亚空间攻击：利用有希望的子空间进行查询高效的黑盒攻击。神经信息处理系统的进展，第3825-3834页，2019年。一、二、五[8] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页，2020年。1[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[10] 黄志超和张彤。基于可转移模型嵌入的黑盒对抗arXiv预印本arXiv：1911.07140，2019。一、二[11] Andrew Ilyas，Logan Engstrom，Anish Athalye和JessyLin。具有有限查询和信息的黑盒对抗攻击在机器学习国际会议上，第2137-2146页一、二[12] Andrew Ilyas，Logan Engstrom，and Aleksander Madry.前科：黑盒对抗攻击与土匪和前科。 arXiv预印本arXiv：1807.07978，2018。2[13] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 5[14] Wen Li，Limin Wang，Wei Li，Eirikur Agustsson，andLuc Van Gool. Webvision数据库：从网络数据中进行可视化学习和理解。arXiv预印本arXiv：1708.02862，2017。5[15] Yandong Li，Lijun Li，Ligiang Wang，Tong Zhang，andBo-qing Gong.Nattack：学习对抗性示例的分布，在机器学习国际会议上，第3866-3876页2[16] AleksanderMadry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。 arXiv 预印本 arXiv ：1706.06083，2017。2[17] Mark D McDonnell和Tony Vladusich。使用快速学习的浅层卷积神经网络增强图像分类2015年国际神经网络联合会议（IJCNN），第1-7页IEEE，2015年。8[18] Laurent Meunier，Jamal Atif，and Olivier Teytaud. 另一种更有效的黑盒对抗攻击：平铺和进化策略。arXiv预印本arXiv：1910.02244，2019。2[19] 文承景高安宋贤伍通过有效组合优化的简约黑盒对抗攻击在机器学习国际会议上，第4636-4645页一、二、五[20] Nicolas Papernot、Patrick McDaniel、Ian Goodfellow、Somesh Jha、Z Berkay Celik和Ananthram Swami。针对机器学习的实用2017年ACM亚洲计算机和通信安全会议，第506-519页，2017年。2[21] Nicolas Papernot、Patrick McDaniel、Somesh Jha、MattFredrikson、Z Berkay Celik和Ananthram Swami。深度学习在对抗环境中的局限性在2016年IEEE欧洲安全和隐私研讨会（EuroSP），第372-387页IEEE，2016. 2[22] Binxin Ru，Adam Cobb，Arno Blaas，and Yarin Gal.贝叶斯选择对抗攻击。在2020年国际学习代表会议上。2[23] Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna 、 Dumitru Erhan 、 Ian Goodfellow 和 RobFergus。神经网络的有趣特性。arXiv预印本arXiv：1312.6199，2013。2[24] Chun-Chen Tu，Paishun Ting，

下载后可阅读完整内容，剩余1页未读，立即下载