白盒和可迁移黑盒攻击：评估和增强攻击强度

130 浏览量更新于2023-10-24 收藏 12.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

150850研究前k个白盒和可迁移黑盒攻击0张超宁，Philipp Benz，Adil Karjauv，Jae Won Cho，Kang Zhang，In So Kweon韩国科学技术高等研究院（KAIST）chaoningzhang1990@gmail.com0摘要0现有研究已经确定了顶级1的攻击成功率（ASR）作为评估攻击强度的指标的局限性，但仅在白盒环境中进行了研究，而我们的工作将其扩展到更实际的黑盒环境：可迁移攻击。广泛报道了更强的I-FGSM传递性比简单的FGSM更差，导致一种普遍的观点认为可迁移性与白盒攻击强度相矛盾。我们的工作通过实证发现挑战了这种观点，更强的攻击实际上在攻击后的一般top-kASR（通过兴趣类别排名（ICR）表示）方面传递得更好。为了增加攻击强度，通过对几何角度的对数梯度进行直观分析，我们确定常用损失函数的弱点在于优先考虑欺骗网络的速度而不是最大化其强度。为此，我们提出了一种新的归一化交叉熵损失，它指导对数梯度朝着从真实类别隐式最大化其排名距离的方向进行更新。在各种设置下的广泛结果验证了我们提出的新损失对于top-k攻击来说简单而有效。代码可在以下链接找到：https://bit.ly/3uCiomP01. 引言0深度神经网络（DNN）广为人知地容易受到对抗性样本的攻击[15, 16, 39,43]，这些样本是通过向自然图像添加难以察觉或准难以察觉的扰动来制作的。这一有趣的现象激发了对模型鲁棒性的研究领域的活跃研究[30, 32, 36,40]。对抗性样本的一个有趣特性是从一个（替代）模型到另一个（目标）模型的广为人知的可传递性[12,25]。这一特性已被利用于可迁移的黑盒攻击以及增强基于查询的黑盒攻击[19]。广泛报道了I-FGSM增加了FGSM的攻击强度，但以较低的传递率为代价。这导致了一种普遍的观点，即攻击的白盒强度与其可迁移性相矛盾[22]。I-FGSM的较低传递率通常归因于猜想-0长迭代次数导致过拟合到替代模型的说法是正确的[6,22]。部分原因是出于这种担忧，现有的可迁移攻击研究通常采用有限的迭代次数T，通常设置为ϵ/α，其中ϵ和α分别是最大的L∞预算和步长。相比之下，我们展示了这种现象至少部分上可以通过I-FGSM的较低扰动幅度和更大的T来解释，最终在足够大的T下超越FGSM，提高了可迁移性。我们进一步证明，与现有技术相辅相成，增加T一致地增强了可迁移性，然后饱和到一个平台。0传统上，攻击成功率（ASR），也称为愚弄比率（FR），通常用于评估白盒攻击的强度和黑盒攻击的可迁移性。然而，ASR不能提供攻击强度的深入指示。实质上，ASR只表示一个兴趣类别，在非目标或目标设置中的真实类别，在对抗性示例中排名前1。了解ASR@k，即从前1到前k的情况，对于广泛范围的攻击强度评估非常有趣。为此，我们引入了一个新的指标称为兴趣类别排名（ICR），它便于进行ASR@k评估，并且更重要的是构成了一个单一的统一值，指示了top-k攻击强度。0增加T可以增强top-k对抗强度和可转移性，这表明top-k攻击强度也是可转移的。然而，仅仅增加T并不足以导致强大的top-k攻击。我们确定原因在于常用的交叉熵（CE）损失或C&W损失，它们优先考虑欺骗网络的速度而不是最大化与兴趣（真实）类别的距离。为此，我们提出了相对交叉熵（RCE）损失来增强更强的top-k攻击。我们的新损失在白盒攻击中实现了接近最优的top-k强度，比现有损失优势明显，从而导致更强的top-k可转移攻击。0贡献。我们的工作是首次尝试top-k可转移攻击的任务。这个任务的一个主要障碍是对强度和可转移性的普遍信念，150860我们通过展示增加T可以增强两者，并且top-k攻击强度是可转移的来挑战。我们确定现有损失的局限性，并提出一种新的损失来实现在白盒和可转移的黑盒设置中实现强大的top-k攻击。我们广泛验证了其在多个数据集上评估对抗性示例的top-k强度和可转移性的效果。我们提出的ICR指标也为非目标和目标设置提供了统一的视角。02. 相关工作0超越攻击成功率。尽管攻击成功率（ASR）是评估攻击强度的常用指标，但其局限性在于它只显示攻击后兴趣类别（在典型的非目标设置中的真实类别）是否排名第一。这个局限性首次在[21]中被注意到。为此，[29]引入了ASR@k（使用不同的术语）。对于给定的k，如果真实类别的排名大于或等于k，则攻击成功。当k大于1时，攻击相对于采用传统的ASR，即ASR@1，作为指标来说更加困难。换句话说，如果在ASR@k下攻击成功，则可以保证它是一个成功的攻击，但反之则不成立。扩展到目标设置，如果兴趣类别（即目标类别）的排名小于给定的k，则攻击成功。当k增加时，非目标和目标设置的任务复杂性分别增加和减少。[9]还提出了其他指标，如旧标签新排名（OLNR），新标签旧排名（NLOR），余弦相似度（CosSim），归一化排名转换（NRT）。与他们的指标相辅相成，我们的工作引入了一个直接的指标，兴趣类别排名（ICR），用于指示攻击后兴趣类别的排名。ICR的一个主要优点是它可以直接转换为任何k的ASR@k。可转移性和黑盒攻击。各种工作已经尝试从不同的角度解释可转移性。例如，[10]将其归因于现代DNN的线性性质的假设，这一假设最近得到了支持，即反向传播更线性地改善了可转移性[11,38]。通过像素交互的角度理解可转移性[37]也已经得到了研究。通过非鲁棒特征的镜头[17]，最近的一项工作[3]表明，通过从替代模型中删除BN可以改善对抗性转移性。尽管转移性的合理性仍然没有完全理解，但这个有趣的属性已经被广泛用于黑盒攻击。早期的研究表明，以直接白盒方式生成的对抗性示例，如香草I-FGSM，具有较低的转移性。发现多个替代模型的集成可以提高转移性。0可转移性 [ 26 , 35 ]但需要更多的计算资源。已经提出了一些免费的技术，例如动量更新 [ 6 ]，输入多样性 [ 41 ] 和平移不变约束 [ 7 ]。[14 , 24 ]已经证明，使用中间级别的攻击对对抗性示例进行微调可以进一步提高可转移性。线性反向传播 [ 11 ] 或平滑反向传播[ 42 ]也被发现可以提高可转移性。大多数关于可转移攻击的研究都集中在非目标设置上，最近的一些工作 [ 18 – 20 ]通过特征空间中的损失优化尝试了目标设置。这通常需要训练额外的类别层次辅助分类器。直接在输出空间中执行损失优化更简单，但往往会降低目标转移性。鉴于交叉熵（CE）损失的梯度消失问题，[ 23 ] 提出了一种基于 Poincar´e球距离的新损失。我们的工作定位。我们的工作是首次针对强大的 top- k 可转移攻击，即增加了一系列 k（包括 k =1）的 ASR- k。对于 top- k攻击，以前的工作只在白盒设置中进行研究。另一方面，研究可转移性的先前工作并不考虑 top-k。有趣的是，我们注意到这两个子问题都归结为增加攻击强度。通过展示攻击强度是可转移的，我们的工作旨在同时实现强大的 top- k 白盒攻击和 top- k可转移攻击。与先前的技术主要通过正则化效果来提高可转移性不同，我们的工作侧重于对抗性强度对可转移性的影响，并试图通过增加白盒攻击强度来改善可转移性。03. 背景和一个普遍的观点0白盒攻击。白盒攻击方法通常假设攻击者完全了解目标模型，即架构和参数 [ 4 , 27 , 33]。为了使对抗扰动不可察觉，扰动通常受到某个允许的扰动预算的限制，或者其 L p 小于某个幅度，即 || v || p ≤ ϵ [33]。在这种约束下，大多数现有的对抗性攻击的目标是最大化某个损失函数 L ( x + v, y )，其中 CE损失被广泛使用。FGSM。Goodfellow 等人提出了 FGSM来生成对抗性示例：X adv = X + ϵsign ( � X J ( X, y true))，其中 X adv 是生成的对抗性示例，X 是被攻击的图像，J是损失函数，y true 是真实标签，ϵ是最大允许的扰动预算，使生成的对抗性示例对人眼来说看起来自然。简单的 FGSM 可以达到相当高的ASR。单步最不可能类别方法（Step-LL）。这种攻击可以被认为是针对非真实标签类别的 FGSM 的新变体 [ 21 ]：150870X adv = X + ϵ sign ( � X J ( X, y LL )) ，其中 y LL = argmin ( h ( X ))，表示基于模型输出的最不可能（LL）类别，即 logit 向量h ( X )。I-FGSM 或 Iter-LL。迭代攻击是在 [ 21 , 22 ]中引入的，通过反复应用 FGSM 或 Step-LL 并使用步长 α来增加 ASR：X adv 0 = X，X adv t +1 = X adv t +αsign ( � X J ( X adv t , y ))。步长 α 通常设置为 ϵ/T，其中T 表示迭代次数，以满足 L ∞ 约束。在 [ 6 , 21 , 22 ]中广泛报道，迭代攻击方法比单步攻击方法（如 FGSM 或step-LL）具有更高的 ASR，但转移成功率较低。例如，在 [22 ]中提到，“特定方法的可转移性与欺骗网络的能力之间可能存在一种反向关系”，这意味着对抗性强度与可转移性相互矛盾。现有的提高可转移性的技术。在流行的研究中引入的大多数技术都起到了正则化的作用。在 [ 48 ]中已经证明，添加正则化项可以显著提高可转移性。这在概念上类似于在模型训练中使用正则化来避免过拟合，即略微降低训练准确性以提高测试准确性。其他研究还引入了其他隐式正则化技术，例如带有动量的梯度更新 [ 6 ]：0gadvt+1 = µga0Xadvt+1 = Xadvt + αsign(gadvt+1).(1)0其中µ表示动量权重，通常设置为1。上述技术通常被称为MI-FGSM。I-FGSM的另外两个著名变体是[41]中引入的DI-FGSM和[7]中的TI-FGSM。DI-FGSM表示为：0Xadvt+1 = Xadvt + αsign(�XJ(Tr(Xadvt; p), y))(2)0其中Tr表示以概率p进行的转换。TI-FGSM表示为：0Xadvt+1 = Xadvt + αsign(W * �XJ(Xadvt, y))(3)0其中W是用于平滑梯度的核。实验设置。根据之前的工作[6,7,0[23]，我们在一个包含1000个图像的ImageNet兼容数据集上评估了我们提出的技术。该数据集是在NeurIPS 2017对抗挑战中引入的10并且广泛用于可转移的黑盒攻击。与之前的方法一致，我们将最大扰动幅度设置为L∞ =16/255。α和T对传递率的影响。常常认为FGSM更具传递性的现象归因于01 https://github.com/rwightman/pytorch-nips2017- adversarial0迭代攻击方法往往过度拟合替代模型[6,22]，但是尚不清楚哪个因素主要导致过度拟合。从技术上讲，I-FGSM和FGSM之间的差异包括两个因素：步长α和迭代次数T。为了解开这个谜团，我们分析了α和T对传递率的影响。结果如图1所示。我们有两个主要观察结果：（a）在固定α的情况下，增加T会增强传递率；（b）在固定T的情况下，增加α会显著提升传递率，特别是当T不足够大时。结果表明，导致I-FGSM过度拟合的因素是α而不是T。我们发现，在迭代次数足够大的情况下，I-FGSM的传递性优于FGSM。我们在图2中的不同设置中报告了类似的现象。与L2范数的相关性。为什么增加α和T会增强传递性？我们发现扰动的L2范数与传递性相关。图1中的结果显示，在I-FGSM的设置中，传递率与L2范数（L1范数也有类似趋势）之间存在高度正相关。然而，L2不是唯一的影响因素，否则I-FGSM永远无法超越FGSM的传递性。04. top-k攻击和ICR指标0兴趣类别排名。使用top-k指标，即ASR@k，k的取值没有限制，因此我们还引入了一个新的指标叫做兴趣类别排名（ICR），直接表示攻击后兴趣类别的排名。注意，对于任何样本，根据ICR的值，我们可以轻松判断在任何给定的k下是否攻击成功。例如，在非定向设置中，如果ICR为20，则当ASR@k中的k设置为10（10 ICR）时攻击失败。因此，不需要枚举所有的k，ICR通过一个单一的值就能表示全谱的top-k攻击强度。注意，ICR可以用于攻击设置，其中较大的ICR表示非定向设置中攻击更强，定向设置中攻击更弱。我们强调ICR等同于ASR@k，因为ICR可以轻松转换为任何k的top-k。top-k攻击强度是可转移的。以ICR作为指标，我们研究了替代模型和目标模型之间的新排名，即top-k对抗强度是否可转移。通过分析单个样本，我们观察到替代模型上的较高ICR也会导致目标模型上的较高ICR，表明top-k对抗强度是可转移的。在1000个样本上进行平均，我们展示了不同α和T下的ICR结果，如图3所示。作为对照研究，我们还报告了使用ASR-1指标的相同结果。ICR的整体趋势与ASR相似。例如，增加T或α显著提升了̸��n�r ��h150880图1.使用FGSM（虚线）和I-FGSM（实线）在源网络ResNet50（RN50）和各种黑盒模型上的转移性结果（最左边）。当黑盒模型为VGG16时，不同步长（α）的性能（第二个左边）。扰动的L1（第三个左边）和L2（第四个左边）范数随迭代的变化。L1范数是在所有像素维度上计算的，作为它们绝对值的平均值。0图2. 从左边开始的前三个图：使用MI、DI和TI的非目标转移性。最右边的图：使用MI-DI-TI-FGSM的目标转移性。源网络为ResNet50。0目标模型上的top-k对抗强度。然而，使用ICR指标获得令人满意的性能更具挑战性。当α设置为1/255时，即使经过20次迭代，黑盒平均ICR仅约为15/1000（ImageNet的最大K为1000）。采用更高的α可以加快收敛，然而，最终的ICR仍然只约为40/1000。从上述结果中得出的一个重要结论是，通过增加白盒top-k对抗强度，可能实现强大的黑盒top-k攻击。05. 提升top-k白盒攻击0逻辑向量的一个有趣特性。将逻辑向量定义为DNN分类器的softmax之前的输出，并表示为Z。我们报告了在绝大多数情况下，Z向量中所有值的总和非常接近零的现象。我们在不同数据集上的各种网络上确认了这一现象，包括对抗性示例和自然示例。请参考补充材料，了解有关这一有趣现象的详细结果以及可能的解释。此外，零和现象表明，Z中的逻辑值必须内部连接以满足零和约束。接下来，我们对不同损失函数的梯度方向进行几何说明，其中Z的零和属性将构成一个重要的假设。常见损失函数的梯度方向。损失对于生成对抗性示例的影响在于扰动梯度更新方向。由于网络的极端非线性行为，0通过分析网络输入的梯度直观地推导出损失是困难的。为了缓解这种担忧，我们关注逻辑向量的可行梯度。换句话说，我们假设我们可以直接更新逻辑。诚然，我们认识到直接更新逻辑是不实际的，因为我们只能更新输入扰动。然而，通过反向传播链式法则，对逻辑的最优梯度更新将导致对输入扰动的伪最优更新。在这部分中，我们首先讨论常用损失函数的梯度方向与逻辑向量Z的关系。详细推导可以在补充材料中找到，这里我们呈现主要结果。对于非目标设置，CE、CE（LL）和CW损失相对于Z的导数分别为P-Y gt、YLL-P和Y j-Y gt。P是后softmax概率向量，Y gt、Y LL、Yj（j = arg max i ≠ gt Z（Xadv）i）表示真实的one-hot标签0标签，最不可能的类别和除了真实类别之外最高的类别的梯度，分别是相对CE损失。相对CE损失。接下来，我们提出了用于提升top-k对抗强度的新损失形式，称为相对CE损失或RCE。其公式如下：0RCE（X adv t，y gt）= CE（X adv t，y gt）-10K ≤ K k =1 CE（X adv0(4)由两部分组成，常用的CE和一个标准化部分，对每个类别计算的CE求平均。其对于逻辑向量Z的梯度如下推导：0∂L 0∂Z = 10K - Ygt. (5)∂;∂L; ∂; ∂150890图3. 当α设置为1/255（顶部）和4/255（底部）时，使用ResNet50作为替代（白盒）模型的ICR和ASR。0图4. 损失的logit梯度的几何解释。0在建立常见损失函数的梯度方向和引入我们的损失函数及其相应梯度之后，我们现在提供一个几何视角，以说明所提出的损失函数如何增加top-k对抗强度。简而言之，我们将展示RCE损失的梯度方向将样本推离其真实类别最远。对损失的logit梯度的几何解释。为了说明目的，我们的设置只有三个类别A、B、C。每个类别分别由相应的logit值x、y、z表示。首先，我们假设logit没有约束，因此每个logit是完全独立的。logit空间可以在三维空间中用三个正交轴X、Y和Z表示。之前，我们描述了logit向量Z的零和现象，即logit的和始终非常接近零，对于干净样本和对抗样本都是如此。logit被限制在一个平面上，即x + y + z = 0（法向量为(1, 1,1)），被称为（logit）决策超平面。换句话说，零和约束将3D空间的自由度减少到一个2D平面。我们在图4中可视化了这个2D平面。根据对称假设，类别A、B、C的logit向量的方向可以设定为(2, -1,-1)、(-1, 2, -1)、(-1, -1,2)（具有一定的比例尺）。我们强调向量的比例尺是无关紧要的，只有方向是重要的，这是由于输入梯度处理中的符号函数，即FGSM。值得一提的是，∂L的值之和始终为0。0torZ使得logit的和始终非常接近零，对于干净样本和对抗样本都是如此。logit被限制在一个平面x + y + z = 0上（法向量为(1, 1,1)），被称为（logit）决策超平面。换句话说，零和约束将3D空间的自由度减少到一个2D平面。我们在图4中可视化了这个2D平面。根据对称假设，类别A、B、C的logit向量的方向可以设定为(2, -1, -1)、(-1, 2, -1)、(-1, -1,2)（具有一定的比例尺）。我们强调向量的比例尺是无关紧要的，只有方向是重要的，这是由于输入梯度处理中的符号函数，即FGSM。值得一提的是，∂L的值之和始终为0。0对于上述讨论的三个损失函数，∂Z始终等于零。此外，平面上的所有点都满足x + y + z =0的零和约束。因此，这里的所有讨论都是在决策超平面x +y + z =0上进行的。假设在第t步，样本在决策超平面上的位置为(xt, yt,zt)。不失一般性，我们假设样本位于类别A的区域，且yt >zt，表明样本相对于类别B的logit决策边界更接近。为了便于讨论，我们假设xt = 1，yt = 0.2，zt =-1.2，得到的softmax后的概率向量为P = (0.64, 0.29,0.07)。我们假设样本被正确分类，因此其真实向量为Ygt =(1, 0, 0)。根据上述描述，YLL = (0, 0, 1)，Yj = (0, 1,0)，CE、CW和CE(LL)的计算导数如下所示：0∂Z =0� -0.360.290.070�0∂Z =0� -0.64-0.290.930�0∂Z =0� -1 00�0∂Z =0� -0.660.330.330�0�CE100.00752.90712.35159.52279.530.25CW100.00391.40349.9421.01257.220.40LL99.20491.02490.46888.96306.120.08FDA100.00619.90608.84517.28311.490.06No transformBrightnessContrastGaussian Noiseerated adversarial examples to test whether our loss stillachieves stronger attack under image transformation (seeTable 2). Note that such a setup constitutes testing the ro-bustness of adversarial examples. Please refer to the sup-plementary for a detailed experimental setup.Loss comparison through the lens of temperature.From Figure 4, we observe that CE gradient direction liesbetween that of CW and our loss. Table 1 also shows thatthe performance of CE also lies in between. Here, we showthat CW and our loss can be seen as a special case of CEthrough changing the temperature Te [13]. Te is a non-trivial hyperparameter temperature, i.e. pre-processing toZ = Z/Te as the softmax input, resulting in Pe. This tem-perature scaling method has been widely used for knowl-edge distillation [5, 13] as well as a defense method [31].With the temperature taken into account, the derivative ofthe CE is derived as follows:∂L∂Z =150900通过梯度推导，我们发现CW和CE将样本向类别B移动，而CE(LL)将样本移动到类别C。详细比较显示，CW的梯度方向与A和B之间的决策边界正交。因此直观上，CW损失更倾向于鼓励样本找到最近的决策边界进行跨越。CE也导致梯度方向接近决策边界。相反，我们的RCE损失不明确鼓励样本选择任何决策边界。所有的CW、CE和CE(LL)都有一个共同的特点：logit的更新方向取决于样本在决策超平面上的当前位置。根据样本在决策平面上的位置，CE和CW倾向于将样本移向语义上相近的类别，而CE(LL)损失明确将样本移向语义上较远的类别。在这个例子中，兴趣类别是A，从概念上讲，一个强攻击应该最大化与类别A的语义距离，即更新与兴趣类别logit向量相反的方向。我们的损失的梯度采用了这个方向，无论样本在决策超平面上的位置如何，都将样本远离类别A。由于忽略了当前样本的位置，我们方法的一个缺点是可能导致相对较慢的收敛。经验证实，在非常早期的迭代中，这是一个值得关注的问题，详见补充材料中的相关讨论。0表1.在白盒场景中，RCE损失与其他损失的比较。ICR和OLNR之间的差异是因为数据集中并非所有样本都被正确分类。0非目标准确率 ICR OLNR NLOR NRT CosSim0RCE(我们的) 100.00 1000.00 979.63 570.94 360.23 -0.21 RCE(LL) 100.00 687.36688.72 996.32 354.58 -0.170强大的top-k白盒攻击。在这里，我们将我们的损失与CE、CW、CE(LL)和FDA[9]进行比较。结果如表1所示。除了我们提出的用于评估top-k对抗强度的ICR指标外，我们还报告了其他指标，如OLNR、NLOR、余弦相似度（CosSim）、归一化等级变换（NRT）和ASR，以保证完整性。α和T被设置为4/255和20（除非另有说明）。结果表明，我们的损失在所有指标上都实现了最强的攻击，除了CE(LL)的NLOR。请注意，CE(LL)损失明确地针对LL类，因此预计NLOR会更高。我们进一步进行了一个实验，使用RCE(LL)在NLOR方面取得了996.32的成绩，明显优于CE(LL)。在图像变换下进行更强的top-k攻击。根据[21]，我们对生成的对抗样本应用图像变换，以测试我们的损失是否仍然在图像变换下实现更强的攻击（见表2）。请参阅补充材料以获取详细的实验设置。通过温度来比较损失。从图4中，我们观察到CE梯度方向位于CW和我们的损失之间。表1还显示了CE的性能也处于两者之间。在这里，我们展示了CW和我们的损失可以通过改变温度Te[13]来看作是CE的特殊情况。Te是一个非平凡的超参数温度，即将Z = Z /Te作为softmax输入的预处理，得到Pe。这种温度缩放方法已被广泛用于知识蒸馏[5,13]以及防御方法[31]。考虑到温度，CE的导数如下推导：0表2. 不同损失函数在图像变换下的ICR。0CW 390.00 216.27 185.01 33.18 CE 752.90 488.92 460.19 71.28RCE (我们的) 1000.00 897.85 876.94 201.250Te ( Pe − Y gt ) , (6)0通常，温度Te设置为1。从我们的几何角度来看，Te平衡了鼓励样本越过语义上更接近的类别的决策边界的损失的偏好，即那些具有相对较高logits的类别。较高的Te表示这种偏好的减少。通过将Te作为控制变量，我们揭示了CW损失可以通过将Te设置为较小的值来解释为CE损失的特殊情况。我们提出的RCE损失也可以通过将Te设置为相对较大的值来看作是CE损失的特殊情况。证明见补充材料。从实证上看，我们在表3中展示了温度对攻击强度的影响。结果验证了增加/减少Te会使性能接近RCE/CW损失。06. 强大的top-k可转移攻击0受到top-k对抗强度可转移的发现的启发，我们相信我们的损失也可能导致更强的top-k可转移攻击，因为它实现了最强的白盒攻击。除非另有说明，我们始终采用α = 4 /255。我们将T设置为20和200，分别用于非目标设置和目标设置。非目标设置。结果如表4所示，我们将我们的损失与CE和CW在两个不同的基线上进行比较：基准I-FGSM和MI-DI-TI-FGSM。对于55.5376.89346.74393.98491.71752.90947.48987.93999.601000.0150910表3. CE损失中不同温度值的影响。采用的度量是ICR。0CW Te = 1 / 100 Te = 1 / 8 Te = 1 / 4 Te = 1 / 2 Te = 1 Te = 2 Te = 4 Te = 8 RCE0图5. 在非有针对性设置（顶部行）和有针对性设置（底部行）中，使用ResNet50作为替代模型的ASR@k可转移性。0表4.针对源网络ResNet50的I-FGSM（上）和MI-DI-TI-FGSM（下）攻击的非有针对性可转移性。每个条目表示ICR/非有针对性ASR@1（%）。0RN50 DN121 VGG16bn RN152 MNv2 IncV30CW 390.00/100.00 14.80/76.50 18.59/74.30 24.15/85.60 22.68/75.20 5.49/34.60 CE 752.90/100.00 34.16/75.4040.87/76.40 61.20/85.20 39.21/77.30 7.50/34.80 RCE (Ours) 1000.00/100.00 72.11/75.80 80.86/78.50 144.81/85.6070.39/79.80 13.35/36.800CW 427.49/100.00 77.82/98.10 77.13/97.40 81.67/98.20 84.88/95.60 39.03/76.80 CE 806.85/100.00 220.87/99.30213.77/98.40 249.02/99.40 193.96/98.20 89.93/82.40 RCE (Ours) 999.94/100.00 482.58/99.20 430.97/98.50517.85/99.00 366.30/98.30 141.90/83.000在两个基线模型中，我们的RCE损失远远优于CE损失。图5的顶部行显示，我们的损失也实现了更高的（非有针对性）ASR@k，特别是当k设置为较大值时，使任务更具挑战性。0表5.针对源网络ResNet50的I-FGSM（上）和MI-DI-TI-FGSM（下）攻击的有针对性可转移性。每个条目表示ICR/有针对性ASR@1（%）。0RN50 DN121 VGG16bn RN152 MNv2 IncV30CE 2.52/92.40 320.73/0.50 355.33/0.30 264.20/1.00 345.40/0.00 607.46/0.00 Po-Trip 1.00/100.00236.37/1.60 299.51/1.10 192.63/3.10 309.81/0.50 582.28/0.00 RCE (Ours) 1.02/98.30 161.13/3.90208.61/2.40 108.22/9.90 244.40/1.40 559.95/0.000CE 1.00/100.00 22.19/38.20 45.64/26.50 23.61/41.30 92.72/10.60 245.79/3.40 Po-Trip 1.00/100.0013.84/55.30 40.33/37.20 18.46/53.70 76.37/14.80 215.26/6.70 RCE (Ours) 1.01/98.90 4.51/70.207.76/59.80 3.67/74.00 30.90/27.50 157.35/9.300有针对性设置。表5显示了有针对性设置的结果，其中较小的有针对性ICR表示更好的性能。我们的方法比CE和Po-Trip损失[23]（构成在输出空间中生成扰动的SOTA方法）实现了显著更好的性能。图5的底部行显示，我们的损失还导致更高的有针对性ASR@k，es-0表6.针对源网络ResNet50和DenseNet121的I-FGSM（上）和MI-DI-TI-FGSM（下）攻击的有针对性可转移性。每个条目表示ICR/有针对性ASR@1（%）。0RN50 DN121 VGG16bn RN152 MNv2 IncV30CE 2.07/92.00 1.60/96.00 242.62/2.20 175.88/4.20 258.10/1.60 521.37/0.00 Po-Trip 1.00/99.90 1.00/100.00203.21/5.30 130.12/11.00 230.62/2.10 492.40/0.40 RCE (Ours) 1.02/98.30 1.02/98.50 78.95/16.2044.90/29.00 135.20/5.80 419.23/0.500CE 1.00/100.00 1.00/100.00 15.74/54.90 8.22/66.60 43.16/23.50 119.14/14.90 Po-Trip 1.00/100.001.00/100.00 27.86/48.70 11.08/65.50 53.26/24.20 136.38/14.90 RCE (Ours) 1.01/98.80 1.01/98.802.48/81.70 1.86/86.80 10.21/50.10 59.86/30.700特别是当k设置为1时。例如，从ResNet到VGG16，我们的损失将Po-Trip损失的性能从37.20%提高到59.80%。它还优于另一种在特征空间中生成扰动的方法[19]（59.80% vs.43.5%）。此外，我们的损失还实现了与最近的一项工作[47]相当的有针对性的可转移性，该工作采用了logit损失[43]仅用于最大化有针对性UAP（UAP是欺骗模型大多数图像的扰动[2, 28, 44,45]）。我们进一步通过在源网络ResNet50和DenseNet121上生成对抗性示例来进行集合设置的实验（请参见表6中的结果）。根据[1]，我们还报告了ViTs [8]和MLP-Mixer[34]的性能（请参见补充材料中的结果）。我们观察到我们的RCE损失始终以显著的优势优于现有损失。CIFAR结果。我们还在CI-FAR10（见表7）和CIFAR100（见表8）上进行了实验。在非有针对性和有针对性设置中，趋势与ImageNet上的趋势相似。具有各种内容类型的图像。150920表7.针对CIFAR-10上使用ResNet50训练的源网络的非目标（上）和目标（下）ICR/ASR@1的MI-FGSM攻击。0RN20 RN56 VGG19 DN0CW 6.03/99.70 6.07/99.70 5.04/98.40 6.82/99.60 CE 6.23/99.506.28/99.40 5.24/98.40 6.83/99.20 RCE (Ours) 8.23/99.108.00/99.10 6.80/96.10 8.50/98.700CE 1.11/93.40 1.12/93.20 1.24/87.80 1.05/95.50 Po-Trip1.64/71.10 1.62/68.70 1.77/69.00 1.43/79.80 RCE (Ours)1.08/94.60 1.08/94.30 1.18/89.80 1.03/98.000表8.针对CIFAR-100上使用ResNet50训练的源网络的非目标（上）和目标（下）ICR/ASR@1的MI-FGSM攻击。0RN20 RN56 VGG19 DN0CW 21.57/94.00 22.23/95.80 20.09/91.60 21.62/93.60 CE 24.31/95.1025.24/96.30 24.58/93.70 24.44/96.00 RCE (Ours) 48.32/97.7052.35/97.00 44.05/96.40 45.82/96.300CE 20.74/11.40 18.46/16.20 31.43/13.60 14.52/15.30 Po-Trip23.75/10.40 21.59/13.60 33.24/12.00 17.89/14.40 RCE (Ours)11.46/22.20 10.08/27.50 23.08/17.70 9.54/20.700对深度分类器的对抗攻击是为了添加一个小扰动以改变模型的输出。在这里，我们将这种输出变化视为将样本远离或靠近某个感兴趣的类别，而不考虑原始图像内容。我们的ICR可以用来表示这种一般情况下的攻击强度。由于我们的损失函数与样本位置无关，图像内容本身是无关的。我们的RCE损失在所有设置中都优于CE损失（请参见补充材料中的结果）。07. 讨论0I-FGSM vs. PGD. I-FGSM [22]和PGD[27]本质上是相同的，只是在技术上有所不同。具体而言，I-FGSM将初始扰动初始化为零值，而PGD将其初始化为随机值。PGD的随机初始化允许在攻击失败时进行多次重启。然而，在黑盒设置中，只允许进行一次尝试以进行评估，因此社区坚持使用基于无初始化的I-FGSM的攻击进行可转移攻击。这就是为什么我们的实验也基于无初始化的I-FGSM。在白盒设置中，允许多次启动，然而，通过单次运行（无多重启动），我们的损失函数已经实现了100%的ASR@k，即使将k设置为最大的K。顶部k优化与顶部k评估。[46]执行有序的顶部k目标攻击。根据他们的定义，他们的攻击考虑同时攻击多个类别。在这里，我们强调我们的工作并没有执行顶部k优化，因为我们的目标是最大化ICR。0我们的工作不是为了操纵单个类

下载后可阅读完整内容，剩余1页未读，立即下载