鲁棒性增强的顺序注意力模型用于图像分类

127 浏览量更新于2023-10-25 收藏 14.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

194830使用顺序注意力模型进行鲁棒图像分类0Daniel Zoran Mike Chrzanowski Po-Sen Huang Sven Gowal Alex Mott PushmeetKohli DeepMind伦敦，英国0danielzoran@google.com0摘要0在本文中，我们提出了一种通过人类感知启发的注意力模型来增强现代神经网络架构。具体而言，我们通过对抗性训练和分析一个包含人类启发的视觉注意力组件的神经模型，该组件由一个顶部向下的循环顺序过程引导。我们的实验评估揭示了关于这个新模型的鲁棒性和行为的几个显著发现。首先，引入注意力模型显著提高了对抗性鲁棒性，在各种随机目标攻击强度下实现了最先进的ImageNet准确性。其次，我们展示了通过改变模型展开的注意力步骤（凝视/固定）的数量，我们能够使其防御能力更强，即使在更强的攻击下也是如此，从而在攻击者和防御者之间形成了一场“计算竞赛”。最后，我们展示了攻击我们模型生成的一些对抗性样本与传统的对抗性样本非常不同，它们包含来自目标类别的全局、显著和空间连贯的结构，即使对人类来说也是可识别的，并通过将模型的注意力从原始图像的主要对象转移开来起到干扰作用。01. 引言0近年来，深度神经网络模型的使用和应用取得了巨大的进展。从大规模图像分类[20]到语音识别[24]，这些模型的性能不断提高，利用了新的硬件进步、更多的内存和更好的优化策略。然而，这些任务的主导模型范式自从最初的AlexNet论文[30]以来并没有发生显著变化。模型仍然主要以纯前馈的方式构建，交错使用卷积层（通常具有有限支持的小内核）和简单的非线性函数[39]。最近引入的ResNets[21]是我们使用的一些最强大的模型0来源: 钱包目标: 海狸 ResNet-152 250 PGD步骤0top-1: 海狸 top-1: 海狸0S3TA-8（我们的模型） 250 PGD步骤0top-1: 钱包0图1：我们在图像分类中使用顺序自上而下的注意力模型来增强现代神经网络。该模型在PGD攻击下实现了最先进的对抗性鲁棒性，生成的对抗性图像通常是可解释的。左边是一个源图像（标签：钱包）-经过对抗性训练的ResNet-152和我们的模型都能正确分类它。中间和右边是针对每个模型进行的250步PGD攻击生成的对抗性样本（目标类别为海狸）。两个模型都无法防御攻击，并将目标类别预测为它们的top-1输出。然而，ResNet的攻击图像中没有可见的可解释结构，而我们模型的攻击图像包含了一个显著且连贯的海狸头像（在屏幕上放大查看效果最佳）。0目前，这些模型在解决某些任务方面非常成功，但人们对它们的鲁棒性和可靠性提出了担忧[35,48]。对输入进行小的、经过精心选择的扰动，对于人类观察者来说往往是不可察觉的，但可能导致这些模型输出错误的预测并且置信度很高[48]。这种类型的扰动被称为对抗样本[18, 48]，并且是正在进行研究的一个课题[4, 9,55]。当前的神经网络模型范式显然受到了人类和灵长类动物的视觉系统的启发[43]。早期的前身模型直接建立了这种联系，有一系列的工作将这些神经网络模型的激活与大脑中的神经活动联系起来[8]。这些模型之间的相似之处94840生物视觉系统主要应用于早期视觉处理[14]，尤其是在时间有限的情况下进行的前馈处理[14]。这在一些有趣的研究中已经讨论过，包括在对抗性示例的背景下。然而，前馈神经网络和灵长类视觉系统之间存在一些重要的差异。灵长类动物的眼睛有一个中央凹，以不同的空间分辨率对视觉输入场的不同区域进行采样[16]。此外（可能与中央凹紧密相关），该系统具有强大的注意瓶颈，这在许多不同的研究中已经得到研究[44，7]。视觉皮层具有许多反馈和自上而下的递归连接[40]，并不纯粹是前馈的。此外，人类不会将图像视为静态场景，而是通过一系列的扫视/注视来探索图像，从而在这个过程中收集和整合信息[33]。这被认为导致人类报告的分类错误与深度神经网络的错误有质的不同[13]。在这项工作中，我们提出使用一种软、顺序、空间、自上而下的注意机制（我们简称为S3TA）[38]，从灵长类视觉系统中汲取灵感。虽然我们不认为这是一种生物合理的模型，但我们提出这个模型捕捉了视觉皮层的一些功能，即注意瓶颈和顺序、自上而下的控制。我们在ImageNet图像上对模型进行对抗训练，显示它在对抗性攻击（重点是投影梯度下降或PGD[31，35]攻击）方面具有最先进的鲁棒性。我们展示了通过增加展开模型的步骤数，我们能够更好地抵御更强的攻击，从而在攻击者和防御者之间形成了一场“计算竞赛”。最后，但很重要的是，我们展示了生成的对抗性示例通常（虽然不总是）包括全局的、显著的结构，这些结构对人类是可感知和可解释的（图1）。此外，我们还展示了攻击通常试图吸引模型对图像的不同部分的注意力，而不是直接扰动源图像的主要对象。02. 相关工作0对抗训练：对抗训练旨在创建对抗攻击具有鲁棒性的模型。在其核心，诸如[18]和[35]的技术在每个训练步骤中找到最坏情况的对抗性示例（使用快速梯度符号方法或PGD攻击），并将其添加到训练数据中。[35]创建的模型在MNIST和CIFAR-10上被证明在经验上具有鲁棒性。[27]提出使用对抗性对数配对（ALP）来鼓励网络对于干净图像及其对抗性对应物的对数预测相似。然而，ALP的性能较差。0在更强的攻击下[15]。[55]提出了特征去噪网络和对抗训练相结合的方法，在ImageNet上取得了强大的性能[12]。其他方法，如[19]，通过添加不可微分的预处理步骤更明确地实现了梯度混淆。尽管这些梯度掩码技术使基于梯度的攻击失败，但更复杂的对手，如无梯度方法[50，2]，可以规避这些防御措施。循环注意模型：注意机制已广泛应用于许多序列建模问题，如问答[23]，机器翻译[6，51]，视频分类和字幕[45，32]，图像分类和字幕[36，11，17，1，54，59，52，5，56]，文本分类[57，46]，生成模型[41，58，29]，目标跟踪[28]和强化学习[10]。我们基于[38]中介绍的模型构建了我们的模型，并对其进行了适应和修改，以用于ImageNet规模的图像分类。该模型使用了一种类似于[51，41]的软键、查询和值类型的注意机制。然而，该模型不是使用自注意力，其中查询直接来自输入，而是使用由LSTM生成的自上而下的源。此外，注意模型的输出高度压缩，并且除了使用空间基础保留的结构外，没有空间结构。这与自注意力不同，其中每个像素都会关注其他每个像素，因此保留了空间结构。最后，它按时间顺序应用注意力，类似于[56]，但注意机制大不相同。有关完整模型细节，请参见第3节。具有注意力的对抗鲁棒性：已经有一些研究使用注意力来增强对抗攻击的分类器。[34]使用受视觉焦点启发的手动图像裁剪来减少对ImageNet分类准确性的影响。[53]试图通过应用从图像的对抗扰动形式生成的硬掩码来规范分类器的激活。希望使用掩码来遮挡图像的重要部分，以增强对扰动的鲁棒性。最近还表明，“挤压和激励”[26]的自注意力可以帮助分类“自然”对抗性示例[22]。我们在第5.4节对该数据集评估了我们的模型。03. 模型0我们的模型基于[38]提出的强化学习模型，并将其调整为适用于ImageNet规模的图像分类。该模型按顺序查询输入，在每个时间步主动关注相关的空间信息，以改进对正确标签的估计。该模型的两个关键组成部分是模型的顺序性质和自上而下的注意力瓶颈，我们通过实验证明这两个组成部分对其对抗攻击的鲁棒性有贡献。ValuesKeysQueryAttentionMapAnswerstep(t)step(t-1)Innerproduct+ softmaxSpatialBasisClass logitsConcath,wstep(t+1)94850输入图像0LSTM0LSTM0ResNet0�0图2：顺序自上而下的注意力模型的总体视图。输入图像通过ResNet传递，产生键和值张量。我们将一个固定的、预定义的空间基础连接到两者上。从LSTM状态解码出一个查询向量，并在每个空间位置计算它与键向量的内积。然后应用softmax函数来生成注意力图。将此注意力图与值张量逐点相乘，然后对结果进行空间求和，以产生一个答案向量。这个答案向量是此时间步的LSTM的输入。然后将LSTM输出解码为类别logits，以产生分类器的输出。每个时间步可以产生多个查询向量（导致相应数量的答案向量）。0我们简要介绍了模型的重要组成部分，如图2所示。有关完整细节，请参阅[38]和补充材料。模型首先通过“视觉”网络（一个卷积神经网络，这里我们使用了一个修改过的ResNet-152，详见下文）将输入图像传递。我们在所有时间步使用相同的输入图像，因此只需计算一次ResNet的输出。然后，将得到的输出张量沿通道维度分割，以产生一个键张量和一个值张量。对于这两个张量，我们连接一个固定的空间基础张量，该张量使用傅里叶表示法编码空间位置。这个空间基础很重要，因为我们的注意力瓶颈在空间上求和，导致这些张量的空间结构消失，而这个基础可以传递空间位置信息。我们对自上而下的控制器进行多个计算步骤的展开，每个步骤都关注输入并通过控制器处理答案以产生输出（或下一个状态）。自上而下的控制器是一个LSTM核心[25]，其先前状态通过一个“查询网络”（一个MLP）解码为一个或多个查询向量。每个查询向量的通道数与键张量加上空间基础张量的通道数相同。我们在每个空间位置上计算查询向量与键和空间基础张量之间的内积，得到一个注意力logits的单通道映射。我们将这些通过一个0使用空间softmax来生成此查询的注意力图。然后，将得到的注意力图与值张量（和空间基础）逐点相乘。注意，所有通道都使用同一个映射，我们在下面指出了这一点的重要性。将相乘的值张量在空间维度上求和，以产生一个答案向量，每个查询一个。这些答案作为当前时间步的LSTM的输入（如果使用多个答案，则将它们连接起来）。最后，最后一个LSTM输出的输出通过MLP解码为类别logits。使用此输出计算与地面真实类别相关的交叉熵损失。LSTM的初始状态也是可学习的。由于模型是完全可微分的，我们使用对抗训练（如第4.1节和第5节所述）对其进行端到端训练，包括ResNet。在这种情况下，我们的模型的几个重要点如下：0•注意力瓶颈使得模型的决策依赖于图像的潜在大范围。这可能是由于每个时间步的注意力图的形状以及这些图在时间步之间可能发生的显著变化。这应该导致局部对抗扰动[37]的效果较差。我们在第6节中讨论了这一点，并且展示了攻击者通常需要全局扰动才能成功攻击。0•根据上一点，注意力图具有单个通道，可以调制所有值通道。这限制了这些通道的内容在空间上是一致的。在常规的ResNet架构中，最后一个块的输出是通过对每个通道进行独立的平均池化来读取的-这使得网络在信息到达最后一层时可能丢失空间结构。0•为了使空间元素以及注意力瓶颈的影响更加明显，我们修改了ResNet架构，使得最终输出具有更大的空间维度。这是通过将除第二个残差块之外的步幅改为1来实现的。对于ImageNet输入（224×224像素），得到的地图大小为28×28像素（而不是常规ResNet的7×7）。0•注意机制的自上而下的性质使得查询来自LSTM的状态而不是输入。因此，模型可以根据其内部状态主动选择相关信息，而不仅仅是输入。这使得模型在查询图像和生成输出时可以考虑到自己的不确定性。0• 模型的顺序性质允许增加计算能力而不改变参数数量。We deﬁne adversarial risk in the context of supervisedlearning formally in this section.Given a model mθwith parameters θ, we want to minimize the loss ℓ on in-puts x and labels y sampled from the data distribution D.Formally, the objective is to minimize the expected risk:E(x,y)∼D ℓ(mθ(x), y). Empirically, we optimize the empiri-cal risk on a ﬁnite training set and estimate the expected riskover a held-out test set using the average loss.As pointed out in [50], models with low expected risk maystill perform poorly on any data points. In situations wherea single catastrophic failure is not allowable, the empiricalrisk estimate may be problematic. Hence, we also needto consider the worst-case risk for the desired robust mod-els: sup(x,y)∈supp D ℓ(mθ(x), y), where supp D denotes thesupport of D. In practice, computing the supremum over theinput space is intractable as the search space is exponentiallylarge in the dimension of x. We can instead use the localadversarial risk, as a proxy for the worst-case risk:��,(1)�maxx′∈Nǫ(x) ℓ(mθ(x′), y)�.(2)i94860参数。我们在第5节中证明了这有助于鲁棒性。04. 对抗风险0E(x,y)�D0supx'∈N�(x)ℓ(mθ(x'),y)0其中邻域N�(x)表示在x的支持集合supp(D)中距离x固定距离�>0的点的集合，由给定的度量测量。对抗风险使我们能够以可行的方式近似最坏情况风险。例如，我们可以使用现成的优化算法（如PGD [31,35]）找到邻域N�(x)上的最大值。在本文中，我们考虑图像预测应在图像x的ℓ∞-球内保持不变，其中允许的最大扰动是� =16/255，相对于像素强度在0和1之间进行缩放。具体而言，我们专注于ImageNet数据集[12]，并主要考虑以目标为PGD攻击作为威胁模型，其中目标类别是均匀选择的，参考[2,27,55]，鉴于非目标攻击可能导致不太有意义的比较（例如，ImageNet上非常相似的狗品种的错误分类）。04.1. 对抗训练0为了训练对抗攻击鲁棒的模型，我们遵循[35]和最近的[55]的对抗训练方法。根据公式(1)中的对抗风险，我们希望最小化以下鞍点问题：0min θ ρ(θ)，其中ρ(θ)=E(x,y)�D0其中内部最大化问题是找到一个对x进行扰动的对抗性扰动，以最大化损失；外部最小化问题旨在更新模型参数，使得对抗风险ρ(θ)最小化。在我们的实验中，我们使用PGD来近似解决内部最大化问题。具体来说，我们使用迭代有符号梯度的方式对交叉熵损失进行PGD操作，就像[31，55]中描述的那样。在训练过程中，我们使用有目标的PGD攻击，其中目标类别是均匀随机选择的，遵循[27，55]的方法。04.2. 对抗评估0在本文中，我们使用PGD攻击来评估模型，这被认为是社区中的一种强攻击方式，并且有几篇已发表的论文使用它作为基准。在我们无法使用解析梯度或者解析梯度无用的情况下，我们可以使用无梯度优化来近似梯度。使用无梯度方法可以让我们验证模型架构通过梯度混淆来实现的鲁棒性。在这项工作中，我们使用SPSA算法[47]，该算法非常适用于高维优化问题，即使在目标函数存在噪声的情况下也是如此。我们使用[50]中的SPSA公式生成对抗攻击。在SPSA算法中，首先从Rademacher分布（即伯努利±1）中采样出一个批次的n个样本，即v1，...，vn∈{1，-1}D。然后，SPSA算法在随机方向上使用有限差分估计来近似梯度。具体来说，对于第i个样本，估计的梯度gi计算如下：0g i = f(xt + δvi) - f(xt - δvi)0其中δ是扰动大小，xt是第t次迭代的扰动图像，f是要评估的模型。最后，SPSA聚合估计的梯度，并在输入xt上执行投影梯度下降。整个过程迭代一定次数。05. 实验0在本节中，我们在ImageNet数据集[12]上对S3TA的鲁棒性进行了实证研究。为了方便起见，我们将S3TA-k表示为一个展开k个时间步的S3TA模型，并评估S3TA-2、S3TA-4、S3TA-8和S3TA-16。我们遵循[55]中使用的训练过程，包括学习率调度、标签平滑、训练和评估过程中的攻击类型。我们发现，使用稍低的学习率（初始学习率为0.2）和较小的批量大小（1024）对我们的模型更稳定。01请注意，PGD攻击不一定是顺序模型最适合的攻击方法，但由于缺乏更好的选择，我们使用它来进行大量的步骤。94870由于展开的长度较长，训练S3TA-16比其他模型更具挑战性。为了训练它，我们从第35个epoch开始，前35个epoch从第4步读取输出，接下来的35个epoch从第8步读取输出，剩下的训练过程从第16步读取输出。所有模型训练120个epoch。我们在128个Google Cloud TPUv3核心上训练模型。训练时间根据展开步骤的数量在42到70小时之间。我们使用ResNet-152作为模型的视觉网络（参见第3节），除第二个残差块外，将所有步幅设置为1。这导致ResNet输出的空间支持更大（28×28像素）。循环核是一个具有1024个隐藏单元的LSTM，查询网络和输出MLP都是具有1024个单元的单隐藏层。所有使用的激活单元都是ReLU。注意模型在所有实验中都使用4个注意力查询头。05.1. 随机目标攻击0第一组模型是用10个PGD步骤进行对抗性训练的。这些模型通常比使用30个PGD步骤进行训练的模型更弱（见下文），但训练所需的时间和资源较少。图3显示了这些模型在ImageNet测试数据集上在各种随机目标PGD攻击强度下的top-1准确率，与使用10个PGD步骤进行对抗性训练的ResNet-152基线进行比较。在这里，最弱的模型S3TA-2只有两个注意步骤，只有在看到图像之前和处理第一步的答案后才有机会发送两个查询。这强调了注意瓶颈本身而不是模型的顺序性质。可以看到，瓶颈本身已经使模型在ResNet-152基线上有了显著的改进。通过增加注意步骤的数量，我们可以进一步提高对抗性准确性：展开16个步骤（S3TA-16）显著提高了鲁棒性-一个经过10个PGD步骤进行对抗性训练的S3TA-16模型比经过30个PGD步骤进行训练的ResNet-152模型更具鲁棒性（见图4）。这表明在攻击强度和允许模型具有的计算步骤之间存在一种“计算竞赛”。模型的更多计算步骤意味着更好地抵御更强的攻击。超过1000个攻击步骤不会改变情况，因为大多数模型在接近其1000个步骤的性能时饱和。完整的结果，包括攻击成功率和标称准确率，可以在表1和补充材料中找到。现在我们将比较使用30个PGD步骤进行对抗性训练的模型。这些模型通常更强大，并在各种攻击强度下取得良好的鲁棒性结果，但需要大量的资源和时间进行训练。图4显示了使用30个PGD步骤进行对抗性训练的S3TA-16模型与ResNet-152（30个步骤）和DENOISE[55]在ImageNet测试集上的top1准确率。DENOISE是ImageNet上的最新技术，可以看到S3TA-16的性能明显优于这两个模型，创造了新的最新技术。0图3：S3TA-2、4、8和16与ResNet-152在ImageNet测试集上的top1准确率进行对比。所有模型都是用10个PGD步骤进行对抗性训练的。请注意，即使只有2个注意步骤，引入注意模型也显著提高了性能，并且添加更多的步骤（S3TA-16）进一步提高了性能：S3TA-16模型在1000个攻击步骤下比ResNet-152模型在100个攻击步骤下更具鲁棒性。0图4：使用30个PGD步骤进行对抗性训练的S3TA-16模型与ResNet-152（30个步骤）和DENOISE[55]在ImageNet测试集上的top1准确率。DENOISE是ImageNet上的最新技术，可以看到S3TA-16的性能明显优于这两个模型，创造了新的最新技术。016-30模型（“-30”表示训练过程中的30个PGD步骤）与ResNet-152模型和DENOISE[55]进行对比，后者是当前在对抗鲁棒性方面的最新技术。可以看到，S3TA-16在随机目标攻击方面表现出色，超过了这两个模型，创造了新的最新技术。图5显示了到目前为止所有模型的攻击成功率。在评估防御策略时，当模型的标称准确率高且可比较时，测量攻击成功率是有意义的。对于这里介绍的所有模型，这是成立的（见表1）。请注意，这个度量结果也是成立的-更多的注意步骤有助于降低攻击成功率，训练过程中的更多PGD步骤也有助于降低攻击成功率。We have shown that the sequential attention model im-proves robustness against a variety of attacks and attackstrengths. Furthermore, we have seen that we can increaseaccuracy and defend better against stronger attacks by un-rolling the model for more time steps. We now turn toanalyze some of the properties of the resulting attack imagesand strategies.Figure 8 shows several examples of generated adversarialexamples for different attack strengths for an adversariallytrained S3TA model (with 4 unrolling steps) and an adver-sarially trained ResNet-152. We observe that often (but-16/255016/255-16/255016/255l(x; y)0ashcanbobsledcellular telephonechain sawvacuum-16/255016/255-16/255016/255l(x; y)0ashcanbobsledsunglasssunglassesvacuum94880图5：所有模型的攻击成功率（越低越好）。在top1准确率方面观察到的主要效果在这里也成立：更多的注意步骤降低了攻击成功率，训练过程中的更多PGD步骤进一步降低了攻击成功率。S3TA-16-30的攻击成功率明显最低，比DENOISE低约25%，而标称准确率相似（见表1）。0对S3TA-16-30的攻击成功率比DENOISE低约25%（越低越好）。05.2. 无目标和无梯度攻击0文献中的大多数鲁棒性度量是针对有目标、基于梯度的攻击的。然而，只对有目标攻击具有鲁棒性的模型比对无目标攻击具有鲁棒性的模型更弱[15]。在表2中，我们报告了使用200个PGD步骤对S3TA-16-30与ResNet-152、DENOISE和LLR进行无目标攻击的结果[42]。在这种情况下，我们的模型在�= 4 / 255和� = 16 /255的情况下都非常有竞争力。我们还探索了无梯度方法，以确保模型不会混淆梯度[50,3]。具体来说，我们使用批量大小为4096和100次迭代的随机有目标SPSA[50]进行无梯度攻击，攻击强度为� = 16 /255。我们使用SPSA估计的梯度进行迭代有符号梯度[31,55]。在表3中可以看到在1000个随机选择的图像子集上的结果。我们可以观察到，与基于梯度的攻击相比，SPSA不会降低准确性。这提供了额外的证据，证明模型的强大性能不是由于梯度掩盖。由于SPSA的对抗准确性较弱（也就是说，所有模型都比基于梯度的方法更好地进行了防御），模型之间的性能差异并不是非常有信息价值。05.3. 损失景观0另一种确保梯度不被混淆的方法是通过可视化损失景观[42,49]。图6显示了S3TA-4和S3TA-16的损失景观的俯视图。为了可视化损失景观，我们沿着输入方向进行改变。0由PGD找到的最差扰动和一个随机方向定义的线性空间。u和v轴分别表示在这两个方向上添加的扰动的大小，z轴表示损失。对于两个面板，菱形代表了在名义图像周围大小为� =16 /255的L∞球的投影。我们可以观察到，两个损失景观都相当平滑，这提供了额外的证据，证明强大的性能不是由于梯度混淆。05.4. 自然对抗样本0最近一个有趣的数据集是“自然对抗样本”[22]。这个精心策划的数据集由ImageNet的200个类别的自然图像组成。这些图像被选择出来，使得现代图像分类器在没有对图像进行实际修改的情况下，对一个图像进行高置信度的错误分类。这些图像通常包含在不寻常的位置拍摄的对象，从不寻常的角度拍摄的对象，或者以各种方式遮挡或损坏的对象。我们将S3TA-16模型与DENOISE、ResNet基线和原始论文中报告的“Squeeze andexcite”（ResNet+SE）变体进行比较。图7显示了使用论文中使用的度量标准的结果：Top-1准确率、校准误差（衡量每个模型的置信度与其实际错误率之间的差异）和AURRA（允许在给出分类器不自信的预测时计算准确率）。06. 分析0图6：S3TA-4（左）和S3TA-16（右）的损失景观。这些曲面大致是线性的，意味着没有明显的梯度混淆。9489010步 100步 250步 1000步0模型名义准确率 Top-1 攻击成功率 Top-1 攻击成功率 Top-1 攻击成功率 Top-1 攻击成功率0ResNet-152 70.66% 53.48% 7.63% 36.91% 43.48% 32.50% 50.93% 29.5% 55.84%0S3TA-2 72.30% 55.08% 9.06% 40.13% 40.31% 36.56% 46.56% 33.97% 50.40%0S3TA-4 72.48% 56.78% 9.10% 42.54% 39.37% 40.00% 44.33% 37.99% 47.50%0S3TA-8 72.14% 56.02% 9.50% 42.63% 39.06% 40.17% 44.01% 38.48% 47.09%0S3TA-16 72.54% 57.45% 9.33% 44.19% 38.83% 40.71% 44.82% 38.70% 48.16%0ResNet-152-30 63.62% 53.30% 6.56% 39.56% 34.62% 37.56% 38.68% 36.18% 41.37%0DENOISE 66.02% 56.33% 5.00% 45.84% 27.36% 44.19% 30.66% 43.39% 32.54%0S3TA-16-30 64.55% 55.08% 3.79% 47.18% 21.87% 46.65% 23.52% 46.11% 24.91%0表1：所有模型在ImageNet测试集上进行随机目标PGD攻击的完整结果，攻击步数不同。最后三行是使用30个PGD步骤训练的模型，其余是使用10个PGD步骤训练的。0模型 Top-1 � = 4 / 255 Top-1 � = 16 / 2550ResNet-152 39.7% 6.3%0DENOISE [ 55 ] 38.9% 7.5%0LLR [ 42 ] 47.0% 6.1%0S3TA-16 46.75% 9.8%0表2：在200个PGD步骤下的非目标攻击的Top-1准确率。可以看到，我们的模型与现有方法非常有竞争力，尽管没有针对这种特定攻击方法进行优化。0模型 Top-1 攻击成功率0ResNet-152 61.90% 2.20%0DENOISE [ 55 ] 63.70% 1.90%0S3TA-16 59.60% 1.90%0表3：在随机目标SPSA攻击下的Top-1准确率（批量大小为4096，迭代次数为100）。SPSA是一种无梯度方法，可以提供梯度是否被混淆的证据。可以看到，所有模型的表现都相似，考虑到它们在这里的防御能力都比相应的基于梯度的攻击更好（使得实际报告的数字不太具有信息性）。0图7：我们的模型在“自然对抗样本”数据集上的结果。我们的模型在Top-1准确率和AURRA（详见文本）方面均优于ResNet-152和DENOISE。Squeeze andexcite在所有指标上都优于我们的模型。0并非总是如此，见下文）生成的图像包含与目标类别相关的显著结构。然而，尽管这些扰动的性质在最好的情况下是局部的，但对于0对于S3TA来说，与ResNet示例相比，全局、连贯且人类可解释的结构出现。这为我们的模型的内部推理过程提供了一些启示，暗示它在空间上以一种连贯的方式进行全局推理。重要的是要注意，许多情况下，对抗性示例似乎不包含任何显著的结构（即使有许多攻击步骤）。它们在训练模型中间阶段出现得更频繁，在这个阶段，模型已经是一个非常好的分类器，但仍未达到其鲁棒性的巅峰。在训练结束时，生成这些对抗性示例似乎更加困难，可能是作为模型学习的一部分防御策略的一部分。请参阅补充材料，了解在训练中间阶段生成的一些示例，以及更多可见和不可见的扰动图像。了解在什么情况下出现这些示例留待未来研究。06.1. 分散注意力0由于注意力是我们模型的一个重要组成部分，我们可以看到当网络受到攻击并对图像进行错误标记时，它是否起到作用。我们可以可视化每个时间步生成的注意力图，并观察在不同的攻击场景下如何使用注意力。图9显示了用于攻击S3TA-16模型的图像的这种注意力图。注意力叠加在原始图像上-高亮区域比暗区域更受关注。可以看到，攻击可以创建刺激，将一些注意力头从图像的主要对象转移到背景中略微类似目标类别的东西上。07. 结论0本文展示了一种受灵长类视觉系统启发的循环注意力模型，能够在随机目标对抗性攻击方面达到最先进的鲁棒性。允许更多的注意力步骤可以提高Arabian CamelGazelleSource10 PGD Steps100 PGD Steps1000 PGD Steps10000 PGD StepsVolcanoElectric LocomotiveKing SnakeWorm FenceResNet-152S3TAResNet-152S3TASource10 PGD Steps100 PGD Steps1000 PGD Steps10000 PGD StepsGazelleBeagleIndigo BuntingBloodhoundAttention steps Why is it that global structures arise when attacking amodel like this? We postulate that there are two contributingfactors. The attention mechanism pools data from largeparts of the image, which means that the gradients propagatequickly across the whole of the image, and not just locally.Furthermore, because the the model is unrolled for severalsteps, more parts of the image may be potentially attendedto and thus gradients may propagate there. We see evidencefor this in the fact the often the attacker attracts the attention94900图8：通过PGD生成的用于攻击ResNet-152和S3TA-4模型的对抗性图像。源标签显示在左侧，目标标签显示在右侧。源图像位于最左列。我们生成了10、100、1000和10,000个PGD步骤的示例。请注意，对于这里显示的示例，对于两个模型来说，扰动都是相当明显的（考虑到攻击的强度，这并不奇怪）。然而，用于攻击ResNet模型的扰动大多是局部的，最多由与目标类相关的不连续可见特征组成。另一方面，用于攻击S3TA的示例包含全局、连贯和人类可解释的结构。请注意机车（左上角）的三维结构和空间范围，蛇（左下角）在地面上的连贯性，树皮上的骆驼头（右上角）以及猎犬和人的出现（右下角）。这些结构主要在图像中已经存在可以用来形成目标类的特征时出现，并且模型以全局、连贯的方式使用它们。最好在屏幕上放大查看图像。0图9：攻击将注意力从主要对象上吸引开。这里我们看到源图像（左）攻击图像（目标类别血猎犬）以及模型的4个注意力头在16个步骤中展开。其中一些头仍然关注源图像的主要对象，但其中一些头被吸引到背景中的一组树枝上。仔细观察可以发现，这些树枝在攻击图像中类似于一只血猎犬。尽管这种结构对人类来说不太显著，但足以吸引注意力并导致模型错误地标记图像。最好在屏幕上放大查看图像。0在更强的攻击下准确性下降。生成的对抗性示例通常（但并不总是）包含对人类观察者可见和可解释的全局结构。0远离图像中的主要对象，暗示注意力在攻击策略中起着关键作用。0在复杂数据集中实现对抗性鲁棒性仍有待努力。即使是像所提出的模型这样的模型，在攻击者足够强大时仍经常失败，性能与名义准确性相比仍然很低，但在某种程度上，我们可以问一下——如果一幅图像已经被扰动到足够程度，以至于它不再像原始图像，而是看起来像来自目标类的图像，那么它是否仍然是有效的对抗性扰动？像这里提出的模型可能使我们在未来达到这个界限。94910参考文献0[1] Artsiom Ablavatski，Shijian Lu和JianfeiCai。丰富的深度循环视觉注意模型用于多目标识别。在计算机视觉应用（WACV），2017年IEEE冬季会议上，第971-978页。IEEE，2017年。20[2] Anish Athalye，Nicholas Carlini和DavidWagner。模糊的梯度给人一种虚假的安全感：规避对抗性示例的防御。arXiv预印本arXiv:1802.00420，2018年。2，40[3] Anish Athalye, Nicholas Carlini, 和 David Wagner.模糊梯度给出了一种虚假的安全感: 规避对抗样本的防御措施.2018. 60[4] Anish Athalye和Ilya Sutskever. 合成稳健的对抗样本.arXiv预印本arXiv:1707.07397 , 2017. 10[5] Jimmy Ba, Volodymyr Mnih, 和 Koray Kavukcuoglu.多目标识别与视觉注意力. arXiv预印本arXiv:1412.7755 , 2014.20[6] Dzmitry Bahdanau, Kyunghyun Cho, 和 Yoshua Bengio.通过联合学习对齐和翻译

下载后可阅读完整内容，剩余1页未读，立即下载