类激活特征空间中对抗性噪声的消除

189 浏览量更新于2023-10-13 收藏 927KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7878类激活特征空间中对抗性噪声的消除周大伟1，王楠楠1*，彭春雷1，高新波2，王夏宇3，于军4，李同良51西安电子科技大学2重庆邮电大学3香港中文大学（深圳）、4中国科学技术大学5悉尼大学gmail.comxidian.edu.cngaoxb@cqupt.edu.cnsydney.edu.auharryjun@ustc.edu.cnfanghuaxue@gmail.com摘要深度神经网络（DNN）易受对抗性噪声的影响。基于预处理的防御可以通过处理输入在很大程度上消除对抗性噪声。然而，它们通常会受到错误放大效应的影响，特别是在不断发展的攻击面前。为了解决这个问题，在本文中，我们提出通过在类激活特征空间中实现自监督对抗训练机制来去除对抗噪声具体来说，我们首先最大限度地破坏自然示例的类激活特征，以制作对抗示例。然后，我们训练一个去噪模型来最小化类激活特征空间中的对抗性示例和自然示例之间的距离。实证评估表明，我们的方法可以自然的例子PGDFWAAA飞机狗猫狗马鹿鸟猫狗青蛙猫鸟与先前的最先进的方法相比，显著增强了对抗性鲁棒性，特别是针对不可见的对抗性攻击和自适应攻击。1. 介绍深度神经网络（DNN）被认为是对抗性的。对抗性示例通过在自然示例上添加不可感知但对抗性的噪声来恶意制作[11，35，15，23，26，38]。DNN的漏洞对许多决策关键型深度学习应用程序构成了潜在威胁，例如图像处理[21，14，47，33，17，27]和自然语言处理[34]。因此，重要的是找到对抗性噪声的有效防御。以前的研究表明，目标模型的对抗鲁棒性可以通过使用某些变换处理输入来增强[12，7，29，13，23]。然而，基于预处理的防御可能遭受错误放大效应，其中小的残余对抗性噪声*通讯作者图1.类激活图的直观说明实例和对抗性实例。对抗性示例由不同类型的非针对性攻击精心制作，例如，[2019 - 03 - 28][2019 - 03 - 18][2019 - 03 -19][2019 - 03 - 11][2019 - 03 - 19][2019 - 01][2019 - 19][2019 -01] 19 - 01：01虽然对抗性噪声在像素级上是不可感知的，但自然样本和对抗性样本的类激活图之间存在明显的差异在目标模型的内部层中被放大为大扰动，并导致误导性预测[23]。此外，这些基于预处理的方法在看不见的对抗性攻击面前不太有效[39，6，45]，因为它们使用的对抗性示例的对抗性扰动可能不是内部层中的最大值（见第4节）。类激活映射技术[48]给了我们解决这个问题的灵感给定分类网络，类激活映射技术可以通过将输出层的类权重投影回最后的卷积特征并执行加权特征的线性和来识别图像区域的重要性我们发现，尽管对抗性噪声在像素级上是不可感知的，但存在明显的差异7879自然示例的类激活图与现有攻击方法制作的对抗示例之间的差异（见图1）。此外，加权特征位于网络的高级层中，其中小的残余噪声可能导致大的扰动。这促使我们设计一种基于类激活特征的加权特征的防御方法来处理错误放大效应问题。在本文中，我们提出了一种对抗性训练机制，以消除对抗性噪声，利用类激活功能。在高层次上，我们在类激活特征空间中设计了一个最大-最小公式，以自监督的方式学习去噪模型，而无需看到对抗性示例和地面真实标签的类型具体来说，我们首先通过最大限度地破坏自然示例的类激活特征来制作对抗性示例。类激活特征的差异使得对抗样本具有与自然样本不同的预测结果。我们将这种攻击称为基于类激活特征的攻击（CAFA）。然后，我们训练一个去噪模型，即基于类激活特征的去噪器（CAFD），以去除对抗性噪声。我们不是直接利用像素级损失函数来训练我们的模型，而是最小化自然示例和对抗示例的类激活特征之间的最后，引入图像鉴别器，通过增强细微纹理细节，使复原样本更接近自然样本通过这种自我监督的对抗训练，我们的防御方法可以提供更有效的保护，防止与以前的防御相比，看不见的攻击类型和自适应攻击，这在第4.2节中得到了经验验证。此外，在第4.3节中，对消融研究和我们的模型对扰动预算的鲁棒性的额外评估进一步证明了有效的我们的方法。本文的主要贡献如下：• 我们发现，尽管对抗性噪声在像素水平上是不可感知的，但它显著地破坏了自然示例的类激活特征。为此，我们设计了一个基于类激活特征的去噪器（CAFD），通过开发类激活特征来有效地去除对抗性噪声• 提出了一种自监督对抗训练机制来训练去噪器。我们最大限度地破坏自然示例的类激活特征来制作对抗性示例，并使用它们来训练去噪器以进行学习，以最小化类激活特征空间中的自然和对抗性示例之间的距离• 实验结果表明，该方法可以提高对抗性鲁棒性，并且可以在不同的目标模型间进行迁移。特别是与先前的现有技术方法相比，不可见攻击和自适应攻击的成功率本文的其余部分组织如下。在第2节中，我们简要回顾了攻击和防御的相关工作。在第3节中，我们描述了我们的防御方法，并提出了它的实现。不同数据集的实验结果见第4节。最后，我们在第5节总结本文。2. 相关工作攻击：对抗性示例已被证明会错误引导DNN [35]并在不同的目标模型之间转移[25]。它们可以在Lp范数扰动预算下基于该策略的攻击包括快速梯度符号法（FGSM）[11]、基本迭代攻击（BIA）[20]、基于最强一阶信息的投影梯度下降（PGD）方法[28]、Carlini和Wagner（CW）方法[4]、解耦方向和范数（DDN）方法[31]和自动攻击（AA）方法[6]。翻译不变性输入多样性方法（TI-DIM）[9，46]不是在单个点优化目标函数，而是使用一组翻译图像来优化对抗性示例。此外，与不考虑语义或几何信息的这些像素约束攻击不同，空间约束攻击集中于经由几何和空间变换来模仿非可疑破坏行为，例如，快速瓦瑟斯坦攻击（FWA）[39]和空间变换攻击（STA）[45]。防御：对抗性训练（AT）是一种用于防御对抗性噪音的广泛它被描述为通过用对抗性示例扩充训练数据来训练鲁棒模型[28]。例如，防御遮挡攻击（DOA）[41]方法使用由遮挡攻击制作的对抗性示例来增强主干模型的鲁棒性。通道激活抑制（CAS）[2]策略抑制了对抗训练过程中由对抗性扰动激活的冗余激活对抗性训练可以提高目标模型在对抗性示例上的准确性，但它通常不能直接转移到其他模型或任务中。基于预处理的方法处理输入以实现对抗性噪声的鲁棒性。例如，提出了JPEG压缩[13]和总变差最小化（TVM）[13]，以分别去除高频分量和小的局部变化。Jin等人。 [15]提出了APE-G，通过生成对抗网络支持接近自然示例的对抗示例。高级表示引导去噪（HGD）[23]方法被用作预处理步骤7880X−XXPXC·XXXXXXXXXXWx=Σw1，w2，. . . ，wKΣT分别为深层特征和类--ΣΣXXX来消除对抗性噪音。[49]中的方法通过从对抗性噪声中分离攻击不变特征来去除对抗性噪声。与上述方法不同的是，我们结合了对抗训练和预处理的优点，并设计了一种去噪模型，该模型通过最小化自然样本和对抗样本的类激活特征之间的距离来去除对抗噪声。3. 方法3.1. 预赛在本文中，我们的目标是设计一个基于预处理的防御，可以减轻错误放大效应，并提供强大的保护。我们的防御背后的基本直觉是有效地利用DNN的类激活为此，我们设计了一个基于类（CAFD），它学习在类激活特征空间中去除对抗性噪声为了训练我们的CAFD，我们提出了一种自监督对抗训练机制，而不使用已知类型的对抗示例和地面事实标签。如图2所示，训练过程可以被认为是最大-最小公式，并且它被表达为如下：对于给定的自然示例x，令Φx表示从预训练的深度神经网络工作. 我们首先通过最大程度地破坏Φx来制作一个广告示例x~（第3.2节）。然后，在最小化步骤，基于类激活特征的去噪器试图通过最小化Φ x和Φx ~之间的差异来去除对抗性噪声，其中Φx~表示x ~的类激活特征。此外，为了进一步增强恢复示例的精细纹理细节，我们引入了图像鉴别器D来与C进行游戏（第3.3节）。3.2. 制作对抗性例子我们的防御模型以对抗的方式进行训练，而不使用已知类型的对抗性示例和地面事实标签。用于自监督训练的对抗样本通过基于类激活（CAFA）获得。下面，我们首先概述类激活特性和破坏类激活特性的影响。然后，我们描述了CAFA的程序。类激活功能：给定一个预训练的深度神经网络P，类激活映射技术[48]将P的输出层的类权重投影到第k个信道的加权特征是φ k=fkw k，其中w k是对应于类c x的第k个信道的类权重。本质上，w k表示fk对于cx的重要性[48]。通过对所有φk的线性求和，我们可以得到x的一类激活映射。我们将所有K个通道的加权特征命名为类激活特征，其由 φ1，φ2，. . .，φ KT.直观地说，类激活特征可以表示为Φx=Fx·Wx，其中Fx=f1，f2，. . . ，fKT和分别用于所有K个通道的权重类激活功能中断：我们注意到，自然示例的类激活图与现有攻击制作的对抗示例之间存在明显的差异。由于类激活图是类激活特征的线性和，因此差异表明对抗性噪声可能会显著破坏类激活特征。这类似于误差放大效应中描述的现象，即残余的对抗性噪声可能导致目标模型的内部层中的大扰动。我们使用类激活特征来制作对抗性示例的原因是，类激活特征的中断可能直接影响误导目标模型的效果。为了证明这一点，我们进行了一个概念验证实验。我们定义特征距离来测量自然示例x的类激活特征的中断，如下所示：（x，x其中Φx和Φx~是x的类动作特征，并且其附加示例x~是关于值的。δ（）表示L2-范数距离度量。如图3所示，我们实现了三种经典的攻击方法，BIA [20]，PGD [28]和CW [4]。结果表明，欺骗率和特征距离具有相同的变化趋势。这表明对类激活特征的破坏可以直接影响攻击效果。因此，最大化Eq. 1可以制作强大的对抗性示例，并实现有效的防御模型。基于类激活特征的攻击：在此基础上，设计了一种基于类激活特征的攻击方法（CAFD）.我们的方法旨在通过解决以下优化问题来找到类激活特征空间中的强对抗示例max∆（x，x~）=δ（Φx，Φx~），最后的卷积特征并执行加权特征的线性和。具体而言，对于给定的示例x，其类c的预测概率为p（c|X）。cx=x~满足：x−x~∞≤，（二）argmaxcp（c| x）是x的预测类。我们首先使用f k来表示P的最后一个卷积层中第k个通道的x的深度特征。然后，对于类cx，其中ε表示扰动预算。我们的攻击方法总结在算法1中。给定自然示例x，我们首先将广告示例x~0初始化为x。然后我们7881PP←−1：;PCC·基于类激活特征的攻击（CAFA）预训练网络P��=��W��培训推理自然examp le（）W�� Δ˜��˜��=��˜��W˜��+对抗噪声˜��青蛙狗图2.我们的辩护方法的直观说明。所提出的防御通过自我监督的对抗性训练机制来学习去除对抗性噪声。我们最大限度地破坏自然示例的类激活特征，以制作对抗性示例，并使用它们来训练去噪器，以学习使对抗性示例接近类激活特征空间中的自然示例10.90.80.70.60.50.40.30.90.80.70.60.50.40.3算法1CAFA：基于类激活特征的攻击输入：预训练的深度神经网络，自然样本x，扰动预算g，迭代次数T和攻击步长α。输出：一个adversarialeexamplex~，其中x−x~∞≤g。x~0x2：对于t= 0至T1 ，do3：F或Wardx和x~tto ，并获得类行为特征Φx和Φx~t;4：使用等式4计算特征距离Δ（x，x~t）。1个;0.20.1012 3 4 5 6 789100.20.105：计算相对于输入的梯度：gt=x∆（x，x~t）;（3）6：更新广告示例x〜t：x~t+1=x~t+α·sign（gt）;（4）迭代次数BIA：愚弄率PGD：愚弄率CW：愚弄率BIA：距离PGD：距离CW：距离图3.在CIFAR上对抗VGG-19 [33]目标模型的对抗示例10个。对抗性示例分别由BIA[20]，PGD [28]和CW [4]制作从图中可以看出，欺骗率随着特征距离的增加而同步上升。对于wardx和x~t到预训练的深度神经网络工作. 并求出它们的类行为特征Φx和Φx≠t。Nxt，我们使用等式（1）计算特征距离Δ（x，x~t）及其梯度2和Eq。3.最后，我们采用梯度来更新x~t，并使用等式（1）获得x~t+1。 4和方程式五、通过迭代地执行这样的更新过程，算法1可以最大化Δ（x，x~）并且输出自适应示例x~。3.3. 消除对抗性噪声我们设计了一个基于类激活特征的去噪器（CAFD）来去除对抗性噪声。为了训练去噪器，我们使用混合损失函数，其由类激活特征损失和对抗性损失组成。7：将x~t+1投影到x附近：x~t+1=clip（x~t+1，x-g，x+g）;（5）第八章：端9：retu r nx〜=x〜T。类激活功能丢失：CAFA制作的对抗性示例直接破坏了类激活特征，从而导致误导性预测。为了有效地保护目标模型，去噪器需要学习减少类激活特征空间中的自然示例和对抗示例类激活功能丢失可以定义如下：Lcaf=δ（Φx，ΦC（x~）），（6）其中ΦC（x~）表示所恢复的示例（x~）的类动作特征，并且δ（）表示L2范数距离度量。考虑到Φx是深度特征F x和类权重W x的点积，我们还可以通过联合减小自然示例和非自然示例之间的深度特征和类权重的距离来实现该优化目标。基于类激活特征的去噪器（CAF鉴别器��（Adversarialex amp le预训练网络P对抗样本去噪器目标模型愚弄率距离-7882PCLDDLCDDC自然PGDNAANDDNSTAN自然PGDNAANDDNSTAN马鹿猫青蛙猫狗青蛙鸟猫猫马犬图4.我们的模型对各种类型的攻击的防御效果的可视化说明。（上：对抗性例子;中：恢复的示例;底部：恢复的示例的类激活图）。下标算法2CAFD：基于类激活特征的去噪器输入：训练数据X，预训练的深度神经网络和扰动预算g。1：重复2：来自X的简单自然示例x;3：通过利用算法1，在g_i_v_en_perturbation_b_ud处制作广告示例x-4：F或W-通过x~并计算咖啡因（方程式6或Eq.7）;（即，具有依赖于真实和伪（恢复）数据两者的输出）。为了使相对论鉴别器更全局地起作用，RaGAN进一步关注相对论鉴别器在相反类型的随机数据样本上的平均值。对于给定的自然示例x及其由CAF A制作的对抗示例x，定义如下：5：F或W-通过D传递C（x~），然后计算L_D（等式2）。8）和Ladv（Eq. 9）;LD=−log（σ（D（x）−τ（D（C（x））-log（1−σ（D（C（x））−τ（D（x），（八）6：反向传递并更新D，C以最小化L，C（等式6）10)和其中σ（·）表示sigmoid函数，τ（·）表示LD（等式8）;第七章：直到C和D收敛。平均函数。的对抗性损失表示为，他的反面教材。类激活特征丢失可以修改如下：Ladv=−log（σ（D（C（x~））−τ（D（x）-log（1−σ（D（x）−τ（D（C（x~））。（九）Lcaf=δ（Fx，FC（x~））+δ（Wx，WC（x~）），（7）其中FC （x~）表示x ~的深特征，WC （x~）表示x~的类权重。我们使用Eq. 6和Eq。7分别进行培训并在第4.2节中展示其结果。此外，我们根据经验观察到，去除caf损失将导致去噪器的防御效果显著降低（见图5）。对抗性损失：介绍了一种图像鉴别器以相对论平均生成对抗网络的方式增强恢复示例的精细纹理细节[16]。与标准生成对抗网络（SGAN）相比，相对论平均生成对抗网络（RaGAN）更稳定，可以生成更高质量的示例[16]。在SGAN中，鉴别器估计在-数据是真实的。然而，真实数据是真实的概率也应该同时降低[16]。RaGAN通过使鉴别器相对论性来结合上述类激活特征丢失和ad-在对抗损失中，C的总损失函数给出为：LC=λ1Lcaf+λ2Ladv，（10）其中λ1和λ2是权衡每个分量的正参数。总体程序总结见Al-图2。给定训练数据X，我们首先从X简单的自然示例x，并通过CA F A制作其对应的对抗示例x~。然后，我们通过去噪器C，并计算Lcaf。因此，我们将C（x~）通过D，然后计算L_D和L_adv。最后，我们采取梯度步骤来更新C和D以最小化L C和L D。重复上述步骤直到C和D收敛。4. 实验在本节中，我们首先介绍本文中使用的数据集、网络架构和训练细节（第4.1节）。然后，我们提出并分析了防御看不见的攻击类型和自适应攻击的实验结果最后，我们进行消融7883××PDC表1. VGG-19目标模型对对抗性样本的分类错误率（百分比）（越低越好）。CAFD和CAFD'是我们的防御模型对应于Eq。7、Eq.分别6。下标N指示对应的攻击是非目标攻击，下标T指示对应的攻击是目标攻击。JPEG的压缩质量为75并且TVM的权重为0。003.本文中的DOA方法使用7 - 7对抗补丁制作的穷举搜索重新训练目标模型。对于每一次进攻，我们用粗体显示最成功的防守，用下划线显示第二次防守。防御没有一DDNNTI-DIMNPGDNPGDTAANSTANSTATFWANDOA6.377.4837.8438.9632.9039.0917.0319.1065.89在7.1610.4940.1031.2725.7832.5620.9021.1045.26JPEG9.7811.2592.0495.6786.6097.5637.8133.6593.07SVHNTVMAPE-G10.0110.4021.3711.9288.9489.4594.5393.2075.1783.4095.8481.9227.7643.7523.6642.3796.6186.57HGD10.1210.9990.8357.3545.0062.2540.4336.5367.44CAFD7.6514.9058.5714.6410.6313.5719.9218.4858.07CAFD'9.7916.3461.4915.9113.4614.8722.1922.0660.82DOA7.8210.4228.5347.8132.3747.4317.5118.1350.65在10.3418.0731.7831.7730.1730.6121.1620.6939.70JPEG13.3216.1038.6851.4150.3458.8447.7647.3585.27CIFAR-10TVMAPE-G9.658.1823.1511.7539.4634.1968.7978.0856.7162.3166.4676.6530.7624.0831.9021.4090.8176.66HGD7.649.1835.5046.8731.1845.7319.9618.2746.87CAFD8.909.2426.5712.7910.5811.8018.1917.1735.59CAFD'8.959.3229.8515.4512.6714.2719.0318.1039.49研究和评估我们的模型对扰动预算的鲁棒性，以进一步证明我们的防御方法的有效性该代码可在https://github.com/dwDavidxd/CAFD上获得。4.1. 实验装置数据集：我们在两个流行的基准数据集上验证了我们的防御方法的有效性，即，[30]和CIFAR-10。SVHN和CIFAR-10都有10类图像，但前者包含73，257个训练图像和26，032个测试图像，后者包含60，000个训练图像和10，000个测试图像。两个数据集中的图像都被视为自然样本。评估防御模型的对抗性示例通过应用最先进的攻击来制作。这些攻击包括：（i）像素约束攻击，即，[28]、CW [4]、AA [6]、[31] 和 TI-DIM [9 ， 46] 。 (ii) 空间受限攻击，即，[45][49][49][49][49]像素约束攻击通常通过利用Lp范数距离来直接操纵像素值以用于惩罚对抗性攻击。块，并且每个块包含3 × 3卷积层、批归一化层和校正线性单元。我们的图像块是一个VGG风格的块[36，22]，它由一个完全连接的层和三个包含卷积层的卷积块组成，然后是一个批规范化层和一个泄漏的ReLU激活函数。培训详情：为了公平比较，所有实验都在四个NVIDIARTX 2080 GPU上进行，并且所有方法都由PyTorch实现。我们使用Advertorch工具箱[8]中的PGD、DDN、CW和STA方法的实现代码以及作者的AA、TI-DIM和FWA方法的SVHN和CIF AR-10的默认扰动budgetε设置为8/255。VGG-19、ResNet-50和Wide-ResNet网络被用作目标模型，VGG-19网络也被用作预训练网络。目标模型的学习率在SVHN上为10−2，在CIFAR-10上为10−1。所有这些网络都经过预训练并保持固定。使用Adam [18]优化降噪器和鉴别器它们的学习率最初设置为10−3，然后衰减到二、7×10-5，当训练损失收敛时。的积极噪声，而空间受限攻击集中于模仿-通过空间变换检测非可疑破坏行为参数λ13λ2在SVHN上设置为102和5×10−3物理修改[10，41]。和10在CIFAR-10上为5×10−3。网络架构：我们使用三种网络架构对SVHN和CIFAR-10执行分类任务，即，VGG-19架构[33]、ResNet-50架构[14]和Wide-ResNet架构[47]。Wide-ResNet架构中的深度和宽度因子分别设置为28和20我们的防御体系结构是DUNET体系结构[23]。它由多个基本的4.2. 防御结果防御看不见的攻击类型：我们使用由非目标L2范数CW制作的对抗性示例来训练先前的防御模型，并选择非目标L ∞范数PGD，目标L ∞范数PGD，非目标L2范数DDN，非目标L2范数CW，非目标AA，7884LLL表2.使用CAFD的不同目标模型的分类错误率（百分比）（越低越好）。我们将基于VGG-19训练的CAFD防御转移到ResNet-50和Wide-ResNet。攻击目标模型VGG-19ResNet-50wide-ResNetCAFD无CAFD无CAFDSVHNPGDN14.6410011.0197.7121.33PGDT10.6310010.6293.8514.14DDNN14.9099.9815.5310016.60AAN13.5710018.8097.2023.17STAN19.9299.8722.3496.7923.51STAT18.4899.7121.9196.6324.87CIFAR-10PGDN12.7910018.8610020.18PGDT10.5810013.1999.9112.45DDNN9.2499.999.251007.84AAN11.810016.2510017.23STAN18.1910017.5199.9918.16STAT17.1799.9717.0799.6617.93非目标TI-DIM、非目标STA、目标STA和非目标FWA作为不可见类型的攻击，以制作用于评估防御模型的对抗性示例。这些发作的详细信息可参见附录A。图4表明，我们的方法是有效的，以消除强敌对的噪音。表1中的定量分析表明，我们的方法实现了更稳健的性能，例如，与现有技术相比，将AA N的成功率从30.61%降低到11.80%。对抗性示例和恢复的示例在附录B中示出。跨模型防御结果：为了评估该方法的跨模型防御能力，我们将 CAFD 模型转移到其他分类模型上，ResNet-50和Wide-ResNet。表2中的结果表明，我们的方法显着消除了针对ResNet- 50和Wide-ResNet的各种看不见的攻击类型所产生的对抗性噪声。ResNet-50和Wide-ResNet目标模型的分类错误率与VGG-19目标模型的分类错误率相对相似，这表明我们的方法可以提供有效的跨模型保护。对抗性示例和恢复示例见附录B。防御自适应攻击：自适应攻击可以访问泄露的防御。在这种情况下，攻击者使用防御的知识，并且仅受威胁模型[1，3]的限制。我们研究了以下三种困难情况：（i）攻击者知道防御并使用BPDA [1]绕过它。（ii）攻击者获得防御的副本，并将其与原始目标模型组合成新的目标模型。然后，攻击者对新的目标模型执行白盒攻击（iii）攻击者不直接访问防御，而是训练类似的本地防御模型，以灰盒方式制作对抗性示例。表3.防御泄露场景下的分类错误率（百分比）（越低越好）。防御模型APE-G'和HGD'是基于非目标PGD制作的对抗性示例训练的，迭代次数为20。N在BPDA场景中，防御模型APE’和HGD’基于由非目标PGD制作的对抗性示例来训练。我们使用迭代次数为10和20的非目标PGD如表3所示，我们的方法显示出显著的增益，即，与APE和HGD相比，分类错误率平均降低了49.85%和39.83%。在白盒自适应攻击的情况下，我们的方法提出了一个轻微的错误率降低。由于防御模型被完全泄露给攻击者，防御模型在灰盒自适应攻击场景中，我们使用APE-G'，HGD'和CAFD'作为局部防御模型来制作对抗性示例。我们的方法表现出竞争力的性能对 DDNN 和获得更好的实验结果对PGDN。4.3. 进一步评价消融研究：图5显示了CIFAR-10的消融研究。我们分别去除了对抗损失adv和类激活特征损失caf来研究它们对我们模型的影响。去除adv会略微降低分类准确率，因为一些细微的BPDA目标攻击国防错误率APE-G'+VGG-19PGDN（It-10）APE-G'98.32HGD' +VGG-19PGDN（It-10）HGD'79.50CAFD+VGG-19PGDN（It-10）CAFD47.74APE-G'+VGG-19PGDN（It-20）APE-G'99.12HGD' +VGG-19PGDN（It-20）HGD'85.04CAFD+VGG-19PGDN（It-20）CAFD51.25白盒自适应攻击目标攻击国防错误率APE-G+VGG-19DDNAPE-G97.85HGD+VGG-19DDNNHGD97.10CAFD+VGG-19DDNNCAFD93.23APE-G'+VGG-19PGDNAPE-G'98.86HGD' +VGG-19PGDNHGD'98.13CAFD+VGG-19PGDNCAFD95.18灰盒自适应.目标攻击粘性国防错误率APE-G'+VGG-19DDNNAPE-G11.07HGD' +VGG-19DDNNHGD10.937885LL100908070605040302010PGDNCAFDDDNNAAN没有CAFD的情况下STAN95908580757010/255 12/255 14/255 16/255扰动预算MSEDCAFD无图5.CIFAR-10的消融研究。该图显示了VGG-19的分类准确率（百分比）（越高越好）。我们的方法没有CAF的性能受到显着影响，这表明类激活特征丢失的重要性MSED表示通过使用逐像素均方误差损失和对抗性损失来训练的防御模型。纹理细节将丢失。我们的方法没有CAF的性能受到显着影响，这表明类激活特征丢失的重要性我们通过使用像素均方误差损失和对抗性损失而不是类激活特征损失来训练一个名为MSED的类似防御模型。相比我们的防御模型，MSED不提供足够的保护，对这些攻击。为了进一步证明所提出的CAFA在提高对抗鲁棒性方面的有效性，我们在附录C中展示了使用PGD和CW制作的对抗示例训练的所提出模型的结果此外，我们还在附录C中展示了使用PGD制作的对抗性示例作为对抗性训练数据时，以前的防御方法的结果。实验结果表明，使用CAFA可以获得很好的防御性能，提高了对不可见攻击的防御泛化能力。我们的模型对扰动预算的鲁棒性：为了探索我们的防御模型对扰动预算ε的鲁棒性，我们将L ∞范数扰动预算ε设置在（6/255，16/255）的范围内，并通过非目标PGD，目标PGD和非目标AA来制作对抗性示例。如图6所示，我们的防御模型在对抗性噪声被约束在（6/255，12/255）内时保持相对较高的准确率。这表明，当CA FA的扰动预算为8 / 255时，我们的模型可以防御ε小于12/255的攻击. 当扰动值继续增大时，保护效果将显著降低。5. 结论在本文中，我们的目的是设计一种防御，可以减轻错误放大效应，特别是在前面的非靶向PGD图6.我们的防御模型对具有明显扰动的对抗性样本的分类准确率（百分比）萌芽-得到（越高越好）。我们选择了三种强攻击进行评估，并将L∞范数扰动预算g设置在（6/255，16/255）的范围内。看不见的攻击。受观察到的对抗性和自然示例的类激活图之间的差异的启发，我们提出了一种自监督对抗性训练机制，以去除类激活特征空间中的对抗性具体来说，我们首先使用基于类激活特征的攻击来制作对抗性示例。然后，我们训练了一个基于类激活特征的去噪器，以最小化类激活特征空间中的对抗性和自然示例之间的距离，以去除对抗性噪声。实验结果表明，我们的防御可以提供保护，对未知类型的攻击。今后，我们可以在以下几个方面扩展这项工作。首先，我们需要加强对白盒自适应攻击的防御。其次，我们可以通过基于梯度的方法在内部层中使用类权重，例如， Grad-CAM [32] 和 Grad-CAM++ [5] 。第三，我们可以使用标签噪声领域中的策略[24，44，43，37，42，40]来提高目标模型对对抗性噪声的对抗性鲁棒性。鸣谢：NNW和XBG得到了中国国家重点研究与发展计划（2018AAA0103202）和中国国家自然科学基金（ 61922066 ， 61876142 ， 62036007 ， 61772402 ，Grant）的支持62050175. 中电获得广西自然科学基金项目2021GXNSFDA075011资助公司获得安徽省重点研究发展计划（202104a05020007）和中国科学技术大学双一流科研基金（YD2350002001）资助。TLL得到了澳大利亚研究委员会项目DE-190101473的支持。作者感谢审稿人和元审稿人对这项工作的有益和建设性的意见。精度精度7886引用[1] Anish Athalye、Nicholas Carlini和David A.瓦格纳。Ob-fuscated梯度给人一种错误的安全感2018年第35届机器学习国际会议论文集[2] Yang Bai，Yuyuan Zeng，Yong Jiang，Shu-Tao Xia，Xingjun Ma，and Yisen Wang.通过通道激活抑制提高对抗鲁棒性，2021。[3] 尼古拉斯·卡利尼和大卫·瓦格纳。Magnet和arXiv预印本arXiv：1711.08478，2017。[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。在2017年IECHO安全和隐私研讨会（sp），第39-57页。IEEE，2017年。[5] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N Balasubramanian. Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。在2018年IEEE计算机视觉应用冬季会议（WACV），第839-847页。IEEE，2018年。[6] 弗朗切斯科·克罗齐和马蒂亚斯·海因。可靠的评估对抗鲁棒性与不同的参数自由攻击的合奏。第37届国际机器学习会议论文集，2020年。[7] Nilaksh Das，Madhuri Shanbhogue，Shang-Tse Chen，Fred Hohman，Li Chen，Michael E Kounavis，and DuenHorng Chau.把坏人挡在外面：使用jpeg压缩保护和接种深度学习。arXiv预印本arXiv：1705.02900，2017。[8] Gavin Weiguang Ding，Luyu Wang，and Xiaomeng Jin.Ad-vertorch v0. 1：基于pytorch的对抗鲁棒性工具箱。arXiv预印本arXiv：1902.07623，2019。[9] 董银鹏，庞天宇，苏航，朱军。通过平移不变攻击规避对可转移对抗样本的防御。在IEEE/CVF计算机视觉和模式识别会议论文集，第4312-4321页[10] Justin Gilmer，Ryan P Adams，Ian Goodfellow，DavidAndersen，and George E Dahl.激发对抗性示例研究的游戏规则。arXiv预印本arXiv：1807.06732，2018。[11] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。在2015年国际学习表征会议[12] Shixiang Gu和Luca Rigazio。走向对对抗性示例鲁棒的深度神经网络架构。arXiv预印本arXiv：1412.5068，2014。[13] ChuanGuo，MayankRana，MoustaphaCisse'，andLaurensvan der Maaten.使用输入变换对抗性图像。在第六届国际会议上学习- ING代表，ICLR 2018，温哥华，不列颠哥伦比亚省，加拿大，2018年4月30日至5月3日，会议跟踪程序。OpenReview.net，2018年。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习计算机视觉和模式识别会议，第770- 778页，2016年[15] Guoqing Jin ， Shiwei Shen ， Dongming Zhang ， FengDai，and Yongdong Zhang.APE-GAN：使用GAN的对抗扰动消除在声学，语音和信号处理国际会议上，第3842-3846页[16] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器：标准GAN中缺少的关键元素。arXiv预印本arXiv：1807.00734，2018.[17] 何开明， Gkioxari Georgia ， Dollar Piotr 和 GirshickRoss 。面具 R-CNN 。 IEEE Transactions on PatternAnalysis Machine Intelligence，PP：1[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[20] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习。 arXiv 预印本 arXiv ：1611.01236，2016。[21] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[22] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅

下载后可阅读完整内容，剩余1页未读，立即下载