单步对抗训练以及带有辍学调度的鲁棒模型训练

37 浏览量更新于2023-10-23 收藏 697KB PDF 举报

对抗性攻击

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

950采用Dropout调度的Vivek B.S.和R.文卡特什巴布视频分析实验室，印度科学院计算与数据科学系，印度摘要深度学习模型在包括医疗诊断和自动驾驶在内的一系列计算机视觉应用中表现出令人印象深刻的性能。这些模型面临的主要问题之一是它们对对抗性攻击的敏感性。意识到这个问题的重要性，越来越多的研究人员正在努力开发受对抗性攻击影响较小的健壮模型。对抗性训练方法在这方面显示出很好的结果。在对抗训练机制中，模型是用对抗样本增强的小批量训练的快速和简单的方法（例如，单步梯度上升）用于生成对抗样本，以便降低计算复杂度。结果表明，用单步对抗训练方法（对抗样本用非迭代方法产生）训练的模型是伪鲁棒的。此外，模型的伪鲁棒性归因于梯度掩蔽效应。然而，现有的工作未能解释何时以及为什么梯度掩蔽效应发生在单步对抗训练。在这项工作中，（i）我们证明了使用单步对抗训练方法训练的模型学习防止单步对手的生成，这是由于在训练的初始阶段模型的过度拟合，以及（ii）为了减轻这种影响，我们提出了一种带有辍学调度的单步对抗训练方法。与使用现有的单步对抗训练方法训练的模型不同，使用所提出的单步对抗训练方法训练的模型对单步和多步对抗攻击都是鲁棒的，并且在白盒和黑盒设置中，性能与使用计算昂贵的多步对抗训练方法训练的模型相当。1. 介绍机器学习模型容易受到对抗性样本的影响：具有不可感知的工程噪声的样本，设计用于操纵模型的输出[ 15，2，34，3，13，27 ]。此外，Szegedyet al. [34]他说，这种对抗样本可在多个模型之间转移即，在一个模型上生成的对抗样本可能误导其他模型。因此，部署在现实世界中的模型容易受到黑盒攻击[20，28]，其中攻击者对部署的模型的知识有限或没有。已经提出了各种方案来防御对抗性攻击（例如，[13，29，23]），在这个方向上对抗训练（AT）程序[13，35，22，40]显示出有希望的结果。在对抗训练机制中，模型是用包含对抗样本的小批量训练的，这些样本通常由正在训练的模型生成。对抗样本生成方法从简单方法[13]到复杂优化方法[24]。为了降低计算复杂度，非迭代方法（如快速梯度符号法（FGSM）[13]）通常用于生成对抗样本。此外，已经证明使用单步对抗训练方法训练的模型是伪鲁棒的[35]：• 尽管这些模型在白盒设置中对单步攻击似乎是鲁棒的（攻击者可以获得已部署模型的完整知识），但它们在黑盒攻击设置中容易受到单步攻击（非迭代方法）[35]。• 此外，这些模型在白盒设置[18]和黑盒设置[10]中都容易受到多步攻击（迭代方法）的影响Tramer等人[35]证明了使用单步对抗训练方法训练的模型收敛于退化最小值，并表现出梯度掩蔽效应。诸如FGSM的单步对抗样本生成方法图像相对于输入图像在损失梯度的方向上扰动。梯度掩蔽效应导致这种损失函数的线性近似在单步对抗训练期间对于生成对抗样本变得不可靠Madry等人[22]证明了使用对抗性样本训练的模型，最大化训练损失，对单步和多步都是鲁棒的，951大头钉可以使用投影梯度下降（PGD）生成这样的样本然而，PGD方法是一种迭代方法，训练时间大大增加.尽管先前的工作已经能够学习鲁棒模型，但是它们未能回答以下重要问题：（1）为什么使用单步对抗训练方法训练的模型会表现出梯度掩蔽效应？以及（ii）在单步对抗训练的哪个阶段，模型开始表现出梯度掩蔽效应？在这项工作中，我们试图回答这些问题，并提出了一种新的单步对抗训练方法来学习鲁棒模型。首先，我们证明了使用单步对抗训练方法训练的模型可以防止单步对手的生成，这是由于在训练的初始阶段模型的过度拟合。模型对单步对抗者的过度拟合导致损失函数的线性近似对于生成对抗样本变得不可靠，即，梯度掩蔽效应。最后，我们提出了一个单步的adversarial训练方法与dropout调度学习鲁棒模型。请注意，只需添加dropout层（典型设置：在FC+ReLU层之后具有固定丢弃概率的丢弃层）无助于使用单步对抗训练方法训练的模型获得鲁棒性。先前的工作没有观察到模型的鲁棒性（在典型的设置中具有dropout层）的显著改善，使用正常训练和单步对抗训练方法进行训练[13，18]。这些设置的结果见第4.1节。与典型设置不同，我们在每个非线性层之后引入dropout层（即，dropout-conv 2D +ReLU后的2D，以及dropout-FC+ReLU后的1D），并随着训练的进行进一步衰减其dropout概率。有趣的是，我们表明，这个建议的dropout设置有显着的影响模型这项工作的主要贡献可以列举如下：• 我们表明，使用单步对抗训练方法训练的模型可以学习防止生成单步对手，这是由于在训练的初始阶段过度拟合模型。• 利用上述观察，我们提出了一个单步对抗训练方法与辍学概率调度。不像模特训练我们-与现有的单步对抗训练方法相比，使用该方法训练的模型对单步和多步攻击都具有鲁棒性。• 所提出的单步对抗训练方法比多步对抗训练方法快得多，并且达到了同等的效果。2. 符号考虑一个训练好的神经网络f来执行图像分类任务，θ表示神经网络的参数。令x表示来自数据集的图像，y true是其对应的地面真值标签。使用损失函数J（例如，交叉熵loss），并且λxJ表示相对于输入图像x的损失的梯度。生成对抗图像xadv通过将范数有界扰动δ添加到图像x。扰动大小（Per-turbation size）表示对所生成的对抗扰动的l∞||∞ ≤。||∞ ≤ ǫ.有关对抗制的详情，请参阅补充文件训练和攻击生成方法。3. 相关作品根据Szegedyet al.[34]，各种攻击（例如，[13，24，8，26，25，10，12]已提出。此外，为了防御对抗性攻击，各种方案，诸如对抗性训练（例如，[13，18，22，40，5，4]）和输入预处理（例如，[14，31]）。Athalye等人[1]表明，混淆的梯度给人一种错误的鲁棒性感觉，并打破了ICLR 2018接受的9篇辩护论文中的7篇[6，21，14，38，32，31，22，21，9]。在这个方向上，对抗训练方法[22]显示出学习鲁棒深度学习模型的有希望的结果。Kurakin等人[18]观察到使用单步对抗训练方法训练的模型容易受到多步攻击。此外，Trameret al.[35]证明了这些模型具有梯度掩蔽效应，并提出了Encouragement Adversarial Training（EAT）方法。然而，使用EAT训练的模型仍然容易受到白盒设置中的多步攻击。Madry等人[22]证明，如果在训练时精心制作的扰动使损失最大化，则经过对抗训练的模型可以对白盒攻击具有鲁棒性。Zhang等人[40]提出了一种用于多步对抗训练的正则化器，它鼓励网络的输出是平滑的。另一方面，[30]和[36]等作品提出了一种学习模型的方法，这些模型可证明对范数有界的对抗性攻击具有鲁棒性。然而，将这些方法扩展到深度网络和大的扰动大小是困难的。然而，在这项工作中，我们表明，如果在训练过程中防止模型对对抗样本的过度拟合，则可以使用单步对抗训练方法来学习鲁棒模型我们通过在模型的每个非线性层之后引入dropout层来实现4. 对抗训练中的过拟合及其效应在这一节中，我们展示了使用单步对抗训练方法训练的模型可以学习防止一般的952图1：单步对抗训练：在单步对抗训练期间，R的趋势，训练损失和验证损失，为在MNIST数据集上训练的LeNet+获得。第1列：R与训练迭代的关系图。第2列：训练损失与训练迭代。第3列：验证损失与训练迭代。请注意，当R开始衰减时，对抗性验证集的损失开始增加，表明模型对对抗性样本过度拟合图2：多步对抗训练：在多步对抗训练期间，R的趋势，训练损失和验证损失，为在MNIST数据集上训练的LeNet+获得。第1列：R与训练迭代的关系图。第2列：训练损失与训练迭代。第3列：验证损失与训练迭代。请注意，对于整个训练持续时间，R不会衰减，并且没有观察到过拟合效应。这是由于在训练的初始阶段模型的过度拟合。首先讨论了使用对抗训练方法学习鲁棒模型的准则，然后证明了在单步对抗训练方法中不满足该准则最重要的是，我们表明过拟合效应是不满足准则的原因。Madry等人[22]证明了使用对抗训练方法学习鲁棒模型是可能的，如果在训练时制作的对抗扰动（l∞范数有界）使模型的损失最大化本次培训目标被公式化为极小极大优化问题（Eq. 1）。其中，k表示可行集，例如，对于l∞范数，应变攻击ε={δ：||δ||∞ ≤ ∞}，D是训练集在每次迭代中，应该生成使训练损失最大化的范数有界对抗扰动。此外，模型Madry等人[22]通过使用名为投影梯度下降（PGD）的迭代方法生成对抗样本来解决最大化步骤为了量化Eq的内部最大化的程度。（1），我们使用等式（1）计算损失率R。（二）、损失率定义为在给定的扰动大小下对抗样本的损失与其相应的干净样本的损失之比。度量R*捕获由生成的对抗样本实现的内部最大化的程度，即，通过扰动干净的样品而增加损耗的因子。一个样本被称为对抗样本，如果它是capa-minθΣΣE（x，y）∈DmaxJδ∈ψ.f（x+δ;θ），y为真ΣΣΣ（一）操纵模型预测的能力。这种操作可以通过沿对抗方向扰动样本来实现[13]。一个扰动被称为当它造成损失时，损失R=损失清除（二）样品增加。这意味着损失953在反向扰动样本上的损失应该大于在相应的未扰动样本上的损失即，lossadv> lossclean.基于这些事实，R可以用以下方式解释：• 如果R> 1，则生成的扰动被称为对抗扰动，即，lossadv> lossclean• R=<1，即，lossadv lossclean意味着生成的扰动不是对抗扰动。该攻击方法无法生成给定模型的对抗扰动我们获得了使用单步对抗训练方法[13]和多步对抗训练方法[22]训练的模型的R与迭代的关系图。图1的第1列图1和图2分别显示了使用单步和多步对抗训练方法在MNIST数据集[ 19 ]上训练LeNet+获得的这些图。可以观察到，在单步对抗训练期间，R最初增加，然后开始迅速衰减毛皮-经过20（×100）次迭代后，R ∞小于1。这意味着单步对抗样本生成方法不能为模型生成对抗性扰动，导致对抗性训练没有有用的对抗性样本。我们证明了模型防止包含对抗样本的这种行为是由于对抗样本的过度拟合通常在正常训练期间，监控验证集上的损失以检测过拟合效应，即，当模型开始在训练集上过度拟合时，验证损失会增加。与正常训练不同，在对抗训练期间，我们监控干净和对抗验证集的损失。使用正常训练的模型来生成对抗性验证集，以确保生成的对抗性验证样本独立于正在训练的模型。列-2和列- 图1的图3示出了使用单步对抗训练在MNIST数据集上训练LeNet+期间的损失与迭代的图。可以观察到，当R开始衰减时，对抗验证集的损失开始增加。验证损失的这种增加表明模型对单步对手的然而，在多步对抗训练方法中，R最初增加，然后饱和（第1列，图1）。2）。此外，在整个训练持续时间内没有观察到这种过度拟合效应（第3列，图11）。2）。请注意，正常训练的模型用于生成FGSM（λ=0.3）对抗验证集，如果不同架构的正常训练的模型用于生成FGSM对抗验证集，我们观察到类似的趋势，请参考补充文档。4.1. 脱落层在上一节中，我们展示了使用单步对抗训练训练的模型可以防止单步对手的生成。此外，我们证明了模型的这种行为是由于过拟合。Dropout层[33]已被证明在训练期间有效地减少过拟合，并且通常在网络中的FC+ReLU层之后添加dropout-1D层。我们将此设置称为典型设置。在单步对抗训练期间使用dropout层的先前工作没有观察到模型的鲁棒性的显着改善这是由于在典型的设置中使用了dropout层。然而，我们根据经验表明，有必要在模型的每个非线性层之后引入dropout层（建议的dropout设置，即，dropout-2D afterConv 2D +ReLU layer 和 dropout-1D after FC+ReLUlayer），以减轻单步对抗训练期间的过度拟合，并使模型能够获得对抗攻击（单步和多步攻击）的鲁棒性。我们分别在典型设置和建议设置中训练LeNet+，在MNIST数据集上使用单步对抗训练方法针对不同的辍学概率值。经过训练，我们得到了这些模型对PGD攻击的性能（k=0.3，k=0.01，steps=40）。图1的第1列图3显示了这些模型对于PGD攻击的准确性相对于训练时使用的丢弃概率的趋势。可以观察到，与典型设置（FAT-TS）中从图2的3，可以观察到，在所提出的设置中，具有dropout层的对抗训练模型的鲁棒性随着dropout概率（p）的增加而增加，并且在p=0.4时达到峰值。丢弃概率的进一步增加会导致干净样本和对抗样本的准确性降低。基于这一观察，我们在下一小节中提出了一种改进的单步此外，我们在典型设置和建议设置中，在MNIST数据集上执行LeNet+的正常训练。从图1的列-13，可以观察到这些正常训练的模型的鲁棒性没有显著改善4.2. SADS：单步对抗训练与Dropout调度图1的第1列3表示在典型设置中使用dropout层不足以避免对敌对样本的过度拟合建议设置：在Conv2D+ReLU和FC+ReLU层之后的dropout层），以避免过拟合。对于拟议的辍学制度，954AdvAdvAdvr·Maxitertiond算法一：使用Dropout Scheduling（SADS）的单步对抗训练输入：图3：列-1：典型设置和建议设置中的dropout层的dropout 概率对模型对PGD攻击的鲁棒性的影响在MNIST数据集上训练的LeNet+获得。NT-TS：在典型设置中使用dropout层的正常训练FAT-TS：在典型设置中使用dropout层的单步对抗训练。NT-PS：在建议的设置中使用dropout层进行正常训练。建议：在建议的设置中使用dropout层的单步对抗训练。第2列：脱落概率的影响培训小批量（m）最大训练迭代次数（Max itertion）超参数：P d，r d1初始化随机初始化网络N次迭代=0概率=Pd在网络N使用prob设置所有dropout层的dropout概率（p）while迭代≤最大迭代2读取小批量B ={x1，..，x m}来自训练集3计算FGSM对抗样本模型在清洁和PGD对手上的准确性1Adv、...、Xm}从相应的清洁ial验证集（=0.3，步骤 =0.01，步长=40）。Ob-样本{x1，...， x m}使用的当前状态在MNIST数据集上使用单步对抗训练方法进行训练。确定精确的丢失概率是依赖于网络的此外，具有高退出概率会导致模型拟合不足，而具有低退出概率会导致模型在对抗样本上过度拟合。基于这些观察结果，我们提出了一个单步对抗训练方法与辍学调度（算法1）。在所提出的训练方法中，我们在待训练模型的每个非线性层之后引入dropout层。我们用一个高的丢弃概率Pd初始化这些丢弃层。此外，在训练期间，我们线性衰减所有dropout层的dropout概率，并且dropout概率的这种衰减由超参数rd控制。超参数rd以最大训练迭代（例如，Rd=1/2意味着当当前训练迭代等于最大训练迭代的一半时，丢失概率达到零在实验部分5中，我们展示了所提出的训练方法的有效性。请注意，dropout层仅在训练时使用。5. 实验在本节中，我们展示了在白盒和黑盒设置中使用所提出的单步对抗训练方法（SADS）训练的模型的有效性。我们执行[7]中描述的健全性测试，以验证使用SADS训练的模型是健壮的，网络N4使新的小批量B={x1，.，x m}/* 向前传递，计算损失，向后传递，并更新参数 */5使用minibatchB执行网络N/* 更新Dropout-1D和Dropout-带有prob的2D图层 */6prob=max（0，Pd·（1−迭代））7次迭代=迭代+1端8不表现出模糊梯度（Athalyeet al. [1]证明了表现出模糊梯度的模型对对抗性攻击不鲁棒）。我们展示了MNIST [19]、Fashion-MNIST [37]和CIFAR- 10 [16]数据集的结果。我们使用LeNet+（请参阅有关网络架构的详细信息的补充文档）用于 MNIST 和 Fashion-MNIST 数据集。对于 CIFAR-10 数据集，使用WideResNet-28-10 [39]。这些模型使用带有动量的SGD步进策略用于学习速率调度。对于所有数据集，图像被预处理为在[0，1]范围内对于CIFAR-10，随机裁剪和水平翻转用于数据增强。评估：我们展示了模型在白盒和黑盒设置中对抗性攻击的性能。对于SADS，我们报告三次运行的平均值和标准差。攻击：对于基于l∞的攻击，我们使用快速梯度符号方法（FGSM）[13]，迭代快速梯度符号方法（IFGSM）[17]，动量迭代快速梯度符号{x955表1：MNIST：白盒设置。使用不同训练方法在MNIST数据集上训练的模型的分类准确率（%）。对于所有的攻击，使用λ=0.3，对于PGD攻击，使用λstep=0.01。对于IFGSM和PGD攻击，步长都设置为40。表3：CIFAR-10：白盒攻击。使用不同训练方法在CIFAR-10数据集上训练的模型的分类准确率（%）。对于所有的攻击，使用λ=8/255，对于PGD攻击，使用λ=2/255。对于IFGSM和PGD攻击，步骤设置为7。培训攻击方法培训攻击方法方法清洁FGSM IFGSMPGD方法清洁FGSM IFGSMPGDNT99.2411.650.310.01NT94.7528.160.070.03多步对抗训练多步对抗训练专利98.4195.5692.6492.08专利85.7053.9648.6547.23交易98.7096.3095.1495.05交易87.2056.3451.2150.03单步对抗训练单步对抗训练脂肪99.3489.041.190.17脂肪94.0498.540.310.09SADS98.8994.7889.3588.51SADS82.0151.9946.3745.66±0.01±0.19±0.090.22±0.06±1.02±1.17±1.26表2：时尚-MNIST：白盒攻击使用不同训练方法在Fashion-MNIST数据集上训练的模型的分类准确率（%）。对于所有的攻击，使用λ=0.1，对于PGD攻击，使用λstep=0.01。对于IFGSM和PGD攻击，步长都设置为40。训练攻击方法方法清洁FGSM IFGSM PGD新台币91.42 6.46 1.01 0.16多步对抗训练PAT 84.55 77.30 75.95 75.18贸易86.69 80.39 78.94 78.04单步对抗训练销售税90.45 83.43 21.26SADS 85.210.08 ±1.31 ±1.01 ±1.43方法（MI-FGSM）[10]和投影梯度下降（PGD）[22]。对于基于l2的攻击，我们使用DeepFool [24]和CarliniWagner [8]。扰动大小：对于基于l∞的攻击，我们将扰动大小（Perturbation Size，简称Emax）设置为[22]中描述的值，即，=0.3，0.1 MNIST、Fashion-MNIST和CIFAR-10数据集分别为8/255。比较：我们比较了所提出的单步对抗训练方法（SADS）与正常训练（NT）、FGSM对抗训练的性能。(FAT)[18]， Enhancement adversarial training （ EAT ）[35]，PGD adversarial training（PAT）[22]和TRADES[40]。请注意，FAT，EAT和SADS（我们的）是单步对抗训练方法，而PAT和TRADES是多步对抗训练方法。EAT的结果见补充文件。5.1. 白盒设置中的性能我们分别在MNIST，Fashion-MNIST和CIFAR-10数据集上使用NT，FAT，PAT，TRADES和SADS（算法1）训练方法训练模型。模型分别在MNIST、Fashion-MNIST 和 CIFAR-10 数据集上训练 50 、 50 和 100 个epoch。对于SADS，我们将超参数Pd和rd设置为（0.8，0.5），（0.8，0.75）和（0.5，0.5），用于MNIST，Fashion-MNIST和CIFAR-10数据集。表1、2和3显示了这些模型在白盒设置下对抗单步和多步攻击的性能，行表示训练方法，列表示攻击生成方法。可以观察到，使用FAT训练的模型对多步攻击不鲁棒然而，使用 PAT ，TRADES和SADS训练的模型对单步和多步攻击都与PAT和TRADES不同，SADS方法是一种单步对抗训练方法。大步长PGD攻击：Engstromet al. [11]证明了使用某些对抗训练方法训练的模型的性能随着PGD攻击步骤数量的增加而显着为了让-证明在使用SADS训练模型中没有观察到这种行为，我们得到了PGD测试集上的分类准确率与PGD攻击步骤的图图 4 显示了分别在 MNIST 、 Fashion-MNIST 和CIFAR-10数据集上使用PAT和SADS训练的模型获得的这些图。可以观察到，PGD测试集上模型的准确性最初略有下降，然后饱和。即使对于大步长的PGD攻击，使用PAT和SADS方法训练的模型的性能也没有显著下降在补充文献中，我们展示了所提出的训练方法的超参数的效果。956图4：使用PAT和SADS训练的模型在PGD对抗性测试集上的准确性与固定PGD攻击步骤的关系图。对于PGD攻击，对于MNIST、Fashion-MNIST和CIFAR-10数据集，我们将（x1，x2步注意，x轴是对数坐标.图5：精确度与PGD攻击的扰动大小的关系图，使用SADS训练模型获得可以观察到，该模型的精度为零的PGD攻击与大的扰动大小。表4：黑盒设置：使用不同的训练方法在MNIST，Fashion-MNIST和CIFAR-10数据集上训练的模型在黑盒设置下对抗对抗攻击的性能。源模型用于生成对抗性样本，目标模型在这些生成的对抗性样本上进行测试MNIST源模型目标模型NT脂肪专利SADSa型FGSM（λ=0.3）29.09 79.49 96.01 95.06MI-FGSM（步长=0.3，步长=40）10.69 72.44 95.83 94.80B型FGSM（λ=0.3）28.13 72.39 96.15 95.11MI-FGSM（步长=0.3，步长=40）12.32 70.79 95.97 94.81fashion-MNISTa型FGSM（λ=0.1）36.66 88.26 81.32 80.86MI-FGSM（步长=0.1，步长=40）33.04 88.36 81.20 80.68B型FGSM（λ=0.1）39.03 85.40 80.01 78.94MI-FGSM（步长=0.1，步长=40）38.01 84.72 79.84 78.59CIFAR-10VGG-11FGSM（平均值=8/255）48.46 78.70 78.12 77.97MI-FGSM（步长=8/255，步长=7）31.61 76.35 78.36 77.95DenseNet-BC-100FGSM（平均值=8/255）39.58 86.90 80.29 80.06MI-FGSM（步长=8/255，步长=7）28.50 86.42 80.42 80.285.2. 黑盒设置中的性能在本小节中，我们展示了使用不同训练方法训练的模型对对抗性攻击957黑盒攻击通常，替代模型（源模型）使用正常训练方法在相同的任务上进行训练，并且该训练的替代模型用于生成对抗样本。生成的对抗样本被传输到部署的模型（目标模型）。我们使用FGSM和MI-FGSM方法来生成对抗样本，因为使用这些方法生成的样本显示出良好的传输率[10]。表4显示了在黑盒设置中使用不同方法训练的模型的性能。可以观察到，在黑盒设置中使用PAT和SADS训练的模型的性能优于白盒设置。此外，可以观察到，使用 FAT 在 MNIST 和CIFAR-10数据集上训练的模型的性能在黑盒设置中比在白盒设置中更差。源模型的网络架构详见补充文件5.3. 性能对DeepFool和C W在钉DeepFool [24]和CW [8]攻击生成具有最小l2范数的对抗扰动，这是欺骗分类器所需的。这些方法根据测试集的生成对抗性扰动的平均l2对于一个欠保护模型，958表5：DeepFool和CW攻击：使用不同训练方法训练的模型针对DeepFool和CW攻击的性能。这些攻击方法基于生成的扰动的平均l2范数来度量模型的鲁棒性，越高成功定义了被错误分类的测试集样本的百分比。注意，对于使用PAT和SADS训练的模型，需要具有相对大的l2范数的扰动来欺骗分类器。方法MNISTF-MNISTCIFAR-10DeepFoolCWDeepFoolCWDeepFoolCW成功平均l2成功平均l2成功平均l2成功平均l2成功平均l2成功平均l2NT99.351.8371001.65993.730.7961000.709960.201000.12脂肪99.371.4551000.79893.111.5141001.167960.251000.10专利85.684.633992.77990.292.6351001.572921.221000.88SADS95.89±0.063.6920.0331000±2.3210.02790.68±0.262.305±0.102100±01.3080.18893±0.320.970.043100±00.71±0.014表 6 ：针对不同训练方法获得的分别在 MNIST 和CIFAR-10数据集上训练的模型的每个时期的训练时间的比较。方法每个epoch的训练时间（秒）MNIST CIFAR-10新台币2002年。7 ∼104第四章. 1 ∼159PAT53磅820交易量104亿1558SADS2004. 3 ∼187足以欺骗分类器。而对于鲁棒模型，则需要具有较大l2范数的对抗性扰动来欺骗分类器.表5显示了使用NT，FAT，PAT和SADS方法训练的模型针对DeepFool和CW攻击的性能。可以观察到，使用PAT和SADS训练的模型具有相对大的平均l2范数。而对于使用NT和FAT训练的模型，平均l2范数较小。5.4. 健全测试我们执行[7]中描述的健全性测试，以验证使用SADS训练的模型是否具有对抗性鲁棒性，并且没有表现出模糊梯度。我们执行以下健全性测试：• 迭代攻击应该比非迭代攻击• 白盒攻击应该比黑盒攻击• 无限攻击应该达到100%成功• 增加失真界限应增加攻击成功率使用SADS训练的模型通过了上述测试。从表1、表2和表3中可以观察到，对于使用SADS训练的模型，将表1、2和3中的结果与表4中的结果进行比较，可以观察到白盒攻击比黑盒攻击更强攻击使用SADS训练的模型图图5显示了测试集上的模型与PGD攻击的扰动大小的准确度图，该可以观察到，该模型从图5中可以观察到，PGD攻击成功率（攻击成功率等于（100 -模型5.5. 时间复杂度为了量化不同训练方法的复杂性，我们测量了使用不同训练方法训练的模型的每个epoch（秒）的训练时间。表6显示了分别在MNIST和CIFAR-10数据集上训练的模型的每个历元的训练时间。注意，SADS和FAT的训练时间是相同的顺序。PAT和TRADES训练时间的增加是由于它们生成对抗样本的迭代性质。我们在一台配备NVIDIA Titan Xp GPU的机器上运行了这个计时实验，该GPU上没有其他作业。6. 结论在这项工作中，我们已经证明了使用单步对抗训练方法训练的模型可以防止由于训练初始阶段模型过度拟合而产生对手。为了减轻这种影响，我们提出了一种新的单步对抗训练方法，带有辍学调度。与现有的单步对抗训练方法不同，使用该方法训练的模型不仅对单步攻击而且对多步攻击都具有鲁棒性。此外，使用该方法训练的模型的性能与使用多步对抗训练方法训练的模型相当，并且比多步对抗训练方法快得多。鸣谢：这项工作得到了 Uch- hatar Avishkar Yojana（UAY）项目（IISC 010），MHRD，Govt的支持。印度。959引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.肥胖者给人一种虚假的安全感：对抗性例子的循环防御。在2018年的国际机器学习会议（ICML）上。二、五[2] 巴蒂斯塔·比吉奥、伊基诺·科罗纳、大卫·马约卡、布莱恩·尼尔森、内德·米·S· 斯伦迪、帕维尔·拉斯·科沃、吉奥·吉奥·贾钦托和法比奥·罗利。在测试时对机器学习的规避攻击。在2013年的欧洲机器学习和数据库知识发现联合会议上。1[3] Battista Biggio，Giorgio Fumera，and Fabio Roli.攻击下的模式识别系统：设计问题和研究挑战。InternationalJournal of Pattern Recognition and Artificial Intelligence，28（07），2014. 1[4] Vivek B.S.，Arya Baburaj和R.文卡特什先生Regulizer在单步对抗训练期间减轻梯度掩蔽效应在IEEE计算机视觉和模式识别研讨会（CVPRW）上，2019年。2[5] Vivek B.S.，Konda Reddy Mopuri和R.文卡特什先生灰箱对抗训练在欧洲计算机视觉会议（ECCV），2018。2[6] 雅各布·巴克曼，奥科·罗伊，科林·拉菲尔，伊恩·古德费尔-洛.温度计编码：一个抵制对抗性例子的热门方法。2018年国际学习表征会议（ICLR）。2[7] Nicholas Carlini 、 Anish Athalye 、 Nicolas Papernot 、Wieland Brendel、Jonas Rauber、Dimitris Tsipras、IanGoodfellow和Aleksander Madry。对抗鲁棒性的评价。arXiv预印本arXiv：1902.06705，2019。五、八[8] 尼古拉斯·卡利尼和大卫·瓦格纳。神经网络的鲁棒性评价。arXiv预印本arXiv：1608.04644，2016年。二六七[9] 古尼特岛放大图片作者：David D.放大图片创作者：Bernstein ， Jean Kossaifi ， Aran Khanna ， Zachary C.Lipton和Animashree Anandkumar。用于鲁棒对抗防御的随机激活在国际会议上学习表示（ICLR），2018年。2[10] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在 IEEE 计算机视觉和模式识别会议（CVPR），2018。一、二、六、七[11] Logan Engstrom，Andrew Ilyas，and Anish Athalye.评估和理解对抗性logit配对的鲁棒性。arXiv预印本arXiv：1807.10272，2018。6[12] Aditya Ganeshan ， Vivek B.S. ，和 R. 文卡特什先生FDA：功能破坏性攻击。IEEEInternational Conferenceon Computer Vision（ICCV），2019年。2[13] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性示例。国际学习表征会议（ICLR），2015年。一、二、三、四、五[14] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， andLaurens van der Maaten.使用输入变换对抗性图像。在国际会议上学习表示（ICLR），2018年。2[15] 放大图片作者： Anthony D. 作者： Joseph ， BlaineNelson，Ben Rubinstein和J. D.泰加对抗性机器学习在ACM安全和人工智能研讨会上，AISec，2011年。1[16] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。加拿大高级研究所。5[17] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。 arXiv 预印本 arXiv ：1607.02533，2016。5[18] 作者：Alexey Kurakin，Ian J.古德费洛和萨米·本吉奥大规模的广告对抗机器学习。国际学习表征会议（ICLR），2017年。一、二、六[19] 杨乐存。mnist手写数字数据库。http：//yann. 乐村com/exdb/mnist/。四、五[20] Yanpei Liu，Xinyun Chen，Chang Liu，and Dawn Song.深入研究可转移的对抗性例子和黑盒攻击。在国际学习代表会议（ICLR），2017年。1[21] 马兴军，李波，王益森，王晓云. Erfani，Sudan- thiWijewickrema，Grant Schoenebeck，Michael E. Houle，Dawn Song，and James Bailey.利用局部内禀近似性刻画对抗子空间。在国际学习代表会议（ICLR），2018年。2[22] Aleksander Madry ， Aleksandar Makelov ， LudwigSchmidt，Tsipras Dimitris，and Adrian Vladu.对抗攻击的深度学习模型在2018年国际学习表征会议（ICLR）一二三四六[23] 扬 ·H Metzen ， Tim Genewein ， Volker Fischer ， andBastian Bischoff.检测对抗性扰动。2017年国际学习表征会议（ICLR）。1[24] Seyed-Mohsen Moosavi-Dezfoooli ， Alhussein Fawzi ，and Pascal Frossard. Deepfool：一种简单而准确的欺骗深度神经网络的方法。在IEEE计算机视觉和模式识别会议（CVPR），2016年。一、二、六、七[25] Konda Reddy Mopuri、Aditya Ganeshan和R.文卡特什先生用于制作通用对抗性扰动的可推广的无数据目标。IEEE Transactions on Pattern Analysis and MachineIntelligence （ PAMI ）， 41 （ 10 ）：2452-2465 ， Oct.2019. 2[26] Konda Reddy Mopuri ， Utsav Garg ， and R VenkateshBabu.快速功能傻瓜：普适对抗扰动的数据无关方法。英国机器视觉会议（BMVC），2017年。2[27] Nicolas Papernot、Patrick McDaniel、Somesh Jha、MattFredrikson、Z Berkay Celik和Ananthram Swami。深度学习在对抗环境中的局限性。IEEE欧洲安全与隐私研讨会（EuroS P），2016年。1[28] 放大图片作者：

下载后可阅读完整内容，剩余1页未读，立即下载