可学习的边界引导对抗训练在鲁棒性和自然精度方面的有效性

142 浏览量更新于2023-10-15 收藏 690KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15721M可学习的边界引导对抗训练崔杰全1刘舒2王立伟1贾佳雅1，21香港中文大学2SmartMore{jqcui，lwwang，leojia} @ cse.cuhk.edu.hk，liushuhust@gmail.com摘要以前的对抗性训练在自然数据准确性的妥协下提高了模型的鲁棒性。在本文中，我们减少自然精度退化。我们使用来自一个干净模型的模型logits来指导另一个鲁棒模型的学习，考虑到来自良好训练的干净模型的可推广的分类器边界我们的解决方案是从鲁棒模型中约束logits，该鲁棒模型将对抗性示例作为输入，并使其与来自清洁模型的那些相似，该清洁模型提供相应的自然数据。它让鲁棒模型继承干净模型的分类器边界。此外，我们观察到这种边界指导不仅可以保持高的自然精度，而且有利于模型的鲁棒性，这为对抗社区提供了新的见解并促进了进步最后，在CIFAR-10、CIFAR-100和Tiny ImageNet上进行了大量实验，验证了该方法的有效性我们在CIFAR-100上实现了新的最先进的鲁棒性，而无需使用自动攻击基准1的额外真实或合成数据。我们的代码可从https：//github.com/dvlab-research/LBGAT网站。1. 介绍深度神经网络在许多任务中取得了巨大的成功，特别是随着神经架构搜索的激增[58，24，40，11，3]。然而，由于对...安全的深模型，几种方法[14，51，39，36，43，57，43，17，20，37]已经表明，深度模型可能容易受到对抗性攻击。有意创建的数据可能很容易欺骗强大的分类器。为了应对深度神经网络的脆弱性现在有大量的工作探索不同的方法来获得对抗性设置，包括防御蒸馏[30]，特征挤压[53]，基于随机化的方法[49，13]和增强训练1https://github.com/fra31/auto-attack70656055504540353025[27]第21话：我的世界，我的世界[56]方法自然访问稳健访问图1：在白盒攻击下，使用20次迭代PGD评估CIFAR-100的模型稳健性。“自然Acc”表示对自然（干净）数据的分类准确度。“鲁棒Acc”表示对抗性数据的分类准确度。我们的方法（LBGAT+TRADES，α=0）以最小的自然精度退化提高了鲁棒性。与敌对的例子[56，21，27，43]，即对抗训练。然而，训练一个健壮的模型仍然具有挑战性。最近，带有PGD攻击的对抗训练[27]成为一种有效的防御策略。然而，当在图1中绘制最近工作[56，21，27]的结果时，仍然值得注意的是，更高的鲁棒性通常伴随着自然数据分类的更准确性下降。与以往的工作主要追求各种方法来提高鲁棒性不同，我们同时追求自然数据的准确性保持。在本文中，我们提出了一种新的对抗性训练方案，它显着提高了自然数据的分类精度。它还实现了黑盒和白盒攻击下的高鲁棒性。我们利用一个干净的模型中的logits，这个模型只在自然数据上训练，来指导鲁棒模型的学习。图1中示出了概念性图示。2、解释我们的动机。如（a）中所示，当仅在自然（干净）数据上训练时，学习的模型很好地自然分离自然数据（以黄色绘制）。但它可能无法对扰动数据进行分类，并将黑圈错误分类为累积15722MMMMMMMMMMMM213232113312232211313132二13321231132(a) 干净模型的分类器边界（b）我们的鲁棒模型的分类器边界自然M鲁棒M用以前的方法训练图2：我们的方法与以前的对抗训练方法。实线表示训练模型的真实分类器边界，而虚线是干净模型自然的分类器边界。不同的形状表示各种类别中的图像的logit。黑色标记对抗性示例。矩形类以前的标准对抗训练方法，例如，Madry etal.[27]，主要是提高对对抗性样本的鲁棒性。如图图2（c）中，敌对的例子（用黑色绘制）可以用这种策略正确地分类。然而，一些干净的数据是错误的。因此，我们的动机是利用清洁模型M自然，以提高自然数据的我很强壮。为了从干净模型natural中寻求指导，我们期望来自robust的对抗性示例xadv的logit输出与经过natural的相应自然数据x的logit输出相似。如图所示。2（b），我们的鲁棒分类器边界受到干净模型的约束，这有助于将干净数据分类到正确的类别中。与此同时，对抗性示例也被正确标记，受益于ad-对抗性训练计划而不是从一个训练有素的静态自然约束与分类器边界的鲁棒性，我们fur-通过训练自然的和非自然的边界，将我们的方法推广到可学习的边界引导对抗训练（LBGAT）。我们所需的模型鲁棒的同时动态调整分类器边界自然，并学习最健壮友好的一个，以进一步帮助健壮增强健壮性。为了显示我们方法的灵活性，我们将我们的模型分别结合到最先进的方法Ad- versarial Logit Pairing（ALP）[21]和TRADES [56]中，并在基线上实现了显着的改进。有趣的是，在我们的探索中，我们观察到来自自然的分类器边界指导也可以增强模型的鲁棒性，这为我们提供了新的见解，并可能促进对抗鲁棒性的进展。我们在CIFAR-10，CIFAR-100和Tiny ImageNet上进行实验，以评估我们的模型的性能在白盒和黑盒攻击下。我们的模型- els在这些数据集上实现了令人印象深刻的性能，并在很大程度上优于以前的工作。特别是，我们在CIFAR-100上实现了最先进的模型鲁棒性，而无需在当前最流行的自动攻击下使用额外的真实或合成数据。2. 相关工作2.1. 对抗性攻击Szegedy等.[39]观察到CNN容易受到由所提出的框约束L-BFGS 攻击方法计算的对抗性示例的攻击。Goodfellow等人[16]将对抗性示例的存在归因于网络的线性性质，这产生了快速梯度符号法（FGSM），用于有效地生成对抗性示例。FGSM被进一步扩展到不同版本的迭代攻击方法。Kurakin等人[23]表明，对抗性示例可以存在于物理世界中，具有I-FGSM攻击，并且以小步长多次迭代应用FGSM。Madry等人[27]提出了投影梯度下降（PGD）方法作为通用的“一阶对手”，即。最活跃的攻击利用了关于网络的本地一阶信息。Dong等人。[14]将动量项集成到称为MI-FGSM的迭代攻击过程中，以稳定方向的更新并在迭代过程中摆脱不良的局部最大值。该方法获得了更多的可转移对抗样本。此外，DeepFool [29]等基于边界的方法和CW [4]等基于优化的方法也被开发出来，这使得对抗性防御更具挑战性。最近，多种攻击方法的集合-组成15723MMMMMMMθ角APGD-CE [10]、APGD-DLR [10]、FAB [9]和Square攻击[1]，成为测试模型鲁棒性的流行基准。黑盒攻击也有许多方法来探索对抗性示例对于黑盒攻击的可转移性。Liu等人。[25]是第一个研究有针对性的对抗性示例的可转移性的人。他们观察到，很大一部分目标对抗性示例能够使用所提出的基于集合的攻击方法转移其目标标签。Dong等人。[14]表明，结合动量项的迭代攻击方法实现了更好的可转移性。此外，Xie et al.[52]通过创建具有随机调整大小和随机填充的各种输入模式，增强了对抗性示例的可转移性。2.2. 对抗性辩护最近的工作主要集中在发展国防任务Goldblum等人[15]分析了知识蒸馏在对抗训练中的应用，并提出了对抗鲁棒蒸馏（ARD），以将鲁棒性从大型对抗训练模型转移到较小的模型。在本文中，我们建议使用一个由一个自然模型学习的鲁棒性友好的边界，不一定很大，来指导对抗性训练，而没有交叉熵损失。通过这种方式，鲁棒模型可以充分继承分类器边界，从而保持对自然数据的高精度。3. 我们的方法3.1.边界引导对抗训练如Madry et al.[27]，投影梯度下降（PGD）是一个通用的一阶对手。防御PGD的鲁棒方法可能也能够抵抗来自其他一阶方法的攻击。类似地，我们使用PGD的对抗训练作为提高模型鲁棒性的方法，包括基于输入变换的方法，基于随机化的方法[49，13]和对抗训练[56，21，27，43]。阿萨-最小Eθ角（x，y）∈pdata.argmaxL（θ，x+δ，y）Σ（1）δ值Lye等人 [2]表明，使用PGD的对抗性训练经受住了行为攻击。 Trame`r等人 [43]提出的集成对抗训练提高了模型在黑盒攻击下的鲁棒性。通过静态集成模型产生对抗性样本Madry等人 [27]使用普遍的一阶对手，即。、PGD攻击，在对抗训练过程中获取对抗样本。不同的是，Kannan et al.[21]通过对抗性logit配对增强模型鲁棒性，这鼓励来自自然图像和对抗性示例的logit在同一模型中彼此相似。此外，Zhang et al.[56]使用KL-散度函数正则化了自然图像和对抗性示例的输出，同时使用PGD at- tack的变体。 Xie等人。[50]研究了正常化对对抗训练，并提出了混合BN机制-其中pdata是训练数据分布，L（θ，x，y）是具有数据点x及其对应真实标签y的标准交叉熵损失函数。θ表示模型的参数，关于δ的最大化为使用噪声BIM近似[23]。我们将整个论文中的对抗示例x+δ表示为xadv。根据以前的工作[56，27]，δ由l∞有界。我们对鲁棒模型的期望是实现体面鲁棒性，同时在自然图像上保持高精度。如示于图2、利用干净模型的logits来帮助形成鲁棒模型的分类器边界。我们所需的鲁棒模型以xadv作为输入的M鲁棒性应类似于以x作为输入的M自然该关系表示为使用单独的批量归一化层的nat-在一个模型中使用真实的数据和对抗性的例子它仍然minE（x，y）∈pL. Mrobust（xadv），Mnatural（x）Σ（2）需要在推理时知道图像是自然的还是对抗性的强假设，这可能不是那么实际。2.3.知识蒸馏知识蒸馏首先由Hinton等人在[19]中使用该模型随后被广泛应用于从教师模型到学生模型提取知识知识蒸馏的典型自这项工作以来，提出了几种方法[44，31，34，41，26，42，7]，以进一步提高模型压缩和其他性能其中L是我们实验中的均方误差（MSE）损失函数，并且（x）表示模型的logits取x作为输入。θ是鲁棒性参数。我们随机初始化鲁棒离线训练自然数据在我们的实验中。我们的方法可以从分类器边界指导的角度来理解。在这里，我们分析了为什么我们的方法可以在自然数据上产生高性能。自然分类器边界指导既然我们假设natural在自然数据方面训练有素，日志-它从自然界中嵌入了更多用于分类的判别特征，特别是分类器边界。根据数据15724MMMMMMMM--MΣmMMMMMMMMM·M·MM·Mi=1i=1θΣ等式（2），当我们施加logits约束时，系统更多地惩罚在分类中具有更实质性差异的那些对（x和xadv）。因此，这种logit指导使得对抗性数据的鲁棒继承体面的分类器边界实际上，在以下说明中，继承的值得注意的是，对抗示例xadv位于x的l∞球中。根据PGD的最小-最大机制[27]，当对抗训练收敛时，算法1可学习边界引导对抗训练（LBGAT）1：输入：步长η1和学习率η2，批量大小m，内部优化中的迭代次数K，由θ参数化的模型鲁棒性，自然参数化以θ*。β是一个超参数。第二章：输出：稳健模型，θ稳健。3：随机地或用预先训练的配置初始化鲁棒和自然。4：重复对应于xadv的损失值总是大于当通过xadv时对应于x的损失值鲁棒5：读取小批量X={xl，...，Xm{y1，…y m}来自训练集;}，Y=x到相同的模型M中. 因此，当我们拉6：获得对抗性示例X adv={X adv，… x adv}xadv进入正确的类与我们建议的logits con-通过输入1mX、Y;如果x被压缩到正确的类中，则x也被因此，继承的分类器边界从自然分离的自然数据很好，并保持高的自然精度。3.2. 可学习的边界引导高级。培训边界引导对抗训练（BGAT）7：输出n=natural（X）;8：输出r=鲁棒（Xadv）;9：损失ce=交叉熵（σ（输出η），Y）;10：损耗reg=L（输出n，输出r）;11：θ*=θ*−η2m（βlossce+lossreg）/m;12：θ=θ−η2（β损失ce +损失登记方法，鲁棒性受静态的logits约束自然点良好训练的自然具有自然数据的最理想的分类器边界。因此，继承这样的分类器边界，鲁棒性倾向于在自然图像上实现高性能。然而，来自静态自然的分类器边界可能不是用于追求的最合适的选择。 ing鲁棒性。我们将BGAT方法推广到可学习的边界引导对抗训练（LBGAT），通过同时和协作地训练自然和鲁因此，损失函数从等式（1）改变。（2）至13：直到训练收敛3.3. 提高鲁棒性的Zhang等人[56]确定了自然数据性能和鲁棒准确性之间的权衡。Xie等人。[48]观察到对抗性示例有助于对自然图像的泛化能力进行建模。然而，使用仅用自然数据训练的模型来增强模型的鲁棒性仍然是未探索的。相反，我们注意到自然训练模型学习的适当分类器边界minE（x，y）∈pL.Mrobust（xadv），Mnatural（x）Σ不仅有助于保持高的自然准确性，而且θ，θ*数据+β CE。σ（Mnatural（x）），yΣ（3）增强模型鲁棒性（在表5中所示的最强自动攻击[10]下，CIFAR- 100数据集上的2.44%改进）。我们把改善归功于其中xadv是对应于其自然数据x的对抗性示例，y是真实标签。σ（）是softmax函数。 CE表示交叉熵损失，自然和鲁棒分别由θ*和θ 我们使用均方误差（MSE）损失作为L函数。β是折衷参数。在本文中，我们选择β=1。我们随机初始化鲁棒和自然在我们的经验-条款。在所提出的logits约束的正则化下，即，等式中的L（）损失项。（3），在协作训练期间，自然自适应地学习一个最鲁棒性友好的分类器同时，它保证了自然数据上的最小性能退化，其中 CE （）损失项在 Eq.（三）、注意，不存在用于优化鲁棒性的附加交叉熵损失，这使得分类器边界从M自然充分继承。更多细节在算法1中列出。自然分类器边界，解释如下经验上，如图所示。1、逆向训练的模型通常遭受自然精度下降，这意味着逆向训练的模型不能像自然训练的模型那样建模不同类之间的关系。例如，对于狗的图像，自然训练的模型可以以0.5的概率将其误分类为猫。在某些情况下，我们可以接受这个结果，因为有些狗在现实生活中很像猫然而，经过逆向训练的模型可能会以高置信度将狗误分类为卡车，因为攻击者可以将图像的预测更改为任何其他类别。这对我们来说是不可接受的，因为狗和卡车是完全不同的。因此，在自然训练模型的分类器边界的指导下，逆向训练模型可以在一定程度上避免训练优化中的这些问题。）/m;15725M·MM·MM·3.4. 模型灵活性该方法为对抗训练提供了一种新的训练方案。它与其他对抗性训练方法不冲突或重叠。我们通过在其他最先进的方法中使用它来展示我们的方法的灵活性，例如。，对抗性Logit配对（ALP）[21]和TRADES[56]。我们验证了这些基线的改进。与对抗性logit配对相结合对抗性logit配对（ALP）要求自然数据x和对应的对抗性示例xadv的logits在一个模型中相同，这是通过在两个logits输出之间添加额外的均方损失项来实现的。我们将我们的BGAT与ALP结合起来作为损失表1：CIFAR-10上的边界遗传的消融研究。应用20次迭代PGD白盒攻击。我们采用ResNet18作为LBGAT方法的天然 Accn表示自然图像的准确性，而Accr表示模型的鲁棒性。方法访问访问香草AT百分之八十六点八二52.87%交易（α=6）84.92%56.61%LBGAT（α=0）（KL）88.00%56.10%LBGAT（α=0）w/88.35%55.50%LBGAT（α=0）w/o 88.22%57.55%数据集。为了评估我们的模型的鲁棒性，我们在CIFAR-10，CIFAR-100minθ角E（x，y）∈pdataL.Mrobust（xadv），Mnatural（x）ΣTiny ImageNet数据集 CIFAR-10数据集包括+α MSE。Mrobust（xadv），Mrobust（x）Σ（4）其中α是折衷参数。σ（）是softmax函数，y是真标签。θ是参数的鲁棒性。我们将原始ALP损失函数中的交叉熵损失项CE（σ（robust（xadv）），y）替换为我们的等式：（二）、结合TRADES，提出的TRADES算法[56]通过优化一个正则化的代理损失，探索了模型鲁棒性和自然数据准确性之间的权衡我们在TRADES算法中使用BGAT60，000张32x32彩色图像，10个类别，6，000张图像每个班级。有50，000张训练图像和10，000张测试图像。CIFAR-100有100个类，每个类包含600个图像。每个类有500个训练图像和100个测试Tiny Imagenet [12]是ImageNet数据集的一个缩影，它具有更复杂的数据。它有200个班级。每个类有500个训练图像，50个验证图像。在我们的实验中，我们将图像大小调整为32x32，并将像素值归一化为[0，1]。在[56]之后，我们执行标准数据增强，包括在训练期间使用4像素的填充和随机水平翻转进行随机裁剪。培训详情。我们使用相同的神经网络架构-minθ角E（x，y）∈pdataL.Mrobust（xadv），Mnatural（x）Σ如[56]所示，即宽剩余网络WRN-34-10。在[56]之后，我们设置扰动ε=0。031，扰乱-+αDKL。σ（Mrobus t（xadv））||σ（Mrobust（x））Σ（五）其中α仍然是折衷参数。θ是鲁棒性的参数。σ（）是softmax函数，y是真标签。 D KL（）是边界误差项，将分类器边界推离数据点x，最初在TRADES[56]中定义。我们将原始TRADES损失中的交叉熵损失项CE（σ（robust（x）），y）替换为我们的等式：（二）、值得注意的是，我们的LBGAT方法也可以通过简单地替换方程中的第一个损失项而与ALP和TRADES方法组合。（4）和（5）与Eq. （三）、4. 实验在本节中，我们通过按照[ 56 ]中相同的实验设置进行白盒和黑盒攻击来验证我们的方法的有效性，即。采用FGSMk（白盒或黑盒）攻击，迭代次数为20次，扰动大小ε=0。031，步长为0.003。15726MM--M步长η1=0。007，迭代次数K=10，学习率η2= 0。1，批次大小m=128，以及训练时期的数量100，在训练数据集上具有过渡时期75、90。类似地，具有动量的SGD优化器0.9并且采用权重衰减2e-4。4.1. 消融研究4.1.1自然分类器边界继承为了显示从自然的边界继承的重要性，我们进行烧蚀实验，并没有交叉熵损失的鲁棒方程。（三）、实验结果总结于表1中。”w/o” additional cross- entropy 我们也重新-将MSE损失与KL-发散损失置于等式（三）、KL-发散损失鼓励M鲁棒和M自然的输出享受相同的分布，而MSE损失鼓励M鲁棒和M自然的输出具有相同的分布。15727MM表2：用于单独批次归一化的消融研究。在自动攻击下评估鲁棒性。t表示用共享卷积和单独的批归一化训练的模型。（a）贸易可视化。 (b)LBGAT的可视化图3：5个随机选择的类上的LBGAT和TRADES的特征可视化。表3：与香草AT方法的比较。对于BGAT，我们使用WideResNet和InceptionRes的集合NetV2作为M自然. ResNet18作为M自然是为了LBGATCIFAR-10和CIFAR-100上。访问代表准确性在自然图像上，而访问模型代表的稳健性（a）贸易可视化。（b）LBGAT的可视化。图4：20个随机选择的类上的LBGAT和TRADES的特征可视化。相同的分类器边界。在用KL-发散替换MSE之后，我们观察到性能下降。4.1.2特征可视化我们在CIFAR-100中随机抽取5个或20个班级。图中的数字是班级索引。对于每个采样类，我们收集干净图像和相应的对抗性示例的logit特征。如下图所示，LBGAT可以从自然训练的模型继承良好的分类器边界，从而有利于对抗训练模型的自然数据和对抗数据两者的性能。4.1.3单独的批量归一化Xie等人指出，干净和对抗性图像来自两个不同的领域，并且为了归一化而解开混合分布可以增强模型的鲁棒性。然而，在本文中，我们探讨了来自这两个领域的信息的相互作用，即，使用来自干净图像的分类器边界信息来辅助对抗性示例的学习。在这里，我们更深入地探索卷积权重是否可以在CIFAR-100上的实验中自然和鲁棒地实验结果如表2所示。不幸的是，我们观察到鲁棒性下降。4.1.4我们方法我们首先验证了我们的方法与香草对抗训练（AT）相比的有效性。模型鲁棒性的评估 4.第一章我们的BGAT和LBGAT方法都显著优于表3中的结果所示的香草AT。如在Sec中分析。3.2时，BGAT方法具有更高的自然精度，而LBGAT方法具有更强的鲁棒性。由于我们的目标是实现最强的鲁棒性，同时尽可能高地保持自然准确性，因此我们默认使用LBGAT。4.1.5与ALP和TRADES为了验证我们的方法的灵活性，我们表明，结合我们的BGAT和LBGAT方法，ALP和TRADES进一步提高性能。对于ALP、BGAT+ALP和LBGAT+ALP方法，我们按照[21]中的设置采用α=1。对于TRADES方法，我们采用α=6，其中TRADES实现了最佳的鲁棒性，如[56]所示。评估是在白盒攻击下进行的，其设置与Sec.4.第一章我们在表4中总结了结果。通过引入ALP和TRADES正则化项，进一步提高了模型的鲁棒性.对于CIFAR-100，LBGAT+ALP�系我��系我��系我��系我��系我��系我��系我��系我��系我 �联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们联系我们方法访问访问数据集LBGAT（α=0）LBGAT（α=6）70.03%60.43%百分之二十七点零五29.34%CIFAR-100CIFAR-100LBGAT（α=0）†LBGAT（α=6）†64.89%百分之二十四点零二CIFAR-100方法访问访问数据集香草AT60.90%27.46%CIFAR-100BGAT67.72%30.20%CIFAR-100LBGAT66.29%34.30%CIFAR-100香草AT百分之八十六点八二52.87%CIFAR-10BGAT89.00%55.40%CIFAR-1015728M在白盒攻击下，自然准确率和鲁棒准确率分别比ALP高 2.92% 和 6.31% 。同时， BGAT+TRADES 方法在CIFAR-10白盒攻击下的自然准确性和鲁棒性方面也优于TRADES，体现了该方法的灵活性。表4：我们的方法是 ALP 和TRADES的补充。对于BGAT，我们使用WideRes-Net和InceptionResNetV 2模型的集成作为M自然。ResNet1840353025L2035 40 45 50 55 60 65 70黑盒稳健访问（%）被用作对于LBGAT+TRADES和LB-GAT+ALP。Accn表示自然图像的准确性，而Accr表示模型的鲁棒性。方法访问访问数据集ALP59.75%百分之二十八点九四CIFAR-100BGAT+ALP63.46%31.27%CIFAR-100LBGAT+ALP62.67%35.25%CIFAR-100交易（α=1）62.37%25.31%CIFAR-100交易（α=6）56.51%30.94%CIFAR-100BGAT+TRADES（α=0）71.27%28.70%CIFAR-100LBGAT+TRADES（α=0）70.03%33.01%CIFAR-100LBGAT+TRADES（α=6）60.43%35.50%CIFAR-100ALP85.55%54.59%CIFAR-10BGAT+ALP86.58%55.74%CIFAR-10LBGAT+ALP85.05%57.60%CIFAR-10交易（α=1）88.64%百分之四十九点一四CIFAR-10交易（α=6）84.92%56.61%CIFAR-10BGAT+TRADES（α=0）89.06%56.75%CIFAR-10LBGAT+TRADES（α=0）88.22%57.55%CIFAR-10LBGAT+TRADES（α=6）81.98%57.78%CIFAR-104.2. CIFAR-10和CIFAR-100的耐用性白盒常规攻击。我们使用与Sec开头所述相同的设置来评估我们的模型在白盒攻击下的鲁棒性。4.第一章对于CIFAR- 10，我们的LBGAT+TRADES（α=0）在自然图像上达到了88.22%的准确率，比TRADES（α=6）高 3.3% ，同时保持了 57.55% 的鲁棒准确率，比TRADES（α=6）高0.94%。对于CIFAR-100，我们的LBGAT+TRADES（α=0）在自然图像上的准确率为70.03%，鲁棒准确率为33.01% ，比 TRADES （ α=6 ）分别提高了 13.53% 和2.08%。此外，我们的LBGAT+TRADES（α=6）进一步将 CIFAR-10 和 CIFAR-100 的鲁棒性分别提高到57.78%和35.50%。我们还应用了其他几种常规攻击方法，如FGSM和CW，以评估我们的模型。与TRADES相比，我们提出的方法在自然图像上始终实现更好的准确性，在CIFAR-10和CIFAR-100数据集上具有更强的鲁棒性。我们的结果的细节呈现在表5中。注意，CW攻击在这里使用PGD框架内的CW损失来解注。的白盒稳健访问（%）LBGAT+ALPLBGAT+ALPLBGAT+TRADES（a（0）LB贸易GAT+TS（α =6RADES（a）（0）贸易S（α=6）TRADES（α a=1）TRADES（apha=1）15729图5：“黑盒鲁棒访问”表示在黑盒攻击下的分类准确度。红线右侧的模型以干净模型作为源模型进行评估，而红线左侧的模型以稳健模型作为源模型进行评估。更多详情见附录A的表7CW攻击下的评估也具有20次迭代，步长0.003和扰动ε= 0。031白盒自动攻击（AA）。Auto-Attack [10]是使用各种强攻击方法（包括APGD-CE、APGD-DLR、FAB和Square Attack）的集合来可靠地评估模型的鲁棒性。我们使用[10]中的开源代码来测试我们的模型的扰动大小0.031.结果列于表5中。与TRADES（α=6）相比，我们的LBGAT+TRADES （α=0）模型在CIFAR-100和CIFAR-10上分别提高了13.53%和3.30%的自然准确率，同时实现了相当的鲁棒性。我们的LBGAT+TRADES（α=6）模型进一步提高了稳健的准确率，在CIFAR-100和CIFAR-10上分别获得29.34% 和 53.14% ，分别优于 TRADES （ α = 6 ）2.44%和0.5%。黑盒攻击我们验证了我们的模型下的黑盒攻击的鲁棒性。我们首先在CIFAR-10和CIFAR-100数据集上训练模型，而不使用对抗训练本节开头所述的相同网络架构，即，WRN-34-10体系结构[54]。我们将这些自然训练的模型表示为（Natural）。自然训练的WRN-34-10模型在CIFAR-10数据集上的准确率为95.80%，在CIFAR-100数据集上的准确率我们还在两个数据集上使用其开源代码库实现了[56对于这两个数据集，FGSMk（黑盒）方法被应用于攻击各种防御模型。我们设置ε=0。031，并应用具有20次迭代的FGSMk（黑盒）攻击，其中步长设置为0.003。请注意，设置与白盒攻击中指定的设置相同。15730M表5：在CIFAR-10和CIFAR-100上的白盒攻击下，我们的方法与以前的防御模型的比较。我们使用ResNet18作为LBGAT方法的天然Accn表示自然图像的准确性，而Accr表示模型的鲁棒性。AA是最强的攻击，即，自动攻击[10]。* 表示型号为WRN-34-20。国防攻击CIFAR-10CIFAR-100访问访问访问访问基线没有一百分之九十五点八0%的百分比78.76%0%的百分比交易（α=1）FGSM20（ PGD）88.64%百分之四十九点一四62.37%25.31%交易（α=6）FGSM20（ PGD）84.92%56.61%56.50%30.93%LBGAT+ALPFGSM20（ PGD）85.05%57.60%62.67%35.25%LBGAT+TRADES（α=0）FGSM20（ PGD）88.22%57.55%70.03%33.01%LBGAT+TRADES（α=6）FGSM20（ PGD）81.98%57.78%60.43%35.50%交易（α=1）CW20（ PGD）88.64%50.93%62.37%24.53%交易（α=6）CW20（ PGD）84.92%百分之五十四点九八56.50%28.43%LBGAT+ALPCW20（ PGD）85.05%55.78%62.67%31.97%LBGAT+TRADES（α=0）CW20（ PGD）88.22%56.38%70.03%31.14%LBGAT+TRADES（α=6）CW20（ PGD）81.98%55.53%60.64%31.50%交易（α=1）AA88.64%48.11%62.37%22.24%交易（α=6）AA84.92%52.64%56.50%26.87%LBGAT+TRADES（α=0）AA88.22%52.86%70.03%百分之二十七点零五LBGAT+TRADES（α=6）AA81.98%53.14%60.43%29.34%LBGAT+TRADES（α=0）*AA88.70%53.58%71.00%27.66%LBGAT+TRADES（α=6）*AA83.61%54.45%62.55%30.20%CIFAR-100的结果总结见附录A的表7我们使用源模型来生成adversar- ial扰动，其中扰动方向是根据输入图像上的源模型的梯度。我们的模型对从自然训练模型和TRADES转移的黑盒攻击更具鲁棒性[56]，同时在白盒攻击下产生更强的鲁棒性和对自然图像的更高性能具体而言，我们的最佳模型比TRADES（α=6）分别高出12.83%和8.60%，其中自然训练模型和鲁棒模型分别作为CIFAR上的源模型100. 对于具有一个鲁棒源模型的黑盒攻击下的鲁棒性，我们的模型在TRADES（α=6）下进行测试，而TRADES在我们的LBGAT训练模型下进行测试。我们的方法和TRADES之间的更多比较如图5所示，其显示了更多挑战的结果延长数据集CIFAR-100。4.3. Tiny-ImageNet上的鲁棒性为了进一步证明我们的方法对更复杂数据的有效性，我们在Tiny ImageNet上进行了实验。表6示出了实验结果。我们的方法优于ALP和TRADES，以较大的幅度超过基线。具体来说，我们的LB-GAT +TRADES（α=0）在自然数据上比最稳健的基线TRADES（α=6）平均高出9.29%，而LBGAT+TRADES（α=6）在对抗数据上比它高出3.00%，这再次验证了我们方法的有效性。15731M表6：Tiny ImageNet上的结果[12]。在20次迭代PGD白盒攻击下应用与CIFAR相同的评估设置。我们采用ResNet 18作为天然的LB-GAT方法。Accn表示自然图像的准确性，而Accr表示模型的鲁棒性。方法访问访问数据集香草AT30.65%6.81%微型ImageNetLBGAT36.50%14.00%微型ImageNetALP30.51%8.01%微型ImageNetLBGAT+ALP33.67%14.55%微型ImageNet交易（α=6）38.51%13.48%微型ImageNetLBGAT+TRADES（α=0）47.80%百分之十四点三一微型ImageNetLBGAT+TRADES（α=6）39.26%百分之十六点四二微型ImageNet5. 结论在本文中，我们提出了可学习的边界引导对抗训练（LBGAT）方法，以提高模型的鲁棒性，而不会损失太多的自然数据的准确性。我们的方法可以从自然分类器边界指导的角度来理解。此外，一个有趣的现象，从自然训练的模型的边界指导也可以提高模型的鲁棒性，在我们的探索过程中观察到。最后，在CIFAR-10、CIFAR-100和更具挑战性的TinyImageNet数据集上进行了广泛的实验，证明了我们方法的有效性。15732引用[1] Maksym Andriushchenko ， Francesco Croce ， NicolasFlam-marion，and Matthias Hein.广场攻击：通过随机搜索的高效查询黑盒对抗攻击。在ECCV，2020年。三个[2] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在ICML，2018。三个[3] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。在ICLR，2020年。一个[4] Nicholas Carlini和David A.瓦格纳。评估神经网络的鲁棒性。在IEEE SP，2017年。二个[5] Alvin Chan，Yi Tay，Yew Soon Ong和Jie Fu。鲁棒性的雅可比逆向正则化网络。2019年，在ICLR。十二个[6] Jinghui Chen，Yu Cheng，Zhe Gan，Quanquan Gu，andJingjing Liu.通过后向平滑的高效鲁棒训练。arXiv预印本arXiv：2010.01278，2020。十一、十二[7] Pengguang Chen，Shu Liu，Hengshuang Zhao，and JiayaJia.通过知识回顾提炼知识。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第5008-5017页三个[8] Tianlong Chen，Sijia Liu，Shiyu Chang，Yu Cheng，Lisa Amini，and Zhangyang Wang.对抗鲁棒性：从自我监督预训练到微调。在CVPR，2020年。12[9] F. Croce和M.嘿具有快速自适应边界攻击的最小失真对抗示例在ICML，2020。3[10] 弗朗切斯科·克罗齐和马蒂亚斯·海因。可靠的评估对抗鲁棒性与不同的参数自由攻击的合奏。在ICML，2020。二、三、四、七、八、十二[11] Jiequan Cui， Pengguang Chen ， Ruiyu Li ， Shu Liu ，Xiaoyong Shen，and Jiaya Jia.快速实用的神经结构搜索。在ICCV，2019年。一个[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。五、八[13] 古尼特岛放大图片创作者：Michael C. Lipton，JeremyBernstein ， JeanKossaifi ， AranKhanna ， andAnimashree Anandkumar.用于鲁棒对抗防御的随机激活修剪。在ICLR，2018年。第1、3条[14] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jian

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

可学习的边界引导对抗训练在鲁棒性和自然精度方面的有效性

提高对抗鲁棒性有什么方法

模型的鲁棒性：对抗性示例作为输入，可提高鲁棒性。可以使用对抗性训练技术来提高模型的鲁棒性，使其能够更好地处理不同的输入数据。如何对抗性训练

边界值测试和鲁棒性测试有什么区别

对抗鲁棒性是什么意思

模型加固 对抗训练

深度学习模型中常说的鲁棒性就是健壮性对嘛，这是说对什么东西健壮，这个健壮性和模型预测结果比如精度的稳定性是一回事么

yolov5提高模型鲁棒性

yolov5实现对抗训练、

基于多模态学习和对抗网络的音频-视觉语音识别鲁棒性探索

如何提高vins-fusion算法的鲁棒性和精度

怎么进一步提高模型性能和鲁棒性

随机转换防御的对抗鲁棒性是什么

鲁棒性和泛化之间的区别和联系

详细介绍深度学习的鲁棒性特点

如何由loss分析模型的鲁棒性

bert ner对抗训练

python 绘制深度学习鲁棒性的图

图像相似度方面的鲁棒性

图卷积神经网络鲁棒性

对抗训练pytorch

最新资源

模型加固对抗训练