约束权值扰动的鲁棒性提高方法

112 浏览量更新于2024-02-04 收藏 657KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文--·{∈ V|||| ≤|| || }||−||≤VWv∈V n||x'− x||≤ єw+v我我对抗训练于朝建1、韩博2、龚明明3、李申4、葛世明5、杜博6、刘同良1<$1澳大利亚悉尼大学计算机科学学院可信机器学习实验室2中国3澳大利亚墨尔本大学数学与统计学院4JD Explore Academy，中国5中国科学院信息工程研究所6武汉大学计算机学院chyu 8051，tongliang.liu @ sydney.edu.au，bhanml@comp.hkbu.edu.hk，mingming. unimelb.edu.au，mathshenli@gmail.com，geshiming@iie.ac.cn，gunspace@163.com摘要过拟合广泛存在于深度网络的对抗性鲁棒训练一种有效的补救方法是对抗性权重扰动，它通过最大化对抗性样本的分类损失来对抗性权重扰动有助于减少鲁棒泛化差距;然而，它也破坏了鲁棒性的提高。因此，调节权重扰动的标准对于对抗训练至关重要本文提出了约束扰动的损失稳定条件（LSC）.在LSC算法中，我们发现在分类损失较小的对抗数据上进行权值扰动是消除鲁棒过拟合的必要条件。对具有大分类损失的对抗数据进行权重扰动是不必要的，甚至可能导致鲁棒性差在此基础上，提出了一种鲁棒扰动策略来约束权值扰动的程度。扰动策略防止深度网络过度拟合，同时避免过度权重扰动的副作用，显著提高对抗性训练的鲁棒性。广泛DNN的脆弱性引起了广泛的关注，并导致了大量的防御技术对抗性的例子。在现有的防御中，对抗训练（AT）是最强大的经验防御之一。AT直接将对抗性示例合并到训练过程中，以解决最小-最大优化问题[Madryet al. ，2017]，其可以获得具有中等对抗鲁棒性的模型，并且尚未被全面攻击[Atha-Badet al. ，2018]。然而，与自然训练场景不同，过拟合是深度网络对抗性鲁棒训练中的主要现象[Riceet al. ，2020]。在AT中的某个点之后，测试数据的鲁棒性能将随着进一步的训练而继续下降，如图1（a）所示。这种现象被称为鲁棒过拟合，违反了深度学习中的常见做法，即使用过参数化网络并尽可能长时间地进行训练[Belkinet al. ，2019]。AT中的这种异常对鲁棒泛化性能和后续算法评估造成不利影响[Riceet al. ，2020;Chen等人，2020]。因此，减轻鲁棒过拟合的救济技术对于对抗训练至关重要。鲁棒过拟合的有效补救措施是对抗性权重扰动（AWP）[Wuetal. ，2020]，其形成反向扰动的双扰动机制，输入和权重：n实验证明了亲，在最先进的对抗性f（x′，y），（1）i=11介绍尽管深度神经网络（DNN）已经在计算机视觉等许多领域取得了令人印象深刻的突破[Heet al. ，2016]，语音识别[Wanget al. ，2017]和NLP [Devlinet al. ，2018年]，它们非常容易受到对抗性示例的影响，这些示例是通过向正常示例添加小的和人类无法感知的扰动而制作的[Szegedyet al. ，2013;Goodfellowet al. ，2014]。这项工作是在JD Explore Academy实习期间完成的†通讯作者其中，n是训练示例的数量，x′i是x i的对抗示例，f w是具有权重w的DNN，l（）是损失函数，k是输入的最大扰动约束（即，，x′ix ip），并且是权重的可行扰动区域（即，得双曲余切值.：v2其中γ是对权重扰动大小的约束）。内部最大化是在以正常样本xi为中心的球内找到对抗样本xi′i，从而最大化分类。阳离子损失湖另一方面，外部最大化是找到使对抗性示例上的损失l最大化的权重扰动v，这就是在对抗样本上训练权重扰动鲁棒分类器的问题。因此，重量arXiv：2205.14826v1 [cs.LG] 2022年5月我培训方法。我p+v：mala2277获取更多论文p·“x”XєеUBnєW我我Bе（x）xk−1W扰动被发现直接影响外部最小化的性能，即。分类器的鲁棒性几种攻击方法已被用来解决内最大化问题的方程。(1)，诸如快速梯度符号方法（FGSM）[Goodfellowetal. ， 2014] 和预计梯度下降（ PGD ） [Madryet al. ，2017]。对于外部最大化问题，AWP [Wuet al. ，2020]注入最坏情况的权重扰动以减小鲁棒泛化间隙。然而，尚未探讨权重应在多大程度如果没有适当的标准来调节权重扰动，对抗训练过程很难发挥其全部力量，因为最坏情况下的权重扰动将破坏鲁棒性的提高（第3节）。在本文中，我们提出了这样一个标准，即损失平稳条件（LSC）的约束扰动（在第3节），这有助于更好地理解鲁棒过拟合，这反过来又促使我们提出了一个改进的权重扰动策略，以提高对抗鲁棒性（在第4节）。我们的主要贡献如下：• 我们提出了一个原则性的准则LSC来分析对抗性的权重扰动。它提供了一个更好的下-AutoAttack（AA）. AA[Croce and Hein，2020]是一种互补攻击的集合，由三种白盒攻击和一种黑盒攻击组成。AA认为只有当模型正确分类所有类型的对抗性示例时，模型才是鲁棒的，这是迄今为止对抗性鲁棒性最可靠的评估之一2.2对抗性辩护自从发现对抗性示例以来，已经出现了大量用于防御对抗性攻击的作品，例如输入去噪[Wuet al. ，2021]，对抗性噪声建模 [Zhouet al. ， 2021] 和对抗训练[Goodfellowet al. ，2014;Madryet al. ，2017]。其中，对抗训练已被证明是最有效的方法之一[Athalyeet al. ，2018]。基于对抗训练，然后提出了广泛的后续工作，以进一步提高模型的鲁棒性。在这里，我们介绍两个目前最先进的AT框架。行业. 贸易[Zhanget al. ，2019]优化了正则化的替代损失，这是自然准确性和对抗鲁棒性之间的权衡：n鲁棒过拟合在对抗训练中的地位，也是有效权重扰动的良好指示符• 利用LSC，我们发现，lTRADES（w; x，y）= 1. CE（f（x），y）i=1权重与对抗性数据的扰动有关分类损失小对于对抗性数据，+βmax∈Bе（x）KL（fw（xi）||fw（x′i）），（5）大的分类损失、重量扰动是不必要的，甚至可能是有害的。• 我们提出了一个强大的扰动策略，以约束的权重扰动的程度。实验表明，该鲁棒策略显著提高了对抗训练的鲁棒性2相关工作2.1对抗性攻击设X表示输入特征空间，并且Bp（x）={x′∈X：其中CE是鼓励网络最大化自然准确性的交叉熵损失，KL是鼓励提高鲁棒准确性的Kullback-Leibler散度，β是控制自然准确性和对抗鲁棒性之间的权衡的超参数。强大的自我训练（Robust Self-Training）。[Carmonetal. ，2019年]利用从8000万微小图像数据集中提取的额外50万未标记数据。首先利用替代门自然模型为这些未标记的数据生成伪标签，然后用这两种方法反向训练网络||x′− x||p ≤}为lєp-范半径以x为附加的伪标记的未标记数据（x= 0，y= 0）和原始数据（x=0，y=0）在监督设置中的标记数据（x，y）in .这里我们有选择地介绍几种常用的对抗性攻击方法。快速梯度符号法（ FGSM ）。 FGSM [Goodfel-lowetal. ，2014]沿梯度方向以步长为1的步长扰动自然样本x：x′=x+f·sign （ fxl （ f w （ x ）， y ）） .（2）投影梯度下降（PGD）。 PGD [Madry et al. ，2017]是FGSM的一个更强的迭代变体，它以更小的步长α扰动多个步长K的正常示例x：x0U（Bp（x）），（3）x k=10p（x k−1+α·sign（l（f（xk−1），y）），（4）lRS T（w;x，y，x，y）=lTRADE S（w;x，y）+λ·lTRADE S（w;x，y），（6）其中λ是未标记数据的权重。2.3鲁棒过拟合目前，已有有效的对策来缓解自然训练中的过拟合现象。但在对抗训练中，鲁棒过拟合广泛存在，自然训练中常用的对抗措施帮助不大 [Riceet al. ， 2020] 。[Schmidtet al. ，2018]部分从样本复杂性的角度解释了鲁棒过拟合，并得到了衍生作品中的经验结果的支持，例如半监督学习的对抗训练[Carmonet其中表示均匀分布，x0表示受小的均匀随机噪声干扰的正常示例，x k表示步骤k处的对抗示例，并且如果需要，则表示将对抗示例投影回集合Bp（x）的投影函数。特征[Songet al. ，2020]和数据插值[Zhang andXu，2019;Leeet al. ，2020; Chen等人，2021]。单独的工作也试图通过数据的不平等处理来减轻鲁棒过拟合[Zhanget al. ，2020]和权重平滑[Chenet al. ，2020]。最近的研究[Wuetal. [2020]揭示了al. ，2019;Uesatoet al. ，2019;Zhaiet al. ，2019年]，强大的本地+v：mala2277获取更多论文≤0.90.80.70.60.50.40.30.2培训0.1测试00 50 100 150200时代0.60.550.50.450.40.350.30.250.20γ γ/8 γ/4 γ/2γ2γ 4γ 8γ权扰动大小0.60.550.50.450.4列车：AWP-0γ系列：AWP-γ/8系列： AWP-γ/4 系列：AWP-γ/2系列：AWP-γ0 50 100 150200时代0.60.550.50.450.40.350.30.25列车：AWP-0γ系列：AWP-γ系列：AWP-2γ系列：AWP-4γ系列：AWP-8γ0 50 100 150 200时代(a) 学习曲线（b）鲁棒性与权重扰动大小0.60.580.6在AWPAWP-LSC[0，1）0.60.580.65在AWPAWP-LSC[0，0.5）0.560.55AWP-LSC[1，2]AWP-LSC[2，3]AWP-LSC[3，4]0.560.6个单位A W P - L S C [0，1.0）AWP-LSC[0，1.5）AWP-LSC[0，2.0）0.540.520.50.50.45AWP-LSC[4，5]0.540.520.50.550.50.45AWP-LSC[0，2.5）AWP-LSC[0，3.0）0.40 50 100 150 200时代(c)稳健性与LSC范围0.40 50 100 150 200时代图一：（一）：香草AT的学习曲线;（b）：测试AWP的鲁棒性与不同的权重扰动大小;（c）：测试AWP的鲁棒性与不同的LSC范围。的平坦性的重量损失景观和强大的泛化差距之间的联系，并提出了将对抗权值扰动机制的对抗训练框架。尽管对抗性权重扰动在抑制鲁棒过拟合方面具有有效性，但对鲁棒过拟合的更深入理解和有效权重扰动的明确方向在很大程度上是缺失的。Eq. (1)缺乏一个有效的准则来调节和约束权值扰动的程度，这反过来又影响了外部极小化的优化。本文提出了这样一个准则，并对鲁棒过拟合提供了新的理解.在此之后，我们设计了一个鲁棒的权重扰动策略，显着提高了对抗训练的鲁棒性。3损失平稳条件在这一部分中，我们首先实证研究了权值扰动鲁棒性与对抗鲁棒性之间的关系，然后提出了一个对抗权值扰动的分析准则为此，对鲁棒过拟合和权扰动进行了讨论.权重扰动鲁棒性一定会导致更好的对抗鲁棒性吗？首先，我们研究是否对权重扰动的鲁棒性是有益的对抗鲁棒性。特别地，我们使用从0γ、γ/8、γ/4、γ/2、γ、2γ、4γ到8γ的不同权重扰动大小，在CIFAR-10上用AWP训练Pre-Act ResNet-18。在在每个设置中，我们评估模型的鲁棒性，对CIFAR-10测试图像的20步PGD（PGD-20）攻击如图1（b）所示，当权重扰动大小较小时，最佳对抗鲁棒性有一定的提高。然而，当权重扰动大小较大时，最佳对抗鲁棒性开始随着扰动大小的增加而显著降低。这可以解释为，当权重扰动较大时，网络不得不牺牲对抗鲁棒性来分配更多的容量来抵御权重扰动，这表明权重扰动鲁棒性和对抗鲁棒性并不是互利的。如图1（b）所示，AWP的每平方增益主要是由于抑制鲁棒过拟合。损失稳定条件。为了进一步分析权重扰动，我们提出了一个标准，根据分类损失将训练对抗样本分为不同的组LSC[p，q]={x′∈ X |p ≤ l（f w（x′），y）≤q}，（7）其中p q。该组中的对抗数据都在一定范围内满足其对抗损失，这被称为损失平稳条件（LSC）。提出的准则LSC允许独立地分析分组对抗数据，并提供了更多的见解鲁棒过拟合。对抗性权重扰动的LSC视图。为了更深入地了解AWP如何抑制鲁棒过拟合，我们通过改变执行对抗权重扰动的LSC组来在CIFAR-10上训练PreAct ResNet-18在每种情况下，我们评估模型的鲁棒性，稳健性测试稳健性测试稳健性测试稳健性测试稳健性测试稳健性测试稳健性测试稳健性+v：mala2277获取更多论文BfoBrk=1 toK1dovk+1= vk+vkBx′ ←（x′+α·sign（x'l（fw（x'），y））ni=1（八）w+vk我我min算法1鲁棒权重扰动（RWP）输入：网络fw、训练数据S、最小批量、批量大小n、学习率η、PGD步长α、PGD步长K1、PGD约束条件α、RWP步长K2、RWP约束条件γ、最小损失值c min。输出：逆向稳健模型fw。重复从训练集S读取mini-batchxB。可用于在细粒度级别上约束权重扰动的程度因此，我们建议对低于最小损失值的对抗样本进行权重扰动，以确保不会发生鲁棒过拟合，同时避免过度权重扰动的副作用。设cmin为最小损失值。代替在等式中经由外部最大化生成权重扰动v，(1)，我们生成v如下：x′←xB+δ，其中δ<$Uniform（−<$，<$）1<$endBf或BBB对于k= 1到K2，’。0如果l（fw+vk（x′i），yi）>cmin初始化v=0其中I（xi，yi）=1如果l（f（x′），y）≤cV_n=I_B（l（f_w+v（x′），y）≤c_min）如V= 0，然后断开提出的鲁棒权重扰动（RWP）算法-其他v←v+v（V·l（fw+v（x′），y））也可以扩展到其他变体，例如v ←γ v||W ||B贸易[Zhang et al. ，2019]和[Carmon et al. 、如果结束，则结束||v||2019年]。最小损失值cmin控制范围在网络训练过程中的权重扰动例如，在训练的早期阶段，adver的分类损失w←（ w+v）−η<$w+v1<$nnl（fw+v（x′（i）），y（i））−vsarial示例通常大于c对应于直到训练集中i=1Bmin无重量扰动过程。对抗样本的分类损失在PGD-20攻击CIFAR-10测试图像。如图1（c）所示，当改变LSC范围时，我们可以观察到，对具有小分类损失的对抗性示例进行对抗性权重扰动足以消除鲁棒过拟合。然而，对具有大分类损失的对抗性样本结果表明，为了消除鲁棒过拟合，必须防止模型记住这些易于学习的对抗性示例。此外，还观察到对具有较大分类损失的对抗样本进行对抗权重扰动会导致对抗鲁棒性变差，这再次验证了对抗权重扰动的鲁棒性不会带来对抗鲁棒性的增益，甚至相反，它会破坏对抗鲁棒性的增强.我们真的需要最坏情况下的重量扰动吗如前所述，对权重扰动的鲁棒性不利于对抗鲁棒性的提高。因此，为了完全消除鲁棒过拟合，没有必要在这些对抗性示例上进行最坏情况的权重扰动。在下一节中，我们将介绍-在每个优化步骤中，我们监控对抗样本的分类损失，并对分类损失小于cmin的对抗样本进行权重扰动处理，由指示符控制向量V启用。在每个扰动步骤中，权重扰动v将被更新以增加对应对抗性示例的分类损失。当训练对抗样本的分类损失均大于cmin或扰动步数达到定义值时，停止权值扰动过程，注入生成的权值扰动v进行对抗训练。5实验在本节中，我们进行了全面的实验，以评估RWP的有效性，包括其实验设置，鲁棒性评估和消融研究。5.1实验装置基线和实施细节。我们的实现基于PyTorch，代码是公开可用的 1 。我们在三个基准数据集（CIFAR-10 ，CIFAR-100和SVHN）和两个提出了一个强大的扰动策略来解决这个问题。威胁模型（L和L）。我们使用PreAct ResNet-18[He等人]∞24鲁棒权重扰动，2016年[和Wide ResNet（WRN-28-10和WRN-34-14）10)Zagoruyko和Komodakis，2016]作为网络结构，如第3节所述，对具有小分类损失的对抗性样本进行对抗性权重扰动足以防止鲁棒过拟合，并导致更高的然而，对具有大分类损失的对抗性示例进行对抗性权重扰动可能没有帮助。回顾在2004年12月23日第1996/2007号决议中提出的[Wuet al. ，2020]。我们比较了所提出的方法在许多基线方法上的性能：1）没有权重扰动的标准对抗训练，包括香草 AT [Madryet al. ， 2017] ， TRADES [Zhangetal. ，2019]和[Carmonet al. ，2019]; 2）AWP对抗训练[Wuet al. ，2020年]，包括AT-第3节，我们已经看到，损失与对抗性例子的过度拟合倾向。因此，它1https://github.com/ChaojianYu/Robust-Weight-PerturbationnI（x′i，yi）l（fw+vk（x′i），yi），Rithm在算法1中示出。我们使用PGD攻击[Madry等人、 2017]生成训练对抗考试-+v：mala2277获取更多论文×∞∞∞威胁模型方法 SVHN CIFAR-10L∞AT-AWP 59.49± 0.15 55.16± 0.10 55.54± 0.20 54.64± 0.25 30.89± 0.21 30.48± 0.43AT-RWP61.15±0.16 57.45±0.23 58.55±0.50 58.01±0.33 31.17±0.18AT 66.71± 0.24 65.25± 0.19 69.40± 0.38 66.02± 0.15 40.95± 0.13 36.24± 0.26L2AT-AWP 72.80± 0.30 68.40± 0.20 72.72± 0.21 72.48± 0.45 45.63± 0.48 44.98± 0.30AT-RWP73.35±0.20 69.48±0.32 74.47±0.14 73.84±0.27 45.71±0.17 45.05±0.30表1：使用PreAct ResNet-18测试AT、AT-AWP和AT-RWP的稳健性（%）国防自然FGSMPGD-20公司简介C W∞AA在86.52± 0.5761.91± 0.1555.47± 0.1055.15± 0.2854.51± 0.1952.18± 0.04AT-AWP85.67± 0.4064.31± 0.2358.57± 0.2258.46± 0.1755.78± 0.3253.63± 0.09AT-RWP86.86± 0.5166.22± 0.3162.87± 0.2562.87± 0.3456.62± 0.1854.61± 0.11交易84.42± 0.3661.20± 0.0956.05± 0.1355.85± 0.2053.67± 0.1452.64± 0.07贸易-AWP84.55± 0.3062.99± 0.3059.20± 0.2459.05± 0.3155.92± 0.2055.32± 0.05TRADES-RWP86.14± 0.4364.70± 0.1760.45± 0.1960.30± 0.3058.07± 0.3357.20± 0.09RST89.88± 0.3670.08± 0.6262.40± 0.5162.08± 0.3161.14± 0.4659.71± 0.10RST-AWP88.01± 0.6868.00± 0.2363.67± 0.3863.50± 0.1160.55± 0.2159.80± 0.08RST-RWP88.87± 0.5569.71± 0.1264.11± 0.1663.92± 0.2662.03± 0.2360.36± 0.06表2：在L∞威胁模型下使用Wide ResNet对CIFAR-10进行稳健性测试（%）。AWP、TRADES-AWP和RST-AWP。对于训练，网络使用动量为0.9 ，权重衰减为5 的 SGD 训练 200个 epoch10−4，初始学习率为0.1. 学习率在第100次时除以10，第一百五十个纪元应用标准数据增强，包括具有4像素填充的随机裁剪和随机水平翻转。为了测试，通过测量模型在不同的对抗性攻击下的准确性来评估模型的鲁棒性。对于RWP中的超参数，我们对所有数据集设置扰动步长K2=10 最小损失值cmin=1 。对于 CIFAR-10 和 SVHN 为 7 ，并且 cmin=4。CIFAR-100为0。 γ = 0. 对于AT-RWP，γ = 0。005对于TRADES-RWP和RST-RWP，低文献[Wuet al. ，2020]。其他超参数的基线按照其原始文件配置。对抗性设置。训练攻击是随机开始的10步PGD攻击。我们遵循相同的设置[Riceet al. ，2020]：对于L威胁模型，步长 =8/255SVHN 的 α=1/255 ， CIFAR 10 和CIFAR 100的α = 2 / 255;对于L2威胁模型，所有数据集的α=128/255，步长α=15/255，这是对抗训练的标准设置[Madry et al. ，2017]。测试用于鲁棒性评估的攻击包括FGSM、PGD- 20、PGD-100、CW∞和自动攻击（AA）。5.2耐用性评价绩效评估。为了验证所提出的RWP的有效性，我们使用PreAct ResNet-18在不同的基准数据集和威胁模型上对vanilla AT、AT-AWP和AT-RWP进行性能评估。我们在PGD-20下的测试图像上报告了准确性。评价结果总结在表1中，其中“Best” denotes the highest robustness that ever achieved atdifferent观察到vanilla AT遭受严重的鲁棒过拟合（“最佳”和“最后”之间的性能差距AT-AWP和AT-RWP方法由于抑制了鲁棒过拟合，与普通AT模型相比，性能差距显着缩小此外，在CIFAR-10数据集下的L攻击，香草AT达到52.32%的AT-AWP方法将性能提高到55.54%。在标准的20步PGD攻击下，该方法的准确率比普通AT提高了6.23%，比AT-AWP提高了3.01%，达到了58.55%在其他数据集和威胁模型上也观察到了类似的模式。AT-RWP在广泛的数据集和威胁模型上持续提高了测试的鲁棒性，证明了所提出方法的有效性。对最先进的鲁棒性进行基准测试。为了证明我们提出的扰动策略的全部功能，并在L威胁模型下对CIFAR-10进行最新的鲁棒性测试，我们使用不同的基线方法在大容量网络上进行了实验。我们为AT和TRADES训练了Wide ResNet-34-10，为Wide ResNet- 28-10训练了WideResNet- 28-10。我们用各种测试攻击评估训练模型的对抗鲁棒性，并报告“最佳”测试鲁棒性，结果如表2所示。 “Natural” denotes the accuracy on natural test 首先，据观察，RWP模型的自然精度始终优于AWP的大幅度。这是由于我们的RWP的好处，避免了过度的重量扰动。此外，RWP实现了最佳的对抗性鲁棒性，几乎可以抵御各种类型的攻击。最好最后最好最后最好最后在53.22± 0.2045.13± 0.1752.32± 0.3145.08± 0.1927.79± 0.4520.95± 0.30+v：mala2277获取更多论文∞∞0.60.580.560.540.520.5RWP在AWP1.01.2 1.4 1.6 1.8 2.0 2.2c分钟0.590.5850.580.5750.571 2 3 4 5 6 7 8 9 10K20.60.550.50.450.40.350.3在AWPRWP0 50 100 150 200时代(a) 最小损失值c分钟(b) 步数K2(c) RWP对对抗鲁棒性和鲁棒过拟合图2：CIFAR-10的消融研究实验。一系列的基线方法，这验证了RWP在一般情况下是有效的，并且可靠地提高了对抗鲁棒性，而不是不适当地调整攻击的超参数，梯度混淆或掩蔽。5.3消融研究在这一部分中，我们研究了在L威胁模型下使用AT-RWP的算法组件对PreAct ResNet-18的影响，并遵循第5.1节中的相同设置。最小损失值的重要性。我们通过比较使用不同权重扰动方案训练的模型的性能来验证最小损失值c min的有效性：1）AT：没有权重扰动的标准对抗训练（相当于cmin=0）; 2）AWP：通过等式中的外部最大化生成的权重扰动。(1)（等价于c_min=）; 3）RWP：使用具有不同c_min值的所提出的鲁棒策略生成的权重扰动。除了所使用的扰动方案之外，所有其他超参数都保持完全相同。结果总结见图2（a）。据观察RWP模型的检验稳健性随最小损失值的增大先增大后减小，在cmin = 1时检验稳健性最好。7 .第一次会议。很明显，具有宽范围的cmin的RWP优于AT和AWP方法，证明了其有效性。此外，由于它是不同于AWP管道的主要组件，因此该结果表明，所提出的LSC约束是提高对抗鲁棒性的主要贡献者。步骤数的影响通过比较不同扰动步数训练的模型的性能，进一步研究了步数K2的影响. RWP的步数K2在1到10之间变化。结果如图2（b）所示。正如所料，当K2较小时，增大K2可提高检验的稳健性. 当K2从7增加到10时，性能是平坦的，这表明生成的权重扰动足以彻底避免鲁棒过拟合。请注意，额外的迭代将当对抗样本的分类损失超过最小损失值c min时，不会带来计算开销，如算法1所示。因此，我们在实现中统一使用K2=10。对抗鲁棒性和鲁棒过拟合的影响然后，我们将AT、AWP和RWP的学习曲线可视化，如图2（c）所示。可以观察到，随着训练的进行，RWP模型的测试鲁棒性继续增加。此外，在训练后期，RWP的表现明显优于AWP这样的观察准确地反映了我们方法的本质，该方法旨在防止鲁棒过拟合，并提高对抗训练的鲁棒性。六、结论本文提出了一个约束权扰动的准则--损失平稳条件（LSC）.该准则的提出为鲁棒过拟合提供了一种新的理解.基于LSC，我们发现通过对分类损失小的对抗样本进行权值扰动，可以消除鲁棒过拟合，提高对抗训练的鲁棒性，而不是对分类损失大的对抗样本进行权值扰动。在此基础上，提出了鲁棒权值扰动（RWP）策略来调节权值扰动的程度.综合实验表明，RWP是通用的，可以提高最先进的对抗鲁棒性在不同的对抗训练方法，网络架构，威胁模型和基准数据集。确认本工作得到了北京市自然科学基金（19 L2040）、国家自然科学基金青年科学家基金（No.62006202）、广东省基础与应用基础研究基金（No.2022A1515011652）和科技创新2030-测试稳健性测试稳健性测试稳健性+v：mala2277获取更多论文引用[Athalye et al. Anish Athalye ， Nicholas Carlini 和 DavidWagner。模糊梯度给人一种虚假的安全感：规避对抗性示例的防御国际机器学习会议，第274-283页。PMLR，2018年。[Belkin et al. ， 2019] Mikhail Belkin ， Daniel Hsu ，Siyuan Ma，and Soumik Mandal.验证现代机器学习实践和经典的偏差-方差权衡。美国国家科学院院刊，116（32）：15849[Carmon et al. Yair Carmon，Aditi Raghunathan，LudwigSchmidt，Percy Liang和John C Duchi。未标记的数据提高了对抗鲁棒性。 arXiv 预印本 arXiv ：1905.13736，2019。[Chen et al. 陈天龙，张振宇，刘思佳，常世玉，王张扬。鲁棒过拟合可以通过适当学习平滑来减轻。在2020年国际学习代表会议上[Chen et al. ChenChen ， Jingfeng Zhang ， Xilie Xu ，Tianlei Hu ， Gang Niu ， Gang Chen ， and MasashiSugiyama.用于对抗训练的引导插值。arXiv预印本arXiv：2102.07327，2021。[Croce和Hein，2020] Francesco Croce和Matthias Hein。对抗鲁棒性的可靠评估与各种参数的攻击。在机器学习国际会议上，第2206PMLR，2020年。[Devlin et al. Jacob Devlin，Ming-Wei Chang，Ken- tonLee，and Kristina Toutanova. Bert：深度双向转换器的语言理解预训练。 arXiv 预印本 arXiv ：1810.04805，2018。[Goodfellow et al. Ian J Goodfellow，Jonathe Shlens，andChristian Szegedy.解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572，2014年。[He et al. 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年[Lee et al. Saehyung Lee，Hyungyu Lee ，and Sun-grohYoon.对抗顶点混淆：走向更好的对抗鲁棒泛化。在IEEE/CVF计算机视觉和模式识别会议论文集，第272-281页[Madry et al. Aleksander Madry，Aleksandar Makelov，Ludwig Schmidt，Dimitris Tsipras，and Adrian Vladu.深度学习模型抵抗对抗性攻击。arXiv预印本arXiv：1706.06083，2017。[Rice et al. Leslie Rice，Eric Wong和Zico Kolter。在对抗性强大的深度学习中的过拟合。国际机器学习会议，第8093- 8104页。PMLR，2020年。[Schmidt et al. Ludwig Schmidt ， Shibani Santurkar ，Dimitris Tsipras ， Kunal Talwar ， and AleksanderMadry.逆向鲁棒泛化需要更多的数据。神经信息处理系统的进展，31：5014[Song et al. 宋楚标，何坤，林佳东，王立伟，和John EHopcroft.鲁棒局部特征用于提高对抗训练的泛化能力。在2020年国际学习代表会议上[Szegedy et al. Christian Szegedy ，Wojciech Zaremba，Ilya Sutskever ， Joan Bruna ， Dumitru Erhan ， IanGoodfellow，and Rob Fergus.神经网络的有趣特性。arXiv预印本arXiv：1312.6199，2013。[Uesato et al. Jonathan Uesato ， Jean-Baptiste Alayrac ，Po-Sen Huang，Robert Stanforth，Alhussein Fawzi，and Pushmeet Kohli.标签是提高对抗鲁棒性所必需的吗？arXiv预印本arXiv：1905.13725，2019。[Wang et al. Yisen Wang，Xuejiao Deng，Songbai Pu，and Zhiheng Huang.用于自动语音识别的剩余卷积ctc网络。arXiv预印本arXiv：1702.07793，2017。[Wu et al. ， 2020] Dongxian Wu ， Shu-Tao Xia ， andYisen Wang.对抗性权重扰动有助于鲁棒的泛化。神经信息处理系统的进展，33，2020。[Wu et al. 吴博熙，潘恒，沈黎，顾金东，赵帅，李志峰，蔡登，何晓飞，刘伟。攻击对手的攻击作为防御。arXiv预印本arXiv：2106.04938，2021。[Zagoruyko 和 Komodakis ， 2016] Sergey Zagoruyko 和Nikos Komodakis 。广残的关系网。 arXiv 预印本arXiv：1605.07146，2016年。[Zhai et al. ，2019] Runtian Zhai，Tianle Cai，Di He，Chen Dan，Kun He，John Hopcroft，and Liwei Wang.相反，鲁棒的泛化只需要更多的未标记数据。arXiv预印本arXiv：1906.00555，2019。[Zhang and Xu，2019] Haichao Zhang and Wei Xu.对抗插值训练：一种提高模型鲁棒性的简单方法。2019年。[Zhang et al. ，2019] Hongyang Zhang，Yaodong Yu，Jiantao Jiao ， Eric Xing ， Laurent El Ghaoui ， andMichael Jordan.在理论上原则性的鲁棒性和准确性之间的权衡。在国际机器学习上，第7472-7482页。PMLR，2019年。[Zhang et al. Jingfeng Zhang，Jianing Zhu，Gang Niu，Bo Han，Masashi Sugiyama，and Mohan Kankanhalli.几何感知实例重加权对抗训练。arXiv预印本arXiv：2010.01736，2020。[Zhou et al. Dawei Zhou，Nannan Wang，Bo Han，andTongliang Liu.对抗性防御的对抗性噪声建模arXiv预印本arXiv：2109.09901，2021。

下载后可阅读完整内容，剩余1页未读，立即下载