二阶统计量增强对抗训练的有效性及实验验证

89 浏览量更新于2023-10-25 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15273LL用二阶统计量增强对抗训练金高杰1、易新平2、黄伟1、斯文·施韦1、黄晓伟*11英国利物浦大学计算机科学系2英国利物浦大学电气工程与电子系{g.jin3，xinping.yi，w.huang23，svens，xiaowei.huang} @ liverpool.ac.uk摘要对抗性训练已被证明是提高深度神经网络鲁棒性的最有效方法它被形式化为对模型权重和对抗扰动的最小-最大优化，其中权重可以通过梯度下降方法（如SGD）进行优化。在本文中，我们证明了将模型权重视为随机变量，可以通过关于权重的S二阶S统计优化（S2通过放宽以往PAC-Bayesian框架中所有权重统计独立的常见（但不切实际）假设，我们推导出改进的PAC-Bayesian对抗泛化界，这表明优化权重的二阶统计量可以有效地收紧界。除了这种理论见解之外，我们还进行了一系列广泛的实验，这些实验表明，S2 O不仅在孤立使用时提高了训练神经网络的鲁棒性和泛化能力，而且还可以轻松集成到最先进的对抗训练技术中，如TRADES，AWP，MART和AVMixup，从而导致这些技术的可测量改进该代码可在https://github.com/Alexkael/S2O上获得。1. 介绍众所周知，通过向卷积神经网络的输入中添加人类无法感知的扰动，可以很容易地欺骗卷积神经网络（我们在本文中称之为神经网络），使其做出高置信度的在许多不同的方法[4，44，57，75，82]为了检测或减少这种对抗性示例，对抗性训练[45，57]已知是最有效的[3]。对抗训练被公式化为最小-最大优化问题，其中内部最大化是找到*通讯作者最坏情况下的对抗性扰动的训练实例，而外部最小化是为了减少这些对抗性扰动引起的损失。虽然找到这种最小-最大优化的最优解是挑战性的，但目前的智慧是首先将最小-最大问题分解为主最小化问题和从最大化问题，然后通过交替优化来解决它们。最小化和最大化通常都是通过利用损失函数的梯度来求解的特别地，主最小化根据权重上的梯度来更新权重，即，W.本文采取了截然不同的观点：我们认为对抗训练也可以从考虑权重的二阶统计中受益我们的研究涵盖了理论和经验的角度。我们的理论论证是通过更新PAC-贝叶斯框架[22，48]获得的，该框架仅通过考虑对抗鲁棒性和权重上的二阶统计量来处理原始格式的模型泛化在贝叶斯体制下，权重是随机变量，模型是从后验分布中抽取的样本。我们对框架的更新从两个方面进行，如第二节所述3 .第三章。首先，通过放松所有权重在统计上独立的不合理假设权重相关矩阵（或归一化协方差矩阵）。其次，与[25]一样，除了模型泛化之外，我们还考虑了对抗鲁棒性。这个更新的框架提供了一个理论上的指示，即我们可以在训练过程中控制对抗性泛化边界，从而通过监控一些范数（例如，奇异值、谱范数、行列式）的加权相关矩阵。为了实现这样的控制，我们需要分别估计权重矩阵和进行训练的方法。如第4.对于前者，我们采用了两种方法：15274DS {}||− || ≤SD·⊗⊙LL··||||||||j=y图1.在Fashion-MNIST上使用经过训练的CNN模型通过t-SNE对每个标签的倒数第二个潜在表示的（PGD-20）分布进行可视化（a）自然训练;（b）对抗训练（PGD-10）;（c）对抗训练（PGD-10）与S2O。一种是采样方法，另一种是受[9，61]启发的拉普拉斯近似方法。对于后者，我们提出了一种新的S二阶统计优化方法（S2O）为了直观地理解为什么S2O可以提高业务效率，图1显示了基于S2 O（缩写为AT+S2 O）的对抗性训练导致在PGD- 20攻击下不同类的点之间的视觉上改进的分离-通过大量的实验和与SEC.5，我们证明了S2 O不仅可以显着提高训练模型的鲁棒性和泛化能力，而且还可以进一步增强现有的对抗训练技术。值得注意的是，S2 O可以以即插即用的方式与其他对抗训练技术一起使用，包括TRADES [85]，MART [78]，AWP [81]和AVMixup [41]，这四种最先进的对抗训练技术代表了改进最小-最大优化方案的不同方向。重要的是，我们注意到S2O的增强只会导致训练时间的边际增加（第二节）。5.2）。我们注意到S2O与其他二阶对抗训练方法不同：例如，[43]通过将损失函数近似为二阶泰勒级数展开提出了一种对抗正则化，[77]通过输入的Hessian矩阵提高了鲁棒性，[68]通过权重矩阵的Hessian研究了对抗攻击它也不同于[6，49，65]中的2. 预赛基本符号。设=s1，...，Sm是从输入分布中抽取的具有m个样本的训练集。由于对抗样本s′与干净样本s略有不同，我们让′和′分别是特定模型的对抗集合和分布，使得s′的k（默认使用k2-范数）。我们省略了样本s的标签y，因为从上下文中可以清楚地看出。让W，Wl成为权矩阵、第l层的权矩阵。损失函数（）和学习函数fW（）在W上参数化。我们认为fW（）是每层具有h个隐单元的n层神经网络，激励函数为act（·）. 现在我们可以将每个fW（s）表示为fW（s）= Wnact（Wn−1.. act（W1s）. ）的情况。请注意，为了方便起见，我们省略了偏倚在第l层（l = 1，. - 是的- 是的，n），激活函数之前和之后的潜在表示分别表示为hl= Wlal−1和al= actl（hl）。我们使用Wl2表示Wl的谱范数，定义为Wl的最大奇异值，并且使用 WlF 表示 Wl的Frobenius 范数。我们将Kro-necker 积记为，将Hadamard积记为。保证金损失。对于任何保证金γ >0，我们将预期保证金损失定义为Lγ，D（fW）=Ps<$D<$fW（s）[y]≤γ+maxfW（s）[j]<$，设γ，S（fW）为经验边际损失。注意，设置γ = 0对应于正常的理论分类损失或经验分类损失，其将被写为L D（fW）或L S（fW）。3. 对抗广义界对抗性训练应该提高对抗性攻击的鲁棒性，不仅仅是训练样本，还有看不见的样本。因此，对抗训练的泛化性能（即对抗泛化，也称为鲁棒泛化）可能不同于非对抗自然训练的泛化性能。对于自然训练，PAC-Bayes [22，48]提供了关于权重的后验分布Q和先验分布P之间的Kullback-Leibler散度（KL设fW是从训练数据中学习的任何预测器，由W. 我们考虑分布Q以fW+U的形式在学习的权重W上，并且用u = vec（U）（U的向量化）表示其分布也可能取决于训练数据的多变量随机变量。然后，对于任何δ，γ> 0，以下界成立，15275. KL（Q||P）+lnvec（W）+u̸SS|| ||≤∀ ∈DS.∈L 2κL 2Λ1，max=maxλmax（R1，S），λmax（R1，S′），Sσ2 s美国S′σ2南美国s′≤||L||nLMaxmin概率为1-δ的任何fW的边际损失[53，54]，LD（fW）≤Lγ，S（fW）在[25，53，54]中。基于相同的假设，[25]通过考虑攻击方法的影响，开发了一个对抗性PAC-贝叶斯界限然而，考虑到6m+4δ。m−1（一）对于神经网络来说，这个假设是不现实的。在这项工作中，我们放宽了这一假设，让u是一个非球面高斯与相关矩阵R，在上面的表达式中，KL项被评估，对于固定W，相对于唯一的随机变量u。也就是说，vec（W）+u的分布可以从u中获得，其中均值移动vec（W）并且具有相同的协方差矩阵（并且因此具有相同的权重相关矩阵）。值得注意的是，这样的界是如此的普遍，以至于不等式对任何潜在的先验P和后验Q都成立。因此，具体化特定的先验和后验并不违反界限，而只是影响紧密性。此外，[48，53]提出了一个通用框架来构建各种模型的后验，包括确定性模型，以计算PAC-贝叶斯边界。给定一个学习环境，这是文献中的常见做法，例如，[25，53，54]，假设先验P是球面高斯N（0，σ2I），并且随机变量u也遵循N（0，σ2I）（存在轻微的差异，其中R=I，并考虑R对上述对抗界限的影响。具体地说，我们假设来自同一层的权重的相关性不是0，而来自不同层的则为0。因此，我们开发的对抗界的权重的二阶统计量的考虑。在进入理论部分之前，我们首先给出了R的定义.定义3.1给定干净样本s和不利样本s′，设us和us′ 是高斯分布的随机向量，每个元素都是相同分布的为N（0，σ2），但彼此不独立。然后在所有数据集上和uS′，uSEs（us）和uS′Es′（us′）分别服从多元高斯混合分布，实际上，对应的相关矩阵如下：[25]和[54]之间的参考，附录A）。在这种假设下，在对抗环境中使用攻击方法（例如，FGM [27]，PGM[37]，WRM [69]），通过让干净的输入域是范数有界的，乙、S，其中B >0是恒定扰动预算，并且对于任何γ ，δ>0，且y=0。 PU（max xs||fW+U（s）−fW（s）||0成立，我们有n n{D D }，ces的第l层的干净和敌对的数据集，分别，以下定义3.1。在下文中，为了便于说明，我们让Φadv=Y||W||2、1+1（Y||W||）的情况。Σ2000年，l=1j=1|WL|2||2L 2（三）Λ1，min=min。λmin（Rl，S），λmin（Rl，S′），·||WJ||2||二、||2.其中λ（·）和λ（·）是最大和最小的其他Φadv的详细信息见附录A，并提供了证明[25]中的[26]。注意，我们简化了Eq。（3）到Φadv，因为我们的界中权重的二阶统计量的新项与它无关。3.1. 对抗界球高斯分布u的假设大大简化了界的理论推导Fl=1l=1（六）l=115276矩阵的奇异值。注意，Rl，SRl，S′ 是对称半正定矩阵，因此它们的特征值和奇异值一致。接下来，通过放松方程中的球面高斯假设，（2）考虑具有相关矩阵R的非球形高斯分布u，我们有以下引理，因为非球形高斯u在推导方程中的KL项时产生明显的差异（1）（Ap-戊醇B）。15277Λ−canl，min.Σ.Σ222l，l，minl，max′2C1||Rl||2+c2||Rl||2L||2 ≤l，maxL||2≤l，max222l、S2′l′，S′2klh2−kl引理3.2假设后验Q是在形式为fW+U的预测子上，其中，u是非球形高斯，推论3.5设u是非球面高斯分布，其相关矩阵R在S和S′上。然后我们得到相关矩阵R.我们可以得到，的。阿卡德湾（c1Λ′+c2Λ′′）Σ2. ∫−Σ ln detRl+ lnmLD′（fW）≤LS′，γ（fW）+Oll，maxγ2 ml，maxLD′（fW）≤Lγ，S′（fW）+Oγ2m2+lnm−ln（ΛklΛh2−kl）<$1，; Σ。′1+′′1分2，1分2、+δll，minl，max2-是的γ2m其中c1，c2>0是通用常数，在干净和对抗数据上考虑非球形高斯u的推广界限。它也在-adv=（B+表示，假设其他系数是常数，迷你-R′l=E（U<$Ul）/σ2最小化Λ′l，max，Λ′l′，max最大化Λklh2kll，maxll有效地收紧了对抗性泛化界限。=（Ih×h<$11×h）Rl<$（1h ×h<$Ih ×h）（Ih×h<$11×h） <$，R′l′=E（UlU）/σ24. 估计和优化Ll=（Ih × h<$11×h）Rl<$（Ih × h<$1h × h）（Ih ×h<$11×h）<$。我们把证明推迟到附录B。如定义3.1中所述，R1是R1，S和R1，S′的组合具有未知的系数Q。我们可以使用下面的两个引理来改进Lem中的界 3.2通过Rl，S和Rl，S′的项。11引理3.3||R′l||2和||R′l′||2的上界可以是Λ ′l，max和Λ ′l′，max x，i. 例如，根据Cor。3.5，我们需要在训练过程中监控权重相关矩阵及其一些范数-例如奇异值，谱范数和确定性。为此，我们需要能够从而有效地估计权重相关矩阵，并具有相应的有效的优化方案用于训练。4.1. 权相关矩阵我们采用两种不同的方法来估计权重相关矩阵，并通过相互比较，1||R′Λ′1、||R′′Λ"，在他们的估计之间，以确保我们的经验结论-估计误差不会损害选择。一是Λ′= max.||R′1||R′||R′||1 Σ,2（七）一种是抽样法，另一种是拉普拉斯近似法l，maxΛ′l′，maxl，S 2l，S′ 2=最大||1、||R||1 Σ。 ||1 Σ.神经网络[9，61]。请注意，虽然我们只使用拉普拉斯近似优化二阶统计量-的时间复杂性，根据[35]，我们有λmax（R′l）≤qλmax（R′l，S）+（1−q）λmax（R′S′）≤（Λ′l，max）2，类似地，λmax（R′l′）≤（Λ′l′，max）2。引理3.4Rl的行列式可以由下式的项下界：采样（Sec.4.2），我们的经验结果在第二节。5.1indi-说明S2O对这两种方法都适用。采样方法通过类似于Sharpness-like的方法[29，34]获得一组权重样本（W+η）。 |L（fW+η）−L（fW）|≤n′（e. 例如，在一个实施例中， =0。对于CI F AR-10和Δ′=0，1Λ l，min和Λ l，max，i。例如，detRl≥Λ Λ，（8）对于CIFAR-100），其中vec（η）是0均值高斯噪声。然后，这些样本用于估计相关性ma。uS和uS′的乘积。更多详情见附录C。其中r ekl=（h2<$l，max−h2）/（<$l，max−<$l，min）。证明3.4对于任何向量x，我们有x，Rlx2拉普拉斯近似是贝叶斯框架中广泛使用的一种估计方法，用于近似后验密度或后验矩[61，63，74]。从技术上讲，它接近后部（例如，vec（W）+u）的高斯分布与二阶泰勒展开的在其MAP估计值附近。具体而言，鉴于≥（qλmin（Rl，S）+（1−q）λmin（Rl，S′））||X||≥Λl，min||X||-是的lδΨL2γ2m（十）备注1 Cor. 3.5展示了更新的对抗性15278我们有λmax（Rl）≤Λl，max.最后，用行列式LLL2LLLSLLLL（（九）对于层l的权重，MAP估计Wl在S上（我们省略S上的估计，因为它与S相同），我们有因此，我们可以使λmin（Rl）≥Λl，min. ”[35]《礼记》云lnp（vec（W）+u|S）P.vec（W）|SΣ在[32]中的下界，我们可以得到Lem。3.4直接莱姆斯3.2、3.3和3.4导致以下推论。-一个vec（W-W）+uE[H].vec（W-W）+u，15279=Λ-.l，minFNSF Fl−1LlWSAH∈∞l，maxl，minFFsl−1[ij]HLEsl′l，其中Es[Hl]是Hessian矩阵在引理4.1Dec r easing||Rl，S||2和||Rl，S′||2导致a输入数据样本s，并且Hessian矩阵Hl由下式给出：下降|俄.西|和|rs′|，并进一步导致r导出Λ′l，max（fW（s））lvec（Wl）vec（Wl）和Λ′l′，max.应该注意的是，在Eq.（11），一阶Taylor2 2多项式已被删除，因为梯度周围引理4.2Dec r easing||Rl，S||F和||Rl，S′||F导致MAP估计Wl= 0。然后，仔细看看在Λkl中增加h2kll，max当量（11），我们发现它的第二行正好是对数证据见附录D。我们还提供更多的基因-高斯分布的概率密度函数具有均值Wl和协方差的多元随机变量之间的关系的实例模拟||R2l、S||2,I=Es[Hl]-1，i. e. ，vec（Wl）+ul（vec（Wl），ul），其中，Ul可以被视为Ul的协方差矩阵，并且||F和附录E中的上述处罚条款。||Fandtheab ovepenaltytermsinAppendixE.备注2Lems. 4.1、4.2和附录E中的模拟学习的权重W1可以被看作MAP估计W1。拉普拉斯近似表明，有效地估计-表明我们可以减少Λ′l，max，Λ′l′，max并增加klh2−kl2 2通过Hessian矩阵的逆运算，可以实现整数，因为整数−1=[H]。注意，我们省略了−1=l l，S[1]，因为它类似于[1]=[1]。此外，[9，61]基于神经网络二阶优化的见解开发了Kronecker因子拉普拉斯近似。也就是说，与经典的二阶方法[7，66]相比，深度神经网络的计算成本很高，他们建议Hessian矩阵Λl，minΛl，max通过降低||Rl，S||F和||Rl，S′||F.注意，在Eq.（14）也是计算上禁止的。幸运的是，拉普拉斯近似可以大大降低方程的复杂性。（14）。具体而言，根据Eq. （13）和l=E[Hl]−1，以下项。||2个以上||Al − 1，S′||2Σ||2Σ可以被Kronecker分解，即，wl−1（g（Al−1））=、西韦克2012年2月22日（s））l−1（十五）Hl=al−1a`Al−1X⊗h`Hlx（十二）可以用来近似于εwl（g（Rl）），其中Al−1，S是Es[A l−1]−1的归一化，即，i<，j ≤ h，且对i，j∈ N，其中Al−1∈Rh×h是激活后的协方差Hl∈Rh×h是前一层的Hessian矩阵（E[A]−1）关于电流的预激活的损失层，h是每层的神经元数量。与（Al−1，S）[ij]=<$（E[Al−1]−1）[二]（英[阿l−1]−1）.[jj]假设l-1和l是独立的[9，61]，我们可以近似E[H]，最后，我们添加正则化器（十六）（A）对抗性sl训练目标函数Jadv，得到新的目标函数J adv，E s[Hl]= E s[A l−1<$H l]<$E s[A l−1]<$E s[H l]。（十三）4.2. 一种新的训练优化方案S2O神经网络的对抗训练被视为对对抗目标函数J adv进行优化的过程。加强对抗性约束。 3.5我们加上二阶统计惩罚项Λ′l，maxx，Λ′l′，maxtiv e函数Jadv，wJ（十七）这里，α[0，f]是用于平衡二阶统计惩罚项g（A）和原始目标函数Jadv（Ap-惩罚项F）的相对贡献的超参数。和−lnΛklΛh2−kl到目标函数JAdv得双曲正弦值.5. 实证结果将新的对象iv e函数表示为Jad v。减少在完备性的基础上，我们近似地得到了λwl（Λ′l，max+Λ′l′，max-在本节中，我们首先提供一个全面的下-lnΛklΛh2−k（一）通过站在我们的S2O培训方法，然后评估其l，最小值l，最大值.15280F F-是的||l、S||||l，S′||Σl（g（Rl））=R2+R2.（十四）西韦克在基准数据集上对各种白盒和黑盒攻击的鲁棒性。实验设置。我们在CIFAR-10/100[36]上训练PreActResNet-18 [28]以用于CIFAR-10/100 [36]和虽然要找到它们之间的确切关系是不切实际的，Rl及以上罚则（例如，完全的正或负），它们显然是相关的。特别地，当R1，S和R1，S′与rs和rs ′具有相同的f-对角元，且rsrs′≥0时，我们得到如下引理.SVHN [52]（表1）。此外，我们还训练WideResNet-34-10 [83]对于CIFAR-10，使用了一个∞威胁模型（Tabs.第2和第3段）。我们遵循[60]中的设置：对于N2∞威胁模型，N2=8/255，步长为2/255;对于N22威胁模型，N2=128/255，所有数据的步长为15/25515281方法××图2. 我们用AT和AT+ S2O训练PreAct ResNet18，并给出了部分权重的结果（a）示出了归一化的光谱在抽样估计（S）和Laplace逼近（L）方面，给出了R′′的范数、R′ ′S′和R ′ S ′的行列式. （b）及（c）S2分别展示了AT和AT+ SO的部分权重的绝对相关矩阵表1.PreAct ResNet18上跨数据集的对抗性训练（%）。CIFAR-100 SVHN模型Clean PGD-20 Time/epoch Clean PGD-20 Time/epoch Clean PGD-20 Time/epoch联系我们AT+S2 O表2. TRADES（1/λ = 6）和AWP在CIFAR-10上，具有λ∞威胁模型（%）。ResNet18 WideResNetCleanFGSMPGD-20公司简介CW-20 AA清洁FGSMPGD-20公司简介CW-20 AA交易82.8958.7253.8153.6951.8348.683.9861.0856.8256.5354.5452.7交易+AWP82.3059.4856.1855.9053.1251.784.9963.1159.6759.4257.4156.2贸易+S2 O84.1560.1955.2054.7352.4749.585.6762.7358.3457.6955.3654.1TRADES+AWP+S2 O83.7960.2757.2956.5153.8452.486.0164.1661.1260.4657.9355.9集. 在所有实验中，训练/测试攻击分别为PGD- 10/（PGD-20和其他）所有模型（SVHN除外）均使用SGD （动量为0）训练200个epoch。9，批量大小128，权重衰减5 10−4，初始学习率为0。1在第100和150个历元被10 对于SVHN，我们使用相同的参数，除了将起始学习率设置为0。01. 简单的数据增强，如32 32随机作物与4像素填充和随机水平翻转，应用。我们在单个 GTX 1080 Ti 上实现每个 PreActResNet18 ，在单个 NVIDIA A100 上实现每个WideResnet白盒攻击我们进行白盒攻击，包括FGSM [27]、PGD-20/100 [45]和CW-20 [10]。(theCW损失的PGD-20优化版本），在用基线方法和我们的S2 O增强变体训练的模型上。黑盒攻击黑盒攻击是从干净的测试数据中创建的，通过攻击代理模型，代理模型的体系结构要么是防御模型的副本，一个更复杂的模型[56]。在从每个训练好的模型中构造出对抗性的例子之后，我们应用表3.CIFAR-10上的AVMixup和MART，WideResNet的威胁模型为∞。方法清洁FGSMPGD-20公司简介CW-20AAAV混合92.5680.4659.7549.5154.5339.7AVMixup+S2O93.7284.5760.4350.4956.1639.3Mart83.5161.5358.3157.5554.3351.2MART+S2 O83.9162.5659.2958.3355.1454.1这些对抗性的例子，以其他模型和评估的性能。我们使用的攻击方法是FGSM和PGD-20。自动攻击。我们认为自动攻击（AA）[13]是一种强大而可靠的攻击，它通过一系列不同的无参数攻击进行攻击，包括三种白盒攻击（APGD-CE [13]，APGD-DLR [13] 和 FAB [12] ）和黑盒攻击（ Square Attack[2]）。默认情况下，我们使用设置α = 0。3对于S2 O，除了α=0。表中AT+S2O（CIFAR-10）为1。1.一、根据[85]，我们将PGD和CW评估的步长设置为= 0.031和我们使用标准版本的自动攻击评估。方法82.4152.77309s58.0228.02307s93.1760.91509sAT+S2 O 83.6555.11368s58.4530.58371s93.3964.83595s联系我们88.8368.83292s64.2142.20290s94.0266.76四七七289.5769.42364s65.3244.07366s94.9376.19586s15282S表4.TRADES（1/λ=6）和AWP在CIFAR-100上，带λ∞WideResNet的威胁模型（%）。方法清洁FGSMPGD-20CW-20AA交易60.3835.0132.1128.9326.9贸易+LBGAT60.43-35.5031.5029.3交易+AWP60.2736.1234.0430.6428.5贸易+S2 O63.4035.9633.0629.5727.6TRADES+AWP+S2 O 64.1737.9835.9531.2629.9表5. CIFAR-10上的VGG 16和MobileNetV 2，威胁模型为∞（%）。清洁方法FGSMPGD-20CW-20AA VGG16 AT81.63 53.23 49.21 48.0143.1VGG16AT+S2 O82.57 54.03 50.5348.15MNV2 AT 81.97 55.52 50.76 49.53 44.9MNV2 AT+S2 O82.48 57.51 52.9349.9245.75.1. 对S2O在这一部分中，我们将探讨权重的二阶统计量（例如，权值相关矩阵）的变化。结果表明，该方法是可行的。 2表明S2 O有效地降低了R′′，R′ ′S′的谱范数，增加了R ′S′的行列式. 我们还在附录E中提供了干净数据的结果。5.2. 白盒攻击和自动攻击下的鲁棒性将S2O应用于普通对抗训练（Tab. 1）。我们采用PreAct ResNet-18来探索我们提出的S2 O方法嵌入正常PGD-10训练（具有PGD∞和PGD2威胁模型）的能力，包括CIFAR-10，CIFAR-100和SVHN在内的许多数据集。选项卡. 1表明S2O增强的变体可以提高三个数据集的准确性（在干净数据上）和鲁棒准确性（在PGD-20攻击上）。例如，AT+ S2 O模型在PGD-20上的准确率比CIFAR-10上的标准对抗训练模型和一个∞ 与标准对抗训练模型相比，干净数据的准确率也提高了 1%-1.5%。一般来说，这种改进在数据集和攻击中非常一致。将 S2O 应用于 TRADES 和 AWP （表 2 ）。我们使用PreAct ResNet-18和WideResNet在CIFAR-10上（在无∞威胁模型下）探索我们的S2 O方法与两种最先进的方法TRADES和TRADES+AWP一起工作时的性能。测试了所有防御模型对白盒 FGSM 、 PGD-20 、 PGD-100、CW-20攻击和自动攻击的鲁棒性。选项卡. 2表明，S2 O增强的变体执行considerably和显着优于现有的（只有一个例外）。虽然AWP比TRADES有所改进，但S2O可以进一步增强它。S2O增强的TRADES+AWP模型在PGD-20上的预测精度比WideResNet上的TRADES+AWP模型高1.45%;S2 O增强的 TRADES+AWP 模型在 PGD-20 上的预测精度比WideResNet上的TRADES+ AWP模型高1.45%表6. CIFAR-10的灵敏度分析，ResNet 18的威胁模型为∞（%）。方法清洁AAPGD-20列车PGD-20试验间隙在82.4147.162.3352.779.56AT+S2 O（0.05）83.2248.561.9953.828.17AT+S2 O（0.1）83.6548.361.5055.116.39AT+S2 O（0.2）83.4347.860.2754.595.68AT+S2 O（0.3）82.8946.559.3654.245.12AT+S2 O（0.4）82.5446.758.4152.925.49表7.PreActResNet18上的数据集对抗训练，在N_∞威胁模型下进行黑盒攻击（%）。数据方法FGSMP G D -2064.32 62.63CIFAR-10AT+S2O65.6363.87在38.5537.36CIFAR-100AT+S2O39.6838.60SVHNAT71.7763.76AT+S2 O72.2064.31增强的TRADES模型比PreAct ResNet-18上的TRADES模型高1.39%。对于表1中CIFAR-100的其他实验4，与TRADES+LBGAT [14]相比，S2O还可以提高大多数攻击下的鲁棒性。在AVMixup和MART上应用S2O（表（3）第三章。我们使用WideResNet来研究我们的S2 O方法在CIFAR-10数据集上（在CIFAR-10威胁模型下）与其他一些最先进的方法（如AVMixup和MART）一起工作时的性能。测试了所有防御模型对白盒FGSM、PGD-20、PGD-100、CW-20攻击和自动攻击的鲁棒性。选项卡. 3还表明，S2 O增强模型在大多数攻击（和干净数据）下的性能优于普通AVMixup和MART请注意，在PGD-100攻击和自动攻击（AA）下，我们用青色标记 AVMixup 的结果，因为 AVMixup （包括AVMixup+S2O）并不是一种对所有攻击都鲁棒的方法-在选项卡中备注我们的基线。1比4。我们已经检查了我们的基线接近或略好于最近论文[81]中的基线，我们有非常相似的实验设置。我们省略了3次运行的标准偏差，因为它们非常小（<0。40%）。补充. 我们在Tab中提供了超参数（α）敏感性分析。PreAct ResNet-18和CIFAR-10。我们还将S2 O应用于其他具有正常对抗训练的结构（ VGG 16 [67] 和MobileNetV 2 [64]）;Tab.5表明S2 O也对这两种结构起作用。另外，我们注意到SOAR [43]在PGD-20攻击下对ResNet-10、CIFAR-10的准确率为56.06%，在未来的工作中将S2 O与SOAR结合起来是有意义的。5.3. 黑盒攻击我们还使用PreAct ResNet-18来探索我们提出的S2 O方法在黑盒攻击（具有恶意∞威胁）15283- --VΣ||s||模型），跨多个数据集，包括CIFAR- 10/100和SVHN。对于相同的数据集，所有黑盒攻击都是由相同的对抗训练模型生成的。选项卡. 7表明S2O增强模型在黑盒攻击下也能得到一些改进.[51]，它实证研究标签平滑如何工作。在此基础上，AVMixup[41，86]在对抗方向上定义了一个虚拟样本，并通过虚拟样本和干净样本的线性插值来扩展具有软标签的训练分布。具体来说，它优化了6. 相关工作对抗训练更新最小化目标Javm=EsDΣℓ(fθ(ˆs),yˆ)Σ,(20)培训计划从通常的一个，Σ Σ式中，λs=βs+（1 β）γ（s′ s），y=βε（y，λ1）+（1β）λ（y，λ2），β是从每个Jadv=EsDMax||s′−s||≤ϵ（fW（s′））、（十八）单个si，γ是控制对抗虚拟向量规模的超参数，y是y的独热向量，其中s′是一个对抗性的例子，在一个以干净的例子s为中心的球内，相对于一个范数距离（默认为2）造成最大的损失对抗性训练方法大致分为三类，在下文中，我们重点介绍了四种最先进的方法，它们在实验中与我们的S2 O方法相结合。第一类是减少Eq。（18）等同物，或近似表达式，其包括测量s和s′之间的距离。例如，ALP [24，33]加强了fW（s）和fW（s′）之间的相似性，log-它在同一图像s的未扰动和对抗版本上的激活。MMA [16]鼓励每个正确分类的实例s留下足够大的余量，即，到边界的距离，通过最大化的大小，标签平滑函数[71]，并且λ1和λ2是超-参数来控制平滑度。除此之外，贝尔平滑，[84]通过以无监督的方式对局部邻域进行这两个类别遵循最小-最大形式主义，并且只适应其组成部分。AWP[81]调整内部最大化以采取一个额外的最大化，以根据生成的对抗示例找到权重扰动。然后，外部最小化基于扰动权重[15]，以最小化由对抗性示例引起的损失。具体来说，就是优化双扰动对抗训练问题Jawp=maxEmaxn（fW+V（s′）），（21）最短成功扰动MART[78]观察了对抗训练中错误分类和正确分类示例的差异，并为它们提出了不同的损失TRADES[85]分析了鲁棒性误差和清洁误差，并给出了鲁棒性误差和清洁误差之间的差距的上界和下界，该上界和下界更大。激励对抗训练网络优化Jtr，V∈VsD||s′−s|| ≤ϵ其中是参数扰动的可行区域。第五节相关工作的另一个线程是PAC-Bayesian框架，这是一个众所周知的理论工具，用于限制机器学习模型的一般化错误[26，38EsD（fW（s））+max′ − s|| ≤KL. fW（s）||fW（s′）<$/λ<$，（19）48、58、79]。近年来，它也在各个方面得到广泛发展，无论是传统的机器学习模型，其中λ是控制清洁精度和鲁棒精度之间的权衡的超参数它考虑输出层的激活的KL-发散，即，KL（fW（s）fW（s′）），对于每个实例s。在s和s′上的测量可以被扩展以考虑局部分布距离，即，在s的范数球内和s′的范数球内分布之间的距离。例如，[87]强制图像的局部分布与其对抗示例之间的相似性，[70]使用Wasserstein距离来度量局部分布的相似性，[17第二类是在训练之前对生成的对抗样本进行预处理，而不是直接使用攻击算法生成的对抗样本。值得注意的例子包括标签平滑[11，71]，其中，它不考虑“硬”标签y的对抗实例（s′，y）均匀分布。这一想法进一步得到利用，深度神经网络[1，8，20，21，23，30，31，42，59，62，73]。7. 结论这项工作解决了对抗训练文献中的一个疏忽，认为需要系统地考虑权重的二阶统计。通过理论研究（更新PAC-Bayesian框架）、算法开发（权重相关矩阵的有效估计、使用S2 O的有效训练）和大量实验，我们表明，考虑权重的二阶统计量不仅可以提高vanilla对抗训练的鲁棒性和泛化能力，而且可以提高最先进的对抗训练方法的鲁棒性和泛化能力。谢谢。该项目已获得欧盟地平线2020研究和创新计划（赠款协议编号956123）的资助，以及英国DSTL（SOLITUDE项目）的资助。 GJ和XH还在项目[EP/R026173/1，EP/T026995/1]下得到英国EPSRC的部分支持。15284引用[1] 皮埃尔·阿尔基耶，詹姆斯·里奇韦和尼古拉斯·肖邦。关于gibbs后验变分逼近的性质。机器学习研究杂志，17（1）：8374- 8414，2016。8[2] Maksym Andriushchenko ， Francesco Croce ， NicolasFlam-marion，and Matthias Hein. Square Attack：一种通过随机搜索的查询高效黑盒对抗攻击欧洲计算机视觉会议，第484-501页Springer，2020年。6[3] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在International Conference on Machine Learning中，第274-283页。PMLR，

下载后可阅读完整内容，剩余1页未读，立即下载