基于引导互补熵的对抗鲁棒性改进

39 浏览量更新于2023-10-12 收藏 818KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4881基于引导互补熵的对抗鲁棒性改进陈浩云*1，梁兆宏*1，张世杰1，2，潘家玉3，陈玉婷3，魏伟3，大成娟31国立清华大学计算机科学系，台湾新竹2电子与光电系统研究所，台湾新竹3Google Research，Mountain View，CA，USA{haoyunchen，jayveeliang}@scchang@cs.nthu.edu.tw{jypan，yutingchen，wewei，dacheng}@google.com摘要对抗鲁棒性已经成为深度学习中的一个重要主题，因为精心制作的攻击样本可以显著干扰模型的性能许多最近的方法已经提出通过利用对抗训练或模型蒸馏来提高对抗鲁棒性，这增加了对模型训练的额外过程。在本文中，我们提出了一种新的训练范式，称为GCE，它能够实现“免费对抗防御”，在提高对抗鲁棒性的过程中不涉及额外的过程。除了最大化地面实况类（如交叉熵）上的模型概率外，我们还中和了不正确类上的概率以及“引导”项以平衡这两项。我们在实验中表明，我们的方法实现了更好的模型鲁棒性，甚至更好的性能相比，常用的交叉熵训练目标。我们还表明，我们的方法可以用于正交对抗训练跨众所周知的方法，具有显着的鲁棒性增益。据我们所知，我们的方法是第一个提高模型鲁棒性而不影响性能的方法1. 介绍深度神经网络已被用于提高计算机视觉中各种任务的最新技术性能，包括图像分类，Nature [1，5，16]已经表明，深度神经模型容易受到对抗性攻击。在对抗性攻击中，不可检测但有针对性的扰动被添加到输入样本中，这会大大降低模型的这种攻击对深度神经模型支持的技术的安全性和鲁棒性构成了以基于深度学习的自动驾驶汽车为例，当存在广告和其他示例时，模型可能会错误地将一个“s”视为一个“green lig ht“。不用说，提高对抗鲁棒性至关重要，因为它不仅可以节省模型性能，而且在许多情况下可以挽救人们的生命图1.CIFAR10上不同目标函数训练的模型的潜空间使用t-SNE进行可视化左：使用交叉熵（XE）训练的模型的潜在空间右：使用GCE训练的模型的潜在空间。与XE相比，GCE训练中的每个类都形成了更明显的聚类（重叠更少）已经提出了广泛的工作来解决对抗鲁棒性的问题。提高模型鲁棒性的一种方法是“adversa r ial rainin g“[11，14，20]，其中模型使用对抗性测试[14]或两种测试示例的组合[9]，分割[13]和图像生成[6]。Al-Beit在预测性能上取得了胜利，最近升-*作者对本文的贡献相同1.本文中的“自然范例”是一个或多个原始数据集合中的非自然范例，与“自然范例”相同。“4882和对抗性示例作为数据扩充的一种形式[20]。在这里，对抗性示例通过向原始数据添加目标扰动来引用人工样本[1，4，5，10，14，16]。其他防御方法，如防御性蒸馏[17，18]，采用模型蒸馏的概念来教导对输入扰动不太敏感的原始学习网络的较小版本，以使模型更鲁棒。使用现有防御机制的一个警告是，它们通常需要额外的过程，依赖于对抗训练或蒸馏案例中的额外教师模型。这样的过程依赖于特定实现的事实使得鲁棒性改进不太灵活并且计算更密集。在本文中，我们问自己的问题是，我们是否可以构建一个能够实现“针对fre e的异常防御”的训练过程，这意味着在不存在攻击模型或教师模型的情况下，以模型不可知的方式提高模型的鲁棒现有方法的另一个问题是对抗鲁棒性通常以模型性能为代价。最近的一项分析[15，21]表明，对抗性训练会损害模型的泛化能力，并且鲁棒性的提高与性能下降的程度在本文中，我们提出了一种新的训练范式来提高对抗性鲁棒性，无需使用额外的训练过程即可免费实现对抗性防御。具体地说，我们提出了一个精心设计的目标为“GCE”的训练。与通常的交叉熵的选择不同，交叉熵的选择集中于将模式的倾向性集中在正确的类上，而交叉熵的选择增加了惩罚，以支持模式的倾向性集中在正确的类上。这两种方法都是以指数方式扩展的指南。这样的公式有助于扩大地面真理类和不正确类之间的流形差距，这在最近关于最小对抗性失真的研究中已被证明是有效的[23]。这可以在图1中说明，与交叉熵相比，GCE清楚地使聚类更加可分离。与现有方法相比，使用GCE进行模型鲁棒性训练具有以下几个优点：（a）由于不涉及对立的例子并且不需要额外的模型，因此不产生额外的计算成本，和（b）与先前的分析[15，21]相反，提高模型鲁棒性不再以模型性能为代价，并且我们在实验部分中有时会看到更好的性能。本文的贡献有三个方面。首先，据我们所知，GCE是第一个在不影响模型性能的情况下实现对抗鲁棒性的工作与广泛使用的冰毒相比ODS通常会导致显着的性能下降，我们的方法可以保持甚至击败交叉熵训练的模型的性能其次，我们的方法是第一种能够免费实现对抗性防御的方法，这意味着提高鲁棒性不会产生额外的最后，我们提出的方法在广泛的最先进的防御机制之上该领域的未来工作可以促进不同方法的鲁棒性改进，并推动对抗性防御的前沿。2. 相关工作对抗性攻击。在 “ w h i t e b o x “ 集合 T 中提出了几种对抗性攻击方法，假设被攻击模型的结构是预先已知的。作为一种基于迭代的攻击，[5]首先介绍了一种快速制作对抗性示例的方法，该方法通过根据损失函数的大小来调整强度[5]是单步对抗攻击的一个例子。作为[5]的扩展，[10]逐步地应用基于梯度的扰动，每个都具有小步长。进一步延伸到[10]是[4]，它添加了基于梯度的方法与动量，以提高生成的对抗示例的成功率。此外，已经提出了一种迭代方法[16]，该方法使用雅可比矩阵来构建显着图，用于在每次迭代时选择要修改的像素。作为一种基于优化的攻击，C W攻击[1]是最强大的攻击之一，它使用目标函数来制作对抗性示例以欺骗模型。对抗性辩护。已经提出了几种对抗性攻击的防御策略来增加模型的鲁棒性。在[11]中，通过在大规模模型和数据集上使用对抗训练来增强模型的鲁棒性[14]将模型的鲁棒性防御问题归结为一个极小极大优化问题，即构造攻击者以获得高损失值，优化模型以使攻击者损失最小. [20]提出了一种集成方法，该方法引入了从其它模型转移来的扰动输入，得到了对黑盒攻击具有较强鲁棒性的模型。除了通过使用对抗性示例进行训练来提高鲁棒性之外，防御性蒸馏[17，18]是另一种有效的防御方法。其思想是生成一个“平滑”模型，该模型可以降低模型对扰动输入的具体地说，提出了一种具有温度常数的修正sof t max函数的“然后，使用由这两个RK产生的软标签4883模型经过训练，发现它对对抗性示例更具抵抗力补充目标训练。所提出的引导互补熵损失从互补对象训练（COT）[2]中获得灵感，COT [2]不仅采用交叉熵（XE）的主要损失函数，而且还采用“互补”损失函数以实现更好的在COT中，虽然XE损失象征意义第i个样本的预测概率。g地面实况类索引。yij或yijy i或y i的第j类（元素）。N和K样本总数和类别总数表1.本节中使用的基本符号以及对单步对抗攻击的更好的鲁棒性是增加地面实况类的输出权重（因此，学习准确预测），1 .一、N−.Kyij（）log（日）（1）“Ni=1j= 1，j/=g1−yg1−yg注意力，以中和不正确的类（因此有助于训练过程并提高最终模型的准确性）。虽然COT中的补充损失函数最初是为了使地面实况类从其他类中脱颖而出而设计的，还表明使用COT训练的模型对单步对抗攻击具有良好的鲁棒性尽管COT在单步对抗性攻击上实现了良好的鲁棒性，但COT采用的两个损失目标不具有协调机制来有效地一起工作以实现针对更强攻击的鲁棒性多步对抗攻击我们推测，从两个损失对象的梯度可能会相互竞争，并可能妥协的改善。基于上述认识，本文提出了广义竞争理论，作为协调COT两个目标之间竞争关系的一种方法。我们提出的GCE损失函数不是让这两个损失目标独立工作并仅仅通过输出权重的归一化来协调，而是统一了COT的两个目标的核心意图，并明确地制定了协调这些核心意图的机制。我们认为，通过消除COT的两个损失对象中的补偿，“补偿”损失的意义可以在训练阶段得到最大程度的表达，以获得更好的鲁棒性。3. 引导补体熵等式（1）示出了互补熵的数学公式，并且在表1中总结了符号。我们注意到，互补熵的设计背后的想法是使不相关类之间的权重分布变平（“不合理化”这些类上的权重）。从数学上讲，当分布的熵最大化时，分布是平坦的，因此互补熵包含一个负号，使其成为一个要最小化的损失函数观察文献[2]中的结果，我们认为模型鲁棒性的改善主要来自于互补熵在中和不正确类上的分布权重上的性质。遵循这种思想过程，在这项工作中，我们将互补熵表达式的属性公式化为一个新的损失函数，该函数（a）是一个具有良好经验收敛性的独立训练目标，（b）明确设计用于实现对各种对抗性攻击（包括单步和多步攻击）的鲁棒性。引导互补熵。基于我们上述的观察，我们提出了一种新的训练对象，GCE，我们将证明它实现了我们最初的两个设计目标：作为一个独立的训练目标，并且本质上是为了实现对抗攻击的鲁棒性而设计的。等式（2）示出了所提出的GCE的数学公式在本节中，我们介绍了所提出的引导互补熵损失函数，并讨论了在1 .一、N−Ni=1α。KIGj=1，j/=g日（1−yg日）log（1−yg）（2）学费背后。在解释GCE的细节之前，我们将首先回顾互补熵的概念[2]。补体熵。在文献[2]中，为了减少训练过程中的主交叉熵损失，引入结果表明，通过引入互补熵损失，训练过程可以生成具有更好预测性的模型可以看出，等式（2）具有一些相似性利用等式（1）中的补体熵的公式，特别是内部求和项，我们将其称为GCE损失的补体损失因子这种相似性是有意的，因为我们的目标是建立一个损失函数，该函数明确地利用互补熵的性质来防御对抗性攻击。主要的区别是，GCE还引入了一个y4884IGIGIGY轴的导向因素来调节com的效果-合成数据分析。为了进一步研究补充损耗因子，这与训练迭代期间模式1的预测质量有关。GCE公式背后的直觉是，在地面实况类的预测值较低的训练实例中，我们认为模型对其性能还不自信因此，我们认为，在这种情况下，它不是强烈要求有优化器优化急切地根据损失值。实际上，所提出的指导因子用作控制旋钮，其使用地面实况类的预测值来调制优化器应当处理损失值的“错误”的量从数学上讲，在模型不可靠的情况下（当 y=1g时），指导系数或y=α也是一个小值，减少了补充损耗系数的影响。另一方面，随着模型逐渐改进并将更大的值分配给地面实况类，指导因子将逐渐增加补充损失因子的影响，这将促使优化器在中性化不正确类的权重时变得更加积极，明确地训练模型以对抗对抗攻击。分析班级人数公式（2）中定义的拟议GCE损失的值取决于学习任务的类数K。当在训练任务中直接使用等式（2）时，因为训练损失的动态范围不同于其他训练任务的动态范围，所以需要额外的努力来调整学习时间表以实现良好的性能。我们不是直接使用GCE损失并微调每个训练任务的学习时间表，而是用数学方法将补体损失因子除以归一化项log（K−1），以使该归一化补体损失因子的动态范围介于0和-1之间。我们将得到的损失函数称为归一化的引导互补熵（等式（3）），其定义为：GCE损失的影响因素也是如此指数项α影响损失函数，我们可视化3类分布的GCE损失的景观并观察到：1. GCE损失的景观与补体熵损失的景观有何不同？2. α值如何改变GCE损失景观的形状？3. 给定不同α值的不同损失情况，对收敛性有何影响我们在这个探索性研究中使用的合成训练数据只有三个类别，我们将类别0设置为地面真实标签，而类别1和2是不正确的类别。为了可视化这3类合成数据上的损失函数的景观，我们对这3类的权重分布进行网格采样，并在每个采样点上绘制损失值图2显示了在该合成分布上的补体熵损失函数的可视化。我们注意到，对于三类分布，损失函数可以在2-D热图上可视化，其中X和Y坐标指示两个不正确类的值，并且热值对应于损失函数的值。地面实况类的值由两个不正确的类唯一确定，因为三个值必须总和为1。因此，原点（0，0）是最佳点，因为它是类0（地面真值类）获得全概率值的点1. 理想情况下，在这个可视化中，原点附近的损失值应该很低，并且损失值随着我们远离原点而增加。在图中，我们还使用灰色阴影来指示原点周围的区域，其中地面实况类的输出概率大于两个不正确类的输出概率。该灰色阴影区域是模型将输出地面实况类作为其预测的区域。1 .一、N−yα·1.Kyij（）log（日）（3）在图2（a）中，虽然补体En的损失值在原点附近熵很低，可以看出，Ni=1μ glog（K−1）j=1，j/=g1−yg1−yg沿着线X=Y的所有点的值都具有同样低的损失值。当X=Y时，两个不正确的其中K是训练任务的类的数量通过使用归一化的GCE损失，我们发现，无需调整学习时间表的额外努力，优化算法可以收敛到性能良好的模型，在测试精度和对抗鲁棒性方面。基于这一分析，当我们提到GCE时，我们在以下部分中使用规范化的引导完成熵进行所有实验。类具有相同的输出概率值，并且可以在等式1中示出，沿着线X=Y的互补熵损失值是相同的当根据补体熵损失进行优化时，在损失景观中具有长的损失函数只会导致训练收敛到谷值，而不会收敛到原点（最优点）。另一方面，在图2（b）（c）（d）中，可以看出，GCE损失的情况并不存在以下可能性：4885IGXǫ(a) 补体熵（b）α=1的GCE（c）α=1/3的GCE（d）α=1/10的图2.不同α值下的GCE特征。损失值的计算假设三个类，类0是地面实况和类1 2是不正确的类。X轴表示类别1的预测概率，Y轴表示类别2的预测概率。2. 阴影区域（在每个子图的左下角）表示预测是正确的（即，地面实况类接收高于类1或2的预测概率请注意，在（a）和（d）中，最小损耗区域（深蓝色）与阴影区域不重叠，这是不理想的，因为损耗函数不能准确地反映出本领域的技术要求。在另一方面，（b）和（c）表示损失函数的优选行为。图3.引导因子的指数α对我们的合成3类示例数据的影响X轴是地面实况类（类0）的输出概率，因此最佳点位于值1.0处。两个不正确类的输出概率被设置为相等（互补损失因子的最佳条件Y轴是GCE损失的值不同的α值会创建朝向最佳点的逼近斜率曲线最佳化过程可以在其中进行的最佳化“谷”。通过减小引导因子y，在GCE损耗中，沿X=Y线的谷不再平坦。相反，它现在是一个向原点（模式l的最佳点）向下倾斜的谷。此外，谷的形状受导向因子的指数项α的控制。通过比较不同的α值，可以看出，较小的α值，比如α=1/10，会使损失值迅速下降到低值，在原点附近形成较大的“为了进一步检查指数α的影响，在图11中。3中，我们绘制了当使用不同的α值时，GCE损失函数沿着线X=Y的分布X轴是地面实况类的输出概率，因此值1.0是最佳值。当α=1时，向下的斜率最后是一个较浅的接近最佳点。为了在整个训练过程中保持良好的优化动量，我们的直觉是倾向于α值具有合理的初始下降，但当我们接近最优点时保持良好的最终方法。因此，我们认为，优选的α值不应太接近1，也不应太小。在下一节的实验中，我们将尝试多个α值并报告结果。4. 对抗性设置在对抗环境中，对手应用攻击方法来基于给定的自然示例制作对抗示例。我们考虑白盒攻击，这是分类器防御的最具挑战性和困难的威胁模型[1]。白盒对抗攻击知道一切，例如，参数，关于他们攻击的模型。下面提到的扰动是对抗性攻击的扰动快速梯度符号法（FGSM）[5]介绍了一种有效的一步攻击。该方法使用由训练成本函数评估的梯度来确定扰动的方向。对抗性示例x可以简单地通过以下方式生成：x=x+·sign（xL（x，y））（4）其中，f是扰动，L（x，y）是训练损失函数。基本迭代方法（BIM）[10]介绍了FGSM的扩展，该方法应用多步扰动并裁剪约束边界中的特征值。BIM公式为：最佳值是一个恒定值。当α值下降时，∗ ∗ ∗ ∗#21453;，向下倾斜的幅度越来越大x0=x，xi=clipx，n（xi−1+r·sign（签名）i−1L（xi−1，y）（5）48860t−12其中，r是迭代次数，clipx是保持特征值有界的裁剪函数。投影梯度下降（PGD）[14]提出了一种更强大的攻击方法，即多步变体FGSM k。在PGD中制作对抗性示例的过程不同之处在于，x是x周围的一个均匀随机点。动量迭代法（MIM）[4]将动量属性集成到基于梯度的迭代攻击中，以制作对抗性示例。该方法不仅稳定了迭代过程中的更新方向，而且改善了BIM中陷入局部最大值MIM配方为：5. 实验我们进行实验来证明：1. 与使用XE损失函数训练的基线模型相比，使用GCE训练的模型可以实现更好的分类性能2. 除了在自然的、非对抗性的样本上实现良好的分类性能外，用GCE训练的模型对几种“白盒”对抗性攻击也是鲁棒的3. 在“对抗训练”的背景下，我们证明了在PGD对抗训练中替换GCE损失函数，所得到的模型比以前的结果更5.1. 在自然例子xL（xgt=µ·gt−1+t−1“xxL（x xx ，y）“1x=clip（x（六）在本节中，我们给出的实验结果表明，使用GCE训练的模型，在自然的、非对抗性的环境中，可以优于以前的重建模型。tx，xt−1+r·sign（gt））（7）移植使用XE训练的最佳模型我们特别比较了几种图像分类器的模型精度其中gt是梯度，方向上的矢量，µ是衰减因子。基于雅可比的显着图攻击（JSMA）[16]提出了强大的目标攻击，可以只扰动较少的像素。该方法通过对显著图的评估来识别能够显著影响输出分类的特征。JSMA算法通过迭代修改输入特征，生成对抗性样本，导致模型在特定目标上的误分类Carlini Wagner（CW）[1]引入了一种基于优化的攻击，可以有效地击败防御性攻击[1].为了保证图像的扰动是有效的，该方法定义了框约束，使像素值在一个受约束的边界。它们定义：不同尺度的数据集，包括MNIST [12]，CIFAR10，CIFAR100 [8]和Tiny ImageNet2。在我们的实验中，对于每一个数据集，我们采用以前发表的最佳模型（基线模型），并将原始 XE 的损失函数替换为建议的 GCE 。对于MNIST ，我们使用模型 Lenet-5 [12] 和 AdamOptimizer。对于CIFAR 10和CIFAR 100，我们使用ResNet-56 [7]; 而对于 Tiny ImageNet ，它使用ResNet-50进行训练。ResNet-56和ResNet-50模型按照[7]中描述的标准设置进行训练。详细地说，模型是使用SGD优化器训练的学习率设置为从0.1开始，然后是在第100和150个时期由10个人看到表2比较了基线模型和G CE模型的分类错误率。我们发现，GCE的模型所显示的性能是相同的x*= 1（tanh（w）+1）（8）2当由α控制的引导因子适当选择时，对于w，设0≤x≤ 1，使样本有效，用公式优化w参议员例如，在Tiny ImageNet上，我们提出的模型在α=1/3时实现了38.56%的错误率，优于基线模型的39.54%的错误率1min“w2（2- 3 - 4-5- 6- 51（tanh（w）+1））2（九）5.2. 对白盒攻击的鲁棒性拟议的GCE损失的主要动机是，其中c是常数。f（·）是目标函数f（x）=max（max{Zpre（x）i：i/=y}−Zpre（x）i，−κ）（10）其中，κ是置信度，Zpre（x）i是模型输出对数。训练对对抗性攻击鲁棒的模型在本节中，我们采用了上面在第二节中描述的训练模型5.1，并评估其稳健性2https://tiny-imagenet.herokuapp.com，Ima-geNet的一个子集[3]4887数据集MNISTCIFAR10CIFAR100微型ImageNet架构LeNet-5ResNet-56ResNet-50基线0.87.9931.939.54α=1/20.619.1840.5943.36α=1/30.677.1831.7538.56α=1/40.646.9331.838.69α=1/50.686.9131.4838.26表2.基线模型（使用XE）和建议模型的分类错误率（%），在4个α是所提出的模型的引导因子。六种白盒攻击（在第二节中描述）。4）. 在本节的实验中，我们将引导因子α的指数设置为1/3。鲁棒性我们首先评估了我们提出的模型在两个较小的数据集MNIST和CIFAR10上的鲁棒性。在先前工作中常见的预处理之后，将两个数据集中的像素值缩放到区间[0，1]。对于使用梯度的基于迭代的攻击，例如，FGSM，BIM，PGD和MIM，我们以非针对性的方式制作了对抗性的例子，关于扰动。BIM的迭代次数设置为10次，PGD和MIM的迭代次数设置为40次。对于使用雅可比矩阵JSMA的基于迭代的攻击，对抗性示例用γ的几个值（每个图像中被扰动的像素的最大百分比）进行扰动，并且扰动γ=1。对于基于优化的攻击，C W，我们使用“平均情况”方法执行有针对性的攻击，如原始论文[1]中所述。关于CW攻击的参数，我们将二进制步长设置为9，最大迭代次数设置为1000。初始常数设置为0.001，置信度设置为0。表3显示了上述攻击的结果。在两个数据集上，在六种白盒对抗攻击下，用GCE训练的模型总是比用XE训练的基线模型具有更高的分类准确率。特别是，我们的模型和基线之间的最佳精度改进是在动量迭代方法（MIM）攻击上。对于大规模数据集，即， CIFAR100 和 TinyImageNet，我们评估了我们的模型对PGD攻击的鲁棒性，PGD攻击是最强大的白盒攻击。表4比较了我们的模型和基线模型的分类准确性。在PGD攻击下，我们的模型在分类精度上优于基线模型。与COT相比的稳健性为了评估COT和GCE的对抗鲁棒性，我们对用COT训练的模型进行了各种白盒攻击表3.在大范围扰动的白盒对抗攻击上的性能（%）。MNIST的型号是Lenet-5，CIFAR 10的型号是Resnet-56。对于FGSM，BIM，PGD和MIM，我们选取了三个扰动，分别为0.04，0.12和0.2。在JSMA中，我们将扰动设置为1。最大迭代次数为100和200，这意味着JSMA在每个图像中搜索的最大像素。在我们的实验中，我们给出了最大迭代，它被转换为最大像素的百分比修正γ。在C W中，我们设置置信度c=0。最大迭代次数为1000次。攻击CIFAR100微型ImageNet参数XEGCE参数XEGCE=0.040.042.94=0.040.09.52PGD0.120.00.460.120.04.27=0.20.00.19=0.20.01.11表4.在CIFAR100中具有大范围扰动的白盒对抗攻击的性能（%）CI-FAR 100和Tiny ImageNet的模型是Resnet-56。在MNIST和CI-FAR 10中，GCE具有不同的扰动在表5中，我们显示了使用GCE训练的各种对抗性攻击的准确性优于COT。攻击MNISTCIFAR 10参数XECOTGCE参数XECOTGCEFGSM= 0.238.8851.862.74= 0.0414.7633.6241.22BIM= 0.22.154.3534.49= 0.040.257.4919.59MIM= 0.22.294.2639.81= 0.040.00.015.44JSMAγ= 0.251.5311.1326.24γ= 0.071.098.2518.72C Wc = 00.011.925.6c = 00.00.00.8表5.在MNIST和CIFAR10上 COT和GCE之间的各种白盒对抗攻击下的性能（%）5.3. 对抗训练对抗性训练的思想是在训练阶段包括对抗性示例，以创建在测试阶段对其他对抗性示例具有鲁棒性的模型。已经提出了几个对抗训练的框架。在这项工作中，我们选择整合我们的攻击MNISTCIFAR10参数XEGCE参数XEGCE=0.178.3287.66=0.0414.7641.22FGSM=0.238.8862.740.129.5814.82=0.314.9947.21=0.28.7811.81=0.153.1461.92=0.040.2519.59BIM=0.22.1534.490.120.03.03=0.30.0133.45=0.20.01.97=0.146.8551.85=0.040.05.91PGD=0.21.589.550.120.01.89=0.30.02.22=0.20.01.66=0.148.2861.18=0.040.015.44MIM=0.22.2939.810.120.013.1=0.30.0138.78=0.20.012.69JSMAγ=0.251.5326.24γ=0.071.0918.72γ=0.50.117.26γ=0.140.1410.94C Wc=0。0.025.6c=0。0.00.84888在投影梯度下降（PGD）对抗训练中提出了GCE损失函数，因为PGD攻击被认为是所有一阶对抗攻击中的通用攻击[14]。我们表明，由此产生的模型，从这种整合是更强大的比使用原始PGD方法训练。PGD对抗训练使用最小-最大目标函数来完成对抗训练：min ρ（θ），其中ρ（θ）= E [maxL（θ，x+δ，y）].（十一）θx，y<$D δ其中D是训练样本x和标签y对上的数据分布。损失函数L（·）是XE损失。在等式（11）中，内部最大化问题是用于制作训练对抗示例以诱导最大损失值，而外部最小化问题是用于构建分类模型ρ（·），以最小化通用对手的对抗损失。用于优化该最小-最大目标的一种典型方法是通过迭代算法。在原工作中，内部最大化和外部最小化的损失函数是相同的，这是XE损失。在我们的工作中，我们保持内部最大化的损失函数作为XE损失，因为已经证明，当使用XE损失时，PGD框架在所有一阶对抗攻击中生成最佳对抗示例另一方面，对于外部最小化，即分类模型的训练，我们用我们提出的GCE损失代替XE损失这种积分方式类似于其他以前的工作[19]，也保持XE作为内部最大化问题的损失函数在我们的设置中，我们使用GCE（α=1/3）作为经验风险最小化（ERM）[22]的损失函数，而不是等式（11）中的原始XE。然后，为了比较使用我们的设置生成的模型的鲁棒性，使用原始设置训练的模型，我们使用PGD白盒（相对于XE损失）对抗攻击来攻击这两个模型在我们的实验中，我们使用的最小化模型LeNet或Resnet，用于其相应的数据集。表6显示了MNIST和CIFAR10数据集的比较结果更具体地说，在我们的实验中，我们使用与先前工作[14]中使用的迭代优化相同的设置来进行对抗训练和对抗攻击：在MNIST上，我们在训练期间进行40次迭代来制作对抗示例;在测试阶段，使用100次迭代来应用PGD攻击。在CIFAR10上，使用了10次迭代的对抗训练，并进行了40次迭代的对抗攻击我们表现出更好的鲁棒性，同时使用GCE损失的外部最小化。攻击MNISTCIFAR10摄动XEGCE摄动XEGCEPGD=0.383.6783.85=0.04=0.0841.5012.9341.5713.16表6.在MNIST和CIFAR10上 PGD对抗攻击对抗训练模型的潜在空间我们还考察了用PGD对抗训练的GCE模型的潜空间，发现它们与自然训练过程中的GCE模型的潜空间具有相似的特征。例如，在图4中，我们可视化了在CI-FAR10数据集上训练的模型的潜在空间。可以看出，尽管存在许多对抗性训练示例，但我们的模型仍然能够分散不同类别的示例，并创建视觉上更好的分离集群。图4. CI-FAR 10上的逆向训练模型的潜在空间： XE 模型的（Left）后期空间; GCE模型的（Rightt）后期空间。使用P GD（h= 0.02）完成了广告宣传。使用t-SNE进行可视化6. 结论在本文中，我们提出了一个新的训练目标--GCE，以回答这样一个激励性问题：“如何提高模型的鲁棒性，同时在没有攻击的情况下保持或提高性能？” GCE鼓励模型学习将同一类的样本分组为不同聚类的潜在表示。实验结果表明，在正常条件下（不存在对抗攻击），与交叉熵相比，GCE训练的最先进模型在CIFAR-10 上实现了更好的准确性，相对高达10.14%。当存在对抗性攻击时，实验结果表明，与XE相比，使用GCE训练的模型更鲁棒。在PGD攻击下，GCE优于基线，提高了5.91%。我们的实验结果也证实了GCE可以与PGD对抗训练相结合，以实现更强的鲁棒性。3我们使用“自然训练”来指代仅使用原始数据集中的自然示例的训练过程，与在训练过程中使用对抗性示例的对抗4889引用[1] Nicholas Carlini和David A. 瓦格纳。评估神经网络的鲁棒性在IEEESP[2] Hao-Yun Chen，Pei-Hsin Wang，Chun-Hao Liu，Shih-JiehChang，Jia-Yu Pan，Yu-Ting Chen，Wei Wei，and Da-Cheng Juan.补充客观训练。在ICLR[3] Jia Deng ，Wei Dong ， Richard Socher ， Li jia Li ，KaiLi，and Li Fei-fei.ImageNet：一个大规模的分层图像数据库。2009年CVPR[4] Yinpeng Dong，Fangzhou Liao，Tanyu Pang，HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在CVPR[5] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。在ICLR[6] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络。在ICLR[7] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ， and JianSun.用于图像识别的深度残差学习。在CVPR[8] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征技术报告，2009年。[9] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的Im-agenet分类。在NIPS[10] 作者：Alexey Kurakin，Ian J.古德费洛和萨米·本吉奥物理世界中的对抗性例子在ICLR[11] 作者：Alexey Kurakin，Ian J.古德费洛和萨米·本吉奥大规模的对抗性机器学习。在ICLR[12] Y.莱肯湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，1998.[13] 作者：Michael Maire，Serge J.卢博米尔？罗斯？布尔德夫 Girshick ， James Hays ， Pietro Perona ， DevaRamanan ， Piotr Dollár ， and C. 劳伦斯 · 齐尼克。Microsoft COCO：上下文中的通用对象在ECCV[14] AleksanderMadry 、 AleksandarMakelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。对抗攻击的深度学习模型。在ICLR[15] Preetum Nakkiran.对抗性鲁棒性可能与简单性不一致。arXiv预印本arXiv：1901.00532，2019。[16] Nicolas Papernot，Patrick McDaniel，Somesh Jha，MattFredrikson，Z. Berkay Celik和Ananthram Swami深度学习在对抗环境中的局限性。IEEE欧洲安全与隐私研讨会，2016年。[17] Nicolas Papernot和Patrick D.麦克丹尼尔扩大防御蒸馏。arXiv预印本arXiv：1705.05264，2017。[18] 放大图片作者：Patrick D.McDaniel，XiWu，SomeshJha，and Ananthram Swami.蒸馏作为对深度神经网络的对抗性扰动的防御。 IEEESymposium onSecurity and Privacy， 2015。[19] Aditi Raghunathan Jacob Steinhardt和Percy Liang。针对对抗性示例的认证防御。在ICLR[20] Florian Tramèr、Alexey Kurakin、Nicolas Papernot、IanGoodfellow、Dan Boneh和Patrick McDaniel。完整的对抗训练：攻击和防御。在ICLR[21] 季米特里斯·齐普拉斯、希巴尼·桑图尔卡、洛根·恩斯特罗姆、亚历山大·特纳和亚历山大·马德里。鲁棒性可能与准确性不一致在ICLR[22] 弗拉基米尔·N·瓦普尼克统计学习理论概述。IEEE神经网络学报，1999年。[23] Tsui-WeiWeng ， HuanZhang ， Pin-YuChen ，JinfengYi， Dong Su，Yupeng Gao，Cho-Jui Hsieh，and Luca Daniel.评估神经网络的鲁棒性：极值理论方法。在ICLR

下载后可阅读完整内容，剩余1页未读，立即下载