双边对抗训练：快速训练更强大的对抗攻击的模型

5 浏览量更新于2023-10-13 收藏 586KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

双边对抗训练：快速训练更强大的对抗攻击的Jianyu Wang百度研究美国wjyouch@gmail.com张海超百度研究美国hczhang1@gmail.com摘要本文研究了具有对抗性的鲁棒模型的快速训练问题.从分析最先进的防御方法，即，在多步对抗训练[34]中，我们假设梯度幅度与模型鲁棒性有关。受此启发，我们建议在训练过程中对图像和标签进行预处理，我们称之为了生成对抗标签，我们导出了一个封闭形式的启发式解决方案。为了生成对抗图像，我们使用一步有针对性的攻击，目标标签是最容易混淆的类。在实验中，我们首先证明了随机开始和最易混淆目标攻击有效地防止了标签泄漏和梯度掩蔽问题。然后再加上对抗标签部分，我们的模型显着改善了最先进的结果。例如，针对具有交叉熵损失的PGD 100白盒攻击，CIFAR 10上的攻击率分别为63.7%和47.2%;在SVHN上，我们达到了59.1%对42.1%。最后，在非常（计算上）具有挑战性的ImageNet数据集上的实验进一步证明了我们的快速方法的有效性。1. 介绍深度学习在计算机视觉中的许多视觉识别任务中取得了巨大成功。然而，深度神经网络非常容易受到对抗性攻击[50]。具体来说，网络很容易被愚弄，在面对对抗性示例时做出错误的预测，这些示例是通过添加微小且难以察觉的扰动来对抗性操纵的图像这对部署真实世界的机器学习系统构成了巨大的危险。因此，训练一个对抗性强的模型对于商业化的AI技术具有近年来，人们提出了许多方法来防御对抗性实例.如[1]所示，多步对抗训练[34]是目前最好的防御方法。特别是对抗性的训练解决极小极大（鞍点）问题。内部最大化通过多步投影梯度下降（PGD）生成对抗性示例，然后将其用于外部最小化以优化网络参数。为了理解多步对抗训练的工作机制，我们首先在CIFAR10上进行了两个诊断实验。第一个实验是测试一个看似正确的假设：在训练过程中使用更强的对抗性攻击将导致更强大的模型。为此，我们比较了两个对抗训练的模型，它们只在内部最大化的超参数上有所1) [34]中的默认设置，由PGD 7 -2表示，其中迭代次数为7，步长为2像素; 2）使用较弱攻击训练的模型，由PGD 2 -8表示，其中迭代次数为2，步长为8像素。我们观察到，PGD 2 -8在不同的白盒攻击下与PGD 7 -2一样稳健这一结果使我们假设，在训练过程中简单地拟合足够的对抗性示例可能无法实现鲁棒性，并重新考虑是否存在与网络鲁棒性直接相关的更重要的成分。考虑到这一点，我们进行了第二个实验，比较了未防御模型和对抗训练模型的梯度大小。我们观察到，对抗训练模型的梯度幅度远小于不设防模型的直观地说，如果梯度（相对于输入图像）变得非常小，那么无论使用多少次迭代，基于梯度的对抗攻击都可能失败这启发我们，梯度幅度可能直接链接到模型的鲁棒性。基于上述观察，为了实现对抗鲁棒性，我们希望模型满足以下两个条件：1）低损耗（零阶条件）; 2）小梯度幅值（一阶条件）。为此，在本文中，我们提出了一种通过在训练过程中扰动输入图像和标签来实现这两个条件的公式，我们称之为双边广告训练（BAT）。在生成对抗图像时，我们采用了一步PGD算法，加快了训练速度，662926630与[34]相比，为了避免一步PGD [ 29，51 ]经常引起的麻烦的标签泄漏和梯度掩蔽问题，我们进行以下操作：1）使用目标标签为最易混淆类别的定向攻击; 2）在原始图像中加入随机均匀噪声作为初始化，如[34]中的随机开始。至于生成对抗标签，我们导出了一个公式，用于基于相对于输入标签的梯度来扰动地面实况标签（以独热向量的形式负对数概率）。作为特殊情况，当非地面实况类的梯度相等时，该解决方案简化为标签平滑。在实验中，我们首先经验性地证明了随机启动和MC目标攻击在避免标签泄漏和梯度掩蔽问题方面非常有效。单独使用这两种技术训练的模型可以实现与[34]中的多步逆向训练模型相似的鲁棒性。接下来，在添加对抗性标签部分后，我们的模型显著改善了[34]中的为了进行严格的鲁棒性评估，我们使用了强白盒攻击，如PGD100和PGD1000，交叉熵损失和基于边缘的损失。例如，在交叉熵损失下，对 PGD 100 ，在CIFAR 10上，我们实现了63.7%对47.2%;在SVHN上，我们达到了59.1%对42.1%。最后，我们将我们的快速方法应用于非常具有挑战性的Ima-geNet数据集。我们的模型仅使用8个GPU成功训练，而53个GPU [26]和128个GPU [55]。与最近的最新技术[55]相比，我们的模型在干净图像和非目标攻击方面更好，但在随机目标攻击方面更差，使用数量级更少的计算资源。总之，我们的贡献有三个方面。首先，我们实证表明，小梯度幅度可以提高对抗鲁棒性。其次，我们提出了一种快速的对抗训练方法，称为BAT，它同时干扰图像和标签。第三，我们的方法显着提高了几个数据集上的最先进的结果。2. 相关工作2.1. 对抗性攻击对抗性示例在机器学习中已经研究了很长时间[12，23，3，4]。在现代深度学习时代[50]首先指出CNN容易受到对抗性示例的影响，并提出了一种框约束L-BFGS方法来计算它们。后来，[19]提出了快速梯度符号法（FGSM）来有效地生成对抗性示例。然后，FGSM在[28]中扩展为迭代版本，这表明对抗性示例可以存在于物理世界中。在[38]中，作者提出DeepFool来计算对抗扰动，并定义和量化分类器的鲁棒性在[7]中，著名的连续波攻击提出了一种新的攻击方法，该方法利用基于间隔的损失，并通过改变变量来消除约束。尽管CW攻击非常缓慢，但它是目前最强大的攻击之一。后来[9]通过应用弹性网络正则化修改了[7有一些工作致力于提高对抗性示例的可移植性，这会导致更强的黑盒攻击。[33]提出了通过攻击网络模拟器的集合来计算对抗扰动，并证明了改进的可转移性。在[40]中，作者假设攻击者可以访问一些示例的预测结果。然后，他们根据有限数量的示例训练了一个替代/代理模型[15]证明了基于动量的迭代攻击实现了更好的传输能力。有一些作品提出了零阶攻击，即，使用logit来生成攻击[52，10]。此外，[5]提出了边界攻击，它是基于最终的模型决策，而不是梯度或logit。除了图像分类之外，对抗性示例还在许多其他任务中进行了研究，包括对象检测[54]，语义分割[54，37]，语音识别[11]，图像字幕[8]，深度强化学习[24，42]。除了加性扰动模型之外，[17]还研究了如何在旋转和平移下生成对抗样本[18]研究了在现实世界中检测停止标志的背景下的物理对抗另一个有趣的话题是[2]，其中作者合成-3D中的强大对抗示例2.2. 对抗性抗辩近年来，已经提出了许多方法来防御对抗性示例。一个研究方向是检测对抗性示例，例如[36，35]。但后来[6]表明，他们的CW攻击能够绕过大多数检测方法。另一条研究路线试图通过随机或不可微操作来打破对抗扰动中的特殊结构[53，20，48，46，31，43，32]。最近，[1]表明许多现有的防御方法依赖于梯度掩蔽，这导致了对抗性攻击的鲁棒性的错误感觉。此外，基于梯度的正则化[25，45]和最近邻[16]已被证明可以提高鲁棒性。对抗性训练[19，29，51，34，47，44，55，57]是目前对抗性攻击的最佳防御方法。[29]首先将对抗训练扩展到ImageNet数据集，作者在训练过程中使用一步最不可能的目标攻击来生成对抗示例。后来在[51]中，作者指出这种对抗训练的模型会受到梯度掩蔽的影响，并提出了集成对抗训练，它通过从一组266312Xx拿出来的模特[34]证明了多步对抗训练在实现鲁棒性方面非常有效，并且还设法避免了梯度掩蔽问题。根据[1]，这是目前最好的防御方法。3. 动机在本节中，我们实证分析了[34]中多步对抗训练方法的两个方面：1）如果内部最大化中的更多迭代可以提高鲁棒性，以及2）未防御模型和对抗训练模型的梯度幅度。实验在CIFAR10上进行基于分析，我们假设使损耗表面局部平坦（即，小局部梯度幅度）有助于实现更好的鲁棒性。所提出的算法将在下一节中给出。3.1. 背景我们首先简要描述了[34]中的对抗训练方法。该方法根据[1]实现了当前最好的对抗鲁棒性。具体来说，它解决了以下鞍点（极大极小）问题Acc.（%）清洁 FGSM PGD2-8 公司简介公司简介公司简介公司简介 88.057.053.051.247.647.2PGD2-888.256.953.250.546.746.2表1：[34]中的模型（顶部）与在训练期间使用较弱攻击的对抗训练模型它们实现了相似的鲁棒性。不设防对抗训练所有正确错所有正确错min3.0e-32 3.0e-32 264.1 2.6e-26 2.6e-260.2是说395.023.67.4e33.80.428.9Max4.5e47.0e34.5e4236.285.9236.2表2：CIFAR10上测试图像梯度幅度的最小值、平均值和最大值。总体而言，经过逆向训练的模型比未防御的模型具有更小的梯度幅度。所有模型都使用相同的正则化，epoch，学习率等进行训练。为此，我们比较了两个具有不同超参数的对抗训练模型，用于生成adver。min{Eθ（x，y）<$D[ maxL（x′，y; θ）]}.（一）x′∈Sx训练中的一些例子。第一个是[34]中的默认值，由PGD 7 -2表示，它使用7步PGD，步长为2.0。第二个是一个看似较弱的这里（x，y）表示原始数据点，x′表示L（·）表示损失函数，λx表示扰动预算。可行域Sx定义为1变体，由PGD 2 -8表示，这意味着仅使用2步PGD，步长为8.0。与[34]中一样，在训练和评估中扰动预算为8.0，并且使用随机开始从表1中我们可以看出，PGD 2-8的性能大致如下Sx={z |z ∈ B（x，n x）[−1. 0，1。0]n}，（2）与PGD 7 -2相同，对抗不同步长（强度）的PGD攻击。这个结果让我们假设我们-其中B（x，nx）， {z|<$z−x<$∞ ≤<$x}表示中心为x、半径为<$x的<$∞ -球。在下文中，为了符号简单起见，不失一般性，我们提出：该配方基于单一样品。外部最小化是使交叉熵损失最小化，如标准分类中内部最大化对应于对抗性攻击。为了更好地探索B（x，nx）中的解，[34]在进行许多PGD步骤之前使用随机开始，即，x0<$B（x，<$x），（3）在训练期间进行更强的攻击可能不一定导致更鲁棒的模型。逆向训练模型的梯度幅度。接下来，我们检查未防御模型和对抗训练模型的梯度大小我们考虑CIFAR10中所有测试图像的三个集合，并且对于每个集合，我们计算梯度幅度的最小值、平均值和最大值，即，ǁ∇xL(x, y;θ)ǁ2.这三个集合是：1）整个图像，由“全部”表示正确预测的图像，用“正确”表示.xt +1 =S XtX+ ·签名。L（xt，y;θ） .（四）预测图像，用“错误”表示。这些数字是如表2所示。首先，我们看到对于任何集合，原始图像x首先随机（均匀）扰动到B（x，λx）中的某个点x0，如（3）中所示，然后继续通过如（4）中的几个PGD步骤。算子将输入投影到可行域Sx中。3.2. 分析更多的迭代有用吗？我们首先检查，如果更多的内部最大化迭代有助于提高鲁棒性。1在实现中，我们重新缩放所有像素值在[-1，1]中的图像。26632未防御模型的梯度幅值远大于对抗训练模型的梯度幅值。此外，对于每个模型，正确预测的图像的梯度幅度远小于错误预测的图像的梯度3.3. 假设从上述分析中，我们假设小梯度大小直接与对抗鲁棒性相关。直观地说，如果损失表面在数据点周围是局部26633有多少步骤被使用。这个假设与[32]一致，他们称之为局部Lipschitz。注意，有文献[22，14]研究了损失面的平坦度与模型的推广之间的可能关系。在本文中，我们简单地使用梯度幅度这里，Sx由（2）定义，Sy定义为：ΣSy={z |z ∈ B（y，φ y），z ≥ 0，iz i=1}.（九）对抗训练的最终公式如下以测量“平整度”。一个严格的处理超出了本文件的范围，并作为未来的工作。一个简单的想法，以减少梯度幅度Σmin maxθx′∈Sx，y′∈SyL（x′，y′;θ），（10）是在训练期间用某种形式的梯度正则化来增强损失函数，例如，[45、25]。然而，这个想法的关键问题是训练需要计算二阶导数，这对于大规模网络来说变得非常缓慢和昂贵。4. 制剂在本节中，为了提高对抗性鲁棒性，我们提出了双边对抗训练（BAT），它在对抗训练期间同时扰动图像和我们首先大致将一般的对抗性其中（x，y）D。我们解决（10）的简单策略是：将其分解为两个独立的子问题，并优化x′或y′分别以另一个为条件在获得x′，y′之后，我们使用它们代替原始x，y作为训练数据点，并在θ上进行优化。换句话说，训练批次仅包含对抗扰动的图像。在接下来的两节中，我们将分别描述每个子问题的解4.1. 生成对抗性标签我们首先研究如何计算对抗标签y′给定原始数据点x，y。我们需要解决培训框架小梯度幅值让x，x′表示原始和轻微扰动的im，Maxy′∈SyL（x，y′; θ）.（十一）年龄，y，y′表示原始的和稍微扰动的地面实况（以概率分布的形式，位于概率x中）。设L（·）表示损失函数。损失的一阶泰勒展开式为这里，原始地面实况y是独热向量，即，y c= 1和y k=0，k i= c。我们使用k来表示类索引，并且使用c来表示groundtruth类。最直接的想法是使用一步PGDL（ x′，y′; θ）<$ L（ x，y; θ）y′=S.Σy+α<$yL（x，y;θ），（12）+xL（x，y;θ）·（x′−x）（五）yL（x，y;θ）=− log（p）。（十三）+yL（x，y; θ）·（y′−y）.ykk我们使用∞-范数的扰动预算约束，即，<$x′−x<$∞≤ <$x，<$y′−y<$∞≤<$y。（六）通过Holder在这里，算子将输入投影到可行域Sy中。基本上，它确保了对抗标签y′是1）在B（y，y）中，2）在概率单纯形中。接下来，我们提出了一个启发式的解决方案，以实现这两个。以下为我们将使用一些简短的符号。′ ′ vk=yk L（ x，y; θ），vMC= min vk，vLL= max vk.L（ x，y; θ）≤ L（ x，y; θ）Kck/=c+xxL（x，y;θ）1+y yL（x，y; θ）<$1.（七）这里，直观地说，对抗训练通过最小化L（x′，y′;θ），转化为1）最小化L（x，y;θ），2) 最小化梯度幅值<$xL（x，y;θ）<$1，以及yL（x，y;θ）<$1.第二点解释了表2中的结果。注意，第一点使网络预-dict正确的类，第二点使它很难26634MCK（最不可能）对应于具有最低概率的非可检验真值类。我们的想法是，我们将yc从1减少到1−ky，并将ky分配给其他非地面真值类。每个类别的份额基于它们各自的梯度kL（x，y; θ），而MC类别的份额基于它们各自的梯度k L（x，y;θ）。(i.e.、y′）设置为非常小。这样我们就能获得为基于梯度的攻击生成对抗性示例，因为梯度幅度变得非常小。y′=yk−vMC+γv， k/= c.（十四）上述提法没有具体说明如何生成-n−1k=/CKn−1MC+γ吃x′，y′。在数学上，优化问题可以写为这里，γ是非常小的值，例如，0的情况。01.另一种启发式解决方案请参考补充材料，Maxx′∈Sx，y′∈SyL（x′，y′; θ）.（八）比较。很容易看出，如果-v·26635C会1个以上γβ1+β伊非地面真值类相等，第二个乘法项变为1，然后我们得到ǫk=， k/= c.（15）n−14.2. 生成对抗图像接下来，我们研究如何计算给定原始数据点x，y的对抗图像x’。从数学上讲，我们需要解决这个问题这正是标签平滑[49]。换句话说，标签平滑可以被认为是一种对抗性的干扰，Maxx′∈SxL（x′，y; θ）.（二十二）Groundtruth标签的更新。请注意，θy控制y的扰动预算。我们感兴趣的是找到导致最不利扰动的标签的最大值这个想法是，我们希望保持地面真相类的概率（即，y′）比非地面实况类上的最大概率大至少βy′）。从数学上讲我们想要y′≥β·max y′。（十六）ck/=cK求解以下方程这就是对抗性攻击问题。对于非目标攻击，我们直接最大化（22）。使用非定向攻击的缺点是标签泄漏[29]。这是因为在训练过程中，模型隐式地学习从对抗性扰动（梯度）中推断出真实的标签。换句话说，该模型巧妙地找到了通往局部最优值的捷径（退化最小值[51一个更普遍和严重的问题是梯度掩蔽[41]。它指的是模型的损失面非常锯齿状，因此攻击者在迭代攻击期间更难找到好的梯度。如[1]中所示，梯度掩蔽（也称为梯度混淆）给出了一个错误的感觉，1−ǫβ-羟色胺V LL−V MC+ γ≥·，（17）鲁棒性，模型在面对强大的于夫我们得到n− 1k/=cKn−1MC+γ大量迭代的攻击。最近，提出了两种技术来减少或避免梯度掩蔽问题：1）使用多步PGD [34]; 2）使用模型的集合来生成ad-≤1。（十八）反例[51]。然而，有效性来自于y1+βVLL−VMC+γn−1k/=cv kn−1MC+γ时间成本[34]或内存成本[51]昂贵。以来我们的设计考虑之一是速度，在本文中，接下来，我们考虑两个极端的情况。1) 非地面实况类的概率是均匀分布的，即，标签平滑。在这种情况下，vLL=vMC。然后我们有n=1。（十九）n−1以CIFAR10为例（n=10）。我们得到了y= 0。1、我们专注于两个简单的技术：1）使用有针对性的攻击[29]; 2）添加随机噪声，如在等式（1）中。（3）[51，34]。至于针对性攻击，在[29]中，作者使用最小似然（LL）类作为目标类，即，y′=a r gma xy∈/=yL（x，y∈;θ）.（二十三）不同的是，在本文中，我们使用最易混淆（MC）类作为目标类，即，β= 81，或β y= 0。5，β = 9，或β y= 0。9，β=1。2) 非接地电阻类的概率为cen-y′=ar gminyyL（x，y≠;θ）.（二十四）在一个班级里。在这种情况下，vLL=然后我们有1ki=cvk，vMC=0。1为了快速训练，我们使用一步 PGD （在困难的ImageNet实验中，我们使用两步）。注意，更新等式（3）和（4）是针对非γ=vLL+γvLL+（n−1）γ≈。（二十）1+β有针对性的攻击。对于有针对性的攻击，我们只需替换用目标标签y′替换地面实况标签y，并且用负号替换加号，以便最小化注意，γ通常非常小，例如γ = 0。01.我们可以看到，给定乘数β，扰动预算的范围为相对于目标标签的损失。y-v−v266365. 实验110000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001+β1βn−1]中。（二十一）数据集和网络。在实验中，我们使用CI-FAR 10 [27]和SVHN [39]以及大规模Ima-geNet [13]。我们不使用MNIST [30]，因为它是注意，我们只需要指定一个合适的β。作为特殊情况，β=∞对应于原始的独热标签。由于图像的近二进制性质，这不是一个好的测试平台[51]。对于CIFAR10和SVHN，我们使用Wide1个以上、26637ResNet [56]（WRN-28-10）。对于ImageNet，我们使用ResNet家族[21]。大多数诊断实验都是在CIFAR10上进行的，因为它是目前最常用的对抗训练数据集。评价根据攻击者的知识量，有几种类型的攻击：i）基于梯度（白盒），其中攻击者具有模型的全部知识（结构、参数）; ii）基于得分（logit）的，其中攻击者知道模型的得分/logit向量（例如SPSA [52]，ZOO [10]）;iii）基于决策的，其中攻击者只知道预测的类（例如边界处的粘性[5]）。注意，攻击者掌握的信息越多在实验中，我们使用最强的基于梯度的白盒攻击。对于CIFAR10和SVHN，我们遵循[34]中的评估具体地，测试扰动预算为8像素。为了使用强攻击来评估模型的鲁棒性，我们1）总是使用非目标攻击，2）对于一步PGD攻击（即，FGSM），并使用随机启动进行多步PGD攻击。此外，对于一步攻击，步长是扰动预算（即，8像素），并且对于多步攻击，步长为2像素。对于ImageNet，我们遵循[26，55]中的评估设置具体地，测试扰动预算是16个像素。我们使用非目标攻击和随机选择标签的目标攻击。步长为1像素，除了PGD10攻击的步长为1.6像素。实施详情。对于CIFAR10和SVHN，我们基本上遵循[34]中发布的代码。对于CIFAR，学习率调度为[0.1，0.01 ， 0.001] ，对于 SVHN ，学习率调度为 [0.01 ，0.001，0.0001]。对于短训练，衰减时期调度是[60，90，100]。对于长时间的训练，时间表[100，150，200]。在所有的表格中，长时间训练的模式都以“+"结尾。对于ImageNet，我们使用Tensorpack包并使用8个GPU执行分布式我们主要遵循ImageNet上分布式训练ResNet模型的代码。学习速率表是[0.1，0.01，0.001，0.0001]，衰变时期时间表是 [30 ， 60 ， 90 ， 100] 。对于ResNet50，在DGX机器上的培训大约需要2天我们计划在这项工作发布后发布代码和模型。5.1. 随机启动和MC目标攻击在本小节中，我们证明了对于一步对抗训练，随机开始和MC目标攻击可以有效防止标签泄漏和梯度掩蔽问题。本诊断实验在CI-FAR 10上进行。为此，我们评估了三种不同的方法，Acc.（%）清洁FGSMCE7黑色W.O.RsRs W.O.RsRsFGSM55.299.168.60.00.0 56.2R-FGSM 89.855.863.646.448.0 88.0会92.697.986.20.00.0 80.9R-LL91.446.656.634.136.0 88.2MC86.470.773.037.640.3 84.3R-MC89.962.670.246.848.4 87.1表3：使用不同攻击以及有或没有随机开始的一步对抗训练模型的分类准确度。使用随机开始训练的模型以“R-”为前缀我们看到随机启动和MC定向攻击在防止标签泄漏和梯度掩蔽问题上是有效的。Acc.（%）FGSMMC会W.O.RsRs W.O.RsRs W.O.RsRsR-FGSM55.863.655.463.675.579.8R-LL46.656.644.055.670.776.4R-MC62.670.263.971.380.183.8表4：三种攻击的分类准确度，即，FGSM攻击、LL针对性攻击和MC针对性攻击，有或没有随机启动。这些行对应于不同的对抗训练模型。我们看到MC目标攻击与FGSM攻击具有相似的强度，并且都比LL目标攻击强得多模型总数。扰动预算是训练中的8个像素结果示于表3中。这些行对应于不同的模型，其中前缀列对应于使用单步（FGSM）或7步（CE7，CE是交叉熵的缩写）的非目标攻击，具有或不具有随机开始（由“RS”表示）。最后一列对应于使用未防御模型的黑盒攻击和FGSM攻击（w.o. RS）。首先，我们看到，FGSM和LL训练的目标模型遭受严重的标签泄漏问题，因为抵抗FGSM攻击的准确率甚至高于干净的准确率。但这只是虚假的鲁棒性，在CE7攻击下准确性下降到零。接下来，在应用随机开始后，R-FGSM和R-LL变得非常健壮，证明随机开始有助于模型避免对抗训练期间的标签泄漏问题。最后，我们看到模型R-MC表现最好，而R-LL表现最差，对FGSM和CE 7攻击。我们假设一步LL目标攻击的对抗训练模式是弱的，因为LL目标攻击本身是弱的。表4显示了使用一步PGD的这三种攻击的强度。一排排的-在训练过程中生成对抗性示例：FGSM在- tack，LL有针对性的攻击，和MC有针对性的攻击。对于每个选项，我们执行一步对抗训练，有或没有随机开始。这导致六个对手训练spond到使用随机开始训练的不同模型。列对应于具有或不具有随机开始的三次攻击我们看到MC定向攻击与FGSM攻击的攻击强度大致相当，并且都比LL攻击的攻击强度要2663810080604020表5：CIFAR 10上各种白盒攻击下R-MC-LA模型和变体的分类准确性。有针对性的攻击。这可能是因为通常很难稍微操作原始图像，使其成为一个视觉上非常不同的类。因此，我们建议在对抗训练中使用MC定向攻击，因为1）MC定向攻击比LL定向攻击强得多; 2）FGSM攻击风险标签泄漏和梯度掩蔽问题。我们简要总结一下随机启动的作用。在训练中，它有效地防止了标签泄漏和梯度掩蔽问题，但在攻击中，它削弱了一步PGD攻击的强度（如表4所示）。正如我们将要展示的00 10 20 40 60 80 100PGD攻击中的迭代次数图1：所提出的R-MC-LA模型对CIFAR 10上不同迭代次数的白盒PGD攻击的分类准确性。采用不同的扰动预算对模型进行训练。我们使用β= 9。Acc.（%）清洁 CE20公司简介CE100 公司简介CW200R-MC-LA（X= 8） 90.8 54.6 53.7 52.951.951.7R-MC-LA+（X=8）91.0 57.5 56.2 55.253.853.6R-MC-LA（λx= 4） 93.0 63.1 61.5 60.158.057.6R-MC-LA+（λx=4）92.9 66.9 64.2 63.760.760.3马德里 *88.0 47.6 48.6 47.248.148.1表6：拟议R-MC-LA随后，随机启动对多步PGD攻击的影响很小，特别是当步数变大时。5.2. CIFAR10数据集在本小节中，我们将报告针对CIFAR10 [27]数据集的白盒攻击的结果。它有10个类，50K训练图像（每类5K）和10K测试图像。如上所述，为了生成对抗图像，我们使用随机开始和MC目标攻击（扰动build-get是8像素）。为了生成对抗标签，我们使用（18）来计算预算budget_y，并且使用（14）来计算对抗扰动标签y′。所得模型表示为R-MC-LA，其中LA代表标签对手。我们还对对抗标签的一种特殊情况--标签平滑（Label Smoothing，简称LS）进行了我们的基线是[34]的多步对抗训练方法。我们在他们的论文中报告了由Madry标记的原始数字，并且还报告了由Madry* 标记的我们的再现模型的数字。针对PGD攻击的各个步骤的准确度在表5中给出。我们看到，在训练过程中扰动标签显著提高了基线的鲁棒性。标签平滑（R-MC-LS）效果很好，标签对抗（R-MC-LA）效果更好。此外，本文还将标签对抗算法应用到多步对抗训练中.我们看到，由此产生的模型，表示为Madry-LA和Madry-LA+，显着改善了原始版本，进一步验证了效果。CIFAR10上各种白盒攻击下的模型。为了排除随机性，在3个独立训练的模型上对这些数字进行平均。我们使用β= 9。标签对手。有趣的是，R-MC-LA（+）的表现甚至优于Madry-LA（+）。最后，我们观察到更长的训练对所有模型都有帮助。1)训练过程中的不同扰动预算接下来，我们研究是否在训练过程中使用更大的扰动预算会导致更稳健的模型。我们在训练过程中使用预算x∈{1，2，4，8，12}像素来训练图1显示了分类精度相对于PGD攻击中的步骤数。首先，我们观察到的总趋势是，随着步数的增加，精度迅速下降，然后平稳。其次，我们发现大预算（即，*x=12）或小预算（即，x=1）导致模型不太稳健。有趣的是，我们看到使用x=4训练的模型实现了最佳的鲁棒性。表6中给出了确切的数字。请注意，为了排除随机性，这些数字是在3个独立训练的模型上平均的我们还使用基于边际的CW损失来测试攻击[7]。例如，CW200攻击意味着使用CW损失和200步PGD。我们注意到，1）基线模型[34]在-eps=12eps=8eps=4eps=2eps=1madryAcc.（%）清洁 FGSM CE7 CE20R-FGSM89.855.848.0 42.9R-FGSM-LS（λ y= 0.第五章）89.162.054.6 49.0R-MC89.962.648.4 43.4R-MC-LS（ε y= 0.第五章）91.170.659.2 53.3R-MC-LS+（ε y= 0.第五章）91.871.462.7 55.9R-MC-LA（β=9）90.769.659.9 55.3R-MC-LA+（β=9） 91.270.763.0 57.8马德里[34]87.356.150.0 45.8马德里*88.057.051.2 47.6分类准确度（%）26639Acc.（%）清洁不设防另一个R-MC-LAFGSM CE20 FGSMCE20R-MC-LA90.787.888.874.471.0R-MC-LA+ 91.288.589.974.674.4表7：R-MC-LA模型对CIFAR 10上黑盒攻击的分类准确性。我们使用β=9。Acc.（%）清洁 FGSM CE20 CE100 公司简介R-MC-LA（X= 8）94.166.946.742.040.9R-MC-LA+（X=8）94.169.853.950.348.9R-MC-LA（λx= 4） 95.772.654.447.245.7R-MC-LA+（λx=4）95.574.263.059.158.5马德里 *91.861.043.242.143.4表8：在SVHN上的各种白盒攻击下R-MC-LA模型的分类准确率。使用不同的扰动预算来训练模型我们使用β=9。粘性或（基于边缘的）CW攻击; 2）CW攻击比CE攻击更有效地攻击我们的模型（R-MC- LA）。此外，我们评估我们的最佳模型，R-MC-LA+（λx=4），对1000步PGD攻击使用CE损失和CW损失。对CE和CW的准确率分别为61.4%和59.3%，与200步PGD攻击的准确率非常接近。2)黑盒攻击评估接下来，我们评估我们的R-MC-LA模型的黑盒攻击。我们使用两个模型来生成对抗性示例：无防御模型和另一个随机初始化的R-MC-LA模型。所有的模型都是使用x=8训练的。结果示于表7中。我们发现，由于两个独立训练的R-MC-LA模型具有相同的固有结构，因此R-MC-LA模型产生的攻击比无防御模型产生的攻击更强此外，我们看到所有的黑盒攻击都比白盒攻击弱（通过比较准确性），这表明我们的模型没有梯度掩蔽问题。5.3. SVHN数据集SVHN [39]是一个10路门牌号分类数据集。它包含73257张训练图像和26032张测试图像。我们不使用额外的训练图像。针对白盒攻击的结果如表8所示。与CIFAR10类似，我们看到我们的模型在干净图像和对抗各种强度的PGD攻击方面的表现明显优于最新的结果。5.4. ImageNet数据集ImageNet数据集包含128万张训练图像，包含1000个类。我们使用50 K im的验证集-表9：在ImageNet上的各种白盒攻击下R-MC-LA模型的分类准确度。我们使用β=一百块在训练和评估中，预算是16个像素。现在，只有两篇论文在ImageNet上应用了多步对抗训练，因为它在计算上非常昂贵。具体而言，现有技术[26]使用了53个P100 GPU，而最近的论文[55]使用了128个V100 GPU。我们在只有8个GPU的DGX机器上训练我们的模型，大约需要2天。为了公平比较，我们使用16个像素作为测试扰动预算。在我们的实验中，我们发现，在训练过程中使用一步攻击（在这种情况下，步长为16像素）遭受严重的标签泄漏和梯度掩蔽。我们还观察到CIFAR10和SVHN上的类似问题，当训练具有大预算时，例如，12或16岁为了使我们的方法适用于16像素的评估设置，我们使用两步MC目标攻击（在这种情况下，步长变为8像素）。在实验中，我们发现没有标签对手的训练效果很差，进一步证明了标签对手的有效性。在评估中，我们同时使用非目标攻击和目标标签是均匀随机选择的目标攻击请注意，非目标攻击比随机目标攻击强得多，因此我们相信使用两者将导致更可靠的鲁棒性评估。表9示出了我们的方法和两个基线方法的前1准确度，其中非目标攻击由“nt”表示，并且随机目标攻击由“rd”表示。我们可以看到，我们的方法在对抗CE 10-rd攻击方面明显优于现有技术[26]与最近的工作[55]相比，我们的模型在干净的准确性和非目标攻击方面更好，但在随机目标攻击方面更差。我们假设这可能是因为[55]中的模型使用随机目标攻击（与测试相同）进行训练，并且它们使用了一个数量级的计算资源（对抗训练期间的30步PGD）。6. 结论在本文中，我们提出使用对抗图像和对抗标签在对抗训练。通过一步或两步MC定向攻击生成对抗图像。对抗性标签由封闭式公式计算。在CIFAR10、SVHN和ImageNet上进行了针对各种白盒的年龄评估。据我们所知，最多的攻击，证明我们的方法的有效性。Acc.（%）清洁 CE10-nt CE100-nt CE 10-rdCE100-rdR-MC-LA-R5058.914.94.045.824.5R-MC-LA-R101 61.918.06.345.826.0R-MC-LA-R152 63.919.87.446.526.6[26]第二十六话72.0NANA27.9NA26640引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在2018年国际机器学习会议上。一、二、三、五[2] 阿尼什·阿塔利和伊利亚·苏茨科弗合成强大的对抗性例子。在2018年的机器学习国际会议2[3] Battista Biggio、Igino Corona、Davide Maiorca、BlaineNel-son、Ne dimSˇrndic´、PavelLaskov、Gior gioGiacinto和Fabio Roli。在测试时对机器学习的规避攻击。2013年，欧洲联合机器学习和数据库知识发现会议2[4] 巴蒂斯塔·比吉奥和法比奥·罗利。野生图案：对抗性机器学习兴起十年后。模式识别，84，2018年。2[5] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。在2018年国际学习代表大会上。二、六[6] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现：绕过十种检测方法。在2017年的ACM人工智能和安全研讨会2[7] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性IEEESymposium on Security and Privacy，2017。二、七[8] Hongge Chen，Huan Zhang，Pin-Yu Chen，Jinfeng Yi，and Cho-Jui Hsieh.用对抗性例子攻击视觉语言基础：神经图像字幕的案例研究在2018年计算语言学协会年会上2[9] Pin-Yu Chen，Yash Sharma，Huan Zhang，Jinfeng Yi，and Cho-Jui Hsieh. EAD：对深度神经网络的弹性网络攻击-通过对抗性示例进行。AAAI人工智能会议，2018年。2[10] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo

下载后可阅读完整内容，剩余1页未读，立即下载