基于有效矩阵的L2解耦合方向和范数的对抗性攻击和防御

70 浏览量更新于2023-10-19 收藏 665KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4322基于有效矩阵的L2解耦合方向和范数对抗性攻击和防御Jérôme Rony2001 Luiz G.Luiz S.奥利维拉2伊斯梅尔·本·赛义德1罗伯特·萨布林1埃里克·格兰杰11Imagerielesoliveira@inf.ufpr.brluiz.gh mailbox.orggmail.com{ismail.benayed，robert.sabourin，eric.granger}@ etsmtl.ca摘要对计算机视觉任务中的对抗性示例的研究表明，对图像的微小且通常难以察觉的变化可能会导致错误分类，这对广泛的图像处理系统具有安全性影响。考虑到L2范数失真，Carlini-Wagner攻击是目前文献中最有效的白盒攻击然而，这种方法是缓慢的，因为它执行线搜索的优化条款之一，往往需要数千次迭代。在本文中，提出了一种有效的方法来生成基于梯度的攻击，诱导错误分类与低L2范数，通过解耦的方向和范数的对抗扰动，被添加到图像。在MNIST、CIFAR-10和ImageNet数据集上进行的实验表明，我们的攻击以相当少的迭代次数（少至100次迭代）实现了与最先进的攻击方法相当的结果（就L2使用我们的攻击训练的模型在MNIST和CIFAR-10数据集上实现了最先进的基于白盒梯度的L2攻击的鲁棒性，当攻击被限制在最大范数时，表现优于Madry防御1. 介绍深度神经网络已经在各种计算机视觉应用中取得了最先进的性能，例如图像分类，对象检测，跟踪和活动识别[8]。尽管他们成功地解决了这些具有挑战性的任务，但他们很容易受到积极对手的攻击。最值得注意的是，它们容易受到对抗性示例1 的影响，在该示例中，向*同等缴款。这也影响了其他机器学习分类器，但我们将分析限制在CNN，这是计算机视觉任务中最常用的。图像，通常是人类观察者无法察觉的，会导致错误分类[2，17]。最近对对抗性示例的研究开发了允许评估模型的鲁棒性以及对这些攻击的防御已经提出了实现不同目标的攻击，例如最小化导致错误分类的噪声量[5，17]，或者足够快以纳入训练过程[7，18]。特别是，考虑到获得具有最低扰动（由其L2范数测量）的对抗性示例的情况，Carlini和Wagner（CW）[5]提出了最先进的攻击虽然这种攻击生成具有低L2噪声的对抗性示例，但它也需要大量的迭代，这使得训练鲁棒模型来防御此类攻击变得不切实际。相比之下，一步攻击生成速度很快，但使用它们进行训练并不能提高模型在白盒场景中的鲁棒性，因为完全了解受到攻击的模型[18]。开发一种在几次迭代中找到低噪声对抗性示例的攻击，将能够使用此类示例进行对抗性训练，这可能会增加模型对白盒攻击的鲁棒性。开发使对抗扰动的范数最小化的攻击需要优化两个目标：1）获得低L2范数，2）引起误分类。使用当前最先进的方法（CW [5]），这通过使用两项损失函数来解决，其中权重平衡通过昂贵的线搜索找到的两个竞争目标，需要大量的迭代。这使得评估系统的鲁棒性非常缓慢，并且对于对抗训练是不切实际的在本文中，我们提出了一种有效的基于梯度的攻击，称为解耦方向和范数2（DDN），诱导错误分类与低L2范数。这种攻击优化了交叉熵损失，而不是惩罚2 代码可在 https://github.com/jeromerony/fast_adversarial获得。4323a g表示分类器，如果argmaxjP（yj|x，θ） y为真，图1：ImageNet数据集上的对抗图像示例样品X被认为是卷曲涂层回收物。添加扰动δ，我们获得被分类为微波的对抗图像（其中δ2= 0。（七）.每次迭代中的范数，将扰动投影到以原始图像为中心的L2然后，规范的变化基于样本是否具有对抗性。使用这种方法来解耦对抗性噪声的方向和范数，导致攻击需要显著更少的迭代，从而实现一定的性能D（x，x∈）≤φ，对于给定的最大扰动φ。对给定的期望y类目标的定向攻击还需要即gmaxjP （yj|x（x，θ）=yta r ge t.W e表示为J（x，y，θ），输入x和标签y的模型预测之间的交叉熵。图1说明了针对ImageNet数据集，与Inception v3模型对比[16]。在本文中，攻击被认为是由一个基于梯度的优化过程，限制我们的分析，可微分类器。这些攻击可以被公式化以获得最小失真D（x，x≠ 0），或者求出了D（x，x∈ N）≤N的最大可能损失。作为例如，考虑距离函数是范数（例如，L0、L2或L∞），并且输入是图像（其中每个像素在一个白盒子里，nario，获得具有最小失真δ的非目标攻击的优化过程可以公式化为：minδ服从argmaxP（yj|x+δ，θ）/=y真与最先进的技术水平相当，同时符合δ用于对抗训练。一组全面的实验进行了使用J和 0≤x+δ≤M（一）MNIST、CIFAR-10和ImageNet数据集。我们的攻击获得了与最先进的结果相当的结果，同时需要更少的迭代次数（比CW少100倍）。对于ImageNet数据集上的无目标攻击，我们的攻击比C W攻击实现了更好的性能，攻击1000张图像所需时间不到10分钟，而超过35张图像对于有针对性的攻击，通过将约束改变为等于目标类，使用类似的公式如果目标是针对给定的最大范数噪声获得最坏的可能损失，则该问题可以用公式表示为：min P（ytrue|x+δ，θ），但条件是<$δ<$≤ <$进行CW攻击δ在MNIST和CIFAR- 10数据集上的对抗训练结果表明，DDN可以达到最先进的水平和 0≤x+δ≤M（二）与Madry防御相比的鲁棒性[12]。这些模型要求攻击使用更高的平均L2范数来诱导错误分类。当攻击的L2范数有界时，它们也获得了更高的在MNIST上，如果攻击范数被限制为1。5、使用Madry防御训练的模型达到67.3%的准确率，而我们的模型达到87.2%的准确率。在CIFAR-10 上，对于限制为 0的范数的攻击。 5，Madry 模型的准确率为 56.1% ，而我们的模型为67.6%。2. 相关工作在这一节中，我们形式化了对抗示例问题、威胁模型，并回顾了文献中提出的主要攻击2.1. 问题公式化令x是来自输入空间X的样本，其中来自一组可能标签Y的标签Y为真。令D（x1，x2）是比较两个输入样本的距离度量（理想情况下捕获它们的感知相似性）。P（y |x，θ）是由θ参数化的模型（分类器）。一个例子x∈X被称为adve r sarial（对于非目标攻击）针对有针对性的攻击，Maximiz-使P（y目标|x + δ，θ）。我们专注于基于梯度的攻击，优化L2扭曲的标准虽然这个距离并不能完美地捕捉感知相似性，但它被广泛用于计算机视觉中来测量图像之间的相似性（例如，比较图像压缩算法，其中使用峰值信噪比，其与L2度量直接相关）。一个可区分的距离测量，捕捉感知相似性仍然是一个开放的研究问题。2.2. 威胁模型在本文中，考虑了白盒场景，也称为完美知识场景[2]。在这种情况下，我们认为攻击者对系统有完善的知识，包括神经网络结构和学习的权重θ。该威胁模型用于评估最坏情况下的系统安全性。可以设想其他sce-narios来评估在攻击者的知识的不同假设下的攻击这些场景被称为黑盒或有限知识[2]。4324222.3. 攻击在文献中提出了几种攻击，或者专注于获得具有小δ的对抗性示例（等式10）。1)[5，13，17]，或者在对抗训练的一个（或几个）步骤中获得对抗样本[7，11]。L-BFGS Szegedy等人[17]提出了一种攻击最小失真的例子（方程。1），通过考虑以下近似：2.4. 防御开发对抗性示例的防御是一个活跃的研究领域在某种程度上，在发展防御和破坏防御的攻击方面存在军备竞赛Good- fellow等。提出了一种称为对抗训练的方法[7]，其中训练数据用FGSM样本进行扩充。这后来被证明对交互式白盒攻击和黑盒单步攻击都minC δ + log P（ytrue|x + δ，θ）δ服从0≤x+δ≤M（三）[18 ]第10段。Papernot等。[14]提出了一种蒸馏过程来训练鲁棒网络，这被证明很容易被迭代白盒攻击破坏[5]。其他防御措施包括模糊梯度[1]，其中模型包含其中，约束x+δ∈[0，M]n通过使用框约束优化器（L-BFGS：有限内存）Broyden–Fletcher–Goldfarb–Shanno), and a line-search tofind an appropriate value ofFGSM。Goodfellow等人[7]提出了快速梯度符号方法，这是一种可以生成对抗性示例的单步方法。原始公式是考虑L∞范数而开发的，但它也被用于生成关注L2范数的攻击，如下所示：nxJ（x，y，θ）不可微的步骤（使得梯度无法计算）[4，9]，或随机化元素（以引起梯度的不正确估计）[6，19]。这些防御后来被证明是无效的，当攻击与向后通过微分近似（BPDA）[1]，其中实际模型用于前向传播，并在向后通过梯度近似。Madry防御[12]考虑了最坏情况下的优化，是唯一被证明具有一定鲁棒性的防御（在MNIST和CIFAR-10数据集上）。下面我们提供x=x+阿姆斯壮（四）J（ x，y，θ）更多关于对抗训练的一般方法的细节，以及Madry防御。其中，约束x∈[0，M]n由以下简单地解决裁剪生成的对抗性示例。DeepFool 该方法考虑模型的线性近似，并通过选择在该近似下将穿过决策边界的点来迭代地细化对手示例这种方法是针对非目标攻击和任何 Lp范数开发的[13]。C W. 与L-BFGS方法类似，C& W L2at- tack [5]同时最小化两个标准-使样本具有对抗性的扰动（例如，错误分类的模型），和L2范数的扰动。他们提出使用双曲正切函数来改变变量，而不是使用框约束优化方法，并且他们使用logit之间的差异来优化对抗性示例的交叉熵。对于旨在获得类t的定向攻击，其中Z表示模型输出在softmax激活（logits）之前，它优化：对抗训练。这种防御考虑用对抗性示例来增强训练目标[7]，目的是提高鲁棒性。给定一个损失函数为J（x，y，θ）的模型，训练如下所示：J（x，y，θ）=αJ（x，y，θ）+（1−α）J（x，y，θ）（6）其中x是一个广告样本。在[7]中，FGSM用于在单个步骤中生成对抗性示例。Tramèr等人 [18]扩展了这种方法，表明使用训练中的模型生成一步攻击引入了一个问题。该模型可以收敛到一个退化的解决方案，其梯度产生“容易”的对抗样本，导致对抗损失对训练目标的影响有限。他们提出了一种方法，其中还使用模型的集合来生成对抗性的e示例。该方法具有一定的鲁棒性minδΣ Σx针对黑盒攻击使用代理模型，但不增加白盒场景的鲁棒性。哪里 f（x）=max（max{Z（x）i}−Z（x）t，−κ）i/=t（五）疯狂防御Madry等人[12]提出了一个鞍点优化问题，针对最坏情况进行优化：和1x=（tanh（arctanh（x）+δ）+1）最小p（θ）2其中，Z（x≠）i表示对应于第i个类的logit。通过增加置信度参数κ，对抗性θΣ其中p（θ）=E（x，y）<$DmaxJ（x+δ，y，θ）δ∈SΣ（7）样本将以更高的置信度被错误分类。为了在非目标设置中使用这种攻击，f的定义其中，D是训练集，并且S指示攻击者的可行区域（例如， S={δ：<δ}）。你看修改为f（x<$）=max（Z（x<$）y−maxi其中y是原始标签。y{Z（x∈）i}，−κ）4325这个Eq。7可以通过随机梯度下降来优化– during each training iteration, it firstfinds the4326g ←αδk200150100500−12−8 −4log2（C）0 4 8算法1解耦方向和范数攻击Input：x：要攻击输入：y：真标签（非目标）或目标标签（目标）输入：K：迭代输入：α：步长输入：γ：每次迭代Output：xx x：adversarialimage1：初始化δ0<$0，x<$0<$x，x0<$12：如果是有针对性的攻击：m← −1 else m←+1图2：在MNIST数据集上使用9个搜索步骤通过C W算法找到的最佳C最大化当前训练样本x周围的损失的示例（即，最大化δ上的损失，这相当于最小化正确类的概率，如3：对于k←1到K，4：g←m<$x<$k−1J（x<$k−1，y，θ）5：g简体中文6：δk←δk−1+g7：如果xk−1是adversarial，则g方向上的步长α当量2），然后，它使θ上的损失最小化。Athalye等人的实验[1]表明它是唯一一个在白盒攻击下没有被打破的防御。8：k←（1−γ）k−1减小范数9：其他10：k←（1+γ）k−1增加范数11：如果结束3. 解耦方向与范数攻击十二：xk←x+kδk2将δk投影到x周围的球从问题的定义中，我们可以看到，在一个固定的区域中找到最坏的由方程式2，这两个约束都可以用δ表示，并且可以使用投影梯度下降来优化所得方程。找到最接近的对抗性例子更难：当量1对模型的预测有约束，这不能通过简单的投影来解决。Szegedy等人使用的一种常见方法。[17]和在CW [5]攻击，是近似方程中的约束问题。1由一个无约束的，取代了惩罚的约束。这相当于联合优化两个项，S的范数和分类项（参见等式（1））。3和5），具有足够高的参数C。在约束优化的一般上下文中，这种基于惩罚的方法是众所周知的一般原理[10]。虽然处理无约束问题很方便，但惩罚方法在实践中有众所周知的困难。主要的困难是必须以特别的方式选择参数C。例如，如果C在等式中太小，5、榜样不会对抗;如果它太大，则该项将占主导地位，并导致具有更多噪声对抗性示例。这在使用少量步骤（例如，以使其能够用于对抗训练）。图图2绘制了通过对MNIST数据集运行CW攻击获得的C值的直方图。我们可以看到，最佳C在不同的例子，范围从2−11到25。我们还看到，无论我们攻击一个有或没有对抗训练的模型，最佳常数C的分布都会发生变化（对抗训练模型通常需要更高的C）。此外，惩罚方法通常会导致收敛缓慢[10]。由于很难找到合适的常数C十三：xk←clip（xk，0，1）确保xk∈X14：结束15：返回具有lo西范数xk−x2并且是adve-sarial的xk（a）xknotad versarial（b）xkad versarial图3：无目标攻击的示意图。阴影区域表示被分类为y真的输入空间的区域。在（a）中，xk仍然不是自适应的，我们在下一次迭代中增加范数k+1在这两种情况下，我们都从当前点xx开始进行步骤g，并投影回以x为中心的一个k+1球面。对于这种优化，我们提出了一种算法，该算法在优化过程中不对L2相反，通过将对抗扰动δ投影到原始图像x周围的球面上来约束范数。然后，通过二元判决对L2如果样本xk在步骤k处不是对抗性的，则对于步骤k+1增加范数，否则减小范数。基线高级培训#示例4327Σ我们还注意到，优化交叉熵可能会带来另外两个困难。首先，该函数是没有界的，这可以使它在方程的优化中占主导地位。3.其次，在攻击训练模型时，原始图像正确类的预测概率通常非常接近1，这导致交叉熵开始非常低，并在搜索对抗性示例期间增加了几个数量级。这会影响梯度的范数，使得很难找到合适的学习率。CW通过优化logits之间的差异而不是交叉熵来解决这些问题。在这项工作中，它是无界的问题不会影响攻击过程，因为更新范数的决定是根据模型的预测（而不是交叉熵）完成的为了处理梯度范数的大变化问题，我们在向其方向迈出一步之前将梯度归一化为具有单位范数完整的程序在算法1中描述，并在图1中示出。3.我们从原始图像x开始，迭代地细化噪声δk。在迭代k中，如果当前样本x∈k=x+δk仍然不是自适应的，我们考虑一个更大的范数∈k+1=（1+γ）∈k。否则，如果样本是对抗性的，我们考虑较小的k+1=（1 − γ）k。在这两种情况下，我们从点xk（图中的红色o w）开始执行步骤g（算法1的步骤5）。3），并将其投影回Brack+1- 以x为中心的球体（由虚线给出的方向图中的蓝线3），得到xk+1。最后，x∈k+1被投影到输入空间X的可行域上。对于归一化为[0，1]的图像，我们只需裁剪每个像素在该范围内（算法1的步骤13）。除了这一步，我们还可以考虑在每次迭代中量化图像，以确保攻击是有效的图像。值得注意的是作为输入，从大小为342×342的图像中裁剪。对于DeepFool [13]的实验，我们使用了简单的-来自Foolbox [15]的片段化，预算为100次迭代。对于CW的实验，我们将攻击（最初在TensorFlow上实现）移植我们使用与[ 5 ]相同的超参数：在C上进行9步搜索，初始常数为0。01，每个搜索步骤迭代10000次（提前停止）-我们参考此表中的C W 9×10 000情景。由于我们有兴趣获得需要很少迭代的攻击，我们还报告了在迭代次数限制为100的情况下的实验。我们考虑一个运行的场景-使用固定的C（1×100）执行100步，以及在C上运行4个搜索步骤，每个步骤25次迭代（4×25）的场景。由于[ 5 ]中提出的超参数被调整为更大的迭代次数和搜索步骤，我们对每个数据集执行网格搜索，使用范围[0.01，0.05，0.1，0.5，1]的学习率，以及范围[0.001，0.01，0.1、1、10、100、1000]。我们报告了C W的结果，其中超参数达到最佳中位数L2。所选参数列在补充材料中。对于使用DDN的实验，我们使用100，300和1 000次迭代的预算进行攻击，在所有情况下，使用γ0=1和γ=0。05.初始步长α=1，通过余弦退火减小到0。01在最后一次迭代中γ的选择基于图像的编码对于任何正确分类的图像，最小可能的扰动包括将一个像素改变1/255（对于以8位值编码的图像），对应于1/255的范数。由于我们执行量化，因此值是四舍五入的，这意味着算法必须能够实现低于1的范数。5/255= 3/510。当使用K步骤时，这要求：如果判定边界与δk-球面相切，则g将具有与δ k +1相同的方向。这意味着δk+1将被投影到δ k 的方向上。因此，规范将0（1−γ）K3<γ>1−510.13K510ǫ0（八）在这个方向上在决策边界的两侧之间振荡。用1+γ和1−γ乘以n将导致范数全局减少（两步）1−γ2，从而导致更精细地搜索最佳范数。4. 攻击评估在MNIST、CIFAR-10和ImageNet数据集上进行了实验，将所提出的攻击与文献中提出的最先进的L2攻击进行了比较：Deep- Fool [13]和C& W L2攻击[5]。对于MNIST和CIFAR-10，我们使用与[5]相同的模型架构和超参数进行训练（详细信息请参见补充材料）。在MNIST和CIFAR-10的测试集上，我们的基分类器分别获得了99.44%和85.51%的准确率。对于ImageNet实验，我们使用了预训练的 Inception V3 [16] ，它在ImageNet上实现了22.51%的top-1错误。验证集Inception V3拍摄299×299如果K=100，则γ=0。05.因此，如果存在具有最小扰动的对抗性示例，则算法可以在固定数量的步骤中找到它对于 DDN 的结果，我们考虑量化图像（到 256级）。量化步骤包括在每次迭代中（参见算法1的步骤13论文中报告的所有结果都考虑了[0，1]范围内的图像。进行两组实验：非针对-攻击和有针对性的攻击。与[5]一样，我们对MNIST和CIFAR-10测试集的前1000张图像进行了攻击，而对于ImageNet，我们从验证集中随机选择了1000张正确分类的图像。对于非目标攻击，我们报告了攻击的成功率（发现攻击的样本百分比），对抗性噪声的平均L2范数（对于成功攻击），以及所有攻击的中值L2范数，同时将不成功的攻击视为最坏情况的对抗性4328攻击平均病例成功率平均值L2最不可能成功平均值L2攻击平均情况成功平均值L2最不可能成功平均值L2攻击预算成功平均L2中位L2毕业人数运行时间MNIST4×25100.01.73821.74001001.7C W1×10099.41.59171.64051001.79×10000100.01.39611.412154 007856.8DeepFool10075.41.96852.290998-100100.01.45631.45061001.5DDN300100.01.43571.43863004.51 000100.01.42401.43421 00014.94×25100.00.19240.1541603.0C W1×10099.80.17280.1620914.6R-109×10000100.00.15430.145336 0091 793.2FADeepFool10099.70.17960.149725-CI100100.00.15030.13331004.7DDN300100.00.14870.132230014.21 000100.00.14800.13171 00047.64×25100.01.58121.338263379.3C W1×100100.00.98580.958748287.1净9×10000100.00.46920.398021 309127 755.6法师DeepFool10098.50.38000.265541-我10099.60.38310.3227100593.6DDN300100.00.37490.32103001 779.4美元1 000100.00.36170.31881 0005 933.6表1：在非目标场景中，我们的DDN攻击与C W [5]和DeepFool [13]对MNIST，CIFAR-10和ImageNet的攻击相比的性能。C W4×2596.112.825469.95.0090C W1×10086.892.094031.72.6062C W 9×10000100.001.9481100.02.5370C W4×2599.134.282680.68.7336C W1×10096.741.771866.22.2997C W 9×10 000[5]100.000.96100.02.22表2：DDN攻击与CWL2攻击的比较攻击MNIST。攻击平均病例成功率平均值L2最不可能成功平均值L2C W4×2599.780.324798.70.5060C W1×10099.320.310495.80.4159C W 9×10000100.000.2798100.00.3905DDN 100100.000.2925100.00.4170DDN 300100.000.2887100.00.4090DDN 1 000100.000.2867100.00.4050表3：DDN攻击与C WL攻击的比较表4：ImageNet上DDN攻击与C& W L2攻击的比较。对于CW9& × 10000，我们报道了[5]的结果.GTX 1080 Ti配备11GB内存。我们没有报告DeepFool攻击的运行时间，因为foolbox的实现逐个生成对抗性示例，并在CPU上执行，导致不具有代表性的运行时间。对MNIST和CIFAR-10的攻击是在一批1000个样本中执行的，而对ImageNet的攻击是在20批50个样本中执行的。对于目标攻击，遵循[5]中的协议，我们生成针对MNIST攻击CIFAR-10。2和CIFAR-10（每幅图像9次攻击），并对100次运行-为ImageNet选择的类（类数量的10%）。因此，在每次有针对性的攻击实验中，我们（到均匀灰度图像的距离，如[3]中我们还报告了梯度计算的平均数量（用于批处理执行）和NVIDIA在MNIST和CIFAR-10上运行9000次攻击，在ImageNet上运行10万次攻击。报告了两种情况下的结果1）所有攻击的平均值;2）当DDN 10099.981.026099.51.7074DDN 300100.000.9021100.01.3634DDN 1 000100.000.8444100.01.2240DDN 100100.001.9763100.02.6008DDN 300100.001.9577100.02.5503DDN 1 000100.001.9511100.02.5348432922选择最不可能的类（即，对于每个图像，在所有目标类别中选择最差的的防御攻击攻击平均值L中位数L成功模型精度≤ 1。5报告的L2规范是，在无目标的情况下，电话：+86-510 - 8888888传真：+86-510 - 8888888geNet数据集。对于MNIST和CIFAR-10数据集，DDN的结果与最新技术相当。DDN在MNIST数据集上获得的L2范数略差（与&CW 9×10 000相比），但我们的方法能够获得CW所发现的范数的5%&以内与CWL2攻击所需的54007次迭代相比，仅需100次迭代。当CW攻击被限制为最多使用100次迭代时，它总是比使用100次迭代的DDN执行得更差在Ima-geNet数据集上，我们的攻击获得了比其他两种攻击更好的均值L2范数 DDN攻击需要300次迭代才能达到100%的成功率。DeepFool获得了接近的结果，但未能达到100%的成功率。同样值得注意的是，DeepFool在对抗性训练的模型中表现更差（在第6节中讨论）。补充材料报告了三种攻击的扰动大小与模型精度的关系曲线表2、表3和表4分别列出了针对MNIST、CIFAR-10和ImageNet数据集的攻击结果在MNIST和CIFAR-10数据集上，DDN算法的性能与CW攻击相似，迭代次数为9× 10000次，且性能始终优于CW攻击当它被限制为100次迭代时（我们重申，CW攻击的超参数针对每个数据集进行了调整，而DDN的超参数对于所有实验都是固定的在ImageNet数据集上，DDN运行100次迭代获得了优于C W的性能。对于所有数据集，在场景限制为100次迭代的情况下，C W算法在找到最不可能的类的对抗性示例方面的成功率明显下降。5. 使用DDN进行对抗训练由于DDN攻击可以在相对较少的迭代中产生对抗性示例，因此可以用于对抗性训练。为此，我们考虑以下损失函数：J（x，y，θ）=J（x，y，θ）（9）其中，x是由DDN算法产生的对抗性示例，其被投影到x周围的一个球，使得分类器用具有最大范数的对抗性示例来训练。值得将这种方法与Madry防御[12]进行比较，其中，在每次迭代中，最坏情况对抗的损失（参见等式11）。2）在一个球的周围用原始样本x进行优化。疯狂DeepFool 100 91.6 4.95855.2946 93.1等人DDN 1 00099.61.84361.899469.9所有100.01.69171.830767.3C W9×10 000100.02.51812.614688.0DeepFool 100 94.3 3.9449 4.1754 92.7表5：我们对MNIST对抗性训练对Madry防御的鲁棒性评估。这种防御的直觉是在每次迭代中将决策边界推离x。我们确实注意到，这种方法并不具有马德雷防御的理论保证。然而，由于在实践中，Madry防御使用近似值（当搜索x周围的损失的全局最大值时），我们认为这两种方法都值得进行实证比较。6. 防务评估我们使用与MNIST相同的架构训练模型[5]，并使用宽ResNet（WRN）28-10 [20]训练CIFAR- 10（类似于[12]，其中他们使用WRN 34-10）。如第5节所述，我们用对抗扰动来增强训练图像。对于每个训练步骤，我们以100次迭代的预算运行DDN攻击，并将扰动的范数限制为最大值=2。对于MNIST实验，λ = 4，对于CIFAR-10实验，λ=1。对于MNIST，我们训练模型30个epoch，学习率为0。01，然后以0的学习率进行20个时期。001。为了减少CIFAR-10的训练时间，我们首先使用[20]中的超参数在原始图像上训练模型200个epoch。然后，我们使用Eq继续训练30多个epoch。9，保持相同的最终学习率为0。0008.我们稳健的MNIST模型对干净样本的测试准确率为99.01%，而Madry模型的准确率为98.53%。在CIFAR-10上，我们的模型达到了89.0% 的测试准确率，而 Madry 等人的模型。获得87.3%。我们使用三种非目标攻击来评估模型的对抗鲁棒性：Carlini 9×10 000，DeepFool 100和DDN 1 000。对于每个样本，我们考虑由三次攻击产生的表5和表6报告了该评估的结果，并与Madry等人[12]3和CIFAR-10的基线（没有对抗对于MNIST，基线对应于在我们提出的对抗训练过程中，我们优化了最接近的对抗性示例的损失（参见等式10）。①的人。的3模型取自https://github.com/MadryLab这意味着成功的攻击。基线DeepFool 100DDN 1 00075.4100.01.96851.42402.29091.434281.845.2表1报告了DDN与C W相比的结果所有100.01.37781.394640.8L2和DeepFool攻击MNIST，CIFAR-10和Ima-C W9×10 000100.02.08132.107173.0我们DDN 1 000100.02.48742.578187.6所有100.02.44972.553887.2433022防御攻击攻击平均值L中位数L成功模型精度WRN 34-10表6：评估我们在CIFAR-10上对抗Madry防御的对抗性训练的鲁棒性。图5：针对三个模型的不同噪声水平δ的对抗性示例：底线，马德雷防守[12]和我们的防守。每个图像左上角的文本指示1002;右下角的文本指示预测的类别4。然而，针对对抗训练模型（DDN）获得的一些对抗示例实际上改变了类（底部1008060402000 1 2 34噪声的L2范数1008060402000的情况。00。5.1. 0个1. 52.0秒2. 5噪声的L2范数右：0变为6）。对于所有模型，仍然有一些对抗性的例子非常接近原始图像（第一列）。在CIFAR-10上，虽然对抗训练的模型需要更高的攻击标准，但大多数对抗示例在感知上仍然类似于原始图像。在少数情况下（CIFAR-10的右下角示例），它可能会引起混淆：它可能会显示为向右更改为1 - a类（裁剪）汽车图4：MNIST（左）和CIFAR-10（右）上的模型稳健性：影响的准确性，因为我们增加了最大扰动。第4节中使用的模型。我们观察到，对于具有无界范数的攻击，这些攻击几乎可以100%成功地生成对抗性示例。然而，需要增加L2范数来生成针对使用DDN训练的模型的攻击图4显示了MNIST和CIFAR- 10模型分别对不同攻击的鲁棒性，最大L2范数增加。这些数字可以被解释为在对手被约束为在范数L 2 ≤ λ的情况下进行改变的情况下系统的预期精度。例如，在MNIST上，如果攻击者受到限制，最大范数为1。5、基线性能下降到40.8%;疯狂到67.3%，我们的防守到87.2%。当λ=2时。0，基线性能下降到9.2%，马德里到38.6%，我们的防守到74.8%。在CIFAR-10上，如果攻击者被限制为最大范数为0。5、基线性能下降到0.1%;疯狂到56.1%，我们的防守到67.6%。当λ= 1时。0，基线性能下降到0%，马德里到24.4%，我们的防御到39.9%。对于这两个数据集，使用DDN训练的模型在所有的Risk值上都优于使用Madry防御训练的模型。图5显示了DDN 1000攻击对MNIST和CIFAR-10上不同模型产生的对抗性示例7. 结论我们提出了解耦的方向和范数攻击，它获得了与L2范数对抗扰动的最先进的结果，但在更少的迭代。我们的攻击允许更快地评估可微模型的鲁棒性，并实现了一种新的对抗性训练，在每次迭代中，我们使用接近决策边界的示例进行训练。我们的实验与MNIST和CIFAR-10显示国家的最先进的鲁棒性对L2为基础的攻击在白盒的情况下。本文提出的方法在NIPS 2018对抗视觉挑战赛中使用[3]，在非目标攻击中排名第一，在目标攻击和鲁棒模型（黑盒场景中的攻击和防御）中排名第三这些结果突出了防御机制的有效性，并表明使用对抗训练的代理模型的攻击在黑盒场景中可以有效，这是一个有前途的未来方向。确认我们感谢Marco Pedersoli和Christian Desrosiers的深刻反馈。本研究得到了魁北克自然与技术研究基金会、加拿大自然科学与工程研究委员会和CNPq资助206318/2014-6的支持在MNIST上，基线的对抗性示例并不有意义的（视觉上仍然属于原始类），4CIFAR-10：1：汽车，2：鸟，3：猫，5：狗8：船9：卡车基线马德里我们基线马德里我们%准确度在λ≤ 0时。5C W 9×10000100.00.13430.12730.2基线DeepFool 10099.30.50850.424138.3WRN 28-10DDN 1 000100.00.14300.13700.1所有100.00.12820.12220.1马德里C W 9×10000DeepFool 100100.095.60.69121.48560.60500.957657.164.7等人DDN 1 000100.00.67320.587656.9所有100.00.66010.580456.1C W 9×10000100.00.88600.825467.9我们DeepFool 10099.71.52981.116369.9WRN 28-10DDN 1 000100.00.86880.817768.0所有100.00.85970.815167.64331引用[1] A. Athalye，N.Carlini和D.瓦格纳。混淆的梯度给人一种虚假的安全感：以对抗性的例子来规避辩护。在第35届机器学习集，第80卷，第274[2] B. Biggio和F.罗莉野生图案：对抗性机器学习兴起十年后。模式识别，84：317-331，12月。2018年。[3] W. Brendel，J.Rauber，A.Kurakin，N.Papernot，B.维利奇，M. Salathé，S.P. Mohanty和M.贝丝对抗性视觉挑战。arXiv：1808.01976，2018。[4] J. Buckman，A.罗伊角拉菲尔和我古德费罗Thermometer编码：一种抵抗对抗性示例的热门方法在2018年国际学习代表会议上。[5] N. Carlini 和 D. 瓦格纳。评估神经网络的鲁棒性。IEEESymposium on Security and Privacy（SP），第39-57页[6] G. S. Dhillon，K. Azizzadenesheli，Z. C.利普顿，J.伯恩斯坦，J.Kossaifi，A.Khanna和A.Anandkumar 随机激活修剪用于鲁棒对抗防御。在2018年国际学习代表会议[7] I.古德费洛，J。Shlens和C.赛格迪解释和利用对抗性示例。2015年，国际学习表征会议[8] J. Gu，Z. Wang，J. Kuen，L. Ma，A.沙鲁迪湾帅T. Liu，X. Wang，G. Wang，J. Cai，and T.尘卷积神经网络的最新进展模式识别，77：354[9] C. Guo，M. Rana，M. Cissé和L.范德马滕。使用输入变换处理对抗图像。在2018年国际学习代表会议上[10] P. A. Jensen和J. F. a.巴德运筹学模型与方法。Wiley，2003.[11] A. 库拉金岛Goodfellow和S.本吉奥。物理世界中的对抗性在学习代表国际会议（研讨会轨道），2017年。[12] A. Madry，A.马克洛夫湖Schmidt，D.Tsipras和A.弗拉多Towards Deep Learning Models Resistant to Adversaria

下载后可阅读完整内容，剩余1页未读，立即下载