LogBarrier对抗攻击：梯度优化的最佳实践

134 浏览量更新于2023-10-12 收藏 750KB PDF 举报

对抗攻击

图像分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4862LogBarrier对抗攻击：有效利用决策边界信息Chris Finlay，Aram-Alexandre Pooladian和Adam ObermanMcGill大学{christopher.finlay，aram-alexandre.pooladian}@ mail.mcgill.ca，adam. mcgill.ca摘要针对图像分类的对抗性攻击是对图像的小扰动，其被设计成引起模型的误分类。对抗性攻击形式上对应于一个优化问题：找到最小范数图像扰动，约束到引起误分类。已经开发了一些有效的攻击。然而，迄今为止，没有基于梯度的攻击使用最佳实践的优化文献来解决这个约束最小化问题。我们设计了一个新的untargeted攻击，基于这些最佳实践，使用备受推崇的对数屏障方法。平均而言，我们的攻击距离类似于或优于基准数据集（MNIST，CIFAR 10，ImageNet-1 K）上的所有最先进的攻击。此外，我们的方法在最具挑战性的图像上表现得更好，这些图像通常需要更大的扰动来进行错误分类。我们采用LogBarrier攻击的几个adversarially防御模型，并表明它adversarially扰动所有图像比其他攻击更有效：干扰所有图像所需的距离与LogBarrier攻击显着小于其他国家的最先进的攻击。1. 介绍深度学习模型在许多应用领域取得了令人印象深刻的然而，深度学习模型仍然容易受到对抗性攻击[21]：模型输入中的微小变化（人眼无法感知）可能导致模型预测的巨大差异。在基于安全的应用程序中，此漏洞是最令人担忧的。例如，交通标志可能被修改为小贴纸，导致错误分类，导致停车标志被视为限速标志[7]。面部识别系统可以很容易地使用彩色眼镜欺骗[19]。这一安全缺陷导致了研究界的军备竞赛，在那些开发防御系统的人之间，对抗性攻击，以及那些致力于用更强的对抗性攻击方法来克服这些防御的人[22，17]。值得注意的是，随着社区开发出更强大的对抗攻击方法，声称模型对对抗攻击的鲁棒性往往被证明是不成熟的[5，2]。有两种方法可以证明模型可以抵抗对抗性攻击。第一个是理论上的，通过一个可证明的下限上的最小对抗距离必要的导致错误分类[22，17，9]。理论下限通常是悲观的：理论下限和最先进的攻击算法生成的对抗性示例之间的差距因此，还使用了第二种经验方法：最小对抗距离的上限通过对抗攻击创建的对抗示例来证明[11，14，5，4]。因此，设计强对抗性攻击的动机是双重的：一方面验证了鲁棒性的理论下限;另一方面，构造最小对抗距离的经验上界。理想情况下，理论下限和经验上限之间的差距应该很小。当对抗性攻击变得更强时，差距从上面缩小。用对抗性攻击找到对抗性示例的过程是一个优化问题：找到导致误分类的模型输入的小扰动。这个最优化问题已经以各种方式被改写。许多对抗性攻击不是直接实施错误分类，而是试图最大化损失函数。快速梯度符号法（FGSM）是第一个这样做的对抗性攻击之一[21]，它在∞范数下测量扰动大小。FGSM的迭代版本很快被开发出来[11，14，24]。当扰动在0.02范数下测量时，迭代版本执行投影梯度下降（PGD）;当在θ∞中测量时，迭代版本称为IFGSM。这两个迭代版本最大化的损失函数的约束，强制执行小扰动在适当的规范。其他作品研究了稀疏对抗攻击，如[16]。而不是最大化损失，卡里尼和4863Wagner [5]通过将错误分类强制到预定的目标类别来开发强大的对抗性攻击如果只有模型的决策可用（而不是损失或模型梯度），则仍然可以使用无梯度优化技术找到对抗性示例[4]。在本文中，而不是使用损失作为误分类的代理，我们设计了一个对抗攻击，直接解决对抗优化问题：最小化输入扰动的大小受到误分类约束。我们的方法是基于梯度的，但不使用训练损失函数。该方法是基于一个健全的，完善的优化技术，即对数障碍法[15]。对数酒吧是一个简单而直观的方法，专门设计来加强不等式约束，我们利用它来加强错误分类。我们比较了LogBarrier攻击与当前基准对抗攻击（使用Foolbox攻击库[18]），在几个常见的数据集（MNIST [13]，CIFAR 10 [10]，ImageNet-1 K [6]）和mod-埃尔斯平均而言，我们表明LogBarrier攻击与当前最先进的对抗性攻击相当。此外，我们表明，在具有挑战性的图像（那些需要更大的扰动误分类），日志屏障攻击始终优于其他对抗性攻击。事实上，我们通过攻击训练为对抗性鲁棒的模型来说明这一点，并表明Log- Barrier攻击比其他攻击更有效地干扰所有图像。年龄，x+δ，使得模型错误分类：arg maxf（x+δ）/=c（1）在某种意义上，扰动必须很小：它必须足够小以使人仍然能够正确地对扰动图像进行分类。存在用于测量扰动的大小的各种度量。一个常见的选择是最大范数（max-norm）;其他人使用（欧几里德）n2范数。如果扰动必须是稀疏的-在本文中，我们让m（δ）是关于扰动δ的大小的一般度量。典型地，m（δ）是特定的NLP范数，m（δ）=<$δ<$p，例如欧几里德范数或最大范数。因此，找到对抗性图像的问题可以被转换为一个优化问题，最小化扰动的大小受到模型误分类。误分类约束很难实施，因此一种流行的替代方法是引入损失函数L。例如，L可以是模型训练期间使用的损失函数。在这种情况下，损失衡量的是在图像x处的模型。如果在扰动图像x+δ处损失较大，则希望图像也被错误分类。然后，损失函数被用作错误分类的代理，这产生了以下用于查找对抗性示例的间接方法：攻击方式：LogBarrier攻击能够使用比最大δL（x+δ）（二）其他方法。2. 背景材料对抗性例子出现在跨多个领域的分类问题中。迄今为止的文献主要关注图像分类中的对抗性示例：对抗图像看起来与由模型正确分类的图像没有不同（或仅稍微不同），但是尽管这种相似性，但是被错误分类。我们让X为图像空间。通常，像素值被缩放到0和1之间，使得X是单位盒[0，1]M<$RM。我们让Y是标签的空间。如果图像可以是N个类别中的一个，则Y通常是RN的子集。Y通常是概率单形，但不总是。在这种情况下，标签y的每个元素yi对应于图像属于类别i的概率。因此，地面实况标签是独热向量。一个训练好的模型，具有固定的模型权重w，是一个映射f（·;w）：X→Y。为了生存，下面我们不再依赖于W。对于输入图像x，模型给定图像-标签对（x，y），设c为正确标签的索引（y的arg max）。如果argmaxf（x）=c，则模型是正确的。对抗性图像是原始图像的扰动当m（δ）≤ε时，最大化受到小于特定阈值的扰动的损失。（2）所采用的优化方法在关于这个主题的第一篇论文中，Szegedy 等人 [21] 提出了快速符号梯度法（FGSM），其中m（δ）是扰动δ的∞范数，并且通过在符号梯度方向上采取一步来近似（2）的解在[11]中提出了具有多个步骤的迭代版本，迭代FGSM（IFGSM），并且仍然是在λ∞中测量的对抗攻击的选择方法。当在102中测量扰动时，使用投影梯度下降（PGD）[14]求解（2）较少的工作直接研究对抗优化问题，即，没有损失函数。在一项开创性的工作中，Carlini和Wagner [5]开发了一种有针对性的攻击，其中对抗距离最小化，有针对性的错误分类在有针对性的攻击中，不仅仅是任何错误的分类都可以：对抗扰动必须引起对预先指定的目标类别的误分类。Carlini-Wagner攻击（CW）将目标误分类约束作为惩罚项并入到目标函数中CW攻击能够克服许多4864= 2= 1= 0.5对抗性防御方法被认为是有效的，并且是对抗性研究界寻求对抗性鲁棒性的严格理论保证的动力人们对无梯度方法用于发现对抗性示例很感兴趣在这种情况下，攻击者只能访问模型的分类，而不能访问模型本身（也不能访问模型的梯度）。在[4]中，Brendal et al di-在使用无梯度方法执行误分类的同时，直接最小化102他们的边界攻击迭代地在最小化扰动大小，并将扰动投影到分类边界上。通过在分类边界附近对模型决策进行局部采样来近似投影步骤3. LogBarrier攻击15.012.510.07.55.02.50.00.00 0.25 0.50 0.75 1.00fmaxfc我们通过直接解决以下优化问题来解决查找（非目标）不利示例的问题，图1：对数势垒函数φ（·）：=−λlo g（·）定义在er（0，1）上。随着λ减小，势垒变得更陡，模仿硬约束。尽量减少δm（δ）（三）fc，对数势垒项很小。但由于此服从arg maxf（x+δ）/=c，也就是说，最小化受误分类影响的对抗距离我们使用对数屏障方法[15]来强制错误分类，如下所示。我们给出一个图像-标签对（x，y）和正确的标签c=argmaxy。如果模型预测的至少一个指数的值大于正确指数的预测值，则在图像xmaxfi（x）−fc（x）>0（4）i/=c这是错误分类的充分必要条件。因此，我们重写（3）：差距缩小，惩罚项接近无穷大。因此，惩罚充当障碍，迫使优化算法搜索约束无效的解决方案如果在λ→0的极限下，恢复原问题（5）的解。(This如果需要，可以使用Γ-收敛[3]使参见图1，其中势垒函数随λ值的减小而绘制。在极限为λ→0，如果满足约束，则障碍变为0，否则为∞。3.1. 算法描述我们现在给出一个精确的描述我们的实现-尽量减少δm（δ）（五）用于生成对抗性图像的对数屏障方法的改进。约束fmax−fc>0可以看作是一个满足maxfi（x+δ）−fc（x+δ）>0。可行集因此，算法首先找到一个初始值，初始可行图像：原始图像必须被扰动障碍法是优化中的标准工具，用于解决具有不等式约束的问题（5）。对该方法的完整讨论可以在[15]中找到。在障碍法中，不等式约束通过惩罚项被纳入目标函数，如果违反约束，则惩罚项是有限的。如果一个约束远未被激活，那么惩罚项应该很小。负对数是一个理想的选择：minm（δ）−λlog（fmax−fc）（6）δ其中我们表示fmax：= maxifi（x+δ）和fc：=fc（x+δ）.如果fmax之间的差距远大于4865从而它被错误分类（不一定接近原始）。有几种方法可以找到错误分类的图像。一个简单的方法是用不同的标签拍摄另一个自然图像。然而，我们在实践中发现，更接近的初始图像是通过随机扰动原始图像与噪声水平的增加（例如，标准正态或伯努利），直到它被错误分类。在每次随机扰动之后，经由投影将图像投影回到[0，1]MP. 算法1中简要描述了该过程。注意如果原始图像已经被错误分类，就没有运行-由于原始图像已经是对抗性的，所以执行DOM扰动。4866算法1LogBarrier：输入：图像x∈X，模型f（·;w），ρ，步长h>0，kmax∈N。初始化：B<$Bernoulli（ρ）∈ X或B<$Normal（0，1）对于k=0到kmax，如果x被错误分类，则退出for循环else样品b来自Bx← P（x + h1. 01kb）结束if结束for在找到初始扰动后，我们对固定的λ求解（6）。可以使用各种优化方法算法来求解（6）。对于小到中等规模的问题，牛顿方法的变体通常是首选的。然而，由于计算的限制，我们选择使用梯度下降法。在每个梯度下降步骤之后，我们检查以确保更新的对抗图像保持在[0，1]M框中。如果不是，则将其投影回图像集合中投影P。有可能梯度下降步骤移动ad-该模型可以对图像进行分类，从而使图像能够被模型正确地分类。如果发生这种情况，我们只需沿着当前的路径和前一个路径之间的路线回溯，直到我们重新获得可行性。为了说明回溯过程，设u（k）是前一个变量，u_（k+1）是一个可以-图2：LogBarrier攻击的中心路径。虚线表示对数屏障函数的水平集。当λ减小时，迭代接近决策边界。算法2LogBarrier攻击输入：原始图像x、初始误分类图像u（0）、模型f（·;w）、距离度量m（·）超参数：回溯因子γ∈（0，1），初始惩罚因子λ0，步长h，λ收缩因子β∈（0，1），终止阈值ε >0，最大迭代次数K外，J内∈ N.对于j=0到K外·J内，如果jmodKouter= 0：λk=λ0βkdidate对抗图像，现在已正确分类。我们继续回溯下一个u（j+1）←u（j）— h.m（u（j）— x）+λkφ（uΣ（j））u（k+1） ←γu （k+1）+（1−γ）u（k）、（7）u（j+1）←P.Σu（j+1）投影到[0，1]M上直到情报被错误分类超参数γ∈（0，1）是一个回溯参数。聚点当u（j+1）未被误分类时，上面的序列是u（k）。结果，这个过程肯定会终止，因为前一个队列本身就被错误分类了。这个回溯程序是一些-endwhileu（j+1）←γu（j+1）+（1−γ）u（j）当迭代次数非常接近deci时，Sion边界如果对数障碍项非常接近决策边界，则对数障碍项的梯度非常大，并且主导更新步骤。由于约束集fmax−fy>0不一定是凸的，甚至不一定是全连通的，所以有可能将该约束集发送到很远的地方。从先前的分类中删除，而不保持错误分类。我们在实践中很少遇到这种现象，但包括回溯步骤作为一种安全措施。另一种方法（我们没有实现），更符合传统的优化技术，将改为使用动态步长规则，如Armijo-Goldstein条件[1]。梯度下降算法包括在内部循环中回想一下，当λ→0时，对数条-4867如果<$u（j+1）−u（j）<$≤ε，则打破结束if结束for问题（5）是原问题（5）的一部分。因此，我们将λ缩小了一个因子，然后再次重复这个过程，在一系列外部循环中迭代（当然，现在用之前的λ进行初始化）。当λ收缩时，（6）接近决策边界。在每个内部循环中，如果迭代器未能移动到小于某个阈值ε，则我们进入下一个外部循环。外部环路的迭代所采用的路径称为中心路径，如图2所示。48682LogBarrier攻击的伪代码在Al-出租m2中给出。为了简洁起见，我们将对数障碍φ（u）写为：- log（maxifi（u）−fc（u））. 我们注意到LogBar-通过运行该方法，可以改进rier攻击。次，使用不同的随机初始化（尽管我们在这里没有实现）。对抗性扰动的文献主要集中于在范数φ2和φ∞下测量的扰动。对于以π2范数测量的扰动，我们将距离测度设置为平方欧几里德范数，m（δ）=2002年。当扰动以∞范数度量时，我们不要直接使用最大范数作为度量，因为事实上，在稀疏子梯度的情况下，∞相反，我们使用下面的近似的∞范数[12]，表1：在2002年测量的攻击中，在指定的扰动大小下网络的误分类百分比。因为我们正在测量对抗性攻击的强度，在给定的对抗性距离下，错误分类的百分比越高越好。ǁδ ǁ2MNIST2.3CIF所有CNN120/ 255AR10ResNeXt34120/ 255Imagenet-1K1LogBarrier99.1098.7099.9098.40CW98.5097.3090.4074.86PGD52.5886.6059.8090.00BA97.2098.7099.6048.80表2：在特定的扰动大小下，网络的误分类百分比，用于以∞为单位测量的攻击。更高的误分类率更好。δ maxi=1，…N |δi|ΣN|δ|exp（α|δ|）≈Σi=1我我、Ni=1 exp（α|δi|）其中α>0。当α→ ∞时，恢复了范数算法超参数像许多优化例程一样，对数屏障方法有几个超参数。但是，由于我们的实现是并行的，我们发现调优过程相对较快。对于π∞攻击，我们的错误参数是ε=1 0−6，h=0。1，β=0。75，γ=0。5，λ0=0。1，K外部=25，J内部=1000。2002年，我们设h=5·10−3，其中K外=15，J内=200;其余的与在∞情况下相同对于初始化过程，我们有一个x=103和h=5·10−4。如果在2012年攻击，我们使用标准正态分布进行初始化。否则，对于φ∞，我们使用ρ = 0的伯努利初始化。01.Top5错误分类LogBarrier攻击也可以推广到强制Top5错误分类。在这种情况下，误分类约束是f（k）（x + δ）-fc（x+ δ）> 0，k = 1，. . . ，5，其中，now（k）是排序后的模型输出的索引（在换句话说，f（1）=maxifi，并且f（2）是第二大的模型或输出，等等）。然后我们设置障碍函数MNIST和CIFAR 10，我们攻击1000个随机选择的图像;在ImageNet-1 K上，由于计算限制，我们攻击500个随机选择的图像。在 ImageNet-1 K 上，我们使用LogBarrier攻击的Top5版本。所有其他攻击方法都使用对抗攻击库Foolbox [18]实现。对于2012年测量的对抗性攻击，我们比较了LogBarrier攻击与投影梯度下降（PGD）[14]，Carlini-Wagner攻击（CW）[5]和边界攻击（BA）[4]。这些三次进攻都很强，在对抗性进攻比赛中一直表现出色。当在∞中测量时，我们与当前最先进的IFGSM[ 11 ]进行比较。我们将Foolbox超参数保留为默认值，除了边界攻击中的迭代次数，我们将其设置为最大5000次迭代。4.1. 不设防网络我们首先研究了LogBarrier攻击，它针对的是没有被训练成对抗性强的网络。对于MNIST，我们使用[5，16]中描述的网络。在CI-FAR 10上，我们考虑两个网络：AllCNN [20]，一个浅卷积网络;和ResNeXt 34（2x32）[23]，是-5k=1 log（f（k）− fc）. 在这种情况下，LogBar-一个更深的网络残余网络。最后针对瑞尔攻击是用未分类在Top5中。4. 实验结果我们在三个基准数据集上比较了LogBarrier攻击与当前最先进的对抗性攻击：MNIST [13]，CIFAR 10 [10]和ImageNet-1 K [6]。对ImageNet-1 K，我们使用预训练的ResNet 50 [8]，可在PyTorch网站上下载。表1和表2报告了在固定扰动大小下每次攻击的误分类百分比。一个强大的攻击应该有很高的错误分类率。在表中，扰动大小被选择为与对抗文献中通常报告的攻击阈值一致。测量ǁδ ǁ∞LogBarrierIFGSMMNIST0.394.8073.40CIFAR10所有CNNResNeXt342015年10月 25日星期一一百九十八点七93.1 75.8Imagenet-1K8/25595.2099.604869表3：在102范数下的对抗性攻击扰动统计我们报告了测试数据集子样本上对抗距离的均值和方差值越低越好。MNISTµ σ2CIFAR所有CNNµ σ210ResNeXt34µ σ2ImageNet-1Kµ σ2LogBarrier1.291 .一、小行星98e−11 .一、行星63e−11 .一、12e−21 .一、星21e−1六、小行星68e−33 .第三章。小行星82e−1六、行星87e−2CW1.271 .一、小行星96e−11 .一、小行星72e−18. 小行星57e−2二、小行星39e−11 .一、行星87e−18. 小行星86e−11.59PGD2.542.533 .第三章。18e−13 .第三章。小行星49e−1六、小行星88e−11.154.第一章星21e−13 .第三章。16e−1BA1.41二、11e−11 .一、行星63e−11 .一、36e−21 .一、11e−17 .第一次会议。小行星396e−31.553.31表4：在∞范数下的对抗性攻击扰动统计我们在测试数据集的子样本上报告了每种方法的对抗攻击距离的均值和方差值越低越好。MNISTCIFAR10所有CNN ResNeXt34ImageNet-1Kµσ2µσ2µσ2µσ2LogBarrier1 .一、小行星57e−17 .第一次会议。43e−3六、16e−31 .一、3e−5五、14e−33 .第三章。20e−51 .一、27e-2 1. 46e−3IFGSM二、小行星49e−13 .第三章。4e−21 .一、14e−2六、小行星93e−4二、小行星70e−2二、07e−3二、38e−3 1. 30e−5在欧氏范数中，我们看到LogBarrier攻击在所有数据集和模型上都是最强的。在最大范数下测量，LogBarrier在所有数据集和模型上都优于IFGSM，除了ImageNet-1 K上的差异很小。我们还分别在表3和表4中报告了对抗性攻击距离的均值和方差，分别以Δ2和Δ∞测量。一个强大的对抗性攻击应该有一个小的平均对抗距离，和一个小的方差。小的变化是必要的，以确保攻击方法的精度。一个强大的攻击方法应该能够始终如一地找到接近的对抗性例子。表3表明，在2002年，LogBarrier攻击要么是排名第一的攻击，要么是排名第二的攻击。当以log-∞度量时，LogBar- rier攻击在所有数据集和模型上的表现都明显优于IFGSM，除了 ImageNet-1K。为了说明，我们在图 3 中展示了来自 IFGSM 和LogBarrier攻击的对抗图像的示例。在IFGSM需要大距离进行不利干扰的图像上，LogBarrier攻击产生的图像失真明显较小4.2. 防御网络在本节中，我们将转向攻击具有对抗性防御的网络。我们首先考虑两种防御策略：梯度混淆[2]，以及Madry等人[ 14 ]中描述的多步对抗训练。我们在4.1节中使用的MNIST和ResNeXt34网络上研究了这两种策略。我们仅限于研究在范数下攻击的防御方法。攻击是在与前一个相同的1000个随机选择的图像4870科.最后，我们还在使用凸对抗多面体训练的MNIST模型上测试了我们的攻击[22]，这是 MNIST上当前最先进的防御方法梯度模糊尽管梯度混淆作为一种防御方法[2]不可信，但它是任何新提出的对抗性攻击方法必须能够克服的障碍。我们通过增加softmax函数的温度来实现梯度混淆，从模型logits计算模型概率。随着softmax温度的增加，模型概率的梯度大小接近于零，因为模型概率接近于独热向量。虽然模型的决策边界没有改变，但当模型梯度很小时，许多对抗性攻击算法很难生成对抗性示例。在表 5 和表 6 中，我们展示了 LogBarrier 攻击在CIFAR10和MNIST模型上都可以轻松克服梯度混淆。LogBarrier方法能够克服梯度混淆的原因很简单：远离决策边界，对数障碍项不起作用（实际上，它几乎为零）。因此，LogBarrier算法专注于最小化对抗距离，直到它非常接近决策边界，此时障碍项激活。相比之下，由于IFGSM是一种局部方法，如果模型梯度很小，它很难爬上损失景观，并且无法生成对抗性图像。4871误分类百分比原始LogBarrierIFGSM(a) 对MNIST的原始LogBarrierIFGSM(b) 对CIFAR10的图3：LogBarrier和IFGSM对抗性攻击生成的针对H∞扰动的对抗性图像，与原始的干净图像进行比较。在IFGSM难以找到对抗图像的地方，LogBarrier方法取得了成功：LogBarrier对抗图像的失真程度明显低于IFGSM对抗图像。1.00.8IFGSMLogBarrier(D)IFGSM（D）LogBarrier1.00.8IFGSMLogBarrier(D)IFGSM（D）LogBarrier0.60.60.40.40.2 0.20.0104 103 102 101 100L距离0.0104 103 102 101 100L距离(a) MNIST（b）CIFAR10图4：（a）MNIST和（b）CIFAR10网络上的攻击曲线叠加图（单位：μ∞）。比较两种类型的网络：不设防网络和设防网络（表示为（D）），使用与具有对抗训练的不设防网络相同的架构进行训练。与IFGSM相比，LogBarrier攻击需要更小的对抗距离来攻击所有图像。对抗训练对抗性训练是防御对抗性攻击的一种流行方法。我们在Madry等人[14]中提出的网络上测试了LogBarrier攻击，这些网络是用多步对抗性训练来训练的。我们的结果如表5和表6所示。我们还在图4a和图4b中分别绘制了MNIST和CIFAR10的LogBarrier和IFGSM攻击对防御和非防御模型的防御曲线。在MNIST上，与未防御模型相比，我们没有观察到对抗训练模型在干净图像上的测试准确性降低。正如预期的那样，对抗性训练阻碍了LogBarrier和IFGSM在非常小的距离内找到对抗性图像。但我们可以看到，LogBarrier攻击能够攻击所有图像几乎相同的距离，无论是在防御和非防御模式。相比之下，IFGSM需要非常大的对抗距离来攻击防御模型上的所有图像，如图4a所示。也就是说，当使用LogBarrier攻击时，对抗性训练不会显著减少干扰所有图像所需的经验距离。该点如表5所示，其中我们报告了扰动所有图像的90%所需的距离。LogBarrier攻击需要的对抗距离为0.22在未防御的MNIST模型上，0.29在防御的MNIST模型上，扰动90%的所有图像。相反，IFGSM在无防御模型上需要0.46的距离，而在有防御模型上需要0.65的距离。在CIFAR10上，我们观察到相同的行为，尽管误分类百分比4872表5：MNIST的防御策略。我们报告在Δ∞adversarial幅度ΔδΔ∞=0时误分类的百分比。1和0.3;越高越好。我们还报告了干扰90%图像所需的攻击强度（攻击的90%分位数，写为q（90%））。δ1不设防δ3q（90%）混淆（T=2）δ1δ3q（90%）δ1对抗训练1δ3q（90%）LogBarrier15.7094.80二、星27e−118.30 99.801 .一、小行星95e−13.59（2.90）31.50（95.40）4.第一章06e−1（2. 85e−1）IFGSM12.4062.54.第一章60e−18.60 32.90NA2.80（3.00）23.59（53.80）49e−1（6. 51e−1）表6：CIFAR10数据集上ResNeXt34的防御策略我们报告了在δ∞=4/255和8/255的对抗幅度下错误分类的百分比，以及干扰90%测试图像所需的幅度。如果病毒攻击不成功，我们报告NA。不设防δ255 255混淆（T=20）δ255 255对抗训练δ255 255LogBarrier98.4098.707 .第一次会议。小行星79e−347.6054.401 .一、小行星53e−123.4048.109 .第九条。小行星58e−2IFGSM58.3075.80六、小行星56e−236.9043.90NA31.6054.901 .一、小行星38e− 1这种现象不太明显。见表6和图4b，LogBarrier攻击需要比IFGSM更小的对抗距离来干扰所有图像值得注意的是，在防御网络上的LogBarrier攻击能够以比在未防御网络上的IFGSM更小的对抗距离攻击所有图像反对凸对抗多面体最后，我们使用LogBarrier攻击可证明的防御策略，凸对抗多面体[22]。凸对抗多面体是一种用于训练模型的方法，以保证在给定的对抗距离下不超过一定比例的图像可能受到攻击。我们选择攻击[22]中的防御MNIST网络，该网络保证在扰动大小<$δ<$∞=0。1.一、我们用LogBarrier攻击和IFGSM验证了这一理论发现这两种方法都无法在距离0.1处干扰超过3%的测试图像。5. 讨论我们提出了一种新的对抗性攻击，它使用了优化文献中的传统方法，即对数屏障方法。LogBarrier攻击在范数∞和范数2下都是LogBarrier攻击直接解决了对抗图像的定义所带来的优化问题;也就是说，找到接近原始图像的图像，同时被网络错误分类。这与许多其他对抗性攻击问题（如PGD或IFGSM）相反，后者试图最大化损失函数作为真正对抗性攻击的代理[1]在早期的手稿中，被辩护的MNIST模型并不像它可能的那样在这里，我们报告攻击一个新的强大的模型以及旧的不太强大的模型;括号中是旧模型的结果。优化问题基于损失的对抗性攻击从原始图像或其附近开始，而LogBarrier攻击则从远离原始图像的地方开始。在这个意义上，LogBarrier攻击在精神上类似于Boundary攻击[4]：LogBarrier攻击和Boundary攻击都从错误分类的图像开始，并迭代地将图像移近原始图像，同时保持错误分类。LogBarrier攻击是一种基于梯度的攻击：为了加强误分类，需要对数势垒的梯度。相比之下，边界at-tack是无梯度的，并使用拒绝采样来强制误分类。虽然LogBarrier攻击使用梯度混淆，但我们已经证明它不会受到梯度混淆的阻碍，这是其他基于梯度的攻击的常见缺点。由于LogBarrier攻击能够使用梯度，因此它通常比Boundary攻击更快。LogBarrier攻击可以被用作验证对抗鲁棒性的有效工具。我们已经证明，LogBarrier攻击的一个优势是它能够攻击测试集中的所有图像，与其他攻击相比，使用相当小的最大对抗距离。换句话说，LogBarrier攻击以高精度估计平均对抗距离。使用LogBar攻击，我们提出了关于多步对抗训练的鲁棒性的问题[14]。例如，在MNIST上，我们发现，相对于不设防的模型，多步对抗训练并没有显著提高扰动所有测试图像所需的必要距离对于CIFAR10上的逆向训练模型，我们发现扰动所有图像所需的距离明显小于IFGSM提供的估计。这是发展严格的理论保证模型鲁棒性的进一步动机4873引用[1] 拉里·阿米霍具有Lipschitz连续一阶偏导数的函数的最小化。Pacific Journal of Mathematics，16（1）：1-3，1966. 4[2] Anish Athalye、Nicholas Carlini和David A.瓦格纳。Ob-fuscated梯度给人一种错误的安全感在第35届国际机器学习会议论文集，ICML2018，Stoc kholmsmaüssan ，Stoc kholm，瑞典， 2018年7月10日至15日，第274-283页，2018年。1、6[3] 安德里亚·布雷兹为初学者准备的r-收敛。牛津大学出版社，2002年。3[4] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。在2018年国际学习代表大会上。一二三五八[5] Nicholas Carlini和David A.瓦格纳。评估神经网络的鲁棒性在2017年IEEE安全和隐私研讨会上，SP 2017，美国加利福尼亚州圣何塞，2017年5月22日至26日，第39-57页一、二、五[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机协会计算机视觉和模式识别会议（CVPR 2009），2009年6月20- 25日，美国佛罗里达州迈阿密，第248-255页，2009年。二、五[7] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的强大物理世界攻击。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第1625- 1634页1[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27-30日，第770-778页，2016年。5[9] 作者：Guy Katz作者：David L. Dill，Kyle Julian，andMykel J. Kochenderfer Reluplex：一个用于验证深度神经网络的高效SMT求解器。在计算机辅助验证-第29届国际会议，CAV 2017，德国海德堡，2017年7月24日至28日，会议记录，第一，第97-117页1[10] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。2009. 二、五[11] 作者：Alexey Kurakin，Ian J.古德费洛和萨米·本吉奥物理世界中的对抗性例子。 CoRR， abs/1607.02533 ，2016。一、二、五[12] 曼迪·兰格，迪特林德·祖赫尔克，奥拉夫·霍尔茨，托马斯五世·伊尔曼和萨克森-德国米特韦达。lp-范数及其光滑逼近在基于梯度的学习矢量量化中的应用在ESANN，2014年。5[13] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。http://yann.lecun.com/exdb/mnist/网站。二、五[14] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。向深度学习模型抵抗对抗性攻击。CoRR，abs/1706.06083，2017。一、二、五、六、七、八[15] Jorge Nocedal和Stephen Wright数值优化Springer Science Business Media，2006. 二、三[16] 放大图片作者：Patrick D.放大图片创作者：Michael J.Berkay Celik和Ananthram Swami深度学习在对抗环境中的局限性。在IEEE欧洲安全与隐私研讨会上，EuroSP2016，Saarbruéck en，Germany，Marc h21-24，2016，第372一、五[17] Aditi Raghunathan Jacob Steinhardt和Percy Liang。针对对抗性示例的认证防御。CoRR ， abs/1801.09344 ，2018。1[18] Jonas Rauber，Wieland Brendel，and Matthias Bethge. 傻瓜盒v0.8.0：Python工具箱，用于对机器学习模型的鲁棒性进行基准测试。CoRR，abs/1707.04131，2017。二、五[19] Mahmood Sharif，Sruti Bhagavatula，Lujo Bauer，andMichael K.瑞特辅助犯罪：对最先进的面部识别进行真实和隐秘的攻击2016年ACM SIGSAC计算机和通信安全会议论文集，奥地利维也纳，2016年10月24日至28日，第1528-1540页，2016年1[20] Jost Tobias Springenberg、Alexey Dosovitskiy、ThomasBrox和Martin A.里德米勒追求简单：全卷积网络。CoRR，abs/1412.6806，2014年。5[21] Christian Szegedy，Wojciech Zaremba，Ilya Sutskever，Joan Bruna，Dumitru Erhan，Ian J.古德费洛和罗伯·费格斯.神经网络的有趣特性。CoRR，abs/1312.6199，2013年。一、二[22] Eric Wong和J.济科·科尔特通过凸外部对抗多面体对对抗性示例的在第 35届机器学习国际会议论文集，ICML2018，Stoc kholmsmaüssan，Stockholm，瑞典，2018年7月10日至15日，第5283-5292页，2018年。一、六、八[23] 作者：RossB. Girshick，PiotrDolla'r，Zhuo wenTu，andKaiming He.深度神经网络的聚合残差变换。在2017年IEEE计算机视觉和模式识别会议，CVPR 2017，Hon-olulu，HI，美国，2017年7月21日至26日，第5987-599

下载后可阅读完整内容，剩余1页未读，立即下载