深度网络通过在位平面上改进预测：实现对抗鲁棒性

79 浏览量更新于2023-10-23 收藏 887KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1020实现对抗鲁棒性通过在位平面上Sravanti Addepalli，Vivek B.S.Arya Baburaj，Gaurang Sriramanan，R.VenkateshBabu视频分析实验室，计算和数据科学印度科学研究所，班加罗尔，印度摘要作为人类，我们固有地基于其主要特征来感知图像相反，众所周知，深度神经网络可以自信地对被精心制作的扰动破坏的图像进行错误分类在这项工作中，我们试图通过训练网络来解决这个问题，以根据高位平面中的信息形成粗略的印象，并仅使用低位平面来改进其预测。我们证明，通过对在不同量化图像上学习的表示施加一致性，与正常训练的模型相比，目前最先进的对抗性攻击的防御要求网络使用计算昂贵的对抗性样本进行显式训练。虽然这种使用对抗训练的方法继续取得最佳结果，但这项工作为实现鲁棒性铺平了道路，而不必显式地对对抗样本进行训练。因此，所提出的方法更快，也更接近人类的自然学习过程。1. 介绍深度神经网络已用于在许多计算机视觉任务中实现显著的性能，例如分类[14]，分割[19]和对象识别[24]。虽然这些网络在许多基准数据集上实现了接近人类的准确性，但它们远不如人类视觉系统那么强大。众所周知，深度网络容易受到精心设计的不可感知的噪声（称为对抗性扰动）的影响，这可能会对自主导航和监控系统等关键应用产生灾难性影响。迫切需要保护这些系统，再加上提高最坏情况下的鲁棒性的目标，*同等贡献在过去的几年里，深度网络推动了对抗鲁棒性领域的研究虽然对抗训练方法[21，40]在提高对抗鲁棒性方面取得了重大进展，但这些方法在计算上昂贵，并且在与人类学习过程相一致时也不直观。人类基于大幅度的特征来感知图像，并且仅使用更精细的细节来增强其印象[29，28]。这种给予存在于更高位平面中的信息更高重要性的背景知识自然地使人类视觉系统具备对相对较低幅度的对抗性扰动的抵抗力。相反，这些对抗性扰动可以任意地将深度网络的预测翻转到完全不相关的类别，这表明这些网络中缺少对不同位平面赋予层次重要性的背景知识在这项工作中，我们建议为深度网络配备这些知识，并证明这提高了它们对对抗性示例的鲁棒性。我们提出了一种新的位平面特征一致性（BPFC）正则化器，它可以显着提高模型的对抗性鲁棒性，而不会在训练过程中暴露于所提出的方法比需要多步对抗样本进行训练的方法要快[21]，因此可以扩展到ImageNet等大型数据集。通过这项工作，我们希望为训练强大的深度网络铺平道路，而不使用对抗性样本，类似于人类的学习过程。本文的组织结构如下：随后的部分对与我们的工作相关的现有文献进行了讨论。第3节列出了与符号和威胁模型相关的术语。这是其次是细节和分析，我们提出的方法在第-4.第一章我们在第5节中介绍了所进行的实验和对结果的分析，然后在第6节中给出了我们的结论性重新标记。代码和预训练模型可从以下网址获得：https://github.com/val-iisc/BPFC网站。10212. 相关作品2.1. 对抗性训练方法提高深度网络对抗性鲁棒性的最流行方法涉及对抗性训练（AT），其中在训练期间使用对抗性样本增强干净的数据样本。早期的公式，如FGSM-AT [9]，提出了使用单步优化生成的对抗样本的训练，假设损失函数的一阶线性近似。这后来被证明是无效的对多步攻击由Kurakin等人。[16]其中梯度屏蔽的效果被识别。梯度掩蔽，首先由Papernot等人确定。[23]是一种现象，训练的网络产生掩蔽梯度，从而导致产生弱对手，导致错误的鲁棒性。在各种各样的环境中，已经开发了许多对抗措施，可以产生强大的对手来规避梯度掩蔽[31]。Madry等人[21]提出了基于投影梯度下降（PGD）的训练，它采用迭代过程来寻找在给定范数约束下最大化训练损失的强大对手。至关重要的是，PGD训练的模型对各种基于梯度的迭代攻击以及几种基于非梯度的攻击具有鲁棒性。然而，PGD对抗训练（PGD-AT）的过程在计算上是昂贵的。为了解决这个问题，Viveket al.[35]重新审视了单步对抗训练，并引入了一个正则化器，有助于减轻梯度掩蔽的影响。该正则化器惩罚FGSM和R-FGSM [31]攻击干扰的图像的logit之间的102在所提出的方法中，我们实现了对抗的鲁棒性，在训练过程中不使用对抗样本，从而实现了计算时间的进一步减少。2.2. 无粘连训练的尝试在本节中，我们将讨论在训练过程中不使用对抗样本的现有训练方法Mixup [39]和Manifold-Mixup [34]等作品提出了训练方法来学习更好的特征表示。在Mixup中，网络被训练成将输入数据的随机凸组合映射到它们的独热编码的对应凸组合。这项工作在Manifold Mixup中得到了进一步的扩展，其中网络被训练为将由两个不同数据点生成的中间隐藏层的凸组合映射到其one-hot编码的相应凸组合。因此，这些方法鼓励网络以线性化的方式在输入数据点之间或网络中更深的隐藏层之间存在。虽然这些方法提高了对单步FGSM攻击的性能，但它们容易受到更强的多步FGSM步攻击。另一种无对手训练的尝试是利用输入变换进行防御，以实现在郭等人的工作。[10]，研究了各种输入变换的效果，如位深度减少、JPEG压缩、总变差最小化和图像绗缝这些技术的鲁棒性主要源于不可微的预处理步骤，以便可能阻止基于梯度的迭代攻击。这种方法，以及其他一些方法[2，20，6，37，27]，在Athalye等人的工作中被打破。[1]，其中识别出模糊梯度不提供对抗对手的可靠另一个途径是检测对抗性样本。特征压缩，由Xu等人提出。[38]中所使用的变换，例如颜色位深度的减小、利用中值滤波器的空间平滑以及两者的组合，以便从给定的输入图像生成特征压缩图像。通过对输入图像和其特征压缩对应物的logits之间的0.1距离进行阈值化，图像被分类为本质上是对抗性的或合法的然而，在Heet al.[12]，表明这种防御策略的自适应攻击者可以通过构造即使在应用特征压缩之后仍保留对抗属性的攻击来欺骗模型，从而逃避检测。虽然我们在这项工作中使用量化的概念来抵御对抗性攻击，但我们没有引入任何导致混淆或破碎梯度的预处理块。3. 预赛3.1. 符号在本文中，我们考虑f（. 作为分类器C从图像x到其对应的软最大输出f（x）的函数映射。预测的类标签是softmax输出上的argmax，由c（x）表示。对应于x的地面真值标签由y表示。当c（x）=y时，图像被认为是正确分类的。分类器 C的 pre-softmax 输出由 g（x）表示。我们将A（x）定义为对应于x的所有对抗样本的集合。对应于干净样本x的特定对抗样本由x′表示。3.2. 威胁模型在本文中，我们考虑了提高深度网络最坏情况鲁棒性的任务。对手的目标是在分类器的预测中造成错误我们定义一个对抗样本x'，作为一个导致网络输出与地面不同的真值标签y。我们不限制对手从特定的源类或特定的目标类翻转标签。我们1022(a)（b）（c）（d）（e）图1：（a）原始8位图像（b）（较高）位平面7、6和5的加权和（c）（较高）位平面7和6的加权和（d）位平面7-最高有效位平面（e）（较低）位平面4、3、2、1和0的加权和限制x′在x周围半径为ε的<$∞-球中。对抗样本集可以正式定义如下：与精细细节相比，人类视觉系统对全局信息的重要性更高[28]。Sugase等人[29]显示全球信息A（x）={x′：c（x′）/=y，<$x−x′<$≤ε}（1）用于神经网络早期部分的粗分类因此，我们施加了一个约束，即图像x中的任何单个像素都不能被超过ε的扰动。由于这项工作的目标是提高最坏情况下的鲁棒性，我们不对对手的访问施加任何限制。我们认为，对手有完整的知识的模型结构，权重和防御机制。4. 该方法在本节中，我们首先介绍我们提出的方法背后的动机，然后详细讨论所提出的算法。我们进一步描述了使用所提出的正则化器训练的网络的局部属性，这导致了更好的鲁棒性。4.1. 钻头平面的层次重要性图像的位平面是对应于给定位位置的空间映射（与图像具有相同的维度）。对于图像的n位表示，位平面n-1对应于最高有效位（MSB），位平面0对应于最低有效位（LSB）。一个n位图像可以被认为是n个位平面的总和，按它们的相对重要性加权。特征的重要性在像素值和信息内容方面，嵌入在较低位平面内的特征的像素值显著低于嵌入在较高位平面内的特征的像素值[26]。隐写术方法[8]利用较低的位平面嵌入关键的版权信息，这些信息需要在视觉上不可感知。然而，自然图像中的信息内容从最高有效位（MSB）到最低有效位（LSB）递减。图1中图像的五个最低有效位平面的加权和1（a）如图所示。1（e），从其中很明显，较低的位平面只对精细细节有贡献。图图1（b）、（c）和（d）示出了从精细结构到粗糙结构的图像，具有不同的量化水平。图之间的区别。1（a）和图1（b）是图。第1段（e）分段。虽然图的添加1（e）当然改善了信息内容，但它不像解释图像的高位平面那样重要。而与细节相关的信息则是大约51ms后接收。这展示了一种分层分类机制，其中对包含粗信息和细信息的图像的响应与仅包含粗信息的图像对齐。我们从人类视觉系统的这一方面获得动力，并强制深度网络在仅基于高位平面（量化图像）和所有位平面（正常图像）的特征的决策中保持这样的约束将确保深度网络在与低位平面相比时更重视高位平面，类似于人类视觉系统。对抗性限制到π∞球的例子利用低位平面来传输信息，更高的位平面。深度网络易受这种对抗性噪声影响的事实证明了这些网络的弱点，这是由于对应于粗略信息和精细细节的预测因此，与传统训练的网络相比，跨位平面强制执行特征虽然我们使用图像的base-2（二进制）表示来说明忽略低幅度加性噪声的概念，但也可以用任何其他表示（在任何其他基础上）来表达。其次，低幅度噪声并不总是驻留在低位平面。根据图像中的像素值，它也可以溢出到MSB。我们在我们提出的方法中引入预量化噪声来减轻这些影响。这在下面的部分中说明，在那里我们更详细地解释我们提出的方法。4.2. 建议的训练算法我们在算法中提出了所提出的训练方法-1.一、出于需要学习一致的表示图像的粗和细的功能，我们引入了一个正则化，每个图像和它的量化对应之间的功能一致性。∞1023MΣ21P（q（i）= 48）P（q（i）= 80）P（q（i）=03248648096112128像素强度等级（i）算法1：位平面特征一致性输入：具有参数θ的网络f，固定权重λ，n位图像的训练数据D={（xi，yi）}，量化参数k，学习率η，用于minibatchB的 minibatch大小MDdo设置L=0对于i=1到M，做xpre=xi+. U（−2k−2，2k−2）//添加噪声xq=xpre−xpremod2k//量化像素强度接近量化值，并且在固定距离之后线性衰减到0。由于原始图像的特定像素强度值，这有助于减轻每个量化仓的边缘处的不想要的非线性效应我们做了一个消融实验（在第5节），称为简单量化，其中不添加预量化噪声。简单量化也可以被视为相关的低幅度（量化）噪声的添加，其中，xq=x q+ 2k−1//量程转换噪声图案取决于局部像素强度水平。这xq=min（max（xq，0），2n−1）//裁剪2L=L+ce（f（x），y）+λ<$g（x）−g（x）<$噪声是原始图像与图像经过简单量化。因为像素在-端iiiq2可以假设张力在空间中是局部相关θ=θ−1·η·θL//SGD更新端图2：给定8位像素到3位的量化（n=8，k=5）：像素i被分配给量化值q（i）=48，80和112的概率P在这里显示4.2.1量化生成粗图像的步骤如下：噪声也局部相关。噪声的相关性质将量化噪声与随机噪声区分开，并且还使其更接近对抗扰动的性质我们还考虑了在第5节中通过添加从均匀分布采样的随机噪声来替换量化步长的烧蚀实验。虽然预量化噪声干扰了一些像素的量化噪声的局部分解特性，但减轻上述的区间边缘效应是至关重要的我们通过实验证明，所提出的解决方案是优于上述两个烧蚀实验。4.2.2位平面特征一致性正则化器用于训练的损失函数如下所示：1ΣM在本节中列出。输入图像xi被假定为L=ce（f（xi），yi）+λ<$g（xi）−g（q（xi））<$2M（二）使用N比特量化来表示的像素的强度因此，假设在[0，2n）的范围内。我们使用这里描述的量化过程生成一个n-k+1位图像k的允许范围是1到n-1。• 预量化噪声：最初，独立于U（−2k−2，2k−2）采样的均匀噪声被添加到图像xi中的每个像素，以生成xpre。• 量化步骤：接下来，将每个像素量化为n-k位，通过将最后k位设置为0。• 范围偏移：所有像素的亮度向上偏移2k−1。这使量化误差（ w.r.t. xpre ）从 [0 ， 2k）到 [−2k−1 ，2k−1）。• 裁剪：最后，将量化图像裁剪到原始范围[0，2n）。图图2示出了当n=8和k=5时，使用上述方法将像素i分配给不同量化级别的概率。如图所示，预量化噪声的添加在每个像素的量化值中引入随机性当输入被指定为最接近的量化级别时，被指定为最接近的量化级别的概率为1。i=1对于给定的图像xi，Eq.（2）是从网络f（xi）的softmax输出获得的交叉熵（CE）损失，以及对应的地面真值标记yi。第二项是图像xi的预softmax激活与对应的量化图像q（xi）（使用第4.2.1节中描述的过程生成）之间的我们将这个平方的损失项称为位平面特征一致性（BPFC）正则化器，因为它确保网络在原始图像以及粗略量化图像中学习一致的特征表示。大小为M的每个小批量的损失是小批量中所有样品的平均值。原始图像上的交叉熵项确保使用粗特征和细特征的组合来学习总体函数映射g（. ）的情况。这有助于保持干净图像的准确性，而BPFC正则化器有助于提高模型的对抗鲁棒性。4.3. BPFC训练网络的局部性质在本节中，我们将研究函数g（. ）使用建议的BPFC正则化器学习。1024IDI2我我2令xi表示从具有范围[0 ，2n）中的像素强度的数据dispensPD采样的n比特图像，并且令q（xi）表示对应于xi的量化图像.我们假设q（xi）不等同于xi。对于λ的固定值，令Θg（λ）表示对应于导致方程中的交叉熵项的函数族的参数集。（2）低于一定阈值。由Θg（λ）参数化的函数族中的BPFC损失的最小化在等式中示出。（三）：5.1. 预赛我们使用基准数据集 CIFAR-10[13] ， Fashion-MNIST（F-MNIST）[36]和MNIST [17]来验证我们提出的方法。CIFAR-10是一个10类数据集，RGB图像尺寸为32×32。训练集和测试集中的图像数量为50，000和10，000人。这些图像同样分布在所有类别中。我们从训练集中挑选出10000张图片作为验证集。 Fashion-MNIST和minEx Pθg∈Θg（λ）Eq（x）<$g（xi）−g（q（xi））<$2g（xi）−g（q（xi））<$2（三）MNIST是10类28×28灰度图像数据集。这些数据集由60，000个训练样本和10，000个测试样本。我们进一步minEx PEq（x）2（四）θg∈Θg（λ）iDi<$x−q（x）<$2将每个训练数据集分成50，000个训练样本，和10，000个验证样本。在Eq.（3）可以由下有界Eq中的表达式（4），这相当于最小化网络在每个样本xi 处的局部Lipschitz常数。等式中目标函数的分母。（4）是每个图像与其量化对应物之间的θ2范数，因此与θg无关。因此，最小化方程中的BPFC损耗。（3）可以被视为在每个样本xi处的局部Lipschitz常数的最小化，通过其与量化图像的偏差的1/2范数加权。在所有q（xi）（具有不同采样的预量化噪声）上的该2-范数项的期望对于所有采样收敛到恒定值，从而在BPFC损失的最小化和网络的局部Lipschitz常数的最小化因此，施加BPFC正则化鼓励网络是局部Lipschitz连续的，具有减少的Lipschitz常数。虽然BPFC正则化器施加局部平滑性，但方程中的交叉熵项。（2）需要g（. ）是一个复杂的映射，以提高清洁IM的准确性年龄θg的最终选择将取决于λ，λ通常是基于干净的准确度可以与对抗准确度进行权衡的量来选择的[40，32]。在训练的最初阶段，学习到的函数相对平滑。因此，我们从一个较低的λ值开始，并在训练过程中逐步提高。因此，BPFC公式导致具有改进的局部性质的函数，这与Szegedy等人解释的对抗鲁棒性密切相关。[30 ]第30段。5. 实验和分析在本节中，我们将讨论所做的实验，以验证我们提出的方法的鲁棒性。我们首先在第5.1节中描述了所使用的数据集和训练方法的细节，然后在第5.2节中概述了实验。我们在第5.3节至第5.4节中进一步介绍了每个实验的详细信息和我们对结果的分析。5.6 我们遵循 Athalye 等人制定的指导方针。 [1] 和Carliniet al. [3]以确定我们对所实现的鲁棒性的声明的有效性。我们使用ResNet-18 [11]架构用于CIFAR-10，以及修改后的LeNet（M-LeNet）[18]架构，其中两个额外的卷积层（详见补充资料的表1）用于MNIST和Fashion-MNIST。我们训练CIFAR-10模型100epoch，MNIST和Fashion-MNIST模型各50 epoch。CIFAR-10的小批量大小设置为128，Fashion-MNIST和MNIST的小批量大小设置为64。我们使用SGD优化器，动量为0。9和5e-4的重量衰减。我们使用初始学习率为0。CIFAR- 10为1，CIFAR-10为0。01对于MNIST和Fashion-MNIST。我们将初始学习率降低了5倍，在训练过程中降低了3倍。我们在CIFAR-10的最后20个历元以及MNIST和Fashion-MNIST的最后30个历元中使用基于I-FGSM [15要选择用于训练的超参数是：k，它是在第4.2.1节中的量化步骤期间要消除的比特数，以及λ，它是等式中BPFC损失的加权因子。（二）、我们把k设为5对于CIFAR-10，6对于Fashion-MNIST和7对于MNIST。的k的值可以根据攻击的ε值来选择被保护选择λ是为了在干净样本和对抗样本的准确度之间实现所需的权衡（详见第1节）。2补充）。正如第4.3节所解释的，我们从一个很小的λ值开始，然后逐步增加。这有助于在清洁样品上实现更高的准确性。对于CIFAR-10，我们从λ为1开始，每25个epoch将其提高9倍。由于Fashion-MNIST和MNIST数据集的干净精度在很少的时期内增加，因此我们从一开始就使用高λ值（没有步进因子）。因此，我们对MNIST使用λ值30，对Fashion-MNIST使用λ值255.2. 实验概述我们在所有三个数据集上将所提出的方法与正常训练（NT），FGSM-AT [9]，PGD-AT [21]和正则化单步对抗训练（RSS-AT）[35]进行了比较。我们报告的结果单步（FGSM）和多步（I-FGSM，PGD）攻击，ε有界和1025表1：CIFAR-10：白盒攻击设置中模型的识别准确度（%）。训练方法清洁FGSMIFGSM7个步骤PGD（n步）7 20 1000FGSM-AT92.996.90.80.40.00.0RSS-AT82.355.050.950.046.245.8PGD-AT82.754.651.250.447.447.0NT92.316.00.00.00.00.0Mixup90.327.41.60.60.10.0BPFC（我们的）82.450.144.141.735.734.4拟议方法的消融（BPFC）A1：简单定量分析82.649.241.438.831.630.1A2：均匀噪声82.648.742.340.033.331.9A3：标准192.168.360.857.146.835.9无界（DeepFool [22]，Carlini-Wagner（C W）[4]）攻击，无目标和有目标的攻击，以及无梯度攻击（随机攻击，SPSA [33]）。我们考虑白盒和黑盒设置中的攻击。我们还考虑了特定于所使用的防御机制的自适应攻击如第3.2节所述，我们将对手限制在每个数据点周围半径为ε的我们参考Madry等人的工作。[21]用于PGD攻击的攻击参数和迭代次数。对于像素强度在[0，1]范围内的图像，我们考虑εCIFAR- 10的值为8/255，0. MNIST为3，0。1为时尚MNIST。我们认为ε步长为2/255，0。01和0的情况。01分别用于CIFAR-10、MNIST和Fashion-MNIST。这些限制并不适用于无界攻击，DeepFool和C W。我们在下面的小节中介绍了我们对每种攻击的实验、结果和分析5.3. 针对白盒攻击的性能如第3.2节所述，我们认为对手可以访问网络架构和权重。在这种情况下，白盒攻击预计会比黑盒攻击更强（除非模型只是由于梯度掩蔽而显得健壮）。在本节中，我们考虑以下类型的白盒攻击：无目标和有目标的ε-有界攻击和无界攻击。5.3.1有界攻击：无目标攻击CIFAR-10数据集的各种单步和多步白盒攻击的结果见表-1.一、FGSM-AT实现了对单步的最佳鲁棒性攻击然而，如Kurakin等人所解释的，它对多步攻击不鲁棒。[16 ]第10段。PGD-AT和RSS-AT在1000步PGD攻击中表现出约45%1 A3：500步最差情况下的PGD准确度从37下降。百分之五到24. 8%，100次随机重启（超过1000个测试样本）表2：根据每时期的绝对训练时间（秒）和相对于时间的比率测量的计算复杂度。方法（BPFC）。该实验在单个Nvidia Titan-X GPU卡上运行。培训CIFAR-10F-MNISTMNIST方法秒比秒比秒比RSS-AT127.2 1.823.82.024.11.7PGD-AT257.8 3.7199.616.9199.214.2NT39.60.69.30.88.90.6BPFC（我们的）69.41.011.81.014.01.0Mixup [39]不使用对抗训练，并且在对FGSM攻击的鲁棒性方面比正常训练（NT）有所改进。然而，它对PGD攻击并不鲁棒。所提出的方法在对单步和多步攻击的鲁棒性方面比正常训练和混合有了显着的改进，尽管在训练期间没有如表2所示，所提出的方法比对多步攻击（PGD-AT和RSS-AT）具有鲁棒性的方法更快如第4.2.1节所述，我们考虑了简单量化（A1）和添加统一噪声（ A2 ）的消融实验。所提出的方法（BPFC）实现了对这两个基线的改进，表明所提出的配方的重要性在范围（−8/255，8/255）内添加均匀随机噪声会产生效果类似于量化，通过降低重要性用于分类任务的LSB。因此，我们甚至在这个烧蚀实验中也看到了类似的结果。我们还考虑了一个烧蚀实验，在方程中使用1-范数而不是2（二）、虽然使用1-范数的结果（表1）显示了对所提出方法的改进，但500步最差情况PGD准确度从37. 5%至24。8%，100次随机重新启动（超过1000个测试样本在所有类中平等地表示），这表明它由于梯度掩码而实现了鲁棒性。对于所提出的方法，PGD的准确性与50个步骤（34。68%）与1000步（34. 百分之四十四）。因此，我们用1000次随机重启（对于1000个测试样本）检查50步PGD准确度，发现多次随机重启的准确度下降可以忽略不计。准确度从35下降。6%至34。9%，超过1000随机重新启动，验证所提出的方法中的鲁棒性不是由于梯度掩蔽。表3显示了所有数据集的合并白盒结果。与不使用对抗训练的方法（NT和Mixup）相比，所提出的方法对多步攻击具有更好的鲁棒性。我们还实现了与PGD-AT 和 RSS-AT 相当的结果，同时速度明显更快。Fashion-MNIST和MNIST数据集的详细结果报告在补充文件的表2和表31026表3：白盒设置：不同模型对使用PGD- 1000步攻击生成的干净样本和对抗样本的识别准确率（%）。培训CIFAR-10F-MNISTMNIST方法清洁PGD清洁PGD清洁PGDFGSM-AT92.90.093.115.199.43.7RSS-AT82.345.887.771.899.090.4PGD-AT82.747.087.579.199.394.1NT92.30.092.00.399.20.0Mixup90.30.091.00.099.40.0BPFC（我们的）82.434.487.267.799.185.7表4：所提出的方法（BPFC）对不同的1000步PGD攻击的识别准确度（%）攻击CIFAR-10 F-MNIST MNIST非目标34.467.785.7最不可能（Least Likely65.285.595.6随机目标（RandomTarget）63.183.594.8表5：DeepFool和CW&攻击（CIFAR-10）：生成的对抗扰动的平均范数为0.2.更高的N2范数意味着更好的鲁棒性。愚弄率（FR）表示被错误分类的测试集样本的百分比。培训DeepFoolC W方法FR（%）平均值≥2FR（%）平均值≥2FGSM-AT95.120.3061000.078PGD-AT90.781.0981000.697RSS-AT89.751.3621000.745NT94.660.1761000.108Mixup93.370.1681000.104BPFC（我们的）89.512.7551000.8045.3.2攻击范围：有针对性我们评估了BPFC训练模型对两种类型的目标攻击的鲁棒性在第一次攻击（最不可能的目标）中，我们将目标类设置为给定图像的最不可能预测类。在第二种变体（随机目标）中，我们为每个图像分配随机目标。我们使用1000步PGD攻击进行这些评估，并在表4中比较了与非目标PGD攻击的鲁棒性。正如预期的那样，使用所提出的方法训练的模型与非目标攻击相比，对目标攻击更具鲁棒性。5.3.3无限攻击我们评估了BPFC训练模型对无界攻击DeepFool和Carlini-Wagner（CW）的鲁棒性。这里的目标是找到最低的扰动的最小范数界，可以导致所有sam的100%欺骗率表6：黑盒设置：不同模型对FGSM黑盒对手的识别准确率（%）。列表示用于生成攻击的源模型。培训CIFAR-10fashion-MNISTMNIST方法VGG19 ResNet18 Net-A M-LeNet Net-A M-LeNetFGSM-AT78.6777.5894.3690.7687.9985.68RSS-AT79.8079.9984.9984.1695.2895.19PGD-AT80.2480.5384.9985.6895.7595.36NT36.1115.9734.7116.6729.9416.60Mixup42.6743.4154.6566.3158.4769.46BPFC（我们的）78.9278.9881.3883.4694.1794.56例。我们选择以下超参数进行C W攻击：搜索步数=9，最大迭代次数=200，学习率= 0。01.对于DeepFool攻击，我们将步数设置为一百块有了这些设置，我们实现了100%的欺骗率与所有的训练方法的C W攻击。DeepFool并没有达到100%的愚弄率的任何方法。然而，这些结果与文献[25]中报道的结果一致这些模型的性能是指-根据所生成的扰动的平均范数来确定。边界上的值越高，意味着模型具有更好的鲁棒性。CIFAR-10的结果见表5。可以观察到，与包括PGD-AT在内的所有其他方法相比，BPFC训练模型对CW攻击更鲁棒该方法的DeepFool结果只能与PGD-AT和RSS-AT直接比较，因为它们实现了类似的欺骗率。所提出的方法实现了显着改善鲁棒性相比，这两种方法。Fashion-MNIST和MNIST数据集的结果见第2节。1 .一、二是补充。5.4. 针对黑盒攻击的性能我们在表6中报告了针对FGSM黑盒攻击的准确性。我们考虑了两个源模型，用于生成对每个数据集的黑盒攻击;第一种是具有不同架构的模型，第二种是具有与目标模型相同架构的模型。在这两种情况下，在所有数据集上，与其他非对抗性训练方法（ NT 和Mixup）相比，所提出的方法的黑盒准确性明显更好。此外，我们的结果与对抗训练方法的结果相当多步黑盒攻击的结果在第2节中给出。二是补充。5.5. 针对梯度自由攻击的我们检查了我们提出的方法对CIFAR-10数据集的以下无梯度攻击的鲁棒性，以确保没有梯度掩蔽：随机噪声攻击[3]和SPSA攻击[33]。对于随机噪声攻击，我们考虑从CIFAR-10的测试集中随机抽取1000张图像，1027所有十个阶级都是平等的。我们从每个数据点周围的半径为ε的球中随机选择105个样本（每个像素是一个i.i.d. 从均匀分布中采样），并计算这些样本的精度。我们发现，这些随机样本的准确率为79。76%，略低于清洁样品的准确度（82。4%）。我们进行了另一个实验来验证每一幅对PGD攻击鲁棒的图像对随机噪声也是鲁棒的。我们运行PGD攻击50个步骤和100次随机重启，并识别出对攻击具有鲁棒性的图像。我们攻击这些图像与105随机噪声扰动，每个，并发现，我们达到预期的准确率为100%。因此，我们得出结论，随机噪声的攻击并不比基于梯度的攻击更强。SPSA攻击[33]是一种无梯度攻击，它计算沿多个随机方向的梯度的数值近似，并将最终梯度近似为这些梯度的平均值。使用的方向越多，攻击就越强。我们使用以下超参数来生成攻击：δ=0。01，学习率=0。01，批量大小=128，迭代次数=5。准确度达到70。5%，对SPSA攻击使用的建议的方法。对于相同的攻击，PGD训练模型的准确率为70。百分之八因此，我们验证了基于梯度的攻击比无梯度攻击更强，从而证实了梯度掩蔽的存在。5.6. 针对自适应攻击的性能在本节中，我们考虑利用防御机制的知识来创建更强大的攻击的方法。我们探索最大化损失函数，这与生成对抗样本的标准交叉熵损失不同。我们考虑CIFAR-10数据集进行此实验。使用相同的超参数，最大化用于训练的相同损失，给出了略低的准确性（34。52%）相比，PGD（34。68%）的50步攻击。然而，这种差异在统计学上并不显著，这可能是由于PGD攻击的随机性。损失函数中不同超参数的最差精度为34。百分之四十一我们还探索在PGD攻击期间最大化的损失中添加另一项。除了最大化训练损失外，我们还最小化生成的样本中k（= 5）LSB的幅度。这将鼓励对手拥有低幅度的LSB，这可能是防御效果较差的样本。然而，即使有了这种变化，我们仍然可以获得与标准PGD攻击相同的精度。因此，自适应攻击仅与PGD攻击一样强。我们在第2节中介绍了自适应攻击的更多细节。三是补充。5.7. 验证稳健性在本节中，我们将介绍Athalye等人列出的基本健全性检查的结果。[1]以确保模型• 表1中的结果说明迭代攻击（PGD和I-FGSM）比FGSM攻击更强。• 基于表3和表6中的结果，白盒攻击比黑盒攻击更强。• 我们注意到无限攻击达到100%的成功率，并且增加失真界限会增加攻击的成功率（图10）。2补充）。• 如5.5节所述，基于梯度的攻击比无梯度攻击更强。• 我们注意到FGSM样本的交叉熵损失随着扰动大小的增加而单调增加（图（3）补充。5.8. 所提出的方法对ImageNet的可扩展性我们在ImageNet [ 5 ]上展示了结果，这是一个1000类的数据集，其中1。训练集中有200万张图片，验证集中有50000张有针对性的PGD 20步攻击的准确率是32.91%，43. PGD-AT模型为43%[7]。与PGD-AT相比，稳健性的趋势与CIFAR-10相似（表1），从而证明了所提出的方法对大规模数据集的可扩展性。我们在第2节中给出了详细的结果。五是补充。6. 结论我们提出了一种新的位平面特征一致性（BPFC）正则化器，它使用正常的训练机制提高了模型的对抗使用所提出的正则化器获得的结果明显优于现有的非对抗性训练方法，并且也与对抗性训练方法相当。由于该方法不使用对抗样本，因此比对抗训练方法更快。我们通过大量的实验证明，所实现的鲁棒性受人类视觉的启发，所提出的正则化器导致改进的局部性质，从而导致更好的对抗鲁棒性。我们希望这项工作将导致非对抗性训练方法的进一步改进，以实现深度网络中的对抗性鲁棒性。7. 确认这项工作得到了 RBCCPS 、 IISc 和 Uch- hatarAvishkar Yojana（UAY）项目（IISC 10）、MHRD、Govt的支持。印度。我们谨此感谢所有审阅者提出的宝贵建议。1028引用[1] Anish Athalye，Nicholas Carlini，and David Wagner. Ob-fuscated梯度给人一种错误的安全感：对抗性例子的循环防御。arXiv预印本arXiv：1802.00420，2018。二、五、八[2] 雅各布·巴克曼，奥科·罗伊，科林·拉菲尔，伊恩·古德费尔-洛.温度计编码：一个抵抗敌对例子的好方法。在国际会议上学习表示（ICLR），2018年。2[3] Nicholas Carlini 、 Anish Athalye 、 Nicolas Papernot 、Wieland Brendel、Jonas Rauber、Dimitris Tsipras、IanGoodfellow和Aleksander Madry。对抗鲁棒性的评价。arXiv预印本arXiv：1902.06705，2019。五、七[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性IEEESymposiumonSecurityandPrivacy（SP）.IEEE，2017年。6[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议论文集，2009年。8[6] 古尼特岛放大图片作者：David D.放大图片创作者：Bernstein ， Jean Kossaifi ， Aran Khanna ， Zachary C.Lipton和Animashree Anandkumar。用于鲁棒对抗防御的随机激活在国际会议上学习表示（ICLR），2018年。2[7] Logan Engstrom ， Andrew Ilyas ， Shibani Santurkar 和Dimitris Tsipras。鲁棒性（Python库），2019。8[8] Jessica Fridrich，Miroslav Goljan和Rui Du。彩色和灰度图像中LSB隐写的可靠检测。2001年多媒体与安全研讨会论文集：新的。3[9] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。二、五[10] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， andLaurens van der Maaten.使用输入变换对抗性图像。在国际会议上学习表示（ICLR），2018年。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。5[12] Warren He ， James Wei ， Xinyun Chen ， NicholasCarlini，and Dawn Song.对抗性示例防御：防御薄弱的群体并不强大。2017年第11届USENIX进攻性技术研讨会（WOOT）。2[13] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。加拿大高级研究所。5[14] 亚历

下载后可阅读完整内容，剩余1页未读，立即下载