参数噪声注入：提高深度神经网络对抗性攻击鲁棒性的方法

135 浏览量更新于2023-10-19 收藏 849KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

588参数噪声注入：可训练随机性提高深度神经网络对抗性攻击的鲁棒性Zhezhi He<$、Adnan Siraj Rakin<$和Deliang Fan部电气和计算机工程，中佛罗里达大学，奥兰多，佛罗里达州32816这些作者贡献相当{埃利奥特.他，阿德南.拉金}@ knights.ucf.edu，dfan@ucf.edu摘要深度学习领域的最新发展暴露了深度神经网络（DNN）在对抗性示例中的潜在脆弱性。在图像分类中，一个对抗性的例子是经过仔细修改的图像，它在视觉上与原始图像不可见，但可能导致DNN模型对其进行错误分类。用高斯噪声训练网络是进行模型正则化的有效技术，从而提高模型对输入变化的鲁棒性。受这一经典方法的启发，我们探索利用噪声注入的正则化特性来提高DNN在这项工作中，我们提出了参数噪声注入（PNI）1，它涉及通过解决嵌入对抗训练的最小-最大优化问题，在激活或权重的每一层注入这些参数被明确地训练以实现改进的鲁棒性。大量的实验结果表明，我们提出的PNI技术有效地提高了对各种强大的白盒和黑盒攻击（如PGD、CW、FGSM、可转移攻击和ZOO攻击）的鲁棒性。最后但并非最不重要的是，与最先进的防御方法相比，PNI方法提高了干净数据和扰动数据的准确性，其性能优于当前的不间断PGD防御，1.1%和6.8%的清洁和扰动测试数据分别使用ResNet-20架构。1. 介绍深度神经网络（DNN）在各种应用中取得了巨大的成功，包括但不限于图像分类[23]，语音识别[17]，机器翻译[5]和自动驾驶[9]。尽管精确度有了显著提高[15]，但最近的研究表明，1我们的Pytorch实现可在github.com/elliothe/CVPR_2019_PNI上公开获取[40，14，7]已经表明DNN容易受到对抗性示例的影响。在图像分类任务中，对抗性示例是自然图像，其被视觉上不可感知的变化有意地扰动，但可能导致急剧的分类准确度下降。除了图像分类之外，对其他DNN驱动的任务的攻击也被积极研究，例如视觉问答[43，1]，图像字幕[10]，语义分割[ 10 ]，[31]等[12，8，39]。已经有一批关于对抗性示例生成的作品对抗性攻击），并发展相应的防御手段。一般来说，对抗性攻击可以根据攻击者暴露的目标模型信息分为白盒攻击和黑盒攻击。对于白盒攻击[40，7]，对手可以完全访问网络架构和参数。然而，只有对网络的外部访问（例如，输入和输出）被允许用于黑盒攻击[29，33，11]。由于信息更丰富，白盒攻击通常可以实现比黑盒攻击更高的攻击成功率，对于各种应用[40，24，21，35，32，4，11，7]。最近，不同的作品[6]从模型鲁棒性和正则化的统一角度看待对抗性示例常规正则化主要用于泛化目的，从而防止模型过度拟合训练数据。传统的正则化方法，如dropout [38]，Batch Normalization [18]，已被证明是有效的，并在实践中得到广泛应用。Hinton还讨论了将高斯噪声添加到模型中（例如，输入，权重和激活），在他的讲义[13]和dropout工作[38]中作为正则化器执行。很明显，一个适当的模型正则化方法，专门设计用于提高DNN的鲁棒性，可以更有效地防御对抗性的例子。最近，不同的作品[27，26，6]采用了噪声注入方法进行模型正则化，但手动配置注入的噪声相比589ǫXX利用噪声在第k步中的扰动数据x的可被表示为：注入，同时通过端到端训练优化注入噪声的幅度。我们的方法概述在这项工作中，我们提出了一个xk=P（x）xk−1+a·sgn。<$L（g（x<$k−1;θ），t）<$（二）一种新的噪声注入方法，称为参数噪声注入，PNI算法，以提高神经网络对对抗性攻击的鲁棒性所提出的PNI技术将应用于在各个位置上注入逐层可训练的高斯噪声，包括网络输入/激活/权重。对于每个推理，注入的噪声独立地从相应的高斯分布中采样，其中该分布的均值和方差通过梯度下降法训练作为DNN的其他参数为了实现适当的训练目标，PNI嵌入了众所周知的对抗训练，其中注入的噪声（即，其均值和方差）将通过端-其中P（x）是投影空间，由x±n，a是步长。Madry等人[30]还提出，PGD是所有一阶中的普遍对手对手（即，攻击仅依赖于一阶信息）。C W攻击：最近，Carlini和Wagner提出了一种称为C W攻击的攻击方法[7]。C W攻击将对抗样本的生成视为优化距离度量δw.r.t的Lp范数的问题，其可以描述为：到端培训，而不是手动配置。总的来说，我们提出的PNI技术在清洁和扰动数据准确性方面都显示出诱人的性能改进，||P=||p=. Σni=1|p|pΣ1/p;δi=xi−xi（3）与普通对抗训练相比。可忽略的模型容量和计算开销使得尽量减少||δ||p +c·L（x + δ）s.t.x + δ ∈ [0，1]n（4）PNI是一个有前途的解决方案，为实际应用。2. 相关作品2.1. 对抗性攻击最近，已经提出了各种强大的对抗性攻击方法，通过对输入数据引入几乎不可见的扰动来完全欺骗经过训练的DNN。几个最先进的白盒（即，PGD [30]，FGSM[14]和C W [7]）和黑盒（即，Substitute [34]和ZOO[11]）对抗攻击方法，这将在这项工作中进行研究，简要介绍如下。FGSM攻击：快速梯度符号法（FGSM）[40]是一种有效的单步对抗攻击方法。给定矢量化输入x和相应的目标标签t，FGSM沿着其梯度方向改变x的每个元素x关于推理损失ΔL/Δ x。生成对立的电子示例X（即，扰动输入）可以被描述为：其中δ被视为对输入x的扰动，并且在[7]中选择特定的损失函数Lc是攻击者设置的常数。在这项工作中，我们使用基于L2范数的CW&攻击，并采取||δ||p=2作为衡量DNN鲁棒性的评估指标，其中，||p =2通常表示DNN对潜在的对抗性攻击具有更高的鲁棒性。||p=2normally indicates a DNN possesses higherrobust- ness against potential adversarial attacks.黑盒攻击：最流行的黑盒攻击是使用替代模型[34]进行的，该替代模型使用目标模型的输出作为标签进行训练，以模仿目标模型的功能。然后利用替代模型生成的对抗性实例对目标模型进行攻击在这项工作中，我们专门研究了可转移对抗攻击[29]，这是替代模型攻击[34]的变体。在可转移对抗攻击中，对抗样本是从一个源模型生成的，用来攻击另一个目标x=x+·sgn。L（g（x;θ），t）（一）模型源模型和目标可以拥有完全不同的结构，但用真实的训练数据进行训练。零阶优化（ZOO）攻击[11]其中，f是确定at的扰动约束粘着强度 g（x; θ）计算由θ参数化的DNN的输出。sgn（·）是符号函数。注意，攻击之后是一个裁剪操作，以确保x∈[0，1]。PGD攻击：投影梯度下降（PGD）[30]是FGSM的多步变体，它是最强的L∞对抗示例生成算法之一。以x=1=x为初始值，迭代更新在这项工作中也进行了调查。ZOO攻击不是使用替代模型来近似目标模型的梯度以执行攻击，而是使用随机梯度坐标基于输入数据和输出分数直接近似梯度2.2. 对抗性辩护：通过对抗训练提高网络鲁棒性[40，30]是迄今为止最流行和最完整的防御方法。对抗训练的关键是.Σ590LLL对抗性示例作为训练数据，用于训练DNN对抗对抗性攻击。大多数后来的作品[19，36]都遵循这条道路，以对抗训练来补充他们的防御。对抗性训练的初始和重要步骤是选择用于对抗性示例生成的攻击模型。采用投影梯度下降（PGD）[30]作为对抗训练的攻击模型变得越来越流行，因为它被认为能够在一阶方法中生成通用对抗示例[30]。此外，在许多最近的防御方法中，只有基于PGD的对抗训练可以在各种其他攻击下保持最先进的准确性[7，40，4]。最近的工作[6]已经融合了通过正则化来提高模型鲁棒性的概念，以保护对抗性示例。一种众所周知的模型正则化方法是噪声注入，这是权重[41]或激活[38]的dropout的变体。为了进一步提高DNN在攻击下的性能，有一些工作试图将随机性引入DNN以进行对抗性防御，例如在推理过程中随机修剪一些激活[37]，随机化输入层[42]，在卷积层之前插入噪声层[27，26]。然而，性能改进（即，扰动数据精度）主要来自随机梯度，而不是正则化DNN以获得更好的鲁棒性，根据梯度混淆标准，这被认为是破碎的防御方法[4]。评估关于梯度混淆的对抗性防御的另一种直接方法是检查干净（无攻击）和扰动数据（受攻击）的准确性。如果所采用的方法主要执行模型正则化，则期望在不牺牲干净数据精度的情况下提高扰动数据精度。最后但并非最不重要的是，我们还注意到最近的工作Adv- BNN [28]也结合了对抗训练和权重上的噪声注入（即，贝叶斯神经网络等价）。与我们提出的PNI相比，Adv-BNN [28]主要有以下缺点：1）由于所使用的权重后验（双倍模型大小）和输出集合（> 10倍）而导致的显著的计算和存储开销，以及2）潜在的梯度混淆（用扰动的数据准确度来交换干净的数据准确度）。我们的PNI优于Adv-BNN的关键因素是逐层噪声注入（等式2）。（5））和集合损失函数（Eq.（10）），这将在以下章节中明确介绍。图1.PNI在5×5全连接层的权重wl上的流程图（即，PNI-W）。对于每一个推断，对wl的PNI处理通常可以分为三个步骤：1）统计地计算wl的标准偏差σ l; 2）从N（0，σ2）中采样加性权重噪声（i.i.d）; 3）将缩放的权重噪声与干净的权重相加，然后在前向路径中使用噪声权重wl。定义. 我们提出的将高斯噪声注入DNN内不同组件或位置的方法可以在数学上描述为：v_l ， i=fPN_I（v_l ，i）=v_l ，i+α_l·η_l ，i;η1 ，i<$N（0，σ2）（5）其中vl，i是DNN的第l层中的无噪声张量vl的元素，并且这样的vl可以是输入/权重/层间（即，张量（tensor）在这项工作中。ηl，i是噪声项，其针对每个推断从具有零均值和方差σ2的高斯分布采样。αi是对注入噪声的幅度进行缩放的系数。请注意，我们采用的方案是ηl与v共享相同的方差，如等式中所示。因此，注入的加性噪声同时依赖于αl和vl的分布。在这项工作中，我们不是手动配置αl来限制噪声水平，而是将αl设置为一个可学习的参数，可以优化该参数以提高网络的鲁棒性。我们称这种方法为参数噪声注入（PNI）。假设我们在整个DNN中对卷积/全连接层的权重张量执行所提出的PNI，对于每个参数层，只有一个逐层噪声缩放系数（αl）需要优化。我们采取这种逐层PNI配置作为默认在这项工作中。重量上的PNI的示例（即，PNI-W）在图中描绘。1.一、优化在这项工作中，我们把噪声缩放系数作为一个模型参数，可以通过反向传播进行优化。F或fPNI（·），其逐层共享噪声缩放系数，梯度计算可以描述为：3. 参数噪声注入在本节中，我们首先介绍拟议的参数-LαlΣ公司简介=PNI（vl，i）PNI（vl，i）αl（六）ric噪声注入（PNI）功能，并将研究噪声注入对输入/权重/激活的影响。其中i对整个张量vl，i，并且PNI（vl，i）是反向传播我591从下面的层。PNI函数的梯度计算为：PNI（vl，i）优化集成损失L是成功训练模型的固有参数（例如，权重，偏置）和附加噪声缩放系数α lαl=ηl，i（7）从PNI。这背后的直觉是，梯度下降优化器试图找到αl的平衡点，值得注意的是，在反向传播期间，随机采样的nl，i将被视为常数使用具有动量的梯度下降优化器，步骤j处的α的优化可以写为：最小透镜如果αl太大，则PNI将在推理路径中引入显著的噪声，这肯定会妨碍清洁和扰动数据的准确性。如果αl太小，PNI将不执行任何正则化。jj−1Lj−1jj−1j4. 实验Vl =m·Vl+αl;αl=αl−ε·Vl（8）其中m是动量，m是学习速率，Vl是更新速度。此外，由于权重衰减倾向于使学习的噪声缩放系数收敛到零，因此在本工作中的参数更新期间在α上没有权重衰减项。我们设α l=0。25作为默认初始化。稳健优化。我们期望利用上述PNI技术来提高网络的鲁棒性。然而，直接优化噪声缩放系数通常会导致αl收敛于一个小的接近零的值（表1中的普通训练），因为梯度下降优化器倾向于使权重无噪声，从而过拟合训练数据。为了在对抗性防御中取得成功，我们联合使用PNI方法和鲁棒优化（又名PNI）。Adversar-ial训练），可以提高攻击下扰动数据的推理精度。给定输入-x和目标- get标签-t，对抗训练是为了获得以下最小-最大问题的网络参数θ的最优解4.1. 实验装置数据集和网络架构。在这项工作中，考虑了两个视觉数据集的对象识别任务，这是MNIST和CIFAR-10。[25]第二十五话数据集是一组28×28灰度的手写数字图像，包含60K个训练样本和10K个测试样本。CIFAR-10 [22]数据集由50 K个32×32彩色图像的训练样本和10 K个测试样本那里MNIST没有使用数据增强，而CIFAR-10使用与[16]中相同的增强方法虽然我们在CIFAR-10和MNIST上测试了我们的方法，但我们主要在CIFAR-10上给出结果来验证我们的方法。由于MNIST的结果不能提供更多的信息，我们将MNIST结果放在附录中。对于MNIST，我们使用variant LetNet5测试性能。对于 CIFAR-10 ，使用经典的残差网络 [16] （ ResNet-20/32/44/56）架构，并且ResNet-20被用作大多数比较实验和消融研究的基线。一个冗余网络ResNet-18也被用来报告CIFAR-10的性能，因为大的网络容量有助于广告，.arg minθ.ΣΣargmaxLg（x∈;fPNI（θ）），tx′∈P<$（x）（九）对抗性辩护此外，与其包括在-在数据增强中放置归一化，我们在DNN其中，内部最大化趋向于获得扰动数据x，并且P（x）是受扰动约束的输入数据扰动集。而外部极小值则通过梯度下降法进行优化，作为常规的网络训练。采用L∞PGD攻击[30]作为默认的内部最大化求解器（即，生成x）。此外，为了平衡清洁数据的准确性，和实际应用中的扰动数据准确性，而不是如等式2中那样仅对扰动数据（9）我们最小化集合以执行相同的功能，因此攻击者可以直接在自然图像上添加扰动。请注意，由于PNI和PGD攻击[30]都包含随机性，因此我们以平均值±标准差%的格式报告了5次试验的准确度，以减少错误。对抗性攻击。为了评估我们提出的PNI技术的性能，我们采用了多个强大的白盒和黑盒攻击，如第2.1节所介绍的。对于MNIST和CIFAR-10的PGD攻击，损失L′，它是清洁和设置为0.3/1和8/255，N步骤分别设置为40和7，扰动数据系综损耗Lens被描述为：Lens=wc·L（g（x;fPNI（θ）），t）+wa·L（g（x∈;fPNI（θ）），t）（十）其中，wc和wa分别是干净数据丢失项和对抗数据丢失项 w c= w a= 0. 5是本工作中的默认配置活泼地FGSM攻击与PGD攻击采用相同的配置。PGD和FGSM的攻击配置与[19，30]中的设置相同对于CW攻击，我们将常数c设置为0.01. 亚当[20]是用来优化方程。（4）学习率为5e-4。我们选择0作为置信系数k，其定义在C WL2在-592表1.PNI的收敛性：ResNet-20与分层权重Conv 0 Conv1.0 Conv1.1 Conv1.2 Conv1.3CIFAR-10数据集上的PNI。(Top)收敛的逐层噪声不同训练方案下的标度系数α（下）在PGD和FGSM下测试干净数据和扰动数据的准确性。0.250.000.25层香草PNI-W+高级火车（无PNI）PNI-W+高级火车(with PNI输入0.500.751.000 20 40 60 80 100120140 160时代图2.分层加权PNI（PNI-W）的可训练噪声标度系数α的演化曲线仅显示了ResNet-20 [16]的前5层（表1中的粗体）SGD优化器的学习速率在80和120epoch时降低。使用ResNet-20的逐层PNI on weight（PNI-W），比较训练噪声的收敛性。如表1所示，简单地使用动量SGD优化器执行香草训练完全失败了对抗性防御，其中噪声缩放系数α收敛到可忽略的值。相反，在对抗训练的帮助下（即，优化Eq.（10）），网络前端的卷积层二、由于PGD攻击[30]被视为内部最大化解决方案，因此在Eq.（2）重新格式化为：[7]第七话攻击的二分搜索步骤是9，而执行梯度下降的迭代次数是10。xt+1=P（x）..ΣΣx<$t+a·sgn<$xL（g（x<$t;fPNI（θ）），t）（十一）此外，我们还进行了PNI防御几个国家的最先进的黑盒攻击（即。替代品[34]，动物园[11]和可转移[29]攻击），以检查所提出的PNI技术带来的鲁棒性改进对抗性防御的竞争方法。据我们所知，PGD [30]的对抗训练是唯一一种不间断的防御方法[4]，它被标记为香草对抗训练，并作为这项工作的基线。除此之外，还讨论了几个最近的作品，这些作品在其防御方法中使用了与我们类似的概念，包括认证的鲁棒性[26]，随机自集成[27]和Adv-BNN [28]。4.2. 对抗性攻击4.2.1PNI对抗白盒攻击PNI的优化方法如第3节末尾的讨论，如果不利用对抗训练和集成损失，噪声缩放系数将无法正确训练。我们进行了训练实验-其中，Eq.（2）和Eq。（11）在x世代有/没有PNI。这并不是说，在模型中保持噪声项用于两个对抗性示例生成（等式2）。（11）），模型参数更新也是对抗训练PNI优化的关键因素。如表1所列，在x射线产生中不结合PNI-W 确实导致PNI 优化的失败，并且大值（α=5. 表1中的856）由于可能的梯度爆炸而不收敛。PNI对体重、激活和输入的影响。在这项工作中，即使将在权重上注入噪声的方案（PNI-W）作为PNI的默认设置，关于激活上的PNI（PNI-A-a/b）、输入上的PNI（PNI-I）和混合模式（例如，PNI-W+A）的综合研究见表2。PNI-A-a/PNI-A-b分别表示在卷积/全连接层的输出/输入张量上注入噪声。此外，PNI-A-b方案本质上包括PNI-I，因为PNI-I将噪声施加在第一层的输入张量上。请注意，如上所述，所有具有PNI变体的模型都与基于PGD的对抗训练[30]分层PNI-W指数研修第x代）第x代）Conv00.0030.0040.146Conv1.00.0020.0050.081Conv1.10.0040.0040.049Conv1.20.0020.0010.097Conv1.30.0045.8560.771Conv1.40.0050.0050.004Conv1.50.0020.0010.006Conv2.00.0040.0000.006Conv2.10.0060.0030.004Conv2.20.0040.0030.030Conv2.30.0010.0060.003Conv2.40.0030.0010.033Conv2.50.0020.0010.023Conv3.00.0070.0010.008Conv3.10.0030.0010.006Conv3.20.0070.0020.001Conv3.30.0060.0010.002Conv3.40.0090.0020.001Conv3.50.0050.0000.001FC0.0020.0020.001清洁92.11%71.00%84.89±0.11%PGD0.00±0.00%18.11%45.94±0.11%FGSM百分之十四点零八26.34%54.48±0.44%593表2. PNI位置的影响：ResNet-20 [16]干净和扰动数据（在PGD和FGSM攻击下）在CIFAR-10测试集上的准确性（平均值±标准值%），在不同的网络位置上使用PNI技术。Baseline是带有普通对抗训练的ResNet-20，默认情况下，所有PNI组合都通过对抗训练进行优化。PNI测试无PNI的清洁PGDFGSM清洁PGDFGSM香草火车[30]---83.8439.14±0.0546.55PNI-W84.89±0.1145.94±0.1154.48±0.4485.4831.45±0.0742.55PNI-I85.10±0.0843.25±0.1650.78±0.1684.8234.87±0.0544.07PNI-A-a85.22±0.1843.83±0.1051.41±0.0885.2033.93±0.0544.32PNI-A-b84.66±0.1643.63±0.2051.26±0.0983.9733.53±0.0543.37PNI-W+A-a85.12±0.1043.57±0.1251.15±0.2184.8833.23±0.0543.59PNI-W+A-b84.33±0.1143.80±0.1951.14±0.0784.4233.30±0.0543.43表3. 网络深度和宽度的影响：CIFAR-10测试集上的干净和扰动数据（在PGD和FGSM攻击下）准确度（平均值±标准值%），使用不同的鲁棒优化配置。对于网络深度，报告了具有增加深度的经典ResNet-20/32/44/56。对于网络宽度，采用ResNet-20（1×）作为基线，然后将宽ResNet-20与1.5×/2×/4×缩放的输入和输出通道进行比较。容量表示模型中可训练参数的数量。没有防御香草adv. 列车PNI-W+adv. 列车（使用PNI测试）PNI-W+高级列车（无PNI的测试）模型能力清洁PGDFGSM清洁PGDFGSM清洁PGDFGSM清洁PGDFGSMNet20269,72292.10.0±0.014.183.839.1±0.146.684.9±0.145.9±0.154.5±0.485.531.6±0.142.6Net32464,15492.80.0±0.017.885.642.1±0.050.385.9±0.143.5±0.351.5±0.186.435.3±0.145.5Net44658,58693.10.0±0.023.985.940.8±0.148.284.7±0.248.5±0.255.8±0.186.039.6±0.149.9Net56853,01893.30.0±0.024.286.540.1±0.148.886.8±0.246.3±0.353.9±0.187.341.6±0.151.1Net20（1.5×）605,02693.50.0±0.015.985.842.0±0.049.686.0±0.146.7±0.254.5±0.287.038.4±0.149.1Net20（2×）1,073,96294.00.0±0.013.086.343.1±0.152.686.2±0.146.1±0.254.6±0.286.839.1±0.050.3Net20（4×）4,286,02694.00.0±0.014.287.546.1±0.154.187.7±0.149.1±0.357.0±0.288.143.8±0.154.2然后，使用相同的训练模型，我们在测试阶段报告有/没有训练噪声项（表2中的左/右）的准确性。如表2所示，在测试阶段启用噪声项后，与其他位置的PNI相比，ResNet-20上的PNI-W在防御PGD和FGSM攻击方面具有最佳性能。尽管很难完全理解PNI-W优于其他对应物的机制，但直觉是PNI-W是PNI-A在每个连接而不是每个输出单元中的推广，类似于正则化技术DropConnect [41]和Dropout [38]之间的关系。此外，我们还观察到，禁用PNI在测试阶段导致显着的准确性下降，为防PGD和FGSM攻击，而清洁数据的准确性保持相同的水平，PNI启用。这种观察引起了对我们的PNI技术的两个关注：1）PNI对干净/扰动数据准确性的提高是否主要来自随机性（潜在梯度混淆[ 4 ]）导致的攻击强度降低？2)PNI只是一个可以忽略的技巧，还是它执行模型正则化以构建更鲁棒的模型？我们对这两个问题的回答都是否定的，我们将在第5节中详细说明。网络容量的影响。为了研究网络容量（即，可训练参数的数量）和PNI的鲁棒性改进，我们从深度和宽度两个方面对各种网络结构进行了检查。对于不同的网络深度，ResNet 20/32/44/56 [16]上的实验在香草对抗训练[30]和我们提出的PNI鲁棒优化方法下进行。对于不同的网络宽度，我们采用原始的ResNet-20作为基线，并扩展其在每层输出通道分别为1.5×/2×/4×。与表2相同，我们报告干净-和扰动-在测试阶段有/没有PNI项的数据准确性。表3中的结果表明，增加模型这样的观察表明，扰动数据准确性的改善并不是来自于[19，2]中报告的清洁数据准确性的权衡通过增加网络容量，建议的PNI的鲁棒性改善的结果变得不那么显著。尽管对抗训练和PNI技术都进行了正则化，但网络结构仍需要仔细构造，以防止过度训练导致的过度拟合。594表4. C-W&攻击L2范数比较表5. 针对黑盒攻击的PNI：在CIFAR-10测试集上，（左）可转移PGD攻击下的扰动数据准确性，以及（右）ZOO攻击的攻击成功率。模型A是由普通对抗训练训练的ResNet-18，模型B是由具有对抗训练的PNI-W/A-a/W+A-a训练的ResNet-18参数化C W攻击下的鲁棒性评估。提高鲁棒性并不一定意味着提高测试数据对任何特定攻击方法的准确性。典型的基于L2范数的C-W攻击[7]对任何防御都应该达到100%的成功率.因此，欺骗网络所需的平均L2范数可以更好地了解网络表4中给出的结果代表了我们的模型对CW攻击的整体性能。我们训练噪声参数的方法对于更冗余的网络变得更有效。我们通过对ResNet-20和ResNet-18架构进行比较研究来证明这一现象。显然，ResNet-18 显示了 Vanilla adv. 比 ResNet-20 更能抵御&CW攻击。4.2.2PNI对抗黑盒攻击在本节中，我们测试了我们提出的PNI技术对抗可转移对抗攻击[29]和ZOO攻击。在可转移对抗攻击[29]中，两个训练好的神经网络被用作源模型（S）和目标模型（T）。广告示例xs由以下生成：可转移攻击动物园攻击火车。BABB A方案成功率PNI-W 75.13±0.17 75.23±0.18 57.72PNI-A-a 74.67±0.11 75.86±0.13 69.61PNI-W+A-a 75.14±0.10 74.92±0.13 50.00不一定能达到前面一些防御所要求的期望鲁棒性[26，27]。4.2.3与竞争方法的比较如第2.2节所讨论的，最近提出了大量的对抗性防御工作，然而，其中大多数已经被[3，4]中提出的更强的攻击所破坏。因此，在这项工作中，我们选择与迄今为止最有效的一种-基于PGD的对抗训练[30]进行比较。此外，我们在表6中与其他基于随机性的工作[27，26，28]进行了比较，以检查PNI的有效性。表6.在PGD攻击下，CIFAR-10上最先进的对抗性防御方法与清洁和扰动数据准确性的比较。防御方法模型清洁PGDPGD adv.火车[30]ResNet-20（4×）8746.1±0.1源模型然后使用x_s攻击目标模型，DP [26]28-10 WideResNet（L=0.1）87.0 25其被表示为ST。我们在CIFAR上使用ResNet-18以10为例。我们训练两个ResNet-18模型（模型-A和B）在CIFAR-10数据集上相互攻击，其中模型A通过香草对抗训练进行优化，而模型B使用我们提出的PNI变体进行训练（即，PNI-W/A-a/W+A-a）鲁棒优化方法。Ta-表5显示了在各种PNI情况下，AB和BA的扰动数据精度几乎相等，这表明在推断过程中PNI的存在可以忽略不计。对PGD攻击强度的影响。对于ZOO攻击[11]，我们在200个随机选择的测试样本上测试了我们的防御，用于非目标攻击。攻击成功率表示测试样本在攻击后将其分类更改为错误类别的百分比。具有对抗训练的vanilla Resnet-18的ZOO攻击成功率接近80%。PNI的鲁棒性从表5中更明显，因为PNI-W+A-a和PNI-W的攻击成功率显著下降。然而，PNI-A- a未能抵抗ZOO攻击，即使它仍然保持比基线低的成功率PNI-A-a的失败表明，仅仅在激活之前添加噪声确实会导致[27]第二十七话[28]第28话PNI-W（本品）ResNet-20（4×）87.7±0.149.1±0.3以前的防御工作[2，19]已经表明了干净数据准确性和扰动数据准确性之间的权衡，其中扰动数据准确性的提高是以降低干净数据准确性为代价的。值得强调的是，与基于PGD的对抗训练相比，我们提出的PNI在白盒攻击下提高了干净和扰动数据的准确性[30]。差分隐私（DP）[26]是一种类似的方法，在网络中的各个位置利用噪声注入尽管他们的辩护保证了一个合格的辩护，不能很好地抵抗基于L∞范数的攻击（例如，PGD和FGSM）。此外，为了达到更高的水平，在经过认证的防御中，DP也大大牺牲了干净数据的准确性。另一种基于随机性的方法是随机自集成（RSE）[27]，它在所有卷积层之前插入噪声层。尽管他们的防守在面对C W进攻时表现得很好，但在面对CW进攻时表现不佳。CW L2-范数模型能力没有防守香草火车PNI-WResNet-20（4x）4,286,0260.121.971.95±0.02ResNet-1811,173,9620.122.392.62±0.04595强大的PGD攻击。除此之外，DP和RSE都手动配置噪声电平，这是非常难以找到最佳设置。然而，在我们提出的PNI方法中，噪声水平由可训练的逐层噪声缩放系数和噪声注入位置处的权重分布来确定。对于Adv-BNN [28]，除了计算开销和模型大小（>20倍）之外，我们的PNI在干净数据和扰动数据的性能方面也优于它。5. 讨论我们提出的PNI算法所带来的防御性能的改善并不是来自于随机梯度。随机梯度被认为是基于单个样本不正确地我们试图从两个角度证明PNI不依赖于梯度混淆：1）我们提出的PNI方法通过[ 4 ]提出的每个检查项来识别梯度混淆。2)在PGD攻击下，通过增加攻击步骤，我们的PNI鲁棒优化方法仍然优于vanilla对抗训练（在[4]中被认证为非模糊化的表7.检查PNI的混淆和掩蔽梯度[4]引起的特征行为的清单。识别梯度模糊的特征通过未通过1. 一步攻击的性能优于迭代攻击C2. 黑盒攻击优于白盒攻击3. 无限攻击不能达到100%成功C4. 随机抽样发现敌对的例子C5. 增加失真界限梯度混淆检查。著名的梯度混淆工作[4]列举了表7中列出的几个特征行为，当防御方法具有梯度混淆时可以观察到这些行为。我们的实验表明，PNI通过了表7中的每个检查项目。对于第1项，表2和表3中的所有实验都报告FGSM攻击（一步）的性能比PGD攻击（迭代）差对于第2项，我们在表5中的黑盒攻击实验表明，黑盒攻击强度比白盒攻击更差。如图3所示，3、通过增加畸变限-ε来进行实验。结果表明，无界攻击确实导致攻击下的准确率为0%。对于第4项，先决条件是基于梯度的攻击（例如，PGD和FGSM）无法找到对抗性的例子，但是图中的实验。3揭示了我们的方法仍然可以打破时，增加失真的界限。与普通对抗训练相比，它只是增加了对对抗攻击的抵抗力。对于第5项，再次如图所示5000.0 0.2 0.4 0.6 0.8 1.0对于PGD攻击，当N步= 7时，504020 40 60 80 100攻击步数N步，当= 0.031 在CIFAR-10测试集上，在PGD攻击下，ResNet-18的扰动数据准确度（上）与攻击界限的关系，以及（下）与攻击步数N步的关系。图3、增加变形范围，提高攻击成功率。PNI不依赖于随机梯度。如图 3、逐渐增加PGD攻击步骤N步骤提高了攻击强度[30]，从而导致普通对手训练和我们的PNI技术的扰动数据准确性下降。然而，对于这两种情况，当N步= 40时，扰动数据精度开始饱和并且不再进一步降低。如果我们的PNI的成功来自于随机梯度，由于单样本而给出不正确的梯度，则增加攻击步骤将最终打破PNI防御，这在这里没有观察到。即使N步增加到100，我们的PNI方法仍然优于普通的对抗训练。因此，我们可以得出结论，即使PNI确实包括梯度混淆，随机梯度也不是PNI中鲁棒性提高的主导作用。6. 结论在本文中，我们提出了一种参数噪声注入技术，其中噪声强度可以通过在对抗训练过程中解决最小-最大优化问题通过大量的实验，所提出的PNI方法可以优于国家的最先进的防御方法在清洁数据的准确性和扰动数据的准确性。谢谢。这项工作得到了佛罗里达网络合作种子奖计划的部分支持。香草高级培训PNI W+A-aPNI WPNI A-a准确度（%）准确度（%）596引用[1] N. Akhtar和A.眠对抗性攻击对计算机视觉中深度学习的威胁：一个调查。IEEE Access ，6 ：14410-14430，2018。1[2] 匿名的L2-非扩张神经网络提交给2019年学习代表国际会议。正在审查中。六、七[3] A. Athalye和N.卡烈尼关于CVPR 2018白盒对抗示例防御的鲁棒性。CoRR，abs/1804.03286，2018。7[4] A. Athalye，N.Carlini和D.瓦格纳。模糊梯度给人一种虚假的安全感：规避对抗性示例的防御arXiv预印本arXiv：1802.00420，2018。一、三、五、六、七、八[5] D.巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。1[6] A. Bietti，G. Mialon和J. Mairal 深度神经网络的正则化和鲁棒性。arXiv预印本arXiv：1810.00363，2018。第1、3条[7] N. Carlini和D.瓦格纳。评估神经网络的鲁棒性在安全和隐私（SP），2017年IEEE研讨会上，第39-57页IEEE，2017年。一二三五七[8] N. Carlini和D. 瓦格纳。音频对抗示例：针对语音转文本的攻击。arXiv预印本arXiv：1801.01944，2018。1[9] C. Chen，中国山核桃A. Seff，A. Kornhauser和J.萧深度驾驶：自动驾驶中的直接感知学习启示。在计算机视觉（ICCV），2015年IEEE国际会议上，第2722-2730页。IEEE，2015年。1[10] H. Chen，H.张，P. -Y. 陈，J.Yi和C.-J. 谢表演和愚弄：为神经图像字幕制作对抗性示例。arXiv预印本arXiv：1712.02051，2017。1[11] P. - Y. Chen，H.Zhang，Y.Sharma，J.Yi和C.-J. 谢Zoo：基于零阶优化的黑盒攻击深度神经网络，无需训练替代模型。在第10届ACM人工智能和安全研讨会的会议上，第15-26页。ACM，2017。一、二、五、七[12] M. Cheng，J. Yi，H. 张，P. - Y. Chen和C.-谢国忠Seq2sick：使用对抗性示例评估序列到序列模型的鲁棒性。arXiv预印本arXiv：1803.01128，2018。1[13] 杰弗里·辛顿。机器学习的神经网络：提高泛化能力的方法概述。https://www.cs.toronto.edu/2014年，电子邮件/csc321/slides/lecture_slides_lec9.pdf1[14] I.古德费洛，J。Shlens和C. 赛格迪解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572，2014。一、二[15] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在Pro

下载后可阅读完整内容，剩余1页未读，立即下载