输入梯度的鲁棒性传递：一种深度学习模型的对抗性扰动传递方法

36 浏览量更新于2023-10-23 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1它认为重要的事情是重要的：通过输入梯度的鲁棒性传递AlvinChan1，YiTay1，Yew-SoonOng1，21南洋理工大学，2AI3，AAUSTRASTAR，新加坡摘要对抗性扰动是对输入像素的不可感知的变化，可以改变深度学习模型的预测。以前发现，对这种扰动鲁棒的模型的学习权重输入梯度表征每个输入像素处的小变化如何影响模型输出。仅使用自然图像，我们在这里表明，训练学生模型通过在MNIST、CIFAR-10、CIFAR-100和Tiny-ImageNet上的实验，我们证明了我们提出的方法，输入梯度对抗匹配，可以在不同的任务甚至不同的模型架构之间传递鲁棒性。这表明，直接针对输入梯度的语义是一种可行的方法，以对抗鲁棒性。1. 介绍深度学习模型在广泛的计算机视觉任务中表现出了卓越的性能[15，28，17]，但很容易被对抗性的例子愚弄[27]。这些例子是通过不可察觉的扰动制作的，可以在测试期间操纵模型由于其在深度神经网络部署中的潜在安全风险，对抗性示例受到了广泛的研究关注，最近提出了许多新的攻击[2，19，4]和防御[24，20，16，9，33，1]。虽然干净样本和对抗样本的准确性之间仍然存在很大差距，但最强的防御主要依赖对抗训练的主要思想简单而有效，包括使用每个训练循环中生成的对抗样本来训练模型。然而，制作强对抗性训练样本在计算上是昂贵的，因为它需要迭代梯度通讯作者：guoweial001@ntu.edu.sg关于损失函数的步骤[13，31]。为了规避AT的成本，最近的一系列工作探索将对抗鲁棒性从鲁棒模型转移到新任务[11，26]。为了转移到目标任务，当前的这种技术涉及在其他域（源任务）上预先训练的鲁棒特征提取器之上微调新层。虽然这种方法在跨不同任务传递鲁棒性方面是有效的，但它假设源任务和目标任务模型具有类似的体系结构，因为预训练的权重是传递的媒介在这里，我们提出了一个鲁棒性的传输方法，这是任务和架构不可知的输入梯度作为介质的传输。我们的方法，输入梯度对抗匹配（IGAM），受到观察结果[29，6]的启发，即鲁棒的AT训练模型显示明显突出的输入梯度，而其非鲁棒的标准训练模型具有噪声输入梯度（图1）。每个像素的输入梯度值定义了一个小的变化如何影响模型在这里，我们展示了学习模拟鲁棒模型如何通过输入梯度查看我们的方法背后的核心思想是训练一个具有对抗性目标的学生模型，以欺骗学生将学生的输入梯度视为为了在不同的任务之间传输，教师模型随后，教师模型的权重被冻结，而学生模型在最小-最大博弈中用单独的神经网络进行逆向训练，使得来自学生和教师模型的输入梯度在语义上[7]《易经》中的“通过在 MNIST 、 CIFAR-10 、 CIFAR-100 和 Tiny-ImageNet上的实验，我们证明了输入梯度是传递鲁棒性的一种可行媒介，优于传递权重的微调。令人惊讶的是，学生模型甚至在干净的准确性和对抗性鲁棒性方面都优于他们的教师模型。在某些情况下，学生模型332333（x，y）从零开始接受对抗训练的基线。虽然我们的方法没有击败最先进的鲁棒性，它表明，解决输入梯度的语义是一个新的有前途的鲁棒性的方式。总之，本文的主要贡献如下：• 这是第一次，我们证明了鲁棒性可以在不同的模型架构之间转移。• 我们通过训练学生模型的输入梯度来实现这一点，• 通过大量的实验，我们证明了输入梯度是比预训练权重更有效和通用的传递鲁棒性的媒介2. 背景我们回顾了图像分类的对抗鲁棒性的概念及其与输入梯度的关系我们将图像分类器表示为f（x;n）：x7！将输入图像x映射到集合C中的k个类的输出概率，其中分类器的参数被定义为k。将训练数据集表示为D，经验风险最小化是训练分类器f的标准方法，通过minE（x，y）DL（x，y），其中y2Rk是图像的独热标签，L（x，y）是标准交叉熵损失：L（x，y）=E-y>logf（x）（1）使用这种训练方法，深度学习模型通常在干净的测试样本上表现出良好的性能，但在对抗性测试样本的分类在输入x处具有“幅度“的对抗性扰动时，如果满足以下条件，则认为模型对这种攻击是鲁棒的：argmaxfi（x;n）=argmaxfi（x+6;n）（2）据观察[29]，经过逆向训练的鲁棒模型显示出一个有趣的现象：它们产生与输入图像大致相似的显著输入梯度，而较不健壮的标准模型显示噪声较大的输入梯度（图1）。[6]在线性模型中示出了从样本到决策边界的距离随着输入梯度和输入图像之间的对准的增长而增加，但是这对于非线性神经网络来说减弱。虽然这些以前的研究表明，鲁棒训练的模型会导致显着的输入梯度，但我们的论文研究了输入梯度作为在不同模型之间传递鲁棒性的媒介。图1：CIFAR-10图像上的非稳健模型（中间）和稳健模型（右侧）的输入梯度。非鲁棒模型使用自然图像进行标准SGD训练，而鲁棒模型使用7步PGD对抗示例进行训练。3. 相关工作我们回顾了关于对抗性示例防御的现有技术，并强调了与我们的工作最相似的那些对抗性训练为了获得对抗性样本的鲁棒性，对抗性训练（AT）的核心思想是用对抗性训练样本训练模型形式上，AT最小化损失函数：ΣI2 CI2CL（x，y）=E（x，y）DmaxL（x+6，y）62B（“）（三）其中86 2 B p（“）= 6：k6kp “。“小”，小--具有p=1的sarial扰动通常是不可感知的，并且是本文的焦点。鲁棒模型的输入梯度输入梯度描述输入的极小变化如何影响模型的输出。给定一对输入和标记（x，y），其对应的输入梯度rxL（x，y）可以通过神经网络中的梯度反向传播计算到其输入层。对于分类任务，输入梯度可以松散地解释为模型认为对其类别预测重要其中，通过基于梯度的优化方法来计算max62B（x +6，y）。最强的防御之一采用投影梯度下降（PGD），迭代地执行以下梯度步骤：6→Proj [6-σsign（r6L（x +6，y））]（4）其中Proj（x）=argmiinσ2B（x）kx-σk.自推出以来，AT已经经历了许多调整。一最近的工作[32]试图通过最大化这些示例和干净样本之间的特征匹配距离来生成更有效的到334平滑损失景观，使模型预测不会受到小扰动的严重影响，[21]建议最小化线性估计之间的差异L，xent（x，y，n）=E（x，y）⇥ ⇤-y>logft（x）（五）和对抗性实例的真实损失值另一项工作，TRADES[33]，通过正则化项来平滑模型的决策边界，减少了自然和对抗样本的非对抗性训练严密防守链接我们的方法，有一条工作线，规范化的，其中x2Rhwc用于h×w-具有c个通道的大小为h的图像y2Rk是k个类的独热标签向量为了在教师模型中保留鲁棒的学习表示[26]，我们冻结所有权重并替换最终的logits层以进行微调。将冻结重量表示为将新的logits层设为logit，教师模型微调目标为使用梯度来增强鲁棒性。那些现有技术[23，12]集中于使用双反向传播[5]来最小化⇤logit = argminLxent（z（x，y），y，logit）（6）logit输入梯度的Frobenius范数。这些方法旨在约束单个像素处的变化对分类器的输出的影响，而不是对分类器的整体语义的影响其中z（x，xf）表示logit层之前的隐藏特征在对目标任务上的logits层进行微调之后，所有教师模型像我们的方法一样输入梯度。 [3]显示模型可以在正则化以产生输入梯度时更鲁棒包括logit与输入图像相似的图像。最近的几种方法属于可证明的防御类别，旨在为神经网络的子集绑定最小对抗扰动[10，22，30]。这些防御通常首先找到对抗扰动的理论下限，并在训练过程中优化该下限，以提高对抗鲁棒性。4.2. 输入梯度匹配输入梯度匹配的目的是训练学生模型生成语义上类似于教师模型的输入梯度输入梯度的特点是如何损失值是由每个输入像素的微小变化的影响。我们将目标任务数据集Dtarget上的学生模型fs的分类交叉熵损失表示为：稳健性转移有一种工作表明鲁棒性可以从一个模型转移到另一个模型。[11]显示对抗训练的鲁棒性可以是不确定的。L，xent（x，y，）=E（x，y）⇥ ⇤-y>logfs（x）（七）证明模型是否是从其他领域的任务中预先训练的。另一项工作表明，经过对抗训练的学习鲁棒的特征提取器可以直接被转换为通过梯度反向传播，学生模型fs是Σ通过在顶部J（x）：=rL=@L，xent· ··@L，xent（八）这是一个[26]。避开对抗性训练，这些转移的模型仍然可以保持高度sxn，xent@x1@xd跨任务的鲁棒性。与我们的方法不同，这两个工作要求源模型和目标模型都具有相同的模型架构，因为预训练的权重是其中d = hwc。相应地，教师模型的输入梯度ft是直接转移。4. 输入梯度对抗匹配Jt（x）：=rxL，xent=@L，xent@x1···Σ@L，xent@xd（九）我们提出的训练方法包括两个阶段：1）在目标任务上微调鲁棒的教师模型和2）在学生模型的训练过程中对输入梯度进行对抗性正则化4.1. 微调教师分类器第一阶段涉及微调目标任务上的教师模型的权重。将模型权重参数化为f，微调阶段最小化目标任务训练数据（x，y）上的交叉熵损失。D目标：ƒ3354.2.1对抗性正则化为了实现训练学生模型的输入梯度J s以类似于来自教师模型J t的输入梯度的目标在我们的例子中，我们训练fs，使它很难区分Jt和Js。输出值fdisc（J）表示J来自教师模型ft而不是fs的概率。为了训练fs以产生f盘感知为Jt的Js，我们采用以下对抗损失：33622焦油焦油焦油焦油焦油Ladv=EJt[logfdisc（Jt）]+EJs[log（1-fdisc（Js））] （10）将该正则化损失与等式（7）中的分类损失函数Lxent组合，我们可以通过随机梯度下降（SGD）进行优化以如下近似fs的最佳参数✓ λ=argmin（Lλ，xent+λadvLadv）（11）✓其中λadv控制输入梯度对抗正则化项在训练中占主导地位的程度。相比之下，fdisc通过最大化adversar-ial损失项来学习正确区分输入梯度使用$参数化f盘，也可以使用SGD对该函数进行训练$max=argmaxLadv（12）$4.2.2重构正则化除了对抗损失项之外，我们还采用一个项来惩罚从同一输入图像生成的Js和Jt之间的l2差异图2：输入梯度对抗匹配（IGAM）的训练阶段。算法一：输入梯度对抗匹配输入：目标任务训练数据Dtrain，教师模型ft、学生模型fs和学习率fdisc：（k，k，k）对于每次微调迭代，样本（x，y）CXD序列L，xent→ -y>logft（x）d分类损失logit→logit-rlogitL，xentd更新教师ft以最小化Lt，xent对于每次训练迭代，样本（x，y）CXD序列Lθ，xent→-y>logft（x）d教师的分类损失Jt→rxLθ，xentd计算教师输入梯度Lθ，xent→-y>logfs （ x ） d 学生的分类损失 Js→rxLθ ， xentd计算学生输入梯度Ldiff=kJs-Jtk2（十三）Ladv→logfdisc（Jt）+ log（1-fdisc（Js）） d损失的Ldiff 这一术语类似于额外的reversal。Ldiff→kJs-Jtk2dl2惩罚损失在VAE-GAN设置[14]中，它已被证明可以提高性能。对于IGAM中的每个给定输入图像（x），存在用于学生模型的J s匹配的对应目标输入梯度Jt将该项与等式11相加，学生模型的最终训练目标为✓ →-rθ（Lθ，xent+λadvLadv+λdiffLdiff）d更新学生fs使Lθ，xent，Ladv和Ldiff最小化$→$+rφLadvd更新f盘以最大化Ladv✓ L= argmin（L+ λL+ λL）（14）0焦油 =A·xtar+b（15）✓，xent✓AdvAdvdiffdiff其中x0、b 2 Rdsrc、xtar 2 Rdtar和A 2 Rdsrc双头tar。其中λdiff决定l2惩罚项的权重随后，交叉熵损失为教师模型可以计算：在训练中。图2显示了IGAM培训阶段的摘要L，xent（xtar，ytar，x2）=E（x，y⇥⇤）-y>logft（x0）（十六）而算法1详细描述了相应的伪码。4.3. 不同输入尺寸在前面的部分中，我们假设教师和学生模型的输入维度是相同的。回想一下，在微调之前，教师模型ft最初是在源任务样本（xsrc，ysrc）上训练的，其中每个xsrc是具有csrc通道的hsrc大小的图像在实践中，图像尺寸可以不同于任务目标的尺寸，即，dsrc6=dtar.为了允许通过输入梯度对损失进行梯度反向传播，我们使用仿射函数来调整目标任务图像由于仿射函数是连续可微的，我们可以反向传播以获得输入梯度：Jt（xtar）=rxtarL，x ent（17）我们在实验中使用了一系列这样的转换，以满足不同的源-目标数据集对的输入维度的差异。4.3.1输入调整大小图像缩放是一种这样的变换，其中调整大小的图像可以表示为仿射函数的输出要匹配教师模型的输入层的维度问题，即，x0的老师学生盘X焦油337=A·xtar. 如果老师338255焦油焦油模型dtar> dsrc，我们可以使用平均池来缩小图像。当dtar是dsrc的倍数时，2 × 2平均池化等效于使用双线性插值法的x2。图3a显示了我们如何使用输入梯度从教师模型生成对于dtar dsrc.裁剪后的图像是x0=A·xtar的输出，其中A是行截断的单位矩阵。对于输入裁剪，初始Jt将在图像被裁剪出的区域处具有零值，因为那些像素值被乘以零。为了防止该函数利用该属性来区分Jt和Js，我们将被裁剪为大小dsrc的Jt和Js送入判别器。图3b显示了我们如何使用裁剪来从教师模型生成裁剪的输入梯度。4.3.3输入填充与裁剪相反，填充可用于dtar

下载后可阅读完整内容，剩余1页未读，立即下载