贝叶斯对抗检测的实用方法——LibRe

96 浏览量更新于2024-01-22 收藏 752KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

972LibRe：一种实用的贝叶斯对抗检测邓志杰1，肖扬1，徐世珍2，苏航1，朱军1*1个部门的Comp. Sci。和技术，BNRist中心、人工智能研究所、清华-博世联合机器学习中心、THBI实验室1清华大学，北京，1000842 RealAI{dzj17，yangxiao19}@ mails.tsinghua.edu.cn，shizhen. realai.ai，{suhangss，dcszj}@ tsinghua.edu.cn摘要尽管具有吸引人的灵活性，但深度神经网络（DNN）在对抗性示例中很脆弱各种对抗性防御策略已被提出来重新解决这个问题，但它们通常表现出有限的实用性，由于universality，有效性或效率的不可克服的妥协在这项工作中，我们支持-图1：给定一个预训练的DNN，LiBRe将其最后几层（不包括任务相关的输出头）转换为贝叶斯，提出了一种更实用的方法，轻量级贝叶斯细化（LibRe），在利用贝叶斯神经网络（BNN）的对抗检测的精神。在贝叶斯原理下的任务和攻击不可知建模的支持下，LibRe可以以较低的成本赋予各种预先训练的任务相关DNN防御异构对抗攻击的能力。我们开发和集成先进的学习技术，使LibRe适合对抗检测。具体而言，我们建立了少层深度集成变分，并采用预训练微调工作流程来提高LiBRe的有效性和效率。我们还提供了一种新的视角来实现面向对抗检测的不确定性量化，而不会在训练期间低效地制作对抗示例。广泛的实证研究涵盖了广泛的场景验证了Li- BRe的实用性我们还进行了彻底的消融研究，以证明我们的建模和学习策略的优越性。11. 介绍深度神经网络（DNN）的蓬勃发展在广泛的工业应用中取得了巨大成功，例如图像分类[23]，人脸识别[9]和对象检测[49]。然而，尽管DNN具有很好的表达能力，但它对对抗性示例非常敏感[56，19]，这些示例是通过在干净的示例上添加人类无法感知的扰动来故意造成错误分类而生成的，部分原因是它们的非线性和黑盒性质。来自ad的威胁-*通讯作者1代码在https://github.com/thudzj/ScalableBDL。并重用预先训练的参数。然后，LibRe启动几轮面向对抗检测的微调，以使后验对预测有效，同时适合对抗检测。在推理阶段，LibRe同时估计输入的预测不确定性和任务相关预测，其中前者用于对抗检测并确定后者的保真度。在广泛的实际系统[51，12]中已经见证了对抗性的例子，这就迫切需要先进的技术来实现稳健和可靠的决策，特别是在安全关键场景[13]中。虽然已经开发了越来越多的方法来处理对抗性示例[41，67，25，18，66]，但它们并非没有问题。另一方面，作为最流行的对抗性防御之一，对抗性训练[41，67]将对抗性示例引入训练中以显式地定制决策边界，然而，这会导致额外的训练开销，并且通常会导致对干净示例的预测性能下降。另一方面，对抗性检测方法通过部署工作流来绕过修改原始DNN的缺点，以便凭借辅助分类器[43，18，66，5]或设计的统计学[14，39]在决策之前检测对抗性示例。然而，它们通常是为特定任务开发的（例如，图像分类[66，31，18]）或特定的对抗性攻击[38]，缺乏有效推广到其他任务或攻击的灵活性通过将对抗性示例视为分布外（OOD）数据的特殊情况，贝叶斯神经网络（BNN）在对抗性检测中表现出了希望[14，37，53]。在理论上，贝叶斯原理下获得的预测不确定度足以检测异质结。贝叶斯子模块• 良性• 对抗性确定性层任务相关预测接受/拒绝973i=1在各种任务中的异构对抗性示例然而，在实践中，没有锐化后验的BNN通常表现出比确定性对应物更差的系统性能[60];相对低成本的贝叶斯推断方法也经常遭受模式崩溃，因此不可靠的不确定性[15]。与DNN相比，BNN在这项工作中，我们的目标是通过克服BNN的上述问题来开发一种更实用的我们提出了轻量级贝叶斯优化（LibRe），如图1所示，以达到预测性能，不确定性估计质量和学习效率之间的良好平衡。具体地说，LibRe遵循随机变分推理管道[2]，但由两个非平凡设计提供动力：（i）为了实现具有高质量结果的有效学习，我们设计了多层深度包围（FADE）变分，这是最有效的BNN方法之一深度包围[30]的核心，同时受到可扩展的最后一层贝叶斯推理[28]的启发。也就是说，FADE只在模型的最后几层进行深度集成，因为它们对确定模型行为起着至关重要的作用，而其他层则保持确定性。为了鼓励不同的集成候选者捕获不同的函数模式，我们为FADE开发了一个随机注入学习原则，这也有利于减少参数的梯度方差。（ii）为了进一步简化和加速学习，我们提出了一种贝叶斯细化范式，在这种范式中，由于FADE和点估计之间然后，我们进行微调，以不断改善FADE后验。这些设计使整个学习过程类似于训练标准DNN，将最终用户从贝叶斯学习的零碎细节中解放出来。正如[22]所揭示的，纯粹从贝叶斯原理获得的不确定性量化对于感知对抗性示例可能是不可靠的，因此必须追求面向对抗性检测的不确定性校正。对于普适性，我们没有对要检测的对抗性示例进行假设，因此我们不能采取将特定攻击制作的对抗性示例集成到检测器训练中的常见策略[39]。或者，我们廉价地创建均匀扰动的示例，并在贝叶斯优化期间对它们要求高的预测不确定性，以使模型对具有任何类型扰动的数据敏感虽然这样的校正会使学习后验稍微偏离真实的贝叶斯后验，但它可以显着提高对抗检测性能。与任务和攻击无关的设计使LibRe能够当面对新任务时，正如我们在第5节中的实证研究所证明的那样。此外，LiBRe具有显著更高的干扰（即，测试）的速度比典型的BNN由于采用轻量级的变。我们可以通过探索并行计算的潜力来实现进一步的加速，从而在相同的设置下提高接近DNN的推理速度从图像分类、人脸识别到物体检测等场景的大量实验证实了这些说法，并证明了LibRe的优越性。我们进一步进行了深入的消融研究，以深入了解所采用的建模和学习策略。2. 相关工作最近，检测对抗性示例以绕过其安全威胁引起了越来越多的关注。许多作品旨在通过应用于统计特征的辅助分类器来区分对抗性示例和非对抗性示例[18，66，5，7，63]。[21]在分类器中为对抗性示例引入了一个额外的类。最近的一些工作利用邻近统计来构建更强大的检测算法：[31]拟合网络响应的高斯混合模型，并在推理阶段采用Mahalanbobis距离进行对抗检测; [39]引入更先进的局部内在维数来描述距离分布并观察到更好的结果。RCE [46]的开发承诺是增强对抗和正常图像之间的距离，以实现基于核密度[14]的检测。然而，上述方法中的大多数都局限于分类范围，并且针对某些攻击训练的检测器可能无法有效地推广到看不见的攻击[38]。贝叶斯深度学习[20，59，2，1，35，26]为我们提供了一种更具理论吸引力的对抗检测方法。然而，尽管现有的BNN设法感知对抗性示例[14，48，53，37，47，32]，但它们通常在训练效率，预测性能等方面受到限制。，因此不能有效地扩展到真实世界的设置。更严重的是，由于缺乏对抗性检测的特定设计，BNN为对抗性示例提供的不确定性估计并不总是可靠的[22]在这项工作中，我们解决了这些问题与精心设计的技术，并建立了一个更实用的对抗性检测方法。3. 背景在本节中，我们通过简要回顾对抗防御的背景来激励轻量级贝叶斯精化（LiBRe），然后描述贝叶斯神经网络（BNN）的一般3.1. 对抗性辩护快速而廉价地赋予一个预先训练的任务依赖通常，令D={（xi，yi）}n表示nDNN能够检测各种对抗性示例以xi∈Rd和yi∈ Y作为输入数据的训练样本974我我22标签，分别。由 w ∈Rp 参数化的深度神经网络（DNN）经常通过最大后验估计（MAP）进行训练：作为近似贝叶斯推理方法的一个谱，变分BNN由于其与标准反向传播的相似性而特别有吸引力[20，2，36，54，55，52，45]。一般来说，在变分BNN中，我们引入一个变分MaxW1年n i=1logp（yi|xi;w）+1logp（w），（1）n分布q（w| θ），并最大化学习的证据下限（ELBO）（按1/n缩放）：其中p（y| x;w）是指DNN模型的预测分布。通过将先验p（w）设置为各向同性高斯，第二项相当于L2（权重de-1）。最大Eq（w| θ）θΣ1年ni=1Σlogp（yi|xi;w）−1nD KL（q（w|θ）φp（w））。（三）cay）的正则化子。一般来说，对应于（xi，yi）的对抗性示例定义为：推理。得到的后验q（w| θ）2为我们提供了稳健预测的机会。为了计算的易处理性，我们通常通过以下方式估计后验预测xadv=x+arg min log p（y|X+δ;w），（2）1吨我我δ∈S我我我p（y|x，D）=Eq（w|θ）[p（y|x;w）]不 t=1 p（y|x;w（t）），（4）其中，S={δ：δ≤}是有效扰动集，其中>0作为扰动预算，并且·作为某个范数（例如，l∞）。广泛的攻击方法已经开发出来有希望解决上述最小化问题[19，40，4，57]，基于梯度或不。对抗性防御的中心目标是保护模型免受对抗性示例xadv的不良决策。一个代表性的工作路线通过使用动态生成的对抗性示例来增强训练数据并迫使模型对他们做出正确的预测[41，67]。但它们有限的训练效率和对干净数据的性能作为替代方案，对抗性检测方法专注于将对抗性示例与正常示例区分开来，以便绕过为对抗性示例做出决策的潜在有害结果[43，5，39]。然而，令人满意的转移到看不见的攻击和任务的图像分类仍然是难以捉摸的[38]。3.2. 贝叶斯神经网络其中w（t）<$q（w| θ），t = 1，.， T表示蒙特卡罗（MC）样本。换句话说，BNN集合了所有可能模型产生的预测，和校准决策，与DNN形成鲜明对比，DNN只关心最可能的参数点。测量不确定性。对于对抗检测，我们感兴趣的是认知不确定性，这是协变量转移的不确定性度量的一个更好的选择是softmax方差，因为它以前在广告方面取得了成功图像分类中的对抗检测[14]和有洞察力的理论支持[53]。然而，模型的softmax输出在推断期间可能不太吸引人（例如，在开集人脸识别中），更不用说不是所有的计算机视觉任务都可以被公式化为纯分类问题（例如，对象检测）。为了使计量方法可靠并适用于各种情况，我们通过温和地假设模型内部的信息流为x→−z→−y，来关注对应于x的隐藏特征z的预测方差。我们利用无偏方差估计器，并通过以下方式将z的所有坐标的方差汇总为标量从本质上讲，区分敌对样本和良性样本的问题可以被看作是一个特殊的分布外（OOD）检测问题。U（x）=1T−1Σ电子邮件t=1z（t）1吨不t=1Σz（t）（2）、（五）安全敏感场景中的典型问题-从这个意义上说，我们自然地将BNN引入到图片中，这归功于它们的原则性OOD检测能力以及与DNN相同的数据拟合灵活性。建模和培训。典型地，BNN由参数先验p（w）和NN实例化数据如- lihood p（D）指定|w）。我们对参数后验p（w）感兴趣|D）而不是DNN中的点估计。众所周知，精确地导出后验是棘手的，这是由于：神经网络的高度非线性。在广泛的其中z（t）表示在参数样本w（t）<$q（w）下x的特征|θ），t=1，.， T，以φ·φ2为φ2范数。同时进行预测和量化，不确定性通过等式（4）Eq.（5）测试时。4. 轻量级贝叶斯精化尽管BNN在理论上很有吸引力，但由于其训练效率、预测性能、不确定性估计的质量以及9752我们使用q（w|θ）等价于p（w| D）在以下情况下，如果没有误导。976−bc=1我我我C我1、Bbc=1−b bb−bCb推理速度在本节中，我们提供了详细和新颖的战略，以减轻这些问题，并建立实践，优化轨迹）。因此，我们主张在随机梯度上升的基础上最大化它的随机估计轻量级贝叶斯精炼（LiBRe）框架。可变构型。在变分最大L=1Σlogp（yi|xi; w（c），w（0）），（7）BNN是变分分布的结构，θ|B|（x，y）∈Bb−b第变分贝叶斯最近的激增使我们能够利用平均场高斯[2]，矩阵变量高斯[36，54]，乘法归一化流[37]甚至隐式分布[33，52]来构建表达和灵活的变分分布。然而，一方面，有证据表明，更复杂的变化- als通常伴随着用户友好性和可扩展性较差的推理过程;另一方面，更多的其中B是随机小批量，并且c是从unif{1，C}中提取的，即，在{1，...，C}。howwev er，intuitiv ely，中文（ 0 ） Le显示出高变异性，−b迭代由于其与C的变化选择的相关性，这对收敛是有害的（见第5.4节和[27]）。为了解开这样的相关性，我们建议用实例样本来代替批量参数样本w（ci.i.d.流行的和更容易接近的变分，如平均场w（ci），c如果{1，C}，i = 1，.，|B|，它确保w（0）高斯，低秩高斯[15]和MC Dropout [17]倾向于集中在函数空间中的单个模式，从而使产生的不确定性估计不可靠[15]。全面考虑的可变行为的每次迭代时的贝叶斯子模块。在形式上，我们解决了以下训练问题：深度包围圈[30]是BNN的一个强大替代方案Σ（0）构建一组参数候选者θ={w（c）}C中的一个或多个条目，该条目maxLθ= |B|logp（yi|xi;wb我W −b）的。（八）分别进行训练，以考虑不同的功能模式，并统一组装其相应的预测进行推理。从概率论的角度来看，（x，y）∈B在这样的学习标准下，每个贝叶斯参数候选者占分配的随机数，分别为：建立变分q（w| θ）=1Cc=1 δ（w −w（c））B的一个分支。这种随机性将被注入到其中δ为狄拉克δ函数。然而，显然，opti-最大化这种变分的参数在计算上是不允许的[30]。受最后一层贝叶斯推理[28]成功的启发，我们建议只转换DNN的特征提取模块的最后几层ResNet-50的最后一个残差块[23]，是贝叶斯层，其参数采用深度集合变分。形式上，将w分解为wb和w−b，它们表示微小贝叶斯子模块的参数，分别对模型中的其他参数进行了修正，设计了多层深包体（FADE）变分法：1摄氏度梯度上升动力学，并作为隐式正则化[42]，导致{w（c ）}C研究不同的权重子空间和理想的不同函数模式。与依赖于随机初始化以避免模式崩溃的深度包围[30]相比，我们的方法更具理论动机且更经济。虽然计算L **和计算L*涉及相同的FLOPS，但要使计算与现代autodiff库兼容并节省时间，–需内核中包含实例专用参数q（w|θ）=δ（w-b-w（c））δ（w-b-w（0）），（6）Cb−bc=1其中θ ={w（0），w（1），.，w（C）}。直觉上，FADE将显著地简化和加速学习，允许将贝叶斯推理扩展到深度架构。ELBO最大化。鉴于FADE变分，我们开发了一个有效的和用户友好的实现学习。同样地，假设各向同性高斯先验作为DNN的MAP估计，则Eq.（3）归结为具有共在w（0）上的系数λ和在w（c）上的系数λ，c =1，...，C，它可以很容易地在优化器内部实现。3然后，我们只需要显式地处理ELBO中的第一项分析估计该项中的期望值是可行的，但可能会妨碍不同的参数候选者探索不同的函数模式（因为它们可能经历类似的3推导是基于将狄拉克分布松弛为具有小方差的高斯分布。有关详细的推导见解，请参见[16B我977贝叶斯子模块。在并行计算的精神，我们求助于群卷积、批处理矩阵乘法等来解决这个问题。由于这些运算符的强大后端（如cuDNN [6]）的支持以及贝叶斯子模块的微小尺寸，因此产生的计算负担比原始DNN大得可以忽略不计对抗示例自由不确定性校正。一个简单的观察是，BNN的上述设计是OOD数据不可知的，使得检测对抗性示例的能力仅由严格的贝叶斯原理赋予然而，作为一种特殊的OOD数据，对抗性示例具有一些特殊的特征，例如，与良性数据的密切相似性以及对黑盒深度模型行为的强烈攻击，这可能很容易破坏基于不确定性的对抗性检测[22]。解决这个问题的一个常见策略是将由特定攻击制作的对抗性示例纳入检测器训练[39]，然而，这是昂贵的，可能会978我我2我在c=1出来{，−b−b bb限制学习模型泛化到看不见的攻击。相反，我们提出了一个对抗性的例子免费的不确定性校正策略，考虑一个超集的对抗性的例子。我们将均匀扰动训练算法1：轻量级贝叶斯精化输入：预训练的DNN参数wt、权重衰减系数λ、阈值γ、权衡系数α1基于w†初始化{w（c）}C和w（0）bc=1−b实例（包括各种对抗性考试-ples）到BNN中并且要求相对高的预测性2构建具有权重衰减λ/C的优化器optb和opt−b对于{w（c）}C和w（0），对他们的不确定性。形式上，与作为训练bc=1−b火车扰动预算，我们扰动一小批数据，通过对于epoch = 1，2，...，Edox=x+δ，δi.i.d.D我我我我 U（−|.|. （九）然后，我们用T= 2个MC样本廉价地计算不确定性度量U，并通过求解以下保证金损失来正则化结果：1个（c）（c）第2条最大R=θ|B| （x，y）∈B最小值一，1 -Zi我2γ），（10）我们希望把所有的C参数候选者都放进ac-充分利用它们的异质性其中z∈（ci， j）指的是x的特征plew（ci， j）={w（ci， j），w（0）}，其中c给定参数sam，i.i.d.新的预测行为，即，T=C。简单地按顺序计算每个参数下的结果可以-b− bi、j{1，C}的唯一性，didatew（c）是可行的，但我们可以实现进一步的加速c i，1/= c i，2，i = 1，...，|B|，j = 1，2. γ是可调阈值，老了令人惊讶的是，这种正则化显着提高了对抗检测性能（参见第5.4节）。通过细化预训练的DNN进行高效学习。虽然从头开始的BNN训练是可行的，但最近的一项工作表明，它可能会导致更差的预测。B通过释放并行计算的潜力。采取以贝叶斯子模块前面的卷积层为例（我们在这里滥用了一些符号）：给定一批特征x∈Rb×i×h×w和C卷积核w（c）∈Ro×i×k×k，c= 1，.，C，我们首先在比一个受过良好训练的DNN更有效的性能[60]。在那里-通道尺寸为C倍，得到x′=Rb×Ci×h×w，因此，考虑到后验参数θ={w（0），w（1），.，w（C）}和它们的DNN对应，并将{w（c）}C连接成w′∈RCo×i×k×k. 然后，我们通过组卷积并行估计结果−b b bx′=conv（x′，w′， groups=C），结果为：我们建议执行成本有效的贝叶斯细化出来在（c）第（1）款基于一个预先训练好的DNN模型，它可以呈现我们的工作-对w（c）的响应是xout=x′[：，co−o：co，. ]中。的更适合大规模的学习。其中预训练DNN参数表示为FADE变分和上述战略之间的合作，egy使我们的推理时间接近DNN的推理时间，w<$w<$b−b}，我们将w（0）初始化为wt，将w（c）初始化为wt，同样的设置（见第5.4节），而只有我们的方法en-享受贝叶斯原理的好处，并能够实现c= 1，...，C. 在此基础上，我们对变量进行微调-在具有适当系数的权重衰减正则化器下最大化L+αR4的参数，以实现ad-对抗检测导向的后验推理。整个算法过程在算法1中给出。这种实用且经济的改进显著受益于开源DNN模型动物园的流行，并且有望通过经过良好评估的预训练微调工作流程来保持非降级的预测推理加速。在学习之后，对BNN的广泛批评是它们需要比DNN更长的推理时间。这是因为BNN利用MC样本的集合来边缘化用于预测和不确定性量化的后验，如等式（1）所示。（4）Eq.（五）、然而，这样的问题是理想地缓解在我们的approach由于采用FADE变分。模型的主要部分仍然是确定性的，允许我们只执行一次前向传播，以到达贝叶斯子模块的入口。在贝叶斯子模块中，4α是指权衡系数。鲁棒的对抗检测。5. 实验为了验证LibRE是否可以快速经济地为预训练的DNN配备各种场景中的原则性对抗检测能力，我们在本节中进行了广泛的实证研究，涵盖ImageNet分类[8]，开集人脸识别[64]和对象检测[34一般设置。我们获取在线可用的预训练的DNN，并继承它们的所有设置用于贝叶斯细化，除非另有说明。我们使用C= 20可以- didates为FADE跨场景。FADE后验通常用于最后卷积块的参数（例如，用于ImageNet和人脸任务的最后一个残差块或用于对象检测的特征输出）。我们取贝叶斯子模块作为用于估计特征方差不确定性的z攻击我们采用了一些流行的攻击来制作102和对于D中的小批量B={（x，y）}，|B|我我 i=156789通过等式估计对数似然Lε。（8）通过等式（1）均匀地扰动干净数据。（九）通过等式估计不确定性惩罚R（10）通过autodiff向后计算L+αR的梯度使用optb opt−b执行一步梯度上升我979100∞威胁模型下的对抗性示例，包括：9802−b方法预测精度↑模型转移下对抗检测的AUROC↑TOP1TOP5PGDMIM蒂姆昏暗地图76.13%百分之九十二点八六----[17]第十七话74.86%百分之九十二点三三0.6600.7230.6950.605LMFVI76.06%百分之九十二点九二0.1250.2000.5100.018MFVI75.24%92.58%0.2410.2050.5040.150Libre76.19%百分之九十二点九八1.0001.0000.9821.000表1：左：准确度比较。右：模型转移下对抗检测的AUROC比较。（ImageNet）方法FGSMBIMC WPGDMIM蒂姆昏暗公司简介BIM-2002公司简介[14]第十四话0.6391.0000.9991.0001.0000.9990.6240.6331.0001.000盖[39]0.8460.9990.9990.9990.9970.9990.7620.8460.9990.999[17]第十七话0.6071.0000.9801.0001.0000.9990.6280.5770.9990.999LMFVI0.0290.9920.7380.9430.9960.9970.0210.2510.9930.946MFVI0.1021.0000.7800.9921.0000.9990.2980.3580.9520.935Libre1.0000.9840.9850.9940.9960.9941.0000.9950.9830.993表2：常规攻击对抗检测的AUROC比较↑。（ImageNet）快速梯度符号法（FGSM）[19]、基本迭代法（BIM）[29]、投影梯度下降法（PGD）[40]、动量迭代法（MIM）[10]、Carlini Wagner&我们将微扰预算设为λ=16/255。我们定好步结构的重量衰减系数λ = 10−4，并根据正常样品通常具有0.5的观察结果，将不确定度阈值γ设为0. 5<。5特征方差不确定性。我们设置α= 1，不进行调谐。我们在每次迭代中对训练扰动budgettrain∈[n，2n]进行均匀采样。我们对E= 6个时期进行微调，大小为1/255，步骤数为20，{w（c）}C的学习率从10−3到10−4bc=1创新方法当攻击BNN时，在EQ中的目标（2）是指等式中的后验预测。（4）T=20。更多的细节将推迟到附录。基线。鉴于许多最近的对抗性检测方法集中于特定的任务或攻击，因此很难有效地扩展到本文中考虑的挑战性设置（例如，模型转移，对象检测下的攻击），我们主要比较了Li-BRe与我们自己实现的基线，包括1）微调起始点MAP; 2）两种标准的对抗检测方法KD[14]和LID[39]，它们都对MAP提取的特征起作用; 3）三种流行的BNN基线MC dropout[17]，MFVI[2]和LMFVI。MC dropout从头开始训练dropout网络，并在推理过程中启用dropout。MFVI是由典型的平均场变分推理训练的，LMFVI是它的一个轻量级变体，只有最后几层被转换为贝叶斯（类似于LiBRe）。MFVI和LMFVI以类似于LibRe的贝叶斯细化方式工作，以进行公平比较。 MC dropout、MFVI和LMFVI是所有未经不确定度校准R培训的人员，特征方差作为不确定性的度量公制。对抗性检测本质上是一种二元分类，因此我们基于原始预测不确定性（对于MFVI，LMFVI，MCdropout和LiBRe）或额外检测器的输出（对于KD和LID）报告接收器操作特征下的面积（AUROC）5.1. ImageNet分类我们首先在ImageNet上检查LiBRe我们使用ResNet-50 [23] archi，其中余弦时间表和w（0）的时间表固定为10−4。为了防御常规攻击，KD和LID需要在来自该攻击的对抗性示例的监督下为每个攻击训练因此，为了显示KD和LID的最佳性能，我们只在相应的对抗性示例上测试训练后的检测器。相比之下， LiBRE 、 MCdropout、LMFVI和MFVI不依赖于特定的攻击进行训练，因此具有检测任何（看不见的）攻击的潜力，这更灵活但更具挑战性。也就是说，它们可以简单地应用于检测模型转移下的对抗性示例，这些示例是针对代理ResNet-152 DNN制作的，但用于攻击训练模型，以进一步评估这些防御的泛化能力。结果见表1和表2。我们还在图2中说明了由LiBRe和基线分配的正常和对抗示例的不确定性。可以直接观察到，与其细化起点MAP相比，LiBRe保持了未降级的预测准确性，同时展示了近乎完美的检测对抗性示例的能力在更困难的模型转换范式下，LibRe的优势尤其明显。图2中的结果进一步证明了LiBRe为对抗性样本分配更高不确定性的能力，以将它们与正常样本区分开来。尽管KD和黄金标准LID获得了模型和攻击的全部知识，但我们仍然可以看到他们的最坏情况5结果与LibRe之间的明显差距。5在评估稳健性时，最坏情况比平均情况更令人关注981(a) LiBRe，ImageNet（b）LMFVI，ImageNet（c）LiBRe，Face（d）MC dropout，Face图2：由LibRe或基线给出的正常和对抗示例的特征方差不确定性的直方图。方法SoftmaxCosFaceArcFace地图MCDLMFVILibre地图MCDLMFVILibre地图MCDLMFVILibreVGGFace20.92560.92540.91980.92460.93700.93700.93600.93760.93560.93340.93580.9348LFW0.99130.98980.99120.98920.99300.99320.99200.99350.99330.99300.99330.9943CPLFW0.86300.86380.86100.85980.89150.88900.89250.89100.88080.88030.88330.8837CALFW0.91070.91100.90870.91200.93270.93450.93330.93520.92920.93000.92500.9283公司简介0.91770.91700.91280.91670.94350.94220.93870.94330.93270.93170.93370.9337CFP-FP0.95230.95430.94800.94890.95640.95670.95830.95970.95870.95860.95540.9573CFP-FF0.98730.98700.98740.98740.99270.99260.99160.99270.99140.99100.99110.9921表3：人脸识别的准确性比较↑。MCD是MC dropout的缩写。粗体表示特定损失函数下的最佳结果。蓝色粗体表示总体最佳结果。攻击SoftmaxCosFaceArcFaceMC脱落LMFVILibreMC脱落LMFVILibreMC脱落LMFVILibreFGSM0.8660.1551.0000.8890.0011.0000.7940.0011.000BIM1.0001.0000.9991.0001.0000.9991.0001.0001.000PGD1.0000.9920.9991.0000.9980.9981.0000.9901.000MIM1.0001.0000.9991.0001.0000.9991.0001.0001.000蒂姆1.0001.0000.9991.0001.0000.9981.0001.0001.000昏暗0.9100.0251.0000.8500.0001.0000.7460.0001.000公司简介0.8600.6591.0000.8250.0140.9990.6600.0020.999BIM-20021.0001.0000.9991.0001.0001.0001.0001.0001.000公司简介1.0000.9960.9991.0000.9991.0001.0000.9941.000表4：对抗性检测AUROC ↑的比较。我们报告了验证数据集的平均AUROC（人脸识别）当考虑最坏情况时，基于不确定性的检测基线MCdropout、LMFVI和MFVI的性能明显优于Li-BRe。值得注意的是，MC dropout在对抗检测方面略优于LMFVI和MFVI，尽管准确性较差我们还发现，LMFVI的性能与MFVI相匹配，支持所提出的轻量级变分概念。因此，我们使用LMFVI作为人脸识别的主要基线，而不是MFVI，因为它的效率。5.2. 人脸识别在本节中，我们关注CASIA-WebFace上更现实的开放集人脸识别[64]。我们采用IResNet-50架构[9]并尝试三种任务相关的损失：Softmax，CosFace [58]和ArcFace [9]。我们遵循[58，9]的默认超参数设置，并将λ设置为5×10−4。我们根据保持的验证集调整一些关键的超参数，并设置γ= 1，α= 100，E=4。我们在每一次迭代中对矩阵rain∈[n，2n]进行均匀采样我们采用与ImageNet相同的优化器设置我们对人脸验证数据集进行了全面评估，包括LFW[24]，CPLFW [68]，CALFW [69]，[50]，VGGFace2 [3]，and CFDB-30 [44].我们在表3、表4和图2的子图（c）和（d）中提供了比较结果。正如预期的那样，LiBRe经常产生与MAP一致的非降级识别准确性。虽然LibRe的主要目标不是提高预训练DNN的任务依赖性能，但令我们惊讶的是，LibRe在CosFace损失函数下表现出了主导性能。关于对抗检测的质量，LibRe也绕过了竞争基线，特别是在最坏的情况下。这些结果证明了LiBRe的通用性和实用性。5.3. COCO上的目标检测然后，我们转向更具挑战性的任务-COCO上的目标检测中的攻击和防御比图像分类中的攻击和防御更复杂和更困难[61]。因此，很少有以前的作品将他们的方法推广到这种情况下。相比之下，LibRe中的任务不可知设计使其易于适用于对象检测，而不会影响有效性。在这里，我们启动实验来识别这一点。我们采用最先进的YOLOV5 [65]对COCO进行实验详细地说，我们设置了λ = 5 × 10−4，γ = 0的实验。02，α = 0。02. 另9820.7790.0350.061 0.065方法对象检测对抗性检测mAP@.5 mAP@.5：.95FGSM BIMPGDMIM地图0.5590.357- ---Libre0.5450.3440.957 0.9360.9720.966表5：物体检测结果。（COCO）设置与面部识别的设置一致。多目标攻击。与普通的分类器不同，对象检测器导出对象的位置以及它们的分类结果。因此，对手需要执行多目标攻击，以使检测到的对象被错误分类或使感兴趣的对象不可检测。具体来说，我们通过最大化来自[65] w.r.t.的两个因素的统一损失来制作对抗性示例。输入图像，这使我们能够重用开发良好的FGSM，BIM，PGD，MIM等。表5显示了结果。LiBRe对四类对抗性样本的检测结果与预期一致，验证了基于贝叶斯原理的对抗性检测机制的普适性。5.4. 消融研究不确定度测量的比较。正如所指出的，特征方差不确定性比广泛的表6：消融研究的AUROC比较。作为参考，LiBRe的结果分别为 1.000 、 0.985 、 0.994 和 1.000 。 SV 是指使用softmax方差作为不确定性度量。UR是指在不确定性正则化 R 下的训练。 L 是指在训练中使用分批 MC 估计。（ImageNet）32.252.1171.50.750地图LibreLMFVIMFVIMC脱落(a) 推理速度比较（b）后验图3 ：左：在一个 RTX 2080-Ti GPU 上估计一小批32个ImageNet实例的后验预测的时间，其中T=20 个MC样本（MAP执行确定性推理，而没有MC估计）。右：学习的FADE后验中候选人之间的相似性。使用softmax variance。但是，它们在对抗性检测中是否具有匹配的有效性？我们在这里回答这个问题。我们基于softmax方差不确定性估计检测各种对抗性示例的AUROC，并在表6的第2-3行中列出结果。值得注意的是，softmax方差带来的检测性能比特征方差差得多。我们将此归因于产生softmax输出的转换积极地修剪与任务相关目标不相关的信息，但这些信息对于限定不确定性至关重要。R的有效性。另一个感兴趣的问题是，妥协的对抗性检测是否执行-LMFVI和MFVI的重要性源于没有不确定性正则化R的朴素训练。为了得到答案，我们训练了LMFVI和MFVI的两个变体，它们将R像LiBRe一样纳入训练。结果见表6第4-5行。这些结果反映了R下的训练确实会显着提高对抗检测性能。然而，这两种变体仍然不如Libre，意味着FADE的至高无上。L的有效性。然后，我们研究了LiBRe的另一个关键设计-为了提供定量分析，我们通过优化L来训练LiBRe，并估计学习模型的对抗检测质量，获得结果见表6第6行。明显比最初的LibRe更差的结果证实了我们在第4节中对L的担忧。推理速度我们将LiBRe的推理速度与图1的子图（a）中的基线进行了比较。3 .第三章。Libre和LMFVI比另一个快几个数量级两个BNN LiBRe只比MAP慢一点，但可以为对抗检测提供不确定性估计。后部的可视化。为了验证我们的学习策略导致后验而没有模式崩溃的说法，我们减少了候选人的维度，通过PCA学习FADE后验，然后计算它们之间的余弦相似度。图3的子图（b）描绘了表示候选多样性的结果。6. 结论在这项工作中，我们提出了一种实用的贝叶斯方法来补充预训练的任务相关DNN，使其具有低成本的对抗性检测能力。该方法提高了对抗检测的效率和质量，同时不影响预测性能。大量的实验验证了该方法的实用性。对于未来的工作，我们可以开发FADE的参数共享变体以提高效率，将LiBRe应用于DeepFake检测等。确认本课题得到了国家重点研究发展计划（No.2020AAA0104304，No.2017YFA0700904）、国家自然科学基金项目（ No.2020AAA0104304 ，No.2017YFA0700904 ）、国家自然科学基金项目（No.2017YFA0700904，No.2017YFA0700904）、国家自然科学基金项目（No.2017YFA0700904）、国家自然科学基金项目（No.2017YFA0700904）、国家自然科学基金项目（No.2017YFA0700904）、国家自然科学基金项目（No.2017YFA070904）和国家自然科学基金项目（ No.2017YFA070904 ）的资助。61620106010，62076147，U19

下载后可阅读完整内容，剩余1页未读，立即下载