黑盒检测下限制有限信息和数据的后门攻击

18 浏览量更新于2023-10-15 收藏 855KB PDF 举报

深度神经网络

图像分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16482信息和数据有限的后门攻击黑盒检测董银鹏1，3，肖扬1，邓志杰1，庞天宇1，肖子豪3，苏航1，2，朱军1，2，3*1个部门的Comp. Sci.技术，清华-博世联合机器学习中心1清华大学THBI实验室BNRist中心，北京，1000842中国广州琶洲实验室，510330 3 RealAI{dyp17，yangxiao19，dzj17，pty17} @ mails.tsinghua.edu.cn，zihao. realai.ai，{suhangss，dcszj} @ tsinghua.edu.cn摘要尽管深度神经网络（DNN）近年来取得了快速发展，但它们在对抗性环境中很脆弱恶意后门可以通过中毒训练数据集来嵌入模型中，其目的是使受感染的模型在出现特定触发器时在推理过程中给出错误的预测为了减轻后门攻击的潜在威胁，已经提出了各种后门检测和防御方法然而，现有的技术通常需要中毒的训练数据或白盒模型的访问，这在实践中通常是不可用的。在本文中，我们提出了一个黑盒后门检测（B3D）的方法来识别后门攻击，只有查询访问模型。我们引入了一个无梯度优化算法来对每个类的潜在触发器进行逆向工程，这有助于揭示等级“Road存在后门攻击。除了后门检测，我们还提出了一个简单的策略，使用确定的后门模型可靠的预测。广泛反向触发极限（50）...对”...在几个数据集上训练的数百个DNN模型上的实验证实了我们的方法在黑盒设置下对各种后门攻击的有效性。1. 介绍尽管深度神经网络（DNN）在各种模式识别任务中取得了前所未有的成功[17]，但这些模型的可靠性在对抗性环境中受到了极大的挑战[2，5]，其中对手可以通过恶意攻击导致受害者模型的意外行为。例如，对抗性攻击[4，13，18，42]对自然示例施加不可感知的扰动，目的是在推理过程中误导目标模型。与对抗性攻击不同，后门（特洛伊木马）攻击[9，19，33]旨在通过将有毒样本注入其训练数据来将后门嵌入DNN模型中。在-*通讯作者。图1：后门攻击和检测的图示。通过指定目标类别和触发模式，对手毒害了一部分训练数据，以标记触发器并将标签更改为目标。在推断期间，模型正常地预测干净的输入，但将触发的输入错误地分类为目标类。我们的检测方法逆向工程的潜在触发器为每个类，并判断是否有任何类引起一个小得多的触发器，它可以用来检测后门攻击。受影响的模型在干净的输入上正常执行，但是当嵌入的后门被后门触发器激活时，例如输入中的小模式，模型将输出对手期望的目标类，如图所示1.一、由于许多训练数据和计算资源不足的用户希望将训练过程外包或利用来自第三方的商业API来解决特定任务，因此具有恶意目的的机器学习服务的供应商可以轻松地利用DNN的漏洞来插入后门[9，19]。从行业的角度来看，后门攻击是最令人担忧的目标类别：触发器：洁净样本标记为“停止”的样品...火车...中毒样品无触发器的输入带触发器的输入DNN模型“Speed“Road““检测培训推理设置16483无障碍训练阶段推理阶段[6、7、43、47][32、35、49][20、22、24、36、45][8、10、11]B3D（我们的）B3 D-SS（我们的）白盒模型中毒的训练数据清洁的验证数据✓✓✗✓✗✓✓✗✓✓✗✗✗✗✓✗✗✗表1：各种后门防御所需的模型和数据可访问性我们在第二节中详细介绍了一些最相关的防御措施二、使用机器学习系统时的安全威胁[29]。由于这些威胁，已经做出了巨大的努力来检测或防御后门攻击[7，14，16，20，27]。32、36、43、45]。尽管取得了进展，但现有的后门防御依赖于模型和数据可访问性的强假设，这在现实世界中通常是不切实际的。一些训练阶段的防御[7，43]旨在识别和删除训练集中的中毒样本，以减轻它们对训练模型的影响然而，这些方法需要访问中毒的训练数据，这在实践中通常是不可用的（因为供应商由于隐私问题而不会发布其机器学习服务的训练数据）。另一方面，一些推理阶段防御[8，20，36，45]试图通过基于梯度的优化方法对触发器进行逆向工程，然后基于反向触发器来决定模型是正常的还是虽然这些方法不需要中毒的训练数据，并且可以应用于任何预先训练的模型，但它们仍然需要白盒模型的梯度在这项工作中，我们专注于一个黑盒设置，其中既不能获取中毒的训练数据，也不能获取白盒模型，而只有查询访问模型是可实现的。黑盒设置的理由。虽然黑盒设置的努力要少得多，但我们认为这种设置在机器学习服务的商业交易中更现实例如，许多组织（例如，政府、医院、银行）购买应用于一些安全关键应用的机器学习服务（例如，面部识别、医学图像分析、风险评估）。这些系统可能包含由供应商、联邦学习的参与者甚至是在网上发布有毒数据的人注入的后门[1，19]。由于智能属性，基于典型的机器学习即服务（MLaaS）场景，这些系统通常是黑盒的，这样的设置阻碍了用户利用现有的防御方法检查在线服务的后门安全性。即使白盒系统可用，组织也可能没有足够的资源或知识来检测和减轻潜在的后门。因此，他们应该客观地要求第三方进行后门检查，但出于隐私考虑，仍然需要以黑箱方式进行。因此，在信息和数据有限的黑箱环境下开发先进的后门防御势在必行。在本文中，我们提出了一个黑盒后门检测（B3D）的方法。类似于[45]，B3D将后门检测公式化为优化问题，其使用干净的数据来解决，以逆向工程每个类别的潜在触发，如图所示。1.一、不同的是，我们通过采用无梯度算法来解决这个问题，该算法仅通过模型查询来最小化目标函数此外，我们证明了B3 D的适用性时，使用合成样本（表示为B3 D-SS）的情况下，用于优化的干净的样本是不可用的。我们在几个数据集上进行了广泛的实验，以验证B3 D和B3 D-SS在数百个DNN模型上检测后门攻击的有效性，其中一些模型是正常训练的，而其他模型是后门的。我们的方法实现了可比的，甚至更好的后门检测精度比以前的方法的基础上模型梯度，由于适当的问题制定和有效的优化程序，如第二节中详细说明。3 .第三章。除了后门检测之外，我们的目标是减轻在受感染模型中发现的后门在黑盒设置下，不能采用典型的重新训练或微调[32，43，45因此，我们提出了一种简单而有效的策略，该策略拒绝任何带有可靠预测的触发器的输入，而无需修改受感染的模型。2. 相关工作后门攻击。后门攻击的安全威胁首先在BadNets[ 19 ]中进行了研究，它通过将触发器注入一些样本并将相关标签更改为指定的目标类来污染训练数据，如图所示。1.一、Chen等人[9]研究弱威胁模型下的后门攻击，其中对手不知道训练过程，触发器很难注意到。木马攻击[33]通过最大化某些选定神经元的激活来生成触发器。最近，许多后门攻击[34，39，44，48，50]被提出。还有其他方法[15，37]修改模型权重而不是训练数据来嵌入后门。后门防御。为了检测和防御后门攻击，已经提出了许多策略。例如，Liuet al. [32]使用修剪和微调来抑制后门攻击。几种训练阶段方法旨在区分训练数据集中的中毒样本和干净样本[43]。Tran等人[43]对特征的协方差矩阵进行奇异值分解16484··联系我们∈ D}A∈{}D{|一D D∈D \ D ∪ D联系我们D{}这种表示基于后门攻击倾向于在协方差中留下频谱特征典型的推理阶段防御旨在通过恢复每个类的触发器来检测后门攻击。神经清洗（NC）[45]和一些后续方法[20，22]制定优化问题以生成所有现有的方法都依赖于模型梯度来执行优化，而我们提出了一种新的方法，而不使用模型梯度下的黑盒设置。最近的一项工作[8]也声称执行“黑盒”后门检测。它的我们在表1中总结了各种后门防御所需的模型和数据可访问性。后门学习的调查可以在[31]中找到。3. 方法我们首先提出的威胁模型和问题公式化。然后，我们详细介绍了所提出的黑盒后门检测（B3D）方法。最后介绍了一种简单有效的安全策略来缓解安全漏洞中的后门攻击五、大多数研究的设置，我们的方法也可以使用在各种威胁模型与实验支持（节。4.4）。防御者：我们为防御者考虑一个更现实的黑盒设置，其中中毒的训练数据集和白盒模型无法访问。防御者只能将训练好的模型f（x）作为一个oracle来查询，以获得它的预测，但不能获得它的梯度。我们假设f（x）输出所有C类的预测概率。防御者的目标是区分f（x）是否为正常或后门给定一组干净的验证图像或者在干净图像不可用的情况下使用合成样本。3.2.问题公式化如[45]中所讨论的，如果一个模型需要比其他未感染的模型小得多的修改才能导致目标类的错误分类，则原因是对手通常想让后门的扳机不显眼。因此，防御者可以通过判断任何类是否需要针对错误分类的显著较小的修改来检测后门模型。由于防御者不知道触发模式（m，p）和真正的目标类yt，每个类c的潜在触发可以通过求解3.1.威胁模型为了让大家清楚地了解我们的问题，我们在-minm，pxΣi∈X. 。c，f（A（xi，m，p））Σ +λ·|M|Σ，（2）从敌方和防御方的角度介绍了威胁模型。该adver-sary的威胁模型类似于以前的作品[19，27，43，45]。对手：作为机器学习服务的供应商，对手可以在训练期间在DNN模型中嵌入后门给定训练数据集=（xi，yi），其中Xi[0，1]d是图像，y是1、…C是地面--事实标签，对手首先修改火车的比例使用样本，然后在中毒的数据集上训练模型特别地，对手可以插入特定的触发器（例如，一个补丁）到干净的图像x使用通用形式[45]作为x′≡ A（x，m，p）=（1−m）·x+m·p，（1）其中是应用触发器的函数，m0，1d是决定触发器位置的二进制掩码，以及p[0，1]d是触发模式。攻击者获取一个包含 r% 训练样本的子集，并创建中毒数据p′=（x′i ，yi′ ）x′i=（xi，m，p），yi′=yi t，（xi，yi）′，其中yi t是对手指定的目标类。最后，在中毒的训练数据集（’）p′。如果模型能够以高成功率将触发图像分类为目标类，则后门攻击被认为是成功的，而其在干净测试图像上的准确性与正常模型相当。虽然我们介绍了最简单和其中X是用于解决优化问题的干净图像的集合，是交叉熵损失，并且λ是平衡参数。优化问题（2）寻求同时生成触发（m，p），其导致干净图像到目标类别c的误分类，并且最小化由m的L1范数测量的触发大小。神经清洗（NC）[45]将二进制掩码m放宽为在[0，1]d中连续，并通过动态调整 λ 来解决 Adam [26] 的问题（2），以确保超过99%的干净图像可以被错误分类。针对每个类别c1，…，c2，…，c3，…，c4，…，c5 ， … ， c6 ， … ， c7 ， … ， c8 ， … ， c9 ， … ，c10，…C顺序在获得所有类的反向触发器之后，我们可以基于离群点检测方法来识别模型是否已经被后门化，如果优化的掩码m具有小得多的L1范数，则该方法将类视为感染类。如果所有类诱导相似的L1范数的面具，该模型被认为是正常的。NC采用中位绝对偏差（MAD）虽然最近的方法属于这个防御类别[8，20，22，36]已经提出了更好的触发恢复和离群值检测，所有这些方法都需要访问模型梯度，以优化触发。相比之下，我们提出了一种解决优化问题（2）的创新方法，该方法可以在没有梯度的情况下以黑箱方式操作。1以往的后门攻击大多采用小补丁作为后门触发器。因此，L1范数是触发器大小的适当度量。16485FFFFFJF|MpKkσ←←标准差|MpθmMpK1JM12p1pp=g（p）=g（θp+σε）∇联系我们3.3. 黑盒后门检测（B3D）我们让（m，p;c）表示等式中的损失函数。（2）为了符号简单。在黑盒设置下，目标是在不访问模型梯度的情况下最小化（m，p;c）通过向训练模型f（x）发送查询并接收其预测，我们只能获得（m，p;c ）的值。我们提出的算法是由自然进化策略（NES）[46]，一种有效的无梯度优化方法的动机。类似于NES，我们算法的关键思想是通过使用其参数上的估计梯度来学习搜索分布，以获得更好的损失值。算法1黑盒后门检测（B3D）输入：一组干净图像X;目标类c;等式（1）中的损失函数。表示为（m，p;c）;在等式（2）中定义（4）;高斯标准差σ;样本数k;迭代次数T。输出：搜索分布π的参数θm和θp。一曰：初始化θm和θp;2：对于t=1至T，do第三章：gm0，gp0的整数;第四章：从X随机抽取一个小批量Xt;第五章：forj=1tokdo▷估计θm的梯度6：画mjBern（g（θm））;但不同的是，我们不采用自然梯度2和7：gm←gm+F（mj，g（θp）;c）·2（mj−g（θm））;优化涉及离散和连续变量的混合（即，p和m，这是很难解决的[21]。为了解决这个问题，我们建议利用离散分布-8：结束9：对于j=1至k，▷估计θp的梯度10：绘制j N（0，I）;一个连续的一个到模型P，十一：gp←gp+F（g（θm），g（θp+σj）;c）j;从而产生用于优化的新算法。特别地，我们不是最小化（m，p;c），而是最小化搜索分布下的期望损失为min（θm，θp）=Eπ（m，pθ，θ）[（m，p;c）]，（3）θm，θ p12：结束13：通过θmAdam更新θ m。step（θm，1gm）;14：由θpAdam更新θ p。step（θp，1g（p））;15：结束其中π（m，p|θm，θp）是参数为θ m的分布和θp。在m∈ {0，1}d上定义一个适当的分布π且p∈[0，1]d，设g（·）=1（tanh（·）+1）表示一个非r-在实践中，我们可以通过用k个样本m1 ，…， mkπ1（m|θm）。也有一个期望在2F1（m）. 我们近似为F1（m）≈ F（m，g（θp）;c）.化函数并进行变量变换方法（受对抗性攻击的启发[4，12，30]）因此，梯度θmK J（θm，θp）可以通过下式获得：mBern（g（θ））; p=g（p′），p′N（θ，σ2），（4）1ΣJ（θ，θ）≈F（m）·2（mj=1-g（θ））其中θm，θp∈Rd，Bern（·）是伯努利分布，并且N（·，·）是高斯分布，其中σ是其≈1ΣF（m，g（θ）;c）·2（m-g（θ））。（五）标准偏差通过采用Eq.（4）满足m和p的约束条件，而优化变量θm和θp是无约束的。因此，我们不需要像先前的方法[20，45]那样将m松弛为在[0，1]d中连续实验还揭示了我们的方法和基线之间的不同行为。kjpjmj=1从Eq. （5）通过随机样本估计损失函数来估计梯度，这可以在黑盒设置下通过查询来实现。类似地，我们计算梯度θpJ（θm，θp）为θp J（θm，θp）= |θp）[F2（p）]为了解决优化问题（3），我们需要估计其梯度。注意m和p是独立的，因此=EN（0，I）ΣF2（g（θp+σ））·Σ，我们可以表示它们的联合分布π（m，p|θm，θp）其中F2（p）= Eπ（m|θ角）[F（m，p;c）]。我们重新设置参数-π（m）|θ角）π（p|θ），其中π（m|θ角）表示以…为标准1m’，其中遵循m和π2（p θp）的伯努利分布表示p的高斯变换，如等式（1）中所定义（四）、因此，我们可以估计J（θm，θp）相对于θm的梯度标准高斯分布N（0，I），使表达式更清晰。我们用F（g（θm），p;c）逼近F2（p），并且得到梯度的估计θJ（θm，θp），其中-和θp。为了计算θmJ（θm，θp），我们记为其它k 样品p联系我们kKF1（m）= Eπ2（p|θp）[F（m，p; c）]。然后我们有1ΣKJMMϵ16486ΣΣ≈kσj=1θmJ（θm，θp）=θm Eπ（m，p|θm，θp）[F（m，p;c）]θpJ（θm，θp）≈kσj=1F2（g（θp+σj））·j（六）=θm Eπ1（m|θm）[F1（m）]=Eπ 1（m|θ角M ）[F1（m）θM1Σ=Eπ1（m|θm）F1（m）·2（m-g（θm））。2我们在附录A中解释了为什么不采用自然梯度。在获得估计的梯度之后，我们可以执行梯度下降来迭代地更新搜索分布Klogπ1（m|θm）]F（g（θm），g（θp+σεj）; c）·εj.16487F≥我Kc=1一一一我我kσ j=1我J我JSCc参数θm和θp。我们采用与NC相同的策略，即使用Adam优化器并且在Eq.（2）是自适应调谐的。我们在算法1中概述了所提出的B3D算法。在步骤4中，我们从干净图像集合X中绘制小批量Xt，并基于X t评估损失函数。类似于NC，在我们获得每个类c的反向触发器之后，我们基于掩码的L1范数识别异常值，并且此后如果任何掩码表现出小得多的L1范数，则检测3.4. 含合成样品的B3 D（B3 D-SS）B3D算法以及先前的方法[20，45]的一个限制是依赖于一组干净的图像，这在实践中可能是不可用的为了在没有任何干净数据的情况下执行后门检测，简单的方法是采用一组合成样本。一组好的合成样本应该满足它们通过添加真实触发而被误分类为目标类别，使得真实触发是等式（1）的解。（2）不应存在许多方程的解（2）使得我们可以恢复真实的触发器而不是获得其他不正确的触发器。在实践中，合成样本可以从随机分布中提取，此外，我们需要使这些样本在按模型F（x），因为在它们大多被分类为一个类C的极端情况下，我们的算法将总是基于问题公式（2）为类C生成非常小的触发，而不管C是否是目标类。为此，我们绘制n个随机图像Xc：={xc}n，CIFAR-10GTSRBImageNetNC [45]95.0%百分之一百96.0%TABOR [20]百分之九十五点五百分之一百95.0%B3D（我们的）97.5%百分之一百96.0%B3 D-SS（我们的）97.5%百分之一百百分之九十五点五表 2 ： NC 、 TABOR 、 B3 D 和 B3 D-SS 在 CIFAR-10 、 GTSRB 和ImageNet数据集上的后门检测准确度比较方法。我们将 B3 D 和 B3 D-SS 与神经清洗（NC）[45]和TABOR [20]进行了比较，这是基于模型梯度的典型和最先进的方法。在B3 D和B3 D-SS中，我们将样本数k设置为50，高斯σ的标准差设置为0。1，Adam优化器的学习率为0。05.进行优化直至收敛。我们在附录B中提供了实现细节和对超参数/复杂性的更多分析。在得到分布参数θm和θp后，我们可以通过离散化生成掩模m=1[g（θm）]0的情况。5]和模式为p=g（θp）。为了与基线进行比较，我们在实验中采用了TABOR引入了几个正则化来提高后门检测的性能虽然我们的算法是基于类似于 NC 的问题公式（2），但它可以很容易地扩展到其他问题（例如，TABOR），我们将其留给未来的工作。离群值检测。给定所有类的反向触发器，我们计算它们的L1范数并执行离群值检测以识别非常小的触发器（即，异常值）。我们观察到，由于假设，NC中采用的中位绝对偏差（MAD）在某些情况下表现不佳高斯分布，这并不适用于所有情况，每个类i i=1c和最小化（c，f（xc））关于每个特别是当类C的数量小时。因此，我们认为，我们进一步添加了一个启发式规则来识别小的触发器图像xc，其中（·，·）是跨中心p y损失。在那里-判断L任何掩码的范数都小于ic1因此所得到的合成图像xi将被f（x）分类为c。在黑盒设置下，我们利用类似于Eq.（6）优化xc为xc← xc− η·1Σ（c，f（xc+ δ））·δ，（7）其中η是学习率，δ1，...，δk由N（0，I）。合成数据集由结果组成将所有类别的图像转换为X =X，其进一步用于通过算法1对触发器进行逆向工程。4. 实验数据集。我们使用CIFAR-10 [28]，德国交通标志识别基准（GTSRB）[41]和ImageNet [38]数据集进行实验。在每个数据集上，我们训练了数百个模型来进行全面的评估。其中一些是正常训练的，而其他人则被嵌入了后门。我们将在下面的章节中详细介绍训练和后门攻击设置，并展示我们的方法在各种设置下的有效性。中位数的四分之一。该方法也被应用到NC，以改善基线性能。评价。表2显示了所有方法在三个数据集上的总体后门检测准确度。我们的方法实现了与基线，而依赖于弱假设（即，暗箱设置）进行后门检测，验证了本文方法的有效性。除了粗糙的结果，我们还对每个数据集上的不同方法的性能进行了复杂的分析具体来说，我们考虑四个算法A的后门检测的情况：• 案例I：成功识别后门模型并正确发现真正的目标类，而不报告未感染类的其他后门攻击。• 案例II：成功识别后门模型，但发现针对真实目标类和其他未感染类的多个后门攻击。• 情况III：错误地将正常模型识别为后门，或者错误地发现针对未感染类的后门攻击，不包括后门模型的真实目标类。16488一×个×× ×模型精度ASR方法逆转触发检测结果L1范ASR万一我情况II情况III情况IVNC [45]N/AN/AN/AN/A8/5042/50正常89.30%N/ATABOR [20]B3D（我们的）N/AN/AN/AN/AN/AN/AN/AN/A4/502/5046/5048/50B3 D-SS（我们的）N/AN/AN/AN/A3/5047/50NC [45]0.588百分之九十八点七六40/509/500/501/50后门（1×1触发器）88.35%99.75%TABOR [20]B3D（Ours）B3D-SS（Ours）0.6720.8203.73499.11%百分之九十九点二九百分之九十九点九八36/5036/5035/5013/5012/5015/500/500/500/501/502/500/50NC [45]1.508百分之九十八点八一47/502/500/501/50后门（2×2触发器）88.51%百分之一百TABOR [20]B3D（Ours）B3D-SS（Ours）2.2562.3102.86799.21%百分之九十八点九四百分之九十九点一三44/5047/5047/503/503/502/500/500/500/503/500/501/50NC [45]2.26498.71%49/501/500/500/50后门（3×3触发器）88.57%百分之一百TABOR [20]B3D（Ours）B3D-SS（Ours）2.4933.5213.85698.84%百分之九十八点八七百分之九十六点九七48/5047/5047/501/502/502/500/500/500/501/501/501/50表3：对CIFAR-10的后门检测的结果。对于具有不同触发器大小的正常和后门模型，我们显示了它们的平均准确率和后门攻击成功率（ASR）。对于四种后门检测方法- NC，TABOR，B3 D和B3 D-SS，我们报告的L1范数和攻击成功率的反向触发器对应的目标类，以及在四种情况下的检测结果。• 情况IV：成功识别正常模型或错误地将后门模型识别为正常。下面我们介绍每个数据集的详细结果。4.1. CIFAR-10我们在CIFAR-10上采用ResNet-18 [23]架构后门攻击使用BadNets方法实现[19]。我们考虑大小为11、22和33的触发器。对于每种规模，我们使用不同的触发器和目标类训练50个后门模型，每个目标类5个模型触发器在随机位置中生成并且具有随机颜色。我们毒害了10%的训练数据。是-11触发器22触发33触发器蒙版蒙版 * 图案蒙版蒙版 * 图案蒙版蒙版 * 图案另外，我们还用不同的随机变量训练了50个正常模型种子，导致总数为200个模型。我们在不使用数据增强的情况下训练了200个epoch。在干净测试集上的准确性和后门攻击表3（第2-3栏）显示了手术率（ASR）为了执行后门检测，NC、TABOR和B3 D采用10，000个干净的测试图像，而B3 D-SS采用1，000个合成图像，每个类100个。在表3中，我们报告了对应于后门模型的真实目标类的反向触发器的L1范数和攻击成功率（ASR）我们还报告了属于四种情况下的后门检测模型的数量。图2、可视化了NC、B3 D和B3 D-SS优化后的原始触发器和反向触发器，并对不同的触发器大小进行了优化。从结果中，我们得出以下发现。首先，NC的反向触发器具有比B3 D和B3 D-SS小的L1这是合理的，因为NC使用梯度执行直接优化然而，由于NC将掩模m松弛为在[0，1]d中连续，因此图1中所示的优化2倾向于具有小振幅。对于B3 D和B3 D-SS，由于我们让m遵循伯努利分布，因此优化的掩模具有更接近0（黑色）或1（白色）的值，这与公式（1）一致。B3D-SSB3dNC原始16489×个图2：在CIFAR-10上通过NC、B3 D和B3 D-SS优化的原始触发和反向触发的可视化。第二，从表3中可以看出，NC错误地将更多的正常模型识别为后门（即，8/50）比B3 D和B3 D-SS。这也是因为NC将掩码m松弛到[0，1]d。因此，NC有时针对未感染的类优化具有小L1范数的掩码，其不类似于真正的后门模式并且被MAD识别为异常值。但是B3 D和B3 D-SS在离散域中执行优化，它们不太容易出现这个问题。我们将在附录C中进一步讨论这一现象。第三，我们发现许多后门模型，特别是那些有11个触发器的模型，可以发现多个后门（即，情况II），如表3所示。我们验证了一个选定的后门模型确实有两个后门图。3 .第三章。因此我们认为通过数据中毒的后门攻击不仅可以影响真正目标类对应的模型的行为，还可以干扰其他未被感染的类。第四，如图所示2，与原始触发器相比，反向触发器可以这表明后门模型将通过泛化原始模型来学习触发器的分布[36]。16490模型精度ASR方法逆转触发检测结果L1范ASR万一我情况II情况III情况IVNC [45]N/AN/AN/AN/A0/4343/43正常98.84%N/ATABOR [20]B3D（我们的）N/AN/AN/AN/AN/AN/AN/AN/A0/430/4343/4343/43B3 D-SS（我们的）N/AN/AN/AN/A0/4343/43NC [45]0.737百分之九十八点九14/4329/430/430/43后门（1×1触发器）98.74%99.53%TABOR [20]B3D（Ours）B3D-SS（Ours）0.5430.9223.079百分之九十九点二四百分之九十八点八六百分之一百19/4310/4312/4324/4333/4331/430/430/430/430/430/430/43NC [45]1.43998.75%27/4316/430/430/43后门（2×2触发器）98.79%百分之一百TABOR [20]B3D（Ours）B3D-SS（Ours）1.7832.2602.351百分之九十九点一五99.04%百分之九十七点九六22/4327/4325/4321/4316/4318/430/430/430/430/430/430/43NC [45]2.26498.71%39/434/430/430/43后门（3×3触发器）98.79%百分之一百TABOR [20]B3D（Ours）B3D-SS（Ours）2.7643.7583.048百分之九十九点二二百分之九十八点八七百分之九十四点八七35/4334/4333/438/439/4310/430/430/430/430/430/430/43表4：对GTSRB的后门检测的结果。对于具有不同触发器大小的正常和后门模型，我们显示了它们的平均准确率和后门攻击成功率（ASR）。对于四种后门检测方法- NC，TABOR，B3 D和B3 D-SS，我们报告的L1范数和攻击成功率的反向触发器对应的目标类，以及在四种情况下的检测结果。分类：0分类：1分类：2分类：3分类：4分类：5分类：6分类：7分类：8分类：9图3：通过B3 D针对CIFAR-10上的真正的目标类是0，但B3D报告了两个对应于类0和9的后门攻击。我们在附录D中提供了对后门攻击的有效输入位置的进一步分析。4.2. GTSRB我们采用相同的模型架构（即，ResNet-18）和后门注入方法（即，BadNets），如CIFAR-10.由于GTSRB有43个类，因此我们为每个类训练一个后门模型，从而导致针对特定触发器大小的43个后门模型我们还训练了另外43个正常模型用于比较。这些模型被训练了 50 个时期。对于后门检测， NC 、TABOR和B3 D采用12630个干净的测试图像进行优化，而B3 D-SS生成4300个合成图像，每个类100关于反向触发器的统计和后门检测准确度的详细实验结果在表4中呈现。观察结果与CIFAR-10一致。我们还发现，后门检测准确率达到100%。我们认为完美的脱-检测准确性在一定程度上取决于类别这使得离群值检测方法能够正确地找到具有更多数据点的离群值。4.3. ImageNet由于原始ImageNet数据集包含超过1400万张图像，很难训练数百个模型16491∼×个×个因此，我们使用10个类的子集，其中每个类具有1，300个图像。测试集由500幅图像组成，每类50幅。这些图像的分辨率为224224我们还采用了ResNet-18模型。为了回来-门攻击时，我们考虑表5中所示的大小为15 × 15的三个预定义模式作为触发器，而不是随机生成的触发器。与CIFAR-10上的实验设置类似，我们使用每个触发器训练了50个后门模型，其中每个目标类的5个模型使用随机位置的触发器对于后门检测，NC、TABOR和B3 D采用500个测试图像，而B3 D-SS使用BigGAN [3]生成的1，000个合成图像，这是由于使用随机ImageNet的高维图像空间中的噪声。我们在ImageNet上展示了后门检测结果表5.我们提出的B3 D和B3 D-SS可以实现与基线相当的性能。与原始触发器相比，反向触发器也表现出不同的视觉外观，如附录E所示。4.4. 更多设置此外，我们通过考虑更多设置来证明B3 D和B3 D-SS的通用性，包括：• 其他后门攻击。我们研究了混合注入攻击[9]和标签一致性攻击[44]，以在BadNets之外插入后门。• 不同的模型架构。除了ResNet模型之外，我们还研究了VGG [40• 数据扩充。我们调查数据增强后门攻击和检测的影响。• 多个受感染的类具有不同的触发器。我们考虑的情况下，多个后门与不同的目标类嵌入在一个模型。• 单个感染类具有多个触发器。我们考虑的情况是，多个后门与一个16492一一一SS.Σ一个D模型精度ASR方法逆转触发检测结果L1范ASR万一我情况II情况III情况IVNC [45]N/AN/AN/AN/A2/5048/50正常88.46%N/ATABOR [20]B3D（我们的）N/AN/AN/AN/AN/AN/AN/AN/A1/500/5049/5050/50B3 D-SS（我们的）N/AN/AN/AN/A1/5049/50NC [45]62.09399.11%45/500/500/505/50触发器（Trigger）87.91%九十九点九五分TABOR [20]B3D（Ours）B3D-SS（Ours）57.56986.083120.82299.25%99.14%97.57%43/5043/5042/500/500/500/500/500/500/507/507/508/50NC [45]20.61099.12%50/500/500/500/50触发器（Trigger）87.52%百分之九十九点六八TABOR [20]B3D（Ours）B3D-SS（Ours）22.03523.49724.12499/24%99.09%97.15%47/5050/5044/502/500/506/500/500/500/501/500/500/50NC [45]38.70199.14%48/501/500/501/50触发器（Trigger）87.39%99.94%TABOR [20]B3D（Ours）B3D-SS（Ours）37.49956.63637.253百分之九十九点二百分之九十九点一三百分之九十七点四四46/5048/5049/503/501/501/500/500/500/501/501/500/50表5：ImageNet上后门检测的结果。对于具有不同触发器的正常和后门模型，我们显示了它们的平均准确率和后门攻击成功率（ASR）。对于沉闷的后门检测方法- NC，TABOR，B3 D和B3 D-SS，我们报告的L1范数和攻击成功率的反向触发器对应的目标类，以及在四种情况下的检测结果。目标类嵌入在模型中。由于篇幅限制，这些设置的完整实验将推迟到附录F。5. 减少后门攻击一旦检测到后门攻击，我们可以进一步减轻后门，以保护用户的模型效用。在所研究的黑盒设置下，我们无法修改模型权重，因此无法使用典型的重新训练或微调策略[32，43，45在本节中，我们将介绍一种简单而有效的策略，通过拒绝任何在推理期间加盖后门触发器的对手精心制作的输入来进行可靠的预测假设我们已经检测到后门模型f（x）并发现了真正的目标类yt。目标类别的优化触发器表示为（m，p）。我们的方法背后的基本直觉如下。对于干净输入xc和由对手精心制作的触发输入xa，通过应用反向触发器对xc和（xc，m，p）的预测是极其不同的，而对xa和（ xa，m，p）的预测是相似的。基本原理是xa和（xa，m，p）都具有触发标记，并且被分类为具有相似概率分布的目标类yt因此，对于任意输入x，我们令S（x）=DKLf（x）||f（A（x，m，p））（8）度量模型预测f（x）之间的相似性和f（（x，m，p）），其中KL是Kullback-Leibler散度。如果（x）很大，则x可能是干净的输入，并且否则，X具有标记的触发，其将在没有预测的情况下被拒绝。基于度量（x），我们对干净输入和触发输入执行二进制分类。每个数据集的测试集。我们在表6中报告了所有后门模型的平均AUC分数。使用反向CIFAR-10GTSRBImageNet[16]0.93320.49370.7126核密度[25]0.95850.98740.9328NC [45]0.99480.99620.9812TABOR [20]0.99370.99530.9842B3D（我们的）0.99580.99460.9806B3 D-SS（我们的）0.98560.99240.983316493S表6：在CIFAR-10、GTSRB和ImageNet数据集上推断期间检测触发输入的AUC分数我们使用等式中的度量（x）（8）分别由NC、TABOR、B3 D和B3 D-SS给出的反向触发将性能与其他基线进行比较，包括STRIP [16]和核密度方法[25]。通过任何方法优化的触发，所提出的策略可以可靠地检测触发的输入，实现比替代基线更好的性能[16，25]。6. 结论本文提出了一种黑盒后门检测（B3D）方法来识别黑盒环境下的后门模型通过将后门检测公式化为优化问题，B3D仅使用模型查询来解决问题。B3D也可以与合成样品一起使用。我们进一步引入了一种简单有效的策略来减轻发现的后门，以实现可靠的预测。我们在几个数据集上进行了广泛的实验，以证明所提出的方法的有效性我们的方法达到可比的，甚至更好的性能比以前的方法基于更强的假设。确认本工作得到了国家重点研究发展计划（ No.s2020AAA0104304 ， 2020AAA0106302 ）的资助。科学基金项目（编号）6162010601062061136001 、 62076147 、 U19B2034 、 U1811461 、U19A2081），北京NSF项目（编号：JQ 19016）、北京人工智能研究院（BAAI）、清华-华为联合研究计划和清华研究院（郭强）。16494引用[1] Eugene Bagdasaryan ， Andreas Veit ， Yiqing Hua ，Deborah Estrin，and Vitaly Shmatikov.如何后门联邦学习。在人工智能和统计国际会议上，第2938-2948页，20

下载后可阅读完整内容，剩余1页未读，立即下载