后门扫描中改进触发器反演优化

148 浏览量更新于2023-10-25 收藏 14.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

to derive a small input pattern that can ﬂip clean samples(of a victim class) to the target label. A model is consid-ered having backdoor if an exceptionally small trigger canbe found.133680在后门扫描中改进触发器反演优化0Guanhong Tao，Guangyu Shen，Yingqi Liu，Shengwei An，Qiuling Xu0Shiqing Ma†，Pan Li，Xiangyu ZhangPurdue University，† Rutgers University0{taog, shen447, liu1751, an93, xu1230, panli, xyzhang}@cs.purdue.edu0† sm2283@cs.rutgers.edu0摘要0后门攻击旨在导致一个子模型的错误分类。0通过在输入上印上触发器，后门攻击旨在导致一个子模型的错误分类。后门可以通过恶意训练注入，也可以自然存在。为一个子模型导出后门触发器对于攻击和防御都至关重要。一种常见的触发器反演方法是通过优化来实现的。现有的方法是通过最小化一个掩码来找到一个可以统一翻转一组输入样本的最小触发器。掩码定义了应该扰动的像素集。我们开发了一种新的优化方法，直接最小化单个像素的变化，而不使用掩码。我们的实验表明，与现有方法相比，新方法可以生成需要扰动更少的输入像素的触发器，具有更高的攻击成功率，并且更加稳健。因此，在实际攻击中使用时更加理想，在防御中使用时更加有效。我们的方法也更具成本效益。01. 引言0由于后门的突出威胁，研究人员提出了大量的防御解决方案。0通过将特殊输入模式（称为触发器）印在任意输入样本上，将其转换为目标标签。后门可以通过各种方法注入，例如数据污染[17, 35,40]和神经元劫持[39]，并且在通常训练的模型中也会自然存在，称为自然后门[41]。后者是由于低级特征的分布偏差而引起的，并且可以像注入的后门一样被利用。例如，如果一个人在一个干净的人脸识别数据集中总是戴着一副独特的眼镜，眼镜可能成为诱导对该人的错误分类的触发器。0（a）NC（b）我们的方法0提出了大量的防御解决方案（见第2节）。其中，后门扫描[21, 22, 68, 76]是一种重要的防御类型。许多扫描器[38, 41,59, 65, 75]依赖于触发器反演，该方法利用优化0图1.NC和我们方法的损失景观。x轴和y轴表示两个随机方向上的系数。z轴表示损失值。0大多数现有的触发器反演方法（例如ABS [38]，0K-arm [59]和Tabor[19]）是基于神经净化（NC）[65]构建的，它将触发器分解为扰动向量和掩码。扰动向量表示0对输入应用扰动，掩码确定应用扰动向量的哪一部分。NC将掩码和扰动向量一起最小化，以产生一个小的触发器（详见第3.1节）。由于优化过程中掩码和扰动向量之间的乘法相关性，NC可能陷入局部最优并无法达到最优触发器，即具有高攻击成功率的最小触发器。图1a显示了使用轮廓图的NC的损失景观，其中包含两个随机方向[16, 24,31]，并且（x = 0，y =0）为最优点。观察到损失表面上存在多个低点（局部最优），这阻止了NC达到最优点。此外，NC生成的触发器通常不够稳健，在进行变换时可能变得无效（见第5.3节）。0图2显示了各种生成技术的结果0为正常训练的模型生成自然后门模式1336902k，0% 50k，2% 27k，28% 822，70%0CW（1080m）UAP（23m）NC（9m）Ours（4m）0CW UAP NC Ours 输入目标0图2. 生成的后门比较。在第一行中，后门图像下方的文本表示扰动像素的数量和验证集中所有loggerheadturtle样本的ASR。与方法名称一起显示的值表示触发器生成所需的时间成本（以分钟为单位）。底部两行显示了使用不同方法标记的示例图像，其中第一列给出了受害者类图像，最后一列给出了目标类图像。0从[25]下载的ImageNet上的模型。将这些后门分别盖在海龟图像上可以将其翻转为袋鼠类。第一行显示了各种反转技术生成的后门模式。从左到右，第二行和第三行显示了受害者类样本（第1列），带有后门模式的样本（第2-5列）和目标类样本（最后一列）。第一行的第四和第五张图分别表示由NC生成的触发器及其缩小版本。观察到NC触发器需要扰动27k个像素，并且只有28%的ASR。当我们将NC触发器缩小到822个像素（与我们的触发器相同）时，ASR降至22%。这是因为存在大量局部最小值，就像NC在图1a中的损失曲面上的情况一样。我们在第5节的结果表明，平均而言，当NC触发器缩小到与我们相同的大小时，它们的ASR平均下降了26%。问题陈述。在后门攻击和防御的背景下，优化方法（用于触发器生成）是至关重要的。在本文中，我们说一个方法是好的，如果它生成的触发器（1）小（即扰动像素数量少），（2）具有高攻击成功率（ASR）（可以通过触发器翻转的未见干净样本的百分比），（3）鲁棒（对输入变换），以及（4）计算开销低。一个好的触发器生成方法同时服务于攻击和防御。如果用于攻击，例如为正常训练的模型生成自然触发器以诱导预期的错误分类-0在攻击中，一个小而稳定的触发器使得攻击易于发起并在物理世界中有效。如果用于防御，较小的触发器可以帮助扫描仪更有效地确定模型是否被植入了后门，因为异常小的触发器是注入后门的良好指标[38, 59,65]，并且在模型强化方面具有更好的效果。�0我们提出了一种新颖的优化方法。不再是通过优化扰动向量和掩码的乘积，而是-0通过优化扰动向量和掩码的乘积，我们的方法只优化扰动向量。具体而言，我们利用tanh函数的长尾效应来表示扰动的二进制性质，其中一端表示最大扰动，另一端表示无扰动。我们为每个像素引入两个tanh函数，一个表示正扰动，另一个表示负扰动。如图1b所示，我们的优化方法具有更平滑的损失曲面。观察到损失值沿着山谷向底部的最优点下降。在ImageNet数据集上，我们生成的触发器比NC的触发器小两个数量级，鲁棒性提高了2.73倍，平均ASR提高了20%。我们的方法比NC快2.15倍。图2第一行的最后一张图显示了我们的触发器。它具有最少的扰动像素（822个），在未见验证集上的ASR最高（70%）。我们还与UAP [58]和CW[4]进行了比较（这是从对抗性攻击中改编的另外两种触发器生成方法）。我们的方法快一个或多个数量级。我们的方法的实现公开可用[1]。1337002.相关工作0后门攻击。现有的后门攻击通过在注入后门模式的有毒数据中与目标标签一起使用有意制作的样本来污染训练集，例如补丁攻击[7，17]。为了实现隐蔽性，一种不同类型的后门攻击对带有原始标签的有毒数据施加了不可察觉的扰动，如干净标签攻击[55，57，78]。0不同类型的后门攻击对带有原始标签的有毒数据施加了不可察觉的扰动，如干净标签攻击[55，57，78]。0后门攻击。现有的后门攻击通过在注入后门模式的有毒数据中与目标标签一起使用有意制作的样本来污染训练集，例如补丁攻击[7，17]。为了实现隐蔽性，一种不同类型的后门攻击对带有原始标签的有毒数据施加了不可察觉的扰动，如干净标签攻击[55，57，78]。后门攻击可以针对具有各种应用的模型发起，例如自然语言处理[28，77]，迁移学习[53，66，73]和联邦学习[3，67，71]。0后门防御。为了检测有毒模型[19，22，26，52，72]，现有的工作对后门进行了逆向工程[38，65]，并在对输入扰动时利用有毒和干净模型之间的差异进行反应[21，68，76]。现有技术还检测并拒绝带有后门的输入[5，6，8，10，12，13，34，42，43，60，62，63]。验证方法旨在提供模型不易受到某些类型后门攻击的保证[23，30，64，69]。还有一些工作专注于消除后门[33]，通过修剪受损神经元[37]或利用数据增强技术进行重新训练[74]。0触发器生成的优化方法。NC[65]是一种最先进的方法，我们在整篇论文中对其进行了详细讨论和比较。现有的对抗攻击方法旨在生成每个实例的扰动，例如快速梯度符号方法（FGSM）[15]，投影梯度下降（PGD）[44]，JSMA[51]，CW [4]和SLIDE[61]等。通用对抗性扰动（UAP）[46]旨在生成可以导致一组输入错误分类的全局扰动。我们将其中一些方法扩展为生成触发器（见0（UAP）[46]旨在生成一种全局扰动，可以导致一组输入错误分类。我们将其中一些方法扩展为生成触发器（见下一节）。03.现有的后门优化方法0后门触发器生成及其限制0在本节中，我们详细讨论了NC的优化0在触发器生成中，有一种优化方法（即CW和UAP）在对抗攻击中很受欢迎，因此被应用于触发器生成。我们重点研究它们在触发器生成中的限制。03.1. Neural Cleanse（NC）的优化0如前所述，NC中的优化方法0是触发器生成中最流行的方法。具体来说，它0（a）NC的10次运行中掩码值的分布0（b）ASR与扰动像素之间的关系0图3.在CIFAR-10数据集上所有测试样本中生成的后门的特征0解决以下优化问题。0min m, p0M(x0)，yt0�0+ λ ∙ kmk1, 8x2X，（1）0其中x0 = (1 - m) ◦ x + m ◦ p.（2）0变量m和p分别表示掩码和扰动向量；L(∙,∙)表示主体模型M的交叉熵损失函数；yt是目标标签。直观上，优化的目标是翻转分类结果（损失函数中的第一项）并减小触发器的大小（第二项）。引入掩码使得可以使用优化来减小触发器的大小。然而，它也有一些不良影响。NC必须同时优化由方程2中的◦操作相关的m和p，这是困难的，并导致低ASR和较大的大小。NC倾向于在掩码中产生许多小值，表示相应的输入像素需要稍微扰动。尽管这些值很小，但其中许多不能被设置为零。否则，ASR会降低。这些小而普遍的扰动使得在物理世界中进行攻击变得困难，并且后门对输入转换不具有鲁棒性（请参见第5.3节的结果）。0图3a显示了10个随机运行的掩码值的分布0在CIFAR-10上的ResNet20模型中，使用NC进行随机运行以生成将平面翻转为狗的自然触发器。观察到大部分掩码值都在0到0.1的范围内，这相当于保留原始像素值的90％。在图3b中，我们从生成的触发器开始，逐渐将最小的掩码值设置为0，这相当于逐渐减少扰动像素的数量，并显示ASR随扰动像素数量的变化。NC触发器的扰动像素数量为725，ASR为0.66。根据图3a，其中大部分像素具有较小的值。然而，当扰动像素的数量逐渐减少到150时，ASR开始迅速下降，表明这些像素上的扰动需要保留，即使它们仍然很小。相比之下，我们的触发器只有39个扰动像素，ASR为0.83。除了使物理攻击困难且不稳定外，NC生成的较大触发器在暴露方面也不太有效。(a)(b)(c)133710注入普遍后门和模型强化（见第5.4节和第5.5节）。03.2.CW的优化0对抗领域中存在着现有的优化方法0可以用于触发器生成的攻击，例如JSMA [51]和CW[4]，后者是最先进的。CWL0攻击首先使用L2范数在所有像素上搜索可能导致错误分类的扰动。然后，它使用优化外部的处理步骤来去除每次优化迭代后最不重要的扰动。该算法可以很容易地适应生成后门：我们优化一组输入而不是一个输入。优化的详细信息可以在附录A中找到。0适应的CW优化在一些方面存在一些限制0触发器生成。首先，它非常昂贵。为了确定不重要的扰动，它必须对每个输入的每个像素执行梯度反向传播，并对所有像素的重要性值进行排序。因此，它的速度通常比我们的技术和NC（见第5节）慢两到三个数量级。其次，它的触发器大小的减小是通过外部步骤而不是优化来实现的，并且减小是单调的。因此，如果某个减小步骤不朝向全局最小值，就无法恢复。结果，CW的优化平均产生的ASR较低28.28％，触发器大小较大17.25％，与我们在CIFAR-10上的结果相比（见第5节）。图2的第一行的第一幅图显示了一个CW后门。它的扰动像素数（2k）小于NC（27k），但大于我们的（822）。然而，它的ASR接近于0。它还需要1080分钟来生成，而我们的方法只需要4分钟。03.3.通用对抗扰动的优化0UAP（通用对抗扰动）0UAP [46, 58]生成一个全局扰动，可以0导致一组输入被错误分类。它与我们的目标类似，可以用于触发器生成。详细信息可以在附录B中找到。04.我们的方法0根据我们在引言中的问题陈述0在本节中，扰动像素的数量很小对于后门触发器的生成至关重要。NC使用掩码向量来表示哪些部分的输入受到扰动。然而，它需要优化掩码和扰动向量的乘积，这是困难的。我们提出直接优化扰动向量，而不像NC和CW中那样使用掩码。我们使用tanh函数来表示单个像素的扰动，并使用优化来最小化所有这些函数的总和。tanh函数的长尾效应使我们能够很好地模拟像素值变化的两个端点，即像素要么不发生变化，要么发生变化。0图4.使用不同的双曲正切函数来表示像素扰动的示意图。在(a)中，我们通过将原始像素值加上 1 2 (双曲正切( x ) + 1)来表示正向变化（红线）。在(b)中，我们通过将双曲正切( x )加到像素值上来表示正向和负向变化。在(c)中，我们使用两个双曲正切函数分别表示正向和负向变化。0根本没有变化或者变化幅度任意大（在范围内）。图4a说明了这个概念。y轴表示像素值，x轴表示扰动。前者被归一化到[ − 1 , 1]，后者在( −1 , + 1)范围内。红色水平线表示原始像素值。蓝色曲线表示像素值随着 x的变化而变化的方式。像素值通过添加 102 (双曲正切( x ) + 1) 。需要注意的是，尽管0x 是无界的，双曲正切函数将像素值的变化限制在(0 ,1)范围内。观察到蓝色曲线的长尾部分意味着左侧的大量 x值对应着接近0的像素变化，而右侧的长尾部分意味着那些右侧的 x值对应着最大的变化。曲线的形状和连续性一方面鼓励达到尾部值（以获得较小的损失值），另一方面允许扰动从尾部值恢复，如果需要的话。0然而，仅使用一个双曲正切函数来处理每个像素的扰动只允许0注意到只沿着一个方向变化，要么是正向要么是负向。一个简单的设计是使用一个尾部来表示最大的正向变化，另一个尾部来表示最大的负向变化。也就是说，像素通过双曲正切(x )进行变化。然而，这失去了尽可能多的像素值保持不变的关键优势。图4b说明了这个概念。观察到蓝色曲线倾向于达到最大正向或最大负向。表示0变化的部分（即蓝色曲线和红线的交互）具有陡峭的斜率，因此优化过程不太可能在这一点上稳定。因此，我们的解决方案是为每个像素使用两个双曲正切函数，一个表示正向变化，另一个表示负向变化。图4c说明了这个概念。除了蓝色曲线向上走之外，还有绿色曲线向下走，表示负向变化。与上述简单方法的关键区别在于两条曲线都有一个长尾部分表示零变化，minbp,bn Lours = L2,(4)) + 1+) + 1.(5)positive value change and 12(tanh(bn) + 1) · maxp the neg-ative change, with maxp the upper bound of pixel values(i.e., 255). The function Ph,w sums perturbations at allpixels with maxc the maximum among the three R, G, Bchannels. Parameter � is used to alter the slope of tanhsuch that the optimization is smoother. We empirically set� = 10.A Simpliﬁed Version. Empirically we ﬁnd that when usingtanh in perturbing pixel values (in Equation 4), the opti-mizer continues to have gradient descents from the cross-entropy loss term in Equation 3, which is much more com-plex than the Lpixel term, to variables bp and bn, even whenthe pixel value changes (e.g., 12(tanh(bp) + 1) · maxp) arealready close to 0. This unnecessarily slows down the opti-mization. We hence replace Equation 4 with the following.x0 = clip x + clip(bp · maxp) � clip(bn · maxp) , (6)133720这使得优化过程稳定。如果优化过程需要正向变化，只需沿着蓝色曲线上升并沿着绿色曲线的左尾部停留，反之亦然。形式上，我们有以下优化目标。0正 M ( x 0 ) , y t0+ � ∙ L 像素 , (3)0其中 x 0 = clip0下降0双曲正切( b p ) + 10∙ 最大p0负10双曲正切( b n ) + 10∙ 最大p0和 L 像素 =0正确0最大 c0下降0双曲正切( bp0正 �◆0正确0最大 c0下降0双曲正切( bn0正0变量 b p , b n 2 ( −1 , + 1 ) 分别表示正向和负向扰动； L ( ∙ , ∙ ) 表示主模型 M的交叉熵损失函数； y t 是目标标签； �控制第二个目标的权重。我们根据优化过程中的攻击成功率动态调整 �以更好地平衡这两个目标。操作 clip ( ∙ ) 将值限制在有效的像素值范围内。在公式 4中，10具体来说，我们去掉了b p 和b n上的tanh函数。相反，我们直接将它们与maxp相乘，然后将它们剪辑到有效范围内。这相当于在方程3的交叉熵损失项中使用线性函数而不是tanh，同时保持方程4中的tanh函数。直观地说，clip ( b p ∙ maxp)的形状类似于tanh函数。也就是说，两侧的值为零和最大值，在中间的一个小范围内有一个斜率。因此，方程6近似于0方程4。根据经验，我们发现当用于生成自然触发器时，它使我们的方法更快，并且不会降低生成触发器的质量。它更快是因为剪辑操作防止了不必要的梯度下降。然而，我们还发现在后门扫描期间生成注入触发器时，方程4是必要的（见第5.5节）。我们推测由于数据中毒，中毒模型比干净模型具有更多的非线性行为，这需要一个更平滑的损失函数。具体来说，中毒模型不仅需要学习正常特征和正确标签之间的关系，还需要学习中毒数据和目标标签之间的关系。这要求它们具有比良性模型更复杂的决策边界，因此具有更多的非线性行为。更平滑的函数有助于逃离随着中毒模型的非线性增加而增加的局部最优解。此外，附录K中的我们的消融研究表明，方程5中的tanh始终是有益的。05. 评估0评估是在包括四个数据集的情况下进行的，包括0ImageNet。对于后门扫描，我们利用来自TrojAI竞赛[ 50]的预训练模型，其中包括各种分类任务和模型类型。我们还进行了消融研究，以了解不同设计选择的影响（见附录K）。大多数实验都在配备两个Intel Xeon Silver 42142.20GHz 12核处理器、256 GB RAM和八个NVIDIAQuadro RTX 6000 GPU的服务器上进行。05.1. 实验设置0数据集和模型。我们使用四个数据集：CIFAR-010 [ 27 ], SVHN [ 47 ], LISA [ 45 ]和ImageNet [ 54]。我们还对来自TrojAI竞赛第2-4轮的300个预训练模型（包括干净模型和中毒模型）进行了实验[ 50]。详细信息请参见附录C。基线。我们使用第3节讨论的三种现有优化方法作为基线：NC [ 65 ]，0CW [ 4 ]和UAP [ 58]。我们从验证集中随机选择100个图像作为CIFAR-10和SVHN的生成集，即用于触发器生成的干净图像集。对于ImageNet，由于GPU内存限制，CW只能在50个图像上执行。因此，我们随机选择50个图像作为所有方法的生成集。我们使用90%的ASR作为CW、NC和我们的生成集的阈值。由于UAP可能不会产生高ASR的触发器，我们不使用阈值。由于这些方法的性质不同，很难定义一个统一的收敛准则（阈值）。为了公平比较，我们使用了保守的（即相当大的）优化轮数（1000(a) #Pixels of generated triggers. The last heat map shows how much larger CW triggers are.(b) ASRs of generated backdoors. The last map shows how much higher our ASRs areFigure 5. Comparison of CW and ours for all class pairs on CIFAR-10Figure 6. Comparison of NC and ours on the ASR for all classpairs on the CIFAR-10 datasetepochs) for all the methods. Note that both CW and NCconverge slower than ours. Please see the results on SVHNin Appendix F and the comparison with UAP in Appendix Edue to the page limit.Metrics. We consider the following criteria. The numberof perturbed pixels (#pixels) measures the size of generatedtriggers. The attack success rate (ASR) gauges the percent-age of unseen clean samples that can be ﬂipped by a trigger.For evaluating ASR, we use the whole test set for CIFAR-10 and SVHN, and the whole validation set for ImageNet.We also measure the time cost.5.2. Evaluation on CIFAR-10Comparison with CW Optimization. In this experiment,we use CW and our method to generate natural triggers forall the class pairs for a clean ResNet20 model on CIFAR-10.Figure 5 shows the comparison. Each cell in heat map de-notes the result for a natural backdoor ﬂipping all the testsamples from a victim class (row) to a target class (col-umn). Figure 5a and Figure 5b show the number of per-turbed pixels and the ASRs for CW (the left heat map) andours (the middle heat map), respectively. The right heatmap in Figure 5a shows how much larger the CW triggersare compared to ours. Observe that there are a few classpairs where CW and ours have the same trigger size, such asbird!plane and deer!plane. However, for other pairs, CWhas a signiﬁcantly larger trigger size than ours. For instance,for pair plane!bird, the trigger by CW is 131% larger thanours. Even with a much larger trigger, CW however still haslower ASR (50% vs 79% for plane!bird). This is becauseCW uses an external procedure to reduce the number of per-turbed pixels (removing unimportant pixels based on gi · �ias discussed in Appendix A). Our method converges 10.88times faster than CW on average (see Appendix D).Comparison with NC. NC tends to generate triggers witha large number of small perturbations. The generated trig-gers hence cannot be easily applied in physical attacks. Weconduct two experiments: (1) align the number of perturbedpixels of the NC triggers and our triggers and then comparethe corresponding ASRs; (2) align the ASRs and comparethe trigger sizes. For the ﬁrst experiment, we use the sizes ofour triggers as the reference, and align the NC triggers bygradually removing their smallest perturbations until theyhave the same sizes as ours. We then compare the ASRs ofour triggers and the reduced NC triggers. Figure 6 presentsthe results. Observe that for most class pairs, the reducedNC triggers have less than 50% ASR. In the worst case,NC has only 7.3% ASR (plane!horse). On average, NC13373Table 1. Comparison of different methods on a victim class logger-head turtle (left table) and a victim class Persian cat (right table)from ImageNet. The ﬁrst column shows the target classes. Thesecond column shows the methods. The third/sixth column is thetime cost in minutes and the fourth/seventh column the number ofperturbed pixels (#Pixels). The ﬁfth/eighth column shows ASR onthe samples from validation set.T MethodTime #PixelsASRSnowbirdCW845.5718490.00%UAP21.19501710.00%NC9.1926032 60.00%Ours4.35432 72.00%RobinCW1039.7216740.00%UAP21.77501720.00%NC9.1926094 34.00%CW1035.8521500.00%UAP22.94501740.00%NC9.5225977 14.00%CW1079.5421650.00%UAP22.69501732.00%NC9.0226583 28.00%850.4910974.00%22.4450175 10.00%9.3525887 58.00%4.43519 66.00%983.0710632.00%22.8550176 14.00%9.4426358 46.00%4.52433 54.00%882.6513402.00%22.1050174 12.00%9.1025688 44.00%4.35656 54.00%1028.5015030.00%22.52501768.00%9.1029165 54.00%4.35621 62.00%UAP93.16%49.40-8.86%23.69-27.08%NC93.45%75.7739.10%45.5739.69%133740我们的 4.10 467 60.00%0松鸡0我们的 4.02 675 60.00%0袋鼠0我们的 4.27 822 70.00%0时间 #像素 ASR0对于所有类别对，NC的ASR为39.83%，相对于没有减少的情况下的65.52%有所降低。这表明NC触发器中的大量扰动对于良好的ASR非常重要，尽管它们可能具有较小的值。相反，我们的触发器对于所有类别对都比NC的ASR更高。平均而言，我们的ASR为78.22%，甚至高于原始的NC触发器（未经尺寸减小）。在第二个实验中，我们以NC的ASR为参考，然后逐渐删除我们的触发器中最小的扰动，直到它们的ASR下降到与NC相同的水平，然后比较它们的大小。附录G的图10a呈现了结果。观察到，NC的触发器大小比我们的触发器大一个数量级，这表明我们生成的触发器确实扰动了更少的像素。我们还研究了NC的变体ABS[38]用于触发器生成，并在附录G中得出了类似的观察结果。05.3.在ImageNet上的评估0ImageNet有1,000个类别。因此，测试所有类别对是不可行的。0对于所有类别对，特别是CW，它需要超过14小时才能生成一个触发器。因此，我们随机选择了8个类别对进行实验（请参见附录中更多类别对的结果）。表1显示了生成的触发器的质量。观察到，CW生成所有评估的类别对的触发器需要超过800分钟，并且它能够实现的最高ASR是对于cat !snowbird这对的4%。CW生成的触发器的大小小于UAP和NC，但比我们的触发器大一个数量级。UAP比CW快得多，但仍然0表2.不同方法在模型强化方面的比较。前两列表示不同的训练方法和模型准确性。第三和第五列分别显示由NC和我们测量的平均触发器大小。第四和第六列表示改进。0方法准确性攻击 NC 增加 NC 攻击我们增加我们0自然 95.15% 55.11 - 32.83 -0我们的 94.18% 122.79 121.07% 83.24 152.02%0比我们的方法慢一个数量级。其ASR也非常低，最高只有14%。与其他两个基线相比，NC更快，ASR更好（平均为42.25%）。然而，NC的触发器具有超过25k个扰动像素，几乎占整个图像的一半（224 � 224 �50k）。我们的方法所需的时间成本最低，仅需不到5分钟即可生成一个有效的触发器，并具有更高的ASR（平均为62.26%）。与NC相比，我们的触发器小两个数量级，并且ASR高出20%。我们还在桌面上进行了类似于上述实验的实验，以证明我们的方法可以轻松部署在资源有限的机器上（请参见附录H）。我们进一步研究了在各种图像变换下生成的触发器的鲁棒性。结果表明，大多数NC触发器在96%的缩放或2°的旋转后变得无效（ASR接近0%）。我们的方法始终比NC具有更高的ASR（详见附录I）。我们还通过在触发器生成过程中应用变换来研究触发器的鲁棒性。观察结果类似（请参见附录J）。05.4.模型强化0由于干净模型中普遍存在自然后门，因此它0对于模型来说，抵御此类攻击非常重要。我们使用不同方法生成的触发器来加固模型，然后应用NC和我们的方法来为所有类别对生成触发器以衡量改进效果。表2显示了对SVHN的ResNet32模型的结果。观察到我们的方法对平均触发器大小的改进是现有方法（即UAP和NC）的3倍。我们在另外两个数据集和五个模型上进行了评估，观察结果相似。请参见附录L.1中的详细信息。05.5. 后门扫描0我们研究了现有后门扫描器的性能0通过在多边形攻击和三种高级后门攻击中使用我们的触发器反转方法来替换它们的触发器反转方法。0对于多边形后门，我们在300个预训练模型上进行了评估0从TrojAI竞赛中的受污染模型中提取的结果显示，我们的方法可以通过替换其优化组件，将先进的扫描器K-arm[59]的准确性提高2％133750注入的NC（616）我们的（351）注入的0图7.比较TrojAI数据集中受污染模型的注入后门和逆向工程后门。列“注入”显示原始注入的后门。列“NC”和“我们”分别显示由NC和我们生成的后门。括号中的数字表示相应后门的扰动像素数。0表3. 检测新的普遍后门攻击[48]0方法0数据集0MNIST CIFAR-10 GTSRB CelebA0NC 1.51 1.74 1.61 1.030我们的 3.15 2.25 2.59 3.040（基于NC）与我们的方法进行了比较。请注意，原始扫描器的检测准确率已经接近90％，因此2％的改进是非常重要的。我们还在图7中展示了由NC和我们的方法生成的示例后门。左侧的三个图像显示了注入的触发器，NC和我们的反转触发器，右侧的三个图像显示了另一个示例。方法名称旁边的数字表示触发器的大小。观察到我们生成的后门明显小于NC的后门。特别是对于左侧的情况，我们的触发器比NC的触发器小一个数量级。对于扫描器来说，拥有小的反转触发器非常重要，因为扫描器依赖于这些触发器的大小来区分受污染的模型和良性模型。请注意，在TrojAI竞赛中，注入触发器的位置是随机的，以增加触发器的鲁棒性。图7中显示的位置只是其中一种情况。生成的触发器可以位于任何位置。0我们还对三种高级攻击进行了我们方法的评估0高级后门攻击，即WaNet[48]，不可见后门[32]和盲目后门[2]。与简单的补丁后门相比，WaNet和不可见后门的触发器是不固定的。它们的触发器是基于内容的扭曲。盲目后门使用现有扫描器的反向后门进行对抗性训练，使攻击具有鲁棒性。我们使用与原始NC论文中相同的异常指数来检测带有后门的模型，即具有大于2的异常指数的模型被认为是带有后门的。我们从WaNet[48]下载了所有公开可用的预训练模型。表30显示了使用NC和我们的方法对不同模型进行的异常指数检测。我们可以看到NC无

下载后可阅读完整内容，剩余1页未读，立即下载