后门攻击的频率分析与平滑触发器设计及其检测

170 浏览量更新于2023-10-13 收藏 591KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116473重新思考后门攻击的触发器：频率视角Yi Zeng*1，Won Park*2，Z. Morley Mao2和RuoxiJia11弗吉尼亚理工大学，布莱克斯堡，弗吉尼亚州24061，美国2University of Michigan，Ann Arbor，MI 48109，美国摘要后门攻击被认为是深度学习的严重安全威胁这种攻击可以使模型在具有预定义触发器的输入上异常地执行，并且仍然在干净数据上保持最先进的性能。虽然后门攻击已经从攻击者和防御者双方在图像域中进行了彻底的调查，但到目前为止，本文首先从频率的角度回顾了现有的后门触发器，并进行了全面的分析。我们的研究结果表明，许多当前的后门攻击表现出严重的高频伪影，这些伪影在不同的数据集和分辨率上持续存在我们进一步证明了这些高频伪影能够以98.50%的检测率简单地检测现有的后门触发器，而无需事先了解攻击细节和目标模型。承认以前的攻击的弱点，我们提出了一个实用的方法来创建平滑的后门触发器没有高频文物，并研究其检测能力。我们表明，现有的防御工程可以ben-efit通过将这些顺利触发到他们的设计考虑。此外，我们表明，检测器调谐到更强的平滑触发可以推广到看不见的弱平滑触发。简而言之，我们的工作强调了在设计时考虑频率分析在深度学习中使用后门攻击和防御。1. 介绍后门攻击是这样的攻击，其中对手故意操纵一部分训练数据[11，5]或模型当在测试时间期间引入后门触发器时，中毒模型表现出对手选择的错误分类）。返回-*曾毅和朴元淳贡献相等。门触发器已被证明可以在涉及安全的深度学习服务上执行恶意任务，例如转换停车标志的标签[11]或错误识别人脸[5]，从而带来重大风险。最先进的后门触发器被设计成对人类观察者不显眼。生成这种触发器的一个想法是使用常见对象的模式[18，30]。例如，可以使用眼镜--出现在人脸图像中的常见物体--作为后门的触发器一个面部识别模型，从而将触发因素隐藏生成“隐藏”或“不可见”触发器的另一种方法先前关于后门数据检测的研究要么直接在图像空间中识别离群值[22]，要么基于图像输入分析网络激活[23，20，3，15]。相比之下，我们提供了一个全面的分析频谱在各种现有的触发器和多个数据集。我们发现所有现有的产生包含触发器的样本的想法都表现出严重的高频伪影。我们提供了一个详细的分析的原因，不同的触发器的高频文物，并表明，这些文物源于触发模式本身或插入触发器的方法。基于这些见解，我们证明了频率域可以在训练和测试阶段有效地识别潜在的后门数据。我们建立了一个检测管道的基础上，一个简单的监督学习框架和适当的数据增强作为示范。它可以以98.5%的检测率识别现有的后门触发器，而无需事先了解所使用的后门攻击类型即使当用于训练和测试检测器的数据具有不同的输入分布并且来自不同的数据集时，仍然保持高检测率。考虑到当前触发器在频域中是容易检测的，我们自然的问题是是否可以在没有高频伪影的情况下设计有效的后门触发器（我们将其称为平滑触发器）。216474在下文中为Gers）。生成平滑触发的直接方法是将低通滤波器直接应用于现有然而，在我们的实验中，我们发现这种简单的方法不能达到令人满意的攻击成功率。为了设计更有效的平滑触发器，我们首先将触发器设计问题转化为一个两层优化问题，然后提出了一个实用的启发式算法来创建触发器。我们的实验表明，我们提出的触发优于简单的低通滤波触发。我们进一步研究了触发器的可检测性，并展示了现有的防御工程如何在其设计中从平滑触发器中受益。我们的实验还表明，检测器训练过强，光滑的触发可以推广到看不见的弱光滑触发。总的来说，我们的工作突出了被忽视的频率分析在后门攻击和防御设计中的重要性。我们开放了实验代码的源代码，并欢迎公众为未来的开发做出贡献1。我们的主要贡献概述如下：1）我们对现有后门触发器进行了全面的频域分析，揭示了通常跨不同数据集和分辨率的严重高频伪影。（2）详细分析了这些伪影产生的原因。3）我们证明了采用频率表示检测现有触发器的有效性。4）我们提出了一种实用的方法来生成有效的平滑触发器，该触发器不表现出高频伪影，并提供对其可检测性的可操作见解。2. 相关工作后门触发器生成。对现代深度神经网络的第一次成功的后门攻击是通过BadNets攻击[11]，使用自然图像和混合攻击[5]来证明的。从那时起，已经开发了先进的攻击以提高触发器的有效性和隐蔽性[17]以及各种攻击者模型，例如通过修改模型的参数直接插入后门，最近，Sarka et al.[25]提出利用GANs来合成触发器，以实现更强大的隐身。在这项工作中，我们分析了所有这些在频域中的攻击，并发现他们都表现出高频成分，区分他们从相应的良性未触发的图像。后门数据检测。对于后门数据检测，先前的工作试图直接在输入空间中识别离群值[10]或分析给定输入的网络响应[23]使用输入的深层特征来检测中毒标签。[3]发现正常和中毒数据在最后一次隐藏层激活中产生不同的特征;[28]1https://github.com/YiZeng623/frequency-backdoor提出了一种新的表示法来分类良性和恶意样本;[15]计算影响函数来衡量每个输入[6]使用像Grad-CAM这样的输入显著性图来检测模型是否仅依赖于用于预测的输入的特定部分。而不是专注于模型空间或给定图像的模型响应，我们检查-胺后门数据在频域中，使一个简单但有效的方法来检测后门数据。中毒模型检测。现有的工作还探索了辨别给定模型是否后门的方法。最新的技术使用在各种良性和后门模型上训练的元分类器，并且它甚至在攻击不可知的情况下也能很好地工作[31]。其他流行的技术包括[29]、[4]和[12]，基于从模型参数重构触发器，并基于重构的触发器执行检测。然而，它们对于平滑触发器是无效的，因为它们的重建算法通常假设真实触发器被局部修补到干净图像。我们的工作有助于这条线，证明这些技术可以进一步改进，结合模型，攻击与光滑的触发器。攻击失效。减轻后门攻击的另一种方法是防止后门攻击生效。实现这一目标的一种方法是训练一组模型，并对其预测进行多数投票[16，13，14]。其他技术包括使用差分私有训练算法[8]，以及各种输入预处理[19]和数据增强[1，32]方法来使模型中的后门或样本中的触发器无效。我们的工作是补充这一行的工作，频率分析提供了一个简单而有效的方法来筛选后门数据，并进一步提高防御技术3. 频率伪影今天我们从基于频率的GAN生成的假图像检测[9]的成功中获得灵感，并在频域中检查这些现有的触发。3.1. 预赛我们利用离散余弦变换（DCT）将图像转换到频域。与离散傅立叶变换密切相关，DCT将图像表示为变化幅度和频率的余弦函数本文使用的类型II的2D-DCT，一个标准的工具，采用图像压缩算法，如JPEG。完整的2D-DCT算法见附录。316475≈fα×图1：干净样本与使用触发器修补的样本中最左边的热图(a)描述了使用从CIFAR-10数据集随机选择的10000个样本的小输入空间数据的平均谱（b）中最左边的其余图像显示了使用不同后门攻击触发器修补的图像的平均频率值（b）的所有频率结果使用值限幅和指数计算从1.5到4.5描绘，以更好地可视化。类似于以前的工作[9]，我们将DCT频谱绘制为热图，其中每个像素的幅度表示相应空间频率的系数。热图热图由于DCT的能量压缩能力，当频率增加时，系数的幅度迅速下降自然图像通常将大部分能量集中在低频部分[2，27]。3.2. 使用DCT我们检查了以下触发器的DCT频谱：BadNets白色方形触发器（BadNets）[11]，特洛伊水印（Troj-WM）[18]，特洛伊方形（Troj-SQ）[18]，hello kitty混合触发器（Blend）[5]，自然图像包含语义信息作为触发器（Nature）[5]，l2范数约束不可见触发器（l2inv）[17]，l0范数约束隐藏触发器（10inv）[17]，并且GAN生成假面部特征作为触发器（GAN-Tri）[25]。这组触发器包含了现有作品中设计触发器的两个一般思想：修补公共位置对象的可见图案和注入不可见的扰动。图1比较了干净图像和使用不同触发器修补的图像之间的频谱。这两个热图是用从CIFAR-10（小输入空间）和PubFig（大输入空间）采样的数据生成的。我们遵循[17]的相同设置，并省略PubFig的12inv和10inv我们得到了小输入空间的最优愚弄结果我们省略了CIFAR的GAN-Tri，因为它的输入空间很小，频谱上的干净数据。多个经典研究[2，27]已经观察到，自然图像的平均光谱倾向于遵循1曲线，其中f是沿给定轴的频率，α2。类似于以前的研究结果，我们的结果表明，低频率的贡献最大的图像，和贡献逐渐减少到更高的频率。直观地说，由于颜色主要在图像中逐渐变化，而像素值的突然变化（例如，图像中的边缘）是稀少的，低频分量支配干净数据的频谱。然而，与干净图像的频谱相比，用不同触发器修补的图像都包含强高频分量。我们还评估了其他数据集的光谱热图，包括德国交通标志识别数据集（GTSRB）[26]，中国交通标志数据库2（TSRD）以及插入触发器的高频伪影也我们将在附录中列出这些数据集的结果。3.3. 高频伪影的成因分析在本节中，我们研究了上述严重的、持续的高频伪影的起源。我们从两个角度研究原因，代表生成后门数据的两种方式：附加修补和基于GAN的生成。现有的基于触发器的修补可以可进一步分为两类：本地修补（例如，BadNets、Nature、10inv、Troj-SQ）和大尺寸或全局修补（例如， 12inv ， Blend ， Troj-WM）。本地补丁。局部化的触发器可以被形式化为p=T+mask_orig，其中p是修补的数据，T是触发器，orig是原始图像，并且mask是对应于原始图像的掩模。允许基于GAN的有效触发生成图1中最左边的热图表示DCT2http://www.nlpr.ia.ac.cn/pal/trafficdata/recognition.html316476图2：不同类别的触发器的示例。抑制原始图像的触发区域中的像素值由于时间-频率二元性，局部触发本身可以携带显著的高频分量利用DCT的线性特性，在图像中加入一个触发信号就相当于在图像的频谱中加入触发信号的频谱。因此，修补图像表现出大量的高频分量（图2（a））。大尺寸或全局修补。对于用大尺寸触发器修补的图像，其高频伪影来自相邻像素之间的相关性降低或触发器所携带的固有高频伪影。例如，Troj-WM（图2（ b ））直接将触发器标记到原始数据上，或p=T+orig。由于触发图案与触发附近的原始图像的像素具有低相关性，因此可以使用高频函数来近似修补数据。具有一些小权重的混合攻击（图2（c））补丁使用任意干净图像作为触发器。Blend at- tack的高频伪影是由组合两个不相关的图像引起的，这可能引起相邻像素的较大变化。12inv（图2（d））触发器本质上是高频扰动。因此，将它们修补到干净的图像上将直接在高频域中留下标记。GAN生成的后门数据。GAN-Tri利用利用GAN生成的假面部特征（例如，微笑）来毒害训练数据并进行后门攻击。由于GAN生成器将低维潜在空间映射到高维数据空间，因此上采样广泛用于GAN架构中。先前的工作[9]表明，GAN中采用的上采样操作会导致不可避免的高频伪影。4. 基于频率的后门数据检测本节描述了我们的实验，以证明分析频域可以有效地区分后门数据与中毒数据集。我们使用准确性（ACC）和后门数据检测率（BDR）作为评估指标，以证明干净数据和后门数据之间的分离性更高的BDR意味着更有效地拒绝后门样本。攻击者模型。我们考虑最有效的攻击者模型，其中攻击者具有训练集、推理集和潜在目标模型的全部知识攻击者可以通过用包含触发器的样本毒害训练集或直接修改目标模型的权重以将后门插入DNN来实现后门攻击然后，在推理时间期间，触发器将被修补到干净的样本上，以使模型输出目标标签来完成攻击。4.1. 检测方法及应用场景鉴于先前观察到的现有后门触发器的严重，持续的高频伪影，我们采用监督学习方法来区分干净和后门数据。为了模拟毒物数据，我们操纵干净的样本，以近似触发器可能表现出的高频伪影。然后，我们创建一个训练集，其中包含干净样本和数字操作样本的DCT变换。用于改变清洁样品的数字操作包括：1）随机白色块：将随机大小的白色矩形修补到图像的随机位置上; 2）随机着色块：在随机地点添加随机大小和随机值的矩形; 3）添加随机高斯噪声; 4）随机阴影：在图像上绘制随机形状的随机阴影; 5）无规共混物：从数据集中随机选择另一个样本，将其乘以一个小值，并使用当前数据进行修补。选择这些扰动是因为它们遵循与后门攻击相同的一般方法。每个数字操作的视觉结果可参见附录。基于频率伪影的检测器可以应用于两种攻击场景：毒化训练集或直接调整权重。我们专注于开发一个准确的触发数据检测器，可以有效地拒绝触发器在推理。对于在训练期间使用触发器来毒害模型的场景，也可以在训练期间部署检测器以拒绝潜在的毒害数据。我们的目标是建立一个攻击不可知的检测器与零先验知识的触发模式或目标模型在这两种情况下。这一防御案例是旨在以一种与黑客无关的方式挫败现有后门攻击的最具说服力的场景。当构建我们的检测器时，我们考虑输入空间的差异并研究小的输入空间（例如，CIFAR- 10）和更大的输入空间（例如，PubFig）分开。我们发现，在较大的输入空间（大于160像素的宽度）的攻击触发器更容易线性可分。这个实验的细节显示了输入大小和线性可分性之间的权衡，见附录。附录中还包括有关探测器模型架构和我们的模型消融研究结果的详细信息3164774.2. 结果比较实验装置。本节评估检测框架，假设我们可以完全访问具有与推断数据相似分布的干净数据集。在下面的小节中，我们比较了我们的检测框架在不同数据集上的结果。我们使用每个实验的完整原始训练集来开发DCT处理数据集，该数据集由相等的干净样本和随机样本组成4.3. 转让性本节评估基于频率的检测器向新数据集的可转移性。训练集以与上述实验相同的方式开发。然后，我们测试检测器还测试了在GTSRB上训练的模型和在CIFAR-10上训练的模型到TSRD数据集（表3）的可转移性。扰动样品测试集由一半干净的样本和一半被后门攻击触发器毒害以评估检测器的效率（例如，BadNets，Nature）。测试集中评估的触发因素均不存在于训练集中。表1示出了CIFAR-10、GTSRB和PubFig数据集的结果。在再生的CIFAR-10训练集中有100，000个样本（一半干净，一半随机扰动），并且在CIFAR-10训练集中有20，000个样本。攻击CIFAR-10+调节ACCBDRACCBDRACCBDR重新生成的GTSRB包括70，576个训练样本和25，260个测试样本; 22140个训练样本和2，768个测试样本用于再生PubFig。在没有DCT的图像域中区分样本时的结果也被包括作为比较组。更多详情和使用的模型见附录。表2：使用在GTSRB上测试的不同数据集上训练的检测器的可转移性（%）。表2的列标题指示用于训练特定检测器的训练集。对于最后一列（CIFAR- 10+Tune），我们首先使用CIFAR-10数据集进行训练，然后使用大小为200的数据集（一半干净，一半随机）进行20个扰动，源自100个清洁样品GTSRB测试集）。在现实生活中，由于防御者站在用户BadNets特洛伊木马Troj-SQ性质共混linvlinvcess的推理数据，并微调模型使用100个清洁样品是合理和实用的。请注意，我们用于微调模型的样本并未在所有实验的测试集中使用。GTSRB GTSRB+调节CIFAR-10 CIFAR-10+调节攻击ACCBDRACCBDRACCBDRACCBDR表1：CIFAR-10（顶部）、GTSRB（中间）和PubFig（底部）的检测效率和比较（%）。* 表示使用图像域数据的比较组。结果内置在频率域中的监督检测器导致高 BDR（98.5%平均），如表1所示。然而，图像域检测器（由表1中的 * 表示）不能很好地工作。使用来自PubFig数据集的图像数据与其他两个相比，我们观察到BDR增加，但平均ACC下降，表明PubFig数据集上的BDR改善导致更高的假阳性率。注1. 现有后门触发器中的高频伪影可用于提供准确的检测。与图像域相比，频域可以在不牺牲大量干净样本的情况下更准确地拒绝后门数据。表3：TSRD数据集上的可转移性（%）。当比较原始GTSRB检测器和GTSRB上的CIFAR-10检测器时，我们看到由于两个数据集的数据分布之间的差异而导致的ACC的显著下降然而，通过使用200大小的数据集微调检测器，可以实现更高的ACC，而不会牺牲太多的BDR。对某些攻击的检测效率接近甚至超过了使用原始GTSRB训练集的检测器混合攻击是这里的一个特例，因为微调的结果会恶化。我们提出这背后的主要原因是两个数据集在分布上具有显著差异。在下面的实验中，使用具有更接近分布的成对训练集和测试集来恢复针对Blend的检测缺陷的这种副作用BadNets90.2392.5568.2399.6189.4495.95特洛伊木马93.9610068.4299.9991.47100Troj-SQ93.9399.9468.4099.9691.4499.95性质91.4695.0067.7998.7594.0397.08共混93.6799.4366.5196.1864.4945.67l2投资者93.9610068.4099.9591.4599.97l0投资者93.9399.9468.4199.9891.4699.9920BadNets特洛伊木马Troj-SQ性质共混linvlinvACC94.1098.8598.7698.6697.0098.8598.86BDR90.5099.9999.8299.6196.3099.99100ACC*49.7685.1755.3754.1964.5277.3149.08孟加拉国 *1.3872.1912.5910.2430.9056.460.00ACC90.2393.9693.9391.4693.6793.9693.93BDR92.5510099.9495.0099.4310099.94ACC*48.9257.4348.6149.3580.6389.5348.40孟加拉国 *17.4231.5116.9218.1569.9184.6516.57BadNets特洛伊木马Troj-SQ性质共混甘池ACC97.7499.2999.2999.2999.2993.96BDR96.94100100100100100ACC*53.0552.5557.3560.2962.2750.27孟加拉国 *72.2772.4082.0187.9091.8068.30BadNets57.9986.8377.0187.1061.1798.0182.5389.83特洛伊木马64.5710083.4610062.1610087.1098.97Troj-SQ64.5710083.4610062.1699.9587.5899.93性质60.0991.0383.1199.2959.3094.2879.6183.98共混59.0488.9482.9298.9255.3786.4183.6292.01316478·∗表3给出了评估检测器从GTSRB和CIFAR-10数据集到TSRD数据集的可转移性的结果。由于TSRD数据集的大小有限，我们无法使用附录中提供的目标模型实现令人满意的准确性;因此，TSRD数据集仅用于测试。原始检测器结果与在GTSRB测试数据上评估CIFAR- 10模型的实验相似。在用100个TSRD干净样本（大小为200的数据集）进行微调之后，两种检测器都可以在TSRD数据集上以可接受的ACC实现令人满意的检测结果。值得注意的是，经过微调后，这两种检测器我们认为这是因为数据集之间的分布比CIFAR-10和GTSRB之间的分布更相似。攻击组合组合+调谐ACCBDRACCBDRBadNets64.2889.8880.2889.80特洛伊木马69.3410085.2899.80Troj-SQ69.3410085.3699.95性质64.6790.6683.2995.82共混64.1889.6884.6198.45表 4：使用 TSRD 数据集测试的扩展训练集的可转移性（%）。我们还注意到，在大多数情况下，CIFAR-10检测器在TSRD数据集上实现了比GTSRB检测器更高的准确度，即使CIFAR-10和TSRD具有不同的样本类别。鉴于这两个检测器都是用相同数量的时期和设置训练的，我们推断出可转移性与训练集的大小有关当使用CIFAR-10和GTSRB的组合训练集评估可转移性时，在以下实验中证实了该假设如表4所示，当使用组合数据集时，我们可以看到平均检测效率相对于TSRD数据集的提高备注2. 由于现有触发器的高频伪影在不同的数据集中是通用的，因此可以在频域中检测后门样本的任务中采用迁移学习即使防御者无法访问原始训练集，他们仍然可以通过采用大型公共干净数据集进行迁移学习来有效地检测攻击并在频域中获得令人满意的结果。5. 创建平滑触发器5.1. 问题定义考虑到现有攻击我们总结了generat-将平滑触发器作为双层优化问题：minL（xi+δ，yt;θp）+λΩ（δ;g），（1）δS.T. xi+δ∈ [0，1]n，（2）θp=argminθ（iL（xi，yi;θ）+iL（xi+δ，yt;θ））（三）我们采用SmoothFool [7]中的Ω（;g）来测量输入样本λ是控制平滑度和扰动尺度之间的权衡的拉格朗日系数。等式（1）是试图最小化给定训练的中毒模型的中毒数据的损失和触发本身的粗糙度两者的优化问题。等式（2）确保中毒样本落在从[0，1]开始的合理范围内。等式（3）是训练中毒模型的优化问题，其中θp是中毒模型，并且θ是初始化的目标模型。5.2. 方法有两种方式来实现低通滤波器的平滑度约束。一种方法是迭代地进行搜索，并在满足约束时输出结果。然而，我们发现这种方法在我们的情况下是无效的，因为沿着DNN的梯度进行优化会导致触发器中的局部脉冲，这些脉冲很容易超过约束。因此，我们采用了一种策略，通过更新的平滑触发器与扰动后，仍然低通滤波器的每次迭代，从而满足约束。来自滤波器的扰动的其余部分可以被解释为r=δ g。这里，r是在图像域中与低通滤波器g卷积之后的扰动考虑到等式（2）和触发在通过g之后具有小值的事实，我们采用最小-最大缩放器M作为归一化过程以将毒物数据重新映射到图像的有理范围[0，1]上。我们认为，归一化可以更好地保持平滑触发器的每个像素之间的相对比例，并更好地保持作为后门触发器的功能，而不是使用其他作品中完成的刚性值裁剪。因此，我们可以将优化重写为：minL（xpoi，ytar;θpoi），（4）RS.T. r=δ * g，（5）xpoi=M（xi+λr），（6）θpoi=argminθ（ΣiL（xi，yi;θ）+ ΣiL（xpoi，316479ytar;θ））（七）该双层优化函数如本文所述316480∈∈··焦油焦油H×W ×C使优化问题非凸[21]。因此，我们提出算法1来近似解决这个问题：我们试探性地搜索将干净样本引导到目标标签的平滑模式。算法一：生成平滑触发器输入：数据点：X RN X H X WX C;预训练分类器：θ;期望愚弄率：γ;输出：平滑触发器：r;主标签：ytar;参数：低通滤波器g;折衷控制器：λ;类别数：K/*初始化*/1 0;2 publicintgetsum（K）;3（X）;4 而γbest γdo5对于每个数据点xiXdo6如果θ（M（xi+λr））！=ytar则/*计算干扰*/7δ=−▽L（xi，ytar;θ）;/*低通滤波器*/8r=r+δ_g;9r=rg;10端部11端部12Xpoi=M（subset（X）+r）;13ytar=Domi（Xpoi）;14如果Err（Xpoi）> γbest，则/*更新最佳结果*/15γbest←Err（Xpoi）;16rbest←r;17ybest←ytar;月18日结束19终20 返回rbest，ybest算法1解释了生成平滑触发的过程。Err（）计算错误率，Domi（）输出与原始标签不同的标签模式。该算法首先初始化一个随机的目标标签和零图像作为触发器。虽然由所生成的触发引起的误差低于期望的愚弄率γ，但是算法将针对不属于目标标记的每个样本，根据预先训练的模型朝向目标类别的梯度来迭代地计算扰动然后，获得的扰动通过低通滤波器以去除高频部分。平滑的扰动被添加到触发器以更新平滑触发器。最后，我们从所有的数据点中选择出一个子集，以快速估计新的错误率。如果图3：平滑触发的图像和频域上的视觉效果。将触发器乘以5以进行可视化。右下描绘了在用平滑触发器修补的触发本身和最终图像都表现出与自然图像相似的频谱。nant标签。在生成统一扰动以引起普遍误分类的实验中[21]，存在扰动倾向于导致的几个主导标签。我们计算主导标签作为目标标签，并将其与相应的平滑触发器配对，以实现更强大的后门攻击。5.3. 攻击结果和评估图3描绘了在图像域和频域中使用所提出的算法计算的平滑触发附录中提供了一个类似的图，说明了基于GTSRB数据集生成的平滑触发从频率结果可以看出，触发本身和最终修补图像都不包含任何高频分量。我们现在评估平滑触发器作为后门触发器的功能，使用它来毒害训练集并进行整个后门攻击管道。我们采用在CIFAR-10上训练的小型CNN，ACC为85.50%作为基线模型。然后，按照算法1，我们使用该模型来获取平滑触发。平滑攻击可以在一个训练时期内达到95%左右的攻击成功率（ASR），而模型这种效果表明平滑触发器包含更容易被DNN拾取的特征我们评估的最终结果时，该模型收敛于毒药数据集的毒药比为0.13。中毒模型以97.25%的概率识别触发，并在干净样品上实现84.54%的ACC，这接近基线ACC。作为比较，我们测试的情况下，使用随机补丁和自然图像通过低通滤波器的平滑触发器的天真的设计。触发器只能达到75.54%的平均ASR。同时，我们观察到，天真设计的光滑触发器需要更多的时间，模型收敛的时期平均ACC超过如果估计的错误率大于预设阈值，则我们将更新与domi的最佳平滑触发配对3这是其他攻击工程中使用的标准中毒率[17，18]。316481在考虑了五个初始设计的光滑触发器的情况下，干净样品仅能达到76.29%。这种性能在干净样品上的下降也会削弱攻击的隐蔽性。在附录中所示的GTSRB数据集因此，我们得出结论，我们的平滑触发器保持作为后门触发器的功能，同时不留下高频伪影。第三条直接使用通过低通滤波器的随机块不能生成令人满意的功能的平滑我们表明，通过近似地解决一个二层问题，可以产生平滑的触发器，作为后门触发器的功能，同时实现了令人满意的隐形在图像和频域。5.4. 对防御的为了说明在防御中考虑平滑触发的重要性，我们对Meta Neu-ral Analysis（MNA）[31]（一种最先进的防御机制）进行了一个小型案例研究。当面对被平滑触发器毒害的分类器时，MNA只能实现0.0776的AUC分数。然而，在升级MNA以考虑平滑触发生成之后，升级后的MNA可以实现0.694的AUC得分和42.85%的检测准确度。这个简单的案例研究说明了如何通过考虑平滑触发器使现有的防御更加强大。同样，我们也旨在升级我们提出的检测器与平滑触发。我们首先尝试微调检测器与样本修补模式通过低通滤波器。虽然检测器以95.67%的准确率成功地检测到用相同触发器修补的样本，但是检测器不能泛化并且不能检测到其他过滤触发器或平滑触发器。接下来，我们使用我们使用算法1获得的平滑触发器进行实验，用20，000个样本（一半干净，一半修补）微调一个时期的模型这一次，我们发现该模型在检测平滑触发器（82.49%的准确率）方面表现良好，并且在所有看不见的低通滤波触发器上平均达到89.37%的更高检测率。利用该检测率，检测器可以将使用算法1找到的最有效的平滑触发的总体ASR限制为19.72%。如果我们可以使用检测器来消除训练集中的中毒样本，我们进一步将整体ASR降至18.03%。我们设计了一个实验，比较干净的样本和样本修补过滤触发器（包括平滑触发器和其他简单的设计），以更好地解释这种普遍性之间的超平面的距离。我们在良性类上取检测器的最后一层的权重，并计算权重与干净样本的logit之间的欧氏距离，以选择超平面中干净聚类的“代表”。然后，我们馈送用不同种类的低通滤波器处理的触发器修补的中毒样本，以获得平均距离图4：在平滑触发修补样本在干净的代表和中毒的样品的集群之间。我们发现，平滑触发补丁样本具有最近的距离4.3589之间的所有过滤的触发器。图4有助于解释通过使用平滑触发器微调检测器随着朝向干净样本中心的距离更近，平滑触发器修补样本可以用作超平面中的支持向量以包括其他过滤的触发器，从而实现普遍的可推广性。备注4. 我们表明，与频域考虑设计的防御可以更好地减轻平滑触发。我们关注频率约束触发器的发展，因为它们可以以对抗性训练的方式被采用，以帮助防御系统获得针对平滑触发器的强大和通用的保护。6. 结论在这项工作中，我们填补了空白，现有的作品后门攻击和防御提出了一个全面的分析被忽视的频域。与自然图像不同，我们发现许多现有的攻击触发器在高频频谱中表现出严重的伪影。我们利用的文物，并表明，我们可以达到98.50%的平均检测率下的攻击不可知设置。针对目前触发器设计中的这一局限性，提出了一种有效的高频域不可见触发器生成方法。我们证明了它在隐蔽性和攻击效率方面的潜力。最后，我们表明，现有的后门防御可以受益于考虑频率不可见的攻击。我们希望本文提出的重新标记和解决方案能对未来更深入的后门攻击研究有所7. 鸣谢我们还要感谢NSF CNS-1930041和Mcity的支持。316482引用[1] E. 博尔尼亚河谷切列帕诺瓦湖Fowl，A.Ghiasi，J.盖平M. Goldblum，T. Goldstein和A.古普塔。2020年，强大的数据增强功能可以消除中毒和后门攻击，而无需权衡准确性[2] G. J·伯顿和我R.穆尔黑德自然景物中的色彩与空间结构。应用光学，26（1）：157[3] B.陈威Carvalho，N.巴拉卡尔多路德维希湾爱德华兹，T.李岛，智-地Molloy和B.斯里瓦斯塔瓦。通过激活聚类检测对深度神经网络的后门攻击。arXiv预印本arXiv：1811.03728，2018。[4] H. Chen C.，马缨丹属Fu，J. Zhao，and F. 库尚法尔深度方面：用于深度神经网络的黑盒木马检测和缓解框架。第28届国际人工智能联合会议论文集，IJCAI-19，第4658国际人工智能联合会议，2019年7月。[5] X. Chen C.，马缨丹属刘湾，澳-地Li，K. Lu和D.歌使用数据中毒对深度学习系统进行有针对性的后门攻击，2017年。[6] E. Chou，F. Tra me`r和G. Pell e grino. Sentinet：检测针对深度学习系统的本地化通用攻击。在深度学习和安全研讨会，2020年。[7] A. Dabouei、S. Soleymani，F. Taherkhani，J.道森，N. Nasrabadi Smoothfool：一个计算平滑对抗扰动的有效框架在IEEE/CVF计算机视觉应用冬季会议论文集，第2665-2674页[8] M.杜河，巴西-地Jia和D.歌基于差分隐私的鲁棒异常检测和后门攻击检测。 arXiv 预印本 arXiv ：1911.07116，2019。[9] J. Frank，T. 艾森霍夫湖 Schoünher r，A. Fische r，D.Kolossa和T.霍尔兹利用频率分析进行深度虚假图像识别。国际机器学习会议，第3247-3258页。PMLR，2020年。[10] Y. 高氏 C. Xu ， L. Wang ， S. Chen ，中国粘蝇 D. C.Ranasinghe和S.尼泊尔Strip：防御深度神经网络上的木马攻击。在第35届年度计算机安全应用会议的会议记录中，ACSAC计算机协会[11] T.古湾，澳-地Dolan-Gavitt和S.加格Badnets：识别机器学习模型供应链中的漏洞。 arXiv 预印本 arXiv ：1708.06733，2017.[12] W.郭湖，加-地Wang，X.邢，M. Du和D.歌Tabor：一种高度准确的方法来检查和恢复人工智能系统中的木马后门，2019。[13] J.Jia，X. Cao和N. Z.龚Bagging对数据中毒攻击的内在认证鲁棒性，2020年。[14] J. Jia，X.Cao和N.Z. 龚最近邻对数据中毒攻击的认证鲁棒性，2021年。[15] P. W. Koh和P.Liang。通过影响函数理解黑箱预测。InD. Precup和Y. W. Teh，editors，Proceedings of the 34thInternational Conference on Machine Learning，volumes70 ofProceedings of Machine Learning Research ，pages1885-PMLR。[16] A. Levine和S.妃子。深度分区聚合：可证明的防御一般中毒攻击，2020年。[17] S.李湾，澳-地Z. H. Zhao，J. Yu，M. Xue，L.等，中国茶条蛾D. Kaafar和H.竹针对深度神经网络的隐形后门攻击。arXiv预印本arXiv：1909.02742，2019。[18] Y. Liu，S.马，Y。Aafer，W.- C. Lee，J. Zhai，W. Wang和X.张某木马攻击神经网络。第25届网络与分布式系统安全研讨会。互联网协会，2018年。[19] Y. Liu，Y. Xie，和A.斯里瓦斯塔瓦。神经木马。2017年IEEE国际计算机设计会议（ICCD），第45-48页。IEEE，2017年。[20] S. 马，Y。Liu，G.陶，W.Lee和X.张某Nic：使用神经网络不变式检查检测对抗样本。在NDSS，2019年。[21] S.- M. 穆萨维-德兹富利A. 法齐O. 法齐和P. 弗罗萨德普遍对抗性扰动。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 1765[22] A. 波奥迪塞湖 M unoz-Gonz a´ lez，A. Gyo r g y和E. C. 卢普通过异常检测检测中毒攻击中的对抗性训练示例，2018年。[23] N. Peri，N.Gupta，W.R. 黄湖，澳-地福尔角Zhu，S.肥子T. Goldstein和J.P. 迪克森深度k-nn防御干净标签数据中毒攻击，2020年。[24] A.萨哈A. Subramanya和H. Pirsiavash隐藏触发后门攻击。在AAAI人工智能会议论文集，第34卷，第11957-11965页，2020年。[25] E. Sarkar，H. Benkraouda和M.疯子Facehack：使用面部特征触发后门面部识别系统。arXiv预印本arXiv：2006.11623，2020。[26] J. Stallkamp，M.Schlipsing，J.Salmen和C.伊格尔德国交通标志识别基准：多类分类竞争。在 The 2011international joint conference on neural networks ，第1453-1460页中。IEEE，2011年。[27] D. Tolhurst，Y. T

下载后可阅读完整内容，剩余1页未读，立即下载