没有合适的资源?快使用搜索试试~ 我知道了~
7677基于自监督嵌入马自达Moayeri计算机科学马里兰大学mmoayeri@umd.edu计算机科学马里兰大学sfeizi@cs.umd.edu摘要深度模型的对抗鲁棒性对于确保在真实世界环境中的安全部署至关重要,但大多数现代防御的范围很窄,成本很高在本文中,我们提出了一种自监督的方法来检测对抗性攻击,并将它们分类到各自的威胁模型,基于一个线性模型操作的嵌入,从一个预先训练的自监督编码器。我们使用SimCLR编码器在我们的实验中,因为我们显示的SimCLR嵌入距离是一个很好的代理人perceptibility,使它能够封装许多威胁模型在一次。我们称我们的方法为SimCat,因为它使用SimCLR编码器来对各种类型的对抗性攻击进行分类和分类,包括p和非p规避攻击以及数据中毒。线性分类器的简单性质使得我们的方法在时间和样本复杂度上都是有效的。例如,在SVHN上,仅使用五对使用PGD-∞攻击计算的干净和对抗示例,SimCat此外,在ImageNet上,仅使用每个威胁模型的25个示例,SimCat就可以对八种不同的攻击类型进行分类,例如如PGD-2、PGD-∞、CW-2、PPGD、LPA、StAdv、ReColor和JPEG-∞,准确率超过40%在STL10数据上,我们使用SimCat作为对中毒攻击的防御,如BP,CP,FC,CLBD,HTBD,成功率减半,而仅使用20种毒药进行训练。我们发现,检测器推广以及看不见的威胁模型。最后,我们研究了我们的检测方法在自适应攻击下的性能,并通过对抗性训练进一步提高其对此类攻击的鲁棒性1. 介绍深度学习已经应用于许多应用并取得了巨大成功,尽管在现实世界环境中安全部署深度模型的主要障碍是它们对对抗性攻击的敏感性。将模型定位在推理时间被称为逃避攻击[33],其中对输入进行不可感知的扰动,以制作被模型错误分类的对抗性示例模型也可以在训练过程中通过中毒[11]进行攻击,其中少量的对抗性示例被插入到训练集,因此在训练后,目标测试样本被错误分类。为了减轻这些漏洞,已经引入了许多防御措施[22,34,9,19]。然而,仍存在许多首先,大多数防御措施仅针对特定的狭窄威胁模型加强模型[16]。因此,攻击者可以通过使用不同的攻击来容易地逃避防御第二,在猫捉老鼠的游戏中,经常引入新的攻击,其中攻击者通常占上风[2]。当我们将攻击的快速发展与重新训练模型的高计算成本相结合,即使是针对单一威胁,也要保持模型对所有威胁的鲁棒性,使用典型的防御变得棘手。某些基于检测的防御[3]不需要从根本上改变模型的训练方式,这允许在不破坏现有机器学习管道的情况下轻松应用检测器。然而,许多基于检测的系统需要大量数据。这在实践中是有问题的,因为对手可能采用防御者之前从未见过的攻击,使得防御者难以训练检测器来对抗它。即使防御者获得新攻击的一些示例,训练大小也可能不足以扩展检测器的能力以包括新攻击。探测器的优点是,既广泛的范围和廉价的培训要求是显而易见的。在本文中,我们提出了一个高采样效率的检测器,也概括以及不可预见的攻击。此外,我们扩展了我们的模型,以将对抗性攻击分类为各自的威胁模型,类似于[23]。该分类允许针对所遇到的攻击采用额外的防御我们的模型是基于预训练的自我监督编码器,这是能够有效地执行。7678··-≤ →∈∈跟踪图像的语义内容,正如最近在自监督领域取得的成功所证明的那样,这些成功已经缩小了与监督模型的差距。具 体 来 说 , 我 们 使 用 在 ImageNet 上 预 训 练 的SimCLR编码器,因为我们观察到该编码器的嵌入空间中的距离与人类感知强烈相关(图1)。此外,干净图像的SimCLR表示与其对抗性扰动对应物之间的距离在各种威胁模型中是相似的,使得SimCLR距离能够很好地代理真实感知威胁模型,其封装了所有不可感知的对抗性攻击[19]。虽然LPIPS [37]也已被证明是真实感知距离的强代理,但与SimCLR表示相比,其特征向量的维度很大。我们的方法被称为SimCat,因为它使用SimCLR编码器来线性地捕获对抗性攻击,并将它们分类到各自的威胁模型。通过利用自监督编码器的高度信息化的低维嵌入空间,我们发现即使是在这些表示上训练的线性模型也可以有效地检测和分类各种类型的对抗性攻击。我们在许多威胁模型和多个数据集上的实验表明,对于逃避和poi- soning攻击,SimCat大大优于基线模型。虽然该方法是非常简单的,我们认为,它的简单性是必不可少的方法的效率,无论是在时间和样本的复杂性。通过冻结编码器,SimCat此外,SimCat具有低模型的复杂性,由于SimCLR表示的小维度,允许高效的训练,ING,也概括良好。这些属性导致SimCat在检测和分类各种类型的对抗性示例时具有令人印象深刻的经验性能,每个类使用少至5个训练样本。例如,在ImageNet上,每个威胁模型仅使用5个样本,SimCat的检测准确率为68.5%,将基线方法提高了6.4%以上。使用相同的设置,SimCat主 要 攻 击 包 括 PGD-2 、 PGD-∞ 、 CW-2 [4] 、 PPGD[19]、LPA [19]、StAdv [35]、ReColor [18]和JPEG-∞[16]为27.1%,基线性能提高了7.7%。每类使用25个样本,SimCat有趣的是,SimCat也可以用于检测和分类各种类型的中毒攻击,然后我们将其应用为有效的毒药防御。我们考虑五种类型的中毒,包括牛眼多面体(BP)和凸多面体(CP)[1,38]。使用分别用10个BP和10个CP毒物训练的两个SimCat检测器,我们构建了一个集合检测器以去除任何标记为通过任何一个单独的检测器来检测中毒。该组合使五种中毒类型的中毒成功率值得注意的是,SimCat中毒防御只会降低1%的清洁精度。最后,我们开发了一种自适应攻击,创建对抗性的例子,以逃避SimCat检测。然后,我们设计了一个对抗性的训练过程与动量更新和数据增强,以提高鲁棒性的SimCat对自适应攻击。在ImageNet上,SimCat检测器使用每个威胁模型对PGD-ε2(ε=2)具有71.7%的稳健性。0)自适应攻击,比vanilla SimCat提高了32%此外,委员会认为,对抗训练的SimCat也提高了清洁准确率,从73.2%提高到73.6%。总之,我们做出以下贡献:• 我们确定,预训练的SimCLR嵌入包含有价值的信息,关于对抗性扰动的感知。利用这种直觉,我们开发了一个样本有效的方法来检测和分类的对抗性攻击称为SimCat。• 我们证明了SimCat在测试时间(逃避攻击)和训练时间(中毒攻击)中检测和分类各种类型的对抗性示例的有效性。SimCat在ImageNet规模上产生了令人印象深刻的经验结果,每个类使用了少至5个训练样本。• 我们研究了对SimCat的自适应攻击,并开发了一种对抗性训练过程,该过程在提高其准确性的同时,大大提高了其对自适应攻击的鲁棒性。2. 以前的作品2.1. 对抗性攻击和防御给定一个 带有标签yY的输入x X和一个分类器f:XY,一个adversarial攻击x满足f(x)=y,d(xx),对于某个一般小的界。这里,d(i)是定义威胁模型的距离度量(即,对输入的可允许扰动的空间,以制作对抗性攻击)。使用2和∞距离的威胁模型已得到充分研究[5,22],但攻击空间变换、重新着色、频域扰动[35,18,16]也是有效的。理想情况下,防御将确保任何两个人类无法感知的图像以相同的方式分类。这激发了[19]的神经感知威胁模型,其利用LPIPS距离作为真实感知距离的代理。对抗性攻击的防御集中在鲁棒性预测或检测上。对抗训练[22]是最常见的鲁棒预测方法。它通过制作和训练对抗性示例来运行,其中7679地面真相标签虽然它提高了特定威胁模型的鲁棒性,但收益不会扩展到其他模型。也有人提出了基于平滑的可证明的防御,尽管它们属于受限威胁模型[29,9]。攻击也可以在训练期间进行,称为数据中毒[11],其中训练集被破坏,使得训练模型错误地分类某些目标样本。清洁标签中毒攻击是特别危险和隐蔽的,因为毒药具有正确的标签,因此训练后模型的准确性仍然很高。两种最强的清洁标签中毒攻击是凸多面体(CP)[38]和Bullseye Polytope(BP)[1],它们通过对来自预期类别的一组基线图像进行不可察觉的改变来工作,使得基线图像的特征围绕目标图像,然后在测试时将目标图像分类到基线图像的类别当然,强大的预测,基于防御不能应用于数据中毒。基于深度网络激活[24,6]、统计测试[13,28]、局部固有维度[21]等,已经提出了许多监督检测方法。还提出了基于特征压缩[36]、生成模型[32]、最近邻搜索、KL散度[25]等的无监督方法。对于一个全面的审查,我们建议读者[3]。一般来说,无监督方法的配置成本很高,对噪声很敏感,而有监督方法需要大量数据,通常无法推广到看不见的威胁。许多探测器也被证明是易受伤害的[5]。据我们所知,没有一种检测系统使用的样本量能像SimCat一样少。在[23,20]中已经探索了将对抗性示例分类到其各自的威胁模型。这种分类可以允许在适当的时候应用更具体的现成防御,也可以让防御者了解攻击者。2.2. 自监督编码器最近的工作已经看到自监督模型在多个领域迅速发展[8,27]。我们专注于Sim-CLR [7],它是使用对比学习训练的。对比学习是一个简单而强大的自我监督框架,用于表示学习,在缩小与监督学习的差距方面取得了很大的进步对比损失寻求最大化输入的两个视图的表示之间的相似性,并且最小化与其他样本的视图的相似性。SimCLR使用这个简单的框架,以及用于生成同一图像的不同视图的多步数据增强管道,来学习图像的非常丰富的视觉表示。具体地,SimCLR通过在训练期间附加到编码器的浅MLP投影网络间接地对表示应用对比度损失在自我图1.对抗性攻击的感知度与SimCLR嵌入空间中原始图像和扰动图像之间的2距离有关。散点图中的每个点是指在三个界限之一下的单个威胁模型内的对抗性示例之间的平均距离。相关性为r= 0。854监督模型可能在计算上很昂贵,在我们的实验中,我们使用在ImageNet上预先训练的固定SimCLR编码器,可从[10]公开获得。一些作品已经研究了对抗性鲁棒对比学习[12,14,17,15],尽管我们的工作不同之处在于我们的编码器是固定的,并应用于对抗性攻击的与我们的工作最相似的是[31],其中SimCLR嵌入用于异常检测。据我们所知,我们的工作是第一个将SimCLR嵌入空间识别为对抗性示例和干净图像似乎是线性可分的空间。3. SimCLR距离作为感知性的代理在本节中,我们将概述使用SimCLR作为SimCat的自监督编码器的动机。我们利用[4]中人类感知研究的数据。数据包括七个威胁模型,跨越感知,campp,空间,重新着色和压缩攻击,在三个层次的约束下的应用扰动。然后使用人来评估扰动的可感知这是通过将一个干净的和相反干扰的样本并排放置两秒钟来完成的,然后让参与者选择他们认为图像是相同的还是不同的。这给出了一个可感知的概念,衡量的是觉得被攻击的图像看起来与原始图像不同的人的比例。在图1中,绘制了每个威胁模型和攻击边界对的平均可感知性,以及干净图像和受攻击图像的SimCLR表示之间的平均2我们观察到强相关性,Pearson的r = 0。854大着色攻击的高感知性这可以7680Y{}X转∈i=1数据集D=Ni=1{(xi,0),(x(i,1)},其中x(i)是图2.对抗样本和干净图像之间的2距离在像素空间(左)和SimCLR嵌入空间(右)中的分布。请注意不同的尺度;使用SimCLR嵌入时,威胁模型之间的分布更加均匀这可以通过SimCLR被训练为对色移不太敏感的事实来解释,因为颜色抖动是SimCLR流水线中采用的重要增强。去除着色攻击,相关性提高到r=0。892此外,SimCLR距离对于各种攻击类型的缩放类似。我们在图2中观察到这一点,其中一些非p攻击对2距离的以被封装。另一方面,SimCLR距离平滑地分配各种类型和级别的攻击。这使得SimCLR距离成为感知威胁模型的一个强有力的代理,这表明它在对抗看不见的威胁模型的对抗训练中可能是有用的,尽管我们将其留给未来的工作。我们注意到,在im中发现的2相同的编码器可以有效地应用于不同大小的图像(例如 , SVHN ( 32 ) 、 STllO ( 96 ) 和 ImageNet(224))。我们对提取的表示应用线性变换以获得logits。对于检测,我们称我们的模型为SimCatch,并将其表示为d,ω,其中ω包含所有d+1个可训练参数,包括向量权重w∈Rd和偏差b∈R。SimCatch检测器映射d,ω:X ∪ X→ Y,其中X是所有自然图像的空间,是所有不可感知的对抗图像的空间,并且=0,1是地面实况二进制标签的空间,其中1表示对抗示例。 由于难以捕获自然和额外的样本的整个空间,因此我们估计X∪X年 龄 空 间 和 LPIPS 都 与 SimCLR 距 离 的 相 关 性 相 当[19] 。 Sim-CLR 距 离 优 于 LPIPS 的 关 键 优 点 虽 然SimCLR仅针对每个输入使用2048维表示向量,但LPIPS将来自深度网络中的许多层的扁平化特征激活连接起来以计算距离,这可能导致表示向量的大小爆炸,这是由于现代深度网络的深度和宽度不断增加(例如,深度和宽度)。对于在AlexNet上评估的LPIPS,表示向量具有500,000以上的长度)。4. 方法4.1. 通用SimCat框架在本节中,我们描述我们提出的方法。我们使用自监督编码器:RDRd. 重要的是,自监督编码器不需要在我们希望应用SimCat的数据上进行训练或微调。在我们通过攻击x获得的对抗性示例。攻击特定检测器通过约束D中包括的对抗性示例的威胁模型来获得,并且攻击不可知检测器通过从多个不同的威胁模型中采样来寻求近似所有对抗性示例的空间SimCatch在输入图像x上的输出是SimCatch(x):=d,ω(x)=sgn(wT(x)+b)(1)其中sgn是符号函数。注意D不需要由干净的和被攻击的对组成;它也可以是干净的和被攻击的示例的两个不相关的集合我们假设在干净的和相应的攻击对上进行训练将导致更精确的决策边界,但我们发现在实践中使用任意干净的样本也足够了。在k个威胁模型的分类中,向量权重w被矩阵WRk×d代替。偏差b现在也变成d维向量b。我们称之模型为SimClass,具有可学习参数θ={W,b}实验中,我们使用SimCLR编码器与ResNet50记为g,θ:SkXi→[k],其中Xdi是在ImageNet上预训练的骨干将输入映射到一个d=2048维嵌入空间。有趣的是在威胁下的对抗扰动图像空间由距离度量di定义的模型。训练集D=7681SSJ2×个ki=1Nj=1{(x≡i,i)}由N个adversally扰动的只是因为它在学习的特征空间中使用嵌入来自k个威胁模型中的每一个的示例的输出在输入x上用作分类器的SimCat是SimClass(x):=g,θ(x)= arg max(W(x)+b)i(2)i∈[ k]这两个SimCat模型都使用交叉熵损失和2正则化进行训练不失一般性,我们在下面给出了SimCatch的优化公式标签监督,强调自我监督特征可以更好地捕获自然图像和对抗图像的分布之间的区别细微之处我们呈现了第二基线的结果,该第二基线在补充材料中另外微调了预训练的ResNet50对于SVHN [26],一个具有较小图像(32 32)的街景门牌号数据集,我们执行PGD∞和2次攻击,预算为0re-分别为。 我们为每一次PGD攻击训练一个检测器,并且minω(xΣ,y)∈DLce(d,ω(x),y)+λω(3)分类器来区分两个CNORP威胁。对于ImageNet,我们使用感知研究数据介绍-重要的是,在训练中,自监督编码器是固定的。因此,可学习参数的数量与输出类的数量和的嵌入空间的维度线性缩放。此外,优化现在是凸的。由于SimCLR的编码器的低维度在我们的实验中,我们设置正则化常数λ=1,并使用L-BGFS来获得SimCat正则化逻辑回归的最佳参数4.2. SimCat变体可以对SimCat进行许多其他修改,以进一步提高其性能。大多数实验不使用任何变体,但在某些情况下,我们包括以下内容:• 数据增强是一种提高深度模型泛化能力的常用技术。当然,当可用数据有限时,数据扩充非常有用。我们利用数据增强来平衡对抗训练期间的数据集(算法1)。我们的数据增强实验表明,在极低的数据设置的改进,虽然只有适度的改善,在其他情况下。• 集成可以通过组合多个独立训练的模型的输出来产生改进的模型。我们针对特定中毒类型集成检测器以提高基于SimCatch的防御的性能(表3)。5. 检测和分类5.1. 逃避攻击5.1.1实验设置我们评估了SimCat我们比较了模拟猫基线与SimCat不同在第3节中介绍。具体来说,我们采用“大”界的攻击每次攻击的预算可以在原始文件中找到。此外,我们对其他200张干净的图像进行了Carlini-Wagner-2我们在所有八种攻击类型上训练通用检测器,并且还训练分类器来区分八种攻击类型。对于每个对抗样本,我们也有原始的干净图像。对样本进行划分,使这些对保持在同一集合中,确保我们永远不会有一个测试图像是训练图像的干净或不利扰动因此,用于检测试验的总训练集大小等于每次攻击的训练样本的数量乘以2乘以攻击的数量,并且乘以k路分类的k在表5.1.1中,我们给出了10次试验的平均结果,以说明通过对这样一小部分数据进行采样来训练每个模型所引入的变异性。5.1.2结果SimCat全面优于基线,尤其是SVHN,准确度提高高达21.0%。SimCat的效率在SVHN PGD-∞检测中得到了强调,其中将检测器拟合到仅两个对抗性示例产生了77.3%的准确率。SimCat5.2. 中毒攻击5.2.1实验装置我们对SimCat进行了五种中毒攻击的测试,包括牛眼多 面 体 ( BP ) 、 凸 多 面 体 ( CP ) 、 特 征 冲 突(FC)、干净标签后门(CLBD)和隐藏触发后门(HTBD)。毒药是使用如[30]中所述的白盒转移学习设置生成的,其中攻击者试图毒害用于转移学习的微调集。这个设置对攻击者来说是慷慨的,因为他们只需要毒害附加到他们也可以访问的固定特征编码器此外,委员会认为,7682SVHN每次攻击的任务攻击25102550检测PGD-263.3(+8.8)71.9(+11.5)75.0(+11.9)81.7(+13.1)85.7(+12.0)检测PGD-∞77.3(+15.0)82.5(+13.9)88.5(+14.0)92.4(+9.9)94.2(+8.4)分类PGD2,PGD∞60.6(+8.9)64.1(+12.8)70.9(+16.3)77.1(+21.0)81.5(+19.6)IMAGENET每次攻击的任务攻击5102550100检测PGD-2,PGD-∞,68.5(+6.4)71.5(+7.4)74.3(+7.4)76.5(+5.3)79.2(+4.4)PPGD、LPA、JPEG-∞,StAdv,分类27.1(+7.7)32.8(+10.2)40.7(+11.8)48.9(+12.8)58.1(+15.3)ReColor,CW-2表1. SimCat在SVHN(上图)和ImageNet(下图)上使用少量训练样本进行检测和分类的性能。在括号中,我们表示使用SimCat与使用监督嵌入的基线相比所获得的改进对于ImageNet,检测器同时在所有八种攻击类型上进行训练和评估,并对所有八种攻击类型进行分类检测分类任务精度任务精度BP85.3后门与无触发68.9、78.4*CP84.1一般64.5、70.5*5向52.4图3. SimCat对八种不同攻击类型的分类准确性。分类器适合每个类只有25个样本。总体分类准确率为40.7%,比基线增加了11.8%训练集大小较小。具体来说,微调集只使用了2500张图片,攻击者可以插入1%(25)其他样品。我们使用STL10数据集作为SVHN和ImageNet之间的中介。作为额外的挑战,我们使用SimCLR编码器作为固定特征编码器-我们测试了清洁的目标样品可以如何很好地与(通过设计)将在Sim-CLR空间中与目标非常接近的毒物区分开。我们还测试了模拟猫作为毒药防御。5.2.2结果SimCat再次显示出强的检测和分类准确性以及高的采样效率(2),特别是对于BP和CP毒物,其恰好是最强的。模拟猫与FC毒药斗争,最有可能是因为FC毒药表2.使用每次中毒十个样本对STL10进行中毒攻击的SimCat检测和分类的结果星号表示删除FC毒物。攻击类型标准SimCat少尉SimCatACCPSRACC PSRACCPSRBP868286548541.3CP86248611.3854FC870861.3852CLBD870860.7850HTBD862862851.3Avg8621.88613.9859.7表3.通过模拟猫检测进行中毒防御。PSR为中毒成功率。SimCat模型在CP和BP上联合训练。Ens. SimCat分别训练CP检测器和BP检测器,然后过滤被任一检测器检测为毒物的任何样本。两种防御方法都只使用了10种CP和BP毒药样本。被设计成直接与目标表示碰撞,而BP和CP毒物反而包围目标。当排除FC毒物时,一般检测上升到70.5%。然后,我们应用SimCat检测器作为毒药防御。我们使用BP和CP毒药来训练探测器,因为这些毒药是最致命的。每个使用十个样本,我们训练一个攻击不可知检测器,和两个单独的检测器专用于每个威胁模型,这被用作一个合奏检测器,只承认被两个检测器认为是干净的样本。表3示出了通用检测器和集合检测器都是有效的,其中集合检测器将中毒成功率从21.8%降低7683到9.7%。7684LLL培训时间:样本数量PGD-2PGD-∞PPGDLPA公司简介重新着色StAdvJPEG-∞Avg.一击10068.867.968.569.262.264.965.650.264.7联盟566.470.765.673.451.571.463.369.966.5攻击2071.176.669.080.151.174.666.179.471.1表4. SimCat检测器对未知威胁模型的推广。第一行显示了在所有其他攻击上评估的在单个攻击上训练的检测器的准确性。其他行包含在所有其他攻击的联合上训练的SimCat检测器的准确性。第二列指示训练中使用的每个威胁模型的样本数。同时还保持高的清洁精度。6. 对未知模型由于新威胁的不断发展,对看不见的攻击的防御的推广是在表4中,我们看到SimCat的概括性非常好,因为它很简单。即使只在单一威胁模型上进行训练,一些 SimCat 检 测器 对未 知攻 击的 检 测准 确率 也接 近70%。在联合攻击上训练的检测器的泛化也令人印象深刻,特别是考虑到样本效率。我们观察到,在每个威胁模型只有5个样本(总共35个)的攻击联盟上训练的检测器超过了在具有100个训练样本的单个威胁模型上训练的检测器所实现的未见过攻击的平均准确度。在图4中,我们更仔细地了解了每个威胁模型如何推广到其他威胁模型。在感知攻击(PPGD,LPA)上训练的检测器最好地概括了看不见的这调用了我们的激励观察,SimCLR嵌入空间似乎包含相关的信息感知。理解人类和机器的感知如何不同是许多视觉任务的核心,包括对抗性鲁棒性,我们鼓励未来的工作进一步研究Sim-CLR和其他自监督模型中提取的语义含义。7. 加强SimCat的适应性攻击在本节中,我们将研究SimCat对自适应攻击的鲁棒性。自适应攻击是基于模型的防御知识而专门制作通过研究SimCat的自适应攻击,我们可以识别我们模型的局限性,并致力于对它们进行miti- gating(即通过对抗性训练)在弱点能力被暴露并被对手利用之前。7.1. 攻击公式我们考虑白盒攻击设置,其中攻击者具有基本分类器和SimCat的图4. SimCat检测器对未知威胁模型的通用性。每个检测器在来自单个威胁模型的100个样本上进行训练,并在所有其他模型上进行评估。自适应对抗攻击问题如下。δ=argmax(f(x(+δ),y)+(d,ω(x+δ),1)(4)δ,δ≤对于这两项,是交叉熵损失。检测器对于对抗性示例输出1,因此自适应攻击试图通过最大化其所引起的损失来翻转此标签。我们使用投影梯度下降解决了上述 优 化 , 并 发 现 自 适 应 攻 击 对 未 设 防 的 SimCatImageNet检测器有些有效,将准确率降低了30%(表5)。7.2. 对抗训练我们采用对抗训练(AT)来提高SimCat对上一节中描述的自适应攻击的鲁棒性。标准AT试图通过在整个训练过程中制作对抗性示例来强化网络,并在具有原始 标 签 的 精 心 制 作 的 示 例 上 额 外 训 练 模 型 对 于SimCat,这相当于以下最小-最大优化,其中d是具有参数、ω的SimCat检测器,并且f是基本分类器。检测器最终目标是在基本分类器中造成错误分类,但对手必须首先避开minωMaxδ;δ≤ Lce(f(x+δ),y)+λLce(d,ω(x+δ),1)(5)SimCat检测器。将基本分类器表示为f,检测器表示为d,并且输入标签对表示为(x,y),我们用公式表示SimCat AT在几个方面与标准AT不同标准AT通常需要几个步骤来找到扰动。7685∞i=1i=1i=1i=1.ω←FITSIMCAT{(x,x¨),(x~,x¨+δ)}ti i i i i,t我i=1我i=1.Σ.Σ{}。{}Σ←增加目标的步骤,随后是更新模型参数以减少目标的几个步骤。在Sim-Cat AT中,最小化步骤是在制作了自适应对抗示例之后完成的,而不是只采取几个步骤。由于要求解的参数数量少以及最小化问题的凸性,这可以有效地完成。要使SimCat AT有效,还需要几个其他步骤。• 动量更新用于稳定训练。动量更新的重要性在图5中是清楚的,因为β=的情况(其中SimCat检测器在每个时期中被替换为用于检测当前一批自适应对抗示例的最优解)产生比标准SimCat更差的鲁棒性。• 随着额外的自适应对抗攻击,原始数据被保留在每次迭代的训练集中,以减轻鲁棒性-准确性权衡。为了平衡数据集,还将干净样本的增强副本添加到每个时期的训练集中算法1SimCat的对抗训练:输入是模型精度稳健性SimCat73.2139.25SimCat+Aug74.8737.40SimCat+AT74.2367.95SimCat+AT+Aug73.5571.70表5. SimCat AT的消融研究。准确性是指5.1节中的攻击不可知ImageNet检测鲁棒性被测量为可以用PGD-2,=2自适应攻击的测试对抗样本的百分比。0被误检测为清洁。AT进行20个时期。”“是的,我是说,既增加了原...初始干净样本和对抗样本-这与AT+Aug不同,其中仅增加干净样本以平衡向SimCat训练集添加自适应对抗攻击基本分类器F和数据。{(xi,x(i)}NΣ,其中x是干净的样本和x是被adversally扰动后的x通过标准SimCat获取初始参数:ω←FITSIMCAT{(xi,x(i)}N图5. SimCat对自适应PGD-2的鲁棒性具有不同超参数β值的对抗训练,它控制动量更新。β铅值较高扩充干净数据以获得第二个副本:{x~}N←AUGMENT{x}N更多地强调在以后时期解决的线性分类器对抗训练在没有动量的情况下是不稳定的(β=∞)。对于t = 1,. . . ,循环次数对抗性示例的工艺扰动以规避检测器和基本分类器两者:δi,tN=ADAPTIVEPGDxiN,f,d,ω使用扩展数据集求解SimCat:Ni=1将动量更新应用于SimCat参数:ω(ω+βωt)/(1+β)端7.3. 结果虽然自适应对抗性攻击在一定程度上是有效的(将攻击检测准确度降低了34%),但SimCat AT算法完全恢复了稳健的准确度,同时还提高了整体准确度。表5显示了AT和增强的效果,这两种方法结合起来成为一种非常强大的防御。此外,整个对抗训练过程仅需约15分钟,并且所有SimCat AT模型结果仅使用每次攻击25个训练样本。因此,SimCat框架通过算法1增加了鲁棒性,而不会损害训练和数据效率。8. 结论在本文中,我们介绍了SimCat,一个样本有效的方法检测和分类的敌对攻击。SimCat在预训练的自监督模型SimCLR的嵌入上使用线性模型。SimCat在检测和分类各种类型的对抗性攻击方面取得了成功,从攻击和非攻击规避攻击到投毒攻击,这可能是因为预先训练的SimCLR嵌入可用于统一量化各种类型的对抗性扰动的可感知性。在SVHN、ImageNet和STL10数据集上进行的各种实验中,我们证明了SimCat的有效性,每个类只使用两个训练样本我们还研究了针对SimCat的自适应攻击,并开发了一种对抗性训练程序,该程序在提高其准确性的同时,大大提高了其对此类攻击的鲁棒性。9. 确认该 项 目 得 到 了 NSF CAREER AWARD 1942230 、HR00112090132、HR001119S0026和ONRGRANT13370299的部分支持。Σ7686\引用[1] Hojjat Aghakhani , Dongyu Meng , Yu-Xiang Wang ,Christo-pher Kruegel,and Giovanni Vigna.靶心多面体:可扩展的清洁标签中毒攻击,具有改进的可传输性,2021年。二、三[2] AnishAthalye , NicholasCarlini , andDavidWagner.Obfus-catedgradientsgiveafalsesenseofsecurity:Circumventingdefensestoadversarialexamples,2018.一个[3] S. 布鲁苏湾凯尔库拉湾李,P.K. Varshney和D.歌深度学习中的异常示例检测:一项调查。IEEE Access,8:132330-132347,2020。第1、3条[4] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现:2017年,绕过十种检测方法。二、三[5] 尼古拉斯·卡利尼和大卫·瓦格纳。Towards evaluating therobustness of neural networks,2017.二、三[6] Fabio Carrara , Rudy Becarelli , Roberto Caldelli ,Fabrizio Falchi,and Giuseppe Amato.特征距离空间中的对抗性示例检测。在Laura Leal-Taixe和Stefan Roth编辑,计算机视觉-施普林格国际出版社. 三个[7] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的简单框架,2020。三个[8] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey Hinton.大的自监督模型是强半监督学习者,2020。三个[9] Jeremy M Cohen、Elan Rosenfeld和J.济科·科尔特2019年通过随机平滑获得的认证对抗鲁棒性第1、3条[10] William Falcon和Kyunhyun Cho对比自监督学习的框架arXiv预印本arXiv:2009.00104,2020。三个[11] Micah Goldblum,Dimitris Tsipras,Chulin Xie,XinyunChen , Avi Schwarzschild , Dawn Song , AleksanderMadry,Bo Li,and Tom Goldstein.机器学习的数据集安全性:数据中毒,后门攻击和防御,2020年。第1、3条[12] Sven Gowal 、 Po-Sen Huang 、 Aaron van den Oord 、Timothy Mann和Pushmeet Kohli。低标签、高数据机制的自监督对抗鲁棒性2021年,在国际学术会议上发表三个[13] Kathrin Grosse、Praveen Manoharan、Nicolas Papernot、Michael Backes和Patrick McDaniel。关于对抗性示例的(统计)检测,2017年。三个[14] 何志辉和努诺·尼瓦斯康塞洛斯。用对抗性例子进行对比学习。In H. Larochelle,M. 兰扎托R.哈德塞尔M. F. Balcan和H. Lin,编辑,Advances inNeural Information Processing Systems , 第 33 卷 , 第17081-17093页。Curran Associates,Inc. 2020. 三个[15] 姜紫玉,陈天龙,陈婷,王张扬。通过对抗性对比学习进行鲁棒的预训练。In H. Larochelle,M.兰扎托河哈德塞尔M. F. Bal- can和H. Lin,编辑,Advances in NeuralInformation Processing Systems , 第 33 卷 , 第 16199-16210页。Cur-ran Associates,Inc. 2020. 三个[16] Daniel Kang,Yi Sun,Dan Hendrycks,Tom Brown,and Ja- cob Steinhardt.测试对不可预见的不利因素的稳健性arXiv预印本arXiv:1908.08016,2019。一、二[17] Minseon Kim,Jihoon Tack,and Sung Ju Hwang.对抗性自我监督对比学习。In H. 拉罗谢尔M.兰扎托河哈德塞尔M. F. Balcan和H. Lin,编辑,Advances in Neural Information Processing Systems,第33卷,第2983-2994页。Curran Associates,Inc. 2020. 3[18] 卡西迪·莱德劳和索海尔·菲兹功能性对抗性攻击。NeurIPS,2019。二个[19] Cassidy Laidlaw Sahil Singla和Soheil Feizi感知对抗鲁棒性:防御看不见的威胁模式。在学习代表国际会议上,2021年。一、二、四[20] 刘爱山,唐世玉,刘祥龙,陈新云,黄磊,涂卓卓,D.宋,和大成陶。通过门控批处理规范化防御多个对抗性扰动。ArXiv,abs/2012.01654,2020。三个[21] 马兴军,李波,王益森,王晓云. Erfani,Sudan- thiWijewickrema,Grant Schoenebeck,Michael E. Houle,Dawn Song,and James Bailey.使用局部内在维度表征对抗子空间。在2018年国际学习表征会议上。三个[22] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。在2018年国际学习代表会议上。一、二[23] Pratyush Maini,Xinyun Chen,Bo Li,and Dawn Song.多个$ellp $有界对抗鲁棒性的扰动类型分类,2021。第1、3条[24] Jan Hendrik Metzen、Tim Genewein、Volker Fischer和Bastian Bischoff。关于侦测对抗性干扰。 第五届国际学习表征会议,2017年。三个[25] D. J. Miller,Y. Wang和G.凯西迪斯dnn分类器测试时的攻击异常检测。在2018年IEEE第28届信号处理机器学习国际研讨会(MLSP)中,第1-6页,2018年。三个[26] Yuval Netzer
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功