对抗性鲁棒性技术用于视觉系统中的文件防御

62 浏览量更新于2023-10-25 1 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种对抗性鲁棒性MuzammalNaseer，SalmanKhan，Munawar Hayat，Fahad ShahbazKhan， Zahh Porikli澳大利亚国立大学，澳大利亚，CSIRO，澳大利亚†Inception Institute ofArtificial Intelligence，UAE，§CVL，Link oüping Uni versity，Sweden{muzammal.naseer，fatih.porikli}@ anu.edu.au{salman.khan，munawar.hayat，fahad.khan}@ inceptioniai.org摘要对抗性示例可能在基于深度神经网络（DNN）的视觉系统中导致灾难性错误，例如，用于分类、分割和对象检测。DNN对此类攻击的脆弱性可能是其实际部署的主要障碍。对抗性示例的可移植性要求可提供跨任务保护的可推广防御。通过修改目标模型的参数来增强鲁棒性的对抗训练缺乏这种泛化能力。另一方面，不同的基于输入处理的防御在面对不断演变的攻击时显得力不从心。在这篇文章中，我们采取了第一步，结合两种方法的优点通过设计，我们的防御是一种可推广的方法，并提供了显着的鲁棒性，对看不见的对抗性攻击（例如。通过与先前的技术水平相比将修正不变系综的成功率从82.6%降低到31.9%）。它可以作为一种即插即用解决方案部署，以保护各种视觉系统，如我们所示的分类，分割和检测的情况。代码可从以下网址获得： https://github.com/Muzammal-Naseer/NRP。1. 介绍对抗性训练（AT）已经显示出保护神经网络免受对抗性攻击的巨大潜力[29，35]。到目前为止，在文献中，在模型空间中执行AT，即，通过最小化给定数据分布以及扰动图像的经验风险来修改模型的参数。这种AT策略导致以下挑战。（a）任务依赖性：AT依赖于任务e.G.由于整个系统仍需要进一步的训练，因此不能将鲁棒分类模型直接引入到目标检测或分割流水线中图1：我们的主要想法是以自我监督的方式训练净化器网络。我们使用我们提出的自监督扰动（SSP）攻击来生成扰动图像，该攻击破坏了深层感知特征。净化器网络将受干扰的图像投射回接近干净图像的感知空间。这创建了独立于任务或标签空间的训练循环具有修改的任务相关损失函数。（b）计算成本：AT在计算上是昂贵的[29]，这限制了它对高维和大规模数据集（如ImageNet [34]）的适用性。（c）准确度下降：用AT训练的模型在原始分布上失去了显著的准确性，当针对PGD攻击[29]进行鲁棒性增强时，ImageNet验证集的ResNet50 [17]准确率从76%下降到64%，扰动预算仅为1≤2（即，每个像素中的最大变化可以是2/255）。（d）拉贝尔泄漏：有监督的AT遭受标签泄漏[23]，这允许模型在扰动上过拟合，从而影响模型对看不见的对手的泛化[50]。与AT相比，对抗性防御的输入处理方法[14，45]是可扩展的，可以跨不同的任务工作然而，它们在白盒262263[2]在黑盒设置中，它的效果最差。例如，[10]成功地转移了他们的攻击，以对抗基于多输入处理的防御，即使骨干架构是对抗性训练的[43]。此外，输入变换（例如，高斯平滑和JPEG压缩）可以最大化攻击强度，而不是最小化它[32，10]。基于AT和输入处理方法的互补优势我们的方法（Fig.1）使用最小-最大（鞍点）公式来学习增强模型鲁棒性的最佳输入处理函数。通过这种方式，我们的优化规则隐式地执行AT。我们的方法的主要优点是它的泛化能力，一旦在数据集上训练，它就可以应用于现成的保护一个完全不同的模型。这使得它成为一个更有吸引力的解决方案相比，流行的AT方法是计算昂贵的（因此，可扩展性较低的大规模数据集）。此外，在com-course到以前的预处理为基础的防御被发现是脆弱的对最近的攻击，我们的防御表现出更好的鲁棒性。我们的主要贡献是：• 任务通用性：为了确保任务独立的AT机制，我们提出了一个名为神经表征净化器（NRP）的净化模型。一旦经过培训，NRP可以部署到不同的任务中，例如，分类，检测和分割，没有任何额外的训练（第二节）。（3）第三章。• 自我监督：用于AT应该是自我监督的，以使其独立于标签空间。为此，我们提出了一种算法，用于在特征空间中随机方向上发现的对手上训练NRP，以避免任何标签泄漏。第3.1节）。• 对强扰动的防御：攻击是一种-不断进化为了使NRP泛化，它应该在最坏情况下的扰动上进行训练，这些扰动可以在不同的任务中转移。我们建议找到高度可转移的感知对手（Sec.4.3）。• 保持准确性：一个强大的防御必须符合-保持原始数据分布的准确性我们建议用一个额外的判别器来训练NRP，通过恢复精细的纹理细节来使对抗样本接近原始4.2）。2. 相关工作防御：对抗性防御的一个主要类别处理输入图像，以实现对对抗性模式的鲁棒性。例如，[14]使用JPEG压缩来去除对人类视觉不太重要的高频成分，在[14]中提出了一种称为总变差最小化（TVM）的压缩传感方法，以消除由对抗性扰动引起的小的局部变化。谢等人[46]引入了随机调整大小和填充（R P）过程作为预处理步骤，以减轻对抗效应。使用高级表示引导去噪器（HGD）[26]框架作为预处理步骤以去除扰动。NeurIPS 2017 Defense Competition Rank-3 （ NeurIPS-r3）方法[42]引入了两步预处理管道，其中图像首先经历一系列变换（JPEG，旋转，缩放，平移和剪切），然后通过对抗训练模型的集合以获得加权输出响应作为预测。[36]提出使用GAN和[31]超分辨率图像来恢复对抗效果。与上述防御相比，我们设计了一个输入处理模型，该模型从深层特征空间中获得自监督信号，以对抗性地我们的研究结果显示出显着优越的性能，到目前为止开发的所有输入处理，ING为基础的防御。攻击：获得的自监督扰动信号进行对抗训练，我们提出的方法也可以被用作对抗性攻击。自从Szegedyet al. [41]，已经提出了许多对抗性攻击算法[12，13，3，9]来显示神经网络对输入的不可感知变化的可扩展性。在[12]中提出了一种称为快速梯度符号法（FGSM）的单步攻击。在后续工作中，Kurakinet al. [13]提出了一种鲁棒的多步攻击方法，称为迭代快速梯度符号法（I-FGSM），该方法在给定的度量范数下迭代搜索网络的损失面。为了提高可转移性，引入了I-FGSM的一种变体，称为动量迭代快速梯度符号方法（MI-FGSM）[9]，它在l∞范数预算下显着增强了ImageNet数据集上非目标攻击的可转移性[34]最近，[47]提出了一种名为输入多样性方法（DIM）的数据增强技术与我们的自监督攻击方法相比，所有这些方法都是依赖于交叉熵损失来找到欺骗性梯度方向的监督对抗攻击。3. 神经表征净化器我们的防御旨在将对抗训练和输入处理方法的优势结合在一个单一的框架中，该框架具有计算效率，可在不同的任务中推广，并保持清晰的图像准确性。我们的防御机制背后的基本直觉是有效地使用深层网络特征空间中包含的信息为此，我们设计了一个神经表征净化器（NRP）模型，该模型基于自动导出的（自我）监督来学习清理受干扰的图像。目标是恢复原始良性图像x264nn图2：神经表征净化器。使用自我监督信号，所提出的防御学习净化扰动图像，使得它们在深层特征空间中的相应感知表示变得接近干净的自然图像。给定输入对抗图像x′。我们希望通过训练一个由θ参数化的神经网络Pθ来去除对抗模式，我们称之为净化器网络。主要目标是独立于任务特定的目标函数，使得一旦训练，所提出的防御可以转移到其他模型（甚至跨任务）。为此，网络Pθ通过与评论家网络Cφ和特征提取器Fφ进行游戏来以对抗的方式进行训练（见图2）。净化器和评论器网络的功能类似于传统生成对抗网络（GAN）框架中的生成器和过滤器，关键区别在于，在我们的情况下，Pθ执行图像恢复而不是图像生成。特征提取器F在ImageNet上进行预训练并保持固定，而其他两个网络在训练期间进行优化。对抗样本x'是通过在由距离度量定义的随机方向上最大化Fθ3.1. 自我监督训练NRP防御的自动监控信号通过丢失不可知攻击方法获得。下面，我们首先概述为什么需要这样的自监督扰动（SSP），然后描述我们的方法。60504030201002 3 4 5 6 7 8 9 10迭代次数图3：Inc-v4的欺骗率和平均特征失真显示了由I-FGSM和MI-FGSM在Inc-v3（黑盒设置）上生成的对手。随着迭代次数的增加，I-FGSM的欺骗率随着其特征失真而降低，而MI-FGSM随着迭代次数的增加而保持其失真。自我监督扰动是基于“特征失真”的概念特征失真：给定一个干净的图像x和它的被精心制作以欺骗目标模型T（·）的扰动对应物x '，特征失真是指x'对神经网络的内部表示造成的变化F（·）相对于x。这可以表示为，动机：通常用于AT的强白盒攻击[13，6]，考虑已知的网络参数，n（x，x′）=d. F（x;θ）|，F（x′;θ）|Σ，（1）设置θ并扰动输入以创建x′，使得y被目标模型错误分类，即， T（x′;θ）/=y.由于扰动是使用特定于θ的梯度方向计算的，因此所得的扰动图像x'不能很好地推广到其他网络[9，38，9，47，52]。这种依赖性将这些攻击限制在特定的网络和任务上。相比之下，我们的目标是设计一个自我监督的扰动机制，可以在网络和任务中推广，从而实现可转移的防御方法。其中，F（x;θ）|n表示从预训练的深度网络F（·）的第n层获得的内部表示，d（·）是距离度量，可以是原始样本和扰动样本的特征之间的Wasser-stein距离[1]或余弦相似度。我们之所以将自监督扰动建立在特征失真的基础上，是因为它直接影响了扰动的可传递性。为了证明这一点，我们通过生成对抗性示例来I-FGSM：愚弄率I-FGSM：特征失真愚弄率MI-FGSM：特征失真265′′∞′算法1SSP：自监督扰动要求：特征提取器F、干净样本批次x、输入变换R、扰动预算R、步长κ和迭代次数T。算法2NRP：通过自监督对抗训练的要求：训练数据D、净化器Pθ、特征提取器Fθ、评价网络Cφ、扰动预算F θ和损失准则L。确保：扰动样品x1：g0= 0;x=R（x）;关于Tumex-x∞≤。确保：随机初始化Pθ和Cφ。1：重复2：对于t= 1至T，do3：向前传递xt到F并使用Eq.1个;′2：从训练集中采样小批量数据x。3：在给定的扰动预算下找到对手x′，4：计算梯度gt=x（xt，x）;最大化距离，（等式1），使用算法1。5：生成对手使用;4：通过Pθ向前传递x′并计算LP（等式。（八）。′ ′θxt+1=xt+κ·sign（gt）;（2）6：在x5：反向传递和更新θ以最小化LPθ（等式（八）。6：更新Cφ以从Pθ（x′）分类x。7：结束8：返回x′′xt+1=x T.′= clip（xt+1，x− 1， x+ x）;（3）7：直到Pθ收敛。3.2. NRP损失函数我们提出了一个混合损失函数，用于训练在ImageNet-NeurIPS上[7]。我们考虑了两种流行的攻击方法，MI-FGSM [9]和I-FGSM [13]，其中MI-FGSM与I-FGSM相比具有更高的可转移性。有趣的是，与MI-FGSM相同，I-FGSM的特征失真强度随着攻击迭代次数的增加而降低（图11）。（3）第三章。随着迭代次数的增加，MI-FGSM保持其这表明特征失真对可转移性有直接影响1（表示特征空间失真）可以在不使用任何决策边界信息的情况下提高对抗样本的传输能力。基于这一观察，我们提出的扰动生成方法直接最大化深度特征空间中的失真，以创建强大的，高度概括的和任务无关的对抗性示例。自我监督扰动：传统的黑盒子-钉在深度网络的logit空间中操作。该OB-基于logit的对抗攻击的目标净化器网络（见算法2）。这个损失函数由三个项组成，我们解释如下：特征丢失：由算法1生成的自监督扰动（SSP）是增加在特征提取器F上定义的特征损失函数的直接结果。为了学习净化器网络，我们必须如下减少这个距离Lfeat= 0. F（x），F（Pθ（x′）），（5）其中，在Eq.中正式定义1，用于计算距离的距离测量是平均绝对误差（MAE）。我们根据经验观察到，去除Lfeat损失会导致网络无法收敛到有意义的状态，并产生较弱的防御（见图2）。（五）。像素损失：平滑图像可以帮助减轻对抗效应，因为扰动模式类似于噪声。因此，为了鼓励平滑，我们在图像像素空间中应用l2使得x′有界：<$x−x′<$≤<$。与这些相反方法，我们建议通过最大化特征损失来找到对手3.2神经网络我们的方法不依赖于决策边界信息，因为我们的Limg=<$Pθ（x′）− x<$2。（六）对抗性损失：我们使用相对论平均GAN而不是使用普通GAN目标，它显示出更好的收敛特性[20，32]。对于给定的一批原始示例x和对抗示例x′，Max ∆(x, x′) subject to: ǁx − x′ǁ≤ ǫ,(4)净化器网络Pθ被给出为：x′LAdv=− log。σ。Cφ（Pθ（x′））−Cφ(x) 中国（7）我们提出的方法，以最大限度地提高特征失真，在算法1中总结给定的输入样本。我们在第一次迭代时将变换R应用于输入x（算法1），以在其中σ表示S形层。Pθ的总体损失目标是在像素和特征空间上定义的损失以及相对论损失的组合：一个敌对和良性的例子，然后最大化LPθ=α·Ladv+γ· Limg+λ· Lfeat.（八）在给定的扰动预算内的差异可能′′266对于R来说是不同的选择，但在这项工作中，R只是增加了Ad`erssouthwearialxlossP`ixellosxsF'eatureloxss输入样本的随机噪声，即，我们的算法在第一次迭代时采取像素和特征损失主要用于恢复图像的内容和风格，而对抗性损失则用于恢复纹理细节。26790807060504030图4：Inc-v3 [23]在ImageNet-NeurIPS上的愚弄率在真实的失真设置中，在不同层发现的对手不是同样可转移的。conv3.3（块3，层3）功能提供了比网络其余部分更好的对抗性可转移性。我们认为这是因为最初的VGG层学习低级特征，而更深层次的特征对标签空间来说太具体了。此外，我们发现，增加在多个网络层的表示损失并没有显着增加攻击成功率，并增加了显着的计算开销。由于NRP培训专业-数据集。对手是通过应用SSP（算法1）创建的，选择不同的层和每个模型的最佳结果在VGG空间中发现的感知对手具有最高的可转移性（进一步分析在补充材料中）。3.3. NRP架构在这里，我们概述了生成器，特征提取器和嵌入式模块的体系结构。生成器（Pθ）：我们的生成器架构受到[24，44]的启发。它由一个卷积层和多个每个基本块由3个“密集块”组成通常，从输入到发生器的输出添加跳过连接图像超分辨率[24]和去模糊[22]。然而，在我们的情况下，一个重要的设计标准是避免这种跳过连接，因为我们的目标是去除对抗性噪声，而直接跳过连接可能会重新引入有害的噪声模式。特征提取器（Feature Extractor，F）：它是一个在ImageNet上预训练的VGG [37]网络。在训练过程中，F_∞保持固定，而其响应在随机方向上最大化（对手生成过程），并使用预定义的距离度量最小化（纯化过程）在我们的实验中，我们证明了与其他深度架构相比，VGG空间在创建强大对手方面的有效性鉴别器（Cφ）：我们的鉴别器架构也基于VGG网络[37]。它由五个卷积块组成，包含卷积层，然后是batch-norm和leaky-relu，然后是一个全连接层。3.4. 论适当的知觉对手在边界不可知的感知对手上训练NRP的直觉是基于广泛的研究[51]，该研究发现了深层特征与人类感知的相关性。具体来说，[51]比较了三种模型，即：VGG [37]，AlexNet [21]和SqueezeNet [19]。在[51]之后，我们通过在图中的不同层应用特征失真，从对抗的角度研究了这些模型。4.第一章我们的研究结果如下：（ a ） VGG 的感知对手比 AlexNet 和SqueezeNet 更具可转移性（关于VGG 的可见/不可见扰动的详细可转移性分析在补充材料中） ;（b）在相同的fea下，Cess对于源模型的标签空间是不可知的即，它既不依赖于特定的任务专用损失函数（例如，交叉熵）也不是地面事实标签，这使它成为一个通用算法，可以保护一个完全看不见的模型。此外，我们证明了用我们的SSP方法发现的扰动在不同数据集和任务上训练的模型之间提供了高的传递能力4. 实验4.1. 培训详细信息训练在从MS-COCO数据集中随机选择的25 k图像上进行这些图像的大小为480×480×3。使用SSP创建的对手作为NRP的输入，其相应的干净图像用作目标标签。During training, we randomly crop images of128 × 128 × 3.批量大小设置为16，训练在四个Teslav100 GPU上完成。generator和generator的学习率设置为10−4，α= 5×10−3，γ= 1×10−2，λ= 1。我们研究了在ImageNet上训练的八个模型[34]。其中五个模型是自然训练的。这些包括Inceptionv 3（Inc-v3）[40] ， Inceptionv 4 （ Inc-v4 ）， Inception Resnet v2（IncRes-v2）[39]，Resnet v2-152（Res-152）[18]和VGG-19 [37]。的其他三个模型，包括Adv-v3 [23]，Inc-v3ens 3和IncRes-v2ens [43]，都是逆向训练的。关于这些模型的具体细节可以在[23，43]中找到。4.2. 防御结果和见解(a) 攻击的普遍性：图图6、7和8展示了NRP从强对抗性噪声中恢复图像的泛化能力。表1中的定量分析表明，与先前破坏的防御[10]相比，NRP实现了对最先进攻击的强大鲁棒性[47，10]，将具有输入多样性的集成防御不变攻击（DIM TI）[10]的有效性从79降低。8%至31。9%。(b) NRP作为跨任务防御：为了测量跨任务防御能力，我们部署了NRP对抗跨域攻击（CDA）[32]，这是一种最先进的攻击，会产生各种跨域对抗性扰动。表2中的结果表明，NRP成功地完全消除了所有看不见的扰动，并证明了分类，对象检测和干扰的通用跨任务防御模型比较分层比较：VGG16VGG16SqueezeNetAlexNet90807060504030愚弄率愚弄率268表1：不同防御方法对最先进的黑盒攻击的鲁棒性（越低越好）。IncRes-v2ens用作以下的骨架模型[10]。NRP大大降低了攻击成功率。针对Inc-v3、Inc-v4、IncRes-v2、Res-v2-152和Enclave创建敌手（敌手≤16Inc-v3JPEG压缩格式[15]19.925.520.328.230.737.0TVM [15]18.830.719.434.924.444.2NIPS-r3 [42]9.824.512.926.718.041.4R P [45]6.519.88.723.913.336.8HGD [25]2.118.46.925.79.738.3[36]第三十六话19.628.017.930.423.638.6SR [31]23.036.723.638.332.549.0NRP3.24.84.59.15.111.0Inc-v4JPEG压缩格式[15]21.827.926.031.638.643.5TVM [15]19.931.824.838.429.145.6NIPS-r3 [42]11.524.615.629.514.141.9R P [45]7.921.612.128.017.239.3HGD [25]2.618.19.627.832.458.7[36]第三十六话21.128.820.732.825.039.0SR [31]25.334.129.242.339.352.3NRP3.14.44.810.35.212.5IncRes-v2JPEG压缩格式[15]24.732.431.645.947.255.7TVM [15]23.438.534.455.441.766.2NIPS-r3 [42]13.331.422.746.237.661.5R P [45]9.928.118.645.230.261.4HGD [25]3.925.419.645.132.458.7[36]第三十六话24.736.830.450.536.360.5SR [31]27.642.442.662.154.372.2NRP3.56.97.618.77.520.8Res-v2-152JPEG压缩格式[15]24.032.731.238.342.450.8TVM [15]22.038.124.541.236.855.7NIPS-r3 [42]12.530.118.034.434.452.9R P [45]8.627.414.631.126.450.4HGD [25]3.624.415.131.832.651.8[36]第三十六话24.337.123.238.634.353.8SR [31]26.341.830.249.248.463.9NRP3.46.55.811.96.317.8合奏JPEG压缩格式[15]38.143.367.777.282.583.4TVM [15]30.039.850.172.164.179.8NIPS-r3 [42]19.833.943.971.463.783.1R P [45]13.831.232.868.351.781.4HGD [25]4.929.938.673.357.782.6[36]第三十六话32.042.144.669.359.674.5SR [31]38.145.865.279.979.384.9NRP3.77.910.127.811.431.9与CDA的立场水平分割。(c) 消融：图5彻底研究了不同训练机制与我们的防御相结合的影响，并提供了以下见解：（i）相对论GAN损失提供了比普通GAN更鲁棒的解决方案，(ii) NRP性能略有下降，但没有像素损失，(iii) 没有特征损失的NRP会丢失由感知空间边界定义的监督信号，因此生成器防御攻击FGSMFGSMTIMIFGSMMIFGSMTI昏暗尺寸TI269表2：NRP在不同对抗性攻击中的可推广性。分类模型可以抵御针对Inc-v3训练的CDA，而检测和分割模型可以抵御针对Res-v2-152训练的CDA（越高越好）。（q=数量，w=权重，win=窗口大小）产品类别：防御IncRes-v2 ens [32]第32话：我的世界方法没有攻击ImageNet漫画画l∞≤8 l∞≤16 l∞≤8 l∞≤16 l∞≤8 l∞≤16没有防守97.883.030.994.056.671.623.7JPEG（q=75）97.674.918.690.142.668.018.0JPEG（q=50）96.274.219.090.143.466.019.2JPEG（q=20）94.173.421.787.051.362.718.8TVM（w=10）93.182.330.291.077.272.727.4TVM（w=30）96.081.127.393.466.470.624.1MF（win=3）95.477.327.792.466.865.022.1NRP95.695.796.095.494.295.394.1检测：防御Mask-RCNN [16]对抗CDA [32]没有防守59.935.28.140.516.841.714.8JPEG（q=75）57.641.311.941.619.444.518.3JPEG（q=50）54.641.714.539.518.547.719.9JPEG（q=20）39.730.715.128.214.730.515.3TVM（w=10）54.132.114.340.528.937.621.5TVM（w=30）58.039.910.146.821.045.417.2MF（win=3）54.732.19.041.120.437.615.2NRP54.451.550.353.553.753.254.3细分：[32 ]第32话：我的世界没有防守56.832.47.337.615.539.113.8JPEG（q=75）54.438.51138.517.841.716.9JPEG（q=50）51.538.913.436.617.34018.2JPEG（q=20）37.128.814.026.313.828.314.3TVM（w=10）50.829.813.237.626.634.919.8TVM（w=30）54.437.19.343.719.342.315.9MF（win=3）51.529.88.336.018.834.913.9NRP51.348.447.350.350.850.251.4100908070605040清洁FGSMTIMIFGSM TIDIM TI图5：消融。与GNP和FGSP相比，建议的NRP能够从强黑盒集成攻击中恢复输入样本[10] 没有Lfeat训练的NRP表现不佳，指示感知损失的重要性。Top-1精度（更高更好）在ImageNet-NeurIPS上报告了IncRes-v2 ens [43]。不收敛到一个有意义的状态，（iv）高斯平滑（高斯噪声数据增强）被证明是有用的，在减少分类器的对抗脆弱性[8，49]。训练NRP作为高斯降噪器，名为Gaus-NRP（拟定）无像素损失的NRP有GAN损失的NRP FGSPGNP无特征丢失的Accuray270表3：BPDA [6]和DIMTI [10]攻击NRP的成功率（越低越好）。Res-v2 -152 [18]与其他净化器网络（ResG [24]，UNet [33]）相结合。然后，对手被转移到自然和对抗训练的模型。NRP保护骨干网络，即使攻击者试图绕过使用BPDA技术。（攻击迭代：10，≤ 16）源攻击NRPInc-v3Inc-v4IncRes-v2Adv-v3Inc-v3ens3IncRes-v2ensRes-v2-152尺寸TI✗77.477.974.251.256.247.7ResG测试仪 Res-v2-152DIMTI BPDA✓29.726.219.622.322.116.1联合国网络数据库-v2 -152DIMTI BPDA✓29.027.119.526.927.718.8阿富汗猎犬（0.73，）豪猪（0.64，）红猴（0.53，）长尾猴（0.77，）起重机（0.55，磅）帝王蝶（0.65，）蜣螂（0.90，）灰蝶科（0.94，）吸蜜鹦鹉（0.94，）火烈鸟（0.90，）图6：NRP对不同对手的可推广性的直观说明（攻击≤16）（上：攻击;下：纯化）。我们的方法可以清除SSP应用于对抗鲁棒模型产生的具有挑战性的对抗模式[11]。以前的去噪方法不是针对这种结构化噪声设计的。这里使用的是IncRes-v2 ens主干。(see补充材料更多的例子）模拟噪声净化器（GNP）并不能有效地对抗攻击不变攻击[10]，以及（v）训练NRP以稳定FGSM对手（图中称为FGSP）。（5）表现相对好于GNP。(d) 如果攻击者知道防御：我们研究表4：跨任务SSP攻击：SegNet-Basic [4]在Camvid测试集[5]上显示了像素级精度，而mAP（具有IoU）= 0.5）。语义段SegNet [4] 79.70 52.48 32.59这一困难的情况与以下标准：（i）在─tacker知道防御已经部署，并且可以访问它的训练数据和训练机制，（ii）at- tacker训练类似于NRP的本地防御，然后使用BPDA [6]绕过防御。为了模拟这次袭击，我们用与第二节中描述的相同的训练机制训练残差生成器（ResG）[24]和UNet [33]4.1.然后，我们将BPDA[2]与防御不变攻击相结合，以绕过NRP。在这些挑战性设置下，NRP显示IncRes-v2和IncRes-v2ens的相对增益分别为74%和66%（见表3）。4.3. 自监督扰动作为一种攻击接下来，我们评估SSP作为分类，检测和分割任务的攻击的强度产品类别：表5 比较了SSP 与FGSM [12]、R-FGSM[43]、I-FGSM [ 13]、MI-FGSM [9]、TAP [52]和DIM [47]使用其标准超参数（参见sup-问题方法没有攻击 SSP（l∞≤8）SSP（l∞≤16）实例分段[16]第十六话56.829.48.8对象检测RetinaNet [27]53.7822.755.16[16]第十六话59.5031.89.7271补充材料）。表5中的结果提供了以下见解。（i）SSP在自然和对抗训练的模型上始终表现出强大的黑箱对抗可转移性，将IncRes-v2的top-1准确性从100降低。0%至14。1%，（ii）虽然MI-FGSM [9]和DIM[47]在前1准确度方面在经过逆向训练的集成模型[ 43 ]上表现稍好，但SSP在前5准确度方面表现出相当的前1率和超越，以及（iii）这些结果表明基于决策边界的攻击将输入样本的标签翻转到附近的类别类别，而SSP对决策级信息的不可知性使对手远离原始输入类别。272DIM [47]：威尔士斯普林格犬（0.52，）纯化：博美犬（0.88，）DIMTI [10]：可卡犬（0.71，）纯化：博美犬（0.86，）图7：NRP成功地从最强的黑盒攻击（l∞ ≤ 16）中恢复了不同的模式。 IncRes-v2 ens用作骨架。CDA [32]：Adversarial Prediction for AdversarialPurified图8：NRP成功地消除了CDA[32]（λ≤16）产生的扰动，并稳定了Mask-RCNN [16]预测。表5：SSP作为分类攻击。在非目标l∞下报告Top-1（T-1）和Top-5（T-5）精度针对ImageNet-NIPS的对抗攻击，扰动预算l∞≤ 16。攻击自然训练Adv. 训练Inc-v3Inc-v4RES-152IncRes-v2VGG-19Adv-v3Inc-v3ens3IncRes-v2ensT-1 T-5T-1 T-5T-1 T-5T-1 T-5T-1 T-5T-1 T-5T-1 T-5T-1 T-5RES-152FGSM [12]55.1 81.162.6 85.118.9米 44.7米65.0 86.543.970.464.6 85.876.9 93.587.9 98.2R-FGSM [43]60.8 84.368.4 88.114.6米 40.3米71.9 90.355.871.474.8 92.381.1 96.087.1 97.5I-FGSM [13]80.9 96.785.3 97.80.9*10.8米93.1 98.875.994.889.2 99.290.5 97.994.6 99.5MI-FGSM [9]38.9 72.744.8 76.50.6*2.9米47.7 79.642.171.867.0 89.969.4 93.381.5 96.4TAPs [52]48.2-55.7-7.6米-55.2---49.2-57.8-64.1-DIM [47]15.9 44.017.3 48.40.8*3.0分20.0 50.225.656.355.8 82.854.9 84.271.5 93.1VGG16FGSM [12]32.6 58.638.4 62.638.5 66.344.5 68.58.825.151.7 75.354.9 81.770.8 90.7R-FGSM [43]44.4 69.547.6 75.151.1 78.856.4 78.811.231.865.5 87.466.7 89.277.5 93.6I-FGSM [13]69.2 93.075.2 93.779.0 96.285.6 96.814.449.383.5 97.783.9 96.792.1 98.8MI-FGSM [9]20.4 45.019.7 43.225.2 53.826.8 53.81.512.143.0 70.942.0 72.762.0 86.8TAPs [52]23.9-28.1-23.9-32.3---38.8-41.9-63.8-DIM [47]14.7 38.816.6 39.021.0 48.021.5 45.70.67.635.8 65.831.860.853.779.5FFF [30]61.7 80.760.8 78.772.8 90.176.1 90.144.068.079.6 93.183.1 93.192.8 98.5SSP5.311.05.911.916.529.514.125.52.76.825.943.240.258.358.075.0跨任务对抗攻击：由于SSP是损失不可知的，它使攻击完全不同的任务。表4探讨了用于对象检测和图像分割的 SSP 。对于分割，在 VGG-16 特征空间中的CAMVID [ 5 ]上创建的自监督扰动能够将Segnet-Basic的每像素精度降低47。11%在l∞≤16范围内。对于对象检测，在 MS-COCO 验证集 [28] 上，平均精度（mAP）为0。5 RetinaNet的交集（IOU）[27]和Mask-RCNN [16]从53下降。78%到5。16%和五十九5%至9。7%，在l∞≤16.5. 结论我们提出了一种新的防御方法，消除有害的扰动使用adversarially训练净化器。我们的防御不需要大量的训练数据，并且独立于标签空间。它对看不见的最先进的攻击表现出高度的通用性，并可有效地防御各种任务，包括分类，分割和对象检测。值得注意的是，我们的防御是能够消除结构化的噪声模式，其中一个adversar- ial图像被恶意嵌入到原始图像。273引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。3[2] Anish Athalye、Nicholas Carlini和David A.瓦格纳。Ob-fuscated梯度给人一种错误的安全感：对抗性例子的循环防御。在2018年的国际机器学习会议（ICML）上。二、七[3] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。国际机器学习会议（ICML），2017年。2[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39：2481-2495，2017。7[5] Gabriel J Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高清晰度地面实况数据库。Pattern Recognition Letters ， 30 （ 2 ）： 88-97 ， 2009.七、八[6] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。三、七[7] NeurIPS挑战。 https://www.kaggle.com/c/[16] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面具R-CNN。2017年IEE

下载后可阅读完整内容，剩余1页未读，立即下载