对抗性攻击中的特征去噪提高对抗鲁棒性

186 浏览量更新于2023-10-19 收藏 2.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

501提高对抗鲁棒性的特征去噪方法谢慈航1，2杨宇昕吴2劳伦斯·范德马滕2艾伦·尤耶1何开明21约翰·霍普金斯大学2Facebook AI Research摘要对图像分类系统的对抗性攻击对卷积网络提出了挑战，并为理解它们提供了机会。这项研究表明，对图像的对抗性扰动会导致这些网络构建的特征中的噪声。受此观察的启发，我们开发了新的网络架构，通过执行特征去噪来提高对抗鲁棒性。具体来说，我们的网络包含使用非局部均值或其他过滤器对特征进行降噪的块;整个网络都是端到端训练的当与对抗训练相结合时，我们的特征去噪网络在白盒和黑盒攻击设置中大大提高了对抗鲁棒性的最新水平。在ImageNet上，在10次迭代PGD白盒攻击下，现有技术的准确率为27.9%，我们的方法达到了55.7%;即使在极端的2000次迭代PGD白盒攻击下，我们的方法也能保证42.6%的准确率。我们的方法在2018年对抗性攻击和防御竞赛（CAAD）中排名第一-它在一个秘密的、类似ImageNet的测试数据集上对48个未知攻击者实现了50.6%的分类准确率，超过了亚军方法10%。代码可在https://github.com/facebookresearch/ImageNet-Adversarial-Training上获得。1. 介绍对图像分类系统的对抗性攻击[20]给图像添加了小的扰动，导致这些系统做出错误的预测。虽然扰动通常是不可感知的或被视为图像中的小对抗性攻击的成功导致了卷积网络在现实世界中的安全威胁，但同样重要的是，它表明这些网络执行的计算与人类大脑中的计算截然不同图1显示了一个随机选择的ResNet [9]的特征图，该特征图应用于干净的图像（顶部）和其广告上*在Facebook AI Research实习期间完成的工作43210清洁43210对抗性图1. ImageNet训练的ResNet-50 [9]的res 3块中的特征映射应用于干净的图像（顶部）和其反向扰动的对应物（底部）。对抗扰动使用PGD [16]产生，最大扰动为16（256个）。在该示例中，对抗图像被错误地识别为“空间加热器”;真正的标签是“数字钟”。受扰动的对应物（底部）。该图表明，对抗性扰动虽然在像素空间中很小而干净图像的特征似乎主要集中在图像中的语义信息内容上，对抗图像的特征图也在语义无关的区域中被激活。图2显示了具有相同模式的更多示例。受此观察的启发，我们探索了特征去噪方法，以提高卷积网络对对抗性攻击的鲁棒性我们开发了新的卷积网络架构，配备了旨在消除特征图噪声的构建模块。我们的网络在逆向生成的样本上进行端到端的训练，使它们能够学习减少特征图的扰动。从经验上讲，我们发现使用非局部均值[2]进行特征去噪的网络实现了最佳性能，从而导致与自我注意[23]和非局部网络[24]相关的模型。我们的消融研究表明，使用均值滤波器，中值滤波器和双边滤波器[21]进行特征去噪也可以提高对抗鲁棒性，这表明特征去噪是一个很好的设计原则。50243332221110004333222111000图2.更多的例子类似于图1。我们展示了对应于干净图像（上图）和它们的对抗扰动版本（下图）的特征图。每对示例的特征图来自同一ResNet-50中的res3块的同一通道，该ResNet-50在干净图像上训练。攻击者在像素域中具有最大扰动λ= 16我们的模型在对抗ImageNet上极具挑战性的白盒攻击的对抗鲁棒性方面优于最先进的模型[18]。在10次迭代PGD攻击[16]下，我们报告ImageNet的分类准确率为55.7%，大大超过了现有技术即使面对其他文献中没有探索过的极其复杂的2000次迭代PGD攻击，我们的模型也达到了42.6%的准确率。我们的消融实验还表明，特征去噪一致地改善了白盒设置中的对抗性防御我们的网络在黑盒攻击设置下也非常有效。基于我们方法的网络在最近的对抗性攻击和防御竞赛（CAAD）2018中赢得了防御赛道，在严格的“全有或全无”标准下，对48个未知攻击者与CAAD 2018年亚军模型相比，这是10%的绝对（20%的相对）准确性提高。我们还进行了消融实验，其中我们防御了CAAD2017 [13]中五个最强的攻击者，展示了特征去噪的潜力。2. 相关工作对抗性训练[6，10，16]通过在训练过程中动态生成的对抗性图像上训练网络来抵御对抗性扰动。对抗性训练构成了对抗白盒攻击的对抗性鲁棒性的当前最先进技术; we use it to train训练our networks网络. 对抗性logit配对（ALP）[10]是一种对抗性训练，它鼓励网络对干净图像的logit预测与其对抗性对应物相似。ALP可以被解释为对增加对抗鲁棒性的其他方法包括像素去噪。Liao等人[15]建议使用高-层次特征引导像素去噪;相反，我们的去噪直接应用于特征。Guo等[8]通过不可微图像预处理（如图像拼接[4]、总方差最小化[17]和量化）对图像进行变换。虽然这些防御在黑盒设置中可能有效，但它们可以在白盒设置中被规避，因为攻击者可以近似其不可微计算的梯度[1]。与[8]相比，我们的特征去噪模型是不同的，但仍然能够提高对抗非常强的白盒攻击的对抗3. 特征噪声对抗图像是通过向图像添加扰动来创建的，将扰动的幅度约束为在某个范数方面很小（例如，L∞或L2）。扰动被假定为人类无法察觉，或者被认为是不妨碍人类的噪声。视觉内容的识别。虽然扰动在像素级被约束为很小，但在卷积网络中的特征级没有施加这样的事实上，当图像通过网络传播时，由对抗图像引起的特征扰动逐渐增加[15，8]，并且特征图中不存在的激活被幻觉化。换句话说，网络中的层执行的转换加剧了扰动，并且由于真实信号，幻觉激活可能会压倒激活，这导致网络做出错误的预测。我们通过可视化它们产生的特征图来定性地展示对抗图像给定一个干净的图像和它的反向扰动对应物，我们使用相同的网络（这里是ResNet-50 [9]）来计算它在隐藏层中的激活图1和图2显示了从网络中间（特别是从res3块）提取的干净图像和对抗图像上的相同特征图的典型示例。这些数字对抗性清洁5030.80.60.40.202.41.81.20.601.510.50图3. 去噪操作之前（左）和之后（右）的对抗图像及其特征图（图4中的蓝框）。这里，每对特征图都来自同一个逆向训练的ResNet-50中的res3块的同一个通道，该ResNet-50配备了（高斯）非局部均值去噪块。攻击者对于每个像素具有最大扰动f =16揭示了与对抗图像对应的特征图在没有类似特征噪声的相关视觉内容的区域中具有激活。假设强激活表明存在关于图像内容的语义信息（正如经常假设的那样[27]），由对抗性图像产生的幻觉激活揭示了模型预测被改变的原因。在这项研究中，我们试图解决这个问题的特征去噪。在图3中，我们可视化了对抗图像的特征图，就在特征去噪操作之前和之后（详见下一节）。该图显示，特征去噪操作可以成功地抑制特征图中的大部分噪声，并使响应集中在视觉上有意义的内容上。在接下来的部分中，我们将展示经验证据，表明执行特征去噪操作的模型确实提高了对抗鲁棒性。在我们继续描述我们的方法之前，我们注意到，虽然特征噪声可以很容易地定性观察到，但很难定量测量这种噪声。我们发现，比较不同模型之间的特征噪声水平是非常重要的，特别是当网络架构和/或训练方法（标准或对抗）发生变化时。例如，在端到端训练的网络中添加去噪块往往会改变所有特征的幅度/分布。尽管如此，我们认为观察到的特征的噪声外观反映了与对抗图像相关的真实现象。1×1转换去噪操作图4.通用去噪块。它包装去噪操作（例如，非局部均值，双边，均值，中值滤波器），具有1×1卷积和身份跳过连接[9]。4. 去噪特征映射受上述经验观察的启发，我们提出通过在卷积网络的中间层添加去噪块来提高对抗鲁棒性去噪块与所有层联合训练使用对抗性训练以端到端的方式对网络进行评估。端到端对抗训练允许结果网络（部分）消除依赖于数据的特征图噪声，即，由订书机产生的噪音。它还通过考虑早期层中的变化如何影响后期层的特征/噪声分布来自然地处理跨多个层的噪声。从经验上讲，我们发现性能最好的去噪块受到机器翻译中常用的自我注意力转换器[23]和用于视频分类的非本地网络[24在这项研究中，我们专注于去噪模块的设计，并研究其去噪效果。除了非局部均值之外，我们还在卷积网络中尝试了更简单的去噪操作，如双边滤波、均值滤波和中值滤波4.1. 去噪块图4显示了我们的去噪块的通用形式。块的输入可以是卷积神经网络中的任何特征层去噪块通过去噪操作（诸如非局部去噪）来处理输入特征。方法或其他变体。去噪表示首先由1×1卷积层处理，然后通过残差连接添加到块1图4中的设计受到自我注意力[23]和非局部块[24]的启发。然而，只有去噪块中的非局部均值[2]操作实际上在进行去噪; 1×1卷积和残差连接主要用于特征组合。虽然各种操作可以抑制噪声，它们也可以影响信号。剩余连接的使用可以帮助网络1在我们的术语中，504高×宽×2561×1转换高×宽（softmax）HW×HWHW×256HW×256HW×256256×HW高×宽×256我保留信号，并且通过1×1卷积来调整去除噪声和保留信号之间的权衡，该卷积是与整个网络端到端学习的。我们将介绍消融研究，表明残余连接和1×1卷积都有助于有效消融。去噪块的有效性类的泛型形式去噪块允许我们探索各种去噪操作，如下面介绍的。4.2. 降噪操作我们在去噪块中使用四种不同的去噪操作实例进行实验。非本地手段。非局部均值[2]通过取所有空间位置L中的特征的加权均值来计算输入特征图x的去噪特征图y：X图5.使用非局部均值作为其去噪操作的块蓝色部分说明了方程中非局部均值的实现（一）. 特征张量的形状被注意到，与cor-1yi=Σ f（xi，xj）·xj，（1）执行的响应整形/转置：这里，H和W是特征图的高度和宽度，我们使用256个变化。C（x）<$j∈L其中f（xi，xj）是特征相关加权函数，C（x）是归一化函数。我们注意到，在Eqn. （1）在xj上，而不是另一个Nels为例。如果使用softmax，它是高斯版本（使用适当的1×1卷积嵌入;在此图中省略）;如果不使用softmax，则为点积版本。去噪正式定义为：与[23，24]不同，xj的嵌入-去噪直接在输入特征x上，并且保持y和x中的特征通道之间的对应关系在[24]之后，我们1yi=C（x）Σj∈Ω（i）f（x i，x j）·x j.（二）分两种形式：1T此方程仅与Eqn不同（1）在该邻居中─• 高斯（softmax）集f（xi，xj）=eθ（xi）φ（xj）DHood，Hood（i），它是局部区域（例如，3×3贴片）其中θ（x）和φ（x）是的两个嵌入版本，x（通过两个1×1c×n解获得），d 是通道数，C=<$j∈Lf（xi，xj）. 注意f/C是softmax函数，此版本为在[24]中显示为等效于基于softmax的，自我注意力计算[23]。• 点积集合f（xi，x j）=xTx j和C（x）=N，其中N是x中的像素数。不像高斯非局部均值，在点积非局部均值中加权均值的权重之和不然而，定性评估表明，它确实抑制了特征中的噪声。实验还表明，该版本提高了对抗鲁棒性。有趣的是，我们发现，它是不必要的嵌入x的点积版本的非本地的手段，该模型工作良好。这与高斯非局部均值不同，在高斯非局部均值中嵌入是必不可少的。点积版本提供了一个没有额外参数的去噪操作（图5中的蓝框）。图5改编自[24]，显示了基于非局部均值的去噪块的实现。双侧滤波器。很容易把方程中的非局部平均值。（1）转化为“局部均值”。这样做会导致经典双边滤波器[21]，该滤波器在边缘保留方面很受欢迎在像素i周围。在等式中（2），我们考虑高斯和点积实现的权重如前。均值滤波器。也许最简单的去噪形式是均值滤波器（步长为1的平均池化均值滤波器降低了噪声，但也平滑了结构，因此可以合理地预期它们的性能比上述加权均值差。然而，有些令人惊讶的是，实验表明，使用均值滤波器作为去噪操作的去噪块仍然可以提高对抗鲁棒性。中值滤波器。最后，我们考虑一个有趣的去噪滤波器，它很少在深度网络中使用：中值滤波中值滤波器定义为：yi=median{<$j∈<$ （ i ）： xj} ，（3）其中中值在局部区域上，并且对于每个信道单独地执行。中值滤波器被认为擅长去除椒盐噪声和类似的离群值。训练包含中值滤波器的卷积网络是一个开放的问题，但我们通过实验发现，使用中值滤波器作为去噪操作也可以提高对抗鲁棒性。总之，我们的研究探索了丰富的去噪操作集合。秒6报告了上述所有去噪操作的结果。、5055. 对抗训练我们展示了在非常强的基线上进行特征去噪的有效性我们强大的实验结果部分是由对抗训练的成功实施驱动的[6，16]。在本节中，我们描述了对抗训练的实现，它用于训练基线模型和我们的特征去噪模型。对抗训练的基本思想[6，16]是在对抗扰动的图像上训练网络。可以由给定的白盒攻击者基于模型的当前参数来生成经自适应扰动的图像。我们使用投影梯度下降（PGD）2[16]作为对抗训练的白盒攻击者。PGD攻击者。PGD是一个迭代攻击者。在每次迭代中，它在损失函数w.r.t.图像像素值基于相反选择的输出目标。接下来，它将得到的扰动图像投影到可行解空间中-在干净图像的最大每像素扰动的范围内（即，受L∞约束）。在对抗训练期间，PGD攻击者的超参数是：对于每个像素的扰动n= 16，攻击步长α= 1，攻击迭代次数n= 30。对于对抗训练中的这种PGD，我们可以通过干净的图像初始化对抗图像，或者在允许的范围内随机初始化对抗图像[16]。我们在对抗训练期间从PGD攻击者的两个初始化中随机选择：20%的训练批次使用干净的图像来初始化PGD，80%的训练批次使用允许范围内的随机点。使用对抗图像进行分布式训练。对于每个小批量，我们使用PGD为该小批量生成对抗图像。然后我们对这些扰动图像执行一步SGD并更新模型权重。我们的SGD更新完全基于对抗性图像;小批量不包含干净的图像。因为单个SGD更新之前是n步PGD（n= 30），所以对抗训练中的总计算量比标准（干净）训练大1.2n×为了使对抗训练切实可行，我们每-在128个GPU上使用同步SGD形成分布式训练。每个小批量包含每个GPU 32个图像（即，总小批量大小为128×32= 4096）。我们遵循[7]3的训练配方来训练具有如此大的小批量的模型。在ImageNet上，我们的模型总共训练了110个epoch;我们在第35、70和95个epoch将学习率降低了10倍使用0.1的标签平滑[19在128个Nvidia V100 GPU上进行对抗训练所需的总时间约为38小时。线ResNet-101模型，以及基线ResNet-152模型约52小时2公开网址：https://github.com/MadryLab/cifar10_challenge3使用公开可用的Tensorpack框架实现[25]。6. 实验我们在ImageNet分类数据集[18]上评估了特征去噪，该数据集在1000个类中有128万张图像。遵循ImageNet上对抗图像的常见协议[1，10]，我们在白盒设置下评估时考虑了有针对性的攻击，其中目标类是随机均匀选择的;我们的对抗训练中也使用了有针对性的攻击。我们评估了50k ImageNet验证图像的前1分类准确度，这些图像受到攻击者的不利干扰（不考虑其目标），也遵循[1，10]。本文考虑了在L∞范数下的对抗扰动（即，每个像素的最大差异），允许的最大值为1/2。该值与像素强度标度256相关。我们的基线是ResNet-101/152 [9]。默认情况下，我们向ResNet添加4个去噪块：每一个分别被添加在RES2、RES 3、RES 4和RES 5的最后残余块之后。6.1. 白盒攻击遵循ALP [10]的协议，我们报告了针对PGD作为白盒攻击者的防御结果。[4]我们用=16进行评估在[16]之后，PGD白盒攻击者从允许的随机立方体内的随机点对对抗扰动进行我们将其步长设置为α= 1，除了10次迭代的迭代，其中α设置为α/10=1。六、我们考虑的PGD攻击迭代次数从10到2000不等。主要成果。图6显示了主要结果。我们首先与ALP [10]进行比较，这是以前的最先进技术。在Inception-v3[ 19 ]上，在[ 10 ]中的10次迭代PGD攻击下对ALP进行了评估。它在ImageNet验证图像上实现了27.9%的准确率（图6，紫色三角形）。图6中的ResNet-101和ResNet-152是我们使用对抗训练实现训练的基线模型（没有即使使用R-101的低容量模型，我们的基线也非常强大-在10次迭代PGD攻击下具有49.7%的准确率，明显优于ALP结果。这说明我们的对抗训练体系是扎实的;我们注意到，与ALP的通信是在系统级上的，因为它们在其它方面（骨干网、实现等）不同。“R-152,这里我们展示了性能最好的版本（高斯非局部），接下来我们将对其进行消融。存在由去噪块引入的一致的性能在10次迭代PGD攻击下，它将ResNet-152基线的准确率从52.5%提高到55.7%（图6，右）。4我们还评估了其他攻击者，包括FGSM [6]，迭代FGSM [12]及其动量变体[3]。与[10]类似，我们发现PGD是其中最强的白盒攻击者。506ALP、Inception-v3ours、R-101基线ours、R-152基线ours、R-152去噪准确度（%）555555.752.553.35045.54544.443.342.82000-iterPGD攻击42.65049.74550.047.349.946.143.248.644.947.943.846.846.446.0四十五点八42.8四十二点四45.541.740三十八点七3540.437.239.638.936.435.935.83542.040.840.042.141.9四十一点七39.639.339.0三十八点七3027.9ALP3027.9ALP2510100200 400 600 800 1000 1200 1400 1600 18002000攻击迭代2510 20 30 40 50 60 70 80 90 100攻击迭代图6.ImageNet上的白盒攻击防御。左图显示了针对白盒PGD攻击者的结果，攻击迭代。右边的图放大了10到100次攻击迭代的结果最大扰动为λ=16。我们的结果是强大的，即使在2000迭代PGD攻击。据我们所知，这种强大的攻击以前没有在ImageNet上探索过。ALP [10]仅针对10次迭代PGD攻击进行了评估（图6），其声称的鲁棒性受到争议[5]。针对2000次迭代的PGD攻击，我们的ResNet-152基线具有39.2%的准确率，其去噪对应物优于3.4%，达到42.6%。我们还观察到，攻击者每一次攻击次数随着1000- 2000次攻击迭代而减少。我们注意到，在这种白盒设置中，攻击者可以通过去噪块迭代反向传播，并创建针对去噪器定制的对抗扰动。最近的工作[1]报告说，像素去噪方法可以被白盒设置中的攻击者规避。相比之下，特征去噪导致白盒设置中的一致改进，这表明特征去噪块使欺骗网络变得更加困难。10 20 304050 60 70 80 90 100攻击迭代去噪操作的变体。接下来，我们评估第二节中的去噪操作的变量。4.第一章在这些消融中，我们将不同类型的块添加到基线ResNet-152。我们考虑以下去噪操作：3×3均值滤波、3×3中值滤波、3×3双边滤波（等式（2）非局部滤波。在我们的消融研究中，我们进一步考虑去噪块的“空“版本：图4中的块变成具有单个1×1卷积的平凡的残差块。此外，我们还比较了添加4个标准瓶颈[9]块-本质上是ResNet-164。所有模型都是通过对抗训练来训练的。图7显示了白盒攻击的结果;为了简单起见，我们在这个消融中显示了多达100次攻击迭代的PGD攻击者。所有这些去噪操作的准确性都优于：（i）ResNet-152基线，（ii）添加4个标准瓶颈块，以及（iii）添加4个“空”去噪块。值得注意的是，1×1 null版本具有确切的图7. 消融：去噪变体，用于防御ImageNet上的白盒攻击在ResNet-152基线上，所有其他模型都向其添加4个区块。攻击者在不同攻击迭代下为PGD，其中，PGD=16。所有去噪模型都优于R-152基线和与均值滤波、中值滤波和双边/非局部滤波的点积版本（其没有嵌入）相同数量的额外参数空版本比所有版本都差（图7）。此外，虽然添加标准瓶颈块是有帮助的，但添加任何版本的去噪块更准确。这些结果表明，额外的参数不是我们精度提高的主要原因;特征去噪似乎是对对抗鲁棒性特别有用的一般方法。我们的最佳性能模型是由非局部（高斯）版本给出的，除非另有说明，否则我们在本文的其他部分默认使用该版本。有趣的是，这个高斯版本只是稍微好于点积版本。5655.75453.552.55250484645.54443.44241.7ResNet-152基线+4瓶颈（ResNet-164）+4去噪：空（仅1x1）+4降噪：3x3平均值+4降噪：3x3中值+4去噪：双侧，点刺激+4去噪：双侧，高斯+4降噪：非局部，点产生+4去噪：非局部，高斯ALP、Inception-v3ours、R-101基线ours、R-152基线ours、R-152去噪准确度（%）准确度（%）507攻击迭代10 100非局部高斯55.7 45.5删除1×1除去残留52.1 36.8楠楠表1. 消融：去噪块设计，用于防御ImageNet上的白盒攻击。我们的网络有四个（高斯）非局部均值去噪块。我们用“NaN”表示我们无法训练的模型的性能去噪模块的设计决策。图4中的去噪块有一个1×1层和一个残差连接。虽然这两个组件都不执行去噪，但它们对于去噪块的良好工作是重要的。接下来，我们消除1×1和剩余连接的行为。该消融见表1。我们使用四个非局部高斯去噪块来研究ResNet-152。所有模型都是通过对抗训练来训练的。当去除去噪块中的1×1卷积时，准确度会显著下降-例如，在100次迭代的PGD攻击下从45.5%下降到36.8%。另一方面，去除剩余连接会使训练不稳定，在对抗训练这些结果表明，去噪功能本身是不够的。由于抑制噪声也可以去除有用的信号，因此在去噪块中将去噪特征与输入特征适当地组合似乎是必要的。6.2. 黑盒攻击接下来，我们评估对黑盒攻击的防御。为了获得一组公正但具有挑战性的攻击者，我们研究了NIPS 2017CAAD竞赛的5个最佳攻击者[13]，其代码是公开的。我们使用最新的CAAD 2018评估标准，我们称之为这对防守者来说是一个具有挑战性的评估场景。在CAAD黑盒设置之后，每个像素的最大扰动为32，这也使得防御更加困难。请注意，我们的模型是用k= 16训练的。表2显示了在ImageNet验证图像上防御黑盒攻击的结果为了突出新的我们发现，它主要是脆弱的五个攻击者5，6中的两个。如果我们除掉这两个袭击者，[15]在“全有或全无”的设置中有13.4%的准确率在“全有或全无”的标准下，我们的ResNet-152基线对所有五个攻击者的准确率为43.1%。这个数字表明，成功实施对抗训练对于对抗鲁棒性至关重要。5https://github.com/pfnet-research/nips17-adversarial-attack6https://github.com/toshi-k/kaggle-nips-2017-adversarial-attack表2. ImageNet上的黑盒攻击防御。我们在ImageNet验证集上显示了前1名的分类准确率攻击者是CAAD 2017中最好的5名攻击者我们采用CAAD 2018在这个严格的标准下，2017年的获胜者有0.04%的准确率，如果我们去除最容易受到攻击的2个攻击者，它在剩下的3个攻击者下有13.4%的准确率。在我们强大的ResNet-152基线之上，添加四个非局部去噪块将准确率提高到46.4%（表2）。有趣的是，高斯和点产品版本的表现相似（46.4%vs.46.2%），尽管高斯版本由于其嵌入而具有更多参数此外，空值版本的准确率为44.1%，甚至比非局部点积版本的准确率更低。尽管它们具有相同数量的参数;这个1×1的空版本比ResNet-152基线好1.0%。我们还研究了去噪块的局部变体，包括均值、中值和双边滤波器。在这种黑箱环境下，它们的准确率为43.6%~44.4%。它们的结果并不比零版本的结果更好。这表明非局部去噪是比局部去噪更重要的是对这些黑盒攻击者的鲁棒性。挑战极限。为了检查我们模型的潜力，我们将去噪块添加到ResNet-152中的所有残差块中（每个残差块后一个去噪块）。我们在这里只研究非局部高斯版本。为了使训练可行，我们使用了[24]中的子采样技巧：等式中xj的特征图。（1）在执行非局部均值时被二次采样（通过2×2最大池化）注意到x1的特征图仍然是全尺寸的。我们在这种情况下只使用子采样。达到49.5%。在黑盒设置下，这比ResNet-152基线的43.1%好6.4%CAAD 2018挑战赛结果。最后，我们报告了最新的CAAD 2018竞赛的结果。2018年的防御轨道采用了上面提到的测试数据是一个秘密的、类似于ImageNet的数据集。每个像素的最大扰动为λ= 32。模型准确度（%）CAAD 2017获奖者0.04CAAD 2017年冠军，3名以下攻击者13.4我们的R-152基线43.1+4去噪：空（仅1×1）44.1+4去噪：非局部，点积46.2+4降噪：非局部，高斯46.4+所有降噪：非局部高斯49.55080 10 20 30 40 50第一次第二次第三次第四次月5图8. CAAD 2018对抗性防御赛道的结果。第一名的参赛作品是基于我们的方法。我们在这里只展示了20多个参赛作品中的5个获奖作品图8显示了CAAD 2018防御轨道中5个最佳条目的准确性。蓝色条中显示的获奖作品是基于我们的方法，使用ResNeXt- 101-32×8骨干[26]，将非局部去噪块添加到所有残差块中。此条目仅使用单个-作物，单一模型测试。它对48个未知攻击者的准确率达到50.6%。这比第二名的40.8%的准确率高出10%的我们还在ImageNet上报告了这个获奖作品的白盒性能在10次迭代PGD攻击和100次迭代PGD攻击下，该算法分别获得了56.0%和40.4%的准确率这些结果略差于第6.1节中报告的基于ResNet-152的模型的稳健性。我们注意到，这种白盒鲁棒性比较是在系统级上进行的，因为获胜的条目是用稍微不同的参数设置训练的。我们强调，CAAD 2018防御任务非常具有挑战性，因为实际上，除了两支领先的球队，<10%的准确率，其中许多人只有1%的准确率。这突出了我们50.6%准确率的重要性。6.3. 非对抗性环境到目前为止，我们一直专注于去噪块，以改善对抗性防御。因为我们的去噪块是卷积网络的组成部分，所以这些网络也可以在没有对抗训练的情况下进行训练，用于对“干净”图像进行分类原始ImageNet数据集任务）。我们相信，研究非对抗性设置可以帮助我们更好地理解去噪块的特性。表3显示了没有经过对抗训练的模型的清晰图像性能。我们比较了基线R-152，添加标准瓶颈块，添加在干净的设置中，这些去噪块相比于基线R- 152、添加标准瓶颈块或添加“空”去噪块没有明显的优势。实际上，所有结果都在基线R-152结果的±0.2%范围内-如果我们也考虑自然变化，则没有显著差异。相同模型的单独训练运行之间的差异（参见表3中的基线R-152）。50.640.88.63.60.6模型准确度（%）R-152基线78.91R-152基线，运行2+0.05R-152基线，运行3-0.04+4瓶颈（R-164）+0.13+4去噪：空（仅1×1）+0.15+4降噪：3×3均值滤波器+0.01+4去噪：3×3中值滤波-0.12+4去噪：双侧，高斯+0.15+4降噪：非局部，高斯+0.17509表3.在干净图像上训练时，ImageNet验证集中干净图像的准确性除第一行外的所有数字均报告为与第一个R-152基线结果相比的准确度差异对于R-152，我们独立运行了3次训练，以显示相同架构的自然随机变化所有去噪模型均未显示出显著差异，并且在R-152基线结果的±0.2%我们还发现，在较浅的ResNet-50中添加非局部去噪块可以在非对抗性设置中将准确率适度提高0.7%，但在ResNet-152上这样做会降低增益。然而，对抗性图像的情况并非如此这些结果表明，去噪块在需要对抗鲁棒性的设置中可能具有特殊的优势。这一观察结果与我们的直觉相匹配，即去噪块旨在减少特征噪声，而特征噪声仅在对对抗图像进行分类时出现。最后，我们报告说，当在干净的图像上测试时，我们的ResNet-152基线与对抗训练具有62.32%的准确率对于去噪版本（非局部，高斯），逆向训练的网络在干净图像上的准确率为65.30%，而其干净训练的对端则为79.08%。对抗训练和干净训练之间的这种权衡在以前已经被观察到（例如，在[22]）;我们希望这种权衡是未来研究的主题。7. 结论受对抗图像中特征图的噪声外观的启发，我们已经证明了特征去噪在提高卷积网络对抗鲁棒性方面的潜力。有趣的是，我们的研究表明，有一定的架构设计（即。去噪块），这些块对于对抗鲁棒性特别好，即使与“干净”训练和测试场景中的基线模型当与对抗训练相结合时，这些特定的架构设计可能更适合于对对抗图像的底层分布进行我们希望我们的工作将鼓励研究人员开始设计具有“内在”对抗鲁棒性的卷积网络架构鸣谢：这项工作得到了一图向谢慈航和Alan Yuille提供的部分赠款的支持。510引用[1] A. Athalye，N. Carlini和D.瓦格纳。模糊的梯度给人一种错误的安全感：规避对抗性例子的防御。在ICML，2018。二、五、六[2] A.布阿德斯湾Coll和J. - M.莫瑞尔一种非局部图像去噪算法。在CVPR，2005年。一、三、四[3] Y. Dong，F.廖氏T.庞氏H. Su，X. Hu，J. Li，and J.竹以势头增强对抗性攻击。在CVPR，2018年。5[4] A. A. Efros和W. T.弗里曼。图像绗缝纹理合成和转移。SIGGRAPH，2001年。2[5] L.恩斯特罗姆，A. Ilyas和A. Athalye评估和理解对抗性logit配对的鲁棒性。arXiv：1807.10272，2018. 6[6] I.古德费洛，J。Shlens和C.赛格迪解释和利用对抗性的例子。2015年，国际会议。二、五[7] P.戈雅，P.娃娃啊，R.女孩P.诺德豪斯，L. Wesolowski，A. Kyrola，A. Tulloch，Y. Jia和K.他外精确的大批量SGD：1小时内训练ImageNet。arXiv：1706.02677，2017。5[8] C. Guo，M.Rana，M.Cisse和L.范德马滕。利用输入变换对抗对抗性图像在ICLR，2018年。2[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。一二三五六[10] H. Kannan、A.库拉金和我。古德费罗对抗logit配对。arXiv预印本arXiv：1803.06373，2018。二、五、六[11] A.克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行图像网分类NIPS，2012年。1[12] A.库拉金岛Goodfellow和S.本吉奥。物理世界中的对抗性例子。在ICLR研讨会，2017年。5[13] A.库拉金岛Goodfellow，S.本焦湾Dong，F. 獠M. Liang，T. Pang，J. Zhu，X. Hu，C. Xie，et al.，Adversarial Attacks and Defences Competition. arXiv ：1804.00097，2018。二、七[14] Y.莱昆湾博泽，J. S. Denker、D.亨德森河E. Howard，W. Hubbard和L. D.杰克反向传播应用于手写邮政编码识别。神经计算，1989年。1[15] F.廖，M. Liang，Y. Dong和T.庞使用高级表示引导去噪器对抗攻击的防御。在CVPR，2018年。二、七[16] A. 马德里 A. 马克洛夫 L. 施密特 D. 齐普拉斯和A.弗拉多对抗攻击的深度学习模型。在ICLR，2018年。一、二、五[17] L. I. Rudin，S. Osher和E.法特米基于非线性全变分的噪声消除算法。物理学D：非线性现象，1992年。2[18]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，2015年。二、五[19] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构在CVPR，2016年。5[20] C. 塞格迪，W。扎伦巴岛萨茨克弗布鲁纳D。二涵I. Goodfellow，和R。费格斯。神经网络的有趣特性见ICLR，2014年。1[21] C. Tomasi和R.曼杜奇灰度和彩色图像的双边滤波。载于ICCV，1998年。1、4[22] D. 齐普拉斯 S. 桑图尔卡 L. 恩斯特龙 A. 特纳和A.马德里对抗鲁棒性没有免费的午餐（但有意想不到的好处）。arXiv：1805.12152，2018。8[23] A. 瓦斯瓦尼北沙泽尔，北Parmar，J.乌斯科赖特湖琼斯A. N.戈麦斯湖，澳-地凯泽和我。波洛苏欣注意力是你所需要的。在NIPS，2017年。一、三、四[24] X. 王河，巴西-地Girshick，A.Gupta和K.他外非局部神经网络。在CVPR，2018年。一二三四七[25] Y. Wu et al. Tensorpack. https://github.com/tensorpack/，2016. 5[26] S. 谢河，巴西-地Girshick，P. 多拉尔，Z。 Tu和K. 他外深度神经网络的聚集残差变换在CVPR，2017年。8[27] M. D. Zeiler和R.费格斯。可视化和理解卷积神经网络。2014年，在ECCV。3

下载后可阅读完整内容，剩余1页未读，立即下载