深度神经网络对抗性样本的脆弱性及特征破坏攻击

61 浏览量更新于2023-10-12 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8069FDA：功能破坏性攻击Aditya Ganeshan是Preferred Networks Inc.，日本东京aditya@preferred.jpVivek B.S.视频分析实验室，印度科学研究所，印度svivek@iisc.ac.inR.文卡特什巴布视频分析实验室，印度科学研究所，印度venky@iisc.ac.in摘要尽管深度神经网络（DNN）在各种计算机视觉任务中表现出出色的性能，但一些工作显示出它们对对抗性样本的脆弱性，即，具有不可感知噪声的图像样本被设计为对网络的预测进行操纵。对抗样本生成方法从简单到复杂的优化技术。这些方法中的大多数通过与网络的pre-softmax或softmax输出相关联的优化目标来生成广告。在这项工作中，我们（i）显示了这种攻击的缺点，（ii）提出了两个新的评估指标：旧标签新排名（OLNR）和新标签旧排名（NLOR），以便量化攻击造成的损害程度，以及（iii）提出一种新的对抗性攻击FDA：特征破坏攻击，以解决现有攻击的缺点。FDA的工作原理是产生图像扰动，破坏网络每一层的特征这使得FDA的对手能够严重降低深度网络的性能。我们通过实验验证了FDA比其他国家产生更强大的对手(a)原始图像(c)洁净样品(b)FDA-样品(d)PGD-样品艺术方法的图像分类，即使在存在各种防御措施。更重要的是，我们表明，FDA破坏了基于特征表示的任务，即使没有访问特定于任务的网络或方法。1. 介绍随着基于深度学习的算法的出现，在各种计算机视觉应用中取得了显著的进展。然而，大量现有的工作[9 ， 49， 8 ， 39]已经清楚地表明，深度神经网络（DNN）容易受到对抗性样本的影响：输入数据包含专门用于操纵网络预测的不可感知的噪声此外，Szegedyet al. [49]表明对抗样本在模型之间转移，即，对抗样本生成一个作为印度IISc视频分析实验室成员完成的工作图1.使用特征反演[34]，我们可视化了Inception-V3 [48]的混合7b经PGD攻击的样品（d）的反转与干净样品（c）的反转显著相似。相反，FDA攻击的样品（b）的反转完全混淆了干净样品模型也会对其他不相关的模型产生不利影响。对抗样本的这种可转移性进一步增加了部署在现实世界中的DNN的脆弱性。随着DNN变得越来越普遍，特别是在决策关键型应用中，例如自动驾驶[2]，调查对抗样本的必要性变得至关重要。大多数现有攻击[49，13，33，16]通过优化与网络的pre-softmax或softmax输出相关的目标来生成这些攻击的唯一目标是生成对抗样本，这些样本被网络错误分类，具有非常高的可信度。8070信心虽然分类输出发生了变化，但尚不清楚网络的内部深度表示会发生什么。因此，我们提出一个基本问题：对抗样本的深层特征是否保留了可用的干净样本信息？在这项工作中，我们证明了使用这种攻击生成的对抗样本的深层特征保留了相应干净样本的高级语义信息。这是由于这些攻击仅优化基于 pre-softmax 或softmax分数的目标以生成对抗样本。我们通过利用特征反演[35]来为这一观察提供证据，其中，给定特征表示（x），我们优化以构建近似的mate inverse<$−1（<$（x））.利用这种能力，功能，我们强调保留干净的信息，对抗样本的深层特征对抗样本的深层特征保留了干净的样本信息，这一事实具有重要意义：• 首先，这种深度特征可能仍然适用于各种特征驱动的任务，例如字幕生成[52，58]和风格转换[21，25，51]。• 其次，这些对抗性样本导致模型要么预测语义相似的类，要么保留原始标签的（相对）高概率，同时预测一个非常不同的类。通过使用所提出的度量来捕获这些新标签这些影响是现有攻击的主要缺点，这些攻击仅优化基于pre-softmax或softmax分数的目标。基于这些观察结果，在这项工作中，我们寻找对抗性样本，这些样本可能会破坏深层特征并对特征表示造成严重损害。基于这种动机，我们引入了FDA：特征破坏攻击。FDA生成扰动，目的是以原则性的方式在网络的每一层引起特征的分散。这会导致深层特征的损坏，进而降低网络的性能。图1显示了来自干净样本、PGD [33]攻击样本和FDA攻击样本的深度特征的特征反演，突出显示了在我们提出的攻击之后缺乏干净样本信息以下是我们提出的攻击的好处：（i）FDA总是将预测标签翻转为高度不相关的类别，同时也成功地删除了干净样本的预测标签的证据。正如我们在第5节中所阐述的，其他攻击[49，30，13]只能实现上述目标之一。（ii）与现有攻击不同，FDA破坏基于特征表示的任务，例如，即使不访问任务专用网络或方法，即，它在灰盒攻击设置中是有效（三）FDA产生了比其他最先进的图像分类方法更强大的对手。即使在最近提出的各种防御措施（包括对抗性训练）的存在下，我们提出的攻击也始终优于其他现有的攻击。总之，这项工作的主要贡献是：• 我们展示了现有攻击的缺点• 我们提出了两个新的评价指标，即，NLOR和OLNR，以量化攻击方法造成的损害程度。• 我们引入了一种新的攻击，称为FDA，其动机是破坏每一层的特征。我们通过实验验证FDA为最先进的分类器创建了比ImageNet数据集上的其他攻击更强大的白盒攻击，即使存在各种防御机制。• 最后，我们成功地攻击了两个基于特征的任务，即字幕生成和风格转换其中当前的攻击方法失败或者表现出比FDA更弱的攻击。提出了一种新2. 相关作品攻击：在Szegedy等人的演示之后。[49]关于对抗性样本的存在，多个作品[22，38，29，16，4，33，13，10]已经提出了用于生成对抗性样本的各种技术。类似地，[36，57，6]等作品已经探索了其他任务的对抗样本的存在。与我们的方法最接近的作品是Zhouet al。[59]、Sabour等人。[43]和Mopuriet al. [41]。Zhou等通过同时优化多个目标（包括最后一层交叉熵项）来创建黑盒可转移对手。相比之下，我们只优化了我们的特征中断公式（参见第4.3节）。Sabour等人以使特定层特征任意地接近目标图像的特征。我们的目标是显著不同的，需要在DNN的每一层中断，而不依赖于“目标”图像表示。最后，Mopuriet al.提供了一个复杂的优化设置，而我们的方法产生图像特定的对手。我们表明，他们的方法的简单适应工艺图像特定的对手产生差的结果（参考补充材料）。辩护：Goodfellowet al.[22]首先表明，在训练机制中包括对抗样本可以提高DNN对对抗攻击的鲁棒性。在这项工作之后，8071针对对抗训练提出了多种方法[30，50，27，54，17，33]，解决了诸如梯度掩蔽和标签泄漏之类的重要问题。最近的作品[40，31，1，46，15，11]，目前许多人-让步，让步，让步：.ΣFGSM（x）=x<$=x+n·sign<$x（J（f（x），yGT））（二）对抗训练的替代品。至关重要的是，[23，56，53]等作品提出了防御技术，可以很容易地实现大规模数据集，如ImageNet。而Guoet al.[23]提出利用输入变换作为防御技术，谢等人。[56]在输入中引入随机变换作为防御。特征可视化：特征反演在机器学习中有很长的历史[55]。Mahendran等人[34]提出了一种将特征重构与正则化目标相结合的特征反演优化方法。相反，Dosovitskiy等人[18]引入神经网络，用于对重建施加图像先验。最近的作品，如[45，20]已经效仿。读者可参考[19]进行全面调查。基于网络的任务：DNN已经成为首选的特征提取器，而不是手工设计的局部描述符，如SIFT或HOG [5，7]。因此，各种任务，如captioning [52，58]和图像检索[12，24]依赖于DNN来提取图像信息。最近，已经引入了依赖于深层特征的任务，例如样式转移。虽然[25，51]等作品提出了一种基于学习的方法，但Gatys等人。[21]对所选择的深度特征执行优化。我们表明，以前的攻击创建对抗样本，仍然提供有用的信息，基于特征的任务。相比之下，FDA在没有任何任务特定信息或方法的情况下对基于功能的任务3. 预赛我们定义一个分类器f：x∈Rm→y∈Yc，其中x是m维输入，y是c 维得分向量，包含c个不同的pre-softmax得分ent类。在输出y上应用softmax可以得到c个类的预测概率，argmax（y）被用作输入x的预测标签。令yGT表示样本x的基础真值标签。现在，一个对抗样本x可以被定义为一个ny输入样本，使得：另一方面，PGD [33]和I-FGSM [22]执行一个多步骤的符号梯度上升这个目标。如[16，4]的作品，进一步集成了Momentum和ADAM优化器，以最大化目标。Kurakin等人[30]发现了标签泄漏现象，并使用预测标签代替yGT。这产生了一类攻击，其可以被称为最可能攻击，其中损失对象 ive 被改变为 J （ f（x_i），y_M_L）（其中y_M_L表示具有最大预测概率的类能力）。诸如[27，50]之类的作品指出，上述方法产生的对抗样本是弱的，在被错误分类到非常相似的类中的意义上（例如，一只被错误地归类为梗类的猎犬）。他们认为有针对性的攻击更有意义，并利用最不可能的攻击，提出最小化损失对象iveJ （f（x），yLL）（其中yLL表示具有最小预测概率的类我们用后缀ML和LL表示任何攻击的最可能和最不可能的变体Carlini等人[13]提出多个不同的目标和优化方法来生成对手。在拟议的目标中，他们推断最强有力的目标如下：Objetive（x）=（maxiML（f（x）i）−f（x）ML）+，（三）其中（e）+是max（e，0）的简写。对于l∞距离度量对手，该目标可以与PGD优化集成本节介绍的符号在整个文件中都是遵循的。特征反演：特征反演可以概括为找到其表示与给定表示最接近匹配的样本的问题[55]。我们使用Mahendran等人提出的方法。[34]。此外，为了改善反演，我们使用拉普拉斯金字塔梯度归一化。我们在补充资料中提供了更多信息4. 特征破坏性攻击4.1. 现有攻击的缺点argmax（f（x≠））yGTd（x，x<$），（1）在本节中，我们提供了定性证据，表明与对抗样本其中，d（x，x∞）<∞用作不可感知性约束，并且通常被认为是l2或l∞约束。[49，22，16，33]等攻击通过不同的优化方法找到对抗样本，但具有相同的优化目标：最大化针对广告样本x，y的交叉熵损失J（f（x，y），yGT）。快速梯度符号法（FGSM）[49]执行单步优化-由现有攻击产生（即，优化绑定到网络的softmax或前softmax层的对象的攻击），保留其相应干净样本的高级语义信息。我们使用特征反演来为这一观察提供证据。图2显示了在ImageNet数据集上训练的VGG-16 [44]架构的不同层的特征反演，8072JConv 5-1 Conv 5-2 Conv 5-3合并液5(a) 洁净样品(b) PGD-LL对抗样本(c) FDA对抗性样本图2.特征反演：干净、PGD-LL-对抗和FDA-对抗样本的逐层特征反演请注意，在FDA对抗样本的后续层中，干净样本信息被显著移除对于干净的和它相应的对抗样本。从图2中可以观察到，PGD-LL样本[33]的对抗性特征的反转与干净样本的特征反转非常相似。此外，在第5.1节中，我们统计显示了使用不同现有攻击方法生成的干净样本及其相应对抗样本的中间特征表示之间的相似性。最后，在第5.2节中，我们表明，作为保留干净样本信息的结果，这些对抗样本导致模型要么预测语义相似的类，要么保留高（比较）最终标签。这些缺点在现有的评估度量中没有被捕获，即，愚弄率。因此，我们提出了两个新的评价指标，新标签旧排名（NLOR）和旧标签新排名（OLNR）。对于给定的输入图像，C路分类器的softmax输出表示每个C类的置信度。我们把这些阶级信任度按降序排列或者-der（从1到C）。将攻击前的网络预测视为旧标签，将攻击后的网络预测视为新标签。攻击后，旧标签的等级将从1变为这个旧标签的新等级OLNR（Old Label's New Rank，旧标签的此外，在攻击后，新标签的等级将从所谓的“q”变为新标签的这个旧等级因此，更强的攻击应该翻转到具有高旧排名的标签（这将产生高NLOR），并且还降低干净预测的概率（这将产生高OLNR）。针对所有错误分类的图像计算这些度量，并报告平均值4.3.拟议攻击我们现在提出了特征破坏攻击（FDA），我们提出的攻击公式明确设计用于生成扰动，污染和破坏DNN的内部表示。所提出的攻击的目的是生成图像特定的扰动，当添加到图像时，不仅应该翻转标签，而且还应该破坏DNN每层的内部特征表示。我们首先注意到，支持当前预测的激活必须被降低，而不支持当前预测的激活必须被加强和增加。这可能导致特征表示，虽然隐藏了真实信息，但包含图像中不存在的特征的高激活。因此，对于给定的i，层li，我们想要增加的层目标L由下式给出主动地）原始标签的概率，同时预测非常不同的类。我们捕捉到了这些观察结果L（1i）=D.Σ{li（x≠）Nj|Nj/∈Si}.Σ（四）使用所提出的度量即，新标签旧排名（NLOR）和旧标签新排名（OLNR），以及第k排名的欺骗率等统计数据。4.2. 拟议评价指标攻击然而，只看愚弄率并不能呈现攻击的全貌。一方面，诸如PGD-ML的攻击可能导致标签翻转到语义相似的类别中，另一方面，诸如PGD-LL的攻击可能将标签翻转到非常不同的类别中，同时仍然保留原始标签的高（相对）概率。-D{1i（x）N}|Nj∈Si}，其中，li（x∈ N）Nj表示li（x∈ N）的第Nj 个值，Si表示支持当前预测的激活集合，D是以下的单调递增函数：|作用l（x ∈）N（在偏序集R上|act iv ationsl(x˜)N(onthepar tiallyorderedsetR）的情况。定义D为输入li（x∈ N）的l 2范数.找到集合Si是不平凡的。虽然所有高活性-假设可能不支持当前的预测，但在实践中，我们发现它是可用的近似值。我们将支持集Si定义为：S i={Nj|Ii （ x ） Ni> C} ，（ 5）其中C是集中趋势的度量我们尝试了C的各种选择，包括中位数（ li （ x ））和四分位数间均值（ li（x））.总的来说，我们找到空间平均值（li（x））=80731.0清洁特征与其对应特征之间的余弦距离。样品（一）对于每一个小块每个空间位置优化目标0.80.60.40.2（b）第（1）款（c）第（1）款0.00 50 100 150200层图3.概览图片：从网络（a），对于每个选择的特征斑点（b），我们执行优化（d），如等式6中所解释的。(c)显示了一个空间特征，其中支持集Si被着色为红色，其余的是蓝色。C（h，w）（通道平均值）是最有效的配方。最后，结合Eq. (4)以及（5），我们的层目标L变为：图4.在P-NasNet [32]架构的不同层，干净图像的特征与其对应的对抗样本之间的余弦距离。5.1. 对抗性特征的统计分析在本节中，我们将介绍从根本上激发我们的攻击公式的分析我们提出了各种实验，这些实验证明了攻击配方与.L（li）=logD.- logD.ΣΣ{li（xx）（h，w，c）|li（x）（h，w，c）Ci（h，w）}，（六）基于pre-softmax的目标在深度特征中保留干净的样本信息，而FDA在去除它们方面是有效的对于所有以下实验，所有攻击都被给予相同的优化预算（nb=8，nbiter= 0）。10，单位数=1）。报告的数字是我们在每个非线性条件下进行这种优化，网络，并按如下方式组合每层目标ΣK1000个图像样本。首先，我们测量中间体之间的相似性，使用不同的攻击方法生成的干净样本及其对应的对抗样本的特征表示，目标=−i=1L（1i），（七）耗氧物质图4示出了清洁的中间特征表示与其相应的中间特征表示之间的平均余弦距离。使得 x图3提供了所提出的方法的视觉概览。在补充文件中，我们提供了所提出的攻击的消融研究结果，即，C的不同公式，如中位数、四分位数间均值等。5. 实验在本节中，我们首先对使用现有攻击和拟议攻击生成的对抗样本对应此外，我们还证明了所提出的攻击对（i）白盒中的图像识别的有效性（第12节）。5.2)和黑盒设置（在补充文档中示出），（ii）基于特征表示的任务（第5.4)也就是说，标题生成和风格转换。我们通过元组（numb，nbiter，numiter）定义攻击的优化预算，其中numb是添加到图像的扰动的L∞范数极限，nbiter定义攻击方法使用的优化迭代次数，numiter是每次迭代时扰动的L∞响应对抗样本，用于PNasNet [32]架构上的各种攻击方法。从图4中可以观察到，对于所提出的攻击，特征不相似性比其他攻击的特征不相似性高得多。余弦距离的显着差异意味着中间特征的污染要高得多的建议攻击。我们在其他模型中也观察到了类似的趋势，在不同的优化预算（预算，预算，预算）以及（参考补充）。现在，我们在pre-logits层（即，输入到网络的分类层）。除了余弦距离，我们还测量归一化秩变换（NRT）距离。 NRT距离表示第k有序统计量的秩中的平均移位。NRT距离测量的主要优点是其鲁棒性到离群值表1列出了多个架构的预对数输出结果可以观察到，我们提出的攻击显示出优于其他方法。虽然其他攻击的pre-logits表示似乎是cor-logits-平均激活（信道索引激活值我们PGDPGD认证PGDPGD余弦距离8074表1.用于测量不同网络上的对抗性预登录和干净预登录之间的差异的方法。我们的方法FDA表现出更强的相异性。PGD-MLPGD-CWPGD-LL我们的RES-152余弦距离NRT Dist.0.4915.000.3713.560.6016.290.8119.17Inc-V3余弦距离0.510.410.490.55NRT Dist.16.1114.9717.3819.01在第5节中，我们展示了这些预对数表示为基于特征的任务提供了有用的信息。5.2. 对图像识别的攻击ImageNet [42]是用于评估对抗性攻击的最常用的大规模数据集我们对在ImageNet数据集上训练的五个DNN架构进行了评估，包括最先进的PNASNet [32]架构。我们将FDA与最强的白盒优化方法（PGD）进行比较，具有不同的优化目标，导致以下一组竞争攻击：PGD-ML、PGD-LL和PGD-CW。我们对NIPS 2017挑战中引入的ImageNet兼容数据集（包含5，000张图像）进行了评估。为了对我们提出的攻击进行全面的分析，我们提出了不同优化预算的结果。请注意，只有当攻击具有相同的优化预算时才会进行比较。表2：顶部部分呈现了在白盒设置中具有优化预算（k=4，niter=5，niter=1）的不同DNN架构上的多个攻击公式一个关键的推论是其他攻击在NLOR和OLNR方面的部分成功。它们要么实现显著的NLOR，要么实现OLNR。这是由于降低最大概率或增加最不可能类的概率的单一目标。表2还强调了由于梯度消失，其他针对更深网络的攻击（PNASNet [32]和Inception- ResNet[47]）的性能显着下降。在图5中，我们将可推广的愚弄率[41]与Top-k精度作为k的函数。在高k值下显着更高的泛化愚弄率进一步确立了我们提出的攻击对ImageNet数据集训练的网络的优越性5.3. 对国防建议的评估现在，我们对已经扩展到ImageNet的防御机制进行了评估（补充文档中提供了较小数据集（CIFAR-10）[28]中的防御机制对抗训练：我们针对三种对抗性训练机制测试我们提出的攻击，即：[30]第30话，我是一个人。基于配对（ALP）[27]的对抗训练。我们为adv和ens3模型上的所有攻击设置了优化预算（n2=8，n2 iter=5，n3iter=2）。表2：底部部分显示了我们的评估结果此外，为了显示在不同优化预算下的有效性，使用不同优化预算测试alp模型，如表3所示。防御机制：我们还测试了我们的模型对防御机制提出的郭等。[23]和Xieet al. [56]。表4显示了在存在各种防御机制的情况下，Inception- ResNet V2 [47]中实现的欺骗率。上述结果证实了我们提出的攻击白盒攻击的优越性。5.4. 攻击基于要素制图表达的任务5.4.1字幕出现现实世界应用中涉及的大多数DNN都利用迁移学习来缓解数据稀缺和效率等问题。此外，由于ImageNet数据集上的训练模型易于访问这呈现了一个有趣的场景，其中攻击者可能知道针对给定任务微调了哪个模型，但可能无法访问微调的模型。由于信息的部分可用性，这样的sce- nario本质上充当我们假设，在这样的情况下，功能腐败为基础的at-tacks应该比softmax或前softmax为基础的攻击更有效为了验证这一假设，我们攻击了字幕生成器请注意，SAT中的IncV3已经微调了200万步（尽管学习率较小）。表5显示了对抗性攻击对caption生成的影响。我们攻击“展示和讲述”[52]。类似的性能可以预期在先进的模型，如[26，58]。我们清楚地看到FDA在这种“灰盒”场景中的有效性此外，我们注意到特定于内容的指标，如SPICE [3]，降级得多。这是因为其他攻击可能只会改变特征以支持类似但不同的对象类，而FDA的目标是完全删除干净样本的证据。我们进一步在表6中显示了在“白盒”设置中攻击SAT的结果。我们与红革等人进行比较，al. [14]也是专门为捕获生成而制定的攻击。而洪哥等人的主要好处是，是执行有针对性的攻击的能力，我们观察到，我们是可比的红革等人。在无目标的情况下。8075表2.评估在ImageNet数据集上训练的网络上的各种攻击，在白盒设置中。上图：与经过正常训练的架构进行比较，优化预算（参见第5节）为（x2= 4，x2= 5，x3= 1）。下图：对比对抗训练的模型（adv&ens），预算（budget）（budget= 8，nbiter= 5，budget= 2）。我们的攻击的突出特点是同时在所有指标上都具有高性能。度量愚弄率NLOR OLNRPGD-MLPGD-CWPGD-LL我们PGD-MLPGD-CWPGD-LL我们PGD-MLPGD-CWPGD-LL我们VGG-1699.9099.9093.8097.8057.266.17539.92433.33308.3429.19217.98455.26ResNet-15299.5099.6088.1597.6920.625.12593.64412.52247.2221.8489.58380.04Inc-V399.2099.1089.0699.8061.7321.95599.49549.57524.6563.8692.45669.31IncRes-V294.1894.5874.3099.6075.4344.51314.20492.95314.1444.4667.02487.76PNasNet-Large92.6092.4081.4099.00123.9359.44319.18473.54335.6370.67118.73512.21Inc-V3adv97.8997.6980.6299.7068.0334.56346.59545.89281.7539.0877.80629.93Inc-V3ens398.6997.4988.76100.00114.9668.76450.66533.49386.16106.58142.65634.55IncRes-V2adv91.2789.6661.6599.7081.8039.68284.36504.51234.6633.2067.27571.46IncRes-V2ens398.6997.4988.76100.00114.9668.76450.66533.49386.16106.58142.65634.551.0VGG 161.0ResNet 1521.0Inception3.01.0PNASNet大型0.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00 2004006008001000K0.00 2004006008001000K0.00 2004006008001000K0.00 2004006008001000K图5.白盒设置中各种攻击在第K级的愚弄率，具有优化预算（参见第5节）（k= 8，nbiter= 10，nbiter= 1）。攻击是在ImageNet数据集上训练的网络上进行的。色谱柱-1：VGG-16，色谱柱-2：ResNet-152，色谱柱-3：Inception-V3和Column-4：PNASNet-Large。5.4.2风格转移从[21]中引入以来，风格转移一直是DNN的一个非常受欢迎的应用，特别是在艺术领域。然而，据我们所知，对风格转移的对抗性攻击还没有被研究过。Gatyset al的早期方法。[21]提出了一个方案，表3.对ALP [27]的评估-逆向训练模型，具有不同的优化预算。n= 8，n= 5，n= 2PGD-ML PGD-CW PGD-LL我们的愚弄率85.0487.1551.1080.02NLOR22.2810.8320.60119.41OLNR77.5511.1414.9081.73n= 16，n= 10，n= 2PGD-ML PGD-CW PGD-LL我们的基于最优化的方法，其利用来自经训练的网络的梯度来创建保留来自一个图像的“内容”和来自另一个图像的“风格”的图像。我们首先表明，从其他方法（PGD等）产生的对手。完全保留清洁的结构内容表4.在存在基于输入变换的防御措施的情况下，评估各种攻击，预算为（nix= 16，nix= 10，nix= 2）。在实现更高愚弄率的同时，我们也实现了更高的NLOR和OLNR（参见补充）。愚弄率96.9998.2964.5694.28NLOR41.5112.2677.40259.78OLNR302.0314.9725.66241.43OursPGDPGDOursPGDPGDOursPGDPGDOursPGDPGDFR@KFR@KFR@KFR@K防御愚弄率PGD-MLPGD-CWPGD-LL我们高斯滤波器81.9336.9568.5792.87中值滤波50.4023.1938.4570.88双边滤波器54.5219.1841.4770.18比特量子73.9040.8662.0591.77JPEG压缩79.8231.8366.6796.18电视最小值38.9617.6727.8155.72绗缝38.3524.1030.8256.63随机化[56]81.9342.8768.1798.198076图6.攻击风格转移。上图：PGD对手提供了足够的干净样本信息，以进行有效的风格转移，而FDA对手则没有。(d)：生成对手约翰逊等人。[25]使用FDA，其中PGD配方失败。最左边的图像表示风格，然后是一系列干净的图像，FDA对抗攻击前后的风格转移。样品，使他们被用于风格转移没有任何损失的质量。相反，作为FDA的对手，他们会破坏干净的信息。因此，除了造成错误的分类，FDA的对手也严重损害风格转移.图6：顶部显示了干净、PGD-对抗性和FDA对抗性样品上的风格转移的示例。更重要的是，FDA在没有利用任何特定任务的知识或方法的情况下破坏了风格转移。表5.攻击“展示和讲述”（SAT）[52]在一个“灰盒”设置与预算（= 8，nb iter = 10，niter = 1）。最右边的列列出了当完全白噪声作为输入时的度量。从 Inception-V3 生成的FDAAdvertisers对破坏SAT非常有效。度量没有攻击PGD-MLPGD-LLMI-FGSM我们噪声苹果酒103.2147.9547.1349.234.902.84蓝-171.6157.0455.6857.1839.8037.60粗糙L53.6142.1541.2442.6530.7029.30流星25.5817.50716.7817.3410.027.84香料18.079.609.4510.022.041.00表6.攻击（SAT）[52]在一个“白盒”的设置与预算（= 8，nb iter = 10，nb iter = 1）。FDA与特定任务攻击[14]不相上下度量没有攻击PGD-MLMI-FGSM[14个]我们噪声苹果酒94.9031.7031.2110.804.142.84蓝-169.1351.6451.3638.9539.8037.60粗糙L51.6838.2038.2028.1931.0029.30流星24.2914.5514.609.759.307.84香料17.087.307.003.381.680.99在[25]中，Johnsonet al.介绍了一种新颖的方法，其中训练网络以在单次前向传递中执行风格转移在这样的设置中，使用类似于PGD的对手进行攻击是不可行的相比之下，通过白盒访问这些网络的参数，可以生成FDA广告以破坏风格转移，而不改变其配方。图6：底部显示了Johnson等人提出的模型中由于FDA对手造成的破坏的定性示例。风格转移也被应用于视频。我们在补充资料中提供了定性结果，以表明FDA在破坏程式化视频方面仍然非常有效。6. 结论在这项工作中，我们建立了保留干净的样本信息在对抗性的样本所产生的攻击，优化目标绑定到softmax或前softmax层的网络。这是真的，即使当这些样本被错误分类的高置信度。此外，我们使用提议的评估指标强调了此类攻击的弱点：OLNR和NLOR。然后，我们提出了FDA，一种对抗性攻击，它破坏了网络每一层的特征。我们通过实验验证了FDA产生了最强的白盒广告之一。此外，我们还发现FDA对抗样本的特征不允许提取有用的信息，用于基于特征的任务，如风格转换和字幕生成。8077引用[1] Naveed Akhtar，Jian Liu和Ajmal Mian。对普遍对抗性扰动的防御。在 IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[2] M.基兹维尼岛Barjasteh，H. Al-Qassab和H.拉达使用Googlenet的自动驾驶深度学习算法。2017年IEEE智能车辆研讨会（IV），第89-96页[3] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice：语义命题图像帽评估。2016年欧洲计算机视觉会议（ECCV）[4] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在第35届机器学习国际会议论文集，2018年7月。[5] Mathieu Aubry 、 Daniel Maturana 、 Alexei A Efros 、Bryan C Russell和Josef Sivic。3D椅子：使用CAD模型的大数据集的示例性的基于部件的2D-3D对准。在IEEE计算机视觉和模式识别会议（CVPR），2014。[6] 瓦希德·贝扎丹和阿尔斯兰·穆尼尔。深度强化学习对策略诱导攻击的脆弱性。arXiv 预印本arXiv： 1701：04143，2017。[7] Alexander C Berg，Tamara L Berg，and Jitendra Malik.使用低失真对应的形状匹配和对象识别。在IEEE计算机视觉和模式识别会议（CVPR），2005年。[8] 巴蒂斯塔·比吉奥、伊吉诺·科罗纳、达维德·马约卡、布莱恩·尼尔森、内迪姆·S· 伦迪、PavelLaskov、吉奥·吉奥·贾钦托和法比奥·罗利。在测试时对机器学习的规避攻击。在关于数据库中的机器学习和知识发现的上，第387[9] Battista Biggio，Giorgio Fumera，and Fabio Roli.攻击下的模式识别系统：设计问题和研究挑战。InternationalJournal of Pattern Recognition and Artificial Intelligence，28（07）：1460002，2014.[10] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。在2018年国际学习表征会议（ICLR）[11] 雅各布·巴克曼，奥科·罗伊，科林·拉菲尔，伊恩·古德费尔-洛.温度计编码：一个抵抗敌对例子的好方法。在国际会议上学习表示（ICLR），2018年。[12] Yue Cao ， Mingsheng Long ， Jianmin Wang ， andShichen Liu.用于高效图像检索的深度视觉语义量化。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2017年6月。[13] 尼古拉斯·卡利尼和大卫·瓦格纳。对神经网络鲁棒性的评价。arXiv预印本arXiv：1608.04644，2016年。[14] Hongge Chen，Huan Zhang，Pin-Yu Chen，Jinfeng Yi，and Cho-Jui Hsieh.以视觉语言为基础，对抗性的例子：神经图像捕捉的一个案例研究。在2018年计算语言学协会第56届年会的会议记录中[15] 古尼特岛放大图片作者：David D.放大图片创作者：Bernstein ， Jean Kossaifi ， Aran Khanna ， Zachary C.Lipton和Animashree Anandkumar。用于鲁棒对抗防御的随机激活在国际会议上学习表示（ICLR），2018年。[16] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2018年6月[17] 董银鹏，苏航，朱军，范宝。通过利用对抗性示例实现可解释的深度神经网络CoRR，abs/1708.05493，2017。[18] Alexey Dosovitskiy和Thomas Brox使用卷积网络反转视觉表示。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[19] M.杜，N.刘，和X。胡可解释机器学习技术。arXiv预打印arXiv：1808.00033，2018年7月。[20] 杜梦南，刘宁浩，宋清泉，夏虎。对具有引导特征反演的基于dnn的预测的说明。第24届ACM SIGKDD知识发现数据挖掘国际会议论文集，KDD，第1358-1367页，2018年[21] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格2016 年 IEEE计算机视觉和模式识别会议（CVPR），第2414-2423页[22] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。[23] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， andLaurens van der Maaten.使用输入变换对抗性图像。在国际会议上学习表示（ICLR），2018年。[24] Tuan Hoang，Thanh-Toan Do，Dang-Khoa Le Tan，andNgai- Man Cheung.用于图像检索的选择性深度卷积特征。第25届ACM国际多媒体会议论文集，第1600-1608页，2017年[25]

下载后可阅读完整内容，剩余1页未读，立即下载