对抗性示例中图像和扰动的相互影响的研究

63 浏览量更新于2023-10-23 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从图像和扰动的相互影响理解对抗性示例张朝宁*chaoningzhang1990@gmail.com菲利普·本茨*pbenz@kaist.ac.kr仁素权iskweon@kaist.ac.kr*表示等额缴款图巴·伊姆蒂亚兹timtiaz@kaist.ac.kr机器人和计算机视觉（RCV）实验室韩国科学技术高等研究院（KAIST）291 Daehak-ro，Yuseong-gu，Daejeon 34141，Korea摘要各种各样的作品都探讨了对抗性例子存在的原因，但在解释上没有我们建议将DNN logits视为特征表示的向量，并利用它们来分析基于 Pearson 相关系数（PCC）的两个独立输入的相互影响。我们利用这种矢量表示来理解对抗性的例子，通过解开干净的图像和对抗性的Pertur。摄动反向传播目标网络（固定）代理数据集Lx，1Lx，2Lx，3LxLx，KLogit向量L（Lx，t）并分析它们之间的相互影响。我们的结果为图像与普遍扰动之间的关系提供了一个新的视角：普遍扰动包含主导特征，图像对它们来说就像噪声。这种特征视角导致了一种使用随机源图像生成有针对性的通用对抗扰动的新方法。我们是第一个在不利用原始训练数据的情况下实现有针对性的通用攻击的挑战性任务。我们使用代理数据集的方法实现了与利用原始训练数据集的最先进基线相当的性能1. 介绍深度神经网络（DNN）在许多应用中表现出令人印象深刻的性能，从图像分类[16，48]到运动回归[8，47]。然而，DNN也被认为容易受到对抗性攻击[42，37]。以前的各种各样的作品[14，43，44，21，33，3]探讨了对抗性例子存在的原因，但在解释上缺乏一致意见[1]。当工作机器-图1.基于我们观察到的对抗性扰动包含主导特征并且图像对它们表现得像噪声，我们设计了一种新的方法，通过使用代理数据集来生成没有数据的有针对性的通用DNN的本质尚未完全理解，一种被广泛接受的解释认为DNN是特征提取器[16]，这激发了最近的工作[17]将对抗性示例的存在与训练数据集中的非鲁棒特征联系起来。与以前的作品分析对抗性的例子，作为一个整体（图像和扰动的总和），我们而是提出分析对抗性的例子，通过disentangling图像和扰动，并研究它们之间的相互影响。具体来说，我们分析了两个独立的输入对彼此的影响，在输入相结合时，有助于获得的特征表示。我们将网络logit输出作为特征表示的一种手段。传统上，只考虑最重要的logit值，如分类任务的最高logit值，而忽略其他值。我们建议所有的logit值都有助于特征表示，因此将它们视为1452114522logit向量我们利用皮尔逊相关系数（PCC）[2]来分析logit向量之间的线性相关程度在每个独立输入和输入组合的logit向量之间计算的PCC值提供了关于两个独立输入对组合特征表示的贡献的见解。我们提出的一般分析框架是有用的，用于分析任何两个独立的输入，如图像，高斯噪声，扰动等的影响。在这项工作中，我们限制的重点是分析图像和扰动的影响，在通用攻击。我们的研究结果表明，对于通用攻击，对抗性示例（AE）与UAP强烈相关，而AE与输入图像之间的相关性较低（参见图4）。这表明，对于DNN，UAP在AE中支配干净图像，即使图像在视觉上更占优势。将DNN视为特征提取器，我们自然得出结论，与要攻击的图像的特征相比，UAP具有更占主导地位的特征。因此，我们声称“UAP是特征，而图像对它们来说就像噪声”。这与将扰动视为对抗示例中图像的噪声的一般感知因此，我们的解释提供了一个简单而直观的洞察UAP的工作。观察到图像对UAP的行为类似于噪声，促使使用代理图像来生成目标UAP，而无需原始训练数据，如图1所示。我们提出的方法更实用，因为攻击者通常无法访问训练数据[32]。我们的贡献可归纳如下：• 我们建议将DNN logits视为特征表示的向量这些logit向量可以用来分析两个独立的特征的贡献，当输入与输出相加时特别是，我们关于通用攻击的分析结果表明，在AE中，UAP具有主导特征，而图像对它们来说就像噪声一样。• 我们利用这一洞察力，推导出一种方法，使用随机源图像作为代理数据集，以生成目标的UAP没有原始的训练数据。敬我们最棒我们是第一个完成这一具有挑战性的任务的人，同时利用原始训练数据集实现与最先进的基线相当的性能。2. 相关工作我们总结了以前的工作，主要有两个重点：（1）对抗脆弱性的解释和（2）现有的对抗攻击方法。解释对抗性易损性.古德费尔-洛等。把反例的原因归结为DNN的局部线性，并通过他们提出的简单而有效的FGSM支持他们的主张[14]。然而，这种线性假设与违反局部线性的对抗性示例的存在并不完全相容[24]。此外，它不能完全解释在较低线性分类器中没有观察到更大鲁棒性的现象[3，43，44]。另一个作品的主体是对高维输入属性的低对抗鲁棒性的原因[40，10，25，13]。然而，高维输入的合理鲁棒DNN可以在实践中训练[24，36]。最近的一项工作[17]将对抗性示例存在的原因归因于数据集中的非鲁棒特征。以前的一些解释，从有限的训练数据诱导过拟合[39，44]到噪声下的鲁棒性[11，12，6]，与他们的框架[17]很好地一致。非鲁棒特征的概念也在其他作品中隐含地探索[4，33]。另一方面，在[27，28，18，29]中已经探索了对普遍对抗性扰动的脆弱性的可能原因。Theiranalysisismainlybasedonthenetworkdecisionboundaries, in particular, theexistenceofuniversalperturbations is linked to the large curvature of decisionboundary.我们的工作主要集中在解释普遍的对抗脆弱性。我们的分析框架与以前的作品不同的一个核心方面是，我们探索了图像和扰动对彼此的影响，而以前的作品主要是从整体上分析对抗性示例[27，28，18]。我们明确地分析了图像和扰动如何相互影响。我们的分析框架主要基于DNN如何响应输入中的特征的logit向量解释，而不依赖于决策边界的曲率属性[27，28，18]。现有的对抗性攻击方法。现有的攻击通常分为图像依赖攻击[42，14，22，30，5]和通用攻击（即，图像不可知论）攻击[27，19，32，26，35，46，34]，设计一个单一的扰动攻击大多数图像。图像相关攻击技术已经在各种工作中进行了探索，从基于优化的技术[42，5]到FGSM 相关技术 [14 ， 22 ， 7 ， 45] 。通用对抗扰动（UAP）首先由[27]提出，并在单个数据样本上迭代地部署DeepFool攻击[30]由于图像不可知的性质，通用攻击构成了比图像依赖攻击更具挑战性的任务。对攻击进行分类的另一种方法是非目标攻击与有针对性的攻击。生成目标普适扰动已经由[35]探索过有针对性的攻击可以被视为一种特殊的，但更具挑战性的非有针对性的攻击。类区分（CD）UAPs在[46]中提出，旨在仅欺骗类的子集。上述通用攻击需要利用原始14523训练数据然而，在实践中，攻击者通常无法访问训练数据[32]。为了克服这一局限性，Mopuriet al.建议在没有训练数据的情况下生成通用扰动[32]。然而，他们的方法是专门为非目标攻击设计的，通过最大化每一层的激活分数，并且他们的性能不如访问原始训练数据的方法[38]中探索了通过训练网络生成代理图像来进行无数据非目标通用攻击的另一种尝试没有发现以前的工作已经实现了有针对性的通用攻击，而不访问原始的训练数据，我们的工作是在这个方向上的第一次尝试。3. 分析框架3.1. Logit向量遵循DNN是特征提取器的共识，我们打算从特征的角度分析对抗性示例。logit值通常用作图像中特征存在的指示符。然而，先前的作品[18，17“Logits” re-fer 在这项工作中，我们假设所有DNN输出logit值表示图2.图像及其logit向量分析。第一行显示了样本图像a和b以及结果图像c。第二行示出了La（左）和Lb（右）上的logit向量Lc的图，以及它们各自的PCC值。3.2. Pearson相关系数在统计学中，皮尔森相关系数（Pearson correlationcoefficient，PCC）[2]是一种广泛采用的度量标准，用于衡量两个变量之间的线性通常，该系数定义为：cover（X，Y）网络对输入中的特征作出响应。一个担忧PCCX，Y=σXσY、（1）关于这个向量的解释是，地面实况类或其他语义上类似的类是有意义的，而其他逻辑可能只是随机（小）值，因此不携带重要信息。我们在介绍了本书中使用的术语和符号后，解决了这一问题深度分类器C将 pixel范围为[0，1]的输入图像x∈Rd映射到输出logit向量Lx=C（x）。向量Lx具有对应于总数量的K个条目班的班。输入x的预测类yx然后可以从logit向量计算为yx=arg max（Lx）。我们采用了logit向量，以方便分析两个独立的输入的相互影响，在他们的贡献的组合特征表示。我们主要考虑两个独立的输入a∈Rd，其中cov表示协方差，σX和σY分别是向量X和Y的标准差，PCC值的范围从−1到1。绝对值表示两个变量线性相关的程度，1表示完全线性相关，0表示零线性相关，符号表示它们是正相关还是负处理logit向量作为变量，可以计算不同logit向量之间的PCC 。我们主要关注 PCCLa 、 Lc 和 PCCLb 、 Lc ，因为PCCLa、Lb由于独立性总是接近于零。比较PCCLa、Lc和PCCLb、Lc可以提供关于两个输入对Lc的贡献的见解，其中较高的PCC值指示更显著的贡献者。例如，如果PCCLa，Lc大于PCCL，L，则输入aBCb∈Rd，可以是图像、高斯噪声、扰动等，其对应的logit向量表示为分别为La和Lb这两个输入的总和c=a+b，当馈送到DNN时，导致特征表示Lc。输入a和b都对LC有部分贡献。此外，可以合理地预期，每个输入的一致性将受到另一个输入的影响。具体地，影响的程度将反映在个体logit向量La（或Lb）与Lc之间的线性相关性中。比输入b对最终特征响应更占优势。两个logit向量的关系，例如La和Lc，可以通过绘制每个logit对来可视化。它们的相关程度可以通过PCC观察和量化。作为一个基本示例，我们在图 2 中显示了ImageNet [41]中两个随机采样图像的logit向量分析。该图显示Lb和Lc之间的强线性相关性（PCC Lb，Lc=0. 88），而La和Lc实际上不相关（PCC La，Lc=0.第19段）。这些观察表明--14524Cl2得到输入b对logit向量Lc的主导贡献。因此，预测c和b的标签为这种图像组合也在Mixup [49]中被探索用于训练分类器。表1.使用从ImageNet测试集中随机采样的1000个图像对进行VGG19的PCC分析。这里，对于每个图像对，分别在PCCh和PCCl下报告较高和较低PCC值的平均值和标准偏差。|S|PCC hPCC lPCC h− PCC lPPCC4450. 74±0。100 27±0。230的情况。47±0。2796%0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000063±0。十三零33±0。200的情况。30± 0。22-为了建立PCC值作为度量的可靠性，我们用1000个图像对重复上述实验，并在表1中报告PCC预测标签c的有效性的结果。我们将图像对分为两组：Sm和Sn。Sm包括具有与预测ya或yb相同的预测类yc的图像对。对于Sn，预测类yc不同于ya和yb。此外，我们使用参数PPCC来表示从PCC值正确推断的预测相对网络预测C。对于来自集合Sm的图像对，PPCC为96%，确认PCC作为我们的度量的可靠性。PCCh和PCCl之间的高间隙进一步提供了高PPCC的证据。对于来自Sn的图像对，PCCh− PCCl较小，这意味着两个输入都不是显著显性的。回想一下，存在大多数logit值可能只是随机值的问题，这可以通过观察PCC和yc之间的相关性来部分解决，如图2所示。如果关注是有效的，那么只有少数日志是有意义的（即.只有最高的logits或语义相似类的logits），对于不太重要的logits应该观察到然而，这一假设与图2中的结果并不一致，因此证实了所有logit值的重要性主导输入的较高PCC值进一步排除了较低logit值随机的可能性。4. 图像与扰动的相互在本节中，我们分析了干净图像与高斯噪声扰动、普适扰动和图像相关扰动的相互作用。在这样做时，输入a是图像，输入b是扰动。分析在ImageNet上预训练的VGG19上进行。为了保持一致性，随机选择a（如图2左上角所示），图3.输入图像和高斯噪声N（µ，σ）的Logit向量分析。分析显示为µ = 0和σ = 0（左），σ=0。1（中间）和σ=0。2（右））图4.输入图像（a）和目标UAP（b）的Logit向量分析目标UAP针对目标类“海狮”和损失函数L t进行训练4.1. 高斯噪声为了便于解释我们的主要实验进行分析的扰动，我们首先显示的影响，噪声（高斯噪声）的图像。高斯噪声从N（μ，σ）采样，其中μ=0并且不同标准偏差La、Lc之间的关系为vi-如图3所示。正如预期的那样，通过添加零幅度高斯噪声（即。无高斯噪声），则La和Lc完全线性相关（PCC La，Lc = 1）。如果高斯噪声幅度增加（σ= 0.1），La和Lc仍然显示出高线性相关性（PCC La，Lc=0. 91）。研究Lb和Lc之间的关系，可以观察到所有噪声输入b的低相关性，表明对最终预测的贡献较低。4.2. 泛扰动分析泛微扰有两种形式：有针对性和无针对性。我们使用带有损失函数的算法1用于所有实验。与此同时，针对tCL2以产生有针对性的普遍扰动，并产生-我们随机将“海狮”设置有关不同网络上不同图像和目标类别的更多结果，请参阅补充材料。使用公式4作为损失函数。图4和图5分别显示了靶向和非靶向UAP的分析结果。对于目标场景，两个主要L14525图5.输入图像（a）和非靶向UAP（b）的Logit向量分析。用损失函数公式4图6.输入图像（a）和目标图像相关扰动（b）的Logit向量分析。扰动是用PGD [24]制作的，目标类是可以进行观察：第一，PCC La、Lc小于PCC Lb、Lc，表明Lc与Lb之间的线性相关性高于Lc与La之间的线性相关性。换句话说，扰动的特征比干净图像的特征更占主导地位其次，PCCLa，Lc接近0，表明扰动对图像的影响如此显著，以至于DNN似乎无法识别干净的图像特征事实上，将图4中的La和Lc的logit分析与图3（底部）中的高斯噪声和图像的logit分析进行比较，观察到惊人的相似性这提供了一个新的解释有针对性的普遍扰动：有针对性的普遍扰动本身（独立于要攻击的图像）是特征，而图像对它们来说表现得像噪声。我们进一步探索了非目标扰动，并在图5中报告了结果。类似于目标通用扰动，PCCLa、Lc小于非目标扰动的PCCLb、Lc然而，非目标扰动的优势不如目标扰动的优势显著。4.3. 图像相关扰动分析靶向和非靶向图像依赖性扰动的logit矢量分析结果分别见图6和图7与普遍扰动相反，图像相关扰动与c弱相关，并且具有类似噪声的行为（图3）。然而，即使图像被错误分类，图7.输入图像（a）和非目标图像相关扰动（b）的Logit向量分析。扰动是用PGD制作的[24]尽管图像特征看起来比扰动更占优势这是因为图像特征通过图像相关扰动比高斯噪声更强烈地被破坏。这种特殊行为的出现是由于这样一个事实，即图像相关的扰动被精心制作，以形成具体的功能，只有在组合的图像。这种依赖于图像的行为违反了我们关于独立输入的假设然而，我们包括这些结果，因为它们提供了对对抗性例子的额外见解。4.4. 为什么会存在对抗性扰动？如第2节所讨论的，各种各样的作品都探讨了对抗性例子的存在。基于我们之前的分析，我们得出以下关于UAP存在的结论：普遍对抗扰动包含与攻击图像无关的特征。图像特征被破坏到DNN无法识别的程度，因此输入图像对于扰动特征表现得像噪声[18]中的发现，即普遍扰动的行为类似于某一类特征，这与我们的状态很一致。Jetley等人我们认为，普遍扰动exploit高曲率图像空间方向的行为像功能，而我们的发现表明，普遍扰动本身包含的功能独立的图像攻击。利用决策边界的正曲率的观点，Jetleyet al.采用基于决策边界的攻击DeepFool [30]。然而，我们的解释并不明确依赖于决策边界的属性，而是集中在强特征的出现因此，我们可以部署PGD算法来生成由类似于[17]的目标类特征组成的扰动。如果普遍扰动本身包含的功能依赖的图像攻击，图像依赖的扰动行为以类似的方式？如前所述，图6中的分析结果揭示了依赖于图像的扰动的形状不像特征，14526CL1Cl2Cl2Cl2而是噪音另一方面，在很大程度上保留了原始图像特征。Ilyas等人[17]揭示了依赖于图像的对抗性示例包括目标类的特征。然而，从4.4小节中的分析可以看出，孤立扰动似乎由于其低PCC值而没有保留独立特征，而是与图像相互作用以形成对抗特征。5. 带代理数据的目标UAP我们的上述分析表明，图像表现得像噪声的普遍扰动功能。自从我...算法一：UAP算法输入：代理数据Xv、分类器Cv、损失函数L、小批量大小m、迭代次数I、扰动幅度m输出：扰动向量vv←0次初始化对于迭代= 1，. - 是的- 是的，我愿意BXv：|B|= m<$随机抽样gv←E[L] ⊲ 计算坡度xBv←Optim（gv）更新年龄被视为噪声，我们可以利用代理图像作为背景噪声来生成目标UAP，而无需原始训练数据。代理图像不需要具有属于原始训练类的任何类对象，并且它们的主要作用是使目标UAP具有较强的v||v||p端n.范数投影背景-鲁棒目标类特征。5.1. 问题定义形式上，给定图像的数据分布X ∈Rd，我们计算单个扰动向量v，其满足其中κ指示置信度值，xv是来自代理数据Xv的样本，并且Ci指示logit向量的第i个条目。在这种情况下，代理数据可以是随机的源数据集或原始训练数据，具体取决于数据可用性。注意，在[5]中也使用了类似的夹持logits的技术，然而，它们的动机是，C（x+v）=t对于大多数xx||v||p≤ 100。（二）Vation是为了获得最小幅度（图像相关）扰动。而损失函数Ltv的大小受λ的限制，人类无法感知。||p指的是l p -范数，在这项工作中，我们设置p = ∞，并且对于范围[0，255] 1中的图像，p = 10，如[ 27 ]中所述。||prefers to the lp-norm and in this work, we set p = ∞ andǫ = 10 for images in range [0, 255]1as in [27].具体来说，我们假设无法访问原始训练数据。因此，用于v生成的训练数据Xv可以不同于原始数据集X。我们将代理数据集表示为Xv。为了评估目标UAP，我们使用目标愚弄比率度量[35]，即，被愚弄到目标类中的样本与所有数据样本的数量之比。我们还使用非目标愚弄比率[35，27]，计算错误分类样本与样本总数的比率，用于评估。5.2. 损失函数及算法为了达到预期的目标，Eq。2最简单地说，可以使用常用的交叉熵损失函数LCE。由于交叉熵损失整体上包含了所有类别的log-its，因此该损失函数导致整体较低的愚弄比率。这种行为可以通过使用仅旨在增加目标类的logit的损失函数LL由于我们考虑了普遍扰动，为了在训练中的不同样本之间平衡上述目标，我们通过钳制logit值来扩展LL，如下所示：增加时，maxCi（xv+v）的logit值下降。在训练过程中，同时进行这对于生成具有强目标类特征的UAP来说，这种影响是不希望的，因为除了目标类之外的其它类将被包括在优化中，这可能对梯度更新具有为了防止操纵目标类以外的logit，我们在优化步骤中排除了非目标类logit值，以便这些值仅用作箝位的参考值目标类logit。我们将该损失函数表示为Lt。我们在表2中报告了不同损失函数性能的消融研究。结果表明，Lt、一般来说，优于所有其他讨论的损失函数。我们还提供了一个损失函数类似Lt的非目标的UAP的生成。Lnt=max（Cgt（xv+v）−maxCi（xv+v），−κ）（4）i gt在制作非目标UAP的特殊情况下，代理数据集必须是原始训练数据集。我们提供了一个简单的，但有效的算法在Algo-rithm1。我们的基于梯度的方法采用ADAM [20]优化器和小批量训练，这些方法也已在无数据通用对抗性Per的上下文中tCL1=max（maxCi（xv+v）−Ct（xv+v），−κ）（3）i/=t扰动[38]。Mopuri等人训练一个生成器网络，用于制作具有此配置的UAP，这可以与v ←中文L145272551对于范围[0，1]内的图像，则x=10更加复杂。14528表2.研究了不同损失函数的烧蚀性能，提出了针对性的UAP。每列中的值表示5次运行和目标类别“海离子”获得的非目标愚弄比率（%）和目标愚弄比率（%）的平均值和标准偏差。损失AlexNet GoogleNet VGG16 VGG19 ResNet152LCE九十5±0。689岁。2±0。4九十2±0。3九十5±0。355. 4 ±1。0四十七1±1。1五十七6±1。4四十九4±1。2七十8±1。5七十一6±0。8七十一7±1。4七十三。0± 1。555. 2 ±2。2五十六9±1。1五十七9±2。3五十八4±2。289岁。1±0。391. 0 ±0。3九十1±0。4九十三5±0。375. 9 ±0。979岁。0±0。6八十3±0。582岁8±0。787岁9±0。5九十8±0。288岁2±0。392. 7±0。1七十8±1。1七十三。1 ±0。875. 5±0。6七十二3±2。578岁2±0。9八十1±0。8八十2±0。381. 3±1。166岁。5±1。369岁。1±0。4七十一4±0. 5七十6±2。1LLLtLtCl2表3.在四个不同的数据集上训练的目标UAP的结果每列中的值表示针对8个不同目标类别获得的非目标愚弄比率（%）和目标愚弄比率（%）的平均值和标准偏差代理数据AlexNet GoogleNet VGG16 VGG19 ResNet152ImageNet [41]89岁。9±2。2四十八6±13。3七十七。7 ±3。2五十九9±6。692. 5 ±1。375. 0 ±7。8 91. 6 ±1。3七十一6±6。9八十8±2。666岁。3±7。0COCO [23]89岁。9±2。6四十七2±13。1七十六。8 ±3。7五十九8±7。592. 2 ±1。775. 1 ±12。391. 6 ±1。568岁8 ±9。479岁。9±2。9六十五7±7。8VOC [9]88岁9±2。6四十六岁。9±12。7七十六。7 ±3。2五十八9±6。092. 2 ±1。674岁7 ±7。9九十5±2。368岁8 ±8。279岁。1±3。3六十五2±7。1[50]第50话九十0±2。1四十二6±16。4七十六。4 ±3。7六十岁。0 ±5。492. 1 ±1。5七十三。4±9。691. 5 ±1。6六十四5±17。078岁0±3。262. 5 ±9。9表4.将所提出的方法与其他方法进行比较。结果分为通用攻击，可访问原始ImageNet训练数据（上图）和无数据方法（下图）。该指标以非目标愚弄比率（%）报告）方法AlexNet GoogleNet VGG16 VGG19 ResNet1525.3. 主要结果我们为四个不同的数据集，ImageNet训练集以及三个代理数据集生成目标UAP。在算法1中，我们将迭代次数设置为Cl2GD-UAP [31]87岁0271.四四六三08六十四6737. 389.第89章大结局976. 892。291。679. 9表5.提出的有针对性的通用对抗性攻击的可转移性结果该攻击针对目标类“海狮”和代理数据集MS-COCO进行。行指示源模型，列指示目标模型。每列中的值以非目标愚弄比率（%）和目标愚弄比率（%）报告AlexNet GoogleNet VGG-16 VGG19 ResNet152VGG16五十三710 03 41. 260 0293. 62 829082. 9913. 六九三十六。730. 01VGG19五十三670的情况。0239岁780的情况。0283岁4044 5392.5375. 61353600154. history 46 0的情况。03四十二43 0的情况。0755. 05 1 .一、63 55.12 1 .一、05八十4770 20表6.用PCC值测量的可转移性结果。以COCO为背景生成，目标类海狮。行指示源模型，列指示目标模型。AlexNet GoogleNet VGG-16 VGG19 ResNet152AlexNet1 .一、000的情况。090的情况。240的情况。14-0。05GoogLeNet0的情况。241 .一、000的情况。240的情况。140的情况。00VGG160的情况。360的情况。091 .一、000的情况。48-0。11VGG190的情况。190的情况。070的情况。551 .一、00-0。09ResNet1520的情况。280的情况。110的情况。360的情况。301 .一、00[第27话]九十三378岁978岁3七十七。884. 01000，使用损失函数Lt学习率为0。005GAP [35]-82岁783岁7八十1-批量大小为32。 As the proxy datasets, we use images我们的（ImageNet）九十六。1788岁9494 3094 98九十08从MS-COCO [23]和Pascal VOC [9]，两个广泛使用的AlexNet 九十四十五四十九。61 54. 77 0的情况。01 六十岁。430. 13五十八660。09四十七020的情况。0214529使用8个不同目标类的4个数据集，并在ImageNet测试数据集上对其进行评估。表3报告了8种目标情景的平均值。可以观察到两个主要情况：首先，对于三个不同的代理数据集，不能观察到显著差异。此外，在使用代理数据集进行训练和使用原始ImageNet训练数据进行训练之间仅存在边际性能差距。实验结果支持了我们的假设，即输入图像对目标UAP的影响类似于噪声。我们还探索了用白色图像和高斯噪声作为代理数据集来生成有针对性的UAP。在这两种情况下，观察到较差的性能。我们建议读者参考补充材料，讨论可能的原因和进一步的结果。不同网络的目标扰动如图8所示。由于目标类是海狮，我们可以通过仔细观察来发现海狮样图案的存在图9显示了被误分类为海狮的干净图像和扰动图像的样本。5.4. 与以前方法的比较据我们所知，这是第一个在没有原始训练数据的情况下实现有针对性的UAP的工作，因此我们只能将我们的性能与之前的相关任务进行比较。[35]的作者报告了一个有针对性的傻瓜，14530图8.针对不同网络架构的有针对性的通用扰动（目标类图9.定性结果。VGG19的干净图像（顶部）和扰动图像（底部）Inception-V3访问ImageNet训练数据集的比率为52%。我们使用COCO作为代理数据集，并实现了53. 百分之四我们在文献中找不到任何其他可用的目标UAP方法，但其他以前的工作报告了（非目标）欺骗率，我们将我们的性能与它们进行了比较，结果见表4。我们区分有数据可用性和无数据可用性的方法。为了与具有数据可用性的方法进行比较，我们利用我们引入的非目标数据在ImageNet上训练了一个非目标 UAP目标损失函数的公式4。注意，我们不阻止maxCi（xv+v）的梯度，以使算法-最先进的无数据方法，证明我们的简单方法是有效的。5.5. 转让性可转移性结果见表5。我们观察到，非靶向可转移性合理地表现良好，而靶向可转移性则不然。我们没有发现以前的工作报告的目标通用扰动的可转移性。[15]对图像相关扰动的目标可转移性进行了研究，发现当源网络和目标网络属于不同的网络族时，目标可转移性是不令人满意的。当网络属于同一网络族时，可以观察到相对较高的可转移性[15]。这与我们的发现一致，即VGG16和VGG19在彼此之间相当好地转移，如表5所示。我们在表6中进一步报告了两个网络UAP的PCC。我们观察到，VGG16和VGG19之间的PCC值比其他网络相对更高，这表明PCC提供对网络可转移性的洞察的额外益处6. 结论在这项工作中，我们将DNN logit输出作为一个向量来分析两个独立输入对组合特征表示的影响具体地说，我们证明了皮尔森相关系数（PCC）可以用来分析各输入的相对贡献和优势。在所提出的分析框架下，我们通过分离图像和扰动来分析对抗性示例，以探索它们之间的相互影响。我们的分析结果表明，普遍扰动的主要特点和图像攻击的行为像噪声。这种新的见解产生了一种简单而有效的算法，具有精心设计的损失函数，通过利用代理数据集而不是原始训练数据来生成有针对性的UAP。我们是第一个实现这一挑战任务的人，其性能与利用原始训练数据集的最先进基线相当7. 确认i gtRithm自动搜索有效攻击的优势类。我们观察到，我们的方法比UAP [27]和GAP [35]实现了对于无法访问原始训练数据集的情况，我们使用COCO数据集生成UAP，并报告8个目标类的平均性能。请注意，我们的方法仍然生成目标UAP，但我们使用非目标度量进行性能评估。这种设置有利于其他方法，因为理想情况下，我们可以报告某个目标类的最佳性能没有花里胡哨，我们的方法实现了与我们感谢Francois Rameau和Dawit Mureja Argaw他们的意见和建议在整个项目。这项工作得到了NAVER LABS和韩国政府资助的信息通信技术促进机构（2017-0-01772）的支持。引用[1] Naveed Akhtar和Ajmal Mian。对抗性攻击对计算机视觉中深度学习的威胁：一个调查。IEEE Access，2018。114531[2] TW安德森。多元统计分析导论（概率与统计中的威利级数）。2003. 二、三[3] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在国际机器学习会议（ICML），2018年。一、二[4] 作者简介：李彦达，埃里克·普赖斯，伊利亚·拉曾-什坦.来自计算约束的对抗性示例。2019年国际机器学习会议（ICML）。2[5] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。在安全和隐私研讨会（SP），2017年。二、六[6] Jeremy Cohen，Elan Rosenfeld，and Zico Kolter.通过随机平滑验证对抗鲁棒性。国际机器学习会议（ICML），2019年。2[7] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在计算机视觉和模式识别会议（CVPR），2018年。2[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流2015年国际计算机视觉会议（ICCV）。1[9] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。国际计算机视觉杂志，2010年。7[10] Alhussein Fawzi、Hamza Fawzi和Omar Fawzi。任何分类器都存在攻击性漏洞。神经信息处理系统进展（NeurIPS），2018。2[11] Alhussein Fawzi 、 Seyed-Mohsen Moosavi-Dezfooli 和Pascal Frossard。分类器的稳健性：从对抗性到随机噪声。神经信息处理系统进展（NeurIPS），2016年。2[12] Justin Gilmer，Nicolas Ford，Nicholas Carlini，and EkinCubuk.对抗性示例是噪声中测试错误的自然结果。2019年国际机器学习会议（ICML）。2[13] 贾斯汀·吉尔默，卢克·梅斯，法塔什·法格里，塞缪尔·S·舍恩霍尔茨，迈特拉·拉古，马丁·瓦滕伯格和伊恩 ·古德费尔 · 洛。敌对领域。arXiv预印本 arXiv：1801.02774，2018。2[14] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。国际学习表征会议（ICLR），2015年。一、二[15] 韩江帆，董晓毅，张瑞茂，陈东东，张伟明，于能海，罗平，王晓刚.一次做人：通过学习多目标对抗网络一次实现多目标攻击。在2019年国际计算机视觉会议（ICCV）上。8[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。欧洲计算机视觉会议（ECCV），2016。1[17] Andrew Ilyas ， Shibani Santurkar ， Dimitris Tsipras ，Logan Engstrom，Brandon Tran和Aleksander Madry。相反的例子不是错误，它们是特性。神经信息处理系统进展（NeurIPS），2019年。一二三五六[18] Saumya Jetley，Nicholas Lord，and Philip Torr.有这样的朋友，谁还需要对手？神经信息处理系统进展（NeurIPS），2018。二三五[19] Valentin Khrulkov和Ivan Oseledets奇异向量和普遍对抗扰动的艺术。在计算机视觉和模式识别会议（CVPR），2018年。2[20] Diederik P Kingma和Jimmy Ba。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。6[21] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。在国际机器学习会议（ICML），2017年。1[22] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习国际学习表征会议（ICLR），2017年。2[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议（ECCV），2014。7[24] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchm

下载后可阅读完整内容，剩余1页未读，立即下载