无数据情况下利用类映像生成UAP的方法及其效果分析

3 浏览量更新于2023-10-13 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

询问、获取和攻击：使用类映像生成无数据UAPKonda Reddy Mopuri*[0000−0001−8894−7212]、Phani KrishnaUppala*[0000−0003−0413−5685]和R. 文卡特什·巴布视频分析实验室，印度科学研究所，印度班加罗尔抽象。深度学习模型容易受到输入特定噪声的影响，称为对抗性扰动。此外，还存在与输入无关的噪声，称为通用对抗扰动（UAP），它可以影响模型对大多数输入样本的给定模型，广泛存在两种方法来制作UAP：（i）数据驱动的：需要数据，以及（ii）无数据的：不需要数据样本。数据驱动的方法需要来自底层数据分布的实际样本，并以高成功率（欺骗）制作UAP然而，无数据方法在不利用任何数据样本的情况下制作UAP，因此导致较低的成功率。在本文中，对于无数据的情况下，我们提出了一种新的方法，模拟数据样本的效果与类印象，以工艺UAP使用数据驱动的目标。给定的一对类别和模型的类印象是属于该类别的样本的一般表示（在输入空间中）此外，我们提出了一个基于神经网络的生成模型，利用所获得的类印象来学习制作UAP。实验评估表明，学习的生成模型，（i）通过神经网络层经由简单的前馈容易地制作UAP，以及（ii）实现了无数据场景的最先进的成功率，并且更接近于数据驱动设置的成功率，而无需实际利用任何数据样本。关键词：对抗性攻击·对ML系统的攻击·无数据攻击·图像不可知扰动·类印象1介绍机器学习模型是可预测的（例如[4，3，9]）在测试时间到输入空间中专门学习的温和噪声，通常称为对抗性扰动。通过将这些扰动添加到干净样本中创建的数据样本被称为对抗样本。最近，基于深度神经网络（DNN）的对象分类器也被观察到[28，7，14，11]受到具有准不可感知扰动的对抗性攻击的严重影响。此外，它被观察到（例如，[28]）这些对抗性扰动表现出跨模型泛化性（可转移性）。这意味着，通常相同的对抗样本* 同等贡献2K.R.莫普里峰Uppala和RV 八步TC第二阶段扰动产生zGTC一阶段班级印象生成学习的UAP班级印象了图1.一、概述了一个项目的进展情况。第一节，“A skandAc u i re re”规定了“classsimpress ion”，以最大限度地降低数据存储的效率。在图11中，“ A ” 表示基于神经网络的生成模型 G ，其根据从潜在空间采样的随机向量 z 来制作 UA P 。被多个模型错误地分类，尽管具有不同的架构，并且用不相交的训练数据集进行训练。它使攻击者能够在不了解其架构和参数的情况下对部署的模型发起简单的黑盒攻击[21，12]然而，大多数现有的工作（例如：[28，14]）飞行器输入特定扰动，即，扰动是输入的函数，并且它们可能不跨数据样本传递。换句话说，为一个数据样本制作的扰动在用于破坏其他干净的数据样本时通常无法欺骗模型然而，Moosavi-Dezfooli等人最近的研究结果表明， [13]和Mopuri et al. [17，15]证明存在输入不可知（或图像不可知）扰动，当添加时，大多数数据样本可以欺骗目标分类器。这种扰动被称为进一步地，观察到类似于图像特定扰动，UAP也表现出跨模型泛化能力，使得能够容易地进行黑盒攻击。因此，UAP对视觉模型的部署构成了严重的威胁，需要进行深入的研究。特别是对于涉及安全的应用（例如自动驾驶）和用户的隐私（例如，访问授权），开发针对这种对抗性攻击的鲁棒模型是必不可少的。询问、获取和攻击3制作UAP的方法可以大致分为两类：（i）数据驱动，（ii）无数据方法。数据驱动的方法（如[13]）需要访问底层数据分布的样本，以使用愚弄目标（例如，如等式（2）中的置信度降低）。因此，经由数据驱动的方法制作的UAP通常导致更高的成功率（或欺骗率），即，更经常地愚弄模特。请注意，数据驱动方法可以访问数据样本和模型架构以及参数。此外，观察到制作的UAP的性能（[17，15]）与制作期间可用的数据样本的数量成然而，无数据方法（例如，FFF[17]），目标是了解模型的真实稳定性，间接制作UAP（例如FFF的激活损失[17]）而不是使用直接愚弄目标。请注意，无数据方法只能访问模型架构和参数，而不能访问任何数据样本。因此，在无数据场景中制作UAP是一个具有挑战性的问题，因此这些UAP的成功率通常低于数据驱动的UAP所实现的成功率。尽管困难重重，但无数据方法具有重要的优势：– 当与它们的数据驱动的对应部分相比时，无数据方法揭示了所学习的表示的准确脆弱性，进而揭示了模型。另一方面，由数据驱动的方法报告的成功率此外，观察到（[17，15]），它们的性能与可用于制作UAP的数据量成比例。– 由于数据驱动的UAP与目标数据的强关联，它们在数据集之间的可另一方面，无数据UAP在数据集之间传输更好[17，15]。– 无数据方法通常更快[17]来制作UAP。因此，在本文中，我们试图实现两全其美，即，数据驱动目标的有效性和无数据方法的效率和可转移性。我们提出了一种新的方法，用于无数据的情况下，模拟的效果，在一个采样与“classisimpresions”的类印象是从模型记忆中提取的一种重要的结构化图像，其中包含了大量的学习参数换句话说，它们是输入空间中的对象类别的通用表示（如图1所示）。2）的情况。在我们的方法的第一部分中，我们通过简单的优化获得类印象（第二节）。3.2），其可以用作来自底层数据分布的代表性样本。在为每个类别获取多个类印象后，我们执行第二部分，即学习生成模型（前馈神经网络）以有效地生成UAP。因此，与解决复杂优化以生成UAP的现有工作（[13，17]）不同，我们的方法通过学习的神经网络经由简单的前馈操作来制作我们工作的主要贡献可以列举如下：4K.R.莫普里峰Uppala和RV 八步– 我们提出了一种新的方法来处理数据的情况下（通过类印象，秒。3.2）用于制作UAP并实现最先进的成功（愚弄）率。– 我们提出了一个生成网络（sec.3.3），其学习利用类印象有效本文件的结构如下：第2节描述了相关的现有工作，第3节提出了详细的建议框架，第4节报告了我们的方法的综合实验评估，最后第5节总结了论文。2相关作品对抗性扰动（例如[28，7，14]）揭示了学习模型对特定噪声的脆弱性。此外，这些扰动可以被称为“Universal Ad v ersal Per t ur b at ion s（UAP）”的输入不可知[13，17]，并且可以对这些模型的可部署性构成严重威胁。每次我们希望制作UAP时，制作UAP的现有方法（[13，17，15]）执行复杂的优化。不同于以往的工作，我们提出了一个神经网络，容易手工艺的UAP。只有Baluja等人的类似工作。[2]提出了一种神经网络，通过穿过一系列层将干净的图像转换为对抗性样本。然而，我们学习生成模型，其将潜在空间映射到UAP的潜在空间。Mopuri等人 [18]的并行工作提出了一种类似的生成模型方法，用于工艺扰动，但用于数据驱动的情况。此外，与数据驱动的方法（如UAP [13]和NAG [18]）相比，现有的无数据方法[17]制作UAP的成功率明显较低。在本文中，我们试图通过模拟数据与建议的类印象的效果，以减少它们之间的差距。我们的类印象是通过类似于[26，27]等可视化工作的简单优化获得的引入特征可视化[26，27，29，31，25，30，16]以（i）理解每个神经元响应于什么输入模式，以及（ii）获得对神经网络的直觉，以减轻神经网络的黑箱性质。对于特征可视化存在两种稍微不同的方法。在第一种方法中，优化随机输入，以便最大化架构中所选神经元（或神经元集合）的激活。这使得能够在输入空间中生成给定神经元的可视化（如[26]中所示）。在其他方法中，如Deep Dream [19]，而不是选择一个神经元来激活，任意的自然图像作为输入，网络增强了检测到的激活。这种可视化方式可以发现输入中的微妙模式并放大它们。由于我们的任务是生成类的印象，模仿真实样本的行为，我们遵循前一种方法。由于目标是生成可用于制作具有愚弄目标的UAPs的类印象，因此softmax概率神经元似乎是激活的明显选择然而，这种直觉是误导性的，[26，20]已经表明询问、获取和攻击5K在softmax处直接优化通过减少其他类的pre-softmax logit而导致类概率的增加。此外，它通常不会增加所需类的pre-softmax值，从而提供较差的可视化效果。为了使所需的类更有可能，我们优化了pre-softmaxlogits，我们的观察结果与[26，20]一致。3该方法在本节中，我们将介绍为无数据场景设计高效UAP的建议方法。应当理解（[13，17，18]），由于数据可用性和更直接的优化，数据驱动的方法可以制作在欺骗方面有效另一方面，无数据方法可以通过解决相对简单和间接的优化来快速制作可推广的UAP在本文中，我们的目标是实现数据驱动的方法在无数据设置的有效性为此，我们首先创建称为类印象的代表性数据样本（图2），以模拟底层分布的实际数据样本。后来，我们学习了一个基于神经网络的生成模型，使用生成的类印象和一个直接的愚弄目标来制作UAP。（2）译注。图1显示了我们方法的概述。阶段-I，在下面的小节中，我们将详细讨论这两个阶段。3.1符号我们首先定义本文中遵循的符号：– f：受到攻击的目标分类器（TC），其是具有冻结参数的训练模型– fi：目标分类器的第i层中的第k次激活– fps/m：pre-softmax层的输出– fs/m：softmax（概率）层的输出– v：加性通用对抗扰动（UAP）– x：目标分类器的干净输入，通常是数据样本或类印象– ξ：UAP上的max-norm（11）约束，即，在图像中的每个像素处可以添加或减去的最大允许扰动3.2询问并获得课堂印象实际数据样本的可用性可以解决直接愚弄目标，从而制作可以实现高成功率的UAP [13]。因此，在无数据场景中，我们生成充当数据代理的样本注意，攻击者只能访问模型架构和学习到的参数6K.R.莫普里峰Uppala和RV 八步CC金鱼公鸡狼蜘蛛湖区梗君主图二. 为VGG-F [5]模型生成的样本类印象。相应类别的名称在图像下方提及。注意，印模具有位于各种空间位置和多个取向中的若干自然外观图案目标分类器（CNN）学习的参数是在a处和在p〇ce持续时间的训练d的函数。可以在已经编码和保存训练的结果的情况下恢复模型的记忆我们的第一阶段“询问和询问”的目标是适应模型的记忆和然后，我们可以仅使用这些代表性样本来制作UAP以欺骗目标分类器。注意，我们的目标不是生成看起来自然的数据样本。相反，我们的方法创建了目标分类器预测强置信度的样本也就是说，我们创建样本，使得目标分类器强烈地认为它们是属于底层数据分布中的类别的实际样本换句话说，这些是我们试图从现代记忆中提取的实际训练数据的印象。THEREFOREWENAMETETHEMCLASSIR-SION.产生这些类印象的动机是，为了优化一个愚弄目标（例如，当量2）具有表现得像自然数据样本的样本就足够了，这是以高置信度预测的因此，所学习的UAP相对于目标分类器充当这些样本的对抗性噪声的能力推广到实际样本。图的顶部面板1显示了我们生成类印象的方法的第一阶段我们从从U[0，255]采样的随机噪声图像开始，并更新它，直到目标分类器以高置信度预测所选类别我们通过执行等式（1）中所示的优化来实现这一点。注意，我们可以通过最大化对该类别的预测置信度来为任何选择的类别（c）创建印象（Clc换句话说，我们修改随机（噪声）图像，直到目标网络认为它是来自具有高置信度的所选类别c的输入。我们考虑预softmax层fps/m中的激活（在我们应用最大化算法之前）并且最大化模型的置信度。CIc= argmaxXfps/m（x）（1）在学习类印象时，我们执行典型的数据增强，例如（i）在[-5o，5 o]中随机旋转，（ii）通过从{ 0}中随机选择的因子进行缩放。95，0。975，1. 0，1。025}，（iii）RGB抖动，和（iv）随机裁剪。随着上述典型的增广，我们还添加随机均匀询问、获取和攻击7噪音在U[-10，10]。这种增强的目的是生成鲁棒的impres- sions的行为类似于自然样本的扩增和随机噪声。我们可以通过改变初始化来为单个类别生成多个印象，即，多个初始化导致多个类印象。注意，所生成的印象的尺寸将与由模块的输入所要求的尺寸相同（例如，与由模块的输入所要求的尺寸相同）。G. ，224×224×3）。我们在TensorFlow [1]框架中实现了等式（1）中给出的优化我们使用Adam [10]优化器，学习率为0。1，其他参数设置为默认值。为了模仿各种识别的难度（从容易到困难的样本），我们已经设计了一个停止标准的优化。我们假设的难度是负相关的分类器预测在我们开始优化方程之前。（1），我们在[0. 55，0。在目标分类器的预测置信度达到该置信度之后，范围和因此，所生成的类印象将具有不同难度的样本图2显示了为VGG-F [5]模型生成的样本类印象。相应的类别标签在印象下面提到。注意，所生成的类别印象清楚地示出了位于各种空间位置和多个取向中的若干自然外观模式。图3示出了由我们的方法从不同的初始化开始生成的多个类别印象，以用于“SquirrelMonkeyy”类别。并非实施例具有与所选类别相关的不同视觉模式。我们已经为ILSVRC数据集中的1000个类别中的每个类别生成了10个类印象，总共产生了10000个类印象。这些样本将用于学习基于神经网络的生成模型，该模型可以通过前馈来制作UAP操作了图3.第三章。对于V G G - F [ 5 ] 目标分类器，从不同的初始化中为 “ S q u i r r e l M o n k e y ” 分类器提供了多个并行预处理。3.3攻击：制作无数据扰动在我们的方法的第一阶段中生成类印象之后，我们将它们视为用于学习生成器以制作UAP的训练数据。图1的底部面板1显示了我们的生成模型的概述在下面的小节中，我们将介绍模型的架构以及驱动学习的目标。8K.R.莫普里峰Uppala和RV 八步CC3.4愚弄损失我们学习一个类似于生成对抗网络（GAN）的生成器部分的神经网络（G）[6]。G取随机向量z，其分量从简单分布（例如，U[-1，1]），并通过一系列去卷积层将其转换为UAP。注意，在实践中，处理小批量的向量。我们训练G，以便能够生成可以在底层数据分布上欺骗目标分类器的UAP。具体地说，我们用在生成的类印象上计算的愚弄损失（来自阶段I，sec. 3.2）作为训练数据。让我们将干净样本（x）上的预测标签表示为“干净标签”，并且将正确样本（x + v）的标签表示为“正确标签”。该目标旨在消除文化差异和文化差异。为了确保这一点发生，我们的训练损失降低了预测到p e r t ur b ed样本上的cleanl a b e l的置信度。由于t_max_n的线性，预测到一些其他标签的置信度增加，并最终导致标签翻转，这欺骗了目标分类器。因此，我们将我们的愚蠢损失公式化为Lf=−log（1−fs/m（x+v））（2）其中c是在x上预测的干净标签，并且fs/m是预测到类别c的概率（软最大输出）。请注意，这个目标与大多数对抗性攻击方法（例如FGSM [7，21]）在精神上。3.5多样性损失愚弄损失Lf（等式（2）只训练G学习能够欺骗目标分类器的UAP。为了避免学习只能生成单个强UAP的退化G，我们在生成的UAP中实施多样性我们强制小批量内的精心制作的UAP是多样的，这是通过最大化针对小批量内的各代的两两差异来实现的，其中每个小批量和vj属于小批量内的各代。我们考虑用于投影（x+v）的目标CNN的层因此，我们的训练目标由以下给出的多样性损失组成：Ld=− ΣKi，j= l，i/=jd（f1（x+vi），f1（x+vj））（3）其中K是小批量大小，并且d是合适的距离度量（例如，在一对对抗样本之间提取的特征之间计算的欧氏或余弦距离注意，存在于两个词中的类印象X是f（x+vi）和f（x+vi）是相同的。因此，将映射文件最小化Ld将使UAP服务器和磁盘变得简单。因此，我们为训练生成模型以制作UAP而优化的损失由下式给出：损失=Lf+λLd（4）请注意，该目标在精神上与并行工作[18]中提出的目标相似。询问、获取和攻击94实验在本节中，我们提出了我们的实验设置和所提出的方法的有效性方面的成功率所取得的精心制作的UAPs。对于我们所有的实验，我们都考虑了ILSVRC [23]数据集和在其上训练的识别模型作为目标CNN。请注意，由于我们考虑了无数据场景，因此我们提取类印象作为数据样本。类似于现有的数据驱动方法（[13]），每个类使用10个数据样本，我们还为每个类提取10个印象，这使得训练数据为10000个样本。4.1实现细节潜在空间的维度被选择为10，即z是从U[-1，1]采样的随机10D向量。我们已经研究了其他维度（例如50、100等）并发现10是有效的参数的数量，虽然成功率不是很不同。我们使用32的小批量我们所有的实验都是使用Adam优化器在TensorFlow [1]中实现的，这些实现可以在https：//github.com/val-iisc/aaa网站。网络的生成器部分（G）将潜在空间Z映射到给定目标分类器的UAP。我们的生成器的架构由5 deconv层。最后的deconv层之后是Σed和Σatanh非线性和缩放ξ。这样做将扰动限制为−ξ，ξ。与[13，17]类似，选择10的值是为了添加可忽略的对抗性噪声。G的架构改编自[24]。我们在各种CNN架构上进行了实验，这些CNN架构经过训练，可以在ILSVRC [23]数据集上执行对象识别。生成器（G）架构对于不同的目标CNN架构是不变的，并且利用相应的类印象单独学习。当计算分集损失（等式10）时，3），对于小批量（x）中的每个类印象，我们选择一对生成的UAP（v1和v2），并计算f1（x+v1）和f1（x+v2）之间的距离多样性损失将是在小批量成员上计算的所有此类距离的总和我们通常考虑目标CNN的softmax层来提取嵌入。此外，由于嵌入是概率向量，我们使用提取的嵌入之间的余弦距离请注意，我们可以使用任何其他中间层进行嵌入，并使用欧氏距离来测量它们的分离。由于我们的目标是生成可以有效欺骗的不同UAP，因此我们对损失的两个分量给予相等的权重，即，我们在等式中保持λ= 1。（四）、4.2UAP和成功率类似于[13，17，18，15]，我们测量了精心制作的UAP在“序列”中的有效性。这是针对目标CNN在添加UAP（V）时预测不同标签的采样率（X）处的数据的注意10K.R.莫普里峰Uppala和RV 八步表1.通过我们的生成网络建模的扰动的成功率，与无数据方法FFF [17]进行比较行指示扰动被建模的目标网注意，在每一行中，目标CNN与受攻击的网络相匹配的条目表示白盒攻击，其余条目表示黑盒攻击。最右列显示了为每个目标CNN训练的生成器（G）实现的平均VGG-F CaffeNet GoogLeNet VGG-16 VGG-19 ResNet-152 平均FRVGG-F我们92.3770.1258.5147.0152.1943.2260.56FFF81.5948.2038.5639.3139.1929.6746.08CaffeNet我们74.6889.0452.7450.3953.8744.6360.89FFF56.1880.9239.3837.2237.6226.4546.29GoogLeNet 我们57.9062.7275.2859.1248.6147.8158.57FFF49.7346.8456.4440.9140.1725.3143.23VGG-16我们58.2756.3160.7471.5965.6445.3359.64FFF46.4943.3134.3347.1041.9827.8240.17VGG-19我们62.4959.6268.7969.4572.8451.7464.15FFF39.9137.9530.7138.1943.6226.3436.12ResNet-152 我们52.1157.1656.4147.2148.7860.7253.73FFF28.3129.6723.4819.2317.1529.7824.60CaffeNet VGG-FGoogLeNetVGG-19 ResNet-152见图4。样本通用对抗扰动（UAP），由所提出的框架针对不同的网络学习，相应的目标CNN在UAP下面提到注意，所示的图像是每个目标网络的一个样本，并且在不同的采样中，扰动在视觉上变化，如图1所示。六、我们从ILSVRC数据集计算50000个验证图像的成功率。表1报告了由我们的生成模型G在各种网络上制作的UAP的所获得的成功率。每行表示我们训练G的目标模型，列表示我们攻击欺骗的模型。因此，我们还报告了不可见模型上的传输速率，其被称为“black-box at tack ing”（偏离方向）。类似地，当我们在其上学习G的大C NN与受到攻击的模型匹配时，它被称为“whiteboxat taking”（对角化）。然而，该列示出了由跨所有6个CNN模型获得的各个生成器网络（G）实现的平均成功率。所提出的方法可以制作平均具有20. 与现有的无数据方法（FFF [17]）相比，平均成功率高出18%。图4显示了通过我们的方法针对不同目标CNN模型学习的示例UAP。注意，这些扰动中的像素值位于[-10，10]中。此外，不同型号的UAP看起来也不同。图5示出了清洁和询问、获取和攻击11在添加针对不同目标CNN学习的UAP之后的对应扰动样本。请注意，每个目标CNN都对它们进行了不同的错误分类。为了完整起见，我们还将我们的方法与数据驱动的方法进行了比较。表2呈现了用于制作UAP的无数据和数据驱动方法的白盒成功率。我们还展示了在[-10，10]中采样的随机噪声作为基线的欺骗能力。注意，与学习的UAP相比，通过随机噪声获得的成功率非常低。因此，对抗性扰动是高度结构化的，并且与作为扰动的随机噪声的性能相比非常有效。另一方面，所提出的从大型模型的记忆中获取类别印象的方法可以从当前最先进的无数据方法（FFF [ 17 ]）的方法中获得大约20%的记忆此外，请注意，我们的方法与数据驱动方法UAP [13]的性能接近，差距为8%。这些观察结果表明，类印象是有效的，以服务于实际数据样本的目的，在学习工艺的UAP的背景下。表2.所提出的方法处理数据缺失的有效性我们将成功率与数据驱动方法UAP [13]、无数据方法FFF [17]和随机噪声基线进行了比较VGG-F CaffeNet GoogLeNet VGG-16 VGG-19 ResNet-152 是说基线12.6212.910.298.628.408.9910.30FFF（无数据）81.5980.9256.4447.1043.6229.7856.58我们的（无数据）92.3789.0475.2871.5969.4560.7276.41UAP（带数据）93.893.178.577.880.884.084.67清洁：SandViperVGG-F：Maypole阿富汗猎犬VGG19：埃及猫ResNet152：Chiton了图五、“S和V i p e r”的分类（左存储），下面是由驱动器通过添加针对各种目标CNN制作的UAP而生成的一系列分类。注意，在保持不可察觉的同时，扰动导致不同的错误分类。4.3与数据依赖方法的比较。表3呈现了由所提出的方法制作的图像不可知扰动所实现的传输速率。每一行表示目标模型，12K.R.莫普里峰Uppala和RV 八步学习生成模型（G），并且列表示受到攻击的模型。因此，对角线条目表示白盒对抗攻击，非对角线条目表示黑盒攻击。请注意，主要草案只提供了白盒成功率，为了完整起见，我们在这里提供了两者还应注意，尽管是无数据方法，但通过我们的方法获得的平均SR（最右列）非常接近通过最先进的数据驱动方法来制作UAP所实现的平均SR。表3. 与用于制作UAP的最先进的数据驱动方法相比，由所提出的方法制作的扰动的成功率（SR）。VGG-F CaffeNet GoogLeNet VGG-16 VGG-19 ResNet-152 平均SRVGG-F我们92.3770.1258.5147.0152.1943.2260.56UAP93.771.848.442.142.147.457.58CaffeNet我们74.6889.0452.7450.3953.8744.6360.89UAP74.093.347.739.939.948.056.71GoogLeNet 我们57.9062.7275.2859.1248.6147.8158.57UAP46.243.878.939.239.845.548.9VGG-16我们58.2756.3160.7471.5965.6445.3359.64UAP63.455.856.578.373.163.465.08VGG-19我们62.4959.6268.7969.4572.8451.7464.15UAP64.057.253.673.577.858.064.01ResNet-152 我们52.1157.1656.4147.2148.7860.7253.73UAP46.346.350.547.045.584.053.274.4多样性在损失中具有多样性分量（L_d）的目的是避免学习单个UAP并且学习可以针对给定目标CNN生成UAP的多样集合的生成模型我们检查添加生成的UAP后的预测标签的分布。这可以揭示是否存在吸引大多数预测的一组接收器标签。我们已经考虑了G学习愚弄VGG-F模型和ILSVRC验证集的50000个样本我们随机选择由G生成的10个UAP，并计算预测标签的平均直方图。在对直方图进行排序之后，所提出的方法的大多数预测标签（95%）分布在总共1000个目标标签中的212个标签上。而UAP [13]的相同数字是173。22.第二十二章5%的高多样性归因于我们的多样性组成部分（Ld）。4.5同时目标对抗性扰动在多个模型中推广的能力在图像特定的（[28，7]）和不可知扰动（[13，17]）中都有观察到这是一个重要的问题要研究，因为它使简单的黑盒攻击可能通过转移的扰动到未知的模型。在本小节中，我们研究学习一个G，它可以制作UAP来同时欺骗多个目标CNN。询问、获取和攻击13表4. 在三个目标CNN上学习的由系综生成器GE制作的UAP的泛化性：CaffeNet、VGG-16和ResNet-152。注意，由于目标CNN的集合，GE学习制作与个体生成器相比具有更高平均黑盒成功率（MBBSR）的扰动。GCGV16 GR152 GEMBBSR 60.34 61.46 52.43 68.52我们用三个模型的集合替换单个目标CNN：Caf-feNet、VGG-16和ResNet-152，并使用欺骗和多样性损失来学习GE。请注意，由于类印象因模型而异，因此在本实验中，我们从多个CNN生成类印象特别地，我们同时最大化pre-softmax激活（等式2）。（1）通过优化它们的平均值来确定跨各个目标CNN的期望然后，我们调查所产生的扰动的泛化。表4呈现了GE在剩余3个模型上生成的UAP的平均黑盒成功率（MBBSR）为了比较，我们提出了在各个模型上学习的生成器的MBBSR由于目标CNN的集合，GE学习制作更一般的UAP，因此实现了比单个生成器更高的成功率4.6隐空间我们的生成器网络（G）类似于典型的GAN [6，22]。它将潜在空间映射到给定目标分类器的UAPs空间在GAN的情况下，在潜在空间中插值可以揭示记忆的迹象在遍历潜在空间时，代中的平滑语义变化意味着模型已经学习了相关的表示。在我们的例子中，由于我们生成了UAP，我们调查插值是否具有平滑的视觉变化，并且中间UAP也可以相干地欺骗目标CNN。图6显示了在ResNet-152作为目标CNN的潜在空间中插值的结果我们在潜在空间中采样一对点（z1和z2），并考虑连接它们的线上的5个中间点。我们通过使它们通过学习的生成器架构G来生成与所有这些点相对应的UAP。图6示出了所生成的UAP和欺骗目标CNN的相应成功率。注意，UAP在任何一对点之间视觉上平滑地变化，并且成功率保持不变。这确保了学习的表示是相关的和有趣的。4.7对抗训练我们已经对目标CNN进行了对抗性训练，其中50%的混合样本是使用学习的生成器（G）制作的干净样本和对抗性样本。2个时期后，G的成功率从75下降。28到6251.请注意，改进很小，目标CNN仍然很脆弱。然后我们重复14K.R.莫普里峰Uppala和RV 八步0的情况。0*z1 + 1。0*z2：六十岁。580的情况。25 *z1+0。75*z2：59. 160的情况。5*z1+ 0。5*z2：六十岁。250的情况。75 *z1+0。25*z2：59. 871 .一、0 *z1+0。0 *z2：六十岁。09见图6。Z空间中一对点之间的插值表明，我们的生成器学习的映射具有平滑的过渡。该图显示了对应于潜在空间中连接一对点（z1和z2）的线上的5个点的扰动。请注意，这些扰动被学习以欺骗ResNet-152 [8]架构。在每个扰动之下，提到了从ILSVRC 2014验证图像获得的超过50000个这表明这些中间扰动的欺骗能力也很高，并且在不同位置保持相同用于微调网络的生成器训练，得到的生成器以68的增加的成功率欺骗微调网络。72.在重复多次迭代之后，我们观察到对抗性训练并没有使目标CNN显着鲁棒。5讨论和结论在本文中，我们提出了一种新的方法来减轻数据的缺乏，类印象是代表性的图像，很容易通过简单的优化从目标模型获得。使用类印象，我们的方法大大减少了数据驱动和无数据的方法来制作UAPs之间的性能差距成功率更接近于数据驱动的UAP的成功率，这证明了在制定UAP的背景下课堂印象的有效性。查看该观察结果的另一种方式是，可以以任务特定的方式从模型参数中提取关于训练数据的有用信息。在本文中，我们提取了类印象作为代理数据样本来训练生成模型，该模型可以为给定的目标CNN分类器制作UAP。探索其他应用程序的这种可行性也将是有趣的。特别是，我们想研究GANs的现有对抗设置是否可以从从鉴别器网络中提取的任何额外信息中受益，并生成看起来更自然的合成数据。在我们的方法中提出的生成模型是一种有效的方法来制作UAP。与现有的方法，执行复杂的优化，我们的方法通过一个简单的前馈操作构建UAP。即使在没有数据的情况下，显著的成功率，令人惊讶的跨模型泛化能力也揭示了当前深度学习模型的严重易感性询问、获取和攻击15引用1. Abadi等人，M：TensorFlow：Large-scale machine learning on heterogeneoussystems （ 2015 ）， http://tensorflow.org/ ， softwareavailablefromtensorflow.org7，92. Baluja，S.，Fischer，I.：学习攻击：对抗转换网络。在：AAAI会议记录（2018）43. 比吉奥，比， Corona，I.， Maiorca，D. ，Nelson，B.， Sˇrndi´c，N.， Laskov，P.，Giacintoo，G.，Roli ， F. ：在测试时对机器学习的规避攻击。 In ： Joint EuropeanConferenceonMachineLearningandKnowledgeDisc overyinDatabases. pp. 第3874. 比吉奥湾Fumera，G.，Roli，F.：攻击下的模式识别系统：设计问题和研究挑战。 International Journal of Pattern Recognition and ArtificialIntelligence 28（07）（2014）15. Chatfield，K.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：中的魔鬼回归详情：深入研究卷积网络。In：Proceedings of the British Machine VisionConference（BMVC）（2014）6，76. Goodfellow，I.J. Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。在：神经信息处理系统的进展（NIPS）（2014）8，137. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。在：国际会议学习表征（ICLR）（2015）1，4，8，128. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385（2015）149. 黄湖，加-地约瑟夫，AD纳尔逊湾Rubinstein，B. I.，Tygar，J.D.：对抗性机器学习在： Proceedings ofthe 4th ACMWorkshopon SecurityandArtificialIntelligence. AISec10. Kingma，D. Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）711. Kurakin，A.，古德费洛岛Bengio，S.：物理世界中的对抗性例子国际学习表征会议（ International Conference on Learning Representations ，ICLR）（2017）12. Liu，Y.，陈旭，刘，C.，宋，D.：深入研究可转移的对抗性示例和黑盒攻击。国际学习表征会议（ International Conference on LearningRepresentations，ICLR）（2017）13. Moosavi-Dezfooli，S.，Fawzi，A.，Fawzi，O.，Frossard，P.：全世界的对抗性混乱。在：IEEE计算机视觉和模式识别会议（CVPR）（2017）2，3，4，5，9，11，1214. Moosavi-Dezfooli，S.，Fawzi，A.，Frossard，P.：Deepfool：一种简单而准确的欺骗深度神经网络的方法。在：IEEE计算机视觉和模式识别会议（CVPR）（2016）1，2，415. Mopuri，K.R.，Ganeshan，A.，巴布，R.V.：用于制作通用对抗性扰动的可推广的无数据目标。IEEE Transactions on Pattern Analysis and MachineIntelligence（2018）2，3，4，916. Mopuri，K.R.，加格大学巴布，R.V.：CNN固定：一种将图像区分区域可视化的方法。arXiv预印本arXiv：1708.06670（2017）417. Mopuri，K.R.，加格大学巴布，R.V.：快速功能傻瓜：数据无关的普适对抗扰动方法。在：英国机器视觉会议（BMVC）（2017）2，3，4，5，9，10，11，1216K.R.莫普里峰Uppala和RV 八步18. Mopuri，K.R.，奥杰哈大学，加格大学巴布，R.V.：NAG：用于对手生成的网络。在：计算机视觉和模式识别（CVPR）IEEE会议论文集（2018）4，5，8，919. Mordvintsev，A.，Tyka，M.，Olah，C.： Google Deep Dream（2015），https ： //research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html20. Olah，C.，Mordvintsev，A.，舒伯特，L.：特征可视化。Distill（2017）

下载后可阅读完整内容，剩余1页未读，立即下载