多目标对抗网络：一种生成多目标攻击样本的新方法

19 浏览量更新于2023-10-12 收藏 671KB PDF 举报

分类系统

对抗样本生成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

603K类模型2类1类Once a MAN：通过学习多目标对抗网络Once实现多目标攻击Jiangfan Han1 yuan，Xiaoyi Dong2 yuan，Ruimao Zhang1，Dongdong Chen2，WeimingZhang2，Nenghai Yu2 <$，Ping Luo3，Xiaogang Wang1 <$1香港中文大学-商汤科技联合实验室2中国科学技术大学电磁空间信息重点实验室3香港大学{jiangfanhan@link.，张瑞茂，xgwang@ ee.}cuhk.edu.hk，{dlight@mail.，cd722522@mail.，www.example.comustc.edu.cnpluo@cs.hku.hk摘要人先前方法模型11类现代深度神经网络往往容易受到广告的影响，对抗样本在第一种基于优化的攻击方法的基础上近年来，基于生成的方法由于直接使用前馈网络生成对抗样本，避免了基于优化和基于梯度的方法中耗时的迭代攻击过程而受到广泛关注。然而，目前基于生成的方法只能在一个模型中攻击一个特定目标（类别），因此使它们不适用于通常具有数百/数千个类别的真实分类系统。在本文中，我们提出了第一个多目标对抗网络（MAN），它可以生成多目标对抗样本与一个单一的模型。通过将指定的类别信息合并到中间特征中，它可以在运行时攻击目标分类模型的实验结果表明，无论是在多目标攻击任务还是在单目标攻击任务中，该方法都能产生比现有方法更我们进一步使用MAN生成的对抗样本来提高分类模型的鲁棒性。在受到各种方法攻击时，它也能获得比其他方法更好的分类精度。1. 介绍深度神经网络（DNN）在许多人工智能任务中取得了显著的成功，例如，*同等缴款。[2] Nenghai Yu和Xiaogang Wang为通讯作者。模型22类型号KK类图1.我们的MAN和以前的目标攻击方法之间的比较。我们的网络可以通过训练单个模型一次来生成所有类的对抗样本，而其他网络需要每个类的单独模型。年龄分类[16，33，12]，对象检测[8，29，20]和自然语言处理[35，7]。然而，最近的研究[32，23，21]表明DNN是脆弱的，容易受到对抗样本的攻击通过对图像进行微小的扰动，很难从视觉上区分对抗样本和原始图像，但很容易将现代分类模型误导到绝对不正确的类别中，这可能对自动驾驶和人脸验证等实际应用系统产生严重的安全威胁。对抗样本还具有可转移性，这意味着为攻击一个模型而生成的对抗因此，人们将注意力集中在这一现象上，以更好地理解DNN的弱点，以及开发和加强深度网络的鲁棒性。来自[32]的开创性工作使用基于优化的方法来生成对抗样本。然后提出了许多不同类型的方法[23，21，26，31]来提高攻击性能和速度。例如，Goodfellowetal. [9]提出了第一种基于梯度的方法，该方法可以有效地攻击DNN，604使反向传播的梯度迭代地更新具有小扰动的输入图像。Moosavi-Dezfooli等人[21]设计了一个迭代线性化的分类器，以产生最小的扰动，足以改变分类标签。虽然这些基于优化和梯度的方法可以产生很好的攻击效果，但它们往往依赖于非常耗时的迭代过程，这给实际攻击系统带来了很大的计算负担。最近，基于生成的方法[1，28，36]在文献中受到了广泛关注他们直接训练生成模型来学习如何将输入图像转换为对抗样本。这类方法可以看作是上述基于优化和基于梯度的方法的加速版本。通过使用预定义的攻击对象在大规模图像上进行训练，这些模型不需要再次访问目标模型，并且可以在运行时仅通过快速向前传递来生成对抗样本。然而，当前基于生成的方法的一个关键问题是它们只能实现单目标攻击，这意味着由一个模型生成的对抗样本只能在训练过程中将被攻击模型的预测误导到一个特定的预定义类别。如果我们想将被攻击的模型误导到另一个类别，就需要训练一个新的模型，这既耗时又耗内存。因此，它们对于包含成千上万个类别的真实分类系统是不可行的。针对这些不足，我们提出了一种新的框架，称为多目标对抗网络（MAN），其目的是通过一次训练对抗模型来生成多目标攻击样本如图1所示，MAN在训练中不需要特定的攻击目标，并且可以为数据集中的所有类别生成目标对抗样本与现有的单目标攻击方法相比，MAN对所有类别只训练一次，而不是针对不同类别训练不同的模型。如图2（a）所示，MAN采用编码器-解码器网络来嵌入来自不正确类别的目标信息和来自输入图像的外观信息以生成对抗样本。它通过一个简单的框架和直观的损失函数来实现此外，通过大量的实验，我们发现由该模型生成的对抗样本具有很强的可移植性。图3展示了MAN生成的对抗样本。当我们采用不同的目标信息时，MAN使攻击样本能够有效地继承原始图像的外观信息，同时以高欺骗率欺骗预训练模型。我们的贡献总结如下。据我们所知，这是第一项工作，提出了多目标攻击的任务，使用一个单一的模型为数据集中的所有类别瞄准对抗样本。为此，我们提出了一种新的多目标对抗网络（MAN），该网络可以通过训练单个模型产生多目标对抗样本，并且可以显著降低训练成本和模型存储量。在单目标场景中，与各种流行的深度架构[30，12]中的最新方法[1，28]相比，所提出的方法实现了具有竞争力的更好的攻击性能和泛化能力。例如，MAN在CIFAR10数据集上针对VGG16实现了98.55%的定位准确度对于多目标攻击场景，我们的模型可以保持这些优点，通过训练多目标的对抗网络只有一次。MAN生成的攻击样本有效地提高了被攻击模型的鲁棒性和对抗性防御能力。以在CIFAR 10上预训练的被攻击模型为例，当使用MAN生成的最强攻击样本对ResNet 32进行微调时，分类准确率从10.58%提高到81. 14%，优于其他计数器17. 74%。2. 相关工作2.1. 对抗性攻击方法当前生成对抗样本的方法可以分为三类：基于优化的[32，2]，基于梯度的[9，17，5]和基于生成的[1，28]。基于优化的方法将对抗样本的生成建模为优化问题，并使用箱约束L-BGFS [6]或Adam [14]等优化器来解决它，这些优化器功能强大但速度相当慢。古德费尔-洛等。[9]提出了第一个基于梯度的方法快速梯度符号法（FGSM）和Alexey等人。[17]采用小步长迭代的方法来获得更好的攻击性能（I-FGSM）。基于梯度的方法的速度与目标模型的参数数目和迭代次数线性相关，并且通常比基于优化的方法快。然而，由于其固有的模型特定的机制，以前的基于梯度的方法具有相对较弱的可移植性。Dong等人[5]进一步将动量引入迭代步骤（MI-FGSM）以获得更好的可移植性。与上述两类方法中使用的迭代过程不同，基于生成的方法直接使用生成模型将输入图像转换为对抗样本。例如，在[1]中采用了类似于网络的自动编码器，···605HHFFH/H/联系我们HH联系我们（一）X多目标对抗性网络图像编码器重构损失标签编码器功能集成（1）目标标签填充图像特征ConvConcatenate混合特征（b）第（1）款目标标签M不特征一体化分类损失M预测x*被攻击模型标签编码器功能集成（2）目标标签图像特征MLP/乙状智能产品重新校准）混合特征（c）第（1）款图像编码器（d）(e)解码器Res-block DeconvDeconvConv/2图2.多目标对抗网络（MAN）的结构，（a）显示了整体架构，（b）和（c）显示了两种不同的标签编码和特征方法，（d）和（e）分别是图像编码器和解码器的架构。[28]中的U-Net和ResNet被利用。虽然这些方法需要额外的时间来训练，但它们可以以恒定的速度生成对抗样本，并且不需要在推理阶段再次访问目标模型。目前所有基于生成的方法的最大局限性是只能用一个模型攻击一个特定的相比之下，我们提出的多目标对抗网络能够以相似的攻击成功率攻击任何类别的分类模型，并且还可以为对抗攻击任务带来更好的可移植性以及对抗训练任务的模型鲁棒性。2.2. 对抗性防御方法也有许多方法被提出来防御对抗性攻击。[10，18，34]中使用的对抗性训练通过将对抗性样本添加到训练集中并与原始样本联合训练来训练鲁棒网络以对抗性攻击。在[11，24，3，19]中，他们使用预处理程序在输入目标模型之前去除其他方法[34，25，27]使用一些正则化或平滑标签来使目标模型对输入图像上的扰动在上述方法中，对抗性训练是最有效的方法。但它需要足够多的对抗样本进行训练，因此对抗样本的生成速度决定了对抗训练的效果和性能。本文重点研究了如何快速生成对抗性样本来攻击所有类别，这将有助于训练更鲁棒的模型。3. 多目标攻击非目标vs.单一目标攻击假设是一个要被攻击的深度神经网络，它是在数据集K级。对于具有类别标签y1，2，.的图像x，K，网络对于第i个类别的预测概率由i（x）表示，其中i1，2，...，K.非目标对抗攻击试图生成新图像x_i，使得argmaxi i（x_i）=y，这意味着x_ i 的预测标签不应该是x的地面真值标签。相比之下，单目标攻击的目标是生成对抗性样本xmax，使得argmaxii（xmax）=t，其中t=y是在测试阶段中指定的预定义类标签。根据上述定义，非目标攻击比单目标攻击更容易实现，因为它只需要攻击模型在对抗图像和对应的原始图像之间做出不同的预测除了单目标攻击外，本文还研究了一个更具挑战性的任务--多目标攻击，其目标是通过单个网络生成多目标对抗样本白盒攻击vs.黑盒攻击如果我们知道被攻击的模型，包括模型结构和参数，我们称这种攻击为白盒攻击。在这种情况下，攻击者可以通过访问被攻击的模型来直接使用攻击方法生成对抗样本。相反，对于黑盒场景，攻击者对目标模型一无所知。因此，所设计的攻击模型需要更强的可移植性，这意味着为攻击一个模型而产生的对抗样本也可能误导另一个模型。问题定义。为了生成目标对抗样本x，定义具有参数θ的变换函数θ ，以将输入图像x映射到目标域x，x=θ（x，t）。在实践中，我们通过深度神经网络来近似这个函数，其中θ表示网络参数。多目标攻击的目的是训练网络Fθ，使argmaxiHi（Fθ（x，t））=t，其中ti=y。与传统的单一目标攻击不同，6061+e我∈我∈·⊙⊙∈∈LHFL∈∈∈∈针对预定义标签t 0训练特定网络Ft0，多目标攻击仅针对任意目标标签t∈ {1，2，.， K}。3.1. 多目标对抗网络（MAN）体系结构概述。城域网的总体架构如图2（a）所示。它将图像x和目标标签t作为输入，并生成对应于所需目标的对抗样本x与传统的单目标对抗网络[28]相比，目标标签t被视为离散变量而不是连续变量。原创图片99.92%不同目标的对抗性样本90.69%99.97%99.81%学院袍班卓琴篮球站在男人。t的范围是从1到K。因此，MAN的编码网络包括两个分支，一个用于从输入图像中提取外观特征，如图2（d）所示，另一个用于编码目标标签信息。特征集成模块也被引入来集成来自这两种模态的特征表示如图2（e）所示，采用具有六个残差块和两个解卷积层的解码器网络来生成最终的对抗样本。采用两种直观损失来优化对抗网络。一个是重建损失，以保持原始图像和对抗样本之间的外观相似性，另一个是分类损失，这是用来嵌入目标标签信息到攻击样本。为了计算分类损失，将生成的攻击样本馈送到被攻击模型中，I.E.预训练的分类网络来预测标签。虽然在MAN训练过程中被攻击模型中的参数是固定的，但仍然可以通过该模型来引导生成子网络。男人的变种接下来，我们描述两个版本的MAN功能集成方案。第一个在图2（b）中示出，这是通过沿着通道连接来集成图像特征和标签特征的非常直接的想法。给定输入图像x，图像编码器首先计算图像特征图MRC×H×W，其中C、H和W表示数量。通道的BER、特征图的高度和宽度。目标标签t表示为独热向量图3.对抗性样本到不同的目标，其中λ= 10μN。数字是由预训练的VGG16模型给出的相应标签的预测概率。Jie等人提出的挤压和激发网络。[13]，我们声称不同的特征表示通道可以捕获不同类别的不同特征因此，通道的产品，即。重新校准操作，用于整合标签特征和图像特征。在这种情况下，标签编码器包含一个两层多层卷积器（MLP），输出由sigmoid函数σ（x）=1−x。我们将t′表示为MLP的输出，其由下式给出：t′=Fen（W，t）=σ（W2δ（W1t）），（1）其中δ是ReLU [22]激活函数，W1RU×K和W2RC×U是全连通层，U是中间单元的数量，t′RC，σ限制每个元素t′（0，1）。最后的综合特征表示为M′=t′M，其中M′= ti Mi是图像特征M =[M1，M2，. . . ，MC]。我们称这种结构为多目标对抗性重新校准网络（MANr）.3.2. 优化为了优化网络参数，我们将MAN针对目标标签t的目标函数定义如下，t∈RK，其中t沿高度和宽度方向展开，得到标签特征图T∈RK×H×W。则L（x）=LCLS（H（Fθ（x，t）），t）+αLre（x，Fθ（x，t）），（2）以上两组特征图沿着channelstogetamixx edoneM'R（K+C ）×H×W。采用自适应卷积层对混合特征M′进行整形，RC×H×W。最后，M′被馈送到解码器中以生成对抗样本x。在该方法中，通过连接图像和目标标签的特征图来生成混合特征我们将此模型称为多目标对抗级联网络（MANC）。标签编码器和特征集成的第二种架构如图2（c）所示。灵感来自其中（θ（x，t））是目标模型在对抗样本上的预测概率，t是离散标签变量。权重因子α决定了两个损失项的重要性，cls是激励被攻击模型对目标标签进行预测的分类损失。损失函数的具体形式对最终结果有很大的影响。以前的研究[1，28，2]在他们的作品中尝试了不同的分类损失;我们发现标准的交叉熵损失在我们所有的实验中都很有效。重建损失重新衡量了对抗样本与原始图像之间的外观差异。607||− F||||2 θ||2θ√××被攻击模型VGG16 VGG19 Res152Res101ATN [1]88.18米55.680.150.13VGG16[第28话]Manc99.89元99.85磅70.8385.790.530.900.300.50MANr99.93磅71.830.500.50ATN [1]0.070.0881.95磅2.31Res152[第28话]Manc19.173.5816.515.4899.65磅99.67分73.5352.75MANr20.4723.7499.72分77.61被攻击模型VGG16 VGG19Res32Res14ATN [1]87.97美元65.7169.8571.81VGG16[第28话]Manc94.16米97.86磅77.6087.6776.4688.2678.9088.63MANr98.55磅91.0788.9590.33ATN [1]37.4150.7493.17米69.60Res32[第28话]Manc43.7151.2757.1968.1197.02米98.86磅74.3081.01MANr58.5672.2699.26分79.33表1.使用不同目标模型对ImageNet数据集进行单目标对抗攻击的成功率（%）表示白盒攻击。它通常用向量范数来度量||x− Fθ（x，t）||其中p∈{0，1，2，∞}[2]。在本文中，我们采用欧氏距离，即.L2常模作为我们的测量指标.到保证对抗样本与原始图像之间的差异较小，即，扰动被限制在一定范围内。一个固定的距离上限是给定的，我们强制约束Xθ（x，t）2<π。在实践中，我们使用α来平衡两个损失项的功效。较大的α鼓励更好的重建质量，而较小的α则获得更高的成功攻击率。4. 实验4.1. 对抗性攻击在本节中，我们评估了 MAN 在 ImageNet [4] 和CIFAR10 [15]上的攻击效果。一般设置。在ImageNet [4]数据集上，我们使用流行的网络架构VGG16 [30]和ResNet152（Res152）[12]进行实验，如固定的模型。同时，我们使用VGG19和Res101作为为了公平比较，在测试阶段，我们将所有扰动的范数缩放到某个阈值。I. e. x=x−（x−Fθ（x，t））。这里x是用于测试的缩放广告样本。计算了实验中L2范数的阈值其中N=C H W是输入图像x的维数。在本部分中，我们设定δ=10，并在消融研究中列出了对δ的进一步探索。我们利用亚当[14]优化器，β1=0。5和β2=0。999训练所有的对抗网络。批量为32。对于CIFAR10 [15]，被攻击的网络是VGG16 [30]和ResNet32（Res32）[12]，“黑盒”模型是VGG19和Res14。我们将batchsize设置为128，其他设置与Imagenet相同。单一目标攻击在这一部分中，我们评估了单目标攻击任务的攻击性能。我们在单目标训练过程中固定输入标签t，以获得模型的降级版本。我们比较了拟议MANc和MANr与另外两种最先进的方法ATN [1]和GAP [28]。对于所有的方法，我们训练广告-表2.使用不同目标模型对CIFAR10数据集进行单目标对抗攻击的成功率（%）表示白盒攻击。在ImageNet上进行12万次迭代的对抗模型，初始学习率为0.002，在ImageNet上进行8万次迭代后下降了10在CIFAR10训练集上，我们以0.001的初始学习率训练了20K次迭代，并在16K次迭代后减少了10次。超参数α在ImageNet上设置为100（ATN为1），在CIFAR10上设置为 800 （ ATN 为在测试过程中，对抗样本由ImageNet验证集中的50K图像和CIFAR10验证集中的5K图像生成。我们使用成功率作为评估指标，它被定义为被攻击模型分类对抗样本与目标类的比率。表1和表2报告了两个数据集的攻击成功率。我们首先评估白盒攻击性能。从结果中，我们可以发现，ATN执行相当弱的所有情况下。与GAP相比，MANc和MANr在大多数情况下都取得了更好的结果，例如。MANr在CI-FAR 10上对VGG 16的攻击准确率达到98.55%，优于GAP 4.39%。当涉及到黑盒攻击。ATN显示出非常弱的可转移性。当转换到具有类似架构的模型时，例如.从VGG16到VGG19，我们的MANC在ImageNet上的成功率达到85%，在CIFAR10上的成功率接近90%，超过GAP10%以上。当转换到一个完全不同的体系结构的模型时，例如。从VGG到ResNet，我们发现CIFAR10的结果略有下降，但在大多数情况下仍高于88%。但在ImageNet上，所有方法的成功率都低于25%。我们认为这是因为ImageNet数据集中的类别太多，很难转移到具有特定攻击目标的另一个模型。根据上述结果，我们的方法在大多数情况下表现得更好。我们认为这是因为我们的方法将任务分为两个分支。一个分支引导生成模型生成与前面的方法类似的对抗样本。另一个分支编码目标标签，并提供额外的指导，帮助生成更强大的对抗样本。多目标攻击。在多目标攻击训练阶段，为每个训练集分配一个随机目标标签608√×被攻击模型VGG16 VGG19Res152 Res101VGG16MancMANr99.22分99.13米66.8154.162.481.731.421.33Res152MancMANr7.615.767.716.0698.14磅98.23米55.3949.69方法参数数量型号总数总训练迭代次数ATN [1]7.84M1000120M[第28话]7.84M1000120MManc10.74M1280KMANr8.55M1280K表3.使用不同模型对ImageNet数据集进行多目标对抗攻击的成功率（%）表示白盒攻击。被攻击模型VGG16 VGG19Res32Res14VGG16MancMANr99.14分99.50美元92.9795.4790.0892.6888.5689.74Res32MancMANr76.8678.3686.8788.1599.30分98.94磅90.2784.98表4.使用不同模型对CIFAR10数据集进行多目标对抗攻击的成功率（%）表示白盒攻击。ing图像。我们训练了28万次迭代的模型，初始学习率为0.002，在ImageNet训练集上迭代24万次后下降了10。在CIFAR10训练集上，我们训练了80K次迭代，初始学习率为0.001，在64K次迭代后下降了10。在评估阶段，我们从ImageNet验证集中随机挑选5000个样本，并为每个样本随机分配 10 个标签。对于CIFAR10，验证集包含5000个样本，我们将所有10个标签分配给每个样本。总共生成了5万个对抗样本来攻击每个数据集上的预训练模型。表3和表4报告了MAN变体在ImageNet和CIFAR10上的攻击成功率。对于白盒攻击，我们发现我们的模型保持了很好的性能，攻击准确率超过98%。当在两个数据集上评估黑盒性能时，我们发现我们的模型也保持了较高的可移植性。由于表1、2和表3、4中的评价指标不同，因此无法直接比较结果。在烧蚀研究中，我们在相同的评价指标下进行了进一步的比较。仿真结果表明了该方法的可行性和有效性。即使在一个包含大量类别的大数据集上，我们的方法仍然可以用单个模型攻击任意类别。还有一个有趣的现象，MANr在CIFAR10上表现更好，而MANc在ImageNet上表现更好MANr重新校准特征图的每个通道。当尺寸小时，它控制得更好。当尺寸较大时，不容易重新校准特征图。MANC将特征图连接起来以获得混合特征图，该混合特征图不受特征图大小的影响，因此在两个数据集上的性能均匀。图3显示了由不同目标标签生成的原始样本和对抗样本。表5.比较了我们的方法与单目标方法在每个模型的参数数量，使用的模型总数和实现攻击ImageNet中所有类别所需的总训练迭代次数上的差异。参数比较。表5列出了每个模型的参数数量，所需的模型数量以及攻击ImageNet中所有类别所需的总训练迭代次数。与MANr相比，以前的模型的参数减少了约8.3%，但攻击ImageNet中的所有类别需要总共7840 M参数和120 M迭代的1K模型。相比之下，我们的方法只是采用了一个单一的模型，少得多的参数和0.3M迭代，以达到同样的目标。因此，我们的方法在时间和存储效率上都有显著提高4.2. 对抗训练对抗性训练是提高模型抗对抗性攻击鲁棒性的有效方法之一。它通过对抗样本与用于生成对抗样本的图像的地面真实标签来在这一部分中，我们评估了当对抗性样本用于微调时，分类模型对对抗性攻击的改进。陷阱以下所有实验均在CIFAR10数据集上进行。为了提高分类模型的鲁棒性，我们使用对抗样本及其地面真实标签来微调预训练的网络。在本文的其余部分，我们使用被攻击模型架构为ResNet32，对抗样本分别由 MANc 、 MANr 和 GAP [28] 生成，其中MANr=10N。对于MANc和MANr，我们使用随机目标标签生成对抗样本，并使用这些样本微调被攻击的模型。我们还针对10个攻击目标训练了10个GAP模型，每个GAP模型都是一个单目标攻击模型，以产生对抗样本。我们用一个、五个和十个GAP模型生成的对抗样本对被攻击的模型进行微调，以探索对抗训练过程中使用的类数量的影响。相应的设置分别表示为GAP 1、GAP 5和GAP 10。所有的高级模型都经过了40K次迭代，批量大小为128（64 2，每个图像都与其对抗样本相结合）。学习率设置为0.001。为了进一步评估这些高级模型的鲁棒性，我们使用MI-FGSM [5]和ATN [1]作为攻击方法。在实践中，我们使用MI-FGSM来生成具有随机目标标签的对抗样本，并遵循操作609√√√ √√√√√√攻击力攻击方法间隙1间隙5间隙10MancMANr原始资源32北纬8度ATN [1]MI-FGSM [5]13.3818.1811.6013.9611.3713.7611.1712.3411.4313.2486.4199.40北纬12度ATN [1]MI-FGSM [5]19.4023.5613.5018.8613.0815.2812.5714.8613.2813.8494.5699.68北纬16度ATN [1]MI-FGSM [5]24.9329.2216.0922.2215.2717.4414.6917.1815.8816.8897.9799.76表6. 攻击成功率（%）是一个通用的分类模型。较低的成功率表明该模型是可靠的。ResNet32是利用MI-FGSM和ATN攻击模型生成对抗样本，L2阈值分别为8N、12N、16N。我们还添加了Raw Res32（没有对抗训练的ResNet32），以确保攻击方法的有效性。攻击力攻击方法间隙1间隙5间隙10MancMANr原始资源32北纬8度ATN [1]MI-FGSM [5]86.1781.9089.4886.6089.8588.7489.9189.2489.3689.3420.779.54北纬12度ATN [1]MI-FGSM[5]75.4873.7085.3881.4085.7084.7886.0686.1484.8786.0613.0410.12北纬16度ATN [1]MI-FGSM [5]63.4163.4078.8773.8678.6479.0879.1581.1477.1781.0010.7810.58表7.分类模型的分类准确率（%）更高的精度表明模型更稳健。在[5]中使用的时间设置。对于ATN方法，我们遵循第2节中所述的生成程序。4.1.请注意，所有用于测试的攻击样本都是通过在CIFAR10测试集上使用预训练的ResNet32架构生成的我们从两个方面考虑分类模型的鲁棒性。一方面，我们定义攻击成功鲁棒性的攻击成功率的对抗样本的先进模型。在这种情况下，较低的成功率表明模型更稳健。另一方面，分类成功鲁棒性也被定义来评估高级模型是否可以将对抗样本分类到它们的地面真值类。在这一部分中，我们设定攻击强度（阈值）为N=8N，12N，16N。其中两个阈值比上一部分中的阈值大，因为高级模型已经通过对抗样本进行了微调。较大的阈值也可以反映高级模型对较强攻击的鲁棒性。攻击成功鲁棒性。表6显示了攻击成功率结果表明，攻击成功率随着攻击强度的增大而增大.当攻击强度较小时，即8N，很难使用对抗样本来欺骗任何一个adv-model，而GAP 1比其他模型稍差。当强度变大时，即. 12N，GAP 1和GAP 5模型往往容易受到对抗性样本的攻击，这几乎使攻击成功率增加了5%左右，而GAP 10和我们的模型仍然很健壮，成功攻击率略微增加了2%左右。当攻击强度为16N时，GAP 1和GAP 5使20%以上的样本成功攻击。其他型号在这种情况下也容易受到攻击，但我们的MAN仍然略优于GAP 10。e.G. MANr可以防御0.56%以上的对抗样本对抗MI-FGSM攻击。分类成功鲁棒性。我们在表7中报告了分类成功稳健性的结果。采用小攻击力，即：8N，所有的adv-models可以正确地分类大多数对抗样本，并实现高的分类准确率（大于80%）。当抗拉强度增大时，即抗拉强度增大时，抗拉强度增大.12N时，GAP 1模型的精度明显下降，而其他先进模型仍能保持80%以上的精度。当设置攻击强度为16N时，只有GAP 10、MANc和MANr可以保持80%左右的准确率。此外，我们的方法得到了更好的结果。e.G.对于MI-FGSM攻击方法，MANc的准确率为81.14%，比GAP 10高出2.06%综上所述，当我们比较GAP 1，GAP 5和GAP 10模型的对抗训练结果时，我们发现当目标模型数量增加时，高级模型可以获得更强的抵抗对抗攻击的能力，这表明有必要使用多个单目标攻击模型重新训练被攻击模型。同时，与单目标方法相比，我们的模型在几乎所有情况下都表现出更好的性能。实验结果表明，该方法能够生成多样化的对抗样本，提高了对抗模型的再训练效率。我们的方法可以使用更少的训练时间和存储资源来产生更丰富的对抗样本，并使被攻击的模型更鲁棒。4.3. 消融研究权重因子α。在这一部分中，我们探讨了权重因子α对攻击结果的影响。正如我们上面所说，较大的α鼓励更好的重建质量，而较小的α导致更高的攻击率。在评估结果时，我们比较了一定的恢复率下的攻击率610√√√√√√ √√100.097.595.092.590.087.585.082.580.0（一）10080604020（b）第（1）款VGG16 VGG19 Res32 Res14VGG16MancMANr97.86磅98.55磅87.6791.0788.2688.9588.6390.33Res32MancMANr51.2758.5668.1172.2698.86磅99.26分 81.0179.33VGG16+Res32 MancMANr98.90磅99.60美元96.7598.0799.39分99.69分96.7998.06表9. CIFAR10数据集上针对不同模型的最后一排图4. (a)权因子α与攻击强度CIFAR10上不同的阈值的cess率与预训练的VGG16模型。(b)不同门限下的攻击准确率。VGG16 VGG19 Res32 Res14Res32 单目标多目标58.7167.6975.6982.1999.70美元99.16米90.5193.37表8.基于MANr的单目标和多目标攻击模型的成功率（%）。多目标模型攻击的目标与单目标相同施工门槛降低，影响复杂。图4（a）显示了在VGG 16模型中使用不同权重因子α的CI-FAR 10数据集上的攻击成功率。我们可以发现，当允许阈值较大时，较小的α当α值较小时，α值越大，系统性能越好，但在所有情况下，α值越大，系统性能越阈值在这一部分中，我们探讨了不同阈值的影响。更大的偏移意味着对原始图像的更严重的改变。在步长为2N的情况下，对攻击精度从2N到20N进行了测试.图4（b）显示了CI上的攻击成功率-FAR10数据集。我们发现，较小的带宽（如2N，4N）限制了成功率。随着时间的增加，成功率也在增加。10N和12N获得最佳性能，因此我们在主要实验中使用10N但是当带宽太大时，性能会有所下降我们认为这是因为太大的扰动阻碍了对抗特征的表示。可转让性。对单目标攻击模型和多目标攻击模型的可移植性作了进一步的探讨与上一节不同我们采用更多的迭代来训练多目标跟踪模型，在这一部分中，我们对所有模型使用相同的训练迭代。对于单目标模型，我们在训练过程中固定攻击目标标签，而多目标模型接受随机输入标签。在测试阶段，我们使用相同的攻击目标的多目标模型中使用的单目标的。结果列于表8中。结果表明，即使我们用相同的迭代次数训练两个模型，在所有黑盒情况下，多目标模型也比单目标模型表现出更好的可移植性，例如：当从ResNet32转移到VGG16时，它获得了8.98%的增益表示将VGG16和ResNet32组合为白盒模型。我们推测，不同目标标签之间的竞争促进了模型学习更多的泛化特征，具有更强的泛化能力，这一结果证明了我们的猜想。模型包围。我们还尝试在训练过程中组合不同的at-tacked模型，表9的最后一行显示了在VGG 16和ResNet32模型上联合训练的成功率。很明显，集成不同的攻击模型比单一的体系结构具有更好的可移植性从ResNet32到VGG19的性能传递环来看，集成方法比单一体系结构的性能提高了10%以上.这是合理的，因为网络试图适应各种架构，因此它可以很好地推广到其他看不见的模型。5. 结论本文提出了一种新的对抗模型多目标对抗网络（MAN）来处理多目标攻击问题。它可以通过训练单个模型产生多目标对抗样本，并显著降低了训练成本和模型存储量。通过将目标标签信息嵌入到生成的对抗样本中，这些样本在攻击能力和可移植性MAN还有效地产生了不同的对抗样本用于对抗训练，这大大提高了模型的鲁棒性未来的工作可能在于添加随机噪声或引入额外的正则化项，以生成具有更好的黑盒攻击可转移性的对抗样本对抗样本的更多应用也被认为是可以开发的，例如。在更现实的约束下的对抗性攻击。确认这项工作得到商汤科技集团有限公司的部分支持，部分由香港研究资助局的一般研究基金资助，资助额为CUHK14202217，CUHK14203118，CUHK14205615，CUHK14207814，CUHK14213616，部分由中国自然科学基金U1636201和61572452基金资助，安徽省量子信息技术研究中心AHY150400基金资助。=600=800=1000=1200=14006N8N阈值10N攻击成功率（%）MANC2N6 N10 N14N18N攻击阈攻击成功率（%）611引用[1] Shumeet Baluja和Ian Fischer。对抗转换网络：学习生成对抗性示例。arXiv预印本arXiv：1703.09387，2017。[2] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。[3] Nilaksh Das，Madhuri Shanbhogue，Shang-Tse Chen，Fred Hohman ， Li Chen ， Michael E. Kounavis 和 DuenHorng Chau。把坏人赶出去：使用JPEG压缩保护和接种深度学习。arXiv电子印刷品，第arXiv：1705.02900页，2017年5月。[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第248-255页。Ieee，2009年。[5] 董银鹏，廖方舟，庞天宇，苏航，胡晓林，李建国，朱军 . 以势头增强对抗性攻击。 arXiv 预印本 arXiv ：1710.06081，2017年。[6] 罗杰·弗莱彻实用的优化方法。John Wiley Sons，2013年。[7] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats，and Yann N Dauphin.卷积序列到序列学习。arXiv预印本arXiv：1705.03122，2017。[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[9] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。国际学习表征会议，2015年。[10] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性示例。arXiv电子印刷品，第arXiv：1412.6572页，2014年12月。[11] Shixiang Gu 和 Luca Rigazio 。 Towards Deep NeuralNetwork-Architecture Robust to Adversarial Examples.arXiv电子版，第arXiv：1412.5068页，2014年12月。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] 杰虎，李申，孙刚。挤压-激发网络。arXiv预印本arXiv：1709.01507，7，2017。[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.

下载后可阅读完整内容，剩余1页未读，立即下载