对抗性示例（AE）的可转移性：源模型生成的AE可以误导其他模型的预测

72 浏览量更新于2023-10-16 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1360更详细地看对抗性示例的可转移性：他们如何愚弄不同的模特早稻田二太1，西川宗介1，黎忠毅2，3，4，胡伊H。Nguyen2和Isao Echizen1，21日本东京大学2日本东京国立信息学研究所3越南国立大学胡志明市分校4越南国立大学胡志明市分校futa-waseda@g.ecc.u-tokyo.ac.jp;{ nhhuy，iechizen} @ nii.ac.jp摘要深度神经网络容易受到对抗性示例（AE）的影响，这些示例具有对抗性可转移性：为源模型生成的AE可能会误导另一个（目标）模型的预测。然而，尚未根据目标模型的预测被误导到哪类来理解可转移性（即，类感知可转移性）。本文区分了目标模型与源模型预测同一错误类（“同一错误”）或不同错误类（“不同错误”）的情况我们发现（1）AE倾向于导致相同的错误，这与“非目标可转移性”相关此外，我们提出的证据表明，相同错误和不同错误之间的差异可以用非鲁棒性特征、预测性但人类无法解释的模式来解释：当模型不同地使用AE中的非鲁棒特征时，会出现不同的错误。因此，非稳健特征可以为AE的类感知可转移性提供一致的解释。1. 介绍深度神经网络（ DNN ）容易受到对抗性示例（AE）的影响，这些示例会受到噪声或模式的轻微干扰，从而误导DNN的预测[24，8]。由于AE可以在不影响人类感知的情况下欺骗DNN，因此它们对现实世界的DNN应用构成严重威胁，即使在物理世界中也是如此[14]。然而，现有的防御技术仍然容易受到AE，由于缺乏对对抗脆弱性的理解需要更好地理解AE的一个关键属性是其可转移性：使用源模型生成的AE也可能欺骗其他模型[24，8，21，22]。这种可转移性允许攻击者使用替代模型来生成AE图1.对对抗性范例（AE）的可转移性进行分类的范例当源模型将AE错误分类为“狗”时，AE到目标模型的类感知可转移性被分类为（1）目标模型将AE正确分类为“猫”（未被愚弄），（2）其将AE错误分类为“青蛙”（不同的错误），或⑶其将AE错误分类为“狗”（相同的错误）。相比之下，非靶向转移性和靶向转移性以二元方式定义：AE是否达到攻击者的目标。为了欺骗具有不同架构或权重的其它未知（目标）模型（即，一种“黑箱攻击”[21]），这在我们的社会中构成了相当大的风险。理解可转移性对于降低黑盒攻击的风险和理解当前DNN中导致对抗性漏洞的根本问题至关重要。许多研究[24，8，21，5，15，4]调查了（1）非靶向和（2）靶向可转移性，这取决于对抗性攻击的目标。非目标可转移性是针对非目标攻击而定义的，其目的是欺骗模型而不管错误分类的类;另一方面，针对目标攻击定义了目标可转移性，目标攻击的目的是将模型骗向特定的目标类（如图1所示）。首先，以前的工作集中在解释非目标可转移性[8，15，26，11]：他们表明源模型和目标模型之间的相似性允许AE同时欺骗它们。然而，在这方面，1361图2.我们对AE如何导致不同模型做出不同预测的假设：非鲁棒特征[11]可以由模型不同地使用。假设当模型A使用比“青蛙”特征更多的我们的工作表明，非鲁棒性的特征可以导致不清楚源模型和目标模型的预测被误导到哪一类，我们称之为“类感知的可转移性”。虽然不同模型将AE错误分类为同一类（基于这种动机，我们从一个新的视角“类感知的可迁移性”来分析可迁移性我们的目标是了解可转移性现象，而不是简单的风险评估。首先，我们对影响类感知可迁移性的因素然后，我们测试了我们的假设是否解释了观察到的可转移性现象。我们在两个条件下分析类感知的可转移性：模型相似性和扰动大小。类感知的可转移性区分了目标模型将AE错误分类为与源模型相同的类（“相同错误”）和与源模型不同的类（“不同错误”）的情况（图1）。我们提出三个主要发现：（1）AE倾向于导致相同的错误，这与它们欺骗目标模型的能力（非目标可转移性）密切相关;（2）即使在非常相似的模型上，AE也会导致不同的错误;（3）较大的扰动意图引起相同的错误，但不降低不同错误的比率。为了全面解释引起不同错误和相同错误的AE机制，我们提出了一种基于强大的功能”。Ilyas等人[11]表明AE可能具有预测性但人类感知不到的特征（即，非鲁棒性特征），模型被误导到该类别。在这里，同样的错误是基于其理论的逻辑后果;然而，它们并不能解释不同的错误。在这项工作中，我们表明，导致不同错误的AE可以具有两个模型被误导的两个不同类别的非鲁棒特征。这表明模型对学习特征的依赖性可能导致不同的错误：当AE中的非鲁棒特征被不同的模型不同地使用时，这些模型可能会对AE进行不同的分类（图2）。随着我们加强非稳健特征理论[11]，我们支持AE至少部分是学习“表面线索”[12]或“捷径”[7]的结果的主张我们的贡献总结如下。• 我们对类感知可转移性的评估表明，(1) AE倾向于导致相同的错误，这与它们欺骗目标模型的能力（非目标可转移性）密切相关，（2）即使在具有高相似性的源模型和目标模型之间也会发生不同的错误，以及（3）较大的扰动不会减少不同的错误，这表明在将源模型和目标模型误导到同一类时存在不对准• 我们通过扩展非鲁棒特征理论，解释了导致不同和相同错误的机制相同的错误是由于AE具有模型被误导的类别的非稳健特征当不同模型以不同方式使用AE中的经操纵非稳健特征时，那些模型可对AE进行不同分类。2. 相关工作2.1. 非目标对抗转移非目标对抗转移性定义为目标模型是否分配了错误的类而不是真实的（原始的）类。Szegedy等人[24]表明，即使源和目标模型具有不同的架构或在不相交的数据集上训练，AE也会转移。Papernot等人[21]表明，非目标AE甚至在不同的机器学习方法之间转移，如DNN，SVM和决策树。Naseer等人[20]生成的AE甚至可以在不同图像域（如卡通和绘画）上训练的模型之间传输。虽然这些研究显示出有趣的可转移性，但此类AE如何影响目标模型本文分析了类感知的可移植性，区分了不同的错误和相同的错误。非目标对抗性攻击的可转移性可以通过源和目标之间的相似性来解释。1362目标模型。goodfellow等人[8]表明，adversar扰动与模型的权重向量高度一致，并且当在相同的数据集上训练以执行相同的任务时，不同的模型学习类似的函数。Liu et al. [15]通过可视化揭示了可转移性可以从区分真实类和其他类的决策边界的相似性中产生。Tramer等人[26]断言，当“对抗子空间”在不同分类器之间相交时，出现可转移性。Ilyas等人[11]表明，对抗性脆弱性可能来自非鲁棒性特征，这些特征具有预测性但无法被人类解释，并且可转移性来自模型之间学习的非鲁棒性特征的相似性。然而，这些并没有澄清何时以及为什么会发生不同或相同的错误.我们是第一个提供有见地的解释，国家和讨论他们的机制的基础上的非鲁棒特征的理论。2.2. 目标对抗转移目标对抗可转移性由目标模型是否分配与源模型被攻击的目标类相同的类来定义Liu等人[15]表明，与非目标攻击相比，目标攻击很少在模型之间转移。类别感知可转移性允许我们直接比较非靶向和靶向AE的影响，而不是使用非靶向和靶向可转移性的两个不同指标。一些研究通过类似的想法改进了定向攻击的可转移性：避免对图像或源模型的过拟合。Dong等人[6]在基于梯度的对抗攻击的迭代中使用动量; Xie等人[29]在生成AE时增加了输入多样性，Nasser等人[29]在生成AE时增加了输入多样性。[19]通过使用生成对抗网络（GAN）来捕获全局数据分布而不是过度拟合源模型和单个图像来生成特定类别的AE。然而，这些努力并没有提供一个理论上的解释机制，造成同样的错误。一些研究解释了同样的错误。Goodfellow等人[8]假设神经网络的线性行为解释了这一点。这种行为是通过泛化来解决相同的任务，从而类似于在相同数据上训练的线性分类器。Ilyas等人[11]提供了一个被广泛接受的解释：模型可以通过查看AE中的类似非鲁棒特征来分配相同的类别。然而，这些并不能解释我们的观察，即不同的错误发生在相似的模型之间，而不管扰动的大小。本文提供了一个新的见解的基础上的理论的非鲁棒的功能解释不同和相同的错误。2.3. 引起不同预测的对抗性例子一些作品已经研究了AE如何导致不同的模型做出不同的预测，这对应于未被愚弄或不同错误的情况。Nakkiran等人[18]生成的AE只欺骗源模型，而不会欺骗具有相同架构并在相同数据集上训练的另一个模型。他们声称存在AE，其利用与真实数据分布无关的方向，因此与特征无关。Tramer等人[26]使用带有XOR伪影的MNIST数据来训练线性和二次模型，并生成只欺骗其中任何一个的AE。他们假设，当两个模型学习不同的特征时，AE可能不会转移。Charles等人[2]从几何角度进行了讨论，并说明了当AE仅欺骗线性分类器而不是双层ReLU分类器时梯度的判定边界和方向。我们关于AE如何导致不同模型做出不同预测的假设可以很大程度上解释这些情况并提供进一步的解释。2.4. 类别稳健性一些工作集中在类明智的鲁棒性，评估每个类的鲁棒性分别。一些研究表明，通过对抗训练（AT）[16]训练的模型的类稳健性是不平衡的，这可以通过我们的非稳健特征假设来解释（图2）。AT是一种防御方法，它训练将AE纳入训练数据的模型。Tian等人[25]揭示了AT模型的类稳健性的不平衡及其在训练过程中的波动。Xia等人。[27]表明，通过使用AT中针对该脆弱类加权的AE，可以提高特定脆弱类的鲁棒性。我们的研究结果解释了这些研究结果如下：AT试图强制模型忽略AE中的非稳健特征。因此，AT中的类稳健性取决于AE包含哪一类非稳健特征，并且类之间的平衡可以是确定类稳健性的关键因素。3. 对抗性转移分析3.1. 概述在本节中，我们通过区分“不同错误”和“相同错误”来评估AE我们的目标是澄清影响类感知可迁移性的因素。首先，我们通过逐步改变源模型和目标模型之间的相似性来分析模型因素的影响不同于Liu et al.[15]，我们不仅比较了具有不同架构的模型，还比较了具有不同或相同初始权重的模型，以及仅在不同训练时期的模型。此外，我们使用由下式定义的决策边界距离的度量1363·∥ − ∥ΣΣΣ距离（F1，F2）=1ΣΣ|（六）|(6)∇ ∥∇∥我我Tramer等人[26]作为定量模型相似性度量。其次，我们通过逐渐增加扰动大小来评估类感知的3.1.1类感知可转移性我们根据目标模型是否“未被愚弄”、是否犯了“不同的错误”或“相同的错误”来对可转移性进行“同一错误”一词是由Liu et al.[15]这不是他们研究的重点。我们研究的重点是评估源模型F1产生的AE的恶意效应如何影响（未知）目标模型F2的分类结果。因此，我们仅对由F1和F2正确分类并成功愚弄F1的原始图像生成的AE进行可转移性评估：其中L（）是损失函数，x ′是从原始输入x生成的AE。两者都服从l p-界x ′ xp<∞，使得x ′保持足够接近x。我们使用两种基于梯度的攻击生成AE：（1）快速梯度法（FGM），这是一种生成lp有界AE的有效方法（快速梯度符号法[8]的广义版本），以及（2）投影梯度下降（PGD）法[16]，这是FGM的迭代版本，生成更强的AE。我们在补充材料中提供了其他攻击的结果，例如MIM [6]，CW [1]和DeepFool [17]。3.1.3模型相似性为了定量测量源模型和目标模型之间的相似性，我们使用由（x′，y，y1）<$DF′1，F2=（x，y）F1（x）=y，F2（x）=y，F1（x′）=y1（x=y）.（一）Tramer等人[26]第10段。它测量两个模型之间N个N其中，AEx′=adv（x，y，F1）由ad-i=1针对图像-标签对（x，y）的向量攻击adv（·），其中d（f，x）=argmin<$[f（x+v·v）<$=y]是最小值，原始集合D，并且y1（y）表示源模型错误分类的错误类。对于这些AE，我们定义类感知可转移性的度量如下。1. 未被愚弄的比率：P（x′，y，y1）<$DF′1，F2[F2（x′）=y]2. 冷却比：P（x′，y，y1）<$DF′1，F2[F2（x′）<$=y](a) 不同的错误率：P（x′，y，y1）<$DF′1，F2 F2（x′）=y2，其中y2∈/{y，y1}（二）(b) 相同错误率：P（x′，y，y1）<$DF′1，F2 F2（x′）=y1（3）如果目标模型F2将AE x ′分类为真实类y，则它是未被愚弄的;如果它将AE分类为与源模型F1不同的错误类y2，则它犯不同的错误;如果它将AE分类为与源模型F1相同的错误类y1，则它犯相同的错误。注意，愚弄比率对应于非靶向反式-可感知性相同的错误率对应于有针对性的transferability只有当y1是有针对性的攻击的目标类。3.1.2生成对抗性示例我们研究了两种非目标攻击，其目的是欺骗模型，而不管错误分类的类，和有针对性的攻击，其目的是欺骗模型对特定的目标类ytar。优化问题被公式化为（非目标：）argmaxL（x′，y）（4）x′（Targeted：）argminL（x′，ytar）（5）x′从输入x到模型f的决策边界的最小距离。在向量v =的方向上计算距离。xL（x，y;F1）/XL（x，y;F1）2，其是针对源模型F1生成的非目标对抗扰动的归一化向量。因此，该度量与非目标转移能力直接相关。我们使用这个度量来分析类感知的可移植性和非目标可移植性所指示的模型相似性为了计算公式6，我们从所有模型都正确分类的测试集中随机选择了1，000张图像。3.2. 评估设置3.2.1数据集我们使用Fashion-MNIST [28]、CIFAR-10 [13]和STL-10[3]数据集，都是十类数据集。我们生成AEl2-由特定的边界约束（假设像素取值范围为[0，1]）。PGD攻击迭代10步，步长α=0/5。为了生成目标AE，我们为每张图像随机选择目标类别。为了进行公平的比较，我们从测试集中评估了2,000张随机图像，所有模型都正确分类。3.2.2模型对于Fashion-MNIST，我们检查了具有四个简单架构的模型：具有2个或4个隐藏层的全连接网络（FC-2或FC-4）和具有2个或4个卷积层，然后是两个全连接层的卷积网络（Conv-2或Conv-4）。对于CIFAR-10和STL-10，我们检查了具有五种流行架构的模型：VGG-16，N1364−VGG-19 [23]、ResNet-18、ResNet-34 [9]和DenseNet-121 [10]。我们为Fashion- MNIST训练了40个时期的所有模型，为CIFAR-10和STL-10训练了100个时期的所有模型（详细信息见补充材料）。为了进行精确的分析，我们为每个架构独立地训练了三个模型：使用相同的初始权重参数训练两个模型，并且使用其它初始权重训练一个模型（当具有相同结构的模型之间的初始权重相同时，唯一的区别是混洗训练数据或丢弃层的随机性）。此外，我们还将源模型的早期版本作为第i个时期的目标模型。在下文中，在其名称中具有“（w：same）”或“（w：diff）”的模型F2是使用与用于F1相同或不同的初始权重独立训练的模型;“（v：i）”是第i个时期的F1。3.3. 结果和讨论FGM和PGD（十步）攻击针对各种数据集和模型的结果，包括非目标和目标，如图3所示。F2目标模型通过针对每个F1的定量相似性度量Dist（F1，F2）来排序。Dist（F1，F2）大致对应于模型的定性相似性;例如，当F1是ResNet-18时，Dist（F1，F2）是ResNet架构家族中F2的最短距离图3显示，大多数被愚弄的比率是相同的错误比率。此外，同样的错误率与被愚弄率密切相关：当源模型和目标模型在相同的体系结构族中时被愚弄和相同的错误率都较高（例如，ResNet- 18和ResNet-34都属于ResNet系列），并且目标模型是源模型的早期版本。被骗率与同错率的相关性大于0。99，以及Dist（F1，F2）和相同错误率均低于0的情况。在图3所示的所有情况下，均为90。这表明，AE倾向于导致相同错误的事实与它们误导目标模型预测的能力密切相关非目标转移性（Non-targeted transferability）。尽管AE往往会导致相同的错误，但即使源模型和目标模型在定性上非常相似，我们也观察到不同错误的比例不小即使当模型具有相同的架构并且从相同的初始权重进行训练时，针对STL-10的针对FGM攻击的不同错误率也在此外，即使在源模型和第i个时期的源模型之间也存在不同的错误。这些发现提出了一个问题，即如何解释相似模型之间存在的不同错误，我们将在后面的章节中讨论。图4表明，虽然相同的错误随着较大的扰动而增加，但不同的错误率几乎保持不变或增加。它表明有一个错误-AE将源模型和目标模型误导到特定类别的能力之间的对齐，不能简单地通过放大扰动来解决。为了进一步解释这些类感知的可转移性观察，我们可视化了决策边界，如Liu等人[15]（图5）。我们选择了两个方向，即ResNet-18的非目标梯度方向δ1和随机正交方向δ2δ_1和δ_2均用l_2-范数标准化为0.022-D平面中的每个点（u，v）对应于图像x+uδ1+vδ2，其中x是源图像。对于每个模型，我们绘制了图像对应于每个点的分类标签首先，我们观察到具有相同架构的模型之间的不同错误区域，甚至只有20个epoch的差异的模型第二，当沿x轴到决策边界的最小距离d（Fi，x）在F1和F2之间相似时，相同错误的区域更大。这表明，虽然区分真类和错类的决策边界的相似性导致非目标可转移性[15]，但同时，区分不同错误类的决策边界也可能相似，并可能导致相同的错误。非靶向转移能力与相同错误之间的强相关性表明AE中存在非稳健特征[11]：AE可能会因包含与特定类别相关的非稳健特征而导致相同的错误。然而，在相似模型之间或当扰动很大时存在不同的错误仍然知之甚少我们假设，当非鲁棒特性的使用依赖于模型时，会出现不同的错误，我们将在后面的章节中进行研究。4. 非鲁棒特征研究4.1. 概述在这里，我们为不同的错误提供了第一种可能的解释，这种解释也可以解释同样的错误。具体而言，我们基于非鲁棒特征理论提供了有见地的解释和讨论[11]。相同的错误可能是由于不同的模型使用类似的非鲁棒特征;我们表明，一个不同的错误也可能出现从非鲁棒的功能。我们设计了N-目标攻击，以产生AE，可以导致不同的模型不同的错误然后通过使用Ilyas et al.的框架[11]，我们表明，这些AE具有两个不同类别的非稳健特征，这些模型被误导。我们的研究结果表明，当两个模型不同地使用这两个类的非鲁棒特征时，它们会犯不同的错误。因此，我们得出结论，使用非鲁棒性特征是对不同和相同错误的可能解释：相同错误是由于AE具有模型被误导的类别的非鲁棒性特征;另一方面，AE可能同时136512(a)Fashion-MNIST（λ=1.0）（b）CIFAR-10（λ=1.0）（c）STL-10（λ=5.0）图3.针对各种数据集和模型的对抗性攻击的类感知可转移性。AE以特定的AE为界。F2的顺序按每个F1的Dist（F1，F2）（第1行）排序，因此估计最右边的F2与F1更相似图 4. 当扰动强度逐渐改变时， AE 的类别感知转移性（CIFAR-10）。通常具有与不同类别相关的多个非稳健特征，如果模型以不同方式使用它们，则它们可能会对相同的AE进行不同的分类（图2）。4.1.1实验我们的目标是从导致不同错误的AE中检测两个不同类别的非鲁棒特征假设这些AE具有两个误导类相似性的非稳健特征。在这种情况下，我们可以假设模型以不同的方式使用非鲁棒特性（如图2所示为了证明AE中存在非稳健特征，我们使用了Ilyas等人描述的非稳健特征框架。[11]第10段。我们的目标是检测非鲁棒特征图5.CIFAR-10中“鸟”源图像的决策边界可视化第一行显示分类结果;每种颜色代表一个类别。第二行显示了类感知可转移性的三种情况对应的区域。沿x轴从（0，0）点到最近决策边界的距离对应于第3.1.3节中描述的度量d（F1，x）。每种单位轴的l2距离为0.02。首先，我们在原始训练集上生成可能导致模型F1和F2不同错误的AE：每个AE x '都是从原始图像x生成的，以将模型F1误导到目标类y tar，将模型F2误导到目标类y tar。然后，我们使用两种重新标记整个AEX'集合的方式创建新的（非鲁棒的）训练集，即，通过相应的目标类Y 1或Y 2（注意，X、X ′、Y 1和Y 2分别是数据点x、x ′、y tar和y tar的集合）。在这里，目标类1 2两种不同类别的AE，而Ilyas et al.”[11]这只是一个例子。实验流程如图6所示Y1和Y2是为每个数据点随机选择的，因此只有特定类别的非鲁棒特征可以与分配的标签相关联，但其他特征具有应用性。1366我N我图6.用于检验我们假设的实验图示（图2），即具有两种不同类别的非稳健特征的AE可能会导致不同的错误首先，原始训练集被N-目标攻击，以产生导致F1或F2的不同错误的AE。接下来，通过将生成的AE重新标记为Y1或Y2（F1或F2的目标类别）来构建新的（非稳健的）数据集。最后，在新的数据集上训练模型，并在原始测试集上进行评估prolonged零相关，如在Ilyas et al.[11]第10段。最后，我们在新的训练集（D1′：（X′，Y1））上训练了一个模型或D2′：（X′，Y2））并在原始测试集上进行评估D检验：（X，Y）。如果两个非鲁棒集D1′和D2′都是在推广到原始测试集D测试时，我们可以得出结论，两个类别（Y1和Y2）的非鲁棒特征同时存在于相同的AE我们生成了可能导致不同错误的AE，F1和F2通过使用我们的扩展版本的有针对性的攻击，即N-目标攻击。这次攻击的目的是错误地引导模型Fi到每个目标类ytar。N目标攻击的目标表示为argminΣL。Fi（x′），ytarf，s.t. x′ −

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

对抗性示例（AE）的可转移性：源模型生成的AE可以误导其他模型的预测

最新资源