攻击解释深度表示的扰动研究及其应用

104 浏览量更新于2023-10-24 收藏 13.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Mohammad A. A. K. JalwanaNaveed AkhtarMohammed BennamounAjmal MianComputer Science and Software Engineering,The University of Western Australia.{mohammad.jalwana@research., naveed.akhtar@, mohammed.bennamoun@, ajmal.mian}@uwa.edu.auDeep visual models have provided breakthroughs in nu-merous computer vision tasks, including image classiﬁca-tion [24, 43], object detection [37, 38], semantic segmen-tation [27, 9] and image captioning [49]. However, despitetheir impressive performance, deep models are found vul-nerable to adversarial perturbations to inputs [45]. Theseperturbations are weak additive signals that manipulatemodel predictions while remaining imperceptible to the hu-man visual system. The intriguing susceptibility of deepmodels to adversarial perturbations is currently being ac-tively investigated by the research community [2].Dictated by the original ‘adversarial’ perspective [45],195430攻击以解释深度表示0摘要0深度视觉模型容易受到输入图像极低幅度的扰动的影响。尽管扰动模式经过精心设计，但通常看起来是噪声，但它们能够对模型的预测进行受控制的操作。这一观察结果用于反驳深度表示与人类感知不一致的观点。本文提出了对深度学习的第一次攻击，旨在解释学习到的表示而不是欺骗它。通过扩展操纵信号的输入域并采用模型忠实通道，我们逐步积累深度模型的对抗性扰动。累积的信号逐渐表现为目标标签的一系列视觉显著特征（在模型欺骗中），将对抗性扰动视为目标标签的原始特征。我们的攻击提供了第一个系统地计算对抗性非鲁棒分类器的扰动的演示，这些扰动包含了物体的显著视觉特征。我们利用算法的模型解释特性来进行图像生成、修复和交互式图像操作，从而攻击对抗性鲁棒分类器。这些应用中的视觉效果令人满意，证明了我们的攻击（以及扰动）在模型欺骗之外的其他方面的实用性。01. 引言0图1.顶部：使用图像分布，我们的攻击迭代地为标准深度视觉分类器（这里是VGG-16）生成和改进扰动p，该扰动被分类器视为标签的几何模式的显著视觉特征。底部：将我们的攻击应用于对抗性鲁棒分类器（这里是ResNet-50），可以实现视觉上吸引人的交互式图像操作（这里），图像生成（图6）和修复（图7）。0在这个方向的研究已经采取了一种自然的双头方法。一系列的工作旨在生成具有适度视觉可感知性和高可转移性的扰动，以欺骗已知和未知的模型[16，25，13，42，11，30]。而另一方面则专注于保护模型免受此类扰动的影响[50，36，26，1，34]。很少有例外偏离了“对抗性”品牌的扰动，并将这些信号作为深度学习的欺骗工具。Santurkar等人[41]通过使用扰动进行图像合成与对抗鲁棒网络提出了一种有意义的贡献。Ilyas等人[19]对对抗性扰动进行了研究，声称现有的大型数据集（如ImageNet[12]）具有脆弱但高度预测性的特征。95440对人类来说是不可察觉的。有人认为深度视觉模型依赖这些非鲁棒特征来提高准确性，这也使它们容易受到对抗性扰动的攻击。深度模型对这些“显然”不可理解的特征的依赖也被认为表明了深度视觉表示与人类感知之间的不一致[14]。为了消除这种不一致，Engstorm等人[14]提出在鲁棒优化框架下学习深度模型。然而，这会导致原始模型的显著性能损失和模型归纳的计算复杂性的大幅增加。令人矛盾的是，与人类感知不一致的表示仍然以高准确性执行与人类相关的视觉任务。为了研究这一现象，我们深入研究了扰动信号的组成，以替代模型欺骗的目标来解释模型。我们发现，在适当的条件下，对抗性扰动最终会表现为目标标签的显著视觉特征，即使对于非鲁棒模型也是如此，参见图1（顶部）。在对抗性扰动的背景下，这一观察结果极大地削弱了人类感知与深度表示之间不一致的论点。相反，它将对抗性扰动定位为目标标签的人类相关几何特征，尽管以原始和微妙的形式。我们的扰动估计算法通过迭代地沿着输入样本的分类器损失曲面的期望梯度方向进行最大化来随机地最大化图像分布的扰动样本的预测概率，以获得给定目标标签。最大化是通过梯度矩和调整步长方向来更高效地实现最终目标。我们进一步将扰动信号引导到更多引起分类器深层神经元高活动性的区域。这种改进完全基于我们的算法计算的中间扰动，使得我们的技术对模型解释具有忠实性-这是模型解释的一个理想属性[14]。除了通过“分类器”在类标签方面解释深度模型并突出深度表示与人类感知的一致性之外，我们的攻击还自然适用于例如图像生成、修复和交互式图像操作等低级视觉任务[41]。通过在这些任务上实现比[41]更显著的视觉改进，我们确认了我们的技术（以及扰动）在对抗性目标之外的其他方面的实用性。本文的主要贡献总结如下：0•我们提出了第一个对深度学习进行输入扰动的攻击，而不是欺骗它。•通过在“非鲁棒”模型的扰动中展现类别标签的显著视觉特征，我们大大削弱了深度表示与人类感知不一致的论点。0我们通过攻击鲁棒分类器来展示视觉上吸引人的图像生成、修复和交互式图像操作。我们的结果证实了扰动在模型欺骗之外的效用。2. 相关工作0对抗性扰动正在积极研究，以攻击深度模型并对抗对抗性攻击[2]。我们首先讨论这些方面的关键贡献，然后专注于输入扰动的非对抗性视角。对抗性攻击：加性对抗性扰动首次出现在Szegedy等人的开创性工作中[45]。这一发现推动了攻击深度视觉模型的众多技术的发展。Goodfellow等人[16]设计了快速梯度符号方法（FGSM），以在模型的损失曲面上通过单个梯度上升步骤来制作对抗性扰动。随后，Kurakin等人[25]通过引入一个称为迭代FGSM（I-FGSM）的多步版本来推进了这个方案。对抗性攻击的后续迭代算法的其他实例包括动量I-FGSM（MI-FGSM）[13]，多样输入I-FGSM（DI2-FGSM）[51]和方差减小I-FGSM（vr-IGSM）[48]等。上述算法和其他最近的工作[30，42，39，11，52，15]计算图像特定的对抗性扰动。这些扰动对人类来说看起来像噪声，但完全欺骗了模型。Moosavi-Dezfooli等人[29]首次证明了使用通用对抗性扰动同时欺骗大量图像上的深度模型的可能性。随后，[33，5，22，31]还设计了计算有效的通用扰动的技术。深度模型对对抗性扰动的普遍易感性被视为对实际深度学习的严重威胁[2]，这个想法目前正在推动这一领域的非常高水平的研究活动。对抗性防御：另一方面，也出现了许多技术来对抗对抗性攻击[20，34，36，50，44，35，1，26]。这些技术旨在保护深度模型免受图像特定[34]和通用扰动[1]的影响。这通常通过检测输入图像中的扰动或通过修改模型或输入本身来稀释扰动信号的对抗效果来实现。然而，Carlini等人[7，6，8]以及后来的Athalye等人[3]证明，更强的对抗性攻击通常可以打破对抗性防御。非对抗性视角：目前，文献中也有一些贡献（尽管很少），暗示了扰动在模型欺骗之外的效用。对于“非鲁棒”模型，我们通过在扰动中展现类别标签的显著视觉特征，大大削弱了深度表示与人类感知不一致的论点。我们通过攻击鲁棒分类器来展示视觉上吸引人的图像生成、修复和交互式图像操作。我们的结果证实了扰动在模型欺骗之外的效用。2. 相关工作̸95450例如，Tsipras等人观察到欺骗“对抗鲁棒”模型的扰动信号中存在目标类别的显著视觉特征[46]。Woods等人也对使用正则化梯度增强的模型做出了类似的观察[47]。扰动中存在显著的视觉特征表明这些信号在模型解释方面的潜力[28，47]。然而，这些特征在非鲁棒模型的情况下独特地表现出来，被解释为深度表示与人类感知之间的不一致[14，46]。潜在地，只有通过对模型进行对抗性鲁棒化，才能实现重新对齐，但这将严重损失性能并增加计算复杂性[14，46]。03. 攻击以解释0设I∈Rm是分布I上的样本，K（I）是将I映射到其正确标签ℓtrue的深度视觉分类模型。在对抗性设置中生成扰动的共同目标是计算满足约束的p∈Rm0K（I + p）→ℓ target s.t. ℓ target ≠ ℓ true，|| p || p ≤ η，（1）0其中||.||p表示受固定的‘η’限制的ℓp范数。在（1）中，将ℓtarget限制为预定义的标签会导致有针对性的对抗攻击。根据（1），p也可以表示为I和K（.）的函数1。给定固定的K（.），计算特定图像扰动的目标将p的定义域限制为单个图像的极端情况。在这种限制下，扰动信号只能反映出与K（.）相关的单个数据点的特异性，几乎不能说明分类器的任何一般特征。这也对通过指称特定图像扰动来暗示深度表示与人类感知不一致的相关性提出了质疑。为了更好地将分类器信息编码到扰动中，信号需要对输入样本不变，这可以通过扩大p的定义域来实现。恰好，根据我们的论证，通用扰动[29]是根据我们的公式计算的，这些扰动与特定图像扰动相比具有更规则的几何图案。然而，这些图案仍然远离任何对象的显著视觉特征。这是因为通用扰动将所有输入图像映射到随机类标签。对于给定的K（.），通过以‘有针对性’的目标扩大扰动域更有可能诱导出p中的几何图案，这些图案实际上被K（.）认为是ℓtarget的显著特征。根据上述论证，我们可以将（1）的目标另外描述为最大化扰动样本被K（.）映射到ℓtarget的概率。对于|Dom（p）|>1，其中|.|是集合的基数，这种最大化必须包含所有相关样本。因此，我们将（1）重新表述为以下约束，以解释使用p解释深度模型的目标：01我们假设生成p的算法是固定的。0Dom（p）={�I|I�I}，|Dom（p）|�1，||p||p≤η，0E � P（K（I + p）→ℓ target）� ≥ γ，s.t.（2）0其中P（.）表示概率，γ∈[0,1]是预定义的常数。与常规计算的对抗扰动相比，满足（2）的p预计能够揭示关于模型中物体的区分性视觉特征是什么，给定模型的标签索引附加了什么语义，这些特征和语义是否具有人类可理解性等方面的清晰信息。4. 算法0其中Dom（p）={�I|I�I}，|Dom（p）|�1，||p||p≤η，我们分两个阶段计算所需的扰动。在第一阶段的扰动估计中，以整体方式在扰动中引入目标类别的判别特征（由分类器感知）。然后，在扰动细化阶段，该技术更加关注导致模型中高神经活动的图像区域以细化扰动。扰动估计：为了扩展我们的扰动域，我们需要对图像分布进行采样。考虑到I，我们定义了一个样本集�={d}∪D，其中d∈Rm表示‘种子’图像，而D的每个元素也是I的样本。我们采用这种形式化来阐明分布和种子选择在后续文本中的作用。估计扰动的过程总结如算法1所示，该算法使用引导随机梯度下降策略解决以下优化问题：0max p � = E I �� P ( K ( I + p ) → ℓ target ) � s.t. || p || 2 ≤ η.(3)0该算法的核心是使用分布样本的小批量进行多步遍历视觉模型的成本表面以解决(3)。我们使用种子图像偏置这个遍历。算法通过计算小批量的梯度并利用梯度矩来进行高效优化，迭代地朝着增加的'�'方向前进，而不是追求最优解，基于(2)，我们接受任何满足� ≥γ的解。下面，我们按照算法1中的顺序详细描述这个过程。我们计算期望的扰动，期望的扰动在算法1中提到的输入上。简要忽略第1行的初始化，算法首先随机选择b-1个样本组成集合D，并在扰动它们与当前估计的扰动后剪辑这些样本和输入种子d（第3和4行）。剪辑是为了...00Set α = 0.9, β = 0.999 and d = d.2: while ℘ < γ do3:D ∼ D,s.t. |D| = b − 14:D ← Clip (D ⊖ pt) , d ← Clip (d ⊖ pt),5:t ← t + 16:ξ ←||∇dJ (d,ℓtarget)||2∞∞||295460算法1 扰动估计0输入：分类器K，种子d，原始样本D，目标标签ℓtarget，扰动范数η，小批量大小b，概率阈值γ。输出：扰动p∈Rm。0E d i ∈D [ ||� d i J ( d i ,ℓ target ) || 2 ]07: g t ← 102 � d J ( d , ℓ target ) + ξ02 E d i ∈D � � d i J ( d i , ℓ08: µ t ← α µ t − 1 + (1 − α ) g t 9: σt ← β σ t − 1 +010: ρ ← � µ t �01 − β t � ⊙ � √ σ t (1 − α t ) � − 1011: D + ρ ← D � � p t − 1 + ρ0�012: D − ρ ← D � � p t − 1 − ρ0�013: � + ← E � P ( K ( D + ρ ) → ℓ014: � − ← E � P ( K ( D − ρ ) → ℓtarget )] 15: if � + ≥ � − then 16: pt ← p t − 1 + ρ017: else 18: p t ← p t − 1 − ρ 19: end if20: p t ← p t ⊙ min � 1 , η0�021: � p ← Clip ( { d ∪ D} � p t ) 22:� ← E � P ( K ( � p ) → ℓ target ) �023: 结束循环024: 返回0将生成的样本的动态范围限制在[0,1]之间。�符号表示将扰动应用于样本或集合的各个元素。对于给定的迭代，剪辑的d∪D形成一个小批量，我们的随机梯度下降策略使用该小批量。种子在我们的算法中引入，通过改变这个输入来允许扰动的变化。我们不对输入样本做任何限制，这意味着D和d的元素可以是完全不同的。这也意味着d i ∈ D的梯度在 ℓtarget 方向上的梯度�d i J(d i ,ℓtarget)可能与计算d的梯度有很大的不同。为了解决这个差异，算法的第6行计算了d的梯度范数与E d i ∈D的期望梯度范数之间的比率。该比率稍后用于融合梯度的第7行，使种子梯度更具相关性。给定融合的梯度，我们在第8和9行使用指数运行估计其第一和第二原始矩。0图2.随着算法1的更多迭代，视觉显著的几何模式逐渐出现，并在算法2的后续改进中进一步改进。在前者的100次后改进后显示了改进后的扰动。'Nail'模式是使用η =10的VGG-16计算的。我们遵循[45]进行扰动可视化。0平均值由超参数'α'和'β'控制。在我们的算法中，自适应矩是受到Adam算法[23]的启发，该算法使用这种方案进行模型参数优化。经过经验验证，我们发现这些超参数对我们的算法和Adam的效果有相似性，我们将它们的值固定为[23]中提出的值。这在第1行中指示，其中其他参数初始化为null值，并为后续处理创建了一个种子的副本。我们在第10行合并运行平均值，然后在第11-19行对结果中间扰动更新信号ρ进行二分搜索。搜索监视是否改变ρ的方向对于我们的最终目标更有利。随机性可能导致我们的优化在给定迭代中与最终目标显著偏离。一方面，二分搜索抑制了这种情况。另一方面，它引入了更多的多样性，这对于更好的模型解释是可取的。我们在第20行将更新后的扰动投影到半径为'η'的ℓ2球上，并在第21和22行上估计扰动剪辑分布样本上的'�'。在对抗性设置中，扰动的ℓp范数受到限制以保持不可察觉性，而在我们的技术中，这个约束起到了不同的作用。通过迭代反投影和剪辑，我们不断放大那些强烈影响K(.)以预测ℓtarget作为所有输入样本标签的几何模式。随着连续的反投影，ℓtarget的视觉显著特征开始在我们的扰动中出现（图2），随后对其进行了更好的可视化，如下所讨论。0扰动改进：算法1中对扰动的整体处理导致能量在信号上的无限传播。为了获得更好的图案，我们让该技术更多地关注相关区域，并采用自适应滤波机制，该机制在算法2中进行了总结。该机制的一个关键特性是，在不假设任何外部先验条件的情况下，它保持了扰动的模型准确性。为了改进扰动，将其输入到分类器的卷积基¯K(.)中（第2行）。基的输出Ω是一组低分辨率的2D信号，通过第3行将其缩减为平均信号a。该信号捕捉到扰动的粗略轮廓，使其成为我们技术的有用空间滤波器。在第4行，Ψ(.)计算平均信号的Otsu阈值[32]，然后在第5行将图像二值化。我们在这项工作中经验性地将λ设置为5。然后，通过双三次插值[21]（第6行）将缩放的掩码应用于扰动，然后将其剪切到有效的动态范围。算法2的输出进一步由算法1处理，以突出可能在滤波中减弱的任何显著图案。最终的扰动通过两个算法之间的迭代计算得出。95470算法2 扰动改进输入：分类器K，扰动p ∈ Rm0输出：改进后的扰动p 1: 将f初始化为0 ∈ Rm0设置¯K = K的卷积基，缩放因子λ = 5 2: Ω ← ¯K(p) : Ω ∈ RH × W × C03: a ← 10C × Cn = 1 Ωn04: τ ← Ψ(a) 5: if a(x,y) > τ then a(x,y) = λ else a(x,y) = 0 6: f ←upsample(a) : f ∈ Rm07: p ← Clip(p ⊙ f)8: return0扰动的轮廓是输入扰动中显著区域的剪影，这使其成为我们技术的有用空间滤波器。在第4行，Ψ(.)计算平均信号的Otsu阈值[32]，然后在第5行将图像二值化。我们在这项工作中经验性地将λ设置为5。然后，通过双三次插值[21]（第6行）将缩放的掩码应用于扰动，然后将其剪切到有效的动态范围。算法2的输出进一步由算法1处理，以突出可能在滤波中减弱的任何显著图案。最终的扰动通过两个算法之间的迭代计算得出。05. 实验0我们对提出的模型解释算法进行实验（§5.1），并进行低级图像处理（§5.2）。前者使用标准的“非鲁棒”分类器，而后者使用“对抗鲁棒”分类器。5.1.模型解释0设置：我们假设I是自然图像的分布，并通过从ILSVRC2012数据集的验证集中随机采样256个图像来创建我们的集合D[12]。每个实验都使用随机样本。我们将在ImageNet上训练的视觉模型作为我们的分类器，并任意选择目标标签ℓtarget。使用小批量大小b =32。为了计算扰动，我们将概率阈值γ设置为0.8，扰动范数η设置为10。选择“γ”的值是基于最终扰动中显著图案的视觉清晰度。较高的“γ”倾向于以更高的计算成本生成更清晰的图案。我们将“η”保持与用于对抗性扰动生成的现有技术相当[29, 1]。使用具有12 GB RAM的NVIDIA TitanVGPU。为了计算扰动，我们首先让算法1运行以实现所需的“�”。然后，我们应用算法2进行改进。随后，再次应用算法1，以便在每50次迭代后进行改进。0直到300次迭代。0显著的视觉特征：基于模型梯度的对抗扰动已知会生成类似噪音的模式[45, 16, 30]或对人类来说毫无意义的图案[29,1]。然而，通过在稍微不同的目标下积累这些扰动，我们的攻击能够发现这些信号中目标标签的视觉显著特征。在图3中，我们展示了我们的算法为VGG-16模型计算的扰动的代表性示例。请注意，这些几何图案清晰可见，人类可以将其与目标类别标签相关联。这些图案的出现并不需要对扰动、分布样本（在D中）或模型本身做任何先验假设。首先，从图中可以明显看出，我们的技术可以（定性地）解释模型的“输出神经元附加了什么人类有意义的语义？”这在某些设置中非常有用，例如当一个未知模型可用时，我们必须发现其输出层的标签。其次，这些扰动解释了“什么几何图案被分类器认为是给定类别的区分特征？”有趣的是，这些图案与人类感知非常吻合，并且我们使用了与促进人类感知与深度表示之间不一致性的论证相同的工具（即基于梯度的扰动）[14, 46]。0显著模式的多样性：在图3中，我们为每个目标类别提供了两个代表性的扰动，这些扰动的差异是由于选择不同的种子。除了确定种子在我们的算法中的有效作用外，仍然保持视觉上显著的多样性模式，证明了模型已经学习到了目标标签的一般（人类可理解的）语义。我们强调，在创建图3的D时，我们忽略了目标类别。因此，这些模式完全基于视觉模型，这也突显了标准分类器在多样化图像生成任务中的潜力。0区域特定语义：对于扰动中显著模式的空间分布感到好奇，我们还探索了从图像空间中提取与特定区域相关的模型语义的可能性。这可以通过增加输入到我们算法的分布样本中那些区域像素之间的相关性来实现。这使得个别样本的梯度在指定区域中具有相同的方向。这样，通过反向投影来加强这些区域的信号，而通过细化来抑制其他区域的弱信号。我们通过将感兴趣的图像区域替换为所有样本的64×64贴片来模拟这种情况，其中所有贴片像素都是由采样图像的平均像素值生成的。在图4中，我们展示了一个代表性的扰动。5.2. Leverage in low-level tasks95480图3.通过累积基于梯度的扰动与解释目标，目标类别（给定标签）的显著特征出现。所示的扰动是使用ImageNet样本对VGG-16计算的，不包括目标类别样本。为了增加多样性，相同目标的扰动使用不同的种子生成。0图4.使用均匀贴片（仅显示种子）阻碍样本，使算法能够聚焦于/附近预指定的区域，以提取模型语义。对于VGG-16计算'Centipede'的扰动。0图5.显著模式的出现是一种普遍现象。展示了不同模型的两个随机标签的模式。0使用三个随机选择的区域标签（'Centipede'）进行攻击。感兴趣的区域仅用种子表示。可以观察到，我们的攻击能够更好地聚焦在指定的区域附近。有趣的是，模型通常能够以一种连贯的方式将目标标签的相似有区别的特征与不同的区域相关联，进一步加强了人类感知与深度表示的一致性概念。0不同模型的模式：上面，我们主要展示了VGG的模式，以便视觉上更清晰。然而，显著视觉特征的出现0我们的扰动在深度视觉分类器中是一种普遍现象。在图5中，我们还展示了ResNet-50 [17]，DenseNet-121[18]和MobileNet-V2[40]的代表性扰动，用于我们的实验中使用的两个随机类别。这些扰动清楚地描绘了所有这些模型目标标签的特征。为了证明不同模型之间的深度表示的感知对齐性，我们使用其他模型对一个模型生成的“扰动”进行分类。多个模型对于预期目标标签的高置信度表明，提取的模式通常被视为目标类别的有区别的视觉特征。0Santurakar等人[41]最近表明，对抗性鲁棒的深度分类器可以在分类之外被利用。他们通过对鲁棒的ResNet进行PGD攻击[28]，展示了图像生成、修复和图像操作等功能。Santurakar等人利用的关键概念是“对抗性”扰动中存在显著的视觉特征，这些特征是为“鲁棒”分类器计算的。将这个概念与我们的发现联系起来，他们的研究为我们的攻击提供了一个很好的测试平台，成功的结果不仅确定了我们扰动的隐含模型解释性质，而且改进了最先进的模型。95490图6. 通过对抗性强大ResNet攻击生成图像。生成的图像是所示种子图像的对抗性示例。所需的类别标签已经提到。遵循Santurkal等人[41]的设置。0在更广泛的机器学习背景下，展示了强大分类器的新发现位置的最新技术。为了展示结果的改进，我们在使用的分类器、扰动预算和底层评估过程方面紧密遵循[41]。在接下来的实验中，我们通过对一个多元高斯分布N(µI,ΣI)进行采样来创建集合D，其中µI ∈Rm是图像集合Ii=1,...,n �Itarget的均值。这里，Itarget是由ImageNet模拟的目标类别图像的分布。我们计算ΣI = E[(Ii - µI) � (Ii -µI)]。出于计算原因，多元高斯分布通过对原始图像进行4×下采样来计算。随机的256个分布样本后来被上采样以匹配网络输入，并用于创建集合D。在接下来的实验中，当进行整体图像处理任务时，我们不使用细化步骤。05.2.1 图像生成0在图6中，我们展示了我们的技术生成的图像的代表性示例，并将其与Santurkal等人[41]进行了比较。我们使用[41]提供的代码，并严格按照指南来获得他们方法的最佳结果。在对抗攻击的背景下，生成的图像是种子图像的对抗性示例。我们每个类别展示两个图像，使用所示的种子图像生成所述目标标签。我们的技术明显能够生成更精细和连贯的图像。请注意背景中的细节。从理论上讲，Santurkar等人[41]在他们的方法中使用了最强的基于梯度的迭代对抗攻击[28]。因此，我们的0改进的性能可以很容易地归因于所提出攻击计算的扰动的模型解释性质。我们对两种技术使用相同的扰动预算η =40。不同种子生成的图像的多样性、纹理细节和明确的语义一致性加强了强大分类器能够实现更多功能而不仅仅是简单分类的更广泛的想法[41]，这是未来研究值得探索的领域。05.2.2 修复0图像修复[4]可以在图像的大面积损坏区域中恢复信息，同时保持感知一致性。我们使用所提出的攻击来展示使用强大分类器的改进修复性能。对于这个任务，我们将损坏的图像视为种子图像，其中其损坏区域被识别为二进制掩码F ∈ {0,1}m。令�包含种子图像和我们上述多元高斯分布N(.)的样本。在保持强大分类器参数固定的情况下，我们最小化以下损失：0L(p) = E[J(�p, ltarget)] + β * p ⊙ (1 - F), (4)0其中�p = � � p，J(.)是分类器的交叉熵损失，β =10是经验选择的缩放因子。设计的损失函数允许扰动信号在损坏区域自由增长，同时在其他区域限制它。在图7中，我们展示了使用我们的技术和Santurkar等人[41]修复的损坏图像的代表性示例。95500图7. 代表性修复结果。遮罩图像是种子图像。两种方法都使用Santurkar等人提供的相同强大模型[41]进行图像修复，使用相同的扰动预算。0图8.交互式图像操作的代表性示例。种子图像是需要被操作为目标类别图像的原始图像。两种技术使用相同的强大分类器，扰动预算为60，针对图像进行优化。0使用作者提供的强大的ResNet。我们对两种技术使用相同的扰动预算η =21。我们的技术的恢复质量明显更好。所示的图像和掩码放置是随机选择的。05.2.3交互式图像处理0深度网络的一个有趣的最新应用，尤其是GANs[10]是将粗略草图转化为逼真的图像。Santurkar等人[41]通过攻击/愚弄强大的分类器展示了这种交互式图像处理的可能性。我们通过证明我们的替代目标模型解释更适合这个问题来推进这个方向。0使用原始草图作为种子并创建集合0D使用多元高斯分布，我们类似于图像生成来操作种子。然而，这次我们还应用了改进过程。我们攻击的代表性结果如图8所示。与[41]相比，使用我们的技术生成的图像更加逼真。这样对粗略草图进行改进的操作，证明了我们攻击突出了分类器学习到的具有人类意义的视觉模式的能力。上述三个低级图像处理任务不仅展示了扰动在模型愚弄之外的实用性，而且还证明了我们的攻击在这个方向上是一个积极的进步。06.结论0我们提出了第一个攻击深度学习的方法，其目标是解释模型而不是欺骗它。为了计算扰动，我们的攻击在模型的成本表面上执行随机梯度搜索，以增加将“分布”图像分类为特定目标的对数概率。通过梯度的迭代反向投影和自适应注意力的改进，我们的攻击找到了被分类器认为显著的扰动中的几何模式。我们发现这些模式与人类感知很好地吻合，这削弱了人类感知与深度表示之间的不一致论点-在对抗性扰动的背景下。除了为多个最先进的分类器演示具有视觉显著特征的扰动外，我们还使用我们的技术对图像进行了低级别的图像处理。逼真的图像生成，修复和交互式图像处理证明了我们攻击的模型解释性质，并推进了这些新发现的分类器实用程序的最新技术。致谢：本研究得到了ARC DiscoveryGrantDP190102443，DP150100294和DP150104251的支持。我们实验中使用的Titan V由NVIDIA公司捐赠。95510参考文献0[1] Naveed Akhtar，Jian Liu和AjmalMian。防御通用对抗性扰动。在IEEE计算机视觉和模式识别会议论文集中，页3389-3398，2018年。1，2，50[2] Naveed Akhtar和AjmalMian。对计算机视觉中深度学习的对抗性攻击的威胁：一项调查。IEEE Access，6：14410-14430，2018年。1，20[3] Anish Athalye和Nicholas Carlini。关于cvpr2018白盒对抗性示例防御的鲁棒性。arXiv预印本arXiv:1804.03286，2018年。20[4] Marcelo Bertalmio，Guillermo Sapiro，VincentCaselles和ColomaBallester。图像修复。在第27届年度计算机图形学和交互技术会议论文集中，页417-424。ACM Press / Addison-WesleyPublishing Co.，2000年。70[5] Tom B Brown, Dandelion Man´e, Aurko Roy, Mart´ınAbadi, and Justin Gilmer. 对抗性贴片.arXiv预印本arXiv:1712.09665，2017年。20[6] Nicholas Carlini和DavidWagner。防御蒸馏对对抗性示例不具有鲁棒性。arXiv预印本arXiv:1607.04311，2016年。20[7] Nicholas Carlini和David Wagner.对抗性示例不容易被检测到: 绕过十种检测方法.在第10届ACM人工智能与安全研讨会论文集中, 页码3–14. ACM,2017. 20[8] Nicholas Carlini和David Wagner.Magnet和“高效防御对抗性攻击”对对抗性示例不具有鲁棒性.arXiv预印本arXiv:1711.08478, 2017. 20[9] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff和Hartwig Adam.具有空洞可分离卷积的编码器-解码器用于语义图像分割.在欧洲计算机视觉会议(ECCV)论文集中, 页码801–818, 2018. 10[10] Wengling Chen和James Hays. SketchyGAN:实现多样化和逼真的素描到图像合成.在IEEE计算机视觉和模式识别会议论文集中, 页码9416–9425,2018. 80[11] Francesco Croce和Matthias Hein.稀疏且不可察觉的对抗性攻击. arXiv预印本arXiv:1909.05040,2019. 1, 20[12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li和LiFei-Fei. ImageNet: 一个大规模的分层图像数据库.在2009年IEEE计算机视觉和模式识别会议中, 页码248–255. IEEE,2009. 1, 50[13] Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su,Jun Zhu, Xiaolin Hu和Jianguo Li. 动量增强的对抗性攻击.在IEEE计算机视觉和模式识别会议论文集中, 页码9185–9193,2018. 1, 20[14] Logan Engstrom, Andrew Ilyas, Shibani Santurkar,Dimitris Tsipras, Brandon Tran和Aleksander Madry.通过对抗鲁棒性学习感知对齐的表示.arXiv预印本arXiv:1906.00945, 2019. 2, 3, 50[15] Aditya Ganeshan和R Venkatesh Babu. FDA:特征破坏性攻击. 在IEEE国际计算机视觉会议论文集中,页码8069–8079, 2019. 20[16] Ian J Goodfellow, Jonathon Shlens和Christian Szegedy.解释和利用对抗性示例. arXiv预印本arXiv:1412.6572, 2014. 1, 2,50[17] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.用于图像识别的深度残差学习.在IEEE计算机视觉和模式识别会议论文集中, 页码770–778, 2016. 60[18] Gao Huang, Zhuang Liu, Laurens Van Der Maaten和KilianQ Weinberger. 密集连接卷积网络.在IEEE计算机视觉和模式识别会议论文集中, 页码4700–4708,2017. 60[19] Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, LoganEngstrom, Brandon Tran和Aleksander Madry.对抗性示例不是错误，它们是特征. arXiv预印本arXiv:1905.02175,2019. 10[20] Xiaojun Jia, Xingxing Wei, Xiaochun Cao和HassanForoosh. ComDefend:一种用于防御对抗性示例的高效图像压缩模型.在IEEE计算机视觉和模式识别会议论文集中, 页码6084–6092,2019. 20[21] Robert Keys. 用于数字图像处理的立方卷积插值.IEEE声学、语音和信号处理交易, 29(6):1153–1160, 1981. 50[22] Valentin Khrulkov和Ivan Oseledets.奇异向量的艺术和通用对抗性扰动.在IEEE计算机视觉和模式识别会议论文集中, 页码8562–8570,2018. 20[23] Diederik P Kingma和Jimmy Ba. Adam:一种用于随机优化的方法. arXiv预印本arXiv:1412.6980, 2014. 40[24] Alex Krizhevsky, Ilya Sutskever和Geoffrey E Hinton.使用深度卷积神经网络进行ImageNet分类.在神经信息处理系统进展中, 页码1097–1105, 2012. 10[25] Alexey Kurakin, Ian Goodfellow, and Samy Bengio.物理世界中的对抗性示例. arXiv preprint arXiv:1607.02533, 2016.1, 20[26] Jiayang Liu, Weiming Zhang, Yiwei Zhang, DongdongHou, Yujia

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

攻击解释深度表示的扰动研究及其应用

信息安全领域中鲁棒的深度学习及其应用研究.pdf

深度学习攻击算法应用场景

深度学习有望攻克的技术难点

对抗扰动进行图像分类模型版权保护的缺点

patch攻击代表的是噪声和扰动吗

unity 屏幕扰动扰动自定义层级

试分析深度学习模型的主要缺陷

cifar-10对抗攻击代码

有哪些方法可以用来解释深度学习的模型

扰动观察法simulink仿真

分析深度学习模型的主要缺陷

对抗样本dp攻击是什么

深度学习模型的版权保护技术研究与实现

unity urp 空气扰动

对抗攻击的patch攻击

目标检测算法中对原来数据扰动，生成对抗样本后，标注需要改吗。应该怎么应用到训练中取

扰动观察法matlab建模

matlab给矩阵的(n,n)添加扰动

最新资源