外观和结构感知稳健的深度图形匹配及防御

95 浏览量更新于2023-10-25 收藏 2.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15263外观和结构感知稳健的深度视觉图形匹配：攻击、防御及超越任启兵，包清泉，王润忠，严俊池*上海交通大学计算机工程MoE智能化重点实验室{任其兵，faust-bqq，runzhong.wang，yanjunchi}@ sjtu.edu.cn摘要尽管最近在视觉图像上的高精度深度图匹配（GM）方面取得了突破，但深度GM模型的鲁棒性却很少被研究，这已经成为现代深度网络中的一个重要问题，从图像识别到图学习任务。我们首先证明了对关键点位置的对抗性攻击，Cat：SLPR 007像素攻击（= 8/255）局部攻击（= 8）Cat：LPESP 1016隐藏图可能导致深度GM模型的准确性显著下降。因此，我们提出了我们的防御策略，即外观和结构感知鲁棒图匹配（ASAR-GM）。具体来说，与事实上的对抗训练（AT）正交，我们在可能混淆的图之间的那些外观相似的关键点上设计了外观感知正则化器（AAR）实验结果表明，我们的ASAR-GM实现了更好的鲁棒性相比，AT。此外，我们的局部定位可以作为一种数据增强技术，即使在干净的测试数据集上也可以增强最先进的 GM 模型代码可在https://github.com/Thinklab-SJTU/RobustMatch上获得。1. 介绍图匹配（Graph matching，GM）是图领域的一个重要研究课题，在视觉和模式识别中有着广泛的应用视觉图的匹配在过去的几十年中得到了广泛的研究，例如图像关键点匹配[42]，场景图发现[6]和视觉文本检索[46]，特别是自从最近在结合深度神经网络和（视觉）GM [51]方面取得进展尽管深度GM取得了成功，但发现深度神经网络（DNN）容易受到人类无法感知的小输入扰动的影响[3，38]。例如，在图像分类中，精心设计的图像像素上的小扰动可以欺骗神经分类器[18]，而在图中，* 通讯作者。本研究得到国家重点研发计划（2020AAA0107600）、上海市科技重大专项（2021SHZDZX0102）的部分支持。图1.提出了不可察觉的对抗性攻击。左：输入成对图像及其图形;中间：像素和局部的对抗性扰动;右：诱导对抗数据。在受到攻击后，关键点周围的外观保持不变，而图形结构受到干扰：红色虚线表示原始图上的边被移除，而蓝色实线表示新扰动图上的添加边。域，攻击者扰乱图结构及其属性，导致图学习任务失败，如节点分类[10，13，37，40，59]，社区检测[7，27]，链接预测[32]等。然而，很少有工作考虑深度GM对视觉的脆弱性，或者更具体地说，匹配图像关键点，这是最近的一个趋势研究主题[16，17，23，24，34，42，44，48，49，57]。由于噪声可以很容易地注入到图像和图中，我们在工作中回答的一个自然问题是：如何设计对GM的有效对抗攻击，同时扰动图像及其隐藏图？在视觉GM的上下文中，攻击者自然会考虑扰动图像像素，这些像素与视觉图的节点特征直接相关。此外，深度GM还将关键点局部性和诱导隐藏图作为输入。然而，添加或移除隐藏图的边缘的这种方式，作为常见的图攻击基线[33，56]，对于视觉GM是不可行的：对于注释的关键点局部性，GM的图结构由某些领域知识确定，例如，Delaunay三角剖分[11]，这样任何对图边的操作都可以很容易地恢复。相反，我们专注于关键点的位置在常见的深度GM管道[44，51]中，每个图中关键点的位置属性对于15264表1.视觉和图形任务的攻击和防御的比较。“攻击对象”列表示关于输入的特定扰动对象;“攻击类型”表示干扰输入的方式;“相似性度量”列显示了如何测量干净示例和对抗示例之间的相似性，“防御目标函数”是防御者的最小化目标。任务进攻对象攻击类型相似性度量防御目标函数图像分类[18]图像翻转像素lp范数交叉熵目标跟踪[22]图像序列翻转像素lp范数光滑L1交叉熵节点分类[10，37]图注入节点;添加/删除边扰动节点（边）交叉熵图匹配[33，56]图添加/删除边扰动边成对余弦相似度可视化图形匹配visual graph翻转像素;扰动关键点位置lp范数二进制交叉熵因为它影响如何通过双线性插值从整个图像中提取关键点的特征，并直接决定由Delaunay三角剖分得到的图结构，所以最终匹配性能然而，由于人类标记或关键点检测器的随机性，关键点的位置遭受其固有的不稳定性，这意味着可以容易地添加小而恶意的噪声而因此，我们建议扰动关键点局部性作为一种有效的对抗性攻击。为了防御对抗性攻击，对抗性训练（AT）[30]已经成为一种广泛认可的原则性防御机制，通过在对抗性示例上训练模型，而它在干净的测试示例上的准确性较低。此外，对于图学习，在节点分类[47，54，58]，图分类[25]，社区检测[21]等方面努力提高对抗攻击的鲁棒性。然而，这些防御机制只关注单个图学习任务，而GM学习分析图之间的交叉点，因此这些方法不能直接应用于GM。我们的防御机制源于两个见解。首先，我们证明了对抗性攻击倾向于混淆具有相似外观的关键点，这些外观相似的关键点通常发生在三种情况下：（i）形状相似，例如猫的两只耳朵;（ii）纹理相似性，例如一只猫的枯萎和尾巴;（iii）结构对称性，例如汽车车顶的四个角。这种外观相似性取决于数据集中的一些先验。对于两个图，如果我们能够选择它们之间的这些外观相似的关键点，并扩大它们在模型输出的概率空间中的差异，则可以增强模型的鲁棒性。此外，由于我们的正则化策略在输出空间中工作，该输出空间与在输入空间中生成最坏情况示例的AT正交，因此我们可以通过将它们组合在一起来进一步提高模型的鲁棒性。为此，我们对视觉GM的鲁棒性进行了研究.在攻击者方面，我们提出了一种有效的关键点局部攻击，并将其与像素攻击相结合，设计出一种更强大的攻击。在防御方面，我们分析了攻击模式，发现那些外观相似的关键点可以从我们的对抗性攻击的结果中推断出来。然后，我们设计了一个正则化项，即伪码R正则化器（AAR），用于正则化关键点的特征差异，在低维嵌入空间中具有相似的外观最后，提出了基于AT的防御策略，即外观和结构AwareR obustG重点是：1) 分析了深度（视觉）图匹配（GM）算法在对抗性攻击下的脆弱性，设计了一种有效的局部性攻击方法，该方法将关键点位置和隐藏图结构一起扰动此外，通过将我们的局部攻击和像素攻击结合在一起，可以生成更强的对抗数据。我们的工作与最近的两个GM攻击/防御工程不同，因为它们只关注添加/删除边缘，而不操纵视觉图像，这也是我们的方法中考虑的（见表1）。2) 我们提出了我们的防御策略，即外观和结构AwareR obustGM matching（ASAR- GM），以增强鲁棒性。具体来说，我们表明对抗性攻击倾向于利用图之间的外观相似的关键点来欺骗模型的匹配。因此，我们设计了一个正则化项：提出了一种利用R均衡器（AAR）来扩大图中相似关键点之间的差异的方法。我们的AAR可以自然地集成到AT的框架中，这带来了更好的干净准确性和鲁棒性。3) 对真实世界基准的实验验证了我们对各种深度GM基线[34，42，48]的攻击的有效性，包括最先进的NGMv2 [44]。我们的攻击在黑盒攻击环境下也表现出很强的可移植性.在防御方面，ASAR-GM在防御基线上实现了更好的精确性和鲁棒性。4) 最后但重要的是，虽然对抗性示例通常被视为对DNN的威胁，但我们的局部性攻击可以作为数据增强来提高深度GM的泛化能力，因为局部性扰动会导致各种图结构用于训练，使我们的模型成为新的 GMSOTA。2. 相关工作深度图匹配。先驱工作[31]通过嵌入单个图来考虑图对齐。随着深度神经网络（DNN）在视觉中的卓越性能，自开创性工作[51]提出以来，深度学习已被应用于图像上的GM，该工作利用卷积神经网络（CNN）提取节点特征并构建具有光谱匹配的端到端模型。从那时起，深度（视觉）GM已经成为一个热门话题：[17，23，42，43，55，57]引入图15265∈∈∞∥ −∥B{≤}M∈ <$→ ∈{}∈·神经网络（GNN）[35]通过编码图形结构信息来改进GM;[48]提出了边缘嵌入模块和基于匈牙利语的注意力机制;工作[34]提出了一种端到端的深度GM架构，将未修改的组合求解器与深度是它的列向量化版本：maxJ（X）=vec（X）<$K vec（X）XS.T. X∈{0，1}n×n，X1n=1n，X<$1n=1n（一）一起学习; NGMv 2 [44]作为我们在论文中的主要防御基线模型，处理了一般Lawler的QAP形式[29]，该形式通过在关联图上应用顶点分类来解决GM。通过采用更先进的特征提取器，例如[15]，NGMv2实现了深度GM的最先进性能。对抗性攻击防御GM。[56]着重于处理没有视觉信息的原始图形数据它通过在基于元学习的PGD攻击期间最大化由核密度估计（KDE）他们其中KRn2×n2是亲和矩阵，其对角和非对角元素存储节点到节点和边到边的亲和度。GM的目标是在假设完美匹配对应于最高亲和度得分的情况下最大化目标J（X）深度图匹配。为了实现端到端学习，Lawler的QAP在Eq. 1经由行/列总和为1的S的（部分）双随机松弛来松弛：maxJ（S）=vec（S）K vec（S）通过插入/删除边缘来制作对抗性数据。然而，这样的攻击对视觉GM来说是不可行的，因为SS.T. S∈[0，1]n×n，S1n=1n，S<$1n=1n（二）首先，（视觉）图的构造由某些领域知识确定，例如，Delaunay三角测量其次，扰动的边缘不再是“不可感知的”，并且可以容易地检测和恢复。[33]通过惩罚节点的密集区域以对抗节点密度攻击[56]，并从输入中检测对抗性示例，增强了传统GM的鲁棒性，这与我们的主动防御不同，即，增加受害者模型对对抗性例子的鲁棒性本文也不同于研究对象跟踪鲁棒性的论文[22，28]，其中仅考虑视觉特征最近的工作[50]增强了视觉GM对图像中“自然”噪声的鲁棒性，例如变形、旋转和异常值。但它没有考虑对设计好的对抗性攻击进行防御。3. 预赛3.1. 问题定义我们主要关注视觉GM任务：给定图像对c =（c1，c2），每个图像对用n个关键点标注，标注的关键点位置集z =（z1，z2），其中z1，z2Rn×2.此外，我们将隐藏关键点图G=（G1，G2）视为一般属性图，即，G1={V1，E1，G1，H1}和G2={V2，E2，G2，H2}。这里V是节点集，E是边集，|V 1| = n，|= m 1，|V 2 |= n，|E 2 |= m 2。|= m2.两个图的连通度分别表示为 G1 ， H1∈{0 ， 1}n×m1 和 G2 ， H2∈{0 ，1}n×m2，其中Gi，k=Hi，k=1表示边k最近提出的深度GM方法处理以关键点作为输入的图像，并在等式中解决这样的QAP问题。2以端到端的方式[34，42如图2所示，这些方法通常由三个部分组成：关键点特征提取器，亲和学习和最终对应求解器。令f表示采用图像对（c1，c2）进行节点（和边缘）特征提取的CNN层，g表示用于生成亲和矩阵K的亲和学习层，以及用于最终置换的对应求解器h。在本文中，我们关注当前最先进的模型NGMv2 [44]的脆弱性，其中匹配问题被转化为顶点分类任务，并利用二进制交叉熵（BCE）损失。3.2. 对抗性攻击为了清楚起见，这里我们只考虑对图像像素的对抗攻击我们将端到端的深度GM管道表示为：（c1，c2）[0，1]DX0，1n×n。对抗性攻击通常旨在找到干净样本周围的球内的最坏情况的示例，并且dp（c，c′）=c′Cp是相似性度量，其中在我们的实验中选择了n白盒攻击在白盒设置中，攻击者可以访问模型的全部信息继快速梯度符号方法（FGSM）[18]（沿梯度下降方向添加扰动）之后，提出了一种流行且有效的基于梯度的迭代方法，投影梯度下降（PGD）攻击[30]：将节点i连接到节点j，并且A1=G1H1，A2=G2H2"“是两个图图形匹配。它可以写成二次分配规划（QAP）[29]，其中XRn×n是节点到节点对应关系为1的置换矩阵，vec（X）1我们假设两个图的节点之间的满射是深度GM最流行的实验设置。ck+1=<$B<$（c）（ck+αsign（<$c′kL（M（ck），y;θ）（3）其中，B（c）（）是将当前对抗性示例投影回对抗球的投影函数，L是损失函数，θ是模型参数。黑盒攻击黑盒攻击者只知道模型的输出。一种黑盒攻击是查询-15266KKKK←k kkCat：LPESP 1016图2. ASAR-GM的管道：ASAR-GM接收我们的对抗数据作为输入，并导出预测的软匹配，即，通过i）特征提取器，ii）亲和学习层，和iii）对应性求解器的双随机矩阵。然后ASAR-GM建立并训练其外观感知正则化器：找到外观相似的群体，并在嵌入空间中扩大它们的差异基于方法：通过多次查询目标模型以执行随机采样[1，19]或估计目标模型的梯度[20]来生成对抗性示例。另一种流行的攻击是基于传输的：基于替代模型，攻击者或者生成对抗性数据，然后将它们转移到目标模型，或者基于它们来估计目标模型的损失梯度[5，8]。算法1视觉和结构化对抗攻击（VS-攻击）。输入：一对图像c=（c1，c2），其关键点集z=（z1，z2），以及其两个图（G1，G2）;损失函数L和模型参数θ;扰动预算（λc，λz），扰动步长m和步长α;地面实况匹配Xgt。输出：扰动图像c′，keypointz′和图对（G′1，G′2）。初始化adversariale examplec′0，z′0←c，z。对于k在（0，1，. - 是的- 是的，m − 1）do′′3.3. 对抗训练针对对抗性示例的阻力，对抗性训练（AT）[30]在对抗性示例而不是干净数据上训练模型。具体而言，对抗性示例由等式中的PGD攻击生成3和AT可以被公式化为两级优化任务：1.计算梯度：{gc′，gz′}<${<$c′L（ck，zk，Xgt;θ），<$z′L（c′k，z′k，Xgt;θ）}.2.剪辑更新pixel和位置：{c′k+1，z′k+1}←{c′b}（c）（c′k+αsign（gc′k）），<$B<$（z）（z′k+αsign（gz′k））}通过等式3 .第三章。3. 更新图：（G′1，G′2）z′通过Delaunay三角剖分。端最小Ec，yθMaxc′∈B（c）L（M（c′），y;θ）（4）的关键点从图像中提取，并直接确定由Delaunay三角形导出的图结构4. 基于迭代视觉和结构操纵的本节通过交互更新输入的视觉和结构信息来介绍强对抗攻击。秒4.1分析了深度GM的脆弱性而SEC。4.2给出了我们的对抗攻击，细节见第二节。四点三。4.1. 动机节中3.1，我们介绍了深度两图匹配的常用流水线，如图所示。2：在通过Delaunay三角剖分构建图[11]之后，基于关键点位置经由特征提取器f获得节点特征，并且基于节点构造边缘特征。lation.然而，由于人类标记或关键点检测器的随机性，关键点的位置受到其固有的不稳定性的影响，这意味着可以容易地添加小而因此，我们还建议对关键点位置进行扰动。4.2. 目标设计鉴于上述分析，我们探索了一种通过同时扰动图像像素和关键点位置来攻击图像和图形的方法我们提出一个联合优化目标函数如下：max maxL（c′，z′，G′，Xgt;θ）特征和拓扑信息，之后，c′，z′G′（五）基于节点（边）特征来初始化亲和矩阵K初始化的K被发送到亲和度学习层g，例如GNN，以学习节点到节点和边缘到边缘的相似性。最后通过对应求解器h得到预测置换矩阵X。我们包括攻击图像像素的直接想法此外，我们可以从上面的管道中推断出关键点（z1，z2）的位置会影响特征S.T. d∞（c′，c）≤ <$cd∞（z′，z）≤<$z其中Xgt是地面实况置换;Pwc和Pwz是扰动预算，用于控制对抗性示例对人类的不可感知程度。请注意，在扰动关键点位置z′后，我们进一步基于Delaunay三角剖分重建隐藏图G′伪代码在Alg中给出。1.一、外观感知正则化器12Cat：SLPR 007像素攻击（= 8/255）局部攻击（= 8）特征提取器亲和力学习对应求解器深度GM双随机矩阵地面实况匹配交叉熵损失15267×∈| |∈i、j·∈ ›→∈我我我ΣΣ⊙L_B_RoofTopL_F_RoofTopR_B_RoofTopR_F_RoofTopL_HeadLightR_HeadLightL_TailLightR_TailLightL_B_WheelCenterL_F_WheelCenterR_B_WheelCenterR_F_WheelCenterL_SideviewMirrorL_B_RoofTopL_F_RoofTopR_B_RoofTopR_F_RoofTopL_HeadLightR_HeadLightL_TailLightR_TailLightL_B_WheelCenterL_F_WheelCenterR_B_WheelCenterR_F_WheelCenterL_SideviewMirrorL_B_RoofTopL_F_RoofTopR_B_RoofTopR_F_RoofTopL_HeadLightR_HeadLightL_TailLightR_TailLightL_B_WheelCenterL_F_WheelCenterR_B_WheelCenterR_F_WheelCenterL_SideviewMirrorR_侧视镜(a) 没有攻击的基线模型（b）攻击示例R_侧视镜(c) 攻击下的基线模型R_侧视镜(d) 攻击下的鲁棒模型图3.对“汽车”类的关键点进行分析和可视化，以满足我们对外观相似关键点的假设。我们将两个图的任意两个关键点标签之间的匹配对的数量相加，并通过热图将其可视化。图3a示出了基线在干净输入下表现良好，而在图3a中的攻击下被愚弄3c. 具有相似外观或结构对称性的所有关键点往往会相互混淆，例如。车顶的四个角，车灯的两侧图3D显示我们的防御机制有助于抵御此类攻击。图图3b示出了被攻击之前/之后的结果，其中数字表示匹配概率。4.3. 执行由于现有的深度GM允许端到端学习，因此我们可以通过最大化等式中的损失来容易地对像素和关键点位置实施类似于PGD的攻击3 .第三章。我们将对关键点位置的对抗性攻击称为局部攻击，将对图像像素的攻击称为像素攻击，将对两者的攻击称为组合攻击。为了使我们的对抗视觉图不可感知，对于像素攻击，我们将扰动预算设置为8/255，而对于局部攻击，将扰动预算设置为8（图像大小为256 256）。一个对抗性攻击的例子在图的左边可视化。二、它证实了我们的对抗性攻击是不可察觉的。5. 面向深度视觉图匹配的表观结构感知发现关键点之间的相似关系。目标设计。在本文中，我们提出了一种新的外观感知正则化器（AAR），以显式地扩大模型输出的概率空间中那些外观相似的关键点之间的相似性，即，基于等式（1）中的双随机矩阵S[0，1]n×n，二、我们定义P =（p1，p2，. - 是的- 是的..在被攻击后，我们惩罚那些不匹配的密钥-在同一组中远离其他点的点。我们定义了一个外观感知矩阵RRn×n，它表示相似关键点之间的差异：1. 0，如果Xgt=1且Xi，j1GT在本节中，我们首先分析攻击模式，并说明外观相似的关键点更容易被攻击。Ri，j=-1。0如果Xi，j=0且i，map（j）∈pk，pk∈P0。0否则（六）通过统计分析，节中5.1，我们提出了一个正则化器来鼓励他们的差异。秒图5.2和图5.3展示了我们使用对抗训练的防御机制。5.1. 外观感知正则化器动机如图在图3b中，来自真实世界图像的对象的关键点通常包含类似的外观特征，诸如汽车的四个车轮，人类依赖于这些特征来识别对象。这种外观相似性可以概括为三种情况：形状其中map（）：j[n]我[n]将图G2中的关键点索引投影回图G1中的匹配索引基于Xgt，使得如果i和map（j）在G1中外观相似，则i和j之间的裕度将在概率空间中受到惩罚。请注意，方程式6专注于那些不匹配的关键点。对于被攻击后G1的正确匹配的关键点，R的对应行被设置为0。没有明确的惩罚。设R =（r1，r2，. - 是的- 是的，rn），并且每个ri表示G1的关键点z1在G2的所有关键点z2上的匹配概率分布：相似性、纹理相似性和结构对称性。注意，一些类似的关键点可以满足两种或所有情况，ri=0，如果Xi=Xgt（七）例如汽车的左右前灯我们观察到，在对抗性攻击下，那些外观相似的关键点其中Xi和Xgt表示两个ma的第i行数据三次最后，我们的外观感知正则化器（AAR）是：更有可能是不匹配的：在图。 3b，原来的nn两辆车之间的100%匹配准确度在被攻击之后下降到0%，并且攻击者通过隐含地干扰成对的外观相似的关键点来欺骗我们的GM求解器，例如侧视镜的不匹配的左侧和右侧图3c进一步验证了我们的假设：我们攻击所有的“汽车”类图像对，发现外观相似的关键点旨在彼此不匹配，这促使我们使用对抗攻击AAR=−RS=−Ri，jSi，j（8）i=1j =1其中表示逐元素矩阵乘法。实施. 首先，根据我们在图中的观察。3、利用对抗攻击发现关键点之间的外观相似性。图4显示了我们提出的AAR的工作管道。在得到被攻击的置换矩阵后，利用地面真值矩阵，15268→→→→ →→M←M∈i、jnn XgtlogSi，j+（1−Xgt）log（1−Si，j）匈牙利攻击步骤4AAR矩阵步骤1外观感知矩阵相似群步骤4步骤3步骤2De321一B C图4.我们的外观感知正则化器的管道从双随机矩阵开始。通过匈牙利算法[26]获得离散置换矩阵。AAR算法首先利用被攻击的置换矩阵和地面真值构造“逆”置换矩阵，从而揭示出接下来，我们执行深度优先搜索来发现图的外观相似组。然后，我们基于地面实况矩阵（回想我们的监督设置）构建感知矩阵。最后，我们利用该矩阵来屏蔽双随机矩阵以获得AAR矩阵（参见Alg.2）。将G2中匹配的关键点索引映射回G1中。例如，我们有一个1生产线b2和c0，那么执行映射后，我们有一个b，bc和c这样我们就得到了一个表观相似的群p1=（a，b，c）.同样地，我们发现了其它的表观相似群p2和p3.注意p3=（f），这意味着在对抗性攻击中得到正确匹配。Af-算法2外观感知正则化器（AAR）。输入：一对图像c=（c1，c2），其关键点集z=（z1，z2），以及其两个图（G1，G2）; NGM求解器和模型参数θ;扰动预算（θc，θz）;双随机矩阵S，预测置换X，地面真值置换矩阵Xgt。输出：AAR矩阵。通过Alg对c，z的VS攻击获得对抗性c′和z′1.一、攻击置换X′（c′，z′; θ）.* 建筑物AAR的工作管线如图所示。第四章：1. 在等式中构建9由X′和Xgt。2. 找出相似群P=（p1，p2，. . .，pm）上的深度优先搜索。3. 在等式中构建外观感知矩阵R。6和Eq。7;4. 通过在等式中用R掩蔽S来构建AAR矩阵。8个;其中，正则化项AAR遵循等式2的定义。β是平衡最终损耗的两个部分的可调缩放参数。5.3. 执行我们选择最先进的GM网络NGMv2作为我们的防御基线。根据NGMv2，对于Eq. 10a，我们采用二进制交叉熵（BCE）作为损失：Σ ΣF直到我们发现这样的群体，基于Eq.7、Eq.8、i=1j=1i、ji、j我们可以构造一个AAR矩阵与原始的双随机矩阵S相结合，以明确地描述S的概率空间中的相似裕度。基于我们上面的分析，我们定义了一个由于我们通过等式将对抗数据作为输入。10b，我们还计算AAR的基础上攻击的软置换矩阵S′。此外，引入老化期以在清洁精度和鲁棒性之间获得更好的权衡我们在训练过程的初始阶段生成较弱的对抗性示例，因为强对抗性示例可能会损害模型的泛化能力[53]。修订版i，地图（j）GTi、j（九）当我们的解算器没有正确学习时。我们选择β作为其中map（·）的定义遵循等式（1）。六、 Xrev=1意味着G1中不匹配的关键点i实际上与G1中的关键点j匹配。给定X转速，我们可以-形成深度优先搜索（DFS）来发现那些外观相似的群体。伪代码在Alg中给出。二、5.2.国防目标设计我们的防御机制是建立在AT上的[30]。基于在Eq. 5、我们可以生成对抗性的视觉图，并在这些对抗性的例子上训练我们的深度GM求解器。最后，我们提出了一种新的防御算法A外观和S结构AwareR obustGmatching（ASAR-GM）结合我们的正则化项，即外观感知正则化器（AAR），以显式地扩大外观相似关键点之间的差距。minL（c′，z′，G′，Xgt;θ）+βAAR（c′，z′，Xgt;θ）（10 a）θ1 .一、5，老化期为5，适用于ASAR-GM的所有变体。6. 实验评价6.1. 评估设置数据集。我们评估了Pascal VOC数据集[14]与Berkeley注释[4]的关键点匹配，并在Willow ObjectClass数据集[9] 上测试了我们方法的通用化能力。对于 PascalVOC，我们遵循[44]的协议，过滤掉注释不好的图像，得到7，020个训练样本和1，682个测试样本。图形匹配基线。我们验证了对抗性攻击对代表性深度GM模型的有效性：PCA-GM [45]、BBGM [34]、CIE-H [48]和NGMv2 [44].为了重现性，我们应用NGMv2的相同训练配置进行防御，并使用ThinkMatch2收集的其他GM模型的检查点。S.T. c′，z′，G ′= arg max max L（c′，z′，G ′，Xgt; θ）（10 b）c′，z′G′2https://github.com/Thinklab-SJTU/ThinkMatchX=XL（c，z，G，Xgt;θ）=−15269表2.各种攻击下（非）鲁棒模型的Pascal VOC白盒鲁棒准确率（%）使用为每个模型设计的默认损失生成对抗性示例“总体”表示每个数据列的所有数据列的平均准确度。BBGM似乎对当前的白盒攻击流水线具有鲁棒性，但这可能是由于其独特的近似梯度的方式，并且我们在表3中表明它对黑盒攻击不具有鲁棒性。ASAR-GM（配置1）还提高了NGMv 2在干净示例上的准确性。模型攻击者维护者清洁像素（像素=8/255）位置（位置=8）combo（组合）（pix=8/255;loc=8）整体FGSMPGD-10FGSMPGD-10FGSMPGD-10公司简介PCA-GM [42][48]BBGM [34]基线64.7868.9278.9925.6721.8073.0610.9610.2468.5041.0344.6275.3130.3433.0471.5123.7118.8969.969.418.8264.667.998.1664.2526.7426.8170.78基线80.4036.9724.5964.7855.5433.5122.4121.4642.46PixelATFGSM70.9670.9670.9661.2453.6460.7254.1854.0962.10PixelATPGD−5地点ATFGSM73.4680.7573.2942.9373.2018.3261.8975.2856.3067.5461.8041.7056.7717.7855.3516.1664.0245.07[44]第四十四话地点ATPGD−5ASAR-GM（配置1）80.1981.1538.1772.4213.0466.6973.9174.1570.6170.0236.8766.8312.5756.2215.6953.7942.6367.66ASAR-GM（配置2）79.7473.3167.4276.1574.3070.1462.3962.1170.70ASAR-GM（配置3）72.5671.3070.8171.9371.6470.7069.6469.6071.02表3.各种攻击下（非）鲁棒模型的Pascal VOC黑箱鲁棒准确率（%）。所有对抗性示例都是基于使用二进制交叉熵（BCE）损失的预训练NGMv2基线生成的。与表2中的“总体”相同模型攻击者维护者清洁像素（像素=8/255）位置（位置=8）combo（组合）（pix=8/255;loc=8）整体FGSMPGD-10FGSMPGD-10FGSMPGD-10PCA-GM [42]64.7848.7048.6857.1154.9744.1544.5951.85[48]BBGM [34]基线68.9278.9945.5052.1340.3247.6459.5771.2357.3868.3541.3747.7736.9444.2750.0058.63[44]第四十四话PixelATPGD−5ASAR-GM（配置1）ASAR-GM（配置2）73.4681.1579.7471.0181.0977.1871.0181.1377.2072.4979.3679.2671.7378.8579.1072.2579.2179.4972.6880.0779.4972.0980.1278.78ASAR-GM（配置3）72.5670.4170.4173.2673.2173.2573.2872.34攻击模型。我们评估了模型的鲁棒性与三种类型的对抗性攻击，像素，我们的局部性和组合攻击，基于攻击规模在第二节中介绍。四点三。对于每种攻击，我们分别执行（弱）FGSM和（强）PGD-10攻击。我们选择PGD-50组合攻击作为可能的最强攻击来基准测试鲁棒性的经验下限。对于像素攻击，扰动预算被设置为pix = 8/255，对于局部攻击，扰动预算被设置为loc =8，并且对于组合攻击，扰动预算被设置为相同的pix和loc。防御模型。与我们的攻击模型类似，我们使用具有不同类型对抗性示例的对抗性训练（AT）作为我们的防御基线：像素AT与像素攻击和局部AT与局部攻击。所有防御基线也针对具有不同攻击强度的对抗数据进行训练，从（弱）FGSM到（强）PGD-5攻击。6.2. 实验结果白盒攻击结果。表2示出了深度GM基线和NGMv2模型的变体在白盒攻击下的鲁棒性。在攻击者方面，与我们在SEC的分析一致。4.1，我们的PGD-50组合攻击是所有攻击基线中最强的攻击，并且在所有基线模型中持续降低匹配性能。例如，NGMv2基线的准确性从80.4%至21。46%，在这次袭击中。在防御者方面，与防御基线相比，我们的ASAR-GM对所有对抗性攻击表现出卓越的鲁棒性。请注意，我们实现了三个版本的ASAR-GM，它们是作为输入的对抗性数据的攻击强度到ASAR-GM在老化期结束后。具体地，（较弱的）单步像素攻击被应用于配置1，并且（较强的）单步组合攻击被用于配置2，而（强得多的）两步组合攻击被用于配置3。具有配置1的ASAR-GM实现了更好的干净准确性，甚至比基线高81.15%，80.4%，而配置2实现了更好的鲁棒性，精度略有下降，配置3以更高的精度为代价进一步提高了鲁棒性，这与防御的有效性取决于用于训练的攻击强度的常识一致[30，36]。这些结果表明，ASAR-GM可以在准确性和鲁棒性方面带来更好的泛化能力，而标准AT通常会在准确性和鲁棒性之间进行权衡[41，52]。黑盒攻击结果。我们选择NGMv2基线模型作为代理模型，并将在NGMv2上构建的对抗性示例转移到每个目标模型。表3中的实验结果表明，ASAR-GM对基于传输的攻击具有显著的鲁棒性。注意，与其他基线不同，BBGM在黑盒攻击下的鲁棒性与白盒攻击相比下降了显著幅度：在PGD- 10组合攻击下的准确率其原因可能是BBGM的梯度估计是分段线性求解器的线性近似，这可能是不准确的，并在白盒设置中误导攻击者。因此，我们将BBGM的错误安全感归因于模糊梯度[2]。15270原始图像飞机：5/12自行车：11/11鸟：7/7船：6/6瓶数：8/8巴士：6/6汽车：6/6猫：7/7主席：8/8奶牛：6/12原始图像+ 像素攻击原始图像+ 像素攻击+ 局部攻击原始图像+ 像素攻击+ 局部攻击+防御飞机：4/12飞机：3/12飞机：7/12自行车：8/11自行车：6/11自行车：8/11鸟：5/7鸟：1/7鸟：7/7船：2/6船：0/6船：6/6瓶数：5/8瓶数：4/8瓶数：8/8巴士：3/6巴士：2/6巴士：4/6汽车：4/6汽车：2/6汽车：6/6猫：3/7猫：1/7猫：4/7主席：2/8椅子：0/8主席：8/8奶牛：3/12奶牛：2/12奶牛：7/12图5.基线NGMv2的匹配结果和我们的对抗攻击下的鲁棒模型的可视化。我们的模型在Pascal VOC数据集上表现出卓越的鲁棒性一个图像对被随机采样并可视化为10个类中的每一个表4.NGMv2的Pascal VOC的白盒稳健准确度（%）作为消融研究的基线表2中的攻击设置相同。攻击者维护者防御目标局部攻击类型清洁像素（像素=8/255）位置（位置=8）combo（组合）（pix=8/255;loc= 8）整体FGSMPGD-10FGSMPGD-10FGSMPGD-10基线公元前没有一80.4036.9726.0064.7857.2433.5123.9346.12基线公元前随机两80.2940.2231.0666.1056.9137.0227.1248.38PixelATFGSM公元前两70.9670.9670.9661.2453.6460.7254.1863.24PixelATFGSMBCE+AAR两72.8272.8271.9264.4862.8664.4861.1767.48局部+像素AT公元前位置79.6373.2568.6572.7569.2767.6358.5269.99局部+像素AT公元前结构81.6770.6963.0567.9359.0560.9046.3864.24局部+像素AT公元前两81.8272.5665.6472.1966.5365.2553.0968.15ASAR-GM（配置1）BCE+AAR两81.1572.4266.6974.1570.0266.8356.2271.92ASAR-GM（配置2）BCE+AAR两79.7473.3167.4276.1574.370.1462.2971.22表5.用于泛化研究的N个GMv2模型变体的WillowObjectClass上的干净精度（%）。方法车鸭脸电机瓶是说NGMv2（在Willow ObjectCLS上训练）97.6094.5010010099.0098.20NGMv2（在Pascal VOC上培训）80.5775.0099.6766.2894.5783.22ASAR-GM（受过Pascal VOC培训）89.2081.2299.8482.9298.6890.37泛化研究。表5显示，ASAR-GM比标准训练更好地将“ 可见 ”Pascal VOC 生成为 “ 不可见 ”WillowObjectClass ：从 83. 22% 到 9037% ，这进一步证实了ASAR-GM学习关键点的更好特征。消融研究。表4验证了ASAR-GM各防御组件的必要性。对于局部性攻击，由于它直接影响图的构造，我们进一步设计了三种类型：“位置”、“结构”、“两者”。对于对于对于我们首先实现了一个随机版本的其次，我们比较了标准的ATFGSM与（出）我们的正则化项，即AAR和AAR实现了更好的准确性和鲁棒性。最后，对于局部性攻击，与基线模型在随机攻击下的性能相比，我们对图结构的扰动大大提高了模型的性能位置和结构两方面的局部性攻击进一步增强了这种优势，因此我们在最终的模型中选择了“两方面”的局部性更多的攻击基线。为了充分评估鲁棒性，我们使用更多迭代或使用目标标签进行更强的白盒攻击，以及另一种黑盒攻击MI-FGSM [12]。详见附录A。局部性攻击和AAR的适用性。我们将我们的局部性攻击和AAR应用到另一个基线PCA-GM上，并验证了其适用性。详见附录B。考虑自适应攻击。根据自适应攻击标准[39]，我们通过最大化原始损失和我们的AAR损失来生成对抗攻击ASAR-GM的攻击成功率为6

下载后可阅读完整内容，剩余1页未读，立即下载