PatchZero：一种通用的防御对抗补丁的方法

166 浏览量更新于2023-10-15 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4632PatchZero：通过检测和归零补丁来徐克姚晓赵恒郑凯杰蔡拉姆娜瓦蒂亚{kxu47918，yxiao915，zhaoheng.zheng，kaijieca，nevatia} @ usc.edu摘要对抗补丁攻击通过在局部区域内注入对抗像素来误导神经网络。补丁攻击可以在各种任务中非常有效，并且可以通过附件（例如，贴纸）到真实世界的对象。尽管攻击模式的多样性，对抗补丁往往是高度纹理和不同的外观从自然图像。我们利用这一特性，并提出PatchZero，这是一种针对白盒对抗补丁的通用防御具体来说，我们的防御检测在像素级的对手和我们进一步设计了一个两阶段的对抗训练方案，以抵御更强的自适应攻击。PatchZero在图像分类（ImageNet，RESISC 45），对象检测（PASCAL VOC）和视频分类（UCF 101）任务上实现了SOTA防御性能，而良性性能几乎没有下降。此外，PatchZero可以转移到不同的补丁形状和攻击类型。1. 介绍早期的对抗性图像攻击[13，5，34]干扰整个图像上的像素;虽然这些攻击非常有效，但是它们在物理环境中很难实现。这导致了对抗补丁攻击的研究，这些攻击在指定的局部区域内注入对抗像素，从早期的对抗补丁[4]，LaVAN [24]，Masked Carlini-Wagner [5]和Masked PGD [35]攻击到最近的DPatch [30]，RobustDPatch [26]和Masked AutoPGD [9]攻击。补丁攻击是物理上可实现的，因为它们可以被打印并放置到场景中。现实世界的安全关键计算机视觉系统，如自动驾驶和安全监控，在目标场景中容易受到对抗补丁的影响。为了解决不同领域的对抗补丁攻击，*平等捐款(a) PArachute（b）C资产P层(c)C头发，B自行车（d）B自行车(e)DRumming（f）PLAYINGFLUTE图1：PatchZero防御对抗补丁攻击. PatchZero将对抗图像（左）作为输入，并输出有效去除对抗像素的处理后图像（右）。我们的方法可以应用于图像分类（顶部），对象检测（中间）和视频分类（底部）任务，而无需对下游分类器或检测器进行任何重新训练或修改。绿色和红色表示正确和不正确的预测。已经提出了许多补丁防御方法。大多数防御措施都集中在图像分类上[18，36，15，27，8，49，45，48，46]，而对象检测防御[51，7，47]和视频分类防御[1，31，33]相对来说是探索不足的。此外，大多数防御措施都不能4633容易适应不同的任务，并且它们中很少考虑自适应攻击。一些[45，46]还需要先验知识，例如对抗补丁大小，才能有效。在这项研究中，我们专注于白盒设置下的对抗补丁攻击，因为它们比黑盒设置更强[2，43]。我们的目标是设计一个通用的防御管道，可以很容易地应用于不同的分类和检测任务下的自适应攻击，并不需要任何先验知识的攻击。我们的辩护是基于这样的观察，即尽管对抗性斑块是局部的，但由于它们的高度纹理化的图案，它们可以通过对空间背景施加异常大的影响来误导对图像中远处物体的预测。如图1的第一列所示，对抗性斑块通常具有与自然图像中发现的那些完全不同的纹理和颜色分布。这一观察导致我们的想法，以识别与像素级补丁检测器的ad-versarial像素，并取代这些像素的平均像素值（图像归一化后的零值），以减少甚至消除它们的影响。根据经验，该过程有效地“清零”了对手，并恢复了下游任务的大部分准确性。因此，我们将我们的方法命名为“PatchZero”。在自适应白盒攻击设置中，补丁检测器本身可能易受攻击。由于我们的补丁检测器输出在反向传播期间不可微的二进制掩码，因此我们使用反向通过差分近似（BPDA）[3]技术来近似二进制掩码的梯度我们提出了一个两阶段的对抗训练方案，以有效地训练BPDA攻击下的PatchZero。补丁检测器首先用DO攻击样本进行训练，然后在连续的阶段中用BPDA联合攻击样本进行增强。对于对手和防御者来说，迭代地训练他们的模型是很自然的;然而，可以预期的是，这将总是导致对手获胜，因为攻击者可以进行最后的呼叫。我们的主要贡献之一是证明了在交替训练的一些迭代之后，防御模型变得鲁棒并且能够有效地检测自适应补丁。我们在屏蔽PGD，屏蔽AutoPGD和屏蔽CW攻击下评估PatchZero，因为它们可以很好地覆盖白盒补丁攻击，并且可以很容易地应用于不同的与以前的工作相比，PatchZero在所有三个任务上都实现了最先进的性能，良性性能几乎没有下降。在更强的BPDA自适应攻击下，我们的防御方法的优势空间更大。请注意，最近的一篇论文[29]使用了类似的防御方法，用于对象检测任务的补丁攻击。我们无法直接与它兼容，因为它使用不同的数据集和攻击条件。总而言之，我们的贡献有三个方面：1. 我们提出了PatchZero，一个针对白盒补丁攻击的通用防御管道，可以很容易地适应图像分类，对象检测和视频分类的任务，而无需重新训练下游分类器或检测器。2. 我们引入了一个两阶段的训练方案，加强了PatchZero3. 我们评估了我们的防御多个数据集，并展示了不同的补丁形状和攻击类型的泛化。2. 相关工作补丁攻击：扰动攻击操纵整个图像以误导神经网络。补丁攻击，另一方面，只修改图像的有限区域。Brown等人[4]首先介绍了对抗补丁攻击，它生成一个通用的和物理上可实现的补丁来误导图像分类模型。LaVAN [24]是同时提出的，但重点是数字补丁。在引入全图像 Carlini-Wagner （ CW ） [5] ， PGD [35] 和AutoPGD [9]攻击之后，Masked CW，Masked PGD和Masked AutoPGD是通过限制攻击区域的补丁攻击的三种扩展。我们想提到一些针对特定任务的攻击。在对象检测领域， Liu et al.[30] 针对流行的对象检测器设计DPatch。Lee等人[26]研究了DTatch的失败案例，后来介绍了Robust DTatch。此外，Saha et al.[40]介绍了一个盲目攻击对分类器内的对象检测器，而饶等人。[38]提出局部优化攻击。在视频分类领域，除了MaskedPGD和Masked AutoPGD攻击之外，我们可以找到的唯一补丁攻击是Lo等人的MultAV攻击MultAV与MaskedPGD非常相似，但在应用扰动时使用乘法而不是求和。我们选择掩蔽PGD和掩蔽AutoPGD进行实验，因为它们可以很容易地应用于不同的任务。根据经验，我们还发现它们比特定任务攻击更强大图像分类的补丁防御：数字tal水印（DW）[19]和局部梯度平滑（LGS）[36]是早期的补丁防御。这两种方法后来都被证明是无效的Chiang et al.[8]，他提出了第一个经认证的防御呼叫间隔界限（IBP）。IBP限制激活图的值以保证鲁棒性下限。最近，Xiang et al.[45]提出了一种具有小接收域和孤立点屏蔽的网络PatchGuard。它需要骨干分类器的非平凡修改。同一作者后来提出了另一种名为PatchCleanser的辩护[46]，4634AdvAdv适用于任何分类器。PatchCleanser使用一个整体和详尽的掩蔽技术来识别补丁区域。 PatchGuard 和PatchCleanser都需要攻击补丁大小的先验知识来计算最佳掩码大小，并且它们的认证鲁棒性对于大型补丁并不适用。相比之下，我们的方法可以抵御任何补丁大小和形状的补丁攻击，而无需任何先验知识。目标检测补丁防御：类似于图像分类防御，目标检测补丁防御3.1. 背景投影梯度下降（PGD）和AutoPGD：由Madry等人介绍。[34]，PGD攻击是被证明对图像分类模型有效的最强扰动攻击之一。给定输入图像X、其地面真值标签Y、模型权重θ和损失函数θ，通过以迭代方式最大化损失函数来生成PGD攻击：最近也受到了很多关注。 Liang等人 [28日]X（t+1）=C{X（t）+αSign（<$X<$（X（t），Y<$，θ）}. （一）使用梯度凸轮检测和过滤出不寻常的区域，AdvAdvAdv形象然而，梯度凸轮只能提供一个粗略的地图，并受到错过检测和误报。Zhou等人[52]结合Grad-Cam梯度图和离散熵来定位敌对像素，但检测结果仍然粗糙且有限。DetectorGuard [47]使用小感受野CNN输出一个强大的对象映射，该映射指示对象存在于不同位置的概率。如果地图结果与基本预测不同，它们将发出警告。然而，这项工作只能识别补丁攻击，而不能防御补丁攻击。SAC [29]使用了一种检测和删除对抗补丁的方法SAC使用恒等映射来进行二进制掩码梯度估计，我们认为这它注意，限幅函数C用于防止每像素修改超过阈值Δk。此外，还采用随机初始化和随机重启的方法，进一步强化了攻击。AutoPGD [9]后来被提出作为具有自动步长调整和细化目标函数的PGD。在相同的攻击预算下，它比PGD更有效。Masked PGD和Masked AutoPGD：虽然原始PGD攻击是针对全图像扰动攻击而设计的，但它可以很容易地转换为补丁攻击。如等式1所示2，只有补丁区域[x，y，h，w]内的像素将被PGD修改：X（t+1）[补丁]=几乎与我们的方法同时提出，代码尚未发布，因此我们无法提供直接的AdvC{X（t）+αSi gn（<$X<$（X（t），Y <$，θ）}[patch].（二）对比视频分类中的补丁防御：对抗补丁防御是视频分类中一个相对较少探索的研究方向。Anand等[1]提出了用拉普拉斯先验（ILP）来检测和修复拉普拉斯空间中的敌对像素。然而，该方法仅适用于基于光流的视频分类器。Lo等人提出用三个BN来替换常规视频分类器的每个BN层网络需要反向重新训练，以学习“切换机制”来连接到正确的BN模块。同一作者后来提出OUDefend [33]模块作为嵌入特征降噪器插入视频分类器的层之间。这两种方法来自Lo et al. 需要修改和重新训练下游分类器，而我们的方法可以插入任何分类器。3. 对抗补丁攻击在本节中，我们首先介绍3.1节中的一些相关背景.然后我们在3.2节中解释补丁零防御。最后，我们在第3.3节中详细说明了两阶段训练方案对更强的自适应补丁攻击的鲁棒性。这里，片是指具有给定[x，y，h，w]的定义为[x：x+h，y：y+w]的区域。Masked PGD可以通过从相应的损失函数导出梯度来攻击对象检测器和视频分类器。AutoPGD可以以类似的方式转换为其补丁攻击对应物Masked AutoPGD。对抗性训练：对抗性训练[13，34]已被证明对各种对抗性攻击有效。其关键思想是生成对抗性示例，并在训练过程中将它们注入到小批量中。一般来说，对抗训练的有效性取决于对抗样本的强度。在实践中，一些研究人员[42，23，41]研究了PGD攻击，并通过对抗训练实现了显著的鲁棒性。为了解决对抗性补丁攻击，我们提出了一个两阶段训练方案，该方案使用Masked PGD和Masked Au- toPGD产生的样本在两个阶段对抗性地训练我们的模型。详情见第3.3节。3.2. PatchZero网络PatchZero的完整流水线如图2所示我们的方法包括两个步骤。第一步，对输入图像X∈RH×W×C进行块检测d：RH×W×C→[0，1]H×W，这产生一个概率4635联系我们≈Adv∇图2：PatchZero的防御管道。补丁检测器获取一个或多个攻击图像X并预测逐像素对抗性二元掩码M（黑色用于对抗性像素，白色用于良性像素）。我们通过将X乘以M来预处理后的图像X'被传递到下游模型进行最终预测。描述每个像素不被操纵的可能性的图然后，我们通过一个阈值二值化的概率映射到一个二进制掩码M0，1H×W，其中补丁像素表示为零。对于第二步，我们通过X和M之间的逐元素乘法来移除所识别的补丁区域。然后用从数据集计算的平均像素值X填充掩蔽区域以生成：X′= X<$M + X<$<$M。（三）在清零步骤之后，下游模型f获取净化图像X′并做出最终预测Y。我们为每个图像生成随机位置和大小的对抗补丁以及相应的地面真实二进制掩码。我们通过均匀混合攻击图像和良性图像来构建d的训练集。在补丁检测器训练期间，我们遵循PSPNet [50]的损失函数，该损失函数由主要交叉熵损失和两个辅助损失项组成。在推理过程中，补丁检测器可以检测和“零”的敌对像素的大部分时间，但偶尔会错过一些像素的边界。为此，我们使用形态学膨胀稍微放大几个像素的预测掩模。3.3. 适应性攻击与两阶段训练在生成对抗补丁时，有两种策略。在仅下游（DO）攻击中，仅考虑来自下游分类器f的梯度。然而，补丁检测器d本身容易受到对抗性攻击，特别是在白盒设置下，其中攻击者完全了解流水线。在较强的自适应攻击中，来自下游分类器f和来自补丁检测器d的梯度都被考虑。如Eq.在图3中，清零步骤包括不可微的二值化操作。像素级梯度-entX<$（X（t），Y<$，θ）不能通过反向传播直接计算BPDA自适应攻击：由Athalye等人提出。BPDA是一种近似策略，可以绕过网络内部的不可微层，实现有效的自适应攻击。给定一个不可微运算h，BPDA找到一个满足h（x）h′（x）的可微逼近h′。原始操作h用于前向通道，但在后向通道中被近似h′代替为了将BPDA应用于PatchZero，我们通过Sigmoid函数来近似二值化操作，因为二值化本质上是一个Step函数。通过这种近似，我们可以利用来自补丁检测器和受害者分类器或检测器的梯度来生成攻击。两阶段对抗训练：BPDA自适应攻击给补丁检测器的训练过程带来了一定的困难。在早期阶段，补丁检测器是不成熟的，并创建随机梯度。由于自适应攻击将梯度从下游分类器传递到补丁检测器，因此得到的梯度将是误导性的。为解决此问题，我们建议采用以下两个阶段的培训计划：• 培训阶段1：我们首先使用DO攻击生成对抗补丁，它只考虑来自下游分类器或检测器的梯度（图2绿色框）。我们用良性和敌对图像的混合来训练补丁检测器d• 第二阶段训练：当补丁检测器开始收敛于DO攻击图像时，我们切换到第二阶段的训练。我们使用BPDA自适应攻击生成对抗补丁，该攻击考虑了管道两部分（图2的蓝色和绿色框）的Gra我们在每个训练步骤中使用更新的模型权重生成在线对抗攻击。这种做法创造了一个攻击者和防御者的比赛，进一步加强补丁检测器的有效性。两阶段训练机制大大加快了训练过程，提高了PatchZero在较强BPDA自适应攻击下的鲁棒性。4. 实验我们采用具有ResNet-50 [20]骨干的PSPNet [50]我们使用ImageNet[10]上预先训练的权重初始化PSPNet，并遵循损失函数进行图像分割。我们通过第3.3节中介绍的两阶段对抗训练来训练PSPNet补丁检测器。关于二值化阈值，我们将bsp设置为0.5。我们在Py- Torch[37]中开发了PatchZero和两阶段训练方案，并使用对抗鲁棒性算法。补丁检测器分类器/检测器⋱⋱��′4636国防良性MPGDMAPGDMCW不设防81.62%14.35%9.40%49.57%GT面罩81.60%81.42%81.34%81.37%PG [45]60.40%49.41%百分之四十八点九一56.95%PC [46]80.54%64.30%63.57%73.12%PZ（DO）81.47%75.60%76.80%74.24%国防良性MPGDMAPGD不设防92.9%3.0%百分之一点七GT面罩92.9%87.8%百分之八十七点二JPEG压缩[11]91.0%4.1%百分之一点七[14]第十四话百分之八十三点九百分之七十一点八百分之六十七点二表1：ImageNet分类数据集上的良性和稳健准确性。PG、PC和PZ分别代表Patch- Guard、PatchCleanser和PatchZero。(ART)1、发起攻击。对于两阶段训练，我们使用0.0001的学习率，Adam [25]优化器，图像分类的批量大小为64，对象检测为16，视频分类为36。4.1. 图像分类实施详情：我们在两个数据集上进行了图像分类实验。我们使用ImageNet [10]数据集的验证分割，其中包含50，000张图像和1000个类。我们还对RESISC-45[6]远程传感数据集进行了评估，该数据集包含31，500张图像和45个场景类。与ImageNet相比，RESISC-45具有更大的图像尺寸（256 x256），并提供遥感视角。在ImageNet上，我们使用ResNet 50-v2作为所有防御方法的骨干图像分类器在RESISC-45上，我们使用DenseNet 121 [21]作为图像分类器。我们使用top1精度进行评估。攻击：对于Masked PGD（MPGD）攻击，我们使用1.0的扰动强度，0.01的步长和100次迭代。对于掩蔽AutoPGD（MAPGD）攻击，我们使用0.3的扰动强度，0.1的步长和100次迭代。对于掩蔽Carlini-Wagner（MCW）攻击，我们使用0.5的扰动置信度，0.1的学习率和100次迭代。按照与前一个作品相同的设置，我们使用2%的矩形补丁用于ImageNet，9%的方形补丁用于RESISC-45。补丁大小为w.r.t.图像区域和补片位置是随机的。基线防御：• PatchGuard：PatchGuard [45]是一种经过认证的防御，具有小的感受野和离群值掩蔽。在相同的攻击环境下，对算法的鲁棒性进行了实验评估注意，该方法需要预先知道攻击补丁大小来估计防御掩码窗口大小。• PatchCleanser：PatchCleanser [46]是另一种通过两轮对抗对抗性补丁的认证防御1https://github.com/Trusted-AI/adversarial-robustness-toolbox表2：RESISC-45分类数据集的良性和稳健准确性。彻底的伪装和合奏。我们经验性地评估了相同攻击设置下的鲁棒性这种防御方法还需要攻击补丁大小的先验知识。• JPEG压缩：Guo et al.[16]建议通过图像变换（包括JPEG压缩）来抵御对抗性攻击。在这里，我们使用JPEG压缩作为预处理器防御。• 对抗训练：对于每个下游模型f，我们遵循典型的对抗训练方案[34]，并使用干净和对抗图像的混合来训练下游分类器。防御效果：我们首先提出了无防御基线和GT面具基线，假设完美的对抗补丁检测。如表1所示，与没有攻击相比，GT基线重新覆盖了大部分鲁棒性准确性，显示了我们方法的潜力。PatchGuard和PatchCleanser这两个经过认证的防御基线都需要事先了解攻击补丁大小，并且随着补丁大小的增加，鲁棒性下降。我们的方法PatchZero在MPGD和MAPGD攻击上的性能分别比PatchGuard 和 Patch- Cleanser 高出 26% 和 13% 。PatchZero与PatchCleanser的性能相似，在MCW攻击上都比PatchGuard高出17%。与GT Mask结果相比，在DO攻击下，PatchZero除了MCW攻击外，其他攻击的准确率几乎没有下降，但在更强的BPDA自适应攻击下，PatchZero 的准确率有较大的差距。请注意，PatchGuard和PatchCleanser都不能轻易地适应自适应攻击。我们还在RESISC-45数据集上评估了PatchZero，以测试更高图像分辨率和更大补丁大小（图像大小的9%）下的鲁棒性，如表2所示。我们比较JPEG压缩和对抗训练的基线。JPEG压缩性能较差;对抗训练显示出更好的防御，但PatchZero表现更好，即使在更强的情况下，4637良性MPGD国防APAP50AP75APAP50AP75不设防49.20%百分之七十六点四百分之五十二点六百分之六点五百分之十点九6.7%GT面罩49.2%百分之七十六点四百分之五十二点六43.0%68.8%44.4%JPEG压缩[11]47.7%百分之七十五点零百分之五十一点四30.0%百分之四十八点一百分之三十二点三[14]第十四话47.7%百分之七十五点一百分之五十一点七百分之十六点八百分之三十一点九百分之十五点二PZ（DO）48.4%百分之七十五点三百分之五十一点八百分之四十一点五百分之六十六点一百分之四十三点八PZ（BPDA）48.4%百分之七十五点三百分之五十一点八百分之三十五点一60.0%百分之三十五点五表3：PASCAL VOC对象检测数据集上的良性和稳健AP。MPGD国防良性百分之五百分之十百分之五百分之十不设防百分之九十四点五五8.42%3.96%18.81%0.00%的百分比GT面罩百分之九十四点五五91.58%93.07%91.58%93.07%[17]第十七话百分之九十四点五五21.29%6.44%12.87%0.99%PZ（BPDA）百分之九十四点五五81.68%82.67%73.27%76.24%表4：UCF 101视频分类数据集的良性和稳健准确性。BPDA自适应攻击此外，对抗性训练大大降低了良性准确性（9%），而PatchZero保持了无防御模型的良性准确性。对于这两个数据集，我们可以看到BPDA的准确度从GT准确度下降，在ImageNet中比在RESISC-45中更严重，可能是由于格式的变化更大。尽管如此，实质性的改进，实现了不设防的模型和可用的替代品。在补丁检测性能的进一步改善将是我们未来的研究考虑。4.2. 对象检测实施详情：对于对象检测任务，我们在PASCAL VOC[12]数据集上进行评估，该数据集有20个对象类别。遵循与传统作品相同的设置[44]，我们的模型在VOC2007和VOC 2012上进行训练，并在VOC 2007上进行测试。我们使用Faster- RCNN [39]和ResNet-50 [20]作为下游检测器。对于评估，我们使用标准的平均精度4638×（AP），AP50和AP75指标。攻击：我们防御屏蔽PGD攻击，扰动强度为0.3，步长为0.1，迭代次数为100补丁大小为120 120和补丁的位置是随机的。底线防御：由于我们无法找到其他的补丁防御基线，并且这两个图像分类基线并没有明显地转移到检测任务中，因此我们采用对抗训练、JPEG压缩作为基线防御方法。防御效果：表3示出了针对以下各项的评价结果：对PASCAL VOC的屏蔽PGD攻击。类似地，GT Mask基线假设完美的补丁检测，并且与没有攻击相比恢复了大部分准确性。PatchZero实现了41.5%的AP，比良性性能低约8%PatchZero的DO攻击结果与GT Mask的结果非常接近。PatchZero在良性图像上的表现也优于其他基线。BPDA的结果低于我们的DO结果，但仍然比JPEG压缩高5%，比对抗训练高18%，即使它们使用的是弱得多的DO攻击。4.3. 视频分类实施详情：我们在UCF 101上进行了视频分类实验，UCF 101是一个动作识别数据集，包含来自101个动作类别的13，320个短修剪视频。由于对抗性防御在视频域上的计算成本很高，我们从测试数据集中随机选择了202个视频我们采用MARS [21]模型作为下游分类器。我们使用top1和top5分类准确率作为评估指标。攻击：对于视频分类，我们考虑Masked PGD和MaskedAutoPGD攻击，扰动强度为1.0，步长为0.2，迭代20次。所有at-tack使用BPDA和补丁大小的5%和10%。补丁位置对于同一视频的所有帧是固定的，但是对于每个视频是随机的。基线防御：由于缺乏可靠的对抗性4639召回Prec Accf F1做百分之九十九点八99.1% 99.9% 99.5%BPDA百分之九十八点八99.1% 99.8% 99.0%表5：在RESISC-45上的补丁检测器的对抗像素分割性能。(a) 菱形（b）八角形（c）矩形图3：在DAPRI-COT对象检测数据集上跨面片形状的传输.补丁防御方法在视频分类中，我们选择了H.264视频压缩[17]作为基线防御。防御效果：我们在表4中比较了不同防御方法的防御性能。所有方法都使用MARS模型作为下游分类器。GT基线假设完美的补丁检测和恢复大部分的鲁棒性准确性相比，没有攻击。对于良性视频，与不设防的MARS分类器相比，PatchZero和视频压缩都不会对于攻击场景，MaskedAutoPGD攻击比Masked PGD攻击更强，并且具有较大补丁大小（10%）的攻击更强。PatchZero在所有攻击组合下的性能均显著优于视频压缩基线。对于更强的Masked AutoPGD攻击和更大的补丁大小，该裕度甚至更大。例如，对于10%掩蔽AutoPGD攻击，我们的方法在top1准确度上优于视频压缩基线75.25%与GTMask相比，PatchZero仍然有一些性能差距，但已经远远超过其他基准。Lo等人提出了“3-BN”[22]和“OUDefend”[33]模块作为多视频攻击的防御。作者没有提供这两种方法的实现，所以我们不能完全比较它们。在他们唯一的补丁攻击实验中，他们使用了一种弱得多的仅下游屏蔽PGD攻击，补丁大小为1.2%，扰动强度为1.0，迭代5次。 “3-BN” 达到 63.8% 的准确性和 OUDefend 达到42.00%的准确性。相比之下，我们使用自适应版本的屏蔽PGD攻击和更强的攻击参数：补丁大小为5%和10%，扰动强度为1.0，迭代次数为20次。PatchZero达到了81.68%的top1准确率，几乎高出20%。此外，这两种方法都需要对下游视频分类器进行修改和对抗性训练它们中的任何一个都不能很容易地应用于不同的任务。4.4. 讨论补丁检测器的有效性为了弄清楚补丁检测器在识别损坏的像素时的表现MPGDMAPGDMCWMPGD81.07%80.18%71.67%MAPGD81.07%81.13%66.97%MCW80.71%80.72%77.41%4640表6：对ImageNet上的不同攻击的概括。每一行和每一列都代表一个模型，该模型使用特定类型的攻击进行训练和测试。型号时间GPUParam ResNet-508mins 1. 96 GB 25. 5 MPC [46]758分钟7.32 GB 25.5MPZ12分钟3.33 GB 72.2M表7：内存成本和速度。推理时间是在整个ImageNet验证数据集上使用一个Nvidia 2080Ti。因此，我们对RESISC-45数据集进行定量评估。在DO和BPDA攻击模式下，由Masked AutoPGD生成攻击。我们报告了攻击图像上对抗像素分割任务的精确度，召回率，准确度和F1。根据表5，我们的补丁检测器可以有效地识别两种攻击模式下的操纵像素，虽然有一个1%的下降召回从DO攻击到更强的BPDA攻击。根据经验，我们观察到，这些1%的未覆盖像素，特别是在补丁边界，可以对整体精度有一定的影响。我们还在良性图像上评估了我们的补丁检测器。假阳性检测率为5.05e-06。跨修补程序传输：PatchZero中的补丁检测器在像素级操作，因此它可以很好地推广到不同的补丁形状。我们评估了一个版本的PatchZero，仅使用正方形补丁进行训练，在动态APRICOT数据集2上，该数据集包含了一个混合的菱形，八边形和矩形形状的补丁。我们使用Faster-RCNN作为下游检测器，并使用Masked PGD进行100次迭代。如图3所示，PatchZero可以在三种不同的形状中准确地检测和删除敌对像素。从数量上看，无防守底线的平均得分从27.33%下降到0%;而PatchZero的良性预测准确率为27.33%2https://armory.readthedocs.io/en/latest/scenarios/#dapricot-object-网站检测-更新-七月-20214641图4：攻击可视化。我们在图像分类（左）、对象检测（中）和视频分类任务（右）中比较了DO（上）和BPDA自适应攻击（下）下的MAPGD攻击模式。攻击后仍保持20.67%的平均AP跨攻击类型传输：我们对PatchZero进行了三种攻击（MPGD，MAPGD和MCW）之一的训练实验，并评估了所有三种攻击的防御性能;结果示于表6中。攻击仅在Imagenet分类任务上进行（数字与提交论文的表1中报告的数字略有不同，因为这些结果是BPDA训练的模型）。结果表明，一般来说，在一种类型的攻击上训练的PatchZero可以非常有效地防御另一种这对于使用MCW攻击训练的模型尤其如此。值得注意的是，MCW攻击是最弱的这三个（它降低了不设防的准确性），但更难防御，并提供了最好的概括。这种行为的一个可能的解释是，MPGD和MAPGD补丁具有高像素值，并从自然图像中产生比MCW补丁更明显的图案一个可以检测到细微补丁的检测器可以推广到更明显的补丁。计算开销：我们在表7中分析了PatchZero的内存成本和推理速度。 PatchZero 和 PatchCleanser 都使用ResNet50作为主干。虽然Patchzero有更多的模型参数，但它的推理速度更快（60倍），GPU内存更低（2倍）DO与BPDA攻击模式：我们在图4中比较了DO（顶部）和BPDA自适应攻击模式（底部）。左栏显示了图像分类任务中的对抗性补丁。BPDA攻击模式似乎比DO攻击模式更加丰富多彩和颗粒化。对于对象检测任务（中间），BPDA攻击模式更有结构性，而不是看似随机的外观。对于视频分类任务（右），DO补丁显示了一些在所有情况下，这两种攻击模式都非常不同-(a) DOG，CAR（b）TAICHI，YOYO （c）BLOWDRYHAIR，HAirCUT图5：PatchZero的三种常见故障情况。（a）缺失块检测，（b）泄漏对抗像素，（c）遮挡。绿色表示地面实况标签，红色表示不正确的预测。放大后可获得最佳效果。费伦特BPDA攻击模式从DO模式开始变化的外观要求补丁检测器在每次迭代时更新。这个过程应该收敛并不明显，但是由于两阶段训练，经过训练的补丁检测器对BPDA补丁变得鲁棒。失效情况和局限性：我们在图5中展示了PatchZero的三种常见故障情况。如部分（a）中所示，错过的补丁检测可能导致防御失败，因为在没有正确补丁检测的情况下不能有效地应用重绘在所示的示例中，对抗性补丁具有与背景相似的纹理，导致错过检测。（b）中的泄漏对抗像素是另一种失败情况，尽管应用于二进制掩模预测的形态学操作可以减少影响。部分（c）中的最终失败情况是由于落在场景中的主要对象的顶部上的随机块位置引起的显著遮挡而出现的，而不管正确的块检测。5. 结论在本文中，我们提出了PatchZero，一个通用的防御管道白盒补丁攻击。PatchZero首先检测敌对像素，然后通过使用平均像素值重新绘制来我们进一步提出了一个两阶段的训练计划，以抵御更强的自适应攻击。广泛的实验证明了PatchZero在图像分类、对象检测和视频分类任务中的最新鲁棒性，良性性能几乎没有下降PatchZero可以很好地转移到不同的补丁形状和攻击类型。确认本研究部分由美国政府资助（DARPA GARD LR2项目HR00112020009）。所表达的观点、意见和/或发现是作者的观点，不应被解释为代表国防部或国防部的官方观点或政策美国政府的4642引用[1] Adithya Prem Anand ， H Gokul ， Harish Srinivasan ，Pranav Vijay，and Vineeth Vijayaraghavan.视频动作识别中光流网络的对抗补丁防御。2020年第19届IEEE机器学习和应用国际会议（ICMLA），第1289- 1296页。IEEE，2020年。[2] Maksym Andriushchenko ， Francesco Croce ， NicolasFlam-marion，and Matthias Hein.广场攻击：通过随机搜索的高效查询黑盒对抗攻击。欧洲计算机视觉会议，第484-501页Springer，2020年。[3] AnishAthalye ， NicholasCarlini ， andDavidWagner.Obfus-catedgradientsgiveafalsesenseofsecurity：Circumventingdefensestoadversarialexamples，2018.[4] TomBBro wn ， DandelionMa ne´ ， Aurk oRoy ， Mart´ınAbadi ， and Justin Gilmer. 对抗补丁。 arXiv 预印本arXiv：1712.09665，2017。[5] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。[6] 宫成、韩俊伟、卢小强。遥感图像场景分类：基准和最新技术水平。 IEEE Proceedings of the IEEE ， 105（10）：1865 -1883，2017。[7] Ping-yehChiang，MichaelJCurry，AhmedAbdelkader，Aounon Kumar，John Dickerson，and TomGoldstein.检测为回归：通过中值平滑进行认证对象检测。arXiv预印本arXiv：2007.03730，2020。[8] Ping-yeh Chiang ， Renkun Ni ， Ahmed Abdelkader ，Chen Zhu，Christoph Studer，和汤姆戈德斯坦对抗性补丁的认证防御。 arXiv 预印本 arXiv ：2003.06693，2020。[9] 弗朗切斯科·克罗齐和马蒂亚斯·海因。可靠的评估对抗鲁棒性与不同的参数自由攻击的合奏。国际机器学习会议，第2206-2216页。PMLR，2020年。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] Ginjiang Karolina Dziugaite ， Zoubin Ghahramani ， andDaniel M.罗伊JPG压缩对对抗性图像影响的研究，2016年。[12] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[13] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。[14] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性例子，2015年。[15] Sven Gowal、Krishnamurthy Dj Dvijotham、Robert Stan-forth 、 Rudy Bunel 、 Chongli Qin 、 Jonathan Uesato 、Relja Arandjelovic、Timothy Mann和Pushmeet Kohli。可扩展的验证训练可证明强大的图像分类。在4643IEEE/CVF计算机视觉国际会议论文集，第4842-4851页，2019年。[16] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， andLaurens Van Der

下载后可阅读完整内容，剩余1页未读，立即下载