对抗性鲁棒的目标检测方法

148 浏览量更新于2023-10-16 收藏 2.61MB PDF 举报

多任务学习

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

421一种对抗性鲁棒的目标检测方法张海潮王建宇百度研究，美国hczhang1@gmail.comwjyouch@gmail.com摘要目标检测是一项重要的视觉任务，已成为许多视觉系统中不可或缺的组成部分，其鲁棒性在实际应用中越来越重要。虽然对象检测模型已被证明是脆弱的对抗性攻击的许多最近的作品，很少有人致力于提高其鲁棒性。在这项工作中，我们朝着这个方向进行了初步尝试。我们首先从模型鲁棒性的角度重新审视并系统地分析了对象检测器和许多最近开发的攻击。然后，我们提出了一个多任务学习的目标检测的角度来看，并确定一个不对称的任务损失的作用。我们进一步开发了一种对抗性训练方法，该方法可以利用多个攻击源来提高检测模型的鲁棒性在PASCAL-VOC和MS-COCO上进行的大量实验验证了该方法的有效性。1. 介绍深度学习模型已广泛应用于许多视觉任务，如分类[45，47，19]和对象检测[15，14，29，40，42，3]，从而实现了最先进的性能。然而，深度学习模型的一个阻碍因素是它们的鲁棒性问题。已经表明，基于深度网络的分类器容易受到对抗性攻击[49，16]，即。存在对抗性的例子，这些例子是原始图像的稍微修改但视觉上无法区分的版本，这导致分类器生成不正确的预测[36，4]。许多努力致力于提高分类器的鲁棒性[35，34，56，17，25，44，46，38，30]。对象检测是一种计算机视觉技术，用于检测图像中语义对象的实例[54，8，12]。它是香草分类任务的自然概括，因为它不仅输出分类中的对象标签在过去的几年中，已经开发了许多成功的对象检测方法[15，14，42，29，40]，并且对象检测器功率标准检测器图1. 标准与强大的探测器在清洁和adversar-ial图像。对抗图像是使用基于PDG的检测器攻击[23，33]产生的，扰动预算为8（256）。标准模型[29]在对抗图像上完全失败，而鲁棒模型可以产生合理的检测结果。由深度网形成的视觉系统已经成为现实世界应用的许多视觉系统中不可或缺的组件。最近，已经表明对象检测器也可以被恶意制作的输入攻击[57，32，23，6，55，11，31，22]（c.f.图1）。鉴于其在监控和自动驾驶等应用中的关键作用，研究保护对象检测器免受各种对抗性攻击的方法然而，虽然许多工作已经表明攻击检测器是可能的，但在很大程度上仍然不清楚是否有可能提高检测器的鲁棒性以及实际的方法是什么。这项工作服务器作为一个初步的尝试，以弥合这一差距朝着这个方向。我们表明，它是可能的，以提高对象检测器的鲁棒性w.r.t. 各种类型的攻击，并提出了一个实用的方法来实现这一点，通过概括的对抗训练框架，从分类到检测。对抗性清洁422k=1θθθ本文的贡献有三个方面：i）我们对目标检测器的不同攻击进行了分类和分析，揭示了它们共同的潜在机制; ii）我们强调并分析了不同任务损失之间的相互作用及其对鲁棒性的影响;iii）我们将对抗训练框架从分类推广到检测，并开发了一种对抗训练方法，该方法可以正确处理任务丢失之间的交互，以提高检测鲁棒性。2. 相关工作分类基网θbθcNMS定位θl图2. 单级检测器架构。一个基网（W。第θb段）按分类（w.段θc）和局部化（w.第θl段）任务。θ=[θb，θc，θl]表示检测器的全部参数。对于训练，NMS模块被移除，并且分别针对分类和定位附加任务损失。3.1. 目标检测作为多任务学习分类的攻击和对抗训练。目标检测器f（x）→{pk，bk}K一个IM-在[2]之前，已经研究了一般基于学习的分类器的对抗性示例。作为一种基于学习的模型，深度网络也容易受到对抗性示例的影响[49，37]。攻击的许多变体[16，36，4]和防御[35，34，56，17，25，30，44，46，38，1]已被解除。快速梯度符号法（FGSM）[16]和投影梯度分解（PGD）[33]是白盒对抗攻击生成的两种代表性方法对抗性训练[16，21，50，33]是对抗性攻击的有效防御方法之一。它通过解决一个极大极小问题来实现鲁棒模型训练，其中内部最大化根据当前模型参数生成攻击，而外部优化最小化训练损失w.r.t. 模型参数[16，33]。目标检测和对抗性攻击。在过去的几年中，已经开发了许多复杂的对象检测方法，包括一阶段[29，40]和两阶段变体[15，14，42]。两阶段检测器通过一个或多个细化步骤[42，3]从第一阶段细化建议。在这项工作中，我们专注于一级检测器，因为它在不同类型的检测器中发挥着重要作用。最近已经开发了许多针对对象检测器的攻击[57，32，6，11，55，23，22，31]。[57]将攻击生成方法从分类扩展到检测，并证明了使用设计的分类损失攻击目标是可能的。Lu等人生成了对抗性的例子，这些例子欺骗了停止标志和面部检测的检测器[32]。[6]为Faster-RCNN [42]开发了物理攻击，并采用了预期转换思想来生成在各种转换（如视点变化）下仍然有效的物理攻击。[23]提出了用一种专门设计的混合损失来攻击区域建议网络（RPN），该混合损失包括分类和定位项。除了完整的图像之外，还可以通过将攻击限制在局部区域内来攻击检测器[22，31]。3. 目标检测和攻击回顾我们重新审视对象检测，并讨论最近开发的许多攻击变体之间的联系。年龄x∈[0，255]n作为输入，并输出不同数量的K个检测对象，每个检测对象由C类（包括背景）上的概率向量pk∈RC和边界框 bk=[xk， yk， wk，hk]表示。应用非最大抑制（NMS）[43]来消除冗余检测。最后检测的步骤（c.f.图2）。对于训练，我们通过θ来参数化检测器f（·）。然后，检测器的训练归结为θ的估计，其可以用公式表示如下：minE（x，{yk，bk}）<$D L（f θ（x），{y k，bk}）.（一）x表示训练图像，{yk，bk}表示从数据集D采样的地面实况（类别标签yk和边界框bk）。我们将放弃对数据的期望，并通过一个例子来展示后续的推导，避免符号混乱而不失一般性，如下所示：minL（f θ（x），{yk，bk}）.（二）L（·）是一个损失函数，用于测量fθ（·）的输出与地面真实值之间的差异，并且它的最小化（在数据集上）导致θ的正确估计。在实践中，它通常被实例化为分类损失和定位损失的组合，如下所示[29，40]：minloss cls（f θ（x），{yk，bk}）+loss loc（f θ（x），{yk，bk}）.（三）如Eqn. (3)，分类和定位任务共享一些中间计算，包括基网（c.f. 图2）。然而，他们使用fθ（·）输出的不同部分来计算不同方面的损失，即，分类和本地化性能-曼分别。这是一种设计选择，用于共享潜在相关任务的特征和计算[29，40]，这本质上是多任务学习的一个实例[5]。3.2. 任务损失最近已经开发了许多针对对象检测器的不同攻击方法[57，32，6，11，55，23，22，31]。虽然这些攻击的形式有很多不同，但从多任务学习的角度来看，423净损失损失锁定0.80.90.60.80.40.20（一）分类定位0.70.60.5表1.分析现有的目标检测攻击方法。“T” denotes “targetedattack” and “N” for “non-targeted从3.1节中指出的角度来看，它们具有相同的框架和设计原则：对检测器的攻击可以通过利用单个任务丢失的变体或它们的组合来实现。这为理解和比较对象检测器的不同攻击从这个角度来看，我们可以对现有的攻击方法进行分类，如表1所示。很明显，一些方法使用分类损失[6，32，11，57，55]，而其他方法，ODS还包括定位损失[31，23，22]。有两种观点可以解释个体任务损失在产生攻击中的有效性：i）分类和定位任务共享公共基网，这意味着基网中的弱点将在建立在其上的所有任务之间共享;ii）虽然分类和定位输出具有用于共享基网之外的每个任务的专用分支，但是由于NMS的使用，它们在测试阶段中耦合，NMS联合使用类分数和边界框位置用于冗余预测修剪。虽然已经开发了许多攻击，并且有可能根据一般原则提出新的组合和改进，但缺乏对单个组件在模型鲁棒性中的作用的理解。填补这一空白是我们的贡献之一，这将自然导致我们在续集中详细介绍的对象检测器的鲁棒训练方法。4. 对抗性鲁棒检测4.1. 任务损失在鲁棒性由于检测器的分类和定位任务共享一个基网（c.f.图2），这两个任务将不可避免地相互影响，即使输入图像是根据一个单独的任务所遵循的标准来操作的。因此，我们从几个角度对任务损失在模型鲁棒性中的作用进行了分析。任务损失的相互影响。我们的第一个经验发现是，不同的任务具有相互影响，并且针对一个任务的对抗性攻击可以降低模型在另一个任务上的性能。为了说明这一点，我们对一个因素采取边缘化的观点，同时研究另一个因素的影响例如，当...图3. 任务损失和梯度可视化的相互影响。(a)不同攻击下分类和定位的模型性能：干净镜像、丢失cls攻击和丢失loc-based攻击。该模型是在干净图像上训练的标准检测器。性能指标详见正文。(b)散射分类Gc和定位Gl的任务梯度的曲线图。在分类方面，我们可以将位置因素边缘化，并且问题简化为多标签分类任务[52];另一方面，当仅关注局部化时，我们可以将类别信息边缘化，并且获得类别不可知的对象检测问题[53]。采用单步PGD和预算8的结果如图3（a）所示性能在NMS之前的检测输出上进行测量，以更好地反映原始性能。候选集合首先被确定为前景候选，其先前框具有大于0.5的IoU值，具有任何地面实况注释。这确保了每个选择的候选者在两个任务中都有相对干净的输入对于分类，我们计算候选集的分类精度对于本地化，我们计算预测边界框与真实边界框的平均IoU。该攻击是用一步PGD生成的，预算为8.从图3（a）中的结果可以观察到，这两种损失相互作用。基于分类损失的攻击在降低分类性能的同时也降低了局部化性能。类似地，本地化丢失引起的攻击（loss loc）不仅降低了定位性能，而且也降低了分类性能。这本质上可以被视为一种跨任务攻击转移：即. . 当仅使用分类损失（任务）来生成对抗图像时，攻击可以被转移到定位任务并降低其性能，反之亦然。这就是为什么基于个人任务损失（例如，分类损失[57]）可以有效地攻击对象检测器。未对齐的任务队列。我们的第二个经验观察结果是，两个任务的梯度具有一定程度的共同方向，但并不完全对齐，导致任务梯度不对齐，这可能会混淆子任务对抗训练。为了说明这一点，我们分析了从两个损失（称为任务梯度），即，gc=10xloss cls和gl=10xloss loc。显示了gc和gl之间的逐元素散点图（b）第（1）款Gl分类精度平均IoU准确度GC目标检测组件损失损失锁定不N不N变形人[6]C[11]第 32话：我的世界C[55]第五十七话：我的爱CCDPatch[31]CC[23]第二十三话CCBPatch[22]CC424KKloc分类任务域算法1用于鲁棒检测输入：数据集D，训练时期T，批量大小S，学习率γ，攻击预算γ对于t=1到T，做SCLS对于随机批次{xi，{yi，bi}}SDdo·xiB（xi，）k k i=1计算，计算，计算在课堂上的表现。sificationtask（整合任务）图4. 任务域Scls和Sloc我CLS=PSx xi+·signxlosscls（xi，{yi}）t-SNE。给定一个干净的图像x，图像中的每个点代表计算atta。cksin the loc. 验证任务域验证发送一个对抗性的例子解决Eqn。(5)盯我loc =PSx xi+·signxlossloc（xi，{bi}）从x周围的一个随机点开始不同颜色编码用于生成对抗性示例的任务损失计算最终攻击示例·m=L（x<$i，{yi，bi}）>L（x<$i，{yi，bi}）（红色：损失cls，蓝色：损失loc）。因此，样品形成empiri-clsk k我我洛克克调用相应任务域的映像。据观察，这两个任务域有重叠和独特的区域。·x<$=m<$x<$cls+（1−m）<$x <$i执行ad versarial sampletraining步骤·θ= θ−γ·θ1SL（x<$i，{yi，bi};θ）在图3（b）中。我们有几个观察结果：i）任务梯度的大小不相同（不同的值首尾相接Si=1k k范围），指示两个任务损失之间潜在存在不平衡;ii）任务梯度的方向不一致（非对角），暗示两个任务梯度之间潜在冲突。我们进一步可视化的任务梯度域表示的域的任务最大化梯度为每个相应的任务（c.f。等式(5))如图4所示。事实上，这两个域并没有完全分离（即它们没有坍缩成两个孤立的集群），这进一步加强了我们之前对它们相互影响的观察。它们具有显著非重叠部分的另一个方面是任务梯度（任务域）之间的不对准的另一个反映。4.2. 用于鲁棒检测的对抗训练受前面分析的启发，我们提出了以下用于鲁棒对象检测训练的公式：输出：学习的模型参数θ用于对象检测。用于对手生成和训练的多个（在存在多个对象的情况下）和异构（分类和定位两者）监督源，从而推广用于分类的对抗训练;• 面向任务的域约束：与使用任务无关域约束Sx的传统对抗训练设置不同，我们引入了面向任务的域约束SclsSloc，其将允许域限制为最大化分类任务损失或定位损失。用于训练的最后一个对抗性示例是最大化该集合中的整体损失的示例。所提出的配方的关键优点是，ΣminθMaxx<$∈Scls<$SlocΣL（fθ（x<$），{yk，bk}），（4）任务领域的限制是，我们可以从性别中受益，生成由每个任务引导的对抗性示例，而不受它们之间的干扰。其中，面向任务的域Scls和Sloc表示由每个单独的任务引起的允许域S cls，{x<$|argmaxlosscls（f（x<$），{yk}））}如果我们将面向任务的域放宽到Sx，则设置与完整图像对应的边界框的并分配一个单一的类别标签的图像，然后提出的公式Eqn. (4)减少到传统的广告，x<$∈SxS loc，{x<$|argmaxlossloc（f（x<$），{bk}））}x<$∈Sx（五）用于分类的对抗训练设置[16，33]。因此，我们可以将所提出的用于鲁棒性检测的对抗性训练视为传统训练的自然推广其中，Sx被定义为Sx={z |z ∈ B（x，n）<$[0，255]n}，且B（x，n）={z| <$z−x<$∞ ≤<$}表示以干净像x为中心，以扰动边界为半径的<$∞-球。We表示PSx（·）作为将输入投影到可行区域Sx中的投影算子。重要的是要注意到与用于分类的传统对抗训练• 用于对抗训练的多任务源：与分类情况下的对抗训练不同[16，33]，其中仅涉及单个源，这里我们有本地化任务域Sloc·x¯·x¯425分类设置下的对抗训练。然而，重要的是要注意，虽然这两个任务都有助于根据其整体优势提高模型的鲁棒性与Sx（c.f.第5.3节）。训练抵抗对抗性攻击的对象检测模型（四）、我们近似地解决它，通过将原始训练图像替换为逆向的每一个。426图5. 针对（a）丢失cls和（b）丢失loc的基于PGD攻击（其中，k=8），在不同步数下的模型性能。STD是标准型号。CLS和ESTA是我们强大的模型。通过解决内部问题获得的扰动图像，然后使用扰动图像进行模型的常规训练，如对抗训练中通常所做的那样[16，33]。内部最大化近似地使用FGSM [16]的变体来求解效率。为了结合面向任务的域约束，我们建议在每个任务域中采取FGSM步骤，然后选择最大化总体损失的步骤。算法的细节总结在算法1中。5. 实验5.1. 实验和实施细节我们使用具有VGG16 [45]主干的单次激发多盒检测器（SSD）[29]作为我们实验中的代表性单次激发检测器之一。我们还对VGG16网络进行了必要的修改，如[29]中所述，并保留了批量归一化层。使用不同探测器架构的实验（基于接收场块的探测器（RFB）[28]、特征融合单次激发探测器（FSSD）[24]和YOLO-V3[40，41]），以及骨干（ VGG 16 [45] ， ResNet 50 [19] ， DarkNet 53[39]）也进行了全面评估。对于PASCAL VOC数据集，我们采用标准的[29]第29章：你的女人为了测试，我们使用PASCAL VOC 2007测试 4952测试图像，20个班级[10]。1对于MS-COCO数据集[27]，我们在train+valminusminival2014 上训练（ 120 k 图像），并在 minival2014 上测试80 个类（150 k 图像）。IoU阈值为0.5的用于评价探测器的性能[10]。所有模型都是使用SGD从头开始训练的，初始学习率为10- 2，动量为0。9，权重衰减0. 0005和批量32[18]，多箱丢失[9，48]。学习速率表为[40k，60k，80k]PASCAL VOC和MS-COCO衰减系数为0.1。图像的大小为300×300。像素值范围根据数据集平均值移动[0，255]。对于对抗性攻击和训练，我们使用bud- get*=8，这大致对应于扰动图像和原始图像之间的PSNR为30 [23]。1未使用VOC 2012测试，因为生成攻击所需的注释不可用。图6. 模型性能在不同的攻击预算（a）损失cls和（b）损失位置为基础的PGD攻击与20个步骤。STD是标准型号。CLS和ESTA是我们强大的模型。=0图7. 基于损失类的STD模型攻击可视化基于20步PGD攻击（电子缩放以获得更好的视图）。所有的攻击方法都将sgn（·）运算符纳入PGD步骤中，以实现规范化和效率[16]。5.2. 任务损失对鲁棒性我们将研究任务损失在模型鲁棒性中的作用。为此，我们介绍了标准模型和我们提出的鲁棒模型的几个变体：• STD：以干净图像为域的• CLS：仅使用Scls作为训练的任务域• ：仅使用Sloc作为训练的任务域我们将系统地研究这些性能模型下的攻击引起的个别任务损失与不同数量的攻击步骤和预算如下。不同步骤下的攻击。我们首先评估了模型在固定攻击预算为8的情况下，在不同PGD步骤数的攻击下的性能。结果见图5。我们有几个有趣的观察结果：i）对于基于丢失 cls 和基于丢失 loc 的攻击，标准模型（STD）的性能在几步内下降到所有其它鲁棒模型之下，并且随着PGD步骤的数量增加而快速下降（接近零）。这些结果表明，这两种类型的攻击是非常有效的攻击检测器;ii）所有鲁棒模型在不同数量的攻击步骤上保持相对稳定的性能，表明与标准模型相比，它们对对抗性攻击的鲁棒性有所提高。不同预算的攻击。我们在一系列不同的攻击预算下评估模型的鲁棒性{2，4，6，8，10}。结果示于图6中。是观察到标准模型训练的性能与自然图像（STD）显著下降，例如，，从在干净的图像（未显示在图中）上的攻击率为72%，在攻击预算为2的情况下为14%另一方面，鲁棒随着攻击预算的增加，其性能会更好地降低，这说明与标准（一）（b）第（1）款（一）（b）第（1）款地图地图地图地图427SSD骨干网DAG标准 [五十七]我们RAP标准 [23日]我们VGG160.328.56.644.9ResNet500.422.98.839.1DarkNet530.526.28.246.6表2.任务域对模型性能（mAP）和防御攻击的影响（攻击次数=8）。表3.不同主干上的评估结果在不同攻击下的各个任务域，这意味着由于任务梯度之间的冲突，简单地混合任务域会导致性能受损（第2节）。4.1）。另一方面，鲁棒模型模型在图7中，我们可视化了在标准模型上不同攻击预算下的检测结果。据观察，即使在小的攻击预算（例如，λ=2）下，检测结果也完全改变，这意味着标准模型在鲁棒性方面非常脆弱，这与我们之前在图6中观察到的结果一致。还观察到，错误检测可以具有几种形式：i）标签翻转：边界框位置大致正确，但是类标签不正确，例如，、“dinningtable“（：0 → 2）; ii）消失：对象的边界框丢失，例如，，“马“和“人“（：0 → 2）; iii）出现：对图像中不存在的对象的虚假检测，其位置与任何主要对象都没有很好地对准，例如，、随着攻击预算的增加，检测输出将进一步改变，上述三种类型的变化。从图中还可以看出，与原始攻击图像相比，使用λ=8生成的攻击图像有明显的变化，尽管不是很严重。因此，我们将使用攻击*=8，因为它是一个足够大的攻击预算，同时保持与原始图像的合理相似性。5.3. 超越单一任务域我们进一步研究了任务域对鲁棒性的影响。除STD、CLS和ESTA外，还考虑了具有不同任务范围的以下方法：• CON：使用常规的任务不可知域Sx，其本质上是副词的直接应用sarial训练分类[16，33]检测;• MTD：使用面向任务的域Scls_Sloc。结果总结在表2中。从比较中观察到，不同的域导致不同水平的模型鲁棒性。例如，对于具有单个任务域的方法，与CLS相比，SVM导致较不稳健的模型。另一方面，该系统具有比CLS更高的清洁精度。因此，选择一个单个域并不简单，因为先验地不知道任务域之一是否是最佳的。简单地放松传统对抗训练CON[16，33]中所做具体地说，与任务无关的任务域CON的性能实现了一个中间或较差的性能相比，MTD使用面向任务的领域约束的对抗训练可以提高CON基线的性能。更重要的是，当面向任务的多任务域被纳入时，与基于单域的方法相比，观察到适当的权衡和整体性能，这意味着在对象检测器中正确处理异质和可能不平衡的任务的重要性总之，任务可能是不平衡的，对模型鲁棒性的贡献不同由于先验未知哪一个更好，随机采用一个或简单地组合损失（CON）可能导致折衷的性能。MTD设置克服了这个问题，并实现了与最佳单域模型和与任务无关的域模型相当或更好的性能。5.4. 针对现有白盒攻击的为了进一步研究模型的鲁棒性，我们评估了模型对代表性的攻击方法，从文学。根据表1，我们使用DAG[57]和RAP[23]作为代表性攻击。需要注意的是，训练和测试中使用的攻击是不同的。结果总结在表2中。据观察，鲁棒模型的性能提高了标准模型的大幅度。CLS在对文献中的两种攻击的鲁棒性方面一般比DES和CON表现得更好。使用多任务域（MTD）的模型表现出最好的性能。MTD具有比CLS更高的干净图像准确性，并且针对不同攻击表现一致，因此总体上更好，并将用于以下报告性能图8中提供了示例结果的可视化。5.5. 对不同主干的评价我们评估了所提出的方法在不同SSD骨干下的有效性，包括 VGG16 [45] ， ResNet50 [19] 和 DarkNet53[39]。DAG[57]和RAP[23]攻击下的平均性能报告见表3。据观察，所提出的方法可以在不同的主干上，检测器的性能大幅提高（20%-30%的绝对改进），表明所提出的方法在不同网络结构的主干上表现良好，与基线模型相比具有明显和一致的改进。攻击清洁损失损失锁定[57]第五十七话[23]第二十三话标准72.11.50.00.36.6CLS46.721.832.228.043.4我们LOCCON51.938.723.718.326.527.217.226.443.640.8MTD48.029.131.928.544.9我们的平均46.323.229.425.043.2428DAG攻击RAP攻击图8.在DAG [57]和RAP [23]攻击预算为8的攻击下，标准模型和我们的模型之间的视觉比较。架构。这清楚地表明了所提出的方法在检测器架构中的适用性。5.7. 防御转移攻击我们进一步测试了鲁棒模型的性能表4.不同检测架构的评估结果5.6. 不同检测架构我们提出的方法也适用于不同的检测架构。为了证明这一点，我们使用了不同的检测架构，包括SSD[29]，RFB [28]，FSSD [24]和YOLO-V3 [40，41]。输入图像大小YOLO的输入图像为416×416，其它的都是300×300的图像。 DAG下的平均性能[57]和RAP[23]攻击总结在表4中。实验结果表明，该方法对不同检测器的检测结果具有在转移攻击下：从具有不同主干和/或检测体系结构的模型转移的攻击。我们的测试模型基于SSD+VGG16。对于从不同主干传输的攻击，它们在SSD架构下生成，但用ResNet或DarkNet取代VGG主干。对于从不同检测架构转移的攻击，我们使用RFB [28]，FSSD [24]和YOLO [40，41]。[57]第二节：[23]用作下划线攻击生成算法。的结果总结在表5中。观察到2由于YOLO的输入图像大小为416×416，不同于SSD的输入图像大小为300×300，因此我们在300 ×300的输入图像和YOLO之间插入了一个可微插值模块（3002→4162）我们我们标准标准架构DAG标准 [五十七]我们RAP标准 [23日]我们SSD+VGG160.328.56.644.9RFB+ResNet500.427.48.748.7FSSD+DarkNet530.329.47.646.8Yolo+DarkNet530.127.68.144.3429小物体视觉混淆类错误的边界框和/或类图9.故障案例的可视化。具有挑战性的示例包括具有小对象和视觉上令人困惑的类的图像转移攻击[57]第五十七话[23]第二十三话平均SSD+ResNet5049.349.449.4SSD+DarkNet5349.249.449.3RFB+ResNet5049.149.349.2FSSD+DarkNet5349.349.249.3YOLO+DarkNet5349.549.549.5表5.我们的模型（SSD+VGG16）对攻击的性能从不同的主干和检测器架构传输。提出的模型对不同算法和体系结构产生的转移攻击具有鲁棒性。还观察到具有一定鲁棒性的攻击可以在具有不同骨干或结构的检测器之间转移这再次证实了[57，23]的结果。5.8. MS COCO我们进一步在MS-COCO [27]上进行实验，由于其类别数量和数据变化的增加，这对于标准检测器和防御在RAP攻击[23]下，攻击预算为8，PGD步骤为20的不同模型的结果总结在表6中。标准模型实现在存在攻击的情况下，准确率非常低（与干净图像上的大约40%相比）。我们提出的模型改进证明了标准模型显着，并在不同的骨干和检测体系结构一般表现良好。这进一步证明了提出了提高模型鲁棒性的方法。5.9. 故障案例分析我们在图9中可视化了一些对我们当前模型具有挑战性的示例案例。对于标准检测器具有挑战性的具有小物体的图像[29，40]仍然是鲁棒检测器的一类具有挑战性的更好的检测器架构可能是应对这一挑战所必需的。另一个具有挑战性的类别是具有视觉上令人困惑的外观的对象，这自然会导致低置信度预测。这与检测器的分类任务更相关，并且可以受益于分类的进步[58]。也有预测不准确或完全错误的情况，这揭示了鲁棒检测器训练中仍然存在的挑战表6.在RAP攻击下MS-COCO上的标准模型和鲁棒模型的比较[23]，攻击预算为8和20 PGD步骤。6. 结论提出了一种提高目标检测器抗对抗性攻击鲁棒性的方法从目标检测的多任务视角出发，系统分析了现有的针对目标检测器的攻击，以及各个任务组件对模型鲁棒性的影响。在此基础上，提出了一种用于鲁棒目标检测的对抗训练方法.在PASCAL-VOC和MS-COCO数据集上进行了大量的实验，实验结果表明，与标准模型相比，该方法在不同攻击、不同数据集、不同检测器主干和不同体系结构下，都能有效提高模型的鲁棒性.这项工作是朝着对抗性强的检测器训练迈出的第一步，结果很有希望需要在这方面作出更多目标检测的新进展可用于进一步提高模型性能，例如：，用于近似真实目标的更好的损失函数[26]和用于寻址小目标的不同架构是-N [7，13]。同样，作为目标检测的组成任务，分类任务的任何进展也可能被与分类情况一样，在干净图像的准确性和对象检测的鲁棒性之间也存在权衡[51]。如何更好地利用这种权衡是另一个未来的工作。此外，通过将对象检测视为多任务学习任务的实例，这项工作也可以作为其他多任务学习问题的鲁棒性改进的示例[20，59]。模型建筑技术公司骨干清洁攻击标准SSDVGG1639.82.8SSDVGG1627.816.5SSDDarkNet5320.918.8我们SSDRFBResNet50ResNet5018.024.716.421.6FSSDDarkNet5323.520.9YoloDarkNet5324.021.5430引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在2018年国际机器学习会议[2] 巴蒂斯塔·比吉奥和法比奥·罗利。野生图案：对抗性机器学习兴起十年后。ACM计算机和通信安全会议，2018年。[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议上，2018。[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性IEEESymposium on Security and Privacy，2017。[5] 瑞奇·卡鲁阿纳多任务学习。 Machine Learning，28（1）：41[6] Shang-Tse Chen ， Cory Cornelius ， Jason Martin ， andDuen Horng Chau. ShapeShifter：对Faster R-CNN对象检测器的强大物理对抗攻击。CoRR，abs/1804.05810，2018。[7] 崔丽莎MDSSD：用于小物体的多尺度解卷积单次CoRR，abs/1805.07009，2018。[8] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图IEEE计算机视觉与模式识别会议，2005年。[9] Dumitru Erhan、Christian Szegedy、Alexander Toshev和Dragomir Anguelov。使用深度神经网络的可扩展对象检测。IEEE计算机视觉与模式识别会议，2014年。[10] Mark Everingham，S. M.放大图片作者：Christopher K.Williams ， John Winn ， and Andrew Zisserman. pascalvisual object classes 挑战：回顾展。 Int. J. 计算机。Vision，111（1）：98 -136，2015.[11] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 AmirRahmati 、 FlorianTrame`r 、 AtulPrakash 、TadayoshiKohno和Dawn Song。对象检测器的物理对抗示例。CoRR，abs/1807.07769，2018。[12] 佩德罗 ·F. 罗斯？费尔岑斯瓦尔布 Girshick ， DavidMcAllester，and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。 IEEE Trans. 模式分析马赫内特尔，32（9）：1627[13] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C.伯格。DSSD：DeconvolutionalSingle Shot Detector。CoRR，abs/1701.06659，2017。[14] 罗斯 · 格希克。快速 R-CNN 。 IEEEInternationalConference on Computer Vision，2015年。[15] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。IEEE计算机视觉与模式识别会议，2014年。[16] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。国际学习表征会议，2015年。[17] ChuanGuo，MayankRana，MoustaphaCisse'，andLaurensvan der Maaten.使用输入变换对抗性图像。在2018年国际学习代表会议上[18] 作者：RossB. Girshick和PiotrDoll a'r。重新思考ImageNet预训练。CoRR，abs/1811.08883，2018。[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别上，2016年。[20] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议上，2018。[21] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习在2017年国际学习代表会议上[22] 李悦尊，边贤，吕四维。通过背景上不可察觉的补丁攻击目标检测器。CoRR，abs/1809.05966，2018。[23] Yuezun Li ， Daniel Tian ， Ming-Ching Chang ， XiaoBian，and Siwei Lyu.基于深度命题模型的鲁棒对抗扰动。在英国机器视觉会议，2018年。[24] 李作新，周富强。FSSD：特征融合单发多盒检测器。CoRR，abs/1712.00960，2017年。[25] Fangzhou Liao，Ming Liang，Yinpeng Dong，and TanyuPang.使用高级表示引导去噪器对抗攻击的防御。在IEEE计算机视觉和模式识别会议上，2018。[26] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andPio t rDoll a'r. 密集目标检测的焦面损失。2017年计算机视觉国际会议[27] 作者：Michael Maire，Serge J.卢博米尔？罗斯？布尔德夫 Girshick ， James Hays ， Pietro Perona ， DevaRamanan ， PiotrDol la'r ， andC.劳伦斯 · 齐特尼克。MicrosoftCOCO：上下文中的公共对象。欧洲计算机视觉会议，2014年。[28] 刘松涛，黄迪，王云红。接收域块网，用于准确和快速的目标检测。2018年欧洲计算机视觉会议[29] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C.伯格。SSD：单次触发多盒探测器。在欧洲计算机视觉会议上，2016年。[30] 刘玄庆、程敏浩、张欢和谢卓瑞。通过随机自集成实现鲁棒神经网络。2018年欧洲计算机视觉会议。[31] Xin Liu ， Huanrui Yang ， Linghao Song ， Hai Li andYiran Chen. DPatch：用对抗补丁攻击对象检测器。CoRR，abs/1806.02299，2018。[32] Jiajun Lu，Hussein Sibai，and Evan Fabry.对抗性的例子欺骗了探测器。CoRR，abs/1712.02494，2017。[33] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。在2018年国际学习代表会议上[34] 东玉梦、皓

下载后可阅读完整内容，剩余1页未读，立即下载