单级人脸检测网络中的对抗性干扰限制及效果优于现有方法

201 浏览量更新于2023-10-13 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

在单级人脸检测网络Siqi Yang，Arnold Wiliem，Shaokang Chen，and Brian C.洛弗尔澳大利亚昆士兰大学siqi. uq.net.au，a. uq.edu.au，shaokangchenuq@gmail.com，lovell@itee.uq.edu.au抽象。这项工作表明，它是可能的欺骗/攻击最近的国家的最先进的人脸检测器，这是基于单级网络的作品。在部署利用人脸检测器的智能监控系统时，成功攻击人脸检测器可能是一个严重的恶意软件漏洞此外，出于隐私考虑，它有助于防止面部被获取并存储在服务器中我们表明，现有的对抗扰动方法是不能有效地执行这样的攻击，特别是当有多个面孔的输入图像。这是因为针对一个面部具体生成的对抗性扰动可能会破坏针对另一个面部的对抗性扰动。在本文中，我们称这个问题的实例扰动干扰（IPI）问题。通过研究深度神经网络感受野与对抗性扰动之间的关系来解决这个IPI问题除了单阶段人脸检测器之外，我们发现IPI问题也存在于Faster-RCNN的第一阶段，这是常用的两阶段对象检测器。因此，我们提出了本地化的实例扰动（LIP），将对抗性扰动限制在目标的有效感受场（ERF）内以执行攻击。实验结果表明，LIP方法大大优于现有的对抗性扰动生成方法-通常是2到10倍。关键词：对抗·干扰·有效感受野·单级网络·检测.1介绍近年来，深度神经网络在许多应用中取得了巨大成功[31，10，5，28，15，27，6，39，17]。然而，在各种工作中已经证明，通过向图像上添加微小的、难以察觉的扰动，可以显著改变网络输出[32，4，16，25，23，11，35，19]。这些扰动通常被称为对抗扰动[4]。大多数先前的工作主要旨在生成对抗性扰动以愚弄神经网络进行图像分类任务[32，4，16，25，23，11，22]。攻击这些网络相对更容易，因为扰动仅需要针对包含感兴趣的实例/对象的每个图像改变一个网络决策。这意味着，仅存在单个目标，并且目标是整个图像。最近，2S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔Fig. 1.实例扰动干扰（IPI）问题的说明。上行-每行：两个实例及其生成的对抗扰动。外圆和内圆分别表示理论感受野（TRF）和有效感受野（ERF）。下面一行：扰动的一维表示IPI问题是指一个实例产生的扰动显著破坏另一个实例产生的扰动。干扰对左情况没有显著影响，而对右情况，它将降低攻击已经提出了几种方法来对分割[19，3，2]和对象检测任务[35]进行更具挑战性的攻击，其中在输入图像内存在要攻击的明显在生物识别领域，Sharif et al. [29]表明，面部识别系统可以通过应用对抗性扰动来欺骗，其中检测到的面部可以被识别为另一个个体。此外，出于隐私考虑，数据集中的生物特征数据可能在未经用户同意的情况下被利用。因此，Mirjalili et al. [20，21]开发了一种保护软生物测量隐私的技术（例如，性别）而不损害面部识别的准确性。然而，在上述方法中，面部仍然被捕获并存储在服务器中。在本文中，我们提出了一种新的方法来解决这些隐私问题，避免完全从图像中检测到的面孔。因此，攻击人脸检测是至关重要的安全和隐私问题。出于类似的目标，以前的作品[29，36]对Viola Jones（VJ）面部检测器[33]进行了攻击然而，深度神经网络已被证明在检测人脸方面非常有效[1，6，39，12，26，37，13，24，40]，它可以实现比VJ高2倍的检测率在这项工作中，我们解决了为基于深度学习的人脸检测网络生成有效对抗扰动据我们所知，这是第一次尝试对人脸检测网络进行这种对抗性攻击的研究基于深度网络的对象/面部检测方法可以被分组为两阶段网络，例如， Faster-RCNN [28]和单级网络 [15，27，6， 24，40]。在Faster-RCNN [9]中，应用浅区域建议网络来生成候选，并利用深度分类网络进行最终决策。单级（SS）网络类似于Faster-RCNN [28]中的区域建议网络，但同时执行对象分类和定位。通过利用单级网络架构，最近的检测器[6，24，40]可以以更快的运行时间检测各种规模的人脸。由于在单级人脸检测网络3他们的优异性能，我们限制本文攻击最新的人脸检测器利用单级网络。我们发现，将常用的基于梯度的对抗方法[4，23]应用于最先进的人脸检测网络并没有呈现出令人满意的结果。我们指出，攻击一个单级检测器是具有挑战性的和不满意的性能是由于实例扰动干扰（IPI）的问题。IPI问题可以简单地解释为攻击一个实例所需的扰动与攻击附近实例所需的扰动之间的干扰。由于最近的对抗扰动方法[35，19]没有考虑这个问题，因此它们在攻击SS人脸检测器网络时变得非常无效。在这项工作中，我们将IPI问题归因于深度神经网络的感受野最近的工作[18]表明，感受野遵循2D高斯分布，其中更接近输出神经元的输入图像像素集对神经元决策具有更高的影响。高影响力像素集中的区域被称为有效感受野（ERF）[18]。如图所示。1，如果两个面彼此靠近，则攻击一个面所产生的扰动将驻留在另一个面的ERF中。先前的工作[34]表明，当特定结构被破坏时，对抗性攻击可能会失败因此，在ERF中的驻留显著阻碍了攻击另一面的成功换句话说，当干扰扰动破坏针对相邻面生成的对抗扰动时，IPI问题发生。当多个面孔存在于非常接近的位置并且当网络的感受野较大时，该IPI问题将变得更加严重。对于一般的两阶段对象检测Faster-RCNN [28]，我们发现IPI问题也存在于其第一阶段网络上，即，区域建议网络（RPN）。我们相信这是第一个描述和解释IPI问题的工作。贡献-我们列出我们的贡献如下：（1）我们描述并提供了实例扰动干扰问题的理论解释，该问题使得现有的对抗性扰动生成方法在存在多个人脸时无法攻击SS人脸检测器网络;（2）这是第一项研究，表明可以攻击基于深度神经网络的人脸检测器。更具体地说，我们提出了一种方法来攻击基于单阶段的人脸检测器网络。（3）提出了局部化实例扰动（LIP）方法，通过将扰动限制在每个实例ERF中来产生基于实例的扰动。2背景2.1对抗性扰动如上所述，攻击网络意味着试图改变特定目标的网络决策。目标t被定义为输入图像中的一个区域例如，用于攻击图像分类网络的目标t是整个图像。4S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔对抗扰动概念首次引入用于攻击图像分类网络[32，4，16，25，23，11，22]。 Szegedy等人[32]表明，通过向输入图像添加不可察觉的扰动，可以使卷积神经网络（CNN）以高置信度预测错误的类别标签。Goodfellow等人 [4]解释说，神经网络对对抗性扰动的脆弱性是由神经网络的线性性质引起的。他们提出了一种快速方法来生成这种对抗性扰动，将该方法命名为快速梯度符号方法（FGSM），该方法由以下定义：ξ = αsign（X（f（X），y true）），其中α是超参数[4]。通过反向传播计算关于整个输入图像X∈Rw×h的梯度，并且函数sign（）是L∞范数。在此之后，Kurakin et al. [11]提出通过迭代生成对抗扰动来扩展FGSM。在每次迭代中，对扰动的值进行裁剪以控制可感知性。我们表示为I-FGSM在这项工作中。为了降低可感知性，Moosavi-Dezfooli et al. [23]提出了DeepFool方法，该方法通过假设分类器在每次迭代时是线性的，迭代地将最小对抗扰动添加到图像中。图像分类的普遍扰动的存在在[22]中示出。最近，对抗性示例被扩展到各种应用中例如语义分割[35，19，2，3]和对象检测[35]。Metzen等人。 [19]将[11]中描述的I-FGSM适应于语义分割域，其中每个像素都是目标。他们证明了不同目标像素的损失梯度可能指向相反的方向。在对象检测中，感兴趣的实例是检测到的对象。因此，目标是检测到的包含对象的区域提议。在[35]中提出了一种用于生成针对对象检测的对抗性扰动的方法。他们声称，在对象检测中产生对抗性扰动比在语义分割任务中更困难。为了成功攻击检测到的对象，需要确保与对象/实例相关联的所有区域提议都被成功攻击。例如，如果R个区域提议中只有K个被成功攻击，则检测器仍然可以通过使用未被成功攻击的其他高置信度分数区域提议来检测对象。我们注意到，所有上述方法都使用具有与输入图像相同大小这是因为这些扰动是通过计算相对于整个图像的梯度而生成的因此，针对一个目标所生成的扰动可能破坏针对其他目标所生成的扰动为了对比这些方法与我们的工作，我们将这些方法归类为基于图像的扰动（IMP）方法。2.2损失函数一般来说，通过优化性能，可以实现性能的提高功能设L=不i=1 Lti 是要优化的损失函数客观函数定义如下：最小参数ξΣTi=1 Lti（ξ）、⑴在单级人脸检测网络5我其中T是目标的数量;Lti是针对每个个体目标t i的损失函数;并且ξ∈Rw×h是将被添加到输入图像X中的对抗性扰动。根据对抗性攻击的目的，攻击可以分为非针对性对抗性攻击[4，22，35]和针对性对抗性攻击[11，19]。对于非定向对抗攻击，目标是降低给定目标t的真值类y为真的概率，并使网络预测任何任意类，而定向对抗攻击的目标是确保网络预测目标t的目标类ytarget。定向攻击的目标函数可以总结为以下公式：arg minξLt=（f（X+ξ，ti），ytarget）−（f（X+ξ，ti），ytrue），（2）其中，ξ是最佳对抗扰动;f是目标区域上的网络分类得分矩阵;并且是网络损失函数。一般来说，人脸检测问题被认为是一个二元分类问题，其目的是将一个区域分类为人脸（+1）或非人脸（-1）（即，ytarget={+1，-1}）。然而，为了检测各种尺度的人脸，特别是对于微小的人脸，最近的人脸检测器利用单级网络[6，24，40]将人脸检测问题划分为多个尺度特定的二进制分类问题，并联合学习它们的损失函数攻击这样的网络的目标函数被定义为：最小参数ξLtiΣSj=1 sj（fsj（X+ξ，ti），y目标），（3）其中，S是尺度的数量;并且是尺度特定的检测器损失函数。与等式2、上述目标更具挑战性。这是因为单个面部不仅可以被多个区域提议/目标检测到，而且可以被多个尺度特定的检测器检测到。因此，只有当对抗性扰动欺骗了所有尺度特定的检测器时，才能成功地攻击面部换句话说，攻击单级人脸检测网络比目标检测工作更具挑战性[35]。最后，由于我们的主要目标是防止人脸被检测到，因此我们的目标函数被正式定义为：ΣTi=1 LtiΣTi=1 ΣSj=1 sj（fsj（X + ξ，t i），−1）.（四）在这项工作中，我们使用了最新的最先进的单阶段人脸检测器HR[6]，它联合学习了25个不同的尺度特定检测器，即：S= 25。3实例扰动干扰当使用现有的对抗性扰动方法[11，19]执行攻击时，当输入图像中存在多个面部时，出现实例扰动干扰（IPI）问题简而言之，IPI问题是指成功攻击一个感兴趣的实例可以减少攻击其他感兴趣的实例的机会的条件。对于面部检测任务，感兴趣的实例是面部。如果不加以解决，IPI问题将=L==6S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔i=12i=1X大大降低了整体攻击成功率。为了显示IPI问题的存在，我们使用合成图像进行实验。在本实验中，我们采用了现有的扰动方法产生的适应通过最小化Eq. 4.第一章3.1基于图像的扰动如上所述，我们将以前的方法归类为基于图像的扰动（IMP），因为它们使用整个图像扰动来执行攻击。在这里，我们通过优化Eq. 1来适应两种现有方法，I-FSGM [11]和DeepFool [23]4.第一章我们将它们表示为IMP（I-FGSM）和IMP（DeepFool）。在这两种方法中，对抗性扰动是通过使用梯度下降方法生成的。在第（n+1）次迭代时，关于输入图像X的梯度，XL（f（X+ξ（n）），−1），是用损失函数对两个网络进行预处理而得到的。对于IMP（I-FSGM）[11]，我们迭代地更新对抗扰动如下：f （ n+1 ）=Clipε{f （ n ） −αsign （f （ X+f （ n ））， −1 ））}，（ 5）其中，步长α= 1; ε ε是到c|p|（0）=0的最大绝对幅度;并且L上的对数函数被传递到Eq。4.第一章不是在Eq。4、损失函数是所有目标损失的总和。因此，总梯度XL可以重写为：L（f（X+ξ（n）），−1）=ΣTΣSj=1X（fsj（X+ξ（n），ti），−1）.（六）由于我们假设f是一个深度神经网络，那么聚合梯度XL可以可以通过一次反向传播所有目标来获得在获得最终对抗性扰动ξ之后，然后通过下式生成扰动图像Xadv：Xadv= X + ξ。对于IMP（DeepFool），在[23]之后，我们配置Eq.5进：f（n+1）=Clip{f（n）−f（n））}，（7）εXL（f（X+ξ（n）2其中，等式中的损失函数4重写为L=ΣTΣSj=1 （fsj（X + ξ，ti））。与IMP（DeepFool）相比，IMP（I-FGSM）生成更密集和更复杂的数据。由于L∞范数，更可感知的扰动3.2IPI问题为了证明IPI问题的存在，我们通过控制人脸的数量和它们之间的距离来构建一组合成图像：（1）仅包含一个面部的图像;（2）包含紧密位于网格中的多个面部的图像;以及（3）使用（2）中的图像但增加面部之间的距离。示例如图所示。2.在这个实验中，我们使用了最新的人脸检测器HR-ResNet 101 [6]。通过从WIDER FACE数据集[38]中随机选择50张脸来构建合成图像实验详情见第5.2节。我们使用IMP方法生成对抗扰动：IMP（I-FGSM）和IMP（DeepFool）。在单级人脸检测网络7#检测到的人脸攻击成功率计算如下：#Faceremoved。表1报告了结果。对于图像仅包含一个面部的第一合成情况，IMP（I-FGSM）和IMP（DeepFool）都能够以100%的攻击成功率攻击面部检测器。IMP方法在第二种情况下仅部分成功，其中面的数量增加到16。攻击成功率显著下降到只有18。3%和11. 当N=81时为0%。当面之间的距离显著增加时，IMP方法攻击成功率显著增加，特别是对于IMP（DeepFool）。这是因为IMP（DeepFool）比IMP（I-FGSM）生成更稀疏的扰动。这些结果表明：（1）IMP在只有一个面时是有效的;（2）当多个面相互靠近时，IMP是无效的;（3）面间距离对攻击性能有显著影响。这些结果产生了两个问题：（1）为什么攻击受面数的影响？（2）为什么面之间的距离影响at-成功率？我们将在下一节中解决这两个问题。4该方法我们首先阐述了有效感受野和IPI问题之间的关系。然后，提出了局部化实例扰动（LIP）方法概述。4.1有效感受野图二.合成图像在添加来自基于图像的扰动（IMP）的对抗性扰动之后。对抗图像的检测结果以直角示出。注意，随着面部密度增加，攻击成功率降低。IMP攻击在图像中有许多人脸时无效，如(a) 及（c）。当面之间的距离增加时，攻击变得成功，如（b）神经网络中神经元的感受野是输入图像中影响神经元决策的一组像素[18]。在CNN中，[18]已经表明一个神经元的分布服从2D高斯分布。这意味着对神经元决策具有显著影响的大多数像素集中在神经元附近，并且影响远离TRF的中心快速衰减。在[18]中，像素仍然对神经元决策具有显著影响的区域被定义为有效感受野（ERF）。ERF仅占用TRF的一小部分，并且ERF内的像素将对最终输出产生不可忽略的影响。我们认为，了解ERF和TRF是重要的解决IPI问题。这是因为对抗性扰动旨在改变一个或多个神经元处的网络决策。必须考虑输入图像中影响决策的所有像素。8S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔Xf（X，t）f（X，t）N11681距离40 4080 16040IMP（I-FGSM）100 34 37.5 38.9 18.3N11681距离404060 8040IMP（DeepFool）100 67.5 91.8 99.7 11.0表1.合成图像上的IMP攻击成功率（以%计）相对于面的数量和面之间的距离N是面的数量当每个图像有一个人脸时，IMP可以实现100%的攻击成功率攻击成功率显着下降时，面的数量增加。在面数相同的情况下，攻击成功率可以随着面间距离的增加而增加(a) IMP（I-FGSM）（b）IMP（DeepFool）在本文中，为了简单起见，我们将TRF中的影响分布表示为DI-TRF。通过计算偏导数来测量DI-TRF输出层上的中心像素的反向传播。根据我们论文中的符号，让我们将中心像素表示为t c，则中心像素的偏导数为f（X，tc），这是DI-TRF。根据链式法则，我们有目标t c[18]的梯度：XL（f（X，t c），y target）=L（f（X，tc），ytarget）设置为1。f（X，tc）将目标像素的梯度与等式（1）中的对抗性扰动进行在图6中，与DI-TRF的唯一差异在于损失函数的偏导数，其是一个目标像素的标量。在我们的工作中C标量L（f（X，tc），ytarget）测量预测标签与C目标标签。逻辑损失用于每个尺度特定检测器的二进制分类（即，在等式（1）4）.因此，我们对一个目标的对抗性扰动可以被认为是DI-TRF的缩放由于DI-TRF遵循2D高斯分布[18]，因此改变单个神经元决策的对抗性扰动也是2D高斯分布。我们解释IPI问题如下。由于攻击单个神经元的对抗性扰动遵循2D高斯分布，因此扰动主要分布在ERF上，并且在ERF外部具有非零尾部从实验中，我们观察到，产生的扰动攻击图像中的多个面可能会干扰其他。更具体地说，当这些扰动与相邻面ERF重叠时，它们可能足以破坏为攻击该相邻面而生成的对抗性扰动。此外，先前的工作[34]表明，当特定结构被破坏时，对抗性攻击可能会失败。换句话说，当同时应用多个攻击时，这些攻击可能会我们将扰动干扰其他扰动作为干扰扰动。这也解释了为什么IPI受到面之间距离的影响。面越近，具有较大幅度的干扰扰动与相邻面ERF重叠当面之间的距离增加时，与相邻ERF重叠的干扰扰动的幅度可能不足以破坏对目标面的攻击。在单级人脸检测网络9i=1i=1j=14.2局部实例扰动为了解决IPI的问题，我们认为，所产生的对抗性扰动的一个实例，应该完全限制在ERF的实例。因此，我们将我们的方法称为局部实例扰动（LIP）。LIP包括两个主要组成部分：（1）消除任何可能的干扰扰动的方法和（2）产生扰动的方法。消除干扰扰动。为了消除扰动之间的干扰，我们试图约束所产生的扰动为每个实例内的电流变液单独。让我们考虑图像X，具有w×h个像素，包含N个实例{mi}N. 每个实例mi都有其对应的ERF，ei，并且我们有{ei}N.对于每个实例，存在一组的成本或成本上的差异化成本，{pj}P.我们表示第i个实例的最终扰动为Rmi，并且所有实例的扰动为R。与IMP方法类似，一旦计算出最终的扰动R，则将扰动添加到图像Xadv=X+R中。(1)扰动裁剪这一步是为了限制实例ERF内部的扰动。这是通过根据下式裁剪扰动来完成的：对应的实例ERF。让我们定义一个二元矩阵Cei∈{0， 1}w×h as用于ERF的裁剪矩阵，ei.矩阵C定义如下：.CEI（w，h）=1、（w，h）∈ei0，否则、（8）其中（w，h）是像素位置。裁剪操作通过掩模Cei和梯度w.r. t的逐元素点积来计算。输入图像Xi被定义为：Rmi=Cei·XLmi、（ 9）其中Lmi是第i个实例的损失函数Lmi将在下一小节中描述(2) 个体实例扰动。可以同时计算多个实例的扰动。然而，干扰扰动可能仍然存在并且可能影响攻击。为此，我们建议在裁剪之前分别计算每个实例的扰动。在将裁剪步骤应用于每个实例扰动之后，通过以下方式组合所有实例的最终扰动：ΣNi=1 CEI·XLmi .（十）然后，我们通过以下公式对最终的扰动R进行归一化：R=α sign（R）。扰动生成。给定对应于实例的一组区域建议，存在至少两种生成实例扰动Rmi的方法：（1）基于所有建议的生成和（2）基于最高置信度建议的生成。R=10S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔(1)所有提案均基于生成。在第一种方法中，我们利用所有的区域建议，以产生扰动Rmi。因此，Lmi 由方程式9可以可以定义为所有区域建议的损失函数的总和属于实例：LmiΣP=j=1 LPJ.（十一）(2)基于生成的最高置信度建议在在线硬示例挖掘[30]中，Shrivastava等人展示了使用硬示例生成更新网络的梯度的效率。硬例子是由非最大抑制选择的高损失对象建议。非最大抑制（NMS）类似于最大池化，其选择具有最高分数的对象提议（即，选择具有最高损失的建议）。受此启发，而不是攻击所有的对象建议相应的对于单个实例，我们可以使用NMS来选择具有最高损耗的一个来计算反向传播。那么Lmi可以重写为：Lmi= max（Lpj）。（十二）5实验5.1实现细节在本节中，我们首先描述实现细节，然后评估我们提出的对最先进的人脸检测数据集的对抗性攻击。在这项研究中，我们利用了最近最先进的人脸检测器HR [6]。具体地，使用HR-ResNet 101在HR中使用图像金字塔，即，将输入图像下采样/内插成多个尺寸。因此，对于金字塔中的每个图像，我们都会生成相应的对抗性示例。图像金字塔的检测结果与非最大值抑制（NMS）结合在一起NMS和分类的阈值选择为0。1乙腈-0. 5的比例。为了避免产生扰动时的梯度爆炸，我们发现，通过零填充的小输入图像可以减少梯度的大小在这项工作中，我们将小图像零填充到1000× 1000像素。此外，由于检测网络的输入图像可以具有任意大小，因此我们不遵循将输入图像调整为规范大小的现有方法[22，19]请注意，我们不能简单地裁剪输入图像以生成成功的对抗性扰动。这是因为扰动可能是不完整的，因为它不包括从相邻实例获得的上下文信息补充材料中示出了在有上下文和没有上下文的情况下生成的绝对值的两个非归一化扰动的示例。为了确定扰动裁剪大小，我们遵循Luo等人的工作。[18]计算输出特征图上实例的中心提议的梯度以获得ERF的分布。我们对多个实例的梯度进行平均，并确定裁剪大小，定义为ERF占用TRF能量的90%[18]。微扰在单级人脸检测网络11R=裁剪大小设置为80× 80像素（小面）和140× 140像素（大面）。最大噪声值ε是20，并且最大迭代次数N0是40。在本工作中，α被设置为1。扰动生成方法在我们的工作中，我们比较了我们提出的本地化实例扰动（LIP）的方法与图像扰动（IMP）和本地化扰动（LP）。所评估的扰动生成方法的细节如下所示：(1)使用所有建议生成的局部化实例扰动（LIP-A）。所提出的LIP-A是我们在第4.2节中提出的LIP方法的变体。如上所述，一个实例的损失函数是所有提议的总和（参考等式（1））。第11段）。(2) 使用最高置信度建议生成器的化（LIP-H）。 LIP-H是我们提出的LIP的另一个变体，其具有等式2的损失函数。12个。一个实例的损失函数仅由最高置信度建议的一个损失组成(3) 图像扰动（IMP）。 IMP方法是指第3.1节中的生成方法，其应用扰动而不剪切它。这种扰动生成方法遵循以前的工作[19]。(4) 局部扰动（LP）。 LP是局部扰动，其也裁剪图像扰动。与拟议LIP的主要区别是它同时计算所有实例的梯度作物与Eq相反10，最终扰动通过下式获得SNSi=1 CEIΣNi=1 XLmi.（十三）哪里Ni=1 CEI是所有二进制矩阵的并集这种方法的优点它是一个客户端，可以将所有数据包都打包到一个组的最大值上。所有实例的成分，（即，网络一次。Ni=1 XLmi），同时通过反向传播基准数据集。我们在两个最近流行的人脸检测基准数据集上评估了我们提出的对抗性扰动：（1）FDDB数据集[8]：FDDB数据集包括具有广泛难度的人脸图像例如遮挡、困难姿势、低分辨率和失焦面部。它包含2，845张图像，总共标记了5，171张面孔;和（2）WIDER FACE数据集[38]：WIDER FACE数据集是目前最具挑战性的人脸检测基准数据集。它包括32，203张图像和393，703张基于从互联网收集的61个事件的注释面孔。一些事件的图像，例如，游行，包含大量的面孔。根据任务、位置和计算的难度，将该功能分为三个部分：“E asy”、“M ediumm”和“Hard”。评估指标。针对人脸检测的对抗性攻击的评价指标定义如下：（1）攻击成功率：攻击成功率是攻击成功的人脸数量与攻击前检测到的人脸数量之比;（2）检测率：检测率是检测到的面部的数量与图像中的面部的数量之间的比率。·12S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔5.2综合数据如在第3节中所讨论的，由于IPI问题，IMP在以下情况下不能很好地执行：（1）每个图像的面部数量很大;以及（2）面彼此接近。在这里，我们将IMP与LP和LIP进行对比。我们从WIDER FACE数据集中随机选择了50张脸[38]。首先将这些面孔调整为30× 30像素的标准大小然后复制每个面并以矩形网格方式（例如， 3 × 3 = 9）。在实验期间控制重复的数量和重复之间的距离。总共有50张图像，然后对50张图像的攻击成功率进行平均合成图像的一些示例二、面数的影响。我们逐渐增加了从1× 1到9× 9的每个合成图像的重复= 81个重复。我们将副本之间的距离固定为40像素。定量结果如图所示。3.从该图中，我们可以看到，对于扰动生成方法I-FGSM，随着面的数量增加，IMP攻击成功率从100%显著下降到20%相反，LP和LIP-H都可以实现比IMP显著更高的攻击成功率。这是因为LP和LIP-H两者都仅通过在应用之前对其进行裁剪来使用对应实例ERF内所生成的扰动。注意，当面部的数量大于36时，LP攻击成功率从85%（N= 36）下降到51%（N= 81），而LIP-H仍然可以实现大于90%的成功率。由于LP同时处理所有实例，当面的数量增加时，每个实例ERF内的干扰扰动的累积将变得更加显著。类似地，对于生成方法DeepFool，LIP已经证明了其在存在多个面时解决IPI问题的有效性。这也说明了IPI问题的存在。面之间距离的影响。在该实验中，面复制的数量固定为9。我们修改了人脸副本之间的距离为40，160和240像素。从图中可以看出3b，IMP的攻击成功率随着面之间的距离的增加而增加LP和LIP-H的性能均不受影响。DeepFool上实现了类似的性能更多细节见补充材料。图三. I-FGSM的攻击成功率：（a）面孔的数目。距离固定为40像素;以及（b）面之间的距离。使用九个面部重复。(c)DeepFool的攻击成功率在单级人脸检测网络135.3人脸检测数据集的评价我们基于两种现有方法：I-FSGM[11]和Deep-Fool [23]，将LIP-A和LIP-H与IMP和LP进行了实验在FDDB [8]和WIDER FACE验证集[38]中随机选择的1，000张图像上基于I-FGSM的结果分别报告在表 3 和 2 中。在 FDDB 数据集（表3中）上，人脸检测器HR [6]达到95。7%的检出率。LP、LIP-A和LIP-H可以表示原始扰动图像扰动见图4。对人脸检测网络的对抗性攻击的示例LIP-H成功地攻击了所有人脸，而使用利用攻击成功率将检测率降低到5%左右为94. 9%，94. 6%，93。8%。另一方面，IMP只能达到53。9%的攻击成功率（即，显著低于LP、LIP-A、LIP-H性能）。这表明了扰动裁剪对于消除干扰扰动的重要性。由于IPI问题，来自其他实例的干扰扰动将影响目标实例的对抗性攻击。这导致IMP的低攻击成功率。这是因为为了生成扰动，IMP简单地对包括干扰扰动的所有扰动求和。我们注意到LP、LIP-A和LIP-H的性能在FDDB数据集中是相当的。这可能是由于该数据集的每张图像的面部数量较少。然而，当每个图像的面的数量显著增加时， LIP 显示出其优势。实施例可见于图1。4.这可以在WIDER表3. FDDB上的攻击成功率和检测率（%）[8]扰动没有一I-FGSMImpLPLIP-A LIP-H检出率95.744.14.85.15.9攻击成功率–53.994.994.693.8FACE数据集（表2中），其中LIP-A和LIP-H超过LP 4%-年龄点。 LIP-H攻击成功率可达到（69. 8%，63. 7%，61。4%）表2. WIDER FACE上的攻击成功率和检测率（%）[38]扰动没有一I-FGSMDeepFoolImpLPLIP-A LIP-HImp LIP-A检出率容易92.446.230.128.226.550.643.2介质90.750.734.732.231.154.440.0硬77.345.929.323.626.646.525.8攻击成功率容易–50.067.469.571.345.353.2介质–44.161.764.565.740.056.4硬–40.662.169.565.639.666.6LIP-HImp14S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔在（易，中，难）集，而LP只能获得攻击成功率（65。7%，59. 5%，57. 4%）。当LP一起处理所有实例时，干扰扰动在裁剪步骤之前在ERF内累积。注意，干扰扰动可能具有低幅度，然而，当它们由于相邻实例的数量而累积时，则中断可能是显著的。这些结果还表明，我们不需要像LIP-H的性能那样攻击所有的区域建议与LIP-A相当。类似地，对于基于DeepFool的方法，LIP已经证明了其在解决IPI问题上的有效性。5.4目标检测数据集为了探索对象检测网络中IPI问题的存在，我们对Tensorflow对象检测API [7]提供的预训练Faster-RCNN [28]（基于ResNet 101 [5]）进行攻击。更具体地，我们攻击第一阶段（即，Faster-RCNN的RPN）表4.对COCO2017数据集的评价[14]扰动Imp LP平均召回7.9 2.2平均精度6.9 1.9目标是减少生成的提案。我们从COCO2017数据集[14]中选择了300张图像，其中每张图像的平均对象数量为15。将来自预训练Faster-RCNN的原始预测检测作为基础事实。表4中的结果表明IPI问题存在，并且我们提出的LP方法可以攻击超过60%的不能被IMP攻击的实例。请注意，由于RPN为每个实例生成数百个建议，因此由于计算量大，未使用所提出的LIP方法。6结论在本文中，我们提出了一种对抗性扰动方法来欺骗最近的国家的最先进的人脸检测器利用单级网络。我们描述并解决了实例扰动干扰（IPI）问题，这是现有对抗性扰动生成方法同时攻击多个面失败的根本原因我们发现，仅使用实例/面有效接收场（ERF）内生成的扰动就足以执行有效攻击。此外，重要的是排除ERF之外的扰动，以避免破坏其他实例扰动。因此，我们提出了本地化的实例扰动（LIP）的方法，只限制在ERF的扰动实验结果表明，该算法能够同时对多个人脸产生扰动，欺骗人脸检测网络，且性能优于现有的对抗性生成方法。在未来，我们计划开发一个通用的扰动生成方法，可以攻击许多面与一般的扰动。致谢这项工作得到了Sullivan Nicolaides Pathology，Australia和Australian Research Council（ARC）Linkage Projects Grant LP160101797的资助。 ArnoldWiliem是由高级昆士兰早期职业研究奖学金资助的。在单级人脸检测网络15引用1. Chen，D.，中国农业科学院，Hua，G.，温，F.，孙杰：用于高效人脸检测的监督Transformer网络欧洲计算机视觉会议（ECCV）Springer（2016）2. Cisse，M.，Adi，Y.，Neverova，N. Keshet，J.：胡迪尼：愚弄深度结构化预测模型。在：神经信息处理系统（NIPS）的进展3. Fischer，V.Kumar，M.C.，梅岑J.H.Brox，T.：语义图像分割的对抗性示例在：国际会议学习代表（ICLR）研讨会（2017）4. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。国际学习表征会议（ InternationalConferenceonLearningRepresentations，ICLR）（2015）5. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。计算机视觉与模式识别（CVPR）IEEE（2016）6. Hu，P.，Ramanan，D.：寻找小脸计算机视觉和模式识别（CVPR）。IEEE（2017）7. 黄，J.，Rathod，V.，孙角，澳-地Zhu，M.，Korattikara，A.，Fathi，A.，费希尔岛Wojna，Z.，Song，Y.，Guadarrama，S.，等：现代卷积对象检测器的速度/精度权衡。计算机视觉与模式识别（CVPR）IEEE（2017）8. Jain，V. Learned-Miller，E.G.：Fddb：非约束环境下人脸检测的基准。UMass Amherst技术报告（2010）9. 江，H.，Learned-Miller，E.：用更快的r-cnn进行人脸检测。在：IEEE国际会议自动人脸手势识别（FG）。IEEE（2017）10. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。神经信息处理系统（NIPS）进展（2012）11. Kurakin，A.，古德费洛岛Bengio，S.：物理世界中的对抗性例子在：国际会议学习代表（ICLR）研讨会（2017）12. Li，H.，林芝，沈，X.，Brandt，J.，Hua，G.：用于人脸检测的卷积神经网络级联。计算机视觉与模式识别（CVPR）IEEE（2015）13. 李，Y.，孙湾，英-地吴，T.，王毅：利用convnet和3d模型的端到端集成进行人脸检测欧洲计算机视觉会议（ECCV）Springer（2016）14. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象在：欧洲会议上ComputerVision（ECCV）. pp. 740-755 Springger（2014）15. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。欧洲计算机视觉会议（ECCV）Springer（2016）16. Liu，Y.，陈旭，刘，C.，宋，D.：深入研究可转移的对抗性示例和黑盒攻击。国际学习表征会议（ International Conference on LearningRepresentations，ICLR）（2017）17. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。计算机视觉与模式识别（CVPR）IEEE（2015）18. 罗，W.，李，Y.，Urtasun河Zemel，R.：理解有效的接受深度卷积神经网络中的一个领域。在：神经信息处理系统（NIPS）的进展（2016）16S. Yang，杨树A. Wiliem，S. Chen和B. C.洛弗尔19. 梅岑J.H.Kumar，M.C.，Brox，T.，Fischer，V.：对语义图像分割的普遍对抗性扰动计算机视觉国际会议（ International Conference onIEEE（2017）20. Mirjalil

下载后可阅读完整内容，剩余1页未读，立即下载