使用语言模型检测对抗性攻击的方法

198 浏览量更新于2023-10-13 收藏 775KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7858利用多目标关系检测复杂场景Mingjun Yin，Shasha Li，Zikui Cai，Chengyu Song，M. 放大图片作者：Salman Asif，Amit K.Roy-Chowdhury，andSrikanth V.美国加州大学河滨分校{myin013，sli057，zcai032} @ ucr.edu，csong@cs.ucr.edu，{sasif，amitrc} @ ece.ucr.edu，krish@cs.ucr.edu摘要已知部署深度神经网络（DNN）的视觉系统易受对抗性示例的攻击。最近的研究已经表明，检查输入数据中的内部攻击是检测对抗性攻击（例如，通过检查复杂场景中的对象共现关系）。然而，现有的方法是绑定到特定的模型，不- fer的泛化能力。出于观察自然场景图像的语言描述已经捕获了可以通过语言模型学习的对象共现关系，我们开发了一种新的方法来使用这种语言模型执行上下文一致性检查。我们的方法的区别方面是，它是独立的部署的对象检测器，但-fers非常高的准确性，在实际场景中检测对抗性的例子与多个对象。在PASCAL VOC和MS COCO数据集上的实验表明，我们的方法在检测对抗性攻击方面优于最先进的方法1. 介绍深度神经网络（DNN）被广泛用于诸如对象检测和分类之类的视觉任务中，因为它们能够在这些任务中实现最先进的（SOTA）性能。还已知基于DNN的视觉系统易受对抗性示例的影响[13，38，14，20，4，1，31];具体地，可以添加（准）不可感知的扰动，其可以导致基于DNN的视觉系统输出不正确的结果，同时对结果进行高置信度预测。例如，对抗性示例可以将STOP标志误分类为限速标志[10]，将校车误分类为鸵鸟[38]。最近提出的一种有希望的防御策略是捕获输入数据中的内在依赖关系，并且以检查这种依赖关系的违反，从而检测对抗性示例。例如，在具有多个对象的场景图像中，对象之间的内在关系（通常称为场景的上下文类似地，视频帧之间的依赖性可以用于检测视频分类中的对抗帧[18，41]。为了说明，让我们考虑STOP符号攻击作为一个例子。停止标志是道路交叉口场景的一部分，其中它通常与停止线和/或街道名称标志共存;相比之下，速度限制标志很少（如果有的话）在交叉口处看到，因此不与后面的对象共存。虽然上下文已被广泛用于对象识别问题和场景理解，但使用上下文检测对抗性攻击的工作很少。在我们之前的工作[21]中，我们提出将上下文建模为全连接图，其中每个节点都是来自区域建议网络（RPN）的对象建议然后，我们训练一组自动编码器（每个编码器对应于一个对象类别）来检查关于上下文特征的分布的一致性。虽然这种方法表现良好，但它与FasterR-CNN [36]深度耦合，并且不能应用于像YOLO [35]这样的单级检测器;此外，当Faster R-CNN模型发生任何变化时，它需要当切换到另一个CNN模型时）。总之，虽然现有方法已经尝试利用上下文来检测对抗性攻击，但是它们以将上下文与使用中的模型复杂地联系在一起的方式这样做，这限制了它们的适用性。在本文中，我们提出了一种新的模型无关的基于对象共现的攻击检测器。我们的观察是自然场景图像的语言描述（即，对象检测网络的输出）可以容易地捕获对象检测网络的输出之间的依赖性7859基于上下文的搜索：Q1：巴士（和）[面具]Q2：[面膜]（和）牙刷语言模型一致性？答案：A1：总线（和）信号A2：杯（和）牙刷检测结果：公共汽车（和）牙刷一致性？答案：A1：总线（和）信号A2：总线（和）信号检测结果：总线（和）信号基于上下文的搜索：Q1：总线（和）[掩码]Q2：[mask]（和）信号语言模型良性是的没有对抗性图1：基于语言模型的上下文一致性检查工作原理的高级概念。首先，我们使用语言模型来学习对象共现上下文（例如，示例中的总线和信号）。在测试时，我们屏蔽场景描述中检测到的对象，并要求语言模型基于上下文来预测对象（即，其他对象）。通过测量检测结果和预测结果之间的一致性，我们评估输入的场景图像是否具有对抗性。对象。我们利用自然语言模型的最新进展来学习基于同现的对象之间的依赖关系，并将对抗性攻击检测为违反学习的上下文模型。图1描述了我们的方法的高级思想。给定未知场景图像，我们首先将对象检测网络的输出编码成描述对象共现关系的句子（例如，“总线和信号”）。然后，我们使用经过训练的语言模型纯粹基于上下文来预测每个检测到的对象实例。最后，通过比较语言模型预测和检测结果，对场景图像的上下文如果结果是不同的，我们得出结论，输入图像是敌对的。我们工作的主要贡献如下。• 据我们所知，我们是第一个提出一个模型不可知的，基于上下文一致性的方法来检测对抗对象检测器的扰动。• 我们设计并实现了一个基于语言的模型来学习复杂场景中的对象共现关系，作为我们新的上下文模型来检测恶意攻击。• 我们在两个大规模数据集 - PASCAL VOC [9] 和Microsoft COCO [24]上进行了三种不同类型的对抗性攻击（错误分类，隐藏和出现）的广泛实验。我们的方法在所有测试用例中都具有很高的检测性能;在大多数情况下，ROC- AUC超过0.72，比不使用上下文的最先进的攻击检测方法高12-69%[44]，并且与模型相关的先前基于上下文不一致的对抗性攻击检测方法[21]相当（仅差5%）（与Faster R-CNN架构紧密耦合，因此无法应用于其他架构，如YOLO）。2. 相关工作在本节中，我们将回顾密切相关的工作。对象检测寻求对图像或视频中的对象实例进行定位和分类。这是一个领域，已被广泛研究[36，26，35，23]。更快的R-CNN [36]和YOLO [35]是我们在这项工作中考虑的两种最先进的基于DNN的对象检测器。F-RCNN使用两阶段方法，其中第一阶段提出边界框，第二阶段执行分类。YOLO采用单通道设计，旨在降低计算复杂度并提高检测速度。上下文感知对象检测旨在利用上下文信息来提高对象检测的性能[34，39，8，2]。早期的方法将上下文（对象共现）信息作为后处理步骤并入以对由基于DNN的对象检测器检测到的对象重新评分[12，6，33]。最近的工作还提出了使用循环单元[28]或神经注意力模型[17]将上下文作为DNN的一部分我们的方法采用后处理风格，用于（a）易于训练，以及（b）与多个不同的对象检测器集成。场景理解和字幕生成研究为场景图像生成自然语言描述的问题[43，29，37，15，47，45]。除了识别场景中的对象之外，描述生成器还需要检测对象之间的关系或交互（例如，“骑马的人”）。尽管由这些系统生成的描述（例如，场景图[19]）包含更丰富的上下文信息并且更具辨别力，因为预测正确的关系是比对象识别困难得多的问题，现有的方法不够鲁棒（即，它们在良性图像上的性能还不是很准确）。出于这个原因，我们选择了纯粹基于对象共现的更简单的上下文图，其中对象之间只有一种关系-它们对抗性良性7860∈我↛←·--共现。这种上下文也可以用更简单的语言来描述，这也更容易建模。针对DNN的对抗性攻击是轻微扰动的输入，可能导致DNN行为不端[13]。在视觉域中，扰动通常是（准）不可感知的噪声，但也可以是可以物理应用于目标对象的小块[10]。在白盒设置中，可以使用梯度引导优化生成对抗性攻击[38，14，20，4，1，31]。因为我们的方法采用预测结果（即，标签）作为输入，不同的攻击方法（即，标签如何被错误分类）将不会影响攻击检测结果;因此，我们在评估中只使用一种攻击方法。对抗性攻击对象检测器已收到较少的关注比那些对图像分类器。大多数相关工作集中在物理上可实现的攻击[10，5，46]，特别是在自动驾驶车辆领域[3]。与攻击图像分类器的关键区别在于，存在两种附加类型的针对对象检测器可行的攻击：隐藏和出现攻击[5，10]。由于我们的攻击检测方法将对象检测器的输出作为输入，因此对攻击是物理的还是数字的不敏感。因此，我们只评估针对数字攻击的方法。对抗性攻击检测器旨在区分对抗性图像和良性图像。基于统计的检测方法依赖于干净图像和扰动图像之间的特征空间中的不同分布[16，11，25]来检测对抗性攻击。另一种方法是变换输入，并将DNN在原始输入上的输出与变换后的输入上的输出进行比较;大的不一致性通常指示输入是对抗性的[44，22]。例如，特征挤压[44]是一种旨在从输入空间中移除无用特征的最先进方法通过减小像素的位深度和平滑周围像素）。我们在实验中与这种方法进行了比较使用上下文检测对抗性攻击是最近工作探索的一种Xiao et等人[42]提出了一种基于空间一致性的分割任务中的检测方法（即，像素的预测结果如何不同于周围像素）。Xiao等人。[41]还提出使用时间一致性来检测视频剪辑中的对抗帧。Ma等人，发现音频和视频之间的相关性可用于检测对抗性攻击[30]。与我们的方法最接近的工作是我们早期的工作[21]，其中我们提出使用对象的上下文配置文件，其捕获区域提议之间的四种由于我们以前的工作所使用的上下文配置文件是从对象检测网络的内部层中提取的，因此它是紧密相关的。与物体检测器耦合。在这项工作中提出的方法是模型不可知的，因此，不需要昂贵的再培训，以支持新的对象检测器。3. 方法在本节中，我们首先形式化问题定义。随后，我们提供了我们的方法的概述，并详细描述了每个步骤。问题定义。设I是场景图像，C是已知类别标签的集合。目标检测网络D（I）= O，以I作为输入并输出一组检测到的目标O=（bbi，ci），. . . ，（bbn，cn），其中n是检测到的对象实例的数量，bbi是第i个实例的边界框坐标，并且c iC是第i个实例的类别标签。在一个集合上的共生上下文图G=（V，E）场景图像是一个全连通图，其中顶点x是一个对象（bbi，ci），两个对象（bbi，ci）之间的边（bb，j，c， j）编码同现的重要性（即，（bbi，ci）的存在可以预测（bbj，cj）的存在的可能性有多大。攻击者的目标是向场景图像I′I + I ′I注入一个小扰动，因此检测网络的输出被操纵为D（I′）= O′（O′= O）。我们的目标是在上下文图G的帮助下确定场景图像I是否是对抗性的。威胁模型。类似于以前的工作[21]，我们假设一个强白盒攻击模型，其中攻击者完全了解对象检测网络D（）。从攻击检测的角度来看，这提供了对最强可能攻击的防御。以前的工作[10，5，46]已经定义了三种基于O′与O的不同的攻击。• 误分类攻击，其中实例的标签被误分类，即，c′i=ci;• 隐藏攻击，其中受害者对象检测器没有检测到实例，即，（bbi，ci）∈/O′;• 出现攻击，其中不存在的实例被受害者对象检测器检测到，即，（bb′i，c′i）∈/O.概况. 我们的方法使用上下文一致性检查来检测对抗性攻击，其中上下文由场景内的对象及其相对位置的共同出现来定义。实现这一方法的两个主要挑战是：（1）如何学习上下文图G（即，边权重），以及（2）给定测试时间同现关系O，如何检查它是否与G一致。在这项工作中，我们探讨了使用自然语言模型来解决这些挑战的可行性。特别是，我们首先定义了一个新的语言SCENE-Lang捕获的类别和粗粒度的位置的对象实例在场景图像。然后我们可以描述一个7861×·×联系我们联系我们||| |×××∈∈图像检测结果场景--朗句图2：给定图像首先由对象检测器（例如，F-RCNN），得到检测结果。如表中所示，检测结果中对象的边界框的位置对于每个对象，我们计算其边界框的中心。然后，我们将中心映射到HW网格以获得粗粒度位置。最后，我们将处理后的检测结果转换成一个场景朗句子。请注意，最右侧框中的每一行都是SCENE-Lang单词。使用SCENE-Lang中的句子的对象检测网络。句子）形成用于训练语言模型的基础，该语言模型基本上对上下文图G进行建模。在这项工作中，我们使用基于BERT [7，27]的模型，我们称之为SCENE-BERT，来学习单词之间的内在依赖关系（即，共同出现的对象）。与2-D共生矩阵、图神经网络和基于消息传递的RNN等替代方法相比，我们认为BERT模型的注意力机制允许捕获对象之间的依赖关系，并显著减少计算。我们还相信BERT将在自然发生的、更复杂的场景（即，具有更多对象的图像），因为它们可以适当地激活来自变形金刚的注意力头。在测试期间，我们基于训练的SCENE-BERT模型为场景图像I生成上下文一致性分数。场景图像中的上下文一致性的违反将导致低一致性分数。这允许我们通过对来自场景图像的组成的SCENE-Lang句子的一致性得分进行阈值化来检测对抗性攻击总体工作流程如图1所示。我们在这里（再次）指出，由于SCENE-BERT从对象检测网络D（）的输出中学习上下文，因此它可以与大多数检测网络（如 F-RCNN 和YOLO）一起工作。更重要的是，因为SCENE-BERT可以独立训练（例如，使用地面真值标签），将其应用于新的检测网络既不需要检测网络的再训练，也不需要SCENE-BERT本身。3.1. 基于语言模型的我们定义了一种新的语言称为场景语言（SCENE-Lang）来描述自然场景图像中的对象共现信息。每幅自然景物图像都可以用一个场景语言句子来描述，句子中的每个词都是关联的一个对象实例。场景--朗语。我们描述了一个对象的类别和它的粗粒度的位置与一个场景朗字。为了描述对象的位置，我们将每个图像均匀地划分为H W网格，并使用数字标记每个网格单元，因此我们可以使用小的有限词汇来描述场景。使用粗粒度位置还可以帮助容忍可能移动对象边界框的对抗性攻击对象边界框的中心确定对象所在的单元格。我们将集合位置标签表示为L=1，. . .、H W.因此，每个场景语言词w=（l，c）是一对位置标签（l，L）和类别标签（c，C）。我们将SCENE-Lang的有限词汇表记为W=CL，其大小W=CHW.注意，尽管我们可以使用数字来编码对象标签ci，但是因为SCENE-Lang是伪语言，所以我们选择使用自然语言标签ci;这使得在检测到上下文一致性违反时能够易于解释。场景--朗句。我们用单个SCENE-Lang句子描述场景图像I中的对象共现关系，其中每个词与图像中的对象实例相关联。该句子由si=[w1，. . . ，w ，n]，其中，语句n的长度等于图像I中的对象实例的数量。为了便于说明，我们随后使用s而不是sI句子中单词的顺序根据它们的位置标签（数字升序）进行排序。图2示出了关于如何用SCENE-lang语句描述场景图像的示例。场景-伯特。我们使用自然语言模型SCENE-BERT来学习自然场景图像中的共现上下文图G。SCENE-BERT的每个输入是标记的序列，表示为T =[tl，. . . ，tn]。该模型还将n维掩码向量M0，1n作为输入，其中第i维中的0指示掩蔽第i个令牌ti，并且1指示对应的令牌tiSCENE-Lang解析器对象检测器<5、大象><7、汽车><8、汽车><8、卡车>012345678对象位置（x1，y1，x2，y2）中心（x，y）位置大象(0.68、0.46、0.82、0.78）(0.75，0.62）5车(0.86、0.70、0.93、0.83）(0.89，0.77）7车(0.47，0.67，0.59，0.77）(0.53，0.72）87862·←∈通常，我们为场景语言W的有限词汇表中的每个唯一词w分配唯一的数字，其在其对应的标记处（即， t ∈{1，. . . 、|W|}）中。所以分词器简单地将句子s中的每个单词wi映射到它的对应的号码。图3：在训练或测试期间，我们选择性地屏蔽一个或一些令牌，并要求SCENE-BERT预测被屏蔽的部分。我们在训练时根据预测结果在测试时，我们将预测结果作为适合当前上下文的类别没有被掩盖。标记的数量n由输入的SCENE-Lang句子中的单词的数量SCENE-BERT的输出是令牌的重构序列，其中T中的屏蔽令牌被替换为与上下文匹配的预测令牌的列表（即，具有最低交叉熵损失）。我们使用f（T，M，ti）来表示预测令牌列表中ti的置信度得分。如果t i不在列表中，则f（T，M，t i）= 0。该分数将用于计算整个场景的一致性分数SCENE-BERT 架构。 SCENE-BERT 基于多层双向Transformer模型BERT [7]。图3显示了模型的简化架构。由于转换器已被广泛用于与语言相关的任务中，并且我们正在重用BERT的现有实现，因此为了节省空间，我们省略了模型体系结构的详细描述，并请读者参考[40]。除了作为最先进的语言模型之外，我们选择BERT来实现我们的语言模型还有两个主要原因。首先，双向自注意机制的使用允许BERT从两个方向（即，当前单词的预测这与我们的上下文模型非常匹配，因为上下文图G不是有序的（关系是双向的）。其次，BERT的训练方式也非常适合我们的特别地，BERT是用掩蔽语言建模（MLM）任务训练的，其中一些输入标记被随机掩蔽，并且模型被要求预测它们。此任务与我们检测敌对攻击的方法非常相似（图1）：检查对象检测结果是否与纯粹基于上下文预测的结果一致。代币化。因为SCENE-Lang是伪语言，所以对句子s进行标记是直接的。具体-训练我们使用与RoBERTa [27]相同的未监督掩码语言建模任务来具体地，它随机地从输入序列中屏蔽（一个或多个）标记，并且模型的目标是仅基于句子中的剩余标记来预测（一个上下文）。换句话说，SCENE-BERT学习同现对象之间的依赖关系，或者对象同现图G中的边权重。我们想再次强调SCENE-BERT的独特优势，因为它可以用SCENE-Lang中的任何句子集进行训练。这意味着它可以使用对象检测数据集的地面真值标签进行训练（正如我们在实验中所做的那样）;这将适用于使用相同数据集训练的任何对象检测网络。或者，也可以通过在干净的数据集上运行对象检测器来以完全无监督的方式训练它以生成训练句子。3.2. 检查上下文一致性在本小节中，我们将说明如何使用经过训练的SCENE-BERT模型来执行上下文一致性检查。在高水平上，我们使用差分分析来检测不一致性，即，通过将检测结果（在SCENE-Lang中）与从我们的上下文模型SCENE-BERT预测的场景描述进行比较。差异越小由于大多数对抗性攻击会破坏上下文一致性，通过对一致性得分进行阈值化，我们可以检测输入图像是否具有对抗性。接下来，我们介绍如何计算一致性得分。设I是干净的场景图像，并且D（）是受害对象检测器。我们可以使用SCENE-Lang语句s =[w1，. . . ，wn]，其将被令牌化为T= [tl，. . .，t n]。设I′I+ ∆I是扰动的对抗图像，T′是I ′上的标记化SCENE-Lang描述。回想一下，有三个可能的攻击目标，它们将以三种不同的方式影响x• 误分类攻击，其中与实例相关联的令牌被扰动，即，t′i=ti;• 在令牌序列中丢失令牌的情况下的隐藏攻击，即，ti∈/T′;• 出现不需要的令牌的攻击，即，t′i∈/T.使用经训练的SCENE-BERT模型，我们可以屏蔽令牌t′iT′，并要求模型基于剩余令牌预测t′i是什么（即，测试时间为<5、大象><7、汽候选人：<8、汽车><8、大象><8、卡车>...<8、卡罗伯塔<5、大象><7、汽[面具]<8、卡E4E2E1O4O3O2O1R分类层E37863输出：· ··≤算法一：计算场景语言句子的一致性得分。输入：令牌化的场景-语言句子T =[t1，. . . ，t，n]，训练的SCENE-BERT函数f（，，）一致性得分c表1：PASCAL VOC和MS COCO数据集上三个不同目标的攻击成功率。模型分类错误隐藏出现PASCAL VOC结果：1c= 1。02M=1n对于i=1到n，为34M[i]=05rti←f（T，M，ti）6c=min（c，rti）7M[i]=1端89 返回C文本）。理论上，如果预测结果与t′i不同，则推断t′i是可能的攻击目标。然而，这具有两个相关的问题。首先，可以存在上下文一致的多个对象（即，SCENE-BERT可以返回一个可能的令牌列表，而不是一个单独的令牌），因此，我们应该如何计算t′i和预测令牌之间的差异？其次，T’包含多个令牌，因此，我们如何知道要屏蔽哪个令牌，特别是在隐藏攻击的情况下（受害者令牌丢失）？我们通过使用预测列表中t′i的置信度得分作为该特定对象的一致性得分来解决第一个问题。如果t′i不在SCENE-BERT的预测列表中，则其一致性得分将为0。我们通过迭代所有令牌（即，检测到的对象），并使用所有对象的最低一致性得分作为整个图像的一致性得分。在算法1中捕获细节。请注意，我们计算一致性得分的方法能够处理隐藏攻击，因为丢失的令牌通常会影响其他非目标令牌的预测结果。4. 实验分析在本节中，我们通过在两个大规模对象检测数据集上的综合实验来评估我们的方法的性能：PASCALVOC [9]和MS COCO [24]。我们使用了两个最流行的对象检测网络：更快的R-CNN [36]和YOLO [35]。我们还将我们的方法与两种最先进的对抗性攻击检测方法进行了比较：上下文不可知的一种特征挤压[44]和另一种上下文感知检测方法SCEME[21]。评估包括三种类型的攻击：误分类，隐藏和出现。4.1. 实现细节我们使用RoBERTa [27]模型（原始BERT模型[7]的复制）来实现SCENE-BERT。它配置有六个隐藏层和十二个自我注意头。MS COCO结果：F-RCNN 92.78% 82.34% 94.49%YOLO 79.82% 93.77% 89.74%PASCAL VOC数据集包含20个对象类别。PASCALVOC数据集中的大多数图像具有1到5个对象实例，平均1.4个类别和1.5个对象实例。每个映像2.3个实例MS COCO数据集包含80个对象类别。该数据集中的图像具有更多的对象实例，平均每个图像有3.5个类别和7.7个实例。我们使用来自两个数据集的地面真值标签来训练SCENE-BERT模型。由于我们的上下文模型被设计为考虑场景中多个对象的同现一致性，因此我们省略了包含一个单一的物体。对于PASCAL VOC 2007数据集，我们使用3×3网格（即，H= 3，W= 3）;因此，总共有|W|=C×H×W= 20×3×3 = 180 to- kens 。对于 MSCOCO，我们也使用了3×3网格，因此总计|= C × H × W = 80 × 3 × 3 = 720个代币。|= C × H× W = 80 × 3 × 3 = 720 tokens.由于SCENE-BERT可以独立于对象检测器进行训练，因此我们使用了预训练的F-RCNN和YOLO模型。对于PASCAL数据集，两个模型都使用VOC07trainval和VOC12trainval进行训练。对于MS COCO数据集，使用 coco 14 train 和 coco 14 valminusminival 训练 F-RCNN模型，使用coco 17 train训练YOLO模型。为了测试攻击检测性能，我们从两个数据集为每个攻击目标（误分类，隐藏和出现）生成10，000次攻击，除了对PASCAL VOC的隐藏攻击，它没有足够的对象用于隐藏攻击。由于我们的检测方法使用高层次的语义信息（对象共现上下文），不依赖于低层次的功能，我们只评估它对数字攻击。使用标准迭代快速梯度符号法（IFGSM）[20]生成攻击，其中L∞10作为扰动预算;并且将扰动施加到整个图像。由于SCENE-BERT将检测到的对象标签和位置作为输入，如何生成扰动不影响实验分析，因此我们仅使用IFGSM。表1显示了两个数据集上的攻击成功率4.2. 基线模型我们比较了我们的方法与两个基线模型在实验中。F-RCNN百分之九十点三三78.09%96.01%Yolo80.16%89.03%94.78%7864特征挤压（FS）[44]是一种SOTA上下文无关的方法，用于检测对抗性图像示例。该机制可以检测由快速梯度符号方法[14]，DeepFool [32]和投影梯度下降[31]生成的对抗图像示例。其核心思想是，表2：F-RCNN、YOLO对VOC、COCO的检测性能。（* 该配置在图4中绘制，补充材料中报告了其他配置。）数据集对象检测器攻击检测器AUCMiscls隐藏出现场景-BERT 0.88 0.74 0.88对抗性攻击需要限制可以应用多少扰动（例如，通过将改变限制为L2或L∞范数）以实现（准）不可感知性。因此，通过挤压输入特征（即，减少颜色位F-RCNN*SCEME 0.93 0.95 0.87通过确定每个像素的深度并平滑周围像素），FS可以去除足够的扰动并获取正确的预测结果。然后，通过比较原始输入和压缩输入的预测结果的差异，FS可以检测对抗性攻击。SCEME[21]是我们之前基于上下文一致性的对抗性攻击检测方法，其检测性能比Feature Squeeze好得多。它在区域提案级别对上下文进行建模，并使用注意力机制和门控循环单元（GRU）来学习区域提案之间的四种类型的关系：（1）对应于同一对象的区域之间的空间上下文;（2）对应于不同对象的区域之间的对象-对象上下文;（3）对应于对象的区域和对应于背景的区域之间的对象-背景上下文;以及（4）区域和整个场景之间的对象-场景上下文。为了检测对抗性攻击，SCEME使用自动编码器（每个对象类别一个）来学习与对象类别相对应的上下文配置文件的良性分布上下文简档包含边缘特征和节点特征（即，区域提案的特点）。违反上下文一致性的对抗性攻击将产生更高的重建错误率，并且通过对重建错误率进行阈值化，SCEME可以检测扰动区域。请注意，因为SCEME在区域建议级别而不是整个图像上工作，所以我们不能直接将其与SCENE-BERT进行比较。为了计算整个图像级别的检测性能，我们汇总了每个区域建议的所有重建误差，并使用最高的一个作为最终得分。4.3. 检测性能评估指标。给定场景图像和对象检测器，我们的目标是确定场景图像是否是对抗性的（即，对象检测器被图像欺骗并作出错误的预测）。我们首先作曲使用由对象检测器输出的场景图像的检测结果的场景语言语句。然后，我们使用SCENE-BERT模型来计算组成的SCENE-Lang句子的一致性得分。我们预计，正面/负面图像具有较高的一致性分数，而负面/正面图像具有较低的一致性分数。通过对一致性得分进行阈值化，我们能够绘制出非一致性的受试者工作特征（ROC）曲线YOLOSCENE-BERT 0.86 0.55 0.88特征挤压0.66 0.60 0.67保护我们报告ROC曲线的曲线下面积（AUC）以评估检测性能。检测性能。表 2 显示了 PASCAL VOC 数据集和 MSCOCO数据集的检测性能。图4可视化了在不同攻击设置下具有F-RCNN的PAS-CAL VOC数据集上的AUC曲线，以便与SCEME和FS进行更好的比较。总体而言，SCEME和SCENE-BERT（两者都是上下文感知检测方法）显著优于特征挤压（Feature Squeeze）（其是上下文不可知的方法）。唯一的例外是隐藏对MS COCO数据集的攻击。原因是来自MS COCO数据集的图像具有更多对象，因此隐藏单个对象通常不会显著降低上下文一致性。我们相信，结果再次验证了基于上下文一致性的检测方法的有效性。比较SCEME和SCENE-BERT，我们观察到SCEME仍然优于SCENE-BERT。我们将此归因于SCEME使用的更丰富的特征（例如，对象-背景和对象-场景上下文）。然而，SCENE-BERT也有其优于SCEME的优点首先，SCENE-BERT是模型不可知的，因此我们也可以将其与YOLO配对，而无需对YOLO进行任何修改或重新训练;另一方面，SCEME与Faster R-CNN架构紧密耦合。其次，SCENE-BERT也更快，因为它只迭代检测到的对象实例，而SCEME需要迭代数百个区域建议。位置的有效性。为了理解在我们的方法中的粗粒度的位置功能的重要性，我们还执行了攻击检测任务与宽松的一致性检查，其中我们只检查类别和忽略的位置时，计算的一致性得分。我们将这种方法命名为SCENE-BERT Relax和完整版本SCENE-BERT Strict。结果示于图5中。正如我们所看到的，当我们在计算一致性得分时还检查粗粒度位置时，所有三种类型的攻击的AUC 都更高。我们相信这表明（ 1 ） SCENE-BERT能够捕获对象之间的位置VOC特征压缩0.53 0.52 0.52YOLOSCENE-BERT0.890.740.90特征压缩0.770.750.79F-RCNN场景-BERT0.840.550.85COCO特征挤压0.60 0.74 0.6078651.0F-RCNN VOC混合物1.0用于F-RCNN VOC隐藏的1.0出现F-RCNN VOC的ROC-AUC0.80.80.80.60.60.60.40.40.40.20.20.20.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.8 1.0图4：PASCAL VOC数据集的检测性能。1.0F-RCNN VOC混合物1.0用于F-RCNN VOC隐藏的1.0出现F-RCNN VOC的ROC-AUC0.80.80.80.60.60.60.40.40.40.20.20.20.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.8 1.04.4.案例研究图5：SCENE-BERT严格与在PASCAL VOC上放松虽然 SCENE-BERT 在数据集上的表现略差于SCEME，但我们也观察到SCENE-BERT可以检测到SCEME无法检测到的攻击图6示出了两种情况。在第一种情况下，左边的鸟（豌豆-公鸡）被扰动成一只船;在第二种情况下，左边的马被扰动成餐桌。这两种情况明显违反了基于对象共现的上下文一致性，因此被SCENE-BERT检测到我们认为SCEME没有检测到这些攻击的原因是因为它也考虑了对象的视觉特征，并且自动编码器可能更多地关注视觉特征而不是上下文。在分析评估结果的同时，我们还注意到，如果攻击是上下文一致的（例如，将公共汽车误分类为汽车），则SCENE-BERT不能检测这种攻击。我们要论证的是，上下文一致性是检查攻击的一种方式，并且不需要取代，但可以补充，可以检查单个对象或对象的移除/添加的其他方法此外，这种上下文一致的攻击可能破坏性较小。例如，将公共汽车错误分类为小汽车不太可能导致自动驾驶车辆与公共汽车碰撞，但是将道路中间的限速标志改变为停止标志可能导致灾难性的结果。5. 结论动机是观察到自然场景图像的语言描述已经捕获了对象图6：SCENE-BERT能够检测到攻击但SCEME不能的示例。共现关系，我们建议使用语言模型来学习对象之间的依赖关系，并使用训练的模型来执行上下文一致性检查以检测对抗性攻击。与以前的基于上下文一致性的检测方法相比，我们的方法可以与大多数对象检测器配对，并且不需要对对象检测器进行修改或重新训练。我们的实验表明，我们的方法是非常有效的检测两个大规模数据集上的各种攻击：它显着优于一个国家的最先进的上下文无关的方法，是以前的上下文感知的方法，是依赖于模型。致谢。本材料基于美国国防高级研究计划局（DARPA）根据协议编号HR00112090096。AP-经证明可公开释放;分布是无限的。SCENE-BERT AUC = 0.74SCEME AUC = 0.95特征压缩AUC = 0.52SCENE-BERT AUC = 0.88SCEME AUC = 0.93特征压缩AUC = 0.53SCENE-BERT AUC = 0.88SCEME AUC = 0.87特征压缩AUC = 0.52SCENE-BERT（严格）AUC = 0.88SCENE-BERT（松弛）AUC = 0.83SCENE-BERT（严格）AUC = 0.74SCENE-BERT（松弛）AUC = 0.63SCENE-BERT（严格）AUC = 0.88SCENE-BERT（松弛）AUC = 0.84鸟：0.96人数：0.93人数：0.89餐桌：0.67马：1.00船：0.837866引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在国际机器学习会议（ICML）的会议中，第274-283页PMLR，2018。第1、3条[2] 以笏巴尼亚和阿哈德本沙哈。探索用于对象检测的上下文的效用的界限。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第7412-7420页。IEEE，2019。2[3] Yulong Cao ， Chaowei Xiao ， Benjamin Cyr ， YimengZhou ，Won Park ，Sara Rampazzi ， Qi Alfred Chen ，Kevin Fu，and Z Morley Mao.对抗传感器攻击自动驾驶中基于激光雷达的在ACM SIGSAC计算机和通信安全会议（CCS）的会议记录中，第2267-2281页。ACM，2019年。3[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。在IEEE安全和隐私研讨会（SP）的会议录中，第39- 57页。IEEE，2017年。第1、3条[5] Shang-Tse Chen ， Cory Cornelius ， Jason Martin ， andDuen Horng Polo Chau.变形者：更快的r-cnn对象检测器的强大物理对抗攻击。在数据库中的机器学习和知识发现联合欧洲会议的会议记录（ECML-PKDD，第52-68页）中。Springer，2018. 3[6] Myung Jin Choi，Antonio Torralba，and Alan S Willsky.一种用于对象识别的基于树的上下文模型。 IEEETransactionsonPatternAnalysisandMachineIntelligence，34（2）：240-252，2011. 2[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会会议论文集：人类语言技术，NAACL-HLT，第4171-4186页，2019年。四五六[8] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。在欧洲计算机视觉会议（ECCV）的会议记录中，第364-380页。Springer，2018. 2[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010.二、六[10] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Florian Tramer 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对象检测器的物理对抗示例。在USENIX进攻性技术研讨会（WOOT，2018年）的会议记录中。第1、3条[11] Reuben Feinman，Ryan R Curtin，Saurabh Shintre，andAn- drew B Gardner.从伪像中检测对抗样本。arXiv预印本arXiv：1703.00410，2017

下载后可阅读完整内容，剩余1页未读，立即下载