没有合适的资源?快使用搜索试试~ 我知道了~
720对目标探测器的黄立峰1,2高成英1周玉银3谢慈航3Alan Yuille3邹长青4,5刘宁1,2张1中山大学数据与计算机科学学院2信息安全技术广东省重点实验室3约翰·霍普金斯大学4马克斯·普朗克信息学研究所5马里兰大学帕克分校huanglf6@mail2.sysu.edu.cn,{mcsgcy,liuning2}@ mail.sysu.edu.cn,{zhouyuyiner,cihangxie306,alan.l.yuille,aaronzou1125}@ gmail.com摘要在本文中,我们研究了对象检测器在野外的物理对抗攻击。以往的工作主要是工艺实例依赖的扰动,只是刚性或平面物体。 为此,我们建议学习一种对抗模式,以有效地攻击属于同一对象类别的所有实例,称为通用物理伪装攻击(UPC)。具体而言,刚果爱国者联盟工艺品camou-(一)(b)第(1)款虚拟场景中的物理攻击现实世界中的物理攻击通过联合愚弄地区提案网络,以及正确检测错误检测误导分类器和回归器输出误差。为了使UPC对非刚性或非平面物体有效,我们引入了一组用于模仿可变形特性的变换。我们还施加优化约束,使生成的模式看起来自然的人类观察者。为了公平地评估不同物理世界攻击的有效性,我们提出了第一个标准化的虚拟数据库AttackScenes,它在可控和可复制的环境中模拟真实的3D世界。大量的实验表明,我们提出的UPC与现有 的 物 理 对 抗 攻 击 者 相 比 , 不 仅 在 虚 拟 环 境(AttackScenes)中,而且在现实世界的物理环境中都具 有 优 越 性 。 代 码 和 数 据 集 可 在mesunhlf.github.io/index_physical.html获得。1. 介绍深度神经网络(DNN)已经在许多计算机视觉任务上取得了良好的性能[37,8,10]。尽管如此,DNN已经被证明是脆弱的对抗性的例子[38]-恶意制作的输入,误导DNN做出错误的预测,这对基于DNN的系统在现实世界中的部署构成了潜在的威胁*通讯作者。图1.骗过物体探测器,更快的r-cnn,在物理-理想空间(a)虚拟场景中的物理攻击(UPC),以及(b)物理攻击(UPC)在现实世界中。列1示出了具有自然图案的检测结果。第2-4列显示了不同观察条件下的摄像模式结果对抗性攻击[26,2]一般可以分为以下几类:1)数字攻击,其通过直接在数字空间中修改输入数据来误导DNN(例如,像素值[26,11,23],文本内容[15,31]);2)物理攻击,其通过改变对象的可见特征来攻击DNN(例如,[33]在现实世界中,目前的主流作品集中在数字领域,由于缺乏考虑物理约束(例如,对不同的环境条件(如视点、光照)不变)[6]。在本文中,我们研究了物理世界中的对抗性攻击,这对现实世界的系统更具威胁[14]。与以前主要关注攻击图像分类系统的工作[3,12,1]相比,我们考虑了更现实的计算机视觉场景,即,目标检测虽然先前的工作已经揭示了对象检测器在现实世界中对对抗性扰动的脆弱性[4,36,46],但存在一些限制:(1)只专注于攻击特定对象(例如,停车标志[6,4]、商业标志[35]或汽车[46]);(2)仅对刚性或平面物体产生扰动(例如,交通标志,721车身、板[39]),这对于复杂物体(铰接的非刚性或非平面物体,例如,人类)。(3)构造缺乏语义并且对于人类观察者而言显得不自然的无意义的(即,噪声或马赛克状纹理)[4,39,46];(4)缺乏统一的评估环境,这使得难以在不同攻击之间进行公平比较。为了解决这些问题,提出了通用物理伪装攻击(UPC),它构造一个通用的伪装模式来隐藏目标,或者将目标误认为目标标签。与以往的产生实例级扰动的工作不同,UPC构造了一个通用模式来攻击所有属于同一类别的实例(例如,人、车)的识别。为了有效地处理物理世界中复杂物体的变形,我们提出在UPC中对其变形特性以及外部物理环境进行建模。具体地,通过应用各种几何变换(例如,裁剪、调整大小、仿射单应性)。我们施加额外的优化约束,以鼓励生成的模式和自然图像之间的视觉相似性,我们称之为语义约束。 如图1,这些伪装图案在视觉上类似于自然图像,因此可以被视为物体表面上的纹理图案,例如人类配饰/汽车绘画。整个流水线如图所示。二、为了公平地评估不同物理攻击的有效性,我们提供了第一个标准化的合成数据集,即,攻击场景。所有实验数据都是在严格的参数控制物理条件下生成的,以确保在虚拟设置下的评估是可靠的。我们工作的贡献有四个方面:• UPC构造了一个通用的伪装图案,有效地攻击目标检测器的基础上,生成的图案可以自然地伪装为物体表面,如人类配件/汽车画的纹理图案。• 我 们 提 出 了 第 一 个 标 准 化 的 数 据 集 , 在tackScenes,这是模拟真实的3D世界下的可控和可再现的设置,以确保所有的实验进行公平的比较,在这个领域的未来研究。• 为了使UPC对铰接的非刚性或非平面物体有效,我们引入了伪装图案的附加变换来模拟其内部变形。• 我们提出的UPC不仅在攻击目标检测器方面取得了最好的效果,而且在不同模型之间具有良好的泛化性和可移植性。表1.与现有方法的比较方法刚性非刚性平面非平面泛语义[4]美国JJ[36个]JJ[46个]JJJ我们JJJJJJ2. 相关作品通用对抗攻击。 图像不可知论攻击,即,通用对抗攻击[25,13]被定义为能够在数字域中用单个全局模式欺骗不同图像的攻击。在这里,我们将这个定义扩展到物理域,并将实例不可知扰动定义为对象检测器的通用物理攻击。与以前的物理攻击方法,工艺实例级的模式,我们的目标是生成一个单一的伪装模式,有效地攻击给定不同的物理场景相同的对象类别的所有物理攻击源于最近的观察,即打印的对抗性示例可以欺骗物理世界中的图像分类器[14,12],已经研究了如何在真实物理世界中构建“鲁棒”对抗性示例的努力例如,Athalyeet al.[1]提出通过攻击不同图像变换的集合来构建3D对抗对象;Sharif等人。[33]通过在眼镜上打印纹理成功攻击面部识别系统; Evtimov等人。[6]使用海报、贴纸和涂鸦作为干扰来攻击物理世界中的停止标志Zeng等人[45]应用计算机图形渲染方法在3D物理世界中进行攻击。此外,对抗性攻击还扩展到傻瓜跟踪系统和重新识别模型[40,41]。最近,物理攻击也被研究用于对象检测的更具挑战性的场景。Song等人[36]提出一个消失和创造攻击,在交通场景中欺骗Yolov 2 [28]。Chen等人[4]采用期望变换方法[1]来创建更鲁棒的对抗性停止符号,这会误导更快的r-cnn [30]输出错误。Zhang等人[46]学习克隆网络在黑盒场景下逼近检测器。然而它们不能有效地应用于非刚性或非平面物体,因为它们仅集中于模拟外部环境条件,距离或视点,用于攻击对象检测器。此外,这些方法生成的依赖于实例的图案表现出较少的语义,因此扰动图像通常是不自然的和有噪声的。与这些作品不同,我们的方法构造了一个通用的语义模式,使扰动图像视觉上类似于自然图像。同时,我们引入额外的变换来模拟铰接非刚性或非平面物体的变形特性。表中总结了与以前方法的详细比较1.一、722AttackScene中服装摄像头设置的打印(a) (b)物理空间攻击图2.UPC的整个管道(a)在数字空间训练伪装图案;(b)在物理空间攻击目标3. 方法3.1. 概述我们的目标是通过隐藏对象以避免被检测到,或者欺骗检测器输出目标标签来攻击对象检测器在不失一般性的前提下,我们以UPC在数字空间的培训框架。 我们在- tack faster-rcnn[30],一个两阶段的检测器,在白盒设置下。在第一阶段中,区域建议网络被用来生成对象建议。在第二阶段,检测器选择得分最高的建议来预测标签。我们建议通过联合欺骗区域建议网络来产生低质量的建议,即,减少有效命题的数量,以及误导分类器和回归器输出错误。简单地误导分类头的预测不能产生令人满意的结果(在第二节中讨论)。5.2)因为同时攻击众多候选提案是不切实际的。广泛的实验结果还验证了联合攻击范例比现有方法中的简单攻击分类器更强的攻击强度[4,6](表3)。此外,为了处理复杂对象,我们建议同时建模复杂对象的内部可变形特性和外部物理环境。对象的内部属性,即变形,通过一系列几何变换来模拟。如图所示。2(a),UPC包括3个步骤:• 步骤1.通过模拟外部物理条件(例如,视点)以及复杂对象的内部变形。施加额外的优化约束以使生成的模式在语义上有意义(Sec.3.2)。我们以迭代的方式执行这些步骤,直到满足终止标准,即,欺骗率大于阈值或迭代达到最大值。物理空间的攻击。通过施加语义约束(Sec. 3.2),UPC生成的伪装图案看起来自然的人类观察者,因此可以被视为人体配件上的纹理图案。具体地,我们预先定义了人体附件的几个区域(例如,服装,面具)画上生成的伪装图案(图。4)用于攻击,并且在不同的观看条件下捕获相应的物理场景(例如,照明,观点)进行测试(图。第2段(b)分段)。3.2. 物理模拟材料约束。为了保持生成的对抗性模式不太引人注意,扰动被描述为人类附件上的纹理模式(例如,服装、面具)。外部环境通过控制因素(如照明,视点,位置和角度)进行模拟[4,6]。为了有效地处理非刚性或非平面对象,我们还引入了附加变换函数来模拟它们的内部变形(等式10)。2)。语义约束。受数字攻击中的不可感知性约束的启发,我们使用投影函数(等式2)。1)以在优化期间强制所生成的对抗模式在视觉上类似于自然图像。实验结果表明,使用此约束进行优化会产生高质量的语义模式,这些模式可以自然地被视为人类服装上的装饰(图11)。(八)。培训数据。为了获得通用模式,具有不同人类属性(身体大小、姿势等)的图像被采样为训练集X。总之,扰动图像通过以下步骤生成:δt=Proj∞(δt−1+ Δδ,I,λ),(1)• 步骤2. 最初的对抗模式是由-X= .Σxi|x<$i=Tr(xi+Tc(δt)),xi<$X -是的(二)跟踪RPN,导致高质量的提案(第二节)3.3)。• 步骤3.为了进一步增强攻击强度,UPC然后通过降低检测分数和扭曲边界框来联合攻击RPN以及分类和边界框回归头(第二节)。第3.4段)。当量1是语义约束,其中δt和δt表示对抗模式及其在迭代t时的更新向量。Proj∞将生成的图案投影到以I为中心、半径为λ的L∞范数球的表面上。在这里,我们选择I作为自然图像,以确保生成的摄像模式在语义上是有意义的。当量2是约束IRPN攻击C R攻击+图案RPN训练集分类&回归NMSTransformTC723我们在攻击期间应用物理模拟,其中Tr被应用于所有训练图像并用于环境模拟(例如,照明)。TC作用于生成的模式,用于对材料进行建模,算法1UPC算法输入:训练图像X;目标标签y′;平衡参数λ1,λ2;迭代参数iters和itermax;愚弄率阈值rs;拉紧(例如, 由拉伸引起的变形)。x是输出:通用对抗模式δ;愚弄率r;0生成的扰动图像(在图中标记为蓝色)。第2(a)段)。一曰: δ ←random,r←0,t←03.3. 区域建议网络(RPN)攻击对于具有高度H和宽度W的输入图像,2:当t itermax和r rs3:t<$t+ 1,δt<$Proj∞(δt−1+ δ,I,)4:对于所有xi∈ X,5:随机选择Tr和TcRPN提取所有锚点的M=O(HW)第六章:x∈i=clip(Tr(xi+Tc(δt)),0,1)W,e表示每个图像x的输出建议,p i|p i=(si,d→i);i=1,2,3... M,其中si是7:结束8:计算受扰动图像的欺骗率r第i个边界框的dence得分,并且d→表示coor。9:如果t iters和r rs,则我第i个边界框的坐标。我们将攻击RPN的目标函数定义如下:10:argmin∆δ11:其他12:argminExiXELrpn+Ltv(Lrpn+λ1Lcls+λ 2Lreg)+LtvL=E(L(s,yt)+sd→−d→),(3)δxRPN我piPI I IP13:如果结束其中y t是目标得分,并且我们设置y1为背景,y0为e地面;L是欧几里得距离损失;Wrd→i是预定义的向量,其用于通过移动中心坐标和破坏原始提案的形状来攻击提案;p是范数常数,我们在实验中设置p= 1。通过最小化Lrpn,我们的目标是生成RPN的adversar模式,这导致前景建议和严重失真的候选框(在图中标记为红色)的大幅减少。第2(a)段)。3.4. 分类器和回归攻击在对RPN的输出应用非最大值抑制(NMS)后,前k个建议按其配置排序,14:结束while可以被检测为真标签y的建议,y′是攻击的目标标签。表示失真偏移。我们选取了范数为0.02,即l= 2,在等式5.当量4和方程式5分别被设计用于欺骗分类器和回归器,并且被称为&CR攻击(在图中标记为绿色)。第2(a)段)。对于非目标攻击,我们设置y=y′来最大化(而不是最小化)等式。4.第一章3.5. 两阶段攻击程序总之,UPC通过考虑上述所有因素来生成物理通用对抗扰动dencescores并被选择为子集P。然后,这些得分最高的建议P被馈送到分类和检索头以生成最终输出。我们注意到,如果argmin∆δExX (Lrpn)+λ1L CLS+λ2L reg)+L电视(δt),(6)如果在下一次迭代中选取一组新的候选框,则被攻击图像的检测结果仍然是正确的,这给攻击者带来了很大的挑战为了克服这个问题,我们像[43]中那样密集地提取建议。具体来说,我们通过降低地面实况标签的置信度或增加目标标签的置信度来攻击对象。我们通过扭曲提案的长宽比和同时移动中心坐标来进一步增强攻击强度[17]。总之,我们通过以下方式攻击分类和回归头:其中δ和X表示通用模式,分别是受干扰的图像。Ltv表示应用了2范数约束的总变差损失[24]我们注意到Ltv对于降低噪声和产生更自然的图案是重要的。UPC的整个过程如算法1所示,我们交替地更新普适扰动模式δ和扰动图像x∈X∈,直到欺骗率大于某个阈值或攻击迭代达到最大值。使用两阶段策略更新δ。在第一阶段,我们专门Lcls =EpP C(p)y+EpPL(C(p),y′),(四)攻击RPN以减少有效提案的数量即,设λ1= 0和λ2= 0,6. 在显著LregΣ=R(p)ypP-βd→βl,(五)减少高质量建议的数量,我们的攻击然后在第二阶段中另外欺骗分类和边界框回归头。通过最小化Eq. 六、其中L是交叉熵损失,C和R是分类器和回归器的预测输出P是所产生的扰动δ实质上降低了建议的质量,从而实现了高欺骗率。724检测为正确标签检测为目标标签检出为其他/未检出d图3. 虚拟场景实验的例子。虚拟场景(即,AttackScenes)显示在第一行,包括室内和室外环境。第二行示出了在各种物理条件下用不同图案方案捕获的结果5. 实验在本节中,我们经验表明,建议的UPC的有效性,在虚拟和物理环境中提供全面的评估。5.1. 实现细节原始天真自然3-模式7-模式8-模式图4. 虚拟场景实验中的图案方案示例。原文:没有迷彩图案的人类;天真:人类与简单的伪装(即,军用迷彩服、飞行员帽和雪地护目镜);自然:以自然图像作为伪装图案的人3/7/8-模式:根据检测模型的热图,在人体附件上预先定义3/7/8个区域,在生成的伪装图案上进行绘制。4. 攻击场景数据集由于缺乏标准化的基准数据集,早期的工作是在不可复制的物理环境下测量性能,这使得很难对不同的攻击进行公平的比较。为此,我们构建了第一个标准化数据集,名为AttackScenes,用于公平和可重复的评估。环境. AttackScenes包括各种物理条件下的20个虚拟场景(图1)。(3)第三章。具体地说,有10个室内场景(例如,浴室,客厅)和10个户外场景(例如,桥、市场)。摄像机设置。对于每个虚拟场景,放置18个摄像机用于从不同视点捕获图像。为了确保图像的多样性,这些相机位于不同的角度、高度和距离(图1)。第2段(b)分段)。照明控制。 据我们所知,耳-我们主要评估我们的方法对“人”类别的有效性,因为它在视频监控和人跟踪中的重要性[16]。我们收集了200个具有各种属性的人类图像(例如,发色、体型)作为我们的训练集,以生成通用的对抗模式。在[43]之后,我们使用2种网络架构(即,VGG-16 [34]和ResNet-101[8] ) , 它 们 要 么 在 PascalVOC-2007trainval 上 训 练 , 要 么 在 PascalVOC-2007trainval和PascalVOC-2012trainval的组合集上训练。我们将这些型号表示为FR-VGG 16 -07、FR-RES 101 -07、FR-VGG 16 -0712和FR-RES 101 -0712。参数设置。我们设置愚弄率阈值rs= 0。95,iter_s=100,算法1中的最大迭代iter_max= 2000更多的参数和转换细节记录在sec.1、补充材料。评估指标。 对于更快的r-cnn,我们将NMS的阈值设置 为 0.3 , 置 信 度 阈 值 设 置 为 0.5 ( 而 不 是 默 认 值0.8)。尽管IoU用于对象检测的标准评估,但我们在这里不使用此度量,因为我们的重点是检测器是否命中或错过受攻击实例的真实标签。为此,我们将[4,6]中的度量扩展为适用于我们的实验,精度p0。5、衡量检测器是否能命中真类的概率肝脏研究通常在明亮的环境中进行测试然而,这种模拟条件是相当有限的,因为在现实世界中存在许多黑暗场景因此,委员会认为,p=10的情况。5| X|.ΣΣC(x)=y,C(x)=y、 (7)我们扩展了测试环境,以更好地模拟不同的-vV,b B,s Sx∈Xx<$∈X<$每天的时间,如傍晚和黎明。区域光和方向光源分别用于模拟室内和室外照明。通过控制光源的强度(即,L1L3)。其中,x是原始实例,并且x表示具有伪装图案的实例。V、L、S分别表示相机视点、亮度和场景的集合;C是检测器的预测而y是地面实况标签(即,人、车)。725表2.平均精度p0. 5在虚拟场景实验中攻击r-cnn后速度更快.注意p0。在3个亮度条件下,对每个图案方案的所有视点进行平均网络FR-VGG16-0712FR-RES 101 -0712方案站站L1L2L3平均值(跌落)L1L2L3平均值(跌落)原始0.970.971.00.98(-)0.990.991.00.99(-)天真0.970.970.990.97(0.01)0.990.990.990.99(0.0)自然0.950.960.980.96(0.02)0.970.970.980.97(0.02)3-模式0.640.360.180.39(0.59)0.730.690.700.69(0.30)7-模式0.550.330.220.37(0.61)0.510.480.640.54(0.45)8-模式0.150.030.020.07(0.91)0.100.090.130.11(0.88)方案步行步行L1L2L3平均值(跌落)L1L2L3平均值(跌落)原始0.930.940.990.95(-)0.980.991.00.99(-)天真0.920.940.960.94(0.01)0.980.970.980.98(0.01)自然0.910.930.950.93(0.02)0.980.990.980.98(0.01)3-模式0.370.260.160.26(0.69)0.440.500.500.48(0.51)7-模式0.280.250.160.23(0.72)0.310.330.340.33(0.66)8-模式0.060.050.010.04(0.91)0.050.060.060.06(0.93)方案坐坐L1L2L3平均值(跌落)L1L2L3平均值(跌落)原始0.970.990.990.98(-)1.00.990.990.99(-)天真0.930.940.950.94(0.04)0.930.920.930.93(0.06)自然0.940.940.980.95(0.03)0.970.980.980.98(0.01)3-模式0.830.640.630.70(0.28)0.750.770.790.77(0.22)7-模式0.830.770.630.74(0.24)0.770.780.780.78(0.21)8-模式0.600.470.320.46(0.52)0.490.570.620.56(0.43)5.2. 虚拟场景实验人体模型和模式方案。我们在AttackScenes中选择具有不同姿势的人体模型(即,站、走、坐)作为攻击目标。6种不同的方案(图4)在材料约束下使用3.2)用于实验比较。模式方案之间的比较。 在虚拟场景实验中,每个图案方案绘制了1080(20×3×18)幅图像。在实验中,我们不失一般性地选择我们使用6种不同的模式方案,如图所示。4用于验证拟议UPC的有效性。如表2所示,我们发现在较暗的环境中攻击强度一般较弱。这可以归因于这样的事实,即当亮度水平低时,对抗性模式被糟糕地捕获,这引起低质量的攻击。此外,我们观察到,对于不同的人体姿态,通过攻击朴素/自然模式方案,平均精度几乎保持在同一水平,这表明简单地使用朴素伪装或自然图像作为对抗模式对于物理攻击是无效的相比之下,我们的方法产生了一个明显的下降率p0 。对于所有3个图案方案 为5(即,3/7/8-模式方案),其中8-模式方案观察到最高的性能下降(即,站立:p0。5从0下降。98比0 07使用FR-VGG 16)。观察到这种现象并不奇怪,因为使用更多生成的模式进行物理攻击结果会导致更高的欺骗率。检测结果进一步表明,我们的攻击对不同的观看条件(例如,视点、亮度)。此外,我们还发现,在这三个姿势中,裤子或布料图案)被部分遮挡(见图2中的采样图像)。1和图(3)第三章。表3.在不同设置下与物理攻击的现有技术的性能比较。我们记录p0。5和8模式方案所有视点的平均掉话率。与现有攻击比较。我们在以下设置下(表3)比较UPC与现有的物理攻击:(1)内部变形Tc和外部物理环境Tr都在等式2中模拟。2,表示为UPC_rc;(2)仅外部物理环境被建模,即,在Eq中使用Tr。2,表示为UPCr。(3)只攻击分类头,即,Lcls用于生成图案,表示为CLSRC;(4)ShapeShifter [4],即,在等式中仅使用Tr2和攻击的分类器,表示为形状。(5)我们遵循[36],扩展RP2[6],用于跟踪更快的r-cnn,表示为ERP2,以及(6)对抗补丁[39],它利用各种变换来欺骗图像上的所有建议,表示为AdvPat。在相同的培训设置下对这六种情景进行了测试(详见补充材料第1节)。表3记录了8模式方案的性能首先,我们可以看到p0的下降率. 5在UPCrc和CLSrc中的表达显著高于UPCr、SS和ERP2。这些定量结果表明,本文提出的变换函数Tc可以有效地模拟变形(例如,复杂物体的拉伸。其次,UPCrc和UPCr优于CLSrc和Shape,这表明联合攻击范例(即,RPN和CR攻击)一般比只攻击分类头显示更强的攻击强度[4]。总之,所有这些实验结果证明了所提出的变换项Tc以及联合攻击范例在野外欺骗对象检测器的功效。此外,我们提出的UPC优于现有方法[4,6,39],从而建立了基于提议的对象检测器的物理对抗攻击的最新技术判别区域的可视化显示在补充材料中[32]。可以看出,UPC具有较强的攻击能力,而其他方法不能有效地抑制未被遮挡部分的激活特征,这可能会导致更高的检测精度。网络设置站FR-VGG16-0712步行坐UPCrc(我们的)0.07(0.91)0.04(0.91)0.46(0.52)UPCr(我们的)0.66(0.32)0.33(0.62)0.76(0.22)CLSrc(我们的)0.18(0.80)0.06(0.89)0.54(0.44)形状[4]0.70(0.28)0.39(0.56)0.78(0.20)ERP2[6]0.85(0.13)0.48(0.47)0.87(0.11)高级帕特[39]0.77(0.21)0.31(0.64)0.78(0.20)网络FR-RES 101 -0712设置站步行坐UPCrc(我们的)0.11(0.88)0.06(0.93)0.56(0.43)726(一)(b)第(1)款被检测为人检测为目标标签表4.平均精度p0. 在静态测试中,在3种亮度条件下,图5. (a)静态测试和(b)运动测试中的实验结果。伪装由FR-VGG 16生成。5.3. 物理环境实验根据虚拟场景实验的设置,我们将相同的伪装图案贴在不同体型和服装风格的志愿者身上。在物理实验中,我们使用Sonyα7r相机进行拍照和录像.我们的物理实验包括两个部分:静态测试和运动测试。静态测试。在物理世界中,我们选择了5个场景,包括室内和室外场景,在不同的光照条件下。类似于虚拟场景前-(一)(b)第(1)款实验中,我们拍摄了18张被袭击者的照片,每一个模式。为了评估我们的方法在不同变形下的鲁棒性,要求人从6个不同的姿势(即,站、坐、抬腿、挥手、叉腰、摇头)。5(a))。 我们记录平均精度p0. FR-VGG 16 -0712和FR-RES 101 -0712在三种亮度条件下的下降率见表4(详见补充材料第2节)。类似于我们在SEC的发现。5.2,UPC在真实物理世界中表现出比自然图像模式更优越的攻击能力,在每个姿态下的丢包率几乎为零从表2和表4可以看出,在不同的物理条件下,例如虚拟场景和物理环境中的光照条件,检测器的行为表现出相似的另一个值得注意的评论是,从虚拟场景实验中生成的图案这些事实表明,我们的AttackScenes是研究物理攻击的合适数据集。运动测试。为了进一步证明UPC的有效性,我们还测试了我们的算法对人体运动。视频剪辑是在不同的物理条件下获得的(例如,不同的照明条件,场景),而志愿者走向相机。与此同时,他们正在随机改变姿势,从6类如上所述。总共3693帧,其中583,377,219,713,804和997帧是在5个不同的物理场景下收集的,以使该数据集多样化和代表性。检测准确率分别为 26% ( 150/583 ) 、 21% ( 80/377 ) 、 17%(37/219)、34%(240/713)、分别为15%(118/804)和24%(240/997)。 经验-图6. 精度P0. 不同角度/距离条件下的5个探测器。我们注意到,高视角或远距离会使攻击效果降低。在所有物理场景中的片段都观察到低检测率,这进一步证实了UPC的有效性一些采样帧的检测结果如图所示。5(b),其中人被检测为“狗”。我们发现这种攻击在更明亮的条件下更有效这一现象与以前在虚拟场景研究中的观察结果一致(第二节)。5.2),并进一步证明攻击场景的潜在价值。此外,我们发现,在运动过程中模糊的伪装图案使UPC的有效性降低,从而导致更高的检测精度。我们还绘制了检测精度与角度/距离下的8模式方案,如图。六、可以得出结论,当人与相机之间的角度/距离的绝对值变大时,伪装图案以较低的质量被捕获,从而阻碍攻击。5.4. 可移植性实验我们从一个体系结构生成伪装图案来攻击其他模型。在我们的实验中,FR-VGG 16 - 0712和FR-RES101 -0712被用来计算凸轮运动模式。我们介绍了基于ResNet-50 , ResNet-152 和 MobileNet [9] 的 更 快 的 r-cnn,它们经过训练在MS-COCO 2014 [20]数据集上作 为 传 输 测 试 模 型 。 其 他 架 构 模 型 包 括 R-FCN(ResNet- 101)[5]、SSD(VGG-16)[21]、Yolov 2[28]、Yolov 3 [29]和RetinaNet [19]在我们的可转移性实验中被考虑。八网络FR-VGG16-0712FR-RES 101 -0712方案站摇头站摇头原始1.0(-)1.0(-)1.01.0(-)自然0.98(0.02)0.98(0.02)0.98(0.02)1.0(0.0)3-模式0.67(0.33)0.74(0.26)0.72(0.28)0.76(0.24)7-模式0.59(0.41)0.59(0.41)0.59(0.41)0.57(0.43)8-模式0.17(0.83)0.20(0.80)0.19(0.81)0.20(0.80)方案叉腰抬腿叉腰抬腿原始1.0(-)1.0(-)1.0(-)1.0(-)自然1.0(0.0)1.0(0.0)1.0(0.0)1.0(0.0)3-模式0.72(0.28)0.74(0.26)0.76(0.24)0.71(0.29)7-模式0.56(0.44)0.54(0.46)0.57(0.43)0.57(0.43)8-模式0.20(0.80)0.26(0.74)0.24(0.76)0.30(0.70)方案第1001章激扬之手坐第1001章激扬之手坐原始1.0(-)1.0(-)1.0(-)1.0(-)自然0.98(0.02)1.0(0.0)1.0(0.0)1.0(0.0)3-模式0.83(0.17)0.76(0.24)0.85(0.15)0.74(0.26)7-模式0.65(0.35)0.54(0.46)0.69(0.31)0.59(0.41)8-模式0.35(0.65)0.22(0.78)0.35(0.65)0.26(0.74)727个模型是公开可用的,我们将它们标记为FR-RES50 -14 、 FR-RES 152 -14 、 FR-RES 152 -14 和 FR-RES 152 -14。728车猫船车猫船w/约束无C/OCANR束缚猫图7. 攻击沃尔沃XC60(顶排)和大众途观(底排)的结果。生成的伪装图案欺骗检测器将汽车误认为鸟。表5.平均精度p0. 5、可移植性测试。前七行显示交叉训练迁移测试的结果,其余五行显示跨网络迁移的结果(“网络”列中的粗体)。网络原创F R - V G G 1 6 -0712FR-RES 101 -0712MN-14 、 RFCN-RES 101 -07 、 SSD-VGG 16 -0712 、Yolov 2-14,Yolov 3 -14和Retina-14。所有模型的置信阈值均设定为0.5进行评价。进行以下实验:(1)交叉培训迁移。源模型和被攻击模型之间的可转移性具有相同的体系结构,但在不同的数据集上训练(例如,使用FR-VGG 16 -0712生成的模式攻击FR-VGG 16 -07);(2)跨网络传输。通过不同网络结构的可转移性(例如,使用从FR-VGG16 -0712计算的模式攻击Yolov 3 -14)。对于转移实验,使用8模式方案的虚拟行走人(图1)。4)用于评估转移攻击下的可转移性。转移性能示于表5中。原始模式方案用于计算每个模型的基线精度(在表5中记为“原始”)。我们观察到所有检测器的精度都有所下降,这意味着生成的模式在不同的模型和数据集之间具有良好的可移植性和通用性。值得一提的是,我们提出的UPC也成功地突破了4种最先进的防御[18,42,7,27](见补充资料)。5.5. 推广到其他类别为了证明UPC的通用性,我们通过非目标攻击来构造伪装模式来欺骗刚性但非平面的物体)。我们以沃尔沃XC60(香槟色)和大众途观(白色)作为现实世界中的攻击目标。模式将被重新-图8. 生成的伪装图案在语义上是有意义的。即使对于不受约束的图案,人类观察者也可以将生成的伪装图案与目标标签相关联。被人类观察者当作汽车画来装饰。为了不影响驾驶,我们限制了伪装覆盖区域,以排除窗户,灯光和轮胎。我们收集了120张照片,其中包括5种不同环境中的不同距离(8米至12米)和角度(-45° C至45° C)(图1)。(七).视频以相同的角度同时录制。纯无伪装车性能为p0. 5= 1,而攻击后只有24%(29/120)的图像和26%(120/453)的帧被正确检测为6. 讨论抽象语义模式。一个侧面的发现是,生成的模式没有语义约束(方程。1)可以是语义意义较少,但表现出抽象的含义(图。(八)。这一观察结果表明,人类和机器对对抗图像的分类是鲁棒相关的,如[47]所示。防御手段评估。随着数字领域防御方法的发展[22,44],我们希望收集的数据集AttackScenes可以帮助未来研究针对物理攻击的防御方法。7. 结论在本文中,我们研究的问题的物理攻击对象检测器。具体来说,我们提出UPC生成的通用伪装模式,隐藏一类对象被检测到或误检测对象作为目标标签的国家的最先进的对象检测器。此外,我们提出了第一个标准化的基准数据集,攻击场景,在可控和可再现的环境中模拟真实的3D世界。该数据集可用于以公平的标准访问物理世界攻击的性能。我们的研究表明,学习到的通用伪装模式不仅会误导虚拟环境中的目标检测器,攻击场景,而且在现实世界中成功地攻击检测器。确认本研究得到了国家重点研究发展计划(2018YFC0830500)、国家自然科学基金(61972433)、中央高校基础研究基金(19lgjc11,19lgyjs54)的资助。检测为其他未检测检测为汽车平均值(下降)平均值(下降)FR-VGG16-07120.950.04(0.91)0.10(0.85)FR-RES 101 -07120.990.78(0.21)0.06(0.93)FR-VGG16-070.950.08(0.87)0.11(0.84)FR-RES 101 -070.990.51(0.48)0.10(0.89)FR-RES 50 -141.00.85(0.15)0.78(0.22)FR-RES 152 -141.00.62(0.38)0.43(0.57)FR-MN-140.990.51(0.48)0.25(0.74)RFCN-RES 101 -07 [5]0.980.64(0.34)0.41(0.57)SSD-VGG16-0712 [21]0.750.13(0.62)0.16(0.59)[28]第二十八话1.00.59(0.41)0.38(0.62)[29]第二十九话1.00.69(0.31)0.71(0.29)[19]第十九话1.00.72(0.31)0.49(0.51)729引用[1] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。arXiv预印本arXiv:1707.07397,2017。[2] Arjun Nitin Bhagoji,Warren He,Bo Li和Dawn Song。使用高效查询机制对深度神经网络进行实用黑盒攻击在欧洲计算机视觉会议上,第158-174页Springer,2018.[3] TomBBro wn , DandelionMane´ , Aurk oRoy , Mart´ınAbadi , and Justin Gilmer. 对 抗 补 丁 。 arXiv 预 印 本arXiv:1712.09665,2017。[4] Shang-Tse Chen , Cory Cornelius , Jason Martin , andDuen Horng Polo Chau.变形者:更快的r-cnn对象检测器的强大物理对抗攻击。在数据库中的机器学习和知识发现联合欧洲会议上,第52-68页。Springer,2018.[5] 戴继峰,李毅,何开明,孙坚。R-fcn:经由基于区域的全卷积网络的对象检测2016.[6] 伊万·埃夫蒂莫夫、凯文·艾克霍尔特、厄尔朗斯·费尔南德斯、塔达吉·科诺、波丽、阿图尔·普拉卡什、阿米尔·拉赫马蒂和道恩·宋。对深度学习模型的强大物理世界 攻 击 。 arXiv 预 印 本 arXiv : 1707.08945 , 1 : 1 ,2017。[7] Chuan Guo , Mayank Rana , Moustapha Cisse , andLaurens Van Der Maaten.使用输入变换对抗性图像。arXiv预印本arXiv:1711.00117,2017。[8] Kaiming He,Xiangyu Zhang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功