物理对抗性纹理：多角度攻击下的欺骗人体检测器的布料研究

135 浏览量更新于2023-10-25 收藏 16.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

133070物理世界中欺骗人体检测器的对抗性纹理0Zhanhao Hu 1 Siyuan Huang 1 Xiaopei Zhu 2 , 1 Fuchun Sun 1 Bo Zhang 1 Xiaolin Hu 1 , 3 , 4 �01 清华大学计算机科学与技术系，人工智能研究院，智能技术与系统国家重点实验室，BNRist，中国北京2 清华大学集成电路学院，中国北京 3 清华大学IDG/麦戈文脑科学研究所，中国北京 4中国脑科学研究所（CIBR），中国北京0{ huzhanha17, zxp18 } @mails.tsinghua.edu.cn0{ siyuanhuang, fcsun, dcszb, xlhu } @mail.tsinghua.edu.cn0摘要0如今，配备人工智能系统的摄像机可以自动捕捉和分析图像以自动检测人员。然而，当在现实世界中接收到故意设计的图案时，即物理对抗性样本，人工智能系统可能会出错。先前的研究表明，可以在衣物上印制对抗性补丁以规避基于DNN的人体检测器。然而，当视角改变（即摄像机对物体的角度）时，这些对抗性样本的攻击成功率可能会大幅下降。为了进行多角度攻击，我们提出了Adversarial Texture(AdvTexture)。AdvTexture可以覆盖具有任意形状的衣物，使穿着这种衣物的人可以从不同的视角躲避人体检测器。我们提出了一种名为Toroidal-Cropping-basedExpandable Generative Attack(TC-EGA)的生成方法，用于制作具有重复结构的AdvTexture。我们在物理世界中印制了几块带有AdvTexture的布料，然后制作了T恤、裙子和连衣裙。实验证明，这些衣物可以欺骗物理世界中的人体检测器。01. 引言0最近的研究表明，深度神经网络（DNNs）对数字世界中原始图像添加微小噪声制作的对抗性样本是脆弱的[5, 8, 10, 18, 22-24,31]，并且DNNs可以被物理世界中的制造物体攻击[1, 4, 9,29]。这些制造物体被称为物理对抗性样本。最近，一些基于补丁攻击[29]的方法已经被提出来规避人体检测器[14, 15, 32, 34, 35,37]。具体而言，Thys等人提出了一种名为Toroidal-Cropping-basedExpandable Generative Attack(TC-EGA)的生成方法，用于制作具有重复结构的AdvTexture。我们在物理世界中印制了几块带有AdvTexture的布料，然后制作了T恤、裙子和连衣裙。实验证明，这些衣物可以欺骗物理世界中的人体检测器。0� 通讯作者。0P3 P20P10C10C20C30(a)0补丁0(b)0平铺补丁0(c)0纹理0(d)0图1. 不同视角下的攻击示意图。 (a) 当摄像机设置为不同的视角(C1、C2、C3) 时，摄像机会捕捉到衣物的不同部分(P1、P2、P3)。 (b-d)方框表示摄像机可能捕捉到的区域。蓝色方框表示攻击最有效的区域，而红色方框表示攻击效果较差的区域。0等人[32]提出了将补丁附在硬纸板上的方法。通过将硬纸板放在摄像机前面，人体检测器无法检测到人。Xu等人[35]提出了一种印有对抗性补丁的对抗T恤。穿着这种T恤的人也可以规避人体检测器。这些工作对广泛部署的基于深度学习的安全系统构成了相当大的威胁。它促使研究人员重新评估这些系统的安全性和可靠性。然而，上述人体检测器攻击方法只有在对抗性补丁面向摄像机时才有效。显然，单个对抗性补丁在衣物上很难攻击多个视角的检测器，因为摄像机可能只捕捉到严重变形补丁的一部分（图1a和图1b）。我们称之为“缺段”问题。另一种直接的解决方案是在衣物上覆盖多个补丁（例如将补丁紧密铺砌在衣物上；参见图1c）。然而，这不能完全解决“缺段”问题，因为摄像机将捕捉到属于不同补丁单元的几个段，使攻击效率低下。另一种直接的解决方案是构建一个人体的3D模型133080图2.Adv-Texture对YOLOv2的对抗效果的可视化。一件连衣裙、一件T恤和一条裙子是由覆盖了AdvTexture的大型涤纶布料裁剪而成的。穿着这些衣服的人无法被检测器检测到。0与先前的工作[1]一样，我们需要在不同的视角下渲染身体和特定的服装。然而，衣服是非刚性的，当前的3D渲染技术在建模现实世界中衣服的自然变形方面存在困难。例如，Wang等人[33]在3D人体网格的平坦区域（前面和后面）上渲染了3D标志，但是当应用于未见过的网格时，攻击成功率（ASR）下降。为了解决这个问题，我们提出了使用对抗纹理（AdvTexture）的想法。与基于补丁的攻击不同，AdvTexture可以以任意大小生成，因此可以覆盖任何大小的衣物。我们要求纹理的任何局部部分都具有对抗效果（图1d）。然后，当衣服被AdvTexture覆盖时，相机捕捉到的每个局部区域都可以攻击检测器，从而解决了分割缺失的问题。为了实现这个目标，我们提出了一个两阶段的生成方法，基于环形裁剪的可扩展生成攻击（TC-EGA），用于制作AdvTexture。在第一阶段，我们训练一个全卷积网络（FCN）[21,30]作为生成器，通过对随机潜变量进行采样来生成纹理。与GAN中生成器的传统架构[16,25]不同，我们在每一层都使用卷积操作，包括潜变量。因此，潜变量是一个具有空间维度的张量，只要我们沿着空间维度扩展潜变量，生成器就能够生成多种大小的纹理。在第二阶段，我们使用裁剪技术（ToroidalCropping，TC）搜索潜变量的最佳局部模式。经过优化，我们可以通过平铺局部模式来生成足够大的潜变量。我们将其输入到FCN中，最终得到AdvTexture。我们实现了TC-EGA来攻击各种人体检测器，并在物理世界中实现了AdvTexture。图2显示了一些针对YOLOv2的攻击示例。我们的实验表明，使用这种纹理制成的衣服显著降低了不同检测器的检测性能。02. 相关工作0关于对抗样本的早期研究[10, 18,31]主要集中在数字攻击上。可以向原始图像添加小的对抗性噪声，使得深度神经网络输出错误的预测结果，给深度神经网络带来了重大的安全隐患。与数字对抗攻击相比，物理对抗攻击在特定场景中带来更多的风险。已经提出了几种方法[1, 4, 9,29]来对图像分类模型进行物理攻击。Sharif等人[29]设计了一副眼镜来攻击人脸识别系统。Atha-lye等人[1]通过引入期望转换（EoT）[1]方法生成了稳健的3D对抗性物体。Brown等人[4]通过将对抗性补丁放置在物体附近来欺骗图像分类器。Evtimov等人[9]通过粘贴黑白贴纸来误导道路标志分类。最近，已经提出了几种方法[14, 15, 32,32-35]来攻击基于深度神经网络的人体检测系统。Thys等人[32]优化了一个可以附着在硬纸板上并由人手持的对抗性补丁。Huang等人[15]提出了一种名为Universal PhysicalCamouflageAttack（UPC）的方法，通过在虚拟环境中模拟3D物体来欺骗检测器。Xu等人[35]通过引入Thin PlateSpline（TPS）[2,7]来模拟衣物的变形（例如皱纹），设计了一件对抗性T恤。Wu等人[34]对一系列检测模型、不同数据集和物体进行了系统研究。Wang等人[33]将对抗性补丁与预设的标志遮盖并映射到3D模型中。Hu等人[14]使用生成对抗网络（GAN）[3, 16]来制作更自然的对抗性补丁。一些研究[15, 33,35]报告了在视角增加时攻击成功率的下降。根据Wang等人[33]的说法，当相机急剧旋转时，部分补丁将无法被捕捉到。这可能导致对威胁的低估，而在现实世界的场景中，相机可以放置在任何地方。03. 方法0我们的目标是生成任意尺寸的纹理，在纺织品上印刷纹理时，从纺织品中提取的任何补丁都对对抗攻击有效。我们首先介绍一个对抗性补丁生成器，然后描述基于该补丁生成器的TC-EGA。03.1. 对抗性补丁生成器0设 τ 表示整个覆盖有 Ad- vTexture 的布料， ˜ τ表示提取的补丁。我们假设 ˜ τ 符合分布 p adv，即当其对抗效果更显著时，概率 p adv (˜ τ )更高。我们使用能量函数 U (˜ τ ) 来建模：̃̃𝑈*+,𝑀padv(˜τ) = e−U(˜τ)ZU,(1)qφ(˜τ) =�δ(˜τ − Gφ(z))pz(z) dz,(2)minφ,ω E˜τ∼qφ(˜τ)[U(˜τ)] − IJSDφ,ω (˜τ, z),(3)IJSDφ,ω (˜τ, z) = E(˜τ,z)∼q˜τ,zφ(˜τ,z)[−sp(−Tω(˜τ, z))]− E˜τ∼qφ(˜τ),z′∼pz(z′)[sp(Tω(˜τ, z′))],(4)1NN�i=1[U(Gφ(zi))],(5)133090原始图像 � 修改后的图像 �(�,��)0补丁 ��0检测器 �0生成器 �0潜变量 � � /00图 3. 对抗目标函数的流程图。0这样的分布：0˜ τ e − U (˜ τ ) d˜ τ被称为分区函数。然而，由于分区函数的存在，直接从 padv (˜ τ ) 采样是困难的。因此，我们使用参数化生成器 Gφ : z → ˜ τ 来近似 p adv (˜ τ ) ，其中 z � N (0 , I )。我们将 q φ (˜ τ ) 定义为 ˜ τ = G φ ( z )的分布，可以写成：0其中 p z 是标准正态分布 N (0 , I ) 的概率密度函数(PDF)， δ ( ∙ ) 是狄拉克δ函数。为了更准确地表示 p adv(˜ τ ) ，我们调整 G φ 以最小化 KL 散度 KL( q φ (˜ τ ) || padv (˜ τ )) 。借助 Deep InfoMax (DIM) [ 13]，我们有以下定理：0定理 1 最小化 KL( q φ (˜ τ ) || p adv (˜ τ )) 等价于0其中0q ˜ τ,z φ 表示 ˜ τ 和 z 的联合分布， sp( t ) = log(1 + et ) 是软正函数。 T ω是由神经网络建模的标量函数，其参数 ω 必须与参数 φ一起优化。0证明请参见附录材料。方程 ( 3 )中的目标函数由两个项组成。第一项 E ˜ τ � q φ (˜ τ ) [ U (˜τ )] 被称为对抗目标函数，因为最小化它可以提高生成补丁的对抗效果。第二项0−I JSD φ,ω (˜ τ, z ) 被称为信息目标函数，因为最小化它等价于最大化 z 和 ˜ τ 的互信息 [ 13]，这要求不同的潜变量生成不同的补丁。03.1.1 对抗目标函数0对抗目标函数 E ˜ τ � q φ (˜ τ ) [ U (˜ τ )] 可以通过采样 z并生成 ˜ τ 来估计：0其中 z i 是从 N (0 , I ) 中采样的潜变量， N表示样本的总数。现在我们需要设置一个适当的能量函数，使得降低能量会导致人体检测器的检测失败。我们注意到当接收到一张图像时，检测器会输出多个带有置信度分数的边界框。置信度分数低于预定阈值的边界框将被过滤掉。因此，我们选择边界框上的置信度分数的期望作为能量函数 U (˜τ )的一部分。然后，最小化对抗目标函数将降低边界框的置信度分数，使得边界框容易被过滤掉。具体而言，我们在每一步中随机生成补丁，并根据期望变换 (EoT) [ 29 , 32 ]随机化补丁的尺度、对比度、亮度和附加噪声。我们还将随机的薄板样条变形 (TPS) [ 7 , 35 ]作为额外的随机变换。然后，我们根据训练集中的预测边界框将补丁随机附加到人物上。我们用 M ( x, ˜ τ )表示上述过程，并得到修改后的图像，然后将其送入目标检测器。因此，能量函数的这一部分被定义为0U obj = Ex,M[f(M(x, ˜ τ))],（6）̃̃………………133100c0��0�0�%(��, �)0图4. 辅助网络 T ω 的架构。它有两个输入，˜ τ 和z，并输出一个标量值 T ω (˜ τ, z)。图中的 c 表示连接。0其中 f表示目标检测器预测的框的置信度分数。我们使用可微分的总变差（TV）损失的变体作为能量函数的另一部分，以鼓励补丁更加平滑：0U TV = 0i,j | τ i,j - τ i+1,j | + | τ i,j - τ i,j+1 |（7）0综上所述，我们将能量函数形成如下：0U(˜ τ) = 0β(U obj + αU TV)，（8）0其中 α 和 β是系数。见图3进行说明。在最小化对抗目标函数时，能量函数的每个部分将一起被最小化。03.1.2 信息目标函数0如 Eq. (4) 所述，我们使用辅助网络 T ω 来增加 z 和 ˜ τ的互信息。我们在图4中说明了 T ω 的架构。Eq. (4)有两个项，估计每个项都需要随机采样。根据之前的工作[13]，为了估计第一个项，我们首先从 N(0, I) 中采样z，然后在每个训练步骤中通过 G φ (z) 生成 ˜τ。为了估计第二个项，我们保持 ˜ τ 并重新采样z。在训练过程中，我们同时最小化对抗目标函数和信息目标函数。因此，分布 q φ 可以逼近 padv，这意味着生成的补丁 ˜ τ可以对目标检测器进行对抗攻击。03.2. 基于环形裁剪的可扩展生成对抗攻击0在第3.1节中，我们已经描述了训练用于对抗补丁 ˜ τ的生成器的方法。在本节中，我们使用 TC-EGA基于对抗补丁生成器生成对抗纹理τ。我们利用特定的网络架构和样本技术将对抗补丁扩展为对抗纹理。TC-EGA有两个阶段。在第一阶段，我们训练一个全卷积网络（FCN）[21, 30]0�� 0多维度 � 卷积操作生成的模式0（3个通道）可扩展的生成器0� �0�0�",$,%,&0�",$,%,& �"（,$(,%,&0�0�0�"（,$(,%,&0�",$,%,& �"（,$(,%,&0图5.（a）FCN生成器的示意图。生成器网络的所有层都是带有零填充的卷积层，包括第一层。（b）从位置 i, j 提取的每个补丁 τ i,j,w,h可以被看作是子生成器 G i,j,w,h 的输出，当输入为 z i,j,w,h 时。0为了帮助从对抗纹理的分布中进行采样。在第二阶段，我们搜索最佳的潜在表示，以产生最有效的对抗纹理。03.2.1 第一阶段：训练一个可扩展的生成器0我们的目标是训练一个生成器，使其能够通过输入一个随机的 z来轻松生成任意大小的补丁。关键点是通过构建一个全卷积网络（FCN）赋予生成器平移不变性属性，其中所有的层都是带有零填充的卷积层，包括输入潜变量的第一层（见图5a）。潜变量是一个 B × C × H × W 的张量，其中 B是批量大小，C 是通道数，H 和 W分别是高度和宽度。这里我们展示了使用 FCN的原因。我们假设整体纹理 τ 是由全局生成器 G: z → τ生成的，其中隐藏变量 z � N(0, I)。我们用 τ i,j,w,h表示提取的补丁，其中心位于整体纹理的位置 (i, j)，形状为(w, h)。此外，补丁 τ i,j,w,h 可以被看作是子生成器 Gi,j,w,h 的输出：z i,j,w,h → τ i,j,w,h，其中 z i,j,w,h 是 z的组成部分，包含所有与 τ i,j,w,h相关的元素（见图5b）。假设 τ i,j,w,h 服从分布 Ti,j,w,h。我们有以下定理和推论。32132132̃𝜏̃ can becroppedfrom 𝑧#$%. Experiment settings4.1. SubjectsWe recruited three subjects (mean age: 24.0; range:21 − 26; two males and one female) to collect physical testset. The recruitment and study procedures were approvedby the Department of Psychology Ethics Committee, Ts-inghua University, Beijing, China.4.2. DatasetWe employed the Inria Person dataset [6] as our trainingset. It is a dataset for pedestrian detection, which consistsof 614 images for training and 288 for testing. We evalu-ated the patch-based attack on the Inria test set. For physi-cal evaluation, we produced clothes covered with differentadversarial textures. Three subjects wore different adver-sarial clothes and turned a circle slowly in front of a camerawhich was fixed at 1.38 meters above the ground. The dis-tance between the camera and person is fixed to 2 m unlessotherwise specified. We recorded two videos for each sub-ject and each adversarial piece of clothing. One of the videowas recorded indoor (lab room), and the other was recorded133110定理2 设τ 1 = G 1 (z 1)，τ 2 = G 2 (z 2)，z 1 � Z 1，z 2 �Z 2，τ 1 � T 1，τ 2 � T 2。如果Z 1与Z 2相同且G 1等价于G2，则T 1等价于T 2。0推论2.1 如果G是一个FCN且输入z�N(0,I)，则G i,j,w,h和Ti,j,w,h与i,j无关，即G i,j,w,h = G w,h和T i,j,w,h = T w,h。0请参阅补充材料以获取证明。因此，只要子生成器Gw,h被训练以逼近T w,h的分布到padv，从整体纹理中提取的任何形状为(w,h)的补丁也近似地遵循padv，即具有对抗性有效性。此外，由于卷积操作具有平移不变性，子生成器Gw,h和全局生成器可以共享相同的架构和参数，除了潜变量z的不同空间形状H和W。因此，我们只需要训练一个小型生成器。注意，隐藏变量z的高度H和宽度W不能太小，否则输出将太小，无法裁剪出空间形状为(w,h)的补丁。我们用Hmin和Wmin表示最小的空间尺寸。在训练过程中，我们采样了一个形状为B × C × H min × Wmin的小z，并在每个训练步骤中生成相应的补丁。之后，我们可以通过随机化z并使任意H ≥ H min和W ≥ Wmin来生成不同大小的纹理。03.2.2 第二阶段：找到最佳潜在模式0训练后，生成器可以通过采样潜变量生成不同的纹理。为了找到最佳的用于对抗攻击的纹理，我们提出进一步优化潜变量的方法，即在生成器参数冻结的情况下优化潜变量。然而，由于纹理没有特定的形状，并且潜变量的大小需要足够大以产生大型纹理布料，直接优化潜变量是困难的。受拓扑学中环面的展开支持上下和左右的延续的启发[11]（图6a），我们引入了环面裁剪（TC）技术，旨在优化一个本地模式zlocal作为一个单元，以便通过平铺多个相同的单元来生成最终的潜变量z。具体而言，z local 可以被参数化为形状为B × C× L ×L的张量，其中L是形状超参数，可以被视为拓扑学中二维环面T 2的展开平面（图6a）。因此，可以以递归的方式从zlocal中裁剪出任意形状的潜变量（图6b），这可以被视为在环面上进行裁剪。我们用Croptorus表示这种裁剪操作。在优化过程中，我们通过这种方式随机采样形状为B × C × H min × W min的潜变量zsample。0连接蓝色箭头0连接红色箭头0A0C0B0A0C0B0B0本地模式0环面0A0(a)0� "#$%"0(b)0�� #$%�(c)0图6.环面裁剪的示意图。（a）通过首先连接其水平边缘（红色箭头），然后连接垂直边缘（蓝色箭头），可以将本地模式折叠成一个环面。（b）可以通过并排平铺本地模式来创建任意形状的潜变量，因此在连接处裁剪的变量等效于在环面上裁剪的变量，意味着模式仍然是连续的。（c）这种裁剪技术也适用于像素空间。有关此变体，请参见第4.3节。0裁剪技术。由于我们在这个阶段只考虑对抗性的有效性，我们通过采样z并最小化对抗损失（公式（5））来生成补丁。经过优化，可以通过平铺z local来产生任意大小的潜变量。in outdoor (brick walkway). We then extracted 32 framesfrom each video. We recorded 3 × 2 = 6 videos and col-lected 6 × 32 = 192 frames for each adversarial piece ofclothing. we labeled them manually to construct a test set.4.3. Baseline MethodsWe evaluated the adversarial patches produced by Thyset al. [32] and Xu et al. [35], and named them by AdvPatchand AdvTshirt, respectively. We copied the patterns fromtheir original papers. We also tiled AdvPatch and AdvTshirtto form textures with repeated patterns. These two variantsare called AdvPatchTile and AdvTshirtTile. In addition, weevaluated a texture with repetitive random colors, which isdenoted by RandomMoreover, TC-EGA has multiple components and someof them could be applied separately to craft adversarial tex-tures. To investigate the performance of each component,we designed three variants of TC-EGA, as described below.Expandable Generative Attack (EGA)We trained anFCN as the first stage of TC-EGA without optimizing thebest latent variable. During evaluation, the final texture canbe generated by a latent variable in arbitrary size and sam-pled from a standard normal distribution.Toroidal Cropping Attack (TCA)We directly optimizedthe texture instead of training an FCN to generate tex-ture. Specifically, we initialized a local texture pattern of300 × 300 pixels, and randomly extracted a patch by size150 × 150 from the texture by Toroidal Cropping in eachoptimization step.Random Cropping Attack (RCA)We directly opti-mized a large patch whose size is fixed.We initializedthe large patch and randomly cropped a small patch by size150×150 during optimization. This method is named Ran-dom Cropping Attack (RCA). We implemented two attacks,RCA2× and RCA6×, where the sizes of the large patchesare 300 × 300 and 900 × 900, respectively.4.4. Implementation DetailsWe crafted AdvTexture to mainly fool YOLOv2 [26],YOLOv3 [27], Faster R-CNN [28] and Mask R-CNN [12].The detectors were pre-trained on MS COCO dataset [20].Their outputs were filtered to output the person class only.For each target detector, we first extracted the predictedbounding boxes on the images from the training set witha Non-Maximum Suppression (NMS) threshold 0.4. Wechose the boxes whose confidence was larger than a cer-tain threshold (0.5 for YOLOv2 and YOLOv3, and 0.75for Faster and Mask R-CNN). We additionally filtered outboxes with areas smaller than 0.16% of the entire images(a) Random(b) AdvPatchTile(c) TC-EGAFigure 7. Visualization of different textures. (a) The texture withrepetitive random colors. (b) The texture formed by tiling an ad-versarial patch [32] repeatedly. (c) The texture produced by TC-EGA to attack YOLOv2.133120对于Faster和MaskR-CNN，我们按照第3.1.1节中描述的方法，将提取的贴片附加到人物上，并在优化过程中将修改后的图像输入到检测器中。此外，我们使用Adam[17]优化器来优化两个阶段的参数。以下是超参数的列表。（1）第一阶段：训练生成器的初始学习率为0.001。生成器是一个7层FCN，其输入是大小为B×128×9×9的潜变量z。相应输出的大小为B×3×324×324，其中第二个维度代表RGB通道。（2）第二阶段：我们优化一个大小为1×128×4×4的局部潜变量zlocal，然后使用环形裁剪技术生成大小为B×128×9×9的z样本。优化的学习率为0.03。为了实现AdvTexture，我们通过数字纺织印花将纹理印在聚酯布料上。然后，我们聘请专业裁缝制作包括T恤、裙子和连衣裙在内的对抗性服装。05. 结果0图7显示了不同方法获得的一些纹理，更多内容可以在补充材料中找到。05.1. 数字世界中的贴片攻击0我们首先以数字世界中的贴片攻击形式评估了攻击。具体来说，我们在评估大多数方法时，除了AdvPatch和AdvTexture，我们随机从纹理中提取贴片。我们用相同的方式将贴片附加到Inria测试集中的图像上，就像制作对抗性贴片一样。我们使用目标检测器在原始测试图像上提出的置信度阈值为0.5的边界框作为基本事实。我们计算修改后的测试图像上提出的边界框的平均精度（AP）来衡量对抗效果。请注意，较低的AP表示更强的攻击。表1给出了不同条件下YOLOv2的AP。clean表示原始测试集上的AP。由于we used the detector’s prediction on the original images asthe ground truth, the AP is 1.000. The AdvPatch loweredthe AP of YOLOv2 to 0.3521.Compared to AdvPatch, the expandable variant Adv-PatchTile increases the AP from 0.352 to 0.827. Since Ad-vTshirt was trained on a different dataset (its authors’ pri-vate dataset), it only got an AP of 0.744. Similarly, Ad-vTshirtTile increases the AP to 0.844. We attribute the in-crease to the segment-missing problem. Compared to its133130方法 AP Expandable Resampled0Clean 1.000 Random 0.963 � � AdvPatch [32]0.352 � � AdvPatchTile 0.827 � � AdvTshirt [35]0.744 * � � AdvTshirtTile 0.844 � �0TC-EGA 0.362 � � EGA 0.470 � � TCA 0.664 � � RCA2× 0.606 � � RCA 6× 0.855 � �0表1.在Inria测试集上不同攻击下YOLOv2的AP。Expandable表示方法是否能够生成任意大小的纹理。Resampled表示贴片是否是随机提取的。0AdvPatch0AdvPatchTile0TC-EGA0图8.分段缺失问题的数值研究。贴片是在原始贴片附近进行裁剪的，裁剪比例为0.0时，裁剪的贴片正好是原始贴片。当原始贴片完全超出裁剪范围时，裁剪比例为1.0。01根据他们发布的代码https://gitlab.com/EAVISE/adversarial-yolo，我们复现了一个对抗性贴片。复现的贴片的AP为0.378。我们在所有实验中都使用了从他们的论文中复制的贴片。0(a) 对抗贴片平铺 (b) 对抗T恤平铺(c) YOLOv2 T恤 (d) YOLOv2 连衣裙0图9. 真实世界中的对抗性服装0在各种变体中，TC-EGA的AP值最低，为0.362，也是所有重采样贴片中最低的。对抗贴片使AP值略低于TC-EGA。然而，它不可扩展，因此不适用于多个视角的攻击。此外，EGA将AP值降低到0.470，TCA创建的可扩展贴片的AP值为0.664。它低于对抗贴片平铺，这表明了环形裁剪技术的有效性。此外，RCA 6×比RCA2×要差得多，这表明优化大贴片存在困难。我们进一步通过评估在不同位置裁剪的贴片的对抗效果来研究段缺失问题（见图8）。基于贴片的攻击对抗贴片在移位比例增加时变得不那么有效。平铺贴片缓解了这个问题，但仍然存在问题。TC-EGA生成的纹理在移位过程中具有鲁棒性。TC-EGA对数字世界中其他检测器的攻击结果显示在补充材料中。05.2. 物理世界中的攻击0图9显示了不同方法生成的服装，更多内容可以在补充材料中找到。我们首先在YOLOv2上比较了不同方法。由于检测器预测的框可以通过特定的置信度阈值进行过滤，我们在图10中绘制了召回-置信度曲线，并在图例中显示了它们的AP值。请记住，召回率表示成功检索的框的比例。这些框通过置信度阈值进行过滤。因此，对于每个特定的置信度阈值，较低的召回率表示更好的对抗效果。从图10可以看出，对抗贴片和对抗T恤的平铺变体比原始方法更有效。TC-EGA在所有方法中表现最好，具有最低的召回-置信度曲线和最低的AP值。此外，我们使用另一种指标来评估攻击的效果。具体而言，对于每个输入图像，我们收集目标检测器预测的置信度分数大于某个置信度阈值的边界框。只要其中一个框与真实边界框的交并比（IoU）大于0.5，就认为检测器正确检测到了。我们将攻击成功率（ASR）定义为未能正确预测的测试图像的比例。由于ASR与置信度阈值相关，我们在多个阈值下计算了ASR的平均值，即mASR。在我们的实验中，阈值为0.1，0.2，...，0.9。图11展示了多个视角下的mASR。与随机纹理相比，当人面对摄像机时（图中的视角为0°或360°），对抗贴片和对抗T恤是有效的。然而，当视角增加时，这两种方法的mASR值下降，表明了段缺失问题。这两种方法的平铺变体在多个视角下具有一定的对抗效果，但在几乎每个视角下的mASR值都低于0.5。TC-EGA在几乎每个视角下表现最好。当视角为0°和180°时，mASR约为1.0，这表明当置信度阈值大于0.1时，人可以始终逃避检测器。当视角接近90°或270°时，它的效果较差。0.00.20.81.00.00.20.40.60.81.0mASR0.0920.7710.2870.8930o90oo270o360o00.51.0mASR133140置信度0召回率0随机, AP 1.000 对抗贴片, AP0.995 对抗贴片平铺, AP 0.996对抗T恤, AP 1.000对抗T恤平铺, AP 0.952TC-EGA, AP 0.3590图10.物理对抗测试集上的召回率与置信度曲线和AP值。目标网络为YOLOv2。0服装随机T恤裙子连衣裙0表2. 不同对抗性服装的平均成功率（mASR）0ASR与置信度阈值相关，我们计算了ASR的平均值，即mASR，使用多个阈值。在我们的实验中，阈值为0.1，0.2，...，0.9。图11展示了多个视角下的mASR。与随机纹理相比，当人面对摄像机时（图中的视角为0°或360°），对抗贴片和对抗T恤是有效的。然而，当视角增加时，这两种方法的mASR值下降，表明了段缺失问题。这两种方法的平铺变体在多个视角下具有一定的对抗效果，但在几乎每个视角下的mASR值都低于0.5。TC-EGA在几乎每个视角下表现最好。当视角为0°和180°时，mASR约为1.0，这表明当置信度阈值大于0.1时，人可以始终逃避检测器。当视角接近90°或270°时，它的效果较差。0因为在这种视角下，相机捕捉到的区域较小。我们研究了衣物类型和人与相机之间的距离对其影响。从表2可以看出，当纹理应用于不同类型的衣物时，对抗效果会有所变化。当应用于较大的衣物（例如连衣裙）时，攻击效果更好，因为相机捕捉到的纹理区域更大。此外，对抗性衣物在室内和室外场景中的mASR相当（请参见《补充材料》）。当远离相机时，它们的效果会下降（请参见《补充材料》）。表3显示了对抗

下载后可阅读完整内容，剩余1页未读，立即下载