PhysGAN：物理世界自动驾驶系统的对抗性示例生成技术

141 浏览量更新于2023-10-23 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1PhysGAN：为自动驾驶Zelun Kong<$，Junfeng Guo<$ $>，Ang Li李彦宏，and Cong Liu<$德克萨斯大学达拉斯分校马里兰大学帕克分校University of Maryland，College Park摘要尽管深度神经网络（DNN）被广泛用于基于视觉的自动驾驶系统中，但它们被发现容易受到对抗性攻击，其中在测试期间对输入的小幅度扰动会导致输出的急剧变化。虽然大多数最近的攻击方法针对数字世界的对抗场景，但尚不清楚它们在物理世界中的表现，更重要的是，在这些方法下生成的扰动将覆盖整个驾驶场景，包括那些固定的背景图像，例如天空，使它们不适用于物理世界实现。我们提出了PhysGAN，它以连续的方式生成物理世界弹性对抗示例，用于误导自动驾驶系统。我们通过广泛的数字和现实世界的评估显示了PhysGAN的有效性和鲁棒性。我们将PhysGAN与一组最先进的基线方法进行了比较，这进一步证明了我们方法的鲁棒性和有效性。我们还表明，PhysGAN优于最先进的基线方法。据我们所知，PhysGAN可能是第一种生成现实和物理世界弹性对抗示例的技术，用于攻击常见的自动驾驶场景。1. 介绍虽然深度神经网络（DNN）已经建立了基于视觉的自动驾驶系统的基础，但它们仍然容易受到对抗性攻击和错误的致命行为的影响。最近关于对抗机器学习研究的工作表明，DNN很容易受到有意对抗输入的影响，这些输入的扰动集中在分类问题上[4，12，19，22，25]。为了解决自动驾驶系统中的安全问题，提出了自动生成对抗性示例的技术，该技术增加了小幅度的干扰，现在在DeepMind图1：一个敌对的路边广告标志（右上）的说明视觉上无法区分从原来的标志（左上）和它的部署在物理世界（底部）。对输入的波动，以评估基于DNN的自动驾驶系统的鲁棒性[12，8，27]。然而，这些技术主要集中在生成数字对抗性示例，改变图像像素，这在现实世界中永远不会发生[12]。它们可能不适用于真实的驾驶场景，因为在这种技术下产生的最近，一些作品迈出了研究物理世界攻击/测试静态物理对象[2，17]，人类对象[24，7]，交通标志[23，18，8]的第一步。尽管它们在目标场景和某些假设下被证明是有效的，但它们专注于研究静态的物理世界场景（例如，停止标志的单个快照[8，23]），其阻止了它们自身在实际中的应用，因为真实世界的驾驶是遇到动态变化的连续过程（例如，视角和距离）。此外，它们生成的对抗性示例在视觉上是不现实的（例如，司机明显的黑色和白色贴纸贴在停车标志上，这是很容易注意到的攻击目的[8]）。这些方法中的大多数还关注与我们研究的转向模型（回归模型）不同的分类模型。此外，要注意的是，直接扩展现有的数字每-1425414255扰动生成技术（例如，FGSM）到物理世界设置，即，仅仅将目标路边标志输入到这样的技术中将输出相应的对抗性示例，这可能是无效的。由于生成扰动的过程没有考虑物理世界中的任何潜在背景图像（例如，天空），其将在驾驶期间由任何相机捕获。我们的目标是生成一个真实的单个对抗性示例，该示例可以物理打印出来以替换相应的原始路边对象，如图所示。1.一、由于目标车辆连续地观察这种对抗性示例，因此本文的主要挑战是如何生成单个对抗性示例，该示例可以在驾驶过程期间的每一帧处连续地此外，对于实际的物理世界部署，任何生成的对抗性示例都应该在视觉上与其原始符号（已经在物理世界中部署的符号）无法区分。为了解决这些挑战，我们提出了一种新的基于GAN的框架，称为PhysGAN1，它通过观察驾驶期间捕获的多个帧来生成单个对抗性示例，同时保留对某些物理世界条件的弹性。我们的体系结构包含编码器（即，目标自动驾驶模型的CNN部分），其在驾驶期间从帧中提取特征并将其转换为用作生成器的输入的向量。该设计考虑了从帧中提取的所有因素，保证了生成器能够生成具有攻击效果的对抗性样本。如果没有这个编码器，效率会大大降低。为了生成一个可以连续错误引导转向模型的对抗性示例，PhysGAN采用3D张量作为输入。这增强了所生成的示例针对某些物理世界动态的弹性，因为使用视频切片使得更有可能捕获这种动态。我们通过使用一组最先进的转向模型和数据集进行广泛的数字和现实世界的实验来证明PhysGAN的有效性和鲁棒性。数字实验结果表明，PhysGAN是有效的各种转向模型和sce- narios，能够误导的平均转向角高达21.85度。物理案例研究进一步证明，PhysGAN在生成物理世界对抗示例方面具有足够的弹性，能够将平均转向角错误引导高达19.17度。通过与一套全面的基线方法进行比较，也证明了这种功效。据我们所知，PhysGAN是第一个生成现实和物理世界弹性对抗示例的技术，用于攻击常见的自主1https://github.com/kongzelun/physgan.git转向系统我们的贡献可以归纳为以下三个方面。• 我们提出了一种新的基于GAN的框架Phys-GAN，它可以生成对应于任何路边交通的物理世界弹性对抗示例FIC/广告标志和误导自动驾驶转向模型与生成的视觉上难以区分的对抗性示例。• 我们提出了一种使用3D张量作为优化生成器输入的GAN架构，解决了物理世界部署在整个驾驶过程中，使用一个对抗性的例子来不断误导转向。• 我们用几个指标进行了广泛的数字和物理世界评估，这表明PhysGAN的攻击性能超过最先进的方法。我们相信PhysGAN可以为自动驾驶的未来安全研究做出贡献2. 相关作品对抗性攻击。最近提出了许多作品来生成对抗性的攻击示例在白盒设置[21]中，对手知道网络的参数。快速梯度符号法（FGSM）[11]代表了这些方法中的先驱，它沿着每个像素处梯度符号的方向执行一步梯度更新。FGSM在[13]中被进一步扩展为通过最大化目标类的概率的有针对性的攻击策略，这被称为OTCM攻击。还提出了基于优化的方法[26，14，4，5，29]。GAN最近在[10]中引入，由两个在零和游戏框架中相互竞争的神经网络系统GAN在面部生成[16]和操纵[30]中都实现了视觉上吸引人的结果。[29]提出了AdvGAN，它利用GAN生成对抗性示例，在分类问题上具有高攻击成功率。这些方法专注于将扰动应用于整个输入，并且仅考虑数字世界攻击场景。很难将它们应用于现实世界，因为不可能使用某些生成的扰动来替换现实世界的背景（例如，天空）。生成物理对抗性示例。到据我们所知，只有最近的一组作品[15，8]开始致力于生成物理攻击。 [15]第十五话对静态物理对抗实例的理解。[8]明确地设计扰动，使其在不同的现实世界条件下有效。他们的方法主要是在动态距离和视角下对物理路标进行分类。不幸的是，这些工作集中在静态攻击场景（例如，对抗效果14256误导读者得到一个可持续的驱动模型f为f（Xi）Yi和最大化i|f（Xi）−Yi|. 为了达到目标，PhysGAN需要生成一个对抗性的路边标志Sadv取代原来的路边标志Sorig在数字或物理世界。对抗性路边标志Sadv被假定为在x2范数距离度量方面接近原始路边标志Sorig，这意味着对抗性路边标志Sadv与原始路边标志S orig之间存在距离度量。路边标志SAdv和原来的路边标志Sorig 他们-图2：PhysGAN框架概述。w.r.t. 到物理示例的单个快照），并且因此不需要解决一对多挑战。与这些工作不同的是，PhysGAN能够生成仅对应于路边交通/广告标志的物理世界弹性对抗示例;除街道标志外，其他地方均不会受到干扰。PhysGAN解决了持续攻击转向模型的一对多挑战，并生成真实的对抗性示例，这些示例对各种物理世界条件具有弹性，并且在视觉上与原始路边标志无法区分3. 我们的方法：PhysGANPhysGAN的目标是生成在视觉上与任何常见的路边物体（例如，路边交通或广告标志），以通过用对抗性示例在物理上替换路边板来持续地误导驶过的自动驾驶车辆的转向角模型（目标模型）。当自动驾驶车辆经过路边标志时，转向角模型会被愚弄并做出错误的决策。3.1. 问题定义我们在本节中定义了我们的问题和符号设X={Xi}为视频切片集合，使得X =Rn×w×h，其中n为视频切片中的帧的数量，w和h分别为帧的宽度和高度让Y={Yi}是地面实况转向角集合，Y <$Rn。假设（Xi，Yi）是数据集中的第i个样本视觉上几乎无法区分。3.2. 物理世界的挑战对物体的物理攻击必须能够在不断变化的条件下生存下来，并保持有效地欺骗转向角模型。我们围绕常见的驾车经过场景（即，车辆朝路边标志行驶）。“一对多”的挑战一个关键的技术挑战是解决“一对多”的产生单个对抗样本以在整个驾驶过程中连续地误导车辆的转向角决定在生成对抗样本时考虑多个帧是具有挑战性的，因为车辆到板的距离、视角、甚至每个帧上的细微像素都可能不同。一个有效的对抗样本必须能够在所有帧中表现出最大的整体攻击效果。为了实现这一目标，对抗性样本需要对每个帧上显示的变化条件具有弹性。为了解决这个问题，PhysGAN应用了一种新的基于GAN的框架，并将整个驾车视频切片而不是单个帧作为生成过程中的输入（参见第二节）。3.5）。有限的操作区域。与大多数数字世界对抗方法不同，这些方法将扰动添加到整个输入图像中，这些技术专注于物理世界场景，IO被限制为仅向图像的片段，即，该碎片区域对应于原始物理对象。此外，静态图像背景的潜在隐藏在物理攻击中不成立，因为背景可以在驾驶过程中一致地改变。3.3. PhysGAN概述图2示出了PhysGAN的总体架构，其主要由四个组件组成：编码器E、生成器G、目标自适应编码器D和目标自适应编码器D。由视频切片Xi∈ X和Yi∈ Y组成，每个其元素表示地面实况转向角对应于它的框架。预先训练的目标转向模型（例如，Nvidia Dave-2、Udacity Cg 23和Rambo）从视频切片集合X学习映射f：X → Y，在训练阶段期间的地面实况转向角设置Y给定实例（Xi，Yi），PhysGAN的目标是产生对抗性路边标志Sadv，其旨在驱动模型f.编码器E表示卷积，目标自动驾驶模型f的功能层，将3D张量作为输入，并用于提取视频的特征为了解决只生成一个连续影响驱动过程的示例的挑战，我们引入了一个新的想法，将3D张量作为基于GAN的框架中的输入。2D张量通常表示图像，而3D张量映射3D张量目标模型映射142571AdvAdvAdvAdvAdv张量用于表示视频的一小部分，其通常包含数百个帧。参见图2.原始视频切片Xorig的提取特征被用作馈送到生成器的输入，以生成对抗性路边标志Sadv。这样做允许我们考虑不同的原始视频切片Xorig可能对所生成的对抗性路边标志Sadv具有不同影响的事实，从而确保生成器G以生成对应于某个原始视频切片Xorig的最佳对抗性路边标志Sadv。广告词-将敌对路边标志 Sadv 和原始路边标志 Sorig 发送给CNOD，CNOD用于区分敌对路边标志Sadv和原始路边标志Sorig。BHD表示一个损失函数，它衡量对抗性攻击路边标志Sadv和原始路边标志Sorig，并且还鼓励生成器生成与原始标志视觉上不可区分的示例。3.4. 与目标模型一起训练GAN为了确保对抗性路边标志Sadv对目标自动驾驶具有对抗性效果，算法1优化PhysGAN要求：I-迭代次数;Require：f- 固定参数的目标模型一曰： whilei I：do2：Sadv=G（E（Xorig））;3：LGAN= logD（Sorig）+log（1- D（Sadv））;4：//固定G的参数5：进行反向传播以优化arg maxDLGAN;6：Sadv=G（E（Xorig））7：LGAN= logD（Sorig）+log（1- D（Sadv））;8：//修复D9：对于输入视频切片中的每一帧，- 前瞻性映射，以使用对抗性路边标志Sadv代替原始路边标志Sorig。10：进行反向传播以优化arg minGLGAN;11： LADV=βexp（−β·lf（f（Xorig）;12：进行反向传播以优化arg minGLADV;13：结束while其可表示为在模型f中，我们引入以下损失函数：LGAN=ESorigpSorig [logD（S原始）]（三）Lf=βexp .1-·l（f（XΣ），f（X））（一）+ESadvsoupSAdv[log（1− D（S adv））]。AdvβforigAdv为了解释这个目标函数，LGAN 鼓励其中β是锐度参数，lf表示用于训练目标自主驾驶模型f的损失函数，对抗性路边标志Sadv在视觉上类似于原始路边标志Sorig，而Lf被利用，例如MSE-丢失或MSE1-丢失，Xorig表示原始视频切片Xorig，Xadv表示对抗视频切片Xadv，其通过将对抗路边标志Sadv映射到原始视频的每一帧中生成对抗视频切片Xadv，其最大化at-粘性有效性我们得到编码器E，生成器G，并通过求解：arg minmax L.（四）切片X原点通过最小化LfGD之间的距离预测和地面实况将被最大化，确保对抗有效性。为了计算Lf，我们通过用生成的对抗性路边标志Sadv替换原始路边标志S orig来获得对抗性视频切片X adv。注意到所生成的对抗性路边标志Sadv是矩形图像，并且视频切片中的原始路边标志Sorig可以表现出可以在不同帧之间变化的任意四边形形状。我们利用经典的透视映射方法[1]来解决这种不匹配。我们首先得到每个帧内的原始路边标志Sorig的四个坐标，然后将生成的敌对路边标志Sadv映射到每个帧内的相应四边形区域上（细节可以在补充材料中找到）。PhysGAN的最终目标表示为：3.5. 攻击PhysGAN我们假设目标自动驾驶模型f是预先训练的，并且目标自动驾驶模型f的参数是固定的，并且PhysGAN的生成器G在训练期间只能访问目标自动驾驶模型f我们的训练PhysGAN在算法1中示出，其由两个阶段组成。如算法1中所示，第一阶段是训练CXD，稍后将使用CXD来形成部件LGAN（2 - 5号线）;第二阶段是培训性别-具有两个损失函数Lf和LGAN的生成器G，其鼓励生成器G生成视觉上不可区分的对抗样本，并使生成的样本相同。对于目标自动驾驶模型，f，分别为（第6编码器E，即L=LGAN+λLf、（二）CNN部分目标自动驾驶车型f，aims从所有观察到的帧中提取特征，其中λ表示平衡两项之间的折衷的系数，驱动并将它们转换成输入到生成器的矢量。这种设计确14258保了发电机能够发电-14259通过考虑从视频切片中提取的所有有用特征，使用具有攻击效果的视觉上不可区分的示例。对于物理世界部署，攻击者应打印与目标路边标志相同大小的对抗性示例，以确保视觉不可见性。4. 实验我们使用广泛研究的基于CNN的转向模型和流行的数据集，通过数字和物理世界评估来评估PhysGAN。4.1. 实验装置转向模型。我们在几个流行和广泛研究的基于CNN的转向模型上评估PhysGAN [6，28，3]，如NVIDIADave-22，Udacity Cg 233和Udity Rambo4。值得注意的是，由于原始模型应用了用单个图像训练的2D CNN，因此我们将2D CNN调整为3D CNN，并使用一组20帧视频切片训练3D-CNN数据集。在我们的数字实验中使用的数据集包括（1）Udacity自动驾驶汽车挑战数据集5，其包含由驾驶汽车的安装在仪表板上的摄像机捕获的101396个训练图像以及由人类驾驶员针对每个图像应用的同步方向盘角度;（2）DAVE-2测试数据集[20] 6，包含45，568张图像，用于测试NVIDIA DAVE-2模型;(3) Kitti [9]数据集，包含来自六个不同场景的14，999张图像，这些图像由配备四个摄像头的大众帕萨特旅行车捕获;以及（4）用于物理世界评估的自定义数据集，其中包含用于在物理情况下训练PhysGAN的超过20000帧。对于物理世界的实验，我们首先执行颜色增强以提高图像对比度，使对抗性示例在不同的光照条件下更加鲁棒然后，我们打印出在每个评估方法下生成的示例，并将其粘贴到选定的路边对象上。我们通过这个对象驾驶车辆，并使用捕获的驾驶视频进行离线分析。为了了解PhysGAN在实际自动驾驶车辆上的表现，我们还进行了在线驾驶测试，模拟了面对这种敌对的路边物体时的真实驾驶过程。视频切片选择标准。我们的驾驶场景选择标准是路边交通或广告标志应完全出现在驾驶视频的第一帧2https://devblogs.nvidia.com/deep-learning-self-driving-cars/网站3https://github.com/udacity/self-driving-car/tree/master/steering-models/community-models/cg234https://github.com/udacity/self-driving-car/tree/master/steering-models/community-models/rambo5https://medium.com/udacity/challenge-2-using-deep-learning-to-predict-steering-angles-f42004a36ff36https://github.com/SullyChen/driving-datasets场景图像大小minMax戴夫-直120455 ×25621 ×2241 ×49Dave-curve120455 ×25629 ×3251 ×49Udacity-straight120640 ×48048 ×2966 ×35Udacity-curve120640 ×48051 ×51155 ×156Kitti-straight120455 ×139256 ×74121 ×162Kitti-straight220455 ×139280 ×46247 ×100Kitti-curve120455 ×139264 ×74173 ×223表1：实验中评估的场景。超过400个像素，并在最后一帧中部分消失。我们从上述数据集中选择7个场景，并对所有选定的场景进行评估。每个数据集中的选定场景涵盖了直线和曲线车道场景。由于所有这些数据集都不包含路边标志的坐标，因此我们必须在所选场景的每帧中标记标志的四个角。我们使用Adobe After Effects7的运动跟踪器功能来自动跟踪标志四个角在连续帧中的移动。表1显示了我们选择的场景的属性。基线方法。我们将PhysGAN与几种基线方法进行了比较：• 原始标志。第一个基准是简单地测试原始的路边标志。这种比较很重要，因为它验证了转向角误差是否是由于但不是原来的标志。我们在数字和物理评估中都包括这一基线。• FGSM。FGSM [11]非常强大，它旨在通过利用梯度在我们的问题背景下，我们直接应用FGSM产生扰动给定一个捕获的投入框架。我们在数字评估中只包括FGSM，因为不可能应用覆盖整个图像帧的所生成的扰动（例如，在物理世界中。• PhysFGSM。为了在物理世界中应用FGSM，我们开发了一种称为Phys-FGSM的新方法作为附加基线，该方法基于FGSM，并且仅对输入图像中的目标路边标志生成扰动这样做可以让我们打印扰动图像并将其粘贴到相应的标志。我们将PhysFGSM纳入数字和物理评估。由于视频切片包含多个帧，PhysFGSM产生扰动的基础上，中间帧。• RP2。我们还将PhysGAN与物理世界基线RP 2 [8]进行了比较，RP 2是一种优化方法，可以为单个输入场景生成扰动原始的RP2方法侧重于分类7https://www.adobe.com/products/aftereffects.html14260ALDSple唐APMCALDSple唐APMCALDS普勒敦ApMcALDSple唐APMCALDSple唐APMC角度误差角度误差角度误差角度误差角度误差戴夫UdacityKitti直线1Curve1直线1Curve1直线1直线2Curve1苹果麦当劳表2：原始和生成的对抗片段以及各种场景下的对应图像帧20 20 200 0 02002468 10 12 14 16 18 20帧索引2002468 10 12 14 16 18 20帧索引2002468 10 12 14 16 18 20帧索引(a) 戴夫直1(b) 戴夫曲线1(c) Udacity Straight120 20 20 200 0 0 02002468 10 12 14 16 18 20帧索引2002468 10 12 14 16 18 20帧索引2002468 10 12 14 16 18 20帧索引2002468 10 12 14 16 18 20帧索引(d) Udacity曲线1(e) Kitti Straight1(f) Kitti Straight2(g) 基蒂曲线1图3：Nvidia Dave-2转向模型上转向角度误差沿时间轴变化的图示问题，所以我们通过用回归损失代替分类损失将其扩展到适用于• 随机噪声。我们还打印了一张带有随机噪声的图像，并将其粘贴在路边标志的顶部。评估指标。在我们的实验中，我们使用两个指标来评估PhysGAN的功效：转向角均方误差（表示为转向角MSE）和最大转向角误差（MSAE）。转向角MSE测量预测的转向角和地面实况之间的误差的平方的平均值，并且MSAE表示在属于视频切片的所有帧大的转向角MSE和MSAE意味着更好的攻击效能。此外，我们进行在线驾驶测试案例研究，我们手动控制转向角在每一帧（近似）根据实时计算的结果转向角误差在每一个评估的方法。我们在本文中使用度量路边时间来测量攻击效率，其测量实际自动驾驶车辆行驶到路边路边所需的时间。请注意，结果是相对于地面实况转向角的。4.2. 结果我们首先报告了PhysGAN在数字和物理世界场景下的总体疗效。补充文件中提供了一整套结果。数字场景的结果。表2示出了每个场景的代表性帧，其中符号被替换为从PhysGAN（使用目标转向模型NVIDIA Dave-2）生成的对抗性示例。表2的每一列表示一个特定场景。据观察，Phys-GAN可以生成相当逼真的对抗样本，与原始对象在视觉上无法区分。原始视频切片中的目标路边标志被我们选择的麦当劳和Apple Watch标志所取代，并且修改后的视频切片用于所有实验。这是因为原始视频切片中的路边标志具有低分辨率，这使得难以验证我们生成的路边标志是否在视觉上可区分。图图3示出了在每个帧场景中沿着时间轴的转向角误差的结果，其中，副图像的尺寸图1中的每个子图3表示特定场景，其中S纳尔德市民防办苹果ALDS普勒敦APMC角度误差角度误差14261原始PhysGANPhysGAN帧基线基线帧Rp2随机噪声表3：不同方法下的物理世界对抗性情景说明框架编号1234567891011121314151617181920原始苹果标志0.36-0.510.820.450.10-0.160.84-1.38-2.16-0.860.60-1.110.21-0.49-0.55-0.560.10-0.510.49-1.00PhysGAN（苹果）0.170.891.687.941.934.792.876.342.083.549.068.375.9312.5113.4311.3712.7511.7413.6313.44麦当劳标志-0.17-0.42-1.49-1.34-0.51-0.080.60-0.350.70-0.75-0.43-0.350.59-0.891.490.610.94-0.991.13-0.00PhysGAN（麦当劳-1.24-1.37-0.02-0.30-2.48-0.17-1.06-0.80-0.01-5.37-1.60-2.62-2.45-4.68-11.71-10.85-9.83-8.74-11.35-19.17表4：物理世界实验下的每帧转向角误差。图2和图4（第3行和第5行）示出了部署原始符号（由PhysGAN生成的对应对抗符号）时的转向角误差。x轴表示沿时间轴的帧索引，y轴表示转向角误差。我们清楚地观察到，PhysGAN导致几乎所有帧的明显角度误差，即使是对抗样本与背景相比相对较小的早期帧。物理世界场景的结果。我们进行如下物理世界实验。我们首先录制驾驶车辆朝向原始路边标志的训练视频，并使用这些视频来训练Dave-2模型。然后，我们按照与数字世界评估相同的配置来训练PhysGAN，以生成对抗性样本。然后，生成的对抗样本被然后，我们记录了相同的驾车过程的测试视频，但使用了对抗性样本。通过对测试视频的分析，得到了转向角误差。具体而言，对于训练和测试视频切片，我们在70英尺外开始记录，并在车辆物理通过广告标志时停止记录。对于训练视频，驾驶速度设置为10mph以捕获足够的图像。测试视频的速度设置为每小时20英里，以反映普通的校园驾驶速度限制。由于安全原因，物理案例研究在直线车道上进行。路边广告实验中使用的电路板为48′×72′。表3显示了在不同方法下生成的原始符号和相应的对抗性示例，以及每个示例的相机捕获场景。为了清楚地解释结果，我们列出了由于PhysGAN和使用原始符号引起的每帧转向角误差在表4中（其他比较结果详见第4.3）。如表4所示，PhysGAN能够生成单个可打印的物理世界弹性对抗示例，这可能会在整个驾驶过程中误导连续帧的驾驶模型这里的一个有趣的观察是，转向角误差倾向于随着帧索引的增加而增加这是因为，对于较大的帧索引，对抗样本的大小在整个帧中占据相对较大的空间，因此能够对转向模型产生更负面此外，我们观察到，与原来的路边标志，转向角误差几乎可以忽略不计，在所有帧。4.3. 与基线方法的比较数字基线。对于每个转向模型，我们将我们的方法与其他四个基线进行比较，包括FGSM，PhysFGSM，随机噪声和原始符号。表5显示了七个不同场景的结果。这些结果表明以下观察结果：（1）虽然FGSM达到了最高的攻击效果，但它需要对整个场景施加扰动，这不适用于物理世界;（2）我们的方法的攻击效果比PhysFGSM好得多，这意味着一旦考虑物理世界的实现限制，PhysGAN将优于现有方法的直接扩展。(3)由于在随机噪声和原始符号下的角度误差是微不足道的，所以每个转向模型都是相当鲁棒的。物理基线。对于物理世界的情况下，我们比较PhysGAN对PhysFGSM，随机噪声和原始符号。结果示于表6中。我们观察到，随机噪声和原始符号都具有可忽略的IM。14262转向模型方法戴夫UdacityKitti直线1Curve1直线1Curve1直线1直线2Curve1NVIDIA Dave-2PhysGAN106.69 /15.6166.79 /11.6381.76 /17.04114.13 /14.64108.76 /17.72150.00 /17.3495.87 /15.83FGSM115.91 /17.41199.27 /19.47141.23 /16.17192.19 /21.23156.16 /17.84217.52 /19.50103.38 /14.54PhysFGSM15.88 /6.424.73/4.8713.91 /5.743.08/2.8915.17 /8.048.67/4.5413.12 /7.24随机噪声3.00/2.012.25/2.372.36/2.601.77/3.103.15/3.161.60/0.965.92/4.41原始标志4.17/3.154.35/2.403.84/1.791.09/0.724.20/2.983.06/1.232.86/1.30Udacity Cg23PhysGAN91.85 /13.80113.41 /14.7850.61 /10.4378.56 /15.4646.53 /11.7262.64 /11.6471.09 /18.14FGSM203.34 /19.70157.98 /14.67171.92 /19.8996.74 /17.75136.08 /14.00162.35 /18.5389.75 /16.71PhysFGSM58.53 /11.8636.44 /10.6830.72 /9.4146.74 /8.8828.89 /11.3722.63 /7.6161.23 /10.95随机噪声5.32/3.673.75/2.724.05/2.524.20/2.265.31/4.496.54/1.986.10/3.68原始标志4.17/3.154.35/2.403.84/1.794.09/2.724.20/2.983.06/1.232.30/1.86Udacity RamboPhysGAN61.87 /11.28113.78 /15.2987.68 /13.9042.71 /12.5556.41 /12.4258.67 /10.42145.66 /21.85FGSM209.81 /21.78147.28 /16.43151.14 /15.28166.50 /16.27169.17 /18.57126.14 /14.19175.28 /19.36PhysFGSM16.43 /8.9514.24 /8.345.32/3.7314.82 /6.1116.58 /7.7813.89 /7.9329.58 /19.18随机噪声1.90/2.553.49/5.796.06/5.001.92/3.983.82/5.422.09/3.051.52/1.91原始标志3.93/2.016.30/4.461.80/1.286.54/2.525.06/3.525.75/4.034.95/2.07表5：所有评价入路下的转向角MSE（左）和MSAE（右）虽然FGSM产生最大的在所有物理世界攻击方法中，我们的方法PhysGAN产生最好的性能。PhysGANRp2随机噪声原始标志NVIDIA Dave-273.94 /13.6323.48 /6.522.48/1.022.12/1.56Udacity Cg2399.23 /14.5625.15 /7.862.56/2.112.15/1.73Udacity Rambo87.56 /17.6032.54 /7.511.51/1.153.12/2.48表6：PhysGAN、RP 2、随机噪声和原始符号下的转向角MSE（左）和MSAE（右）对转向模型的约定，其指示预先训练的转向模型（没有被攻击）在物理世界设置中足够如表6所示，Phys-GAN的性能明显优于RP 2，在所有转向模型下都能达到非常高的攻击效能，这可能会导致现实世界中的危险驾驶行为。PhysGANRp2随机噪声原始抑制时间10s---中心距1.5m1.09m0.29m0.47m表7：在线驾驶测试结果。第二行示出了到路边的时间结果，第三行示出了车辆偏离正确路径的最大距离（即，直行）。4.4. 在线驾驶案例研究上述评估是偏离政策的，其中驾驶轨迹不受敌对迹象的影响。在本节中，我们进一步进行政策评估，即，模拟实际驾驶场景的在线驾驶案例研究，以了解PhysGAN如何影响实际自动驾驶车辆的转向决策。在这些案例研究中，我们根据使用转向模型Nvidia Dave-2计算的每种方法下的转向角误差，在每帧内以实时方式手动控制转向我们要求人类驾驶员以5 mph的速度驾驶车辆1秒，以反映一个帧和相应的手动转向动作。我们注意到，这个在线评估设置是一个代理，真正的自动驾驶汽车，并提供适当的评估攻击系统。我们不使用虚拟模拟器进行评估，因为它们通常会导致模拟到真实的转换错误。因此，模拟器上的评估结果不能反映物理世界中的模型能力。如表7所示，PhysGAN在两个指标下的表现优于其他基线此外，只有在PhysGAN下生成的对抗性标志才能引导车辆行驶到路边路边，这需要10秒（考虑到由于安全问题而导致的非常低的行驶速度该在线驾驶案例研究进一步展示了PhysGAN技术在自动驾驶汽车上的危险转向动作，表明了其在实际自动驾驶汽车上的有效性。5. 结论我们介绍了PhysGAN，它为误导性的自主转向系统生成物理世界弹性对抗示例。我们提出了一种新的基于GAN的框架，用于生成一个单一的对抗性示例，该示例在整个过程中不断误导驾驶模型。生成的对抗性示例在视觉上与原始路边对象不可区分。广泛的数字和物理世界的实验表明，PhysGAN的效率和鲁棒性。我们希望我们的工作能够激发未来对自动驾驶安全和强大的机器学习的研究。14263引用[1] 透视图，https：//www.geometrictools.com/Documentation/PerspectiveMappings.pdf。4[2] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。arXiv预印本arXiv：1707.07397，2017。1[3] 阿尔贝托·布罗吉，米歇尔·布佐尼，斯特凡诺·德巴蒂斯蒂，保罗·格里斯莱里，玛丽亚·基亚拉·拉基，保罗·梅迪奇和彼得罗·韦尔萨里。广泛测试自动驾驶技术。IEEE Transactions on Intelligent Transportation Systems，14（3）：1403-1415，2013。5[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。一、二[5] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。2[6] Chenyi Chen ， Ari Seff ， Alain Kornhauser ， andJianxiong Xiao.深度驾驶：自动驾驶中直接感知的学习启示。 IEEE International Conference on ComputerVision，第2722- 2730页，2015年。5[7] Gamaleldin Elsayed 、Shreya Shankar、Brian Cheung、Nico- las Papernot、Alexey Kurakin、Ian Goodfellow和Jascha Sohl-Dickstein。对抗性的例子，欺骗了计算机视觉和时间有限的人类。神经信息处理系统的进展，第3914-3924页，2018年1[8] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的强大物理世界攻击。在CVPR中，第1625- 1634页，2018年。一、二、五[9] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 5[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NIPS，第2672-2680页2014. 2[11] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。2015年，国际会议。二、五[12] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。 arXiv 预印本 arXiv ：1607.02533，2016。1[13] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习。ICLR，2017年。2[14] Yan

下载后可阅读完整内容，剩余1页未读，立即下载