超越图像空间的3D物理属性导致的对抗性示例攻击问题

47 浏览量更新于2023-10-18 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1超越图像空间的曾晓辉1，刘晨曦2（），王玉祥3，邱伟超2，谢玲喜2，4，戴玉荣5，唐志强6，李伟平。Yuille21多伦多大学2约翰霍普金斯大学3国立台湾大学4华为诺亚xiaohui@cs.toronto.educxliu@jhu.edub03202047@ntu.edu.tw{qiuwch，198808xc，yuwing，alan.l.yuille}@ gmail.comcktang@cs.ust.hk摘要生成对抗性示例是一个有趣的问题，也是理解深度神经网络工作机制的重要方法。大多数现有的方法在图像空间中产生扰动，即，可以独立地修改每个像素。然而，在本文中，我们特别关注与3D物理属性（如旋转和平移，照明条件等）中有意义的变化相对应的对抗性示例的子集。这些对手可以说是一个更严重的问题，因为它们证明了通过对真实世界3D对象和场景的简单扰动而导致神经网络故障的可能性。在对象分类和视觉问题回答的背景下，我们增强了最先进的深度神经网络，该网络在前面使用渲染模块（可微或不可微）接收2D输入图像，以便将3D场景（在物理空间中）渲染成2D图像（在图像空间中），然后映射到预测（在输出空间中）。对抗性扰动现在可以超越图像空间，并在3D物理世界中具有明确的意义虽然图像空间的对手可以被解释为每像素的变化，我们验证，他们不能很好地解释沿这些物理意义的尺寸，这往往有一个非局部的影响。但是，仍然有可能在物理空间上成功地攻击图像空间之外，尽管这比图像空间攻击更困难，反映在较低的成功率和所需的较重扰动上。1. 介绍近年来，深度学习领域发展迅速，其中深度神经网络已被应用于广泛的计算机视觉任务，如图像分类[17][13]，对象检测[32]，语义分割[35][8]，视觉问题[16][17][18][19][19][19][19]。超越影像空间图像空间中梯度支撑修改3D场景修改2D图像渲染CNN3D对象2D图像第1轮：汽车第2轮：汽车……第T轮：总线攻击成功！图1.绝大多数对抗性攻击的现有工作都集中在修改2D图像中的像素值以导致错误的CNN预测。在我们的工作中，我们考虑了更完整的视觉管道，其中2D图像实际上是底层3D场景的投影。这表明对抗性攻击可以超越图像空间，直接改变定义3D场景的物理意义属性。我们怀疑这些对抗性的例子在物理上更合理，因此会带来更严重的安全问题。[2][14]等。尽管深度学习取得了巨大的成功，但仍然缺乏一种有效的方法来理解深度神经网络的工作机制。一个有趣的尝试是产生所谓的对抗扰动。它们是视觉上难以察觉的噪声[12]，在添加到输入图像后，完全改变了预测结果，有时甚至是荒谬的。这些示例可以在广泛的视觉问题中构建，包括图像分类[26]，对象检测和语义分割[39]。研究人员认为，对手的存在意味着特征空间中的未知属性[37]。我们的工作是出于这样一个事实，即传统的2D对手往往是通过单独修改每个图像像素生成的。相反，我们考虑3D场景的扰动，这些扰动通常是非局部的，并且对应于对象的物理特性。我们注意到，以前的工作通过在打印的扰动图像上拍照来发现“物理世界”中的对抗性例子但43024303图2. 3D对象分类和视觉问题回答的对抗性示例，在可微分或不可微分渲染器下。顶行显示，虽然通过攻击图像空间当然可以产生对抗性示例，但也可以通过改变表面法线，材料，照明条件等因素成功攻击物理空间（见3.1节）。下面一行使用更真实的不可微渲染器演示了相同的操作，并描述了如何进行攻击。p和conf是预测类的可感知性（见3.2节）和置信度（post-softmax输出）。我们的工作是不同的，更重要的，因为我们正在攻击定义3D场景/对象的内在参数，而[18]仍然限于攻击2D图像像素。为此，我们将3D渲染作为网络模块插入到最先进的神经网络中，用于对象分类和视觉问题回答。通过这种方式，我们构建了一个从物理空间（一组物理参数，包括表面法线，照明和材料），通过图像空间（渲染的2D图像）到输出空间（对象类或问题的答案）的映射函数图1展示了这个框架。每像素的图像空间攻击可以根据每个像素的扰动的变化来解释，但是这些单独的扰动非常不可能发生对应于，例如，一个简单的旋转的对象在3D。使用我们的渲染流水线，我们确实发现几乎不可能使用3D物理上有意义的扰动来近似2D图像对手与此同时，这也暗示了一种防御对手的自然机制-在物理空间中找到近似解并重新渲染将使大多数图像空间对手失败。这种合成分析过程为处理对抗性示例和遮挡情况提供了新的方向。本文主要试图回答以下问题：如果我们不干扰2D图像像素，而是干扰3D物理属性，神经网络还能被愚弄吗？这是关于直接在物理空间中产生扰动（即，修改基本的物理参数），这导致神经网络预测失败。具体来说，我们计算当前输出和期望输出之间的差异，并使用梯度下降来更新物理空间中的参数（即，超出图像空间，其包含诸如表面法线和照明条件的物理参数）。这种攻击是通过迭代快速梯度符号方法（FGSM）[12]（用于可微渲染）或零阶优化方法[9]（用于不可微渲染）来实现的。我们约束图像强度的变化，以保证扰动是视觉上我们的主要发现是，攻击物理空间比攻击图像空间更困难。虽然以这种方式找到对手是可能的（参见图2中的一些示例），成功率较低，并且扰动的可感知性变得比图像空间中所需的要大得多这是预料之中的，因为渲染过程耦合像素值的变化，即，修改一个物理参数（例如，照明）可能导致许多像素同时改变。对象分类视觉问题回答问：另一个红色方块的尺寸是多少？和蓝色立方体的材质一样吗图像空间A：0=2.4 × 10−3conf = 64.3%物理空间A：0A：大的=2.7 × 10−3conf = 52.8%原始输入图像物理空间R：头盔问：有多少其他紫色物体具有物理空间与紫色哑光物体形状相同？A：1R：帽A：0=4.7 × 10−3conf = 89.9%R：长凳R：桌子确认= 89.9%=3.7 × 10−3物理空间R：椅子图像空间原始输入图像物理空间攻击细节• 照明ΔL键 = 0.0，1.3，-1.9，-2.5/100，...• 物体2Δ，Δ = 1.1，3.6/100，.• 物体3Δ，Δ = -2.9，5.9/100，.• 物体9Δθ = −4.2，0.5，2.2/100，.• ……物理空间攻击细节将对象沿和轴旋转−2.9、9.4和2.5（×10 −3rad） ��;然后沿和轴移动2.0、0.0和0.2（× 10 −3单位长度） ��;在RGB空间中将其颜色调整为9.1、5.4和−4.8（× 10 −2最大强度）;将光源调整为−0.3单位;将光角更改为9.5、5.4和0.6（× 10 −2单位）。不可微攻击差分攻击43042. 相关工作深度学习是最先进的机器学习技术，用于从标记数据中学习视觉表示。然而，尽管深度学习取得了成功，但要解释这些复杂的模型学到了什么仍然是一个挑战。最有趣的证据之一是adversaries[12]：（i）人类无法感知的小噪声，以及（ii）能够导致深度神经网络在添加到输入图像后早期的研究主要集中在图像分类[26][25]。但很快，研究人员就能够攻击深度网络进行检测和分割[39]，以及视觉问答[40]。人们还努力寻找可以在图像之间转移的普遍扰动[24]，以及通过在打印的扰动图像上拍照产生的物理世界中的对抗性例子[18]。攻击一个已知的网络（网络架构和权重都已给出，也就是一个白框），首先要设定一个目标。目标一般有两种。第一种（非目标攻击）旨在降低真实类的概率[26]，第二种（目标攻击）定义了网络应该预测的特定类[21]。之后，计算当前预测和目标预测之间的误差，并将梯度反向传播到图像层。这个想法被发展成一组算法，包括最陡梯度下降法（SGDM）[25]和快速梯度符号法（FGSM）[12]。不同之处在于SGDM计算了精确的梯度，而FGSM只保留了每个维度的符号。这两个算法的迭代版本也进行了研究[18]。相比之下，攻击一个未知的网络（a.k.a. 黑盒）更具挑战性[21]，并且有效的方法是总结来自一组白盒攻击的扰动[39]。相反，存在保护深度网络免受恶意攻击的努力[29][19][38]。人们还设计了算法3. 方法3.1. 从物理参数到预测作为这项工作的基础，我们扩展了深度神经网络，以接收3D场景的物理参数，将它们渲染成2D图像，并输出预测，例如。、对象的类别或视觉问题的答案。请注意，我们的研究涉及3D到2D渲染作为流水线的一部分，这与以前的工作不同，以前的工作要么处理渲染的2D图像[36][15]，要么直接处理3D数据而不将其渲染成2D图像[31][34]。我们分别用X、Y和Z表示物理空间、图像空间和输出空间给定一个3D场景X∈X，第一步是将其渲染成2D图像Y∈Y，第二步是预测Y的输出，表示为Z∈Z。整体框架表示为Z=f[r（X）; θ]，其中r（·）是渲染器r，f[·;θ]是以θ为参数的目标深度网3D渲染函数r（·）有不同的模型。其中之一是不同的[2 0]，它考虑了三组物理参数，即：、表面法线N、照明L和材质m1。通过给出这些参数，我们假设相机的几何形状，例如，、位置、旋转、视场等。是事先已知的，并且在每种情况下都将保持不变。渲染模块由Y=r（N，L，m）表示。在实践中，渲染过程被实现为网络层，该网络层对于输入参数N、L和m是可微的。另一种选择是使用不可微分的渲染器，它通常提供更高的质量[5][22]。在实践中，我们选择一个名为Blender的开源软件[5]。不假设可微性使得可以在更宽范围的参数上工作，诸如在该工作中考虑的颜色（C）、平移（T）、旋转（R）和照明（L），其中平移和旋转不能由可微渲染器2实现。为了破解这些防御者[6]，以及检测是否对抗性攻击存在[23]。这场比赛将进攻者和防守者都提升到了一个更高的水平[3]。最近，人们对修改像素值以外的[18]表明，如果我们在纸上打印数字扰动的2D图像，对抗效应仍然存在。[10][30]通过旋转2D图像或改变其亮度来欺骗视觉系统。[11][4]通过3D打印或应用贴纸创建了真实世界的3D物体，这些物体始终会导致感知失败。然而，这些对手有很高的感知能力，必须涉及对象外观的复杂变化为了在3D中找到对抗性的例子，我们使用一个渲染器，无论是可微的还是不可微的，将3D场景映射到2D图像，然后映射到输出。通过这种方式，虽然具有挑战性，但可以在3D场景中生成可解释的和1在该模型中，N是空间大小为WN×HN的2通道图像，其中每个像素由该位置的法向量的方位角和极角编码;L由尺寸为W L × H L的HDR环境图定义，每个像素存储来自该方向的光的强度（使用球面坐标系）;和m用一组双向反射分布函数（BRDF）来影响图像渲染，所述双向反射分布函数（BRDF）描述漫反射和镜面反射的逐点光反射[27]。本文中使用的材料参数来自方向统计BRDF模型[28]，其表示-发送一个BRDF作为Dm分布的组合，每个分布中有Pm参数。在数学上，我们有N∈RWN×HN×2，L∈RWL×HL和m∈RDm×Pm。2对于3D对象分类，我们按照[36]配置3D场景。L是一个5维向量，其中前两个维度表示环境和点光源的大小，后三个维度表示点光源的位置。C、T、R都是单个物体的三维属性。对于3D视觉问题回答，我们遵循[14]。L是一个12维矢量，表示3个点光源的能量和位置。对于场景中的每个对象，C是3维的，对应于RGB;T是2维的，对应于RGB。43052000年2×δ2=我们考虑两个流行的对象理解任务，即3D对象分类和3D视觉问题回答，这两个都是简单的基于渲染的2D图像。对象分类是建立在标准的深度网络之上的，当输入图像Y和问题q都被给出时，视觉问题回答也是图像分类的一种变体（目标是从预定义的一组选择中选择正确的答案在对手生成阶段，给定预先训练的网络，目标是攻击模型Z=f[r（X）; θ] =f<$r（X; θ）。对于对象分类，θ是固定网络重量，用θC表示。对于视觉问题回答，它是由问题q确定的组合网络的权重，表示为θV（q）。Z∈[0，1]K是输出，K是对象类或选择的数量。3.2. 超越图像空间的攻击攻击物理参数始于设置一个选择所有D维的一个子集用于效率考虑，因此我们的优化算法是随机坐标下降的一种形式这让人想起[9]，其中每个步骤更新像素值的随机子集的值。同样在[9]之后，我们使用Adam优化器[16]而不是标准的梯度下降来加快收敛速度。3.3. 感知度对抗性攻击的目标是产生视觉上不可感知的扰动，使网络在添加到原始图像后做出不正确的预测给定渲染模型Y=r（X）和添加的扰动X，添加到渲染图像的扰动为：Y=r（X+一般来说，有两种计算感知的方法能力其中一个直接作用于渲染图像，.这与[37][25]中的定义类似：p=p（Y）=目标，这是我们希望网络预测的这.100WN公司简介Σ1/22公司简介w=1h=1yw，h2，其中yw，h是3-是通过最小化损失函数L（Z）来完成的，终止当前输出与所需输出的距离status.对抗性攻击可以是有针对性的，也可以是非针对性的。表示像素的RGB强度（在[0，1]中归一化）的三维向量。类似地，我们也可以为每组物理参数定义可感知性值有针对性的，在这项工作中，我们专注于非目标.100WN公司简介Σ1/22攻击，它指定了一个类c′（通常是原始的true例如，p（N）=公司简介w=1h=1 nw，h2。类），图像不应被分类为目标是最小化输出Z的第c′维：我们把p（λY）作为视觉不敏感性的主要判据。由于连续性，这可以保证，.′L（Z）=L（Z;c）=Zc′。攻击物理空间的一种明显的方法是通过扩展损失函数L（Z），即、L（Z）=L <$f <$r（X; θ），并使该函数关于物理参数X最小化。优化始于初始（未扰动）状态X 0。 X. T max的总和执行迭代。在第t轮中，我们计算关于Xt−1的梯度向量，即，Xt=<$Xt−1L<$f<$r（Xt−1，θ），并沿此方向更新Xt−1：Xt=Xt−1+η·<$Xt−1，其中η是学习率如果目标是攻击是实现或迭代的最大数量Tmax达到。T上累积d摄动所有的物理扰动也足够小。将感知性约束置于像素上的优点在于其允许图像空间攻击与物理空间攻击之间的攻击成功率的公平比较它还允许对不同物理参数的攻击进行直接比较对物理参数施加可感知性约束的一个潜在缺点是，不同的物理参数具有不同的单位，范围.例如，RGB的取值范围是[0，255]，而空间平移的取值范围是（−∞，∞）。如何为不同的应用程序找到一个共同的阈值物理参数当使用可微分渲染器时，为了保证-迭代表示为：不t=1这是一个很好的例子。antee不可察觉性，我们约束RGB强度计算梯度的方式取决于r（·）是否可微。如果是这样，这可以简单地从输出空间反向传播梯度到物理空间。理想空间我们遵循快速梯度符号方法（FGSM）[12]仅保留梯度向量每个维度的符号。否则，我们应用零阶优化。为了攻击X中的第d维，我们设置一个小值δ和近似的梯度Z的<$L（Z）<$图像层上的变化在每次迭代中，在生成一组新的物理扰动之后，我们检查重新渲染的图像上的所有像素，并且从原始图像中截取超过固定阈值U= 18的任何扰动。截断会导致物理参数和渲染图像之间的不一致，为了避免频繁的截断，我们将学习率η设置得很小，从而增加了Lfr（X+δ·ed）−Lfr（X−δ·ed），其中e 是D维的攻击网络所需的迭代次数。第d个维度设置为1，所有其他维度设置为0的向量。通常，这种更新的每个步骤可以随机地物体在平面上的2D位置;R是标量旋转角。D4306当使用不可微渲染器时，我们通过在损失函数中添加另一个项[λ]来寻求替代方法（以λ加权）[9，6]，以便优化可以在攻击成功和可感知性之间进行平衡4307攻击扰动图像表面N照明材料组合成功p成功p成功p成功p成功p关于AlexNet一百块00五、789岁。2710个。829岁61二十五8十八岁88二十五894 42十八岁1关于ResNet-34九十九。57五、188岁419 .第九条。3十四岁1629岁33 .第三章。4355. 294 85十六岁4表1.白盒对抗攻击对ShapeNet对象分类的影响。通过组合，我们允许三组物理参数共同扰动。成功表示攻击成功率（%，越高越好），p为感知值（单位：10 - 3，越低越好）。所有p值都是在图像空间中测量的，即，它们是直接可比的。3.4. 从物理空间解读意象空间对手我们做了一个现实检查，以确认图像空间的adversaries几乎从来没有一致的非本地物理扰动根据我们的（公认的不完美的）渲染模型。当然，它们与每像素的像素变化是一致的。我们首先在图像空间中找到一个扰动Y，然后在物理空间中计算一个对应于Y的扰动X。这是在图像空间而不是输出空间中设置优化目标，优化过程几乎没有改变。请注意，我们实际上是在物理空间中寻求解释ZEY。毫不奇怪，正如我们将在实验中显示的那样，重建损失<$Y+<$Y−r（X+<$X）<$1不会下降，这表明物理空间中的<$Y的近似值要么不存在，要么无法被发现。目前可用的优化方法，如FGSM。4. 实验4.1. 3D对象分类3D对象识别实验在ShapeNetCore-v2数据集[7]上进行，该数据集包含55个刚性对象类别，每个类别具有各种3D模型。使用了两种流行的深度神经网络：8层AlexNet [17]和34层深度残差网络[13]。这两个网络都是在ILSVRC 2012数据集上进行预训练的[33]，并在我们的训练集中使用批量大小256进行了40学习率为0。AlexNet为001，0。ResNet-34的005我们使用可微分渲染器[20]和不可微分渲染器[5]进行实验，结果在实验设置中存在一些小的差异，尽管有上述的共享设置。对于可微分渲染器，我们从每个类别中随机抽取125个3D模型，并为每个对象选择4个固定视点，因此每个类别具有500个训练图像。同样，每个类别的另一个随机选择的50 ×4图像用于测试。AlexNet和ResNet-34达到73。59%，79。分别为35%的前1分类准确率。这些数字与[36]中报告的单视图基线精度对于每个类别，从正确分类的测试样本中，我们选择具有最高分类概率的5个图像GT：汽车A：汽车GT：火车A：火车R：火车攻击AlexNet（A）ResNet（R）攻击AlexNet（A）ResNet（R）��= 7.9 × 10−3��A：枕头R：头盔A：容器R：容器配置= 93.5%配置= 60.9%配置= 95.0%配置= 76.6%图3. ShapeNet上3D对象分类中的物理空间对手示例（使用可区分渲染器）。在每个示例中，顶行显示了原始测试图像，该图像被AlexNet（A）和ResNet（R）正确分类。下面两行分别显示了扰动和受攻击的所有的扰动都被放大了5倍，位移了128倍。p是可感知性值，conf是预测的置信度（post-softmax输出）。在ResNet-34上进行了一次测试，并过滤掉其中22个被AlexNet错误分类的图像，得到了233张图像的目标集攻击算法是FGSM的迭代版本[12]。我们使用带有动量的SGD优化器0的情况。9，权重衰减10−4，最大迭代次数为120。学习率为0。002攻击图像空间，0. 003攻击照明和材料，以及0的情况。004攻击表面法线。对于不可微渲染器，我们渲染具有从[0，π）均匀采样的方位角、固定的仰角π/9和固定的距离1的图像。8. AlexNet给出了65分。89%的top-1测试集分类准确率，ResNet-34达到了更高的68。百分之八十八在55个类别中，我们发现51个至少有两个图像正确分类。从每个测试用例中，我们选择两个具有最高置信度的正确测试用例，从而组成一个包含102张图像的目标集。的4308C物理攻击详细信息颜色（C）RGB空间中翻译（T）（单位）由、和旋转（R）（rad）通过、和照明（L）预测：火箭环境光能不变点光源几何体点光能物理攻击详情物理攻击详情颜色（C）颜色（C）在RGB空间翻译（T）翻译（T）（单位），和（单位）、和旋转（R）旋转（R）（rad）由，（rad）通过得双曲正弦值.照明（L）照明（L）预测：刀环境光能量不变预测：邮箱环境光能量不变点光几何点光几何点光能点光能图像像素攻击图像像素攻击Y Y y预测：飞机物理维度攻击预测：吉他物理维度攻击预测：表物理维度攻击预测：飞机预测：吉他预测：表YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYLR不CLR不CLR不C图4. ShapeNet上3D对象分类中的图像空间和物理空间对手示例（使用不可微渲染器）。在每个示例中，顶行包含原始测试映像和可能导致分类失败的中级物理操作的详细描述。在最下面的一行中，我们显示了两种攻击中的扰动和攻击图像Z′是真实类的置信度（后softmax输出）。对于每种情况，我们还在表格中显示了不同物理攻击组合的结果（Y表示相应的攻击正在进行）。攻击算法是ZOO [9]，δ= 10−4，η= 2 ×10−3，λ = 0。1.一、AlexNet的最大迭代次数为500次，ResNet-34为200次4.1.1可区分的渲染器结果首先，我们在表1中证明了对手广泛存在于图像空间中在我们的例子中，成功率是100%或接近100%，感知度不超过10−2。下一个研究是找到这些物理空间中的图像空间扰动。我们尝试了3个学习率（10−3，10−4，10−5）和2个优化器（SGD，Adam）的组合。然而，对于AlexNet，对象（x1-distance）基本保持不变;图像空间攻击后的恶意标签仅在8种情况下保留，并且在绝大多数情况下，对象的原始真实标签被恢复。因此，使用当前的优化方法和渲染模型，很难找到近似渲染到这些图像空间对手的物理参数。这是预期的，因为物理参数通常对图像具有非局部影响。最后，我们转向直接在物理空间中生成对手。如表1所示，这比在图像空间中在物理空间中生成的典型对抗示例如图3所示。允许联合优化所有物理参数（即，组合策略）产生最高的成功率。在这三组物理参数中，攻击面法线比其他两组物理参数更有效。这是意料之中的，因为使用局部扰动通常更容易攻击深度神经网络[12]。表面正规矩阵与图像晶格共享相同的维度，并且改变矩阵中的元素仅对渲染图像具有非常局部的影响。相比之下，光照和材质都是3D场景或对象的全局属性，因此调整每个参数将导致许多像素被修改，因此在对抗性攻击中效果较差。我们还研究了攻击过程中的截断。对于ResNet-34，平均只有6。三一在整个120次迭代的攻击中，对于正常、照明、材料，6.0像素被截断。与渲染图像的大小（448×448）相比，此截断数相对较小。因此，截断不太可能对攻击有很大贡献。4.1.2不可微渲染器结果我们首先报告两种设置的定量结果，即。攻击图像空间和物理空间。同样，图像空间的对手也相对容易找到。在所有102个案例中，其中99个在AlexNet上的500步内成功攻击，所有这些都在ResNet-34上的200步内成功攻击。另一方面，物理空间的对手更难构建。使用相同的步骤数（AlexNet上为500步，ResNet-34上为200步），成功攻击的次数分别只有14次和6次我们展示了几个图像空间的成功案例，4309物理空间攻击图4人们可以从这两种情况中看到非常不同的扰动模式。图像空间扰动是像素级差异的总和，例如，，甚至可以单独修改两个相邻像素的强度，因此不清楚这些图像是否Q1：你的手机号码是多少？Q2：手机号码是多少？Q2：青色哑光物体是否比绿色闪亮小块少？Q3：大青色橡胶方块右边的大东西有什么形状？A1：小直径A2：无直径A3：立方体直径我们不能真正在现实世界中出现，也不能诊断失败的原因。另一方面，物理空间扰动是使用一些中级操作生成的，例如轻微的旋转、平移和轻微的照明变化。从理论上讲，这些对手可以使用精细级别的机器人控制系统在物理世界中实例化。生成物理维度广告的另一个好处我们使用图4所示的案例作为示例。有14个可变的物理参数，我们把它们分成4组，即：环境照度（5个参数）、物体旋转、位置和颜色（3个参数第一节进攻Q1进攻Q2=6.6 × 10−3��A1：大尺寸A2：有尺寸配置= 57.2%配置= 58.1%攻击Q3��= 5.2 × 10−3A3：没有确认= 44.6%每个）。我们列举所有的2- 4这些参数的子集，从而产生2- 4扰动，仅适用于子集中的扰动。很有趣的是在第一种情况下，不同扰动的影响几乎是加性的，例如，，对颜色和旋转的联合攻击与单独攻击的总和具有大致相同的效果然而，这并不总是有保证的。例如，在第二种情况下，我们发现单独攻击旋转几乎没有效果，但将其添加到颜色攻击中会导致准确率急剧下降26%。另一方面，第二种情况对颜色特别敏感，第三种情况对旋转特别敏感，这表明不同的图像容易受到不同子空间的攻击正是物理维度攻击的可解释性提供了在更精细的水平上诊断这些病例的可能性。4.2. 视觉问题回答我们将实验扩展到一个更具挑战性的视觉任务在最近发布的CLEVR数据集上进行实验[14]。这是一个引擎，可以生成任意数量的3D场景与元信息（对象配置）。每个场景还配备了多个生成的问题，例如：，询问场景中指定对象的数量，或者对象是否具有指定属性。基线算法被命名为推断和执行程序（IEP）[15]。它应用LSTM将每个问题解析为树结构程序，然后转换为查询视觉特征的神经模块网络[1]。我们使用发布的模型，而不需要自己训练它。我们随机选取100张测试图像作为目标图像，这些图像上的所有相关问题都得到了正确回答生成对抗扰动的设置与对象分类实验中的设置相同：当使用可微分渲染器时，迭代FGSM图5. CLEVR上3D视觉问答中的物理空间对手示例（使用可区分渲染器）。在每个示例中，顶行显示了一个测试图像和三个问题，所有这些问题都得到了正确回答。下面两行分别显示了扰动和受攻击的图像。所有的扰动都被放大了5倍，并移动了128. p是可感知性值，并且conf是置信度（后softmax输出）选择这个答案。并对三组物理参数分别或联合进行了修正;当使用不可微渲染器时，使用ZOO算法[9]，δ= 10−3，η= 10−2，λ=0。五、4.2.1可区分的渲染器结果结果示于表2中。我们在分类实验中观察到类似的现象。这是预期的，因为在解析问题并生成神经模块网络之后，攻击图像或物理空间基本上等同于分类任务中的攻击。图5中显示了一些典型示例。一个旁注来自扰动材料参数。虽然一些视觉问题是关于材料的（例如，，金属或橡胶），这类问题的成功率与攻击其他问题的成功率没有显著差异。这是因为我们限制了感知性，这不允许材料参数被大的值修改。视觉问答的一个显著差异来自于所谓的语言先验。通过语言解析器，网络能够在不查看图像的情况下锁定一小部分答案，例如。当被问及物体的颜色时，网络回答是或三的可能性很小。然而，我们发现有时网络会犯这样荒谬的错误。例如在4310攻击扰动图像表面N照明材料组合成功p成功p成功p成功p成功p关于IEP [15]九十六。33二、183岁67 六、8四十八679 .第九条。58. 3312个。3九十678. 8表2.白盒对抗攻击对CLEVR视觉问题回答的影响。通过组合，我们允许三组物理参数共同扰动。成功表示给出正确答案的攻击成功率（%，越高越好），p为感知值（单位：10 - 3，越低越好）。所有p值都是在图像空间中测量的，即，它们是直接可比的。Q1：有一个橡胶的东西是左的小青色块和后面的小青色球;它的大小是什么？Q2：多少其他紫色的小物体和绿色的大物体形状一样吗？A1：大口径A2：1口径Q1物理维度攻击A1：小型Q2物理维度攻击A2：0部分物理攻击细节• 照明ΔLkey = 0.0，4.4，−5.8，−4.4 /100，.• 对象物1Δ，Δ = -0.1，5.3 /100，...• 对象4Δ，Δ = 3.7，-2.0/100，.• 物体6Δθ = -1.5，-3.7，-0.2/100，.• ......部分物理攻击细节• 照明ΔLkey = 0.0，−11.3，− 9.0，6.0/100，.• 对象物1Δ，Δ = 0.7，-1.5/100，.• 对象4Δ，Δ = 0.4，0.1/100，...• 物体6Δθ = 2.5，-1.1，-0.9/100，.• ……图6. CLEVR上3D视觉问答中的物理空间对手示例（使用不可微渲染器）。在每个示例中，顶行包含测试图像和三个问题。在最下面的一行中，我们显示了扰动和攻击图像。物理攻击的详细描述还提供了关于选择性维度的信息。所有物理参数的单位都遵循Blender中的默认设置。在图5最右边的一列中，当被问及物体的形状时，网络在非目标攻击后回答“否”。4.2.2不可微渲染器结果我们观察到与ShapeNet实验非常相似的结果。找到图像空间的对手相对容易，因为我们的基线在500步内成功攻击了100个目标中的66个，在1200步内成功攻击了93个由于计算上的考虑，我们设定500为攻击实验中的最大步长，但只找到22个物理空间对手。这是预期的，因为视觉问题回答在问题固定后变得非常类似于分类。我们在图 6 中展示了两个成功攻击的例子。与ShapeNet实验不同，颜色在CLEVR中起着重要作用，因为许多问题都与过滤/计数具有指定颜色的对象我们发现，在许多情况下，我们的算法取得成功，主要是攻击关键对象的颜色（即，的问题）。这可能看起来有问题，因为生成的对手可能会威胁到原始的正确答案。但根据我们的检查，我们选择的相对较大的λ确保了其他情况。然而，这个观察结果是不确定的，因为我们的算法不知道这个问题（即，，IEP是一个黑盒）或答案（即，每个答案只是一个类ID），但它会自动尝试攻击弱点（例如，颜色）的视觉系统。5. 结论在本文中，我们将对抗性示例从2D图像像素强度推广到3D物理参数。我们主要想知道：神经网络是否容易受到这些定义3D场景的内在参数的干扰，就像它们容易受到添加到图像像素中的人工噪声的影响一样？为了研究这一点，我们在最先进的深度网络之前插入了一个渲染模块，以便将底层3D场景与感知的2D图像连接起来。然后，我们能够对这个更完整的视觉管道进行基于梯度的攻击。大量的目标分类和视觉问答实验表明，直接在物理空间中构建对手是有效的，但成功率低于图像空间，并且成功攻击需要更大的扰动。据我们所知，我们是第一个研究3D中不可感知的对抗性例子的工作，其中对抗性扰动的每个维度在物理世界中都有明确的意义。展望未来，我们看到三个潜在的进一步研究方向。首先，作为一个附带的好处，我们的研究可以提供实用的工具来诊断视觉算法，特别是评估在一些可解释的维度，如颜色，照明和物体运动的鲁棒性。其次，在3D视觉场景中，我们通过在物理空间中解释图像来保护深度神经网络免受2D对手的攻击，第三，虽然我们的管道将继续受益于更高质量的渲染，但我们也承认有必要在现实世界的场景中测试我们的发现。致谢我们感谢刘桂林、谢慈航、张志帅和张毅的讨论。本研究得到了IARPA D17PC00342的资助和一图的捐赠4311引用[1] J. Andreas，M. Rohrbach，T. Darrell和D.克莱恩神经模块网络CVPR，2016年。7[2] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克VQA：可视化问答。ICCV，2015年。1[3] A. Athalye，N.Carlini和D.瓦格纳。混淆的梯度给人一种错误的安全感：规避对对抗性例子的防御。ICML，2018。3[4] A. Athalye和我。Sutskever合成鲁棒的对抗性示例。ICML，2018。3[5] Blender在线社区。Blenderhttps://www.blender.org/ ， 2017 年。Blender基金会，Blender研究所，阿姆斯特丹。三、五[6] N. Carlini和D.瓦格纳。神经网络的鲁棒性评价。IEEESymposium on SP，2017。三、四[7] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. Su等人ShapeNet：一个信息丰富的3D模型库。arXiv预印本arXiv：1512.03012，2015。5[8] L. C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。DeepLab：使用深度卷积网络、Atrous卷积和全连接CRF进行语义图像分割。TPAMI，2017。1[9] P. Chen，H. Zhang， Y. Sharma，J. Yi，and C.谢ZOO：基于零阶优化的黑盒攻击，无需训练替代模型。2017年ACM人工智能与安全研讨会。二四六七[10] L. Engstrom，D.齐普拉斯湖Schmidt和A.马德里一个旋转和一个翻译就足够了：用简单的变换愚弄CNN。arXiv预印本arXiv：1712.02779，2017。3[11] I. 叶夫季莫夫河 Eykholt，E. Fernandes，T. 科赫诺湾李鹏说，A.普拉卡什A. Rahmati和D.歌对深度学习模型的强大物理世界攻击。arXiv预印本arXiv：1707.08945，2017。3[12] I. Goodfellow，J. Shlens和C.赛格迪解释和利用对抗性示例。ICLR，2015年。一、二、三、四、五、六[13] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差CVPR，2016年。一、五[14] J. 约翰逊湾哈里哈兰湖范德马滕湖Fei-Fei，C.L. Zitnick和R.娘娘腔。CLEVR：一个用于组合语言和基本视觉推理的诊断数据集。CVPR，2017年。一、三、七[15] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼L. Fei-Fei，C. L. Zitnick和R.娘娘腔。推理和执行程序的视觉推理。ICCV，2017年。三、七、八[16] D. Kingma和J. BA.亚当：一种随机优化方法。ICLR，2015年。4[17] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的ImageNet分类。NIPS，2012年。一、五[18] A.库拉金岛Goodfellow和S.本吉奥。物理世界中的对抗性例子。ICLR Workshop，2017. 一、二、三[19] A.库拉金岛Goodfellow和S.本吉奥。大规模对抗机器学习。ICLR，2017年。3[20] G. Liu，L. Ceylan、E. Yumer，J. Yang，and J. M.留置权使用基于物理的渲染网络进行材质编辑。ICCV，2017年。三、五[21] Y. Liu，X.Chen C.，马缨丹属Liu和D.歌深入研究可转移对抗示例和黑盒攻击。ICLR，2017年。3[22] J. McCormac，A.汉达，S。Leutenegger和A.戴维森场景网RGB-D：500万张合成室内弹道的真实照片。ICCV，2017年。3[23] J. H. Metzen，T. Genewein，V. Fischer和B.比肖夫检测对抗性扰动。ICLR，2017年。3[24] S. M. 穆萨维-德兹富利A. 法齐O. Fawzi，以及弗罗萨德。普遍对抗性扰动。CVPR，2017年。3[25] S. M.穆萨维-代兹福利A. Fawzi 和P. 弗罗萨德Deep-Fool：一种简单而准确的欺骗深度神经网络的方法。CVPR，2016年。三、四、六[26] A. Nguyen，J.Yosinski和J.Clune 深度神经网络很容易被愚弄：对不可识别图像的高置信度预测。CVPR，2015年。第1、3条[27] F. E. Nicodemus，J.C. Richmond，J.J. 夏岛W. Ginsberg和T.林佩里斯反射率的几

下载后可阅读完整内容，剩余1页未读，立即下载