meshAdv:生成对抗性3D网格的方法研究

177 浏览量更新于2023-10-18 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1MeshAdv：用于视觉识别的肖朝伟1杨大伟1，2邓佳2刘明艳1李波31密歇根大学安娜堡分校2普林斯顿大学3UIUC摘要深度神经网络（DNN）等高度表达的模型已被广泛应用于各种应用。然而，最近的研究表明，DNN容易受到对抗性示例的影响，这些示例是精心制作的输入，旨在误导预测。目前，这些研究的主要内容集中在微扰添加到渲染引擎2D渲染机器学习模型“车”“船”图像像素，而这样的操作在物理上不是现实的。一些作品试图通过将可打印的2D补丁或绘画图案附加到表面上来克服这一限制，但由于3D形状特征完好无损，因此可能会受到保护在本文中，我们提出了meshAdv从具有丰富形状特征但纹理变化最小的对象生成“对抗性3D网格”。为了对物体的形状或纹理进行控制，我们使用可微分渲染器来计算形状上的精确阴影并传播梯度。大量的实验表明，生成的三维网格是有效的，在攻击- ING分类器和目标检测器。我们从不同的角度来评价这次袭击。此外，我们设计了一个管道执行黑盒攻击的真实感渲染器与未知的渲染参数。1. 介绍尽管在各个领域取得了越来越多的成功[10，13，19，44]，但深度神经网络（DNN）被发现对对抗性示例很脆弱：对输入的小幅度的故意扰动可能使网络输出不正确的预测。这种对抗性的例子已经在2D域中被广泛研究[5，17，35，38，47，53为了克服这个问题，在通过改变3D表面的纹理来生成物理上可能的对抗性示例[1，4，14，27]方面已经取得了重大进展，即。应用adversar-按字母顺序排列;前两位作者贡献相当。图1：“对抗网格”生成的流水线meshial可打印的2D补丁或绘画图案。然而，这样的攻击不太适合无纹理的对象，因为将纹理添加到否则无纹理的表面可能增加被检测和防御的机会。在这项工作中，我们探索了一种新的攻击途径，通过改变3D形状来生成物理上可能的对抗性示例我们探索了具有丰富形状特征但纹理变化最小的3D对象，并表明我们仍然可以通过扰动这些3D对象的形状来实现对抗目标，同时相同的方法仍然可以应用于纹理。具体来说，我们建议meshAdv生成的敌对网格可以忽略不计的扰动。我们利用基于物理的可微分渲染器[24]在特定的相机和照明参数下准确地渲染网格。然后，深度网络输出给定渲染图像作为输入的预测。由于整个过程是可微的，因此梯度可以从网络预测传播回网格的形状或纹理。因此，我们可以使用基于梯度的优化，通过在网络输出上应用损失来生成基于形状或基于纹理的扰动整个管道如图1所示。即使我们只是操纵3D对象的物理属性（形状和纹理），我们也可以欺骗最先进的DNN（参见第6.2节）。具体来说，我们表明，对于任何固定的渲染条件（即，照明和摄像机参数），最先进的对象分类器（DenseNet [22]和Inception-v3 [48]）和检测器（Yolo-68983D网格敌对形状/纹理2D渲染（对抗）“AdversarialGG......这是什么？......这是什么？6899v3 [42]）可以通过稍微扰动3D对象的形状和纹理我们进一步表明，通过使用多视图优化，“对抗网格”的攻击成功率此外，我们进行用户研究表明，所产生的扰动是可以忽略不计的人的知觉。由于网格上的扰动是在可微渲染器的帮助下逆向优化的，因此一个自然的问题是，当渲染操作不可微时，是否可以在实践中应用类似的方法。我们试图回答这个问题，提出了一个管道执行黑盒攻击的真实感渲染器（不可微的渲染操作）在未知的渲染参数。我们表明，通过估计渲染参数和提高扰动的鲁棒性，我们生成的此外，我们可视化我们的形状为基础的扰动，以显示可能的脆弱区域的网格。当我们希望提高在3D网格上训练的机器学习模型的鲁棒性（针对形状变形）时，这可能是有益的[7，45，57]用于不同的任务，例如视点估计[46]，室内场景理解[18，34，45，59]等[8，33，43，50，56]。总结起来，我们的贡献如下：1）我们提出了一种基于端到端优化的方法meshAdv来生成具有可忽略扰动的3D“对抗网格”，并表明它在攻击不同的机器学习任务时是有效的;2）我们证明了我们的方法在具有未知参数的黑盒不可微渲染器上的有效性; 3）我们通过可视化基于形状的扰动流来提供对网格的脆弱区域的洞察; 4）我们进行用户研究以表明我们的3D扰动足够微妙并且不会影响用户识别。2. 相关工作对抗性攻击的例子已经在2D领域进行了大量的探索[17，35，38，47，54，55]，但是直接操作图像像素需要访问相机。为了避免这种情况，[14，27]中研究的物理对抗示例在相机变换下显示了令人印象深刻的鲁棒对抗然而，扰动是基于纹理的，并且可能不应用于任意3D形状。与此同时，Athalye et al.[1]通过增强对颜色变换的鲁棒性，进一步推进了基于纹理的对抗性示例，并表明生成的乌龟和棒球的纹理可以使它们在各种不同的视角下欺骗分类器。在这项令人兴奋的工作中，3D对象作为一个表面来承载信息丰富和强大的纹理，可以欺骗classi。菲尔斯在我们的工作中，我们也专注于3D对象上的扰动，但我们通过从具有恒定反射率的3D对象即使在恒定反射率的情况下，那些3D物体（如飞机、自行车）由于其独特的3D形状特征而易于识别。通过这种方式，我们强调了对象的这些形状特征在对抗性攻击中的重要性。除了纹理形式的扰动，Zeng et al.[58]扰动物理参数（法线、光照和材质），用于针对3D形状分类和VQA系统的非目标攻击。然而，对于可重构的渲染器，他们假设相机参数是已知的，然后扰动2D法线贴图，根据固定的投影。这可能会限制操纵空间，也可能会产生令人难以置信的形状。对于他们工作中的不可微渲染器，他们必须使用无导数优化进行攻击。相比之下，我们的方法可以生成合理的形状直接在网格表示使用基于梯度的优化方法。一个并行的工作[30]提出了操纵照明和几何来执行攻击。但是，与我们的工作相比，有几个不同之处：1）扰动的大小。[30]中的扰动（如光照变化）是可见的，而我们实现了几乎不可察觉的扰动，这在对抗行为中很重要。2)有针对性的攻击。根据文献[30]中的目标函数和实验结果，对抗目标似乎彼此接近，如美洲虎和大象。在我们的工作中，我们显式地强制每个类中的目标被攻击到所有其他类中，攻击成功率几乎为100%。3）渲染器。我们基于最先进的开源可区分渲染器[26]执行攻击，这使得我们的攻击更容易访问和复制，而在[30]中，应用了自定义渲染器，并且很难判断这些漏洞是来自自定义渲染器还是操纵对象。4)现实的攻击。在开放环境中，操纵照明不太现实。相对于他们对光照和形状的攻击，我们提出了更易于实现的形状和纹理操作。（5）被害人学习模式。我们同时攻击分类器和对象检测器，它们广泛用于自动驾驶等安全敏感应用，而它们只攻击分类器。除了对抗性攻击之外，可区分的渲染器还用于许多其他任务，包括逆渲染[2，16]，3D变形面部重建[16]，纹理优化[36]等[28]。在这些任务中，由于容易获得的可微分渲染器，可以实现基于梯度的优化[16，24，28，31，37，41]。我们还使用了一种名为Neural MeshRenderer的可微分渲染器[24]，它速度很快，可以毫不费力地集成到深度神经网络6900adv知觉的Adv网格水印虽然网格水印也是通过以微妙的方式操纵网格来实现的，但目标与我们的不同：它是通过满足顶点和边的严格属性来隐藏几何中的秘密数据[6，40];我们的任务是只要渲染图像可以欺骗学习模型，同时保持网格感知逼真，就可以扰动网格。另一方面，开发3D网格水印的挑战有助于强调我们的攻击的挑战，在3D域中产生扰动的困难3. 问题定义和挑战在2D域中，设g是被训练成将2D图像I映射到其类别标签y的机器学习模型。对于g，对抗攻击者的目标是生成对抗图像Iadv，使得g（Iadv）y（未被攻击）或g（Iadv）=y′（被攻击），其中y是地面实况标签，y′是我们指定的恶意目标标签。与2D空间中的对抗性攻击不同，这里图像I是3D对象S的渲染结果：I=R（S;P，L），由具有相机参数P和照明参数L的基于物理的渲染器R计算。换句话说，不允许直接操作I的像素值，并且必须操纵3D对象S以生成Sadv，使得其渲染图像将欺骗g做出不正确的预测：Iadv=R（Sadv;P，L）。由于以下挑战，实现上述目标并非易事：1）操纵空间：当渲染3D内容时，形状、纹理和光照被纠缠在一起以生成2D图像中的像素值，因此图像像素不再彼此独立。这意味着由于图像参数化，可以大大减少操作空间。2)3D中的约束：3D约束，例如物理上可能的形状几何形状和纹理，不会直接反映在2D上 [58]。人胰蛋白酶-4.1. 优化目标在给定模型g和目标标签y′的情况下，我们针对Sadv优化以下目标损失函数：L（Sadv;g，y′）=L （Sadv;g，y′）+λL（Sadv）（1）在这个等式中，Ladv是欺骗模型g预测指定目标y'的对抗性损失（即， g（Iadv）=y′），给定渲染图像Iadv=R（Sadv;P，L）作为输入。L感知是保持“对抗网格”感知现实的损失。λ是平衡超参数。我们在接下来的小节中进一步实例化Ladv 和Lperceptual，关于不同的任务（分类或对象检测）和扰动类型（形状或纹理）。4.1.1对抗性损失对于分类模型g，输出通常是对象类别的概率分布，给定对象的图像作为输入。我们使用交叉熵损失[11]作为meshAdv的对抗损失："adv“advL（Sadv;g，y）=ylog（g（I））+（1−y）log（1−g（I）），（二）其中Iadv=R（Sadv;P，L），y′是靶标记的单热目标检测对于目标检测，我们选择最先进的模型Yolo-v3 [42]作为我们的受害者模型。它将输入图像I划分为Z×Z个不同的网格单元。对于每个网格单元，Yolo-v3预测B边界框的位置和标签置信度值对于每个边界框，它生成5个值（4个用于坐标，1个用于对象分数）和N上的概率分布班在这里，对手因此，我们使用消失攻击损失[15]作为Yolo-v3的对抗损失：物体的形状是3D或2.5D [32]，3D物体上的形状或纹理的扰动可能会直接影响人类Ladv（Sadv;g，y′）= maxz∈Z2，b∈BH（z，b，y′，g（Iadv）），（3）对他们的感知。这意味着在3D网格上生成不明显的扰动可能具有挑战性。4. 方法这里我们假设渲染器R是已知的（即，白框），并且在网格表示中与输入3D对象S可为了使渲染器R可微，我们必须对物体材质、光线、其中Iadv=R（Sadv;P，L），H（·）是表示网格单元z中边界框b的标签y '的概率的函数，给定Iadv作为模型g的输入。4.1.2感知损失为了保持建模、相互反射等。请参阅《古兰经》-AdvΣ ΣAdvadv 2有关微分渲染和网格表示的更多细节的有用材料。使用可微分渲染器，我们L感知（S）=的iq∈N（i）Ii−Iq<$2，（4）可以使用基于梯度的优化算法以端到端的方式生成网格扰动，并且我们定义了这种方法meshAdv。其中I i是图像Iadv= R（Sadv; P，L）中第i个像素的RGB矢量，N（i）是像素i的4-连通近邻.6901我我我们将这种平滑损失的图像生成时，- ING纹理为基础的扰动SADV。然而，对于基于形状的扰动，顶点的操作可能会引入不必要的网格拓扑变化，如[ 24 ]中所报告的。因此，不使用Eq。（4）对顶点的位移进行平滑处理，使得相邻顶点具有相似的位移流。我们通过将平滑损失以拉普拉斯损失的形式扩展到3D顶点流来实现这一点：复杂的渲染条件。为了提高这种黑盒攻击的性能，我们提出了一种流水线，如下所示：1. 通过减少物体轮廓的误差来估计相机参数P_n，其中R_mask（S;P）呈现物体S的掩模（光照与产生掩模无关2. Giv enP，通过reduc估计照明参数L设置渲染图像的遮罩错误：ǁM◦ΣL（Sadv）=Σ吉尔霍夫 --（R（S;P，L）-I′）2，其中算子是Hadamard感知第二季vi∈Vvq∈N（ vi）产品;其中，N（vi）=vadv−vi是扰动顶点vadv在基本网格中从其原始位置vi的位移，N（vi）表示由网格三角形定义的v i的连通相邻顶点。5. 可移植到黑盒渲染器我们的meshAdv旨在通过优化S端到端来白盒攻击系统g（R（S;P，L）），因为R是可区分的。然而，我们希望在实际中检查meshAdv用于3D对象的潜力，其中实际渲染器可能不可用。我们将其表述为在未知渲染参数P_n，L_n下对不可微渲染器R ′的黑盒攻击，即。我们对R′的访问是有限的，但我们仍然想生成Sadv，使得R′（Sadv，P，L）欺骗模型g。因为我们对黑盒渲染器R′没有任何假设，所以它可以以很高的分辨率通过启用相互反射、遮挡和丰富的照明模型等来降低计算成本。使得最终图像是在真实世界物理学下的精确估计，就像是由真实相机捕获的一样。在这种情况下，meshAdv生成的“对抗网格”的可转移性至关重要，因为我们希望避免R '中的昂贵计算，并且仍然能够生成这样的S adv。我们分析了两种情况下，这种可转让性。受控渲染参数在黑盒测试之前，我们希望首先在相同的渲染配置（照明参数L，摄像机参数P）下直接测试我们的换句话说，虽然Iadv=R（Sadv;P，L）可以像预期的那样欺骗模型 g ，但我们想看看I′adv=R′（Sadv;P，L）是否仍然可以欺骗模型g。未知渲染参数在这种情况下，我们想使用meshAdv在固定的未知渲染参数P，L下攻击不可微系统g（R′（S;P，L））。实际上，我们可以访问原始真实感渲染I′=R′（S;P，L）中的网格S及其掩模M，以及模型g。从一个渲染器直接传输到另一个渲染器可能无法工作，3. Giv enP，L，使用meshAdv生成4. 用真实感渲染器R′在原始场景中测试S adv：获得预测g（R′（Sadv;P，L））。6. 实验结果在本节中，我们首先展示了meshAdv生成的“对抗网格”在不同设置下对分类器的攻击效果然后，我们可视化的扰动流的顶点，以更好地了解这些三维对象的易受伤害的地区。用户实验表明，该方法的干扰很小，不会对人的识别产生误导.此外，我们展示了在物理现实场景中应用meshAdv对象检测器的例子。最后，我们评估了由meshAdv生成的“对抗网格”的可转移性6.1. 实验装置对于受害者学习模型g，我们选择在ImageNet [12]上训练的DenseNet[22]和Inception-v3 [48]进行分类，在COCO [29]上训练的Yolo-v3进行对象检测。对于网格（S），我们在PAS-CAL 3D + [52]中使用Mesh- Lab [9]的均匀网格重建来预处理CAD模型，以增加三角形密度。由于这些3D对象具有恒定的纹理值，因此对于纹理扰动，我们也从恒定的原始纹理开始。对于可微分渲染器（R），我们使用神经网格渲染器（NMR）[24]的现成PyTorch实现[26，39]来生成对于攻击分类器时的渲染设置（R（·;P，L）），我们随机采样相机参数P和照明参数P。参数L，并过滤掉配置，使得分类模型在渲染基本网格时具有100%的准确度然后，这些渲染配置被固定以进行评估，我们将在这些配置下渲染的网格称为PASCAL3D+渲染。总的来说，我们有6902摄动模型试验最佳情况平均情况最差情况表1：不同模型和不同扰动类型的meshAdv攻击成功率和生成扰动的平均距离我们在PASCAL 3D+渲染中选择渲染配置，使模型在原始网格上具有100%的测试准确度，以确认对抗效果。基于形状的扰动的平均距离使用来自等式5的3D拉普拉斯损失来计算。基于纹理的扰动的平均距离是面部颜色变化的均方根误差。7个类，对于每个类，我们生成72个不同的渲染配置。更多细节见补充材料。为了优化目标，我们使用Adam [25]作为求解器。此外，我们使用二分搜索来选择等式1中的超参数λ，其中5轮搜索并且每轮1000次迭代。6.2. 分类的MeshAdv在本节中，我们评估meshAdv对分类器的定量和定性性能。对于PASCAL 3D+渲染中的每个示例，我们尝试将其定向攻击到其他6个类别中。接下来，对于每个扰动类型（形状和纹理）和每个模型（ DenseNet 和Inception-v3），我们将结果分为三种不同的情况，类似于[5]：最佳情况意味着我们将一个类中的样本攻击到其他类，并报告最容易攻击的目标类。Average Case意味着我们做同样的事情，但是报告所有目标类的性能类似地，Worst case意味着我们报告最难攻击的目标类。相应的结果如表1所示，包括meshAdv的攻击成功率，以及分别对生成的基于形状和纹理的扰动的评估对于基于形状的扰动，我们使用来自等式5的拉普拉斯损失作为距离度量。对于基于纹理的扰动，我们计算均方根。测试值平方距离图像中的样本是随机选择的，而不是手动策划的。值得注意的是，由meshAdv生成的对象形状或纹理的扰动对人类来说几乎是不可察觉的，同时能够误导分类器。为了帮助评估形状扰动中的顶点位移，我们在以下段落中讨论了流动可视化和人体视觉研究。可视化顶点操作为了更好地理解3D对象的脆弱区域，在图3中，我们使用热图可视化顶点操作流的大小图中的热图对应于图2（a）中我们在该图中采用两个视点：渲染视图（i），其与用于渲染图像的视图相同;以及规范视图（ii），其通过固定所有形状的相机参数来实现：我们将方位角设置为135度，仰角设置为45度。从热图中，我们观察到曲率值较大且靠近相机的区域（例如边缘）更容易受到攻击，如图3（d）中的示例所示。我们发现这是合理的，因为这些区域中的顶点位移会给法线带来显著的变化，从而影响光源的阴影，并导致屏幕像素值急剧变化。除了量级之外，我们还在图3（c）中显示了气流方向的示例，图3（ c）是飞机垂直安定面区域中的顶点气流的特写三维剖面图在这个例子中，扰动的空气-网格的每个面1Σm（tadv−ti）2，其中ti是平面网格在其渲染中被分类为“自行车”。从mi=1i网格的总共m个面中第i个结果表明，meshAdv可以实现几乎100%的攻击成功率，无论是敌对扰动类型。图 2 显示了在分别操作顶点和纹理之后，针对Inception-v3生成的对角线显示使用原始网格渲染的图像。每个“对抗网格”的目标类别注意在这个图中，我们观察到相邻的顶点倾向于流动朝向类似的方向，说明了我们的3D拉普拉斯损失对顶点流的影响（方程5）。人类感知研究我们在 Amazon Mechanical Turk（AMT）上进行了一项用户研究，以量化meshAdv生成的对抗网格的真实性。我们上传了 DenseNet 和Inception-v3错误分类的对抗图像参与者被要求将这些对抗性对象识别为两个类中的一个（地面实况类和对抗性目标类）。的类型准确度Avg. 距离成功率Avg. 距离成功率Avg. 距离成功率100. bigger 0%的百分比8. 4×10−5一百块0%的百分比1 .一、8×10−4一百块0%的百分比3 .第三章。0×10−4一百块0%的百分比100.第一次约会0%的百分比4.第一章8×10−5一百块0%的百分比1 .一、2×10−4九十九。百分之八二、3×10−4九十八占6%100. bigger 0%的百分比3 .第三章。8×10−3一百块0%的百分比1 .一、1×10−2九十九。百分之八二、6×10−2九十八占6%6903目标类别目标类别(a) 形状扰动（b）纹理图2：良性图像（对角线）和相应的对抗性示例，由meshAdv在PASCAL 3D+渲染上生成，在Inception-v3上测试。敌对目标类显示在顶部。我们显示扰动（a）形状和（b）纹理。DenseNet的类似结果见补充材料。(c) 以“自行车”为目标的“对抗网格”的顶点流(d) 扰动（上）与曲率（下）这两类的顺序是随机的，并且在每次试验期间，敌对对象在屏幕中间出现2秒。消失后，参与者有无限的时间根据自己的感知选择更可行的类对于每个参与者，最多只能进行50次试验，并且每个对抗图像被显示给5个不同的参与者。我们人类知觉研究的详细背景在柔软的材料中有描述。我们总共收集了3820条注释，49名参与者。在99年。29±1。96%的试验对抗性扰动不会误导人类，因为他们几乎总是可以为这些“3D对抗性网格”分配正确的标签除了应用meshAdv时的固定相机之外，我们还探索了meshAdv针对基于形状的扰动的一系列视点的鲁棒首先，我们创建一组受害者的图像，在5，10或15个不同的方位角下渲染，以优化攻击。然后，我们在测试范围内对另外20个未见过的结果示于表2中。我们可以看到，方位范围越大，越难达到高攻击成功率。同时，当应用更多的受害者实例进行训练时，me-shAdv可以获得相对较高的攻击成功率。结果表明，在不同的攻击角度下，通过对大受害者集进行优化，可以提高攻击鲁棒性。图3：（a）和（b）是关于图2（a）的基于形状的扰动的可视化（c）是流动方向的近距离视图，（d）是比较扰动幅度与曲率幅度的示例。较暖的颜色表示较大的幅度，反之亦然。受害者设置大小方位角范围45 ∼6表2：针对未看到的摄像头视图的目标攻击成功率。我们使用5、10或15个视图进行攻击，并在同一范围内使用20个未见过的视图进行测试。6.3. MeshAdv在物体检测上的应用对于对象检测，我们使用Yolo-v3 [42]作为我们的目标模型。室内场景首先，我们在纯合成的室内场景中测试meshAdv。我们用一张桌子和一把椅子人工合成场景来模拟室内环境，并在场景中放置一个具有低环境光的单方向光然后，我们将斯坦福兔子网格[49]放在桌子上，并表明通过操纵网格的形状或纹理，我们可以实现删除目标表检测或删除所有检测的目标，同时保持扰动几乎不明显，目标类目标类(a)渲染视图(b)规范视图◦0◦35◦∼ 70◦15◦∼ 75◦5查看次数百分之六十七百分之四十五百分之二十八10浏览次数百分之七十三百分之五十八百分之三十八6904(a) 良性(b) 表|形状（c）全部|形状(d) 表|纹理（e）全部|纹理表3：通过转移攻击针对不同类的可区分渲染器生成的“对抗网格”，对Mitsuba的非目标攻击成功率图4：(a)表示良性渲染图像，并且（b）-（e）表示来自“ad”的渲染图像通过操纵形状或纹理来实现“对抗性网格我们使用“对抗性目标”的格式|扰动类型”来分别说明旨在隐藏的受害对象和扰动的类型。(a) S|GT（b）Sadv|犬（c）S |GT（d）Sadv|自行车图5：(a)和（c）示出了作为对照实验的用原始网格绘制的图像，而（b）和（d）包含“对抗网格”通过操纵的形状。我们使用“S/Sadv”格式|“ta r get”分别表示良性/对抗性3D网格和要从检测器隐藏的目标。如图4所示。户外场景给定户外场景的真实照片，我们希望消除照片中真实物体的检测。与已知照明的室内场景不同，我们必须使用Hold-Geoffroy等人提供的API来估计天空照明模型的参数[ 21 ]。[20]作为地面实况照明和适应可重构渲染器。然后，我们使用这种照明渲染我们的网格上的照片。在真实照片中，我们选择狗和自行车作为目标对象，并旨在一次去除一个检测。我们表明，我们成功地实现了对抗目标，几乎没有明显的干扰，如图5所示。6.4. 可移植到黑盒渲染器如第5节所述，最终的对抗目标是黑盒攻击系统g（R′（S;P，L）），其中图6：用于评估“对抗网格”在不同分类器上的可转移性左：DenseNet;右：Inception-v3。渲染器R′是能够产生照片级真实感图像的计算密集型渲染器。在这里，我们选择Mit-suba [23]作为这样的渲染器，并专注于基于形状的扰动。在执行此类攻击之前，我们首先评估受控参数下的可转移性我们使用Mitsuba直接渲染第6.2节中生成的然后，我们通过将Mitsuba渲染的图像馈送到相同的受害者分类模型来计算目标/非目标攻击成功率G.表3显示了非目标攻击的结果，图6显示了目标攻击的混淆矩阵。我们观察到，对于非目标攻击，“对抗网格”可以转移到Mitsuba，对于非目标攻击，攻击成功率相对较高;而如图6所示，有针对性的攻击在这种简单的设置中几乎没有转移。未知渲染参数为了在渲染参数P，L未知时更有效地攻击系统g（R′（S;P，L）），我们将第5节中的流水线应用于分类器和对象检测器re。我们首先使用Adam优化器[25]来获得摄像机估计值P，然后使用5个定向光和环境光L来估计照明L。注意型号/目标飞机自行车船瓶DenseNet六十五百分之二69岁。百分之一66岁。占7%63岁0%的百分比inception-V367岁百分之一83岁百分之三39岁占6%七十六。百分之九6905（d，θ，φ，θ）飞机网格预测：视点和照明估计NMR渲染+背景MeshAdv的形状扰动目标：“锤头”使用黑盒渲染器预测：图7：在未知渲染环境中“对抗网格”对分类器的可移植性。我们使用可微分渲染器NMR估计相机视点和照明参数，并将生成的“客机”在被三菱渲染后被错误归类为目标类别“锤头”。(a) 良性(b) S|NMR（c）S|Mitsuba（d）Sadv|NMR（e）Sadv|Mitsuba图8：在未知渲染环境中，“对抗网格”对对象检测器的可转移性。(b)（三）对照实验。Sadv使用NMR生成（d），目标是隐藏最左边的椅子（见红色箭头），并在Mitsuba上测试adversarial网格（e）。我们使用“S / S a dv|渲染器”来表示所添加的对象是否是adversarially优化的，以及我们旨在分别利用可转移性攻击的渲染器。由于内反射和遮挡，地面实况照明L在然后我们在NMR中操纵形状Sadv，直到图像Iadv=R（Sadv：P，L）可以成功地对分类器或对象检测器G具有高置信度。在此过程中，我们将小的随机扰动添加到估计的参数（P，L），使得Sadv将更大在不确定性下保持稳健为了测试，我们重新渲染SadvMitsuba使用原始设置，并在相同的模型g上测试渲染图像I′adv=R′（Sadv，P，L）。对于分类，我们将一个飞机对象从PASCAL 3D+，并把它放在一个室外场景下的天空光。如图7所示，我们成功地攻击了分类器，通过将原始场景中的原始网格替换为我们的“对抗网格”来输出目标“锤头”。注意，即使我们没有准确的照明估计，我们仍然通过向照明参数添加扰动来实现可转移性。对于对象检测，我们修改了[3]中的场景，并将Stanford Bunny对象放入场景中。这里的对抗目标是消除图中最左边的椅子在没有精确的光照估计的情况下，图8显示7. 结论在本文中，我们提出了meshAdv生成“敌对网格”通过操纵的形状或纹理的网格。这些“对抗网格”可以渲染到2D域，以误导不同的机器学习模型。我们使用PASCAL 3D+的CAD模型定量和定性地评估meshAdv，并且还表明我们的“对抗网格”的对抗行为这为我们在实践中更好地理解3D网格的对抗行为提供了帮助，并可以激发潜在的未来防御。鸣谢我们感谢杨磊、陈品玉对本工作的宝贵讨论。这项工作得到了美国国家科学基金会CNS-1422211、CNS-1616575、IIS-1617767和DARPA编号00009970。6906引用[1] A.阿萨利湖恩斯特罗姆，A. Ilyas和K.郭合成强大的对抗性示例。载于ICML，JMLR Workshop and ConferenceProceedings第80卷，第284- 293页。JMLR.org，2018年。一、二[2] J. T. Barron和J.马利克形状、照明和阴影的反射。TPAMI，2015。2[3] B. 比特利 2016 年的渲染资源。 https ：bitterli.me/resources/. 8[4] T. B. Brown、D. Mané，A. Roy，M. Abadi和J. 吉尔默对抗补丁。CoRR，abs/1712.09665，2017。1[5] N. Carlini和D.A. 瓦格纳。神经网络的鲁棒性评价在2017年IEEE安全和隐私研讨会，SP 2017，美国加利福尼亚州圣何塞，2017年5月22日至26日，第39-57页，2017年。doi：10.1109/SP.2017.49。网址https://doi.org/10.1109/SP.2017.49 。一、五[6] F. Cayre和B.马克三维三角形网格上的数据隐藏。IEEE Transactions on Signal Processing，51（4）：939-949 ， 2003 年 4 月。 ISSN 1053-587X 。 doi ：10.1109/TSP.2003。809380. 3[7]A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。2[8] W. Chen ， H.Wang ，Y.Li ，H. 苏， Z.Wang ， C.Tu ，D.Lischin- ski，D.Cohen-Or和B.尘合成训练影像以提升人体三维位姿估计。在3D视觉（3DV），2015年。2[9] P. 奇尼尼山卡利里湾科尔西尼峰Dellepiane、F.Ganov-elli和G.兰祖利亚Meshlab：一个开源的网格处理工具。在Eurographics意大利分会会议，2008年卷，第129-136页，2008年。4[10] R. Collobert和J.韦斯顿自然语言处理的统一架构：具有多任务学习的深度神经网络。第25届机器学习国际会议论文集，第160-167页。ACM，2008年。1[11] P. - T. De Boer，D.P. Kroese，S.Mannor和R.Y. 鲁宾斯坦关于交叉熵方法的教程 Annals of OperationsResearch，134（1）：19-67，2005. 3[12] J. 邓，W。东河，巴西-地索赫尔湖Li，K.Li和L.飞飞Imagenet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议上，第248-255页，2009年6月。doi：10.1109/CVPR.2009。5206848. 4[13] L.邓，李，李，J. - T. Huang，K. Yao，L. Yu，F.赛德湾L.塞尔策湾Zweig，X.他J.D. Williams等人微软在深度学习语音研究方面的最新进展。在ICASSP，第26卷，第64页，2013中。1[14] I. 叶夫季莫夫河 Eykholt，E. Fernandes，T. 科赫诺湾李鹏说，A.普拉卡什A. Rahmati和D.歌对深度学习模型的强大物理世界攻击。 arXiv预印本 arXiv： 1707.08945 ， 1 ，2017。一、二[15] K.埃克霍尔特岛Evtimov，E. 费尔南德斯湾Li，长穗条锈菌A. 拉赫马蒂，F. Tramer，A.普拉卡什T. Kohno和D.歌对象检测器的物理对抗示例。arXiv预印本6907arXiv：1807.07769，2018。3[16] K.热那亚湾Cole，A. Maschinot，A. Sarna，D.弗拉西奇，W. T.弗里曼。三维变形模型回归的无监督训练。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[17] I.古德费洛，J。Shlens和C. 赛格迪解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572，2014。一、二[18] A. 汉达河谷帕特劳齐安河谷Badrinarayanan，S.支架和R. 西波拉用综合数据理解真实的室内场景2016年IEEE计算机视觉和模式识别会议（CVPR），第4077-4085页，2016年。2[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition ， pages 770-778，2016中。1[20] Y. Hold-Geoffroy ， K. Sunkavalli ， S. Hadap ， E.Gambaretto和J. - F.拉隆德深度室外照明估计。在IEEE计算机视觉和模式识别国际会议上，2017年。7[21] L. Hosek和A.威尔基全光谱天幕辐射的解析模型。ACM Transactions on Graphics（ACM SIGGRAPH 2012的Pro-ceedings），31（4），2012年7月。出现。7[22] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR，第1卷，第3页，2017年。1、4[23] W.雅各布Mitsuba renderer，2010. http://www.mitsuba-renderer.org. 7[24] H. 卡托湾Ushiku和T.原田。神经三维网格渲染器。在IEEE计算机视觉和模式识别会议（CVPR），2018。一、二、四[25] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。五、七[26] N. 科洛图罗斯 Pytorch实现了neu- RAL 网格渲染器。https://github.com/daniilidis-group/neural_renderer，2018.2018-09-10. 二、四[27] A. 库拉金岛Goodfellow和S.本吉奥。物理世界中的对抗性考试arXiv预印本arXiv：1607.02533，2016。一、二[28] T.- M. Li，M. Aittala，F. Durand和J.莱赫蒂宁基于边缘采样的可分辨蒙特卡罗射线追踪。ACM事务处理图表（Proc. SIGGRAPH Asia），37（6）：222：1- 222：11，2018. 2[29] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra- manan，P. Dollár和C. L.齐特尼克微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页Springer，2014. 4[30] H.- T. D. Liu ， M. 陶角，澳 - 地 L. Li ， D.Nowrouzezahrai，A.雅各布森超出像素标准球：使用解析可微渲染器的参数广告。2019年国际学习代表会议。2[31] M. M. Loper和M. J.布莱克。Opendr：一个近似可微分的渲染器。计算机视觉- ECCV 2014，第154-169页，Cham，2014年施普林格国际出版社。ISBN 978-3-319-10584-0。2[32] D. 马尔视觉：对胡-6908视觉信息的表征与处理。亨利·霍尔特公司股份有限公司、美国纽约州纽约市，1982年。ISBN 0716715678。3[33] F.马萨湾Russell和M.奥布莉从真实视图到渲染视图的深度样本2d-3d检测在计算机视觉和模式识别（CVPR）会议上，2016。2[34] J. McCormac，A.汉达，S。Leutenegger和A. J. 戴维森场景网rgb-d：500万张合成图像在室内分割方面能否击败通用imagenet预训练？2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。2[35] S.- M.穆萨维-代兹福利A. Fawzi和P.弗罗萨德Deep-fool：一种简单而准确的欺骗深度神经网络的方法。

下载后可阅读完整内容，剩余1页未读，立即下载