没有合适的资源?快使用搜索试试~ 我知道了~
4845摆出一个姿势:神经网络很容易被熟悉物体Michael A. 奥尔康alcorma@auburn.edu七里qzl0019@auburn.edu龚志涛gong@auburn.edu王成飞czw0078@auburn.edu龙脉malong@adobe.com顾维新weishinn@auburn.edu阮英anhnguyen@auburn.edu奥本大学Adobe Inc.摘要(a)(b)(c)(d)尽管在静态测试集上表现出色,但深度神经网络(DNN)可能无法推广到分布外(OoD)输入,包括自然的、非对抗性的输入,这在现实世界中很常见在本文中,我们提出了一个利用3D渲染器和3D模型发现DNN故障的框架也就是说,我们估计3D渲染器的参数,这些参数导致目标DNN响应于渲染的图像而行为不当。使用我们的框架和自组装的3D对象数据集,我们研究了DNN对ImageNet中知名对象的OoD姿态的脆弱性对于DNN在其规范姿势中容易识别的对象,DNN错误地分类了97%的姿势空间。此外,DNN对轻微的姿态扰动高度敏感重要的是,对抗姿势可以跨模型和数据 集传 输。 我们 发现 ,99.9% 和99.4%的姿 势被Inception-v3错误分类也转移到AlexNet,消防车0.99校车0.98灭火轮0.98雪橇0.79ResNet-50图像分类器分别在相同的ImageNet数据集上训练,75.5%转移到在MS COCO上训练的YOLOv 31. 介绍对于现实世界的技术,如自动驾驶汽车[10],自主无人机[14]和搜索和救援机器人[37],测试分布可能是非平稳的,新的观测结果通常会是分布外(OoD),即而不是训练分布[42]。然而,机器学习(ML)模型经常以高置信度为OoD示例分配错误的标签,例如对抗性示例[46,29]-由对手精心制作的输入,以导致目标模型行为不端。但是ML模型也容易受到自然OoD示例的影响[21,2,48,3]。例如,当特斯拉自动驾驶汽车无法识别时图1:Google Inception-v3分类器[44]正确地标记了对象的规范姿势(a),但未能识别出异常姿势的对象的分布图像(左边的3×3图像(每个图像下面是它的前1个预测标签和置信度得分。在明亮的天空下,一辆白色的卡车撞上了卡车,司机当场死亡。以前的研究已经成功地使用3D图形作为计算机视觉系统的诊断工具[7,31,47,32,50]。为了理解DNN中的自然II型分类错误,我们搜索了错误分类的6D姿势(即,3D平移和3D旋转)。我们的结果是-校车1.0垃圾车0.99沙袋1.0扫雪机0.92摩托车0.99 降落伞1.0雪橇1.0降落伞0.544846不在大规模图像数据集[36,22]上训练的现有技术的图像分类器和对象检测器对许多熟悉的训练集对象的大多数姿势进行错误分类。例如,DNN预测校车的前视图 -ImageNet 数 据集 中 的一 个 对象[36]-非 常好 ( 图10)。1a)但当同一物体太近或翻转时无法识别,即, 在OoD的姿势,但存在于现实世界中(图。1d)的情况。然而,自动驾驶汽车需要正确估计传入的未知物体的至少一些属性(而不是简单地拒绝它[17,38]),以优雅地处理这种情况并最大限度地减少损害。由于道路环境是高度可变的[3,2],解决这种类型的OoD错误是一个不平凡的挑战。在本文中,我们提出了一个用于在计算机视觉模型中发现OoD错误的框架,其中使用3D渲染器的参数空间中的迭代优化来估计变化(例如,在对象几何形状和外观,照明,背景或相机设置),导致目标DNN行为不端(图。2)的情况。使用我们的框架,我们生成了3D对象的不受限制的6D姿态,并研究了DNN如何响应对象的3D平移和3D旋转。在我们的研究中,我们构建了一个3D对象数据集,对应于与自动驾驶汽车应用程序相关的30个ImageNet类。我们框架的代码可以在https://github.com/airalcorn2/strike-with-a-pose上找到。此外,我们构建了一个简单的GUI工具,允许用户生成自己的对象对抗渲染。我们的主要发现是:• ImageNet分类器只能正确标记3。09%的3D对象的整个6D姿态空间,并错误分类许多人类可识别的生成的对抗性示例(AX)(图10)。图1b-c)。通过小到10的变化可以发现错误分类。31分,8分。02年,和9. 17度角分别对应于偏航、俯仰和滚转。• 根据Inception- v3生成的AX中,99.9%和99.4%分别传输到AlexNet和ResNet-50图像分类器,75.5%传输到YOLOv 3对象检测器。• 对30个对象生成的对抗姿态的训练(除了原始的ImageNet数据之外)并没有帮助DNN很好地推广到同一类中的对象。总之,我们的工作表明,最先进的DNN可以很好地执行图像分类,但距离真正的对象识别还很远。虽然通过使用更多的3D对象进行对抗性训练可以提高DNN的鲁棒性,但我们假设未来能够进行视觉推理的ML模型可能会从更好地结合3D信息中受益。2. 框架2.1. 问题公式化设f是图像分类器,其映射图像x ∈RH×W×C上的softmax概率分布1,000个输出类[44]。设R是一个3D渲染器,它将一组参数φ作为输入并输出渲染,即,二维图像R(φ)∈RH×W×C(见图2)。通常,φ被分解为网格顶点V、纹理图像T、背景图像B、相机参数C和照明参数L,即,φ={V,T,B,C,L} [19]。 为了改变给定3D对象的6D姿态,我们对原始顶点V应用3D旋转和3D平移,由W ∈R6参数化产生一组新的顶点这里,我们希望仅估计姿态变换参数W(同时保持φ中的所有参数固定),使得渲染图像R(W;φ)使分类器f将最高概率(在所有输出中)分配给输入。在索引t处校正目标输出。形式上,我们试图解决以下优化问题:W=arg max(f(R(W;φ)(1)W在实践中,我们最小化目标类的交叉熵损失L。当量如果f和R都是可微的,即,我们就可以计算出ΔL/ ΔW。然而,标准的3D渲染器,OpenGL [51],通常包括许多不可微的不能被复制[27]。因此,我们尝试了两种方法:(1)利用最近提出的可微分渲染器并使用其分析梯度来执行梯度下降;以及(2)利用不可微分的渲染器并通过有限差分来近似梯度。接下来我们将描述目标分类器(第二节)。2.2),渲染器(第二节)。2.3),以及我们的3D对象数据集(第2.3节)。2.4)在讨论优化方法之前(第(3)第三章。2.2. 分类网络我们从PyTorch模型动物园[33]中选择了众所周知的预训练Google Inception- v3 [45] DNN作为我们研究的主要图像分类器(默认DNN,如果没有其他说明)。DNN在ImageNet ILSVRC 2012数据集上具有77.45%的top-1准确率[36],该数据集包含120万张图像,对应于1,000个类别。2.3. 3D渲染器不可微渲染器。我们选择ModernGL [1]作为不可微渲染器。 ModernGL是广泛使用的OpenGL图形引擎的简单Python接口。ModernGL支持快速的GPU加速渲染。可区分的渲染器。为了通过不可微光栅化过程实现反向传播,Kato et4847背景光源目标网络对象(形状、纹理)向前传球向后传递误差与期望输出“school3D渲染器(b)2D图像图像分类器(a)3D场景相机图2:为了测试目标DNN,我们构建了一个3D场景(a),其中包括3D对象(这里是校车和行人),照明,背景场景和相机参数。我们的3D渲染器将场景渲染成2D图像,图像分类器将其标记为校车。我们可以通过以下方式估计导致分类器错误分类的校车姿势变化:(1)通过有限差分近似梯度;或(2)通过可微分渲染器反向传播(红色虚线)[19]用允许非零梯度的线性插值采样方案虽然近似使梯度从输出图像流回到渲染器参数φ,但渲染质量低于我们的不可微渲染器(见图2)。S1进行比较)。在下文中,我们将这两个渲染器称为NR和DR。2.4. 3D对象数据集建设我们的主要数据集由30个独特的3D对象模型(从许多3D模型市场购买)组成,对应于与交通环境相关的30个ImageNet类(图1)。S2)的情况下。30类包括20辆车(例如,校车和出租车)和10个与街道有关的项目(例如,交通灯)。参见第S1了解更多详情。每个3D对象被表示为网格,即,一个三角形面的列表,每个面由三个顶点定义[27]。30个网格平均有9,908个三角形(表S1)。为了最大化渲染图像的真实感,我们只使用了具有高质量2D图像纹理的3D模型。我们没有从公共数据集中选择3D模型,例如,对象-Net 3D [52],因为它们中的大多数没有高质量的图像纹理。也就是说,这种模型的渲染可以被DNN正确地分类,但仍然具有差的真实性。评价我们认识到渲染和真实照片之间经常存在现实差距。因此,我们严格评估了我们的渲染,以确保现实差距是可接受的,为我们的研究。 从100美元开始购买3D模型,我们选择了30个最高质量的模型使用下面的评价方法首先,我们定量评估了DNN对渲染的预测。对于每个对象,我们采样了36个独特的视图(在ImageNet中很常见),平均分为三组。对于每个集合,我们将对象设置为原点,即向上方向到(0,1,0),并且相机位置到(0,0,-z),其中z={4,6,8}。 我们采样了每组12个视图,以10°偏航开始对象,并以每30°偏航旋转生成渲染。在所有对象和所有渲染中,Inception-v3的top-1准确率为83。23%(与77。ImageNet图像上的45%[44]),平均top-1置信度得分为0。78(表S2)。参见第S1了解更多详情。其次,我们通过com对渲染进行了定性评估,与真实照片进行比对我们通过三个步骤生成了116个(真实照片,渲染)对:(1)我们检索对象的真实照片(例如,汽车)从互联网;(2)在AdobePhoto-shop中用匹配的背景内容替换对象;以及(3)我们在背景上手动渲染3D对象,使得其姿态与参考照片中的姿态紧密匹配。图S3显示了示例(真实照片,渲染)对。虽然在我们的并排比较中可以发现差异,但我们发现,如果单独呈现,大多数渲染都通过了我们的2.5. 背景图像先前的研究已经表明图像分类器可以在前景物体被移除时正确地标记图像(即,仅基于背景内容)[57]。因为我们研究的目的是了解DNN如何识别物体本身,所以非空背景会阻碍我们对结果的解释。因此,我们在RGB值为(0. 485,0。456,0。406),即,ImageNet图像的平均像素。请注意,非空背景的存在不应改变我们在本文中的主要定性研究结果-对抗姿态可以很容易地在真实背景照片中找到(图10)。①的人。3. 方法我们将描述常见的姿势变换(第二节)。3.1)用于主要实验。我们能够-4848我2 2使用非梯度方法进行实验,因为:(1)我们优化的姿态变换空间R6是相当低维的;(2)虽然NR是不可微的,但其绘制速度比DR快几个数量级。此外,我们的初步结果表明,在方程中考虑的目标函数。1是高度非凸(见图)。4)因此,比较起来很有趣。(1)随机搜索与(2)使用有限差分(FD)近似梯度的梯度下降与(3)使用DR梯度的梯度下降。3.1. 姿态变换我们使用标准的计算机图形变换矩阵来改变3D对象的姿态[27]。具体地,为了旋转具有由一组顶点V={vi}定义的几何形状的对象,我们应用等式中的线性变换。2至每个顶点vi∈R3:vR=RyRpRrvi(2)其中Ry、Rp和Rr是3×3旋转矩阵,对DNN的预测有很大的影响基于这一观察,我们使用zδ约束随机搜索(ZRS)过程作为我们基于梯度的方法的初始化器4.4)。ZRS程序包括在每个30个均匀的(xδ,yδ,θy, θp, θr)中产生 10个随机样本。zδ从−28到0。当使用ZRS进行初始化时,选择最大目标概率作为起始点。当使用该过程作为攻击方法时,我们首先收集每个zδ的最大目标概率,然后选择最佳的两个zδ作为RS的新范围。3.4.有限差分梯度下降法我们通过有限中心差分计算一阶导数,并执行香草梯度下降以迭代地最小化目标类的交叉熵损失L。也就是说,对于每个参数Wi,偏导数近似为:偏航、俯仰和滚转(矩阵可以在节中S6)中。然后,我们通过添加LL(Wi+h)−L(Wi−h)=(五)Σ ΣT∂Wih向量T=xδyδzδ到每个顶点:虽然我们对所有参数使用了0.001的h,但每个参数可以使用不同的步长。因为弧度vR,T=T+vR(三) 具有环形拓扑(即,0弧度的旋转是在所有的实验中,中心c∈R3的对象被限制在一个子体积的摄像机观察平截头。也就是说,c的x-,y-和z-坐标分别在[−s,s],[−s,s]和[-28,0]范围内,其中s是-设置将c保持在相机内的最大值frame. 具体地,s被定义为:s=d·tan(θv)(4)其中θv是照相机视角的一半 8. 在我们的实验中为213μm),并且d是相机的z坐标和z δ之间的差的绝对值3.2. 随机搜索在强化学习问题中,与更复杂的方法相比,随机搜索(RS)可以令人惊讶地有效[41]。对于我们的RS过程,代替迭代地遵循一些近似梯度来解决等式中的优化问题。1,我们只是在每次迭代中随机选择一个新的姿势。方程中的矩阵的旋转角度2是从(0,2π)中均匀采样的。xδ、yδ和zδ也从第2节定义的范围内均匀取样第3.1条3.3. zδ约束随机搜索我们的初步RS结果表明zδ(它是渲染图像中对象大小的代理与2π弧度、4π弧度等的旋转相同我们将每个旋转角θi参数化为(cos(θi),sin( θi))-一种通常用于姿态估计[30]和逆运动学[11]的技术-其通过atan2函数将笛卡尔平面映射到角度因此,我们在3 + 2 × 3= 9个参数的空间中进行优化。从等式(5)获得的近似梯度εL用作我们的梯度下降中的梯度。我们使用vanilla梯度下降更新规则:W:=W −γL(W)(6)对于所有参数,学习率γ为0.001,并且针对100步进行了优化(没有其他停止标准)。4. 实验和结果4.1. 神经网络很容易被物体的旋转和平移所迷惑实验为了测试DNN对对象旋转和平移的鲁棒性,我们使用RS为数据集中的每个3D对象生成样本。此外,为了探索照明对DNN性能的影响,我们考虑了三种不同的照明设置:明亮,中等,和黑暗(图中的示例渲染)。S10)。在所有三种设置中,定向光和环境光都是白色的,颜色,即,RGB值为(1. 0,1。0,1。0),并且方向光定向在(0,-1,0)(即,指向正4849�����������������������������������������������������������������������������������������������������������������������������������������������������������������阳离子(p≥0. 7)在很大程度上均匀分布在每个姿态参数(图。3a),即,AX可以在在整个参数景观(见图)。例如S15相比之下,正确分类的例子是高度多峰的w.r.t.旋转轴角度和严重偏向zδ值更接近相机(图1)。 3b;也比较图。S4与图S6)。有趣的是,对于球形物体(不包括在我们的主要流量数据集中),DNN在整个姿态空间中要准确得多(参见第二节)。S8)中定义。一个对象可能被误分类为许多不同的标签。以前的研究表明,这是相对容易的亲-在优化输入图像[46]或3D对象纹理[5]时,可以导出对应于许多不同类别的AX,这些类别非常高维。当发现对抗姿态时,人们可能会期望-因为所有渲染器参数,����������(a) 不正确分类���������������������包括原始对象的几何形状和纹理,都保持不变-成功率很大程度上取决于给定的3D对象和ImageNet中目标示例之间的相似性有趣的是,在我们的30个对象中,RS发现-��������������������������������������������������������������������������������������������������������������������������������������运行了990/1000个不同的ImageNet类(其中132个在所有对象之间共享)。当仅考虑高置信度(p ≥ 0. 7)错误分类,我们的30个对象仍然被错误地分类为797个不同的类,每个对象发现的错误标签的中位数为240个(见图S16和图S6为示例)。在所有对抗姿态和对象中,DNN在正确时比错误时更有信心(中位数概率的中位数为0.41,而不是0.41)。0.21)。4.2. 不同的照明设置之间共享通用对象类fications(b)正确分类图3:(a)高置信度(p≥0. 7)不正确的分类和(b)正确的分类从随机抽样程序中描述的第二节。3.2. xδ和yδ已相对于. r. t归一化。其对应的s来自Eq. 4.第一章向下)。方向光强度和环境光强度分别为(1. 二一6),(0. 四,一。0),以及(0. 2,0。5)分别用于明亮、中等和黑暗设置。所有其他实验均使用中等照明设置。错误分类的fications均匀覆盖姿态空间。 对于每个对象,我们计算DNN准确度(即,正确分类样本的百分比)(表S5)。DNN对绝大多数人来说是错误的在这里,我们分析了我们的结果如何在不同的照明条件下推广。从SEC中产生的数据来看,4.1,对于每个对象,我们计算了每个照明设置下的DNN精度。然后,对于每个物体,我们取所有三种照明组合的精度的绝对差(即,亮对中,亮对暗,和中对暗)并记录这些值的最大值。所有对象的准确度的中位数“最大绝对差”为2.29%(相比之下,中位数准确度为3。09%(所有照明设置)。也就是说,DNN准确度在所有照明条件下始终较低光照变化不会改变DNN容易受到对抗姿态影响的事实。我们还记录了50个最常见的类,每个对象在不同的照明设置(Sb,Sm和Sd)。然后,对于每个对象,我们计算了这些集合的交集和并集得分4850样本的数量,即,所有30个对象的正确分类的中位百分比我们证实了-o=100·|SbSmSd|S|SbSmSd|(七)通过使用3D物体再现自然,在互联网上发现的错误分类的姿势(见第二节)。S3)的情况下。 高置信度误分类-所有对象的中位数OS 也就是说,15在30个对象中,在50个最频繁的类中有47.10%是跨照明设置共享的。 虽然灯光48514�����������������������������������������������������������������������������������������������������������������������������������������������(一)(b)第(1)款(例如,图4;俯仰与滚转),同时保持其他参数不变。我们定性地观察到DNN一辆消防车)在图像中的变化从根本上作为对象是在世界上旋转(图。4).此外,对抗姿态通常在相似的对象上泛化(例如,对于所有15个四轮车辆对象,83%的采样姿势被错误分类)。实验为了定量评估DNN对旋转和平移的敏感性,我们测试了它如何响应单参数干扰。对于每个对象,我们随机选择了DNN在随机采样运行中正确分类的然后,对于每个参数(例如,偏航旋转角),我们随机采样100个新值1,同时保持其他值不变。对于每个样本,我们记录对象是否保持正确分类,然后计算失败(即,错误分类)率。所有(对象、参数)组合的故障率曲线图见图。S18.此外,对于每个参数,我们计算了中位失败率的也就是说,对于每个参数,我们首先计算所有对象的中值故障率,然后计算每个参数的中值。此外,对于每个(对象,起始姿势,参数)三元组,我们记录了导致错误分类的最小参数变化的幅度然后,对于每个(对象,参数)对,我们记录这些最小值的中位数。最后,我们再次计算了这些对象的中位数(表1)。结果从表1中可以看出,DNN对所有单参数干扰都非常敏感,但它对沿深度(zδ)、螺距图4:Inception-v3(a)改变θr和θp,保持(xδ,yδ,zδ,θy)不变at(0,0,−3,π).较亮的区域对应于具有更多数量的正确分类的车辆对象的姿态。绿色和红色圆圈分别表示正确和不正确的分类,对应于(b)中发现的消防车对象姿势。对DNN错误分类产生影响(正如预期的那样),跨照明设置的大量共享标签表明ImageNet类与某些对抗姿势密切相关,无论照明如何。4.3. 正确的分类在旋转和平移景观中高度本地化为了直观地了解Inception-v3如何响应对象的旋转和平移,我们绘制了成对参数的概率和分类景观(θp)和滚转(θr)。为了帮助解释这些结果,我们将表1中的原始干扰值转换为图像单位。对于xδ和yδ,可解释的单位是对象在图像的x或y方向上移位的像素数(然而,注意,由于透视投影,3D平移不我们发现,旋转的变化小到8。02错误可能导致对象被错误分类(表1)。沿着空间维度,平移导致物体移动低至水平2像素或4像素。5px垂直也导致DNN错误分类。最后,沿z轴,“尺寸”的变化对象的边界框的面积)仅为5.4%就4.4. 优化方法可以有效地生成有针对性的对抗姿势给定一个具有挑战性的,高度非凸的客观景观(图。4),我们希望评估两个1使用第2节中描述的随机抽样程序。第3.2节2请注意,在并行工作中观察到分类器和对象检测器对2D平移的灵敏度[35,12,56,6]。��������������������������������������������������������4852命中率(%)目标概率ZRS随机搜索780.29FD-G梯度基920.41基于DR-G†320.22表1:中位故障率的中位数和中位最小扰动的中位数(Min.对于第4.3节中描述的单参数灵敏度试验,Int.转换为Min中的值更多可解释的单位。对于xδ和yδ,可解释的单位是像素。对于zδ,可解释的单位是包含对象的边界框面积的百分比变化更多信息见正文和图S18目标攻击时的不同类型的近似梯度,即,寻找被错误分类为目标类的对抗性示例[46]。在这里,我们比较(1)随机搜索;(2)梯度下降有限差分梯度法(FD-G);(3)梯度下降与分析,近似梯度由微分渲染器(DR-G)提供[19]。实验因为我们的对抗姿态攻击固有地受到固定几何和外观的约束,一个3D物体(见第二节)。4.1),我们将目标定义为通过我们的RS过程为每个对象找到的50个最常见的不正确类。对于每个(对象,目标)对,我们使用ZRS,FD-G和DR-G进行了 50次优化试验所有治疗都用ZRS程序找到的姿势初始化,然后允许优化100次迭代。结果对于50次优化试验中的每一次,我们记录了目标是否被击中以及在运行期间获得的最大目标概率。对于每个(对象,目标)对,我们计算了目标命中的百分比和目标标记的中值最大置信度得分(参见表2)。如表2所示,FD-G在生成有针对性的对抗姿势方面比ZRS有效得多,具有更高的中值命中率和置信度得分。此外,我们发现来自DR的近似梯度是令人惊讶的噪声,并且DR-G甚至在很大程度上表现不佳非梯度方法(ZRS)(参见第二节)。S5)。4.5. 对抗姿态转移到不同的图像分类器和对象检测器以前记录的AX最重要的属性是它们跨ML模型传输,从而实现黑盒攻击[55]。在这里,我们研究了我们的对抗姿态到(a)两个不同的图像分类器AlexNet[20] 和 ResNet-50 [16] 的 可 转 移 性 , 它 们 在 相 同 的ImageNet数据集上训练;(b)对象检测器YOLOv 3 [34]表2:随机搜索(ZRS)、有限差分梯度梯度下降(FD-G)和DR梯度(DR-G)的目标命中百分比中位数和目标概率所有的攻击都是有针对性的,并使用zδ约束随机搜索进行初始化。†DR-G与FD-G和ZRS没有直接可比性(详见第S4)的情况下。在MS COCO数据集上训练[22]。对于每个对象,我们随机选择了1,350个AX,这些AX被Inception-v3错误分类,具有高置信度(p≥0.05)。9)从我们的非靶向RS实验中。4.1.我们将AX暴露于AlexNet和ResNet-50,并计算其错误分类率。我们发现阿尔-对于AlexNet和ResNet-50,大多数AX传输的中位错误分类率分别为99.9%和99.4%。此外,10.1%的AlexNet错误分类和27.7%的ResNet-50错误分类与Inception-v3预测的标签相同这个结果有两个正交假设。首先,ImageNet训练集图像本身可能包含对常见姿势的强烈偏见,忽略了不常见的姿势(第二节)。S7显示了来自最近邻检验的支持证据)。第二,模型本身可能对已知的、分布中的姿态的甚至轻微的干扰都不鲁棒。物体探测器。以前的研究表明,对象检测器可以比图像分类器更强大的对抗性攻击[25]。在这里,我们调查如何我们的AX会转移到最先进的物体探测器YOLOv 3上。YOLOv3是在MS COCO上训练的,MS COCO是一个对应于80个不同对象类的边界框数据集。我们只考虑了13个物体ImageNet和MS COCO数据集中的类。我们发现,75.5%的Inception-v3生成的对抗姿势也被YOLOv 3 错误分类 (见第二节) 。S2 了解更多 详情)。这些结果表明,对抗性姿势问题在数据集、模型和任务之间转移。4.6. 对抗训练对抗训练是防御OoD示例的最有效方法之一[15],即:用AX扩充训练集-也是异常检测中的一种常用方法[9]。我们测试了对抗性训练是否可以提高DNN对(1)我们的30个训练集3D对象生成的新姿势的鲁棒性;和(2)七个伸出的3D物体(见第二节)。详细信息S9福尔-参数失败率(%)分钟∆Int. ∆xδ420.092.0像素γδ490.104.5像素zδ810.77百分之五点四4853经过对抗训练后,DNN对已知对象的准确性大幅提高(表3; 99. 67% vs. 6. 7%)。然而,该模型(AT)仍然以89.2%的错误率错误分类了保持对象的对抗姿态。PT在误差(T)99.676.7误差(H)99.8189.2高置信度误差(T)87.81.9高置信度误差(H)48.233.3表3:错误分类(Error)和高置信度(即,p >0。7)预训练的AlexNet(PT)和我们的AlexNet(AT)在训练集对象(T)和保持对象(H)的随机姿势上训练的对抗性示例(AT)的错误分类。5. 相关工作分布外检测。 OoD类,即, 在训练集中找不到的类,对现实世界中的计算机视觉技术提出了重大挑战[38]。在这里,我们研究了一个正交问题,正确分类,ING OoD构成的对象从已知的类。虽然拒绝分类是处理OoD示例的常见方法[17,38],但我们工作中的OoD姿势来自已知类别,因此应该分配正确的标签。2D对抗的例子已经发现了许多用于制作欺骗图像分类器的AX的技术[55]。然而,以前的工作通常优化在2D输入空间[55]中,例如,通过合成整个图像[29]、小块[18,13]、几个像素[8]或仅单个像素[40]。但是像素方面的变化是不相关的[28],因此基于像素的攻击可能无法很好地转移到现实世界中[24,26],因为在相机、照明、交通和天气配置的广阔物理空间中遇到这种专门制作的不相关像素的可能性极小。[54]生成空间变换的对抗性示例,这些示例在视觉上是真实的,更难以防御,但该技术仍然直接对像素进行操作。3D对抗的例子Athalye等人[5]使用3D渲染器来合成3D对象的纹理,以便在广泛的相机视图下,对象仍然是静止的。成为一个有效的AX。我们还使用了3D渲染器,但我们没有优化纹理,而是优化了已知对象的姿态,导致DNN错误分类(即,我们保持了纹理、光照、相机设置和背景图像不变)。并行工作。下面我们描述两个与我们密切相关的并发尝试。首先,Liu et al. [23日]提出了一个可微分的3D渲染器,并使用它来扰动对象然而,它们的几何扰动被约束为无穷小,使得顶点的可见性不会改变。因此,他们对几何形状进行微小扰动的结果实际上与对纹理进行扰动的结果类似[5]。相比之下,我们执行3D旋转和3D平移来在3D空间内移动对象(即,照相机的视锥第二,Engstrom等人[12]显示了简单的2D图像旋转和平移如何然而,这些2D变换仍然没有揭示通过旋转3D物体发现的对抗姿态的类型(例如,翻倒的校车;图1d)的情况。据我们所知,我们的工作是第一次尝试利用3D对象来研究众所周知的训练集对象的OoD姿态,这些对象导致最先进的ImageNet分类器和MS COCO检测器错误分类。6. 讨论和结论在本文中,我们揭示了DNN对“校车”和“消防车”等对象的理解是多么的天真-它们只能正确地标记整个3D对象的姿态空间的一小部分。请注意,我们也可以通过简单地拍摄真实物体的照片来找到真实世界的OoD姿势(第二节)。S3)的情况下。我们相信将任意姿态分类到对象类中的一个是不适定的任务,并且对抗姿态问题可以通过多种正交方法来缓解第一个是解决偏置数据[49]。由于ImageNet和MS COCO数据集是由人们拍摄的照片构建的,因此数据集反映了捕获者的审美倾向。这种偏差可以通过数据增强来减轻,特别是通过利用从3D渲染器生成的图像[39,4]。从建模的角度来看,我们相信DNN将受益于3D信息的整合,[4]的文件。最后,我们的工作介绍了一个新的有前途的方法(图。2)通过利用3D渲染器和3D模型来测试计算机视觉DNN。虽然我们在这里只优化了一个对象,但该框架可以扩展到联合优化照明,背景图像和多个对象,所有这些都在一个“对抗世界”中我们的框架不仅使我们能够列举DNN的测试用例,而且它还可以作为一种可解释性工具,用于提取有关这些黑盒模型内部功能的有用见解确认我们感谢Hiroharu Kato和Nikos Kolotouros的宝贵讨论,并在可区分的出租人方面提供帮助。我们还要感谢Rodrigo Sardinas对项目中使用的一些GPU服务器的帮助。 AN得到了奥本大学的多个基金的支持,Adobe公司的捐赠和Amazon AWS的计算积分。4854引用[1] 现代现代 5.4.1 文献.https://moderngl.readthedocs.io/en/stable/index.html。(2018年11月14日访问)。[2] 撞死一名行人的自动驾驶优步没有刹车。原因如下https://slate.com/technology/2018/05/uber-car-in-fatal-arizona-crash-perceived-pedestrian-1-3-seconds-before-impact.html。(于2018年7月13日访问)。[3] 特斯拉自动驾驶汽车坠毁,杀死司机,美国新闻头条-海峡时报。https://www.straitstimes.com/world/united-states/tesla-car-on-autopilot-crashes-discrimining-driver.(于2018年6月14日访问)。[4] H.A.Alhaija,S.K.Mustikovela,A.盖革,以及C. 罗 瑟 几 何 图 像 合 成 。 arXiv 预 印 本 arXiv :1809.04696,2018。[5] A.阿萨利湖恩斯特罗姆,A. Ilyas和K.郭合成强大的对抗性示例。 2018年第35届国际机器学习会议(ICML)论文集,第284-293页[6] A. Azulay和Y.韦斯为什么深度卷积网络对小图像变换的 泛 化 能 力 如 此 之 差 ? arXiv 预 印 本 arXiv :1805.12177,2018。[7] A. Borji,S. Izadi和L.伊蒂ilab-20 m:用于研究深度学习的大规模受控对象数据集。在IEEE计算机视觉和模式识别会议的Proceedings中,第2221-2230页[8] N. Carlini和D.瓦格纳。神经网络的鲁棒性评价。2017年IEEE安全与隐私研讨会(SP),2017年。[9] V. Chandola,A. Banerjee和V。库玛异常检测:一个调查。ACM计算调查(CSUR),41(3):15,2009。[10] C. Chen,中国山核桃A. Seff,A. Kornhauser和J.萧深度驾 驶 : 自 动 驾 驶 中 的 直 接 感 知 学 习 启 示 。 IEEEInternational Conference on Computer Vision , 第 2722-2730页,2015年[11] B. B. Choi和C.劳伦斯基于神经网络的机器人逆运动学问题。美国国家航空航天局技术手册,105869:1[12] L. 恩斯特伦湾Tran,D.齐普拉斯湖Schmidt和A.马德里一个旋转和一个平移就足够了:用简单的变换愚弄CNN, 2019。[13] I. 叶夫季莫夫河 Eykholt,E. Fernandes,T. 科赫诺湾李鹏说,A.普拉卡什A. Rahmati和D.歌对机器学习模型的强大物理世界攻击。arXiv预印本arXiv:1707.08945,2017。[14] D.甘地湖Pinto和A.古普塔。学着在撞击中飞行。在智能机器人和系统(IROS),2017年IEEE/RSJ国际会议上,第3948-3955页。IEEE,2017年。[15] I. Goodfellow,J. Shlens和C.赛格迪解释和利用对抗性的例子。2015年,国际学习表征会议[16] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残 差 在 2016 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第770- 778页[17] D. Hendrycks和K.吉姆佩尔用于检测神经网络中错误分类和分布外示例在2017年学习代表国际会议论文集[18] D. Karmon,D. Zoran和Y.金伯格拉旺:局部化和可见的 对 抗 性 噪 声 。 arXiv 预 印 本 arXiv : 1801.02608 ,2018。[19] H.卡托湾Ushiku和T.原田。神经3D网格渲染器。在IEEE计算机视觉和模式识别会议,2018年。[20] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的ImageNet分类神经信息处理系统进展(NIPS2012),第1097-1105页,2012年[21] F. 兰伯特理解特斯拉汽车在Autopi-lot上的致命事故Electrek,2016年[22] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象欧洲计算机视觉会议,第740-755页Springer,2014.[23] H.- T. D. Liu , M. 陶 角 , 澳 - 地 L. Li , D.Nowrouzezahrai,A.雅各布森使用可微分渲染器的对抗性几何和照明。arXiv预印本,2018年8月。[24] J. Lu,H. Sibai、E. Fabry和D.福赛斯无需担心自动驾驶汽车中物体检测的对抗性示例。arXiv预印本,2017年7月。[25] J. Lu,H. Sibai、E. Fabry和D. A.福赛斯标准的检测器不会(目前)被物理对抗性的停止标志所愚弄。CoRR,abs/1710.03337,2017。[26] Y. Luo,X.Boix湾Roig,T.Poggio和Q.赵基于视觉聚焦的机制减轻对抗性示例。arXiv预印本,2015年11月。[27] S. Marschner和P.雪莉计算机图形学基础。CRC Press,2015.[28] A. 阮 J. Clune, Y. 本吉奥 A. dosovitskiy和J. Yosinski即插&即用生成网络:潜空间中图像的条件迭代生成。在CVPR,第2卷,第7页,2017年。[29] A. Ngu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功