在大规模图像数据集[36,22]上训练的现有技术的图
像分类器和对象检测器对许多熟悉的训练集对象的大
多数姿势进行错误分类。例如,DNN预测校车的前视
图 -ImageNet 数 据 集 中 的 一 个 对 象 [36]- 非 常 好 ( 图
10)。1a)但当同一物体太近或翻转时无法识别,
即
, 在OoD的姿势,但存在于现实世界中(图。1d)
的情况。然而,自动驾驶汽车需要正确估计传入的未
知物体的至少一些属性(而不是简单地拒绝它[17,
38]),以优雅地处理这种情况并最大限度地减少损
害。由于道路环境是高度可变的[3,2],解决这种类
型的OoD错误是一个不平凡的挑战。
在本文中,我们提出了一个用于在计算机视觉模型
中发现OoD错误的框架,其中使用3D渲染器的参数空
间中的迭代优化来估计变化(
例如
,在对象几何形状
和外观,照明,背景或相机设置),导致目标DNN行
为不端(图。2)的情况。使用我们的框架,我们生成
了3D对象的不受限制的6D姿态,并研究了DNN如何响
应对象的3D平移和3D旋转。在我们的研究中,我们构
建了一个3D对象数据集,对应于与自动驾驶汽车应用
程序相关的30个ImageNet类。我们框架的代码可以在
https://github.com/airalcorn2/ strike-
with-a-pose上找到。此外,我们构建了一个简单的
GUI工具,允许用户生成自己的对象对抗渲染。我们
的主要发现是:
•
ImageNet分类器只能正确标记
3
。
09%
的3D对象的
整个6D姿态空间,并错误分类许多人类可识别的
生成的对抗性示例(AX)(图10)。图1b-c)。
通过 小到 10的变化可以发现 错误分 类
。
31
分
,8
分
。
02
年
,
和9. 17
度角
分别对应于偏航、俯仰和滚转。
•
根据Inception- v3生成的AX中,99.9%和99.4%分
别传输到AlexNet和ResNet-50图像分类器,75.5%
传输到YOLOv 3对象检测器。
•
对30个对象生成的对抗姿态的训练(除了原始的
ImageNet数据之外)并没有帮助DNN很好地推广
到同一类中的对象。
总之,我们的工作表明,最先进的DNN可以很好地
执行图像分类
,但距离真正
的对象识别
还很远。虽然
通过使用更多的3D对象进行对抗性训练可以提高DNN
的鲁棒性,但我们假设未来能够进行视觉推理的ML模
型可能会从更好地结合3D信息中受益。
2.
框架
2.1.
问题公式化
设
f
是图像分类器,其映射图像x ∈
R
H
×
W
×
C
上
的
softmax
概率分布
1,000个输出类[44]。设R是一个3D渲染器,它将一组
参数φ作为输入并输出渲染,
即
,二维图像R(φ)
∈
RH
×
W
×
C
(见图2)。通常,φ被分解为网格顶点V、纹
理图像T、背景图像B、相机参数C和照明参数L,
即
,
φ
=
{
V
,
T
,
B
,
C
,
L
}
[19]。 为了改变给定3D对象的
6D姿态,我们对原始顶点V应用3D旋转和3D平移,由
W ∈R
6
参数化
产生一组新的顶点
这里,我们希望仅估计姿态变换参数
W
(同时保持φ
中的所有参数固定),使得渲染图像R(W;φ)使分类
器
f
将最高概率(在所有输出中)分配给输入。
在索引t处校正目标输出。形式上,我们试图解决以下
优化问题:
W
=
arg max(f(R(W;
φ
)
(
1
)
W
在实践中,我们最小化目标类的交叉熵损失
L
。当量如
果
f
和R都是可微的,
即
,我们就可以计算出Δ
L
/ Δ
W
。
然而,标准的3D渲染器,OpenGL [51],通常包括许多
不可微的
不能被复制[27]。因此,我们尝试了两种方法:(1)
利用最近提出的可微分渲染器并使用其分析梯度来执
行梯度下降;以及(2)利用不可微分的渲染器并通过
有限差分来近似梯度。
接下来我们将描述目标分类器(第二节)。2.2),
渲染器(第二节)。2.3),以及我们的3D对象数据集
(第2.3节)。2.4)在讨论优化方法之前(第(3)第
三章。
2.2.
分类网络
我们从PyTorch模型动物园[33]中选择了众所周知的
预训练Google Inception- v3 [45] DNN作为我们研究的
主要图像分类器(默认DNN,如果没有其他说明)。
DNN在ImageNet ILSVRC 2012数据集上具有77.45%的
top-1准确率[36],该数据集包含120万张图像,对应于
1,000个类别。
2.3.
3D渲染器
不可微渲染器。我们选择
ModernGL [1]
作为不可微
渲染器。
ModernGL
是广泛使用的
OpenGL
图形引擎
的简单Python接口。ModernGL支持快速的GPU加速渲
染。
可区分的渲染器。为了
通过不可微光栅化过程实
现反向传播,Kato et