单目3D目标检测的深度引导动态依赖扩张LCN算法(D4LCN)

80 浏览量更新于2023-10-23 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于单目3D目标检测的丁明宇1，2 霍雨琪2，5 宏伟一3号浙王4 建平石4 植物路2，5平罗1号1香港大学2中国人民大学高陵人工智能学院3北京大学深圳研究生院4商汤科技5大数据管理与分析方法北京市重点实验室，北京100872{myding，pluo}@ cs.hku.hk{bohony，luzhiwu}@ ruc.edu.cn摘要由于缺乏准确的深度信息，在没有LiDAR的情况下从单个图像检测3D对象是一项具有挑战性的任务。传统的2D卷积不适用于此任务，因为它们无法捕获局部对象及其尺度信息，这对于3D对象检测至关重要。为了更好地表示3D结构，现有技术通常将从2D图像估计的深度图变换成伪LiDAR表示，然后应用现有的基于3D点云的对象检测器。然而，它们的结果在很大程度上取决于估计的深度图的准确性在这项工作中，我们通过提出一种新的局部卷积网络（LCN）来改进基本的2D全卷积，而不是使用伪LiDAR表示，称为深度引导动态依赖扩张LCN（D4LCN），其中过滤器及其感受野可以从基于图像的深度图中自动学习，使不同图像的不同像素具有不同的过滤器。D4LCN克服了传统的2D卷积的局限性，缩小了图像表示和3D点云表示之间的差距。大量的实验表明，D4LCN的性能大大优于现有的工作.例如，在中度环境下，D4LCN相对于KITTI最新技术水平的相对改善D4 LCN在提交时在KITTI单眼3D物体检测benc hmark上排名第1（汽车，2019年12月该代码可在https://github.com/dingmyu/D4LCN上获得。1. 介绍3D物体检测是一个基本问题，并且具有许多应用，例如自动驾驶和机器人。先前的方法通过利用Li-DAR设备显示出有希望的结果，该设备在3D点云方面产生精确的深度信息。然而，由于成本高(a) 来自DORN的伪激光雷达点（b）来自MonoDepth的伪激光雷达（c）使用MonoDepth的结果（d）伪激光雷达的结果图1. (a)和（b）分别显示由监督深度估计器DORN [10]和无监督Monodepth [13]生成的伪LiDAR点。绿色框代表地面实况（GT）3D框。如（b）中所示的由不准确深度生成的伪LiDAR点与GT框相比具有大的偏移。(c)和（d）通过使用粗略的深度图显示了我们的方法和伪激光雷达[48]的检测结果。[48]的性能在很大程度上取决于估计的深度图的准确性，而我们的方法在丢失准确的深度图时实现了准确的检测结果。和稀疏输出的LiDAR，希望寻求更便宜的替代品，如单目相机。尽管这个问题已经引起了很多关注，但它在很大程度上仍然没有得到解决。实现上述目标的最新方法通常可以分为两个流，即基于图像的方法[36，26，41，19，17，4]和基于伪LiDAR点的方法。接近[48，33，50]。基于图像的方法[5，17]通常利用几何约束，包括对象形状、地平面和关键点。这些约束被公式化为损失函数中的不同项，以改善检测结果。伪LiDAR基于点的方法将从2D图像估计的深度图变换为点云表示以模拟LiDAR信号。如图1所示，这两种方法都有缺点，导致性能不佳。具体地，基于图像的方法通常无法捕获有意义的局部对象尺度和结构信息。1167211673这是因为以下两个因素。(1)由于透视投影的存在，单目远、近距离观察传统的2D卷积核很难同时处理不同尺度的对象（见图2）。（2）二维卷积的局部邻域定义在空间Convkernels卷积核k×k×Cn我我深度尺寸丢失的摄影机平面在这个非度量空间（即.像素之间的距离不具有像深度那样的明确的物理意义），滤波器不能将对象与背景区分开。在这种情况下，汽车区域和背景区域将被同等对待。(a) 标准2D卷积D（i，j，3）(b) 空间感知卷积Cn本地转换器虽然伪激光雷达点为基础的方法已经取得了进步的结果，他们仍然拥有两个关键的问题。(1)这些方法的性能在很大程度上取决于估计深度图的精度（见图1）。从单目图像中提取的深度图通常是换句深度图作为指导深度图作为指导动态本地过滤器(c) 动态本地过滤I自适应膨胀率中文（简体）移位元素乘积深度扩张局部滤波器换句话说，深度图的准确性限制了3D对象检测的性能。(2)伪LiDAR方法不能有效地利用从RGB图像提取的高级语义信息，导致许多误报。这是因为点云提供空间信息，但丢失语义信息。因此，道路上的路障、电箱甚至灰尘等区域可能会导致错误检测，但通过使用RGB图像可以很容易地区分它们。为了解决上述问题，我们提出了一种新的卷积网络，称为深度引导动态深度扩张局部卷积网络（D4LCN），其中卷积核从深度图中生成，并局部应用于单个图像样本的每个像素和通道，而不是学习全局核以应用于所有图像。如图2所示，D4 LCN将深度图视为指导，以从RGB图像中学习局部动态深度扩张内核，从而填补2D和3D表示之间的空白。更具体地说，D4LCN 中的学习内核是逐样本的（即示例内核[15]），位置方式（即，局部卷积[20]），和去卷积（即，dependencyconvolution [18]），其中每个内核都有自己的膨胀率（即，不同的样本核具有不同的感受野）。D4LCN的设计考虑了四个方面.(1) 范例的核心是学习特定场景的几何特征，为每一个图像。(2)局部卷积用于区分每个像素的对象和背景区域（3）深度卷积是在卷积层中学习具有不同目的的不同信道滤波器，并降低计算复杂度。(4)样本膨胀率是学习不同滤波器的不同感受野，以适应不同尺度的对象。通过组合移位线性算子和元素乘积线性算子，可以方便而有效地实现上述精细设计作为(d) 动态依赖扩张局部ConvNetI图2.不同卷积方法的比较。(a)是传统的2D卷积，其使用应用于每个像素的单个卷积核来卷积整个图像。(b)在图像的不同区域（切片）上应用多个固定卷积核。(c)使用深度图来生成每个像素具有相同感受域的动态内核。(d)表示我们的方法，其中滤波器是动态的，深度方面的，并且具有针对特征图的每个像素和通道的自适应感受野它可以用比（c）更少的参数更有效地实现。最好用彩色观看。结果表明，有效的D4LCN不仅可以解决二维卷积的尺度敏感和无意义的局部结构问题，而且与伪LiDAR表示相比，还可以受益于RGB图像的高级我们的主要贡献有三方面。(1)提出了一种新的3D目标检测组件D4LCN，其中深度图指导从单个单目图像学习动态扩展局部卷积。(2) 我们精心设计了一个基于D4 LCN的单阶段3D对象检测框架，以学习更好的3D表示，从而减少2D卷积和基于3D点云的操作之间的差距。(3)大量实验表明，D4LCN优于最先进的单目3D检测方法，并在KITTI基准测试中排名第一[12]。2. 相关工作基于图像的单目3D检测。先前的单眼3D检测方法[36，26，41，1，19，17，4，54]通常对场景几何形状进行假设，并将其用作训练2D到3D映射的约束。Deep3DBox [36]使用相机矩阵来投射一个预新型成组操作生成生成ConvD11674将3D框指定到2D图像平面上，约束2D检测框的每一侧，使得其对应于3D框的八个角中的任一个。OFTNet[43]引入了正交特征变换，它将基于图像的特征映射到正交3D空间。当物体的尺度变化很大时，这是很有帮助的。[21，31]研究了通过使用3D交并（IoU）损失来学习置信度以建模异方差不确定性为了引入更多的先验信息，[2，24，57，53]使用3D形状作为模板以获得更好的对象几何形状。[23]在以对象为中心的坐标系中预测点云，并设计投影对齐损失来学习局部尺度和形状信息。[34]提出了一种3D合成数据增强算法，通过直接在2D场景上绘制恢复的网格。然而，由于2D图像特征不容易表示3D结构，因此上述几何约束不能仅从单目图像恢复对象的准确3D信息。因此，我们的动机是利用深度信息，它本质上是2D和3D表示之间的桥梁，以指导学习2D到3D特征表示。基于点云的单目3D检测。先前的单目方法[48，33，50]将基于图像的深度图转换为伪LiDAR表示，以模仿LiDAR信号。利用这种表示，现有的基于LiDAR的检测算法可以直接应用于单目3D物体检测。例如，[50]检测输入图像中的2D对象提案，并从每个提案的伪LiDAR中提取点云截头体。[33]提出了一种多模态特征融合模块，用于将互补RGB提示嵌入到生成的点云表示中。然而，这种深度到LiDAR的转换严重依赖于深度图的准确性，并且不能利用RGB信息。相比之下，我们的方法将深度图作为指导，从RGB图像中学习更好的3D基于LiDAR的3D检测。随着点集深度学习的发展，3D特征学习[39，40，59]能够学习基于点和基于体素的深度特征。得益于此，基于LiDAR的方法在3D检测中取得了令人鼓舞的结果。例如，[59]将点云划分为等距的3D体素，并将每个体素内的一组点转换为统一的特征表示。[47]将FPN技术应用于基于体素的检测器。[55]研究了基于体素的网络的稀疏卷积。[25]利用PointNets学习以垂直列（柱子）组织的点云表示。[38]利用成熟的2D对象检测器直接从3D点云学习。[49]将逐点特征聚合为平截头体级特征向量。[44，7]通过分割点云，直接从点云生成少量高质量的3D投影。将整个场景分为前景和背景。也有一些工作集中在多传感器融合（激光雷达以及相机）的3D物体检测。[29，28]提出了一种连续融合层，它对离散状态图像特征和连续几何信息进行编码。 [6，22]使用LIDAR点云和RGB图像来生成特征，并使用紧凑的多视图表示对稀疏3D点云进行编码。动态网络。可以部署许多现有技术来利用用于单目3D检测的深度信息M3 D-RPN [1]提出了深度感知卷积，其使用行空间中的非共享内核然而，这种粗略而固定的空间划分存在偏差，无法捕捉对象的尺度和局部结构。动态滤波网络[20]使用特定于样本和特定于位置的滤波器，但具有沉重的计算成本，并且它也未能解决2D卷积的尺度敏感问题Trident网络[27]使用手动定义的多头探测器进行2D检测。但是，它需要手动对不同头部的数据其他技术，如可变形卷积[8]和[20]的变体，如[14，46，52，11]，也无法捕获对象尺度和局部结构。在这项工作中，我们提出了深度引导的动态扩张局部卷积网络，以解决与2D卷积相关的两个问题，并缩小2D卷积和基于点云的3D处理之间的差距。3. 方法作为单级3D探测器，我们的框架由三个关键组件组成：网络骨干、深度引导过滤模块和2D-3D探测头（见图3）。每个组件的详细信息如下所示。首先，我们给出了我们的体系结构以及骨干网络的概述。然后，我们详细介绍了我们的深度引导过滤模块，这是桥接2D卷积和基于点云的3D处理的关键组件。最后，我们概述了我们的2D-3D探测头的细节。3.1. 骨干为了利用深度图作为2D卷积的指导，我们将我们的主干制定为两个分支网络：第一个分支是使用RGB图像的特征提取网络，另一个分支是滤波器生成网络，以生成用于使用估计深度作为输入的特征提取网络的卷积核。这两个网络分别处理两个输入，并且它们的每个块的输出由深度引导滤波模块合并。特征提取网络的主干是ResNet-50 [16]，没有最终的FC和池化层，并且在ImageNet分类数据集上进行了预训练[9]。为了获得更大的视场并保持网络步幅为16，我们找到最后一个卷积层（conv5 1，block4）11675估计深度引导滤波模块输出w1C1w2C2W3nf移位合并逐元素乘积W2Dbbox[4C3WH1H2H3CC4H43Dshape[h3D中心[RGB图像I3I2��1，��自适应权重I4��×��I1特征提取网络3D旋转"3D3D角点'膨胀率=1=2=3w1C1w2C2WNMS转换3C3H1h2h3D3（，）深度图D2D1滤波器生成网络��。- ��是的 0,10，−1一，一不同扩张率下的位移3D检测结果图3.概述我们的单目3D物体检测框架。首先从RGB图像中估计深度图，并将其与RGB图像一起用作外两分支网络的输入。然后利用深度引导滤波模块对每个残差块的最后，采用具有非最大抑制（NMS）的一级检测头进行预测。这降低了分辨率，并将其步幅设置为1，以避免信号抽取，并将所有后续卷积层替换为扩张卷积层（扩张率为2）。对于滤波器生成网络，我们只使用ResNet-50的前三个块来降低计算成本。注意，对于深度引导滤波模块，两个分支具有每个块的相同数量的通道。3.2. 深度引导过滤模块传统的2D卷积核不能有效地建模对象的深度相关的尺度方差，并有效地推理前景和背景像素之间的空间关系另一方面，伪激光雷达表示过于依赖于深度的准确性并且丢失RGB信息。为了同时解决这些问题，我们提出了我们的深度引导过滤模块。值得注意的是，通过使用我们的模块，卷积核和它们的感受野（膨胀）对于不同图像的不同像素和通道是将是耗时的，因为它忽略了相邻像素中的冗余计算。为了减少时间成本，我们采用了移位和逐元素乘积运算符，其中移位[51]是零触发器零参数运算，并且元素级乘积需要很少的计算。具体地说，设In∈Rhn×wn×cn和Dn∈Rhn×wn×cn 分别为特征提取网络和滤波器生成网络的输出，其中n为块的索引（注意，块n对应于ResNet中的层covn+1令k表示特征提取网络的核大小。通过定义移动网格{（gi，gj）}，g∈（int）[1−k/2，k/2−1]，包含k·k个元素，对于ev-每个向量（gi，gj），我们将整个特征图ID向（gi，gj）指示的方向和步长移动，得到结果（ID）（gi，gj）。例如，当k = 3时，g∈{-1，0，1}，并且特征图以0或1的水平或垂直步长向九个方向移动。然后，我们使用求和和元素乘积运算来计算过滤结果：由于我们的特征提取网络的内核是由深度图训练和生成的，因此它是样本特定的I′=1Σ（ID）（gi，gj）.（一）并且是位置特定的，如[20，14]中所示，并且因此可以捕获有意义的局部结构作为点云中的基于点的操作器。我们首先将深度卷积[18]的思想引入网络，称为深度局部卷积（DLCN）。通常，深度卷积（DCN）涉及一组全局滤波器，其中每个滤波器仅在其对应的通道上操作，而DLCN则在其对应的通道上操作。获取本地过滤器的特征卷，其大小与k·k gi，gj为了鼓励深度卷积的通道之间的信息流，我们在模块中进一步引入了一个新的移位池算子考虑到nf是具有信息流的通道的数量，我们将特征图沿着通道轴移动nf次，分别为1，2，..， nf− 1以获得ne wn−1移位特征映射I（ni），n∈fsi输入特征图。由于生成的过滤器实际上是特征体积，因此执行DLCN的简单方法需要将特征体积转换为hn×wn位置特定的过滤器，然后将深度卷积和局部卷积应用于特征图，其中hn和wn是高度，在层n处的特征图的宽度。该实现{1、2、…nf−1}。然后，我们对移位后的特征图和原始I执行元素平均，以获得新的特征图作为模块的输入这种移位合并操作的过程如图4所示（nf=3）。与深度卷积的概念“组”相比，在[18，58]中，其旨在将许多通道分组为一组11676CC为了在它们之间进行信息融合，所提出的h移位池化算子更有效，并且不向卷积增加额外的参数。每个局部核的卷积权的大小总是k×k×cnCn当应用移位池时，（1+2+3）（2+3+4）（3+4+5）在[18]中，对于从k×k×Cn到k×k×cn×cn中的群卷积（假设卷积-解决方案保持信道数量不变）。注意滤波器生成网络很难生成这样的滤波器，中文（简体）（cn+1 + 2）n =3ss许多内核的传统卷积F之间的所有渠道，以及位置特定大大增加了计算成本。通过我们的深度公式，不同的内核可以具有不同的功能。这使我们能够为每个滤波器分配不同的膨胀率[56]，以解决尺度敏感问题。由于RGB图像中存在巨大的类内和类间尺度差异，我们使用I来通过自适应函数A学习每个滤波器的自适应膨胀率以获得不同大小的感受野。具体来说，让d表示我们的最大膨胀率，自适应函数A由三层组成：（1）具有输出大小d × d和信道号c的自适应MaxPool 2d层;（2）具有内核大小d × d和信道号d × c的卷积层;（3）用于生成d个权重Aw（I），w∈（int）[1，d]的整形和softmax层，其中每个滤波器的和为1。形式上，我们的引导过滤，自适应扩张函数（D4LCN）的公式如下：图4.当nf为3时，深度引导滤波模块中的深度卷积的移位池运算符的示例。它是有效地实现了移动和元素明智的平均运营商。其中[x，y，z]3D表示相机坐标中的3D点的水平位置、高度和深度，并且[x，y]P是2D图像坐标中的3D点的投影。地面真相：我们使用以下参数定义地面实况（GT）框：2D边界框[x，y，w，h] 2D，其中（x，y）是2D框的中心，w，h是2D框的宽度和高度; 3D中心[x，y，z] 3D表示3D中心在相机坐标中的位置;3D形状[w，h，l] 3D（3D物体尺寸：高、宽、长（以米为单位））和非同心姿态α3D在3D空间中（物体的观察角度，范围[−π，π]）[34]。注意，我们使用的是投影的3D框作为我们的地面真实2D边界框。输出：设na表示锚的数目，nc第一章（gw，gw）表示类的数量。对于每个位置（i，j），I=·Ad·k·kW（一） gi，gj（一）ij，（2）锚的输入、输出包含35+ncpa。参数：{[tx，ty，tw，th]2D，[tx，ty]P，[tz，tw，th，tl，tα]3D，对于不同的图像，我们的深度引导滤波模块在不同的像素上分配不同的内核，在不同的通道上分配自适应的接收域（膨胀）。这解决了尺度敏感和无意义的局部结构的问题，t （ m ），s}，其中 [tx ， ty ， tw ， th]2D 是预测的2D框;[tx，ty]P是2D平面中投影的3D角的位置，[tz，tw，th，tl，tα] 3D分别表示深度、预测的3D形状和旋转;t（m）=真正的2D卷积，并充分利用RGB{[t（m），t（m）]，[t（m）]}，m ∈ {1，2，.，8}表示8亲-x yPz三维与伪LiDAR表示相比的信息。3.3. 2D 3D检测头在这项工作中，我们采用具有基于先验的2D-3D锚盒[42，32]的单级检测器作为我们的基础检测器。3.3.1制剂输入：输出特征图I4∈Rh4×w4，我们的骨干网络，网络步长因子为16.按照惯例，我们使用一个校准设置，假设每图像相机固有函数K∈R3×4为在培训和考试时都可以使用。 3D转2D投影可以写为：日本语s表示每个类别的分类得分。输出图像的大小为h4×w4×na×（35+nc），其中（h4，w4）是输入图像的大小，已知采样因子为16。输出实际上是一个锚-基于2D-3D框的转换。3.3.22D-3D锚钉受[1]的启发，我们使用带有先验的2D-3D锚作为我们的默认锚框。更具体地，首先在2D空间上定义2D-3D锚点，如[32]然后使用训练数据集中相应的先验来计算它在3D空间中的部分。一个模板锚点使用两个模板锚点的参数定义。空格：{[A，A，A，A]，[A，A，A，A，A]}，Xxyw h2DZ W HLα3D阿夫里其中[Az，Aw，Ah，Al，Aα]3D 表示3D锚点y(3)z1个P3Dwnnf=3n12...指数...2...指数......指数...输入移位移位CN-1CNcn1cn12元素平均值111677（深度、形状、旋转）。对于2D锚点[Ax，Ay，Aw，Ah]2D，我们使用12个不同的锚点。11678x yP高度范围从30到400像素的ent尺度遵循30 μ 1的幂函数。265exp，exp∈（int）[0，11]以及[0. 五一0，1。[5]共36条，SmoothL1回归损失：′′′′L2D=SmoothL1（[x，y，w，h] 2D，[x，y，w，h] 2D），′′ ′ ′ ′合唱然后，我们将所有地面实况3D框投影到2DL3D=SmoothL1（[w，h，l，z，α]3D，[w，h，l，z，α]3D），′′空间对于每个投影的盒子，我们计算它的交集将3D框与每个2D锚点进行合并，并将相应的3D框分配给IoU≥0的锚点。五、为+SmoothL1（[x，y]P，[x，y]P），1米（m）Lcorner=SmoothL1（[x，y]P8，[x（m），y（m）]P）每个2D锚点，我们因此使用所有匹配的统计数据-+SmoothL1（[z′（m）]，[z]3D），（7）将地面实况3D框作为其对应的3D锚点[Az，Aw，Ah，Al，Aα]3D。请注意，我们使用相同的锚参数[Ax，Ay]2D来回归[tx，ty]2D和[tx，ty]P。锚点使我们的网络能够学习地面实况的相对值（残差），这显著地降低了学习的难度。3.3.3数据转换我们将网络的输出（2D-3D框的基于锚点的转换）与预定义的锚点相结合，以获得我们估计的3D框：其中[x（m），y（m）]P表示GT 3D框的图像坐标中的投影角，并且[z] 3D是其GT深度。4. 实验4.1. 数据集和设置KITTI数据集。KITTI 3D物体检测数据集[12]广泛用于单目和基于LiDAR的3D侦测。它由7，481张训练图像和7，518张测试图像以及相应的点云和校准参数组成，包括总共80，256个2D- 3D标记对象，具有三个对象类别：汽车，Pedes-”骑自行车的人。为每个3D地面实况框分配[x，y]2D=[Ax，Ay]2D+[tx，ty]2D<$[Aw，Ah]2D“”到三个难度等级中的一个（容易，中等，困难）[x，y]P=[Ax，Ay]2D+[tx，ty]P<$[Aw，Ah]2D根据对象的遮挡和截断程度来确定对象的位置。[x′（m），y′（m）]P= [Ax，Ay]2D +[t（m），t（m）][A]w，Ah]2DKITTI有两个train-val分裂：split 1 [5] con。′′[w，h]2D=[Aw，Ah]2D·exp（[tw，th]2D）′′ ′包含3，712个训练图像和3，769个验证图像，而split2 [53]使用3，682张图像进行训练，使用3，799张图像[w，h，l]3D=[Aw，Ah，Al]3D·exp（[tw，th，tl]3D）′[z，z（m）′，α]3D=[AZ，AZ，Aα]+[tz，tz，talpha]3D.（四）用于验证。该数据集包括三个任务：二维检测3D检测和鸟瞰其中[x′，y′]P，[z′，z′（m），α′]3D分别表示三维中心在二维平面上的投影估计值，三维中心和八个角的深度，以及结合网络和锚点输出的三维旋转。3.3.4损失我们的总体损失包含分类损失、2D回归损失、3D回归损失和2D-3D角损失。我们使用焦点损失的概念[30]来平衡样本。设st和γ分别表示目标类的分类得分和聚焦参数。我们拥有：L=（1−st）γ（Lclass+L2d+L3d+Lcorner），（5）其中γ=0。在所有实验中，L类，L2d，L3d，L角是分类损失，2D回归损失，3D回归损失和D-3D角损失。在这项工作中，我们使用标准的交叉熵（CE）损失进行分类：Lclass= − log（st）。（6）此外，对于2D和3D回归，我们简单地使用3D11679检测是3D检测方法的重点。评估指标。使用精确度-召回率曲线进行评估（IoU阈值为0.7）。在8月之前2019年，11点插值平均精度（AP）测量AP|在PascalVOC基准中提出的R11是在每个难度类和每个对象类上分别计算的。之后，40个基于召回位置的度量AP|用R40代替AP|第11话[45] 全是冰毒-ODS按AP排序|R11中的3D汽车检测温和的设置。实施详情。我们在ResNet的前三个块上使用了三次深度引导过滤模块，它们分别具有不同的网络步长4，8，16[10]用于深度估计。在每个模块之后使用丢弃率为0.2的丢弃信道层对于我们的单级检测器，我们使用两个卷积层作为我们的探测头。第一层中的通道数量为512，第二层的通道数量为n=（35+nc），其中对于三个对象类和背景类，nc被设置为4，na被设置为36。非最大抑制（NMS），IoU阈值为0.4，用于在2D空间中的网络输出。由于3D旋转α的回归比其他参数更困难，因此使用爬山后处理步骤来优化α，如11680方法容易测试集中度硬容易分割1中度硬容易Split2中度硬OFT-Net [43]1.611.321.004.073.273.29–––[31]第三十一话2.771.511.015.985.504.755.455.114.45[34]第三十四话4.322.021.4610.256.396.18–––GS3D [26]4.472.902.4713.4610.9710.3811.6310.5110.51移动R-CNN [37]6.883.872.8313.8411.2911.08–––MonoGRNet [41]9.615.744.2513.8810.197.62–––MonoPSR [23]10.767.255.8512.7511.488.5913.9412.2410.77Mono3D-PLiDAR [50]10.767.506.1031.5021.0017.50–––SS3D [21]10.787.686.5114.5213.1511.859.458.427.34MonodIS [45]10.377.946.4011.067.606.37–––伪激光雷达[48]–––19.5017.2016.20–––M3D-RPN [1]14.769.717.4220.2717.0615.2120.4016.4813.34AM3D [1]16.5010.749.52（+0.01）32.23（+5.26）21.0917.26–––D4 LCN（Ours）16.65（+0.15）11.72（+0.98）9.5126.9721.71（+0.62）18.22（+0.96）24.29（+3.89）19.54（+3.06）16.38（+3.04）表1.KITTI 3D物体检测数据集的比较结果对于测试集，仅AP |R40由官方排行榜提供。因此，我们在AP中的测试集上显示了结果|R40和AP中的split 1/split 2 |R11。我们用红色表示最高的成绩，括号内是相对的进步，蓝色表示第二高的成绩。我们的方法在9个项目中实现了7个第一和2秒。[1]的文件。输入图像被缩放到512×1760，水平翻转是唯一的数据增强。在所有实验中，将NF设置为3，并且将最大膨胀率D设置为3该网络通过随机梯度下降（SGD）进行优化，动量为0.9，权重衰减为0.0005。我们在4个Nvidia Teslav100 GPU（16G）上采用8个小批量。我们使用“聚”学习率策略，并将基础学习率设置为0.01，功率设置为0.9。训练过程的迭代次数设置为40，000。4.2. 比较结果我们在KITTI数据集的官方测试集和两个验证集上进行了实验。表1包括排行榜中排名前14位的单眼方法，其中我们的方法排名前1。我们可以观察到：(1) 我们的方法在单目3D汽车检测方面优于第二好的竞争对手（相对于10.74的9.1%）。11.72）在适度设置（这是KITTI最重要的设置）下(2)大多数竞争者，如[23，33，45，37，50，1]，利用检测器（例如，Faster-RCNN）在COCO/KITTI上进行预训练或采用多阶段训练以获得更好的2D检测和稳定的3D结果，而我们的模型使用标准ImageNet预训练模型进行端到端训练。然而，我们仍然实现了最先进的3D检测结果，验证了我们的D4 LCN学习3D结构的有效性。(3)最近KITTI使用AP |R40代替AP |R11，然而，所有现有的方法报告的结果在旧的度量。因此，我们也给出了AP下的结果|R11在验证集上进行公平比较。可以看出，我们的方法优于-在两个分割上形成所有其他的3D汽车检测。我们在AP下的结果|确认集上的R 40显示在消融研究中。2D检测93.5985.5168.81 94.2586.9370.34D4 LCN3D检测26.9721.7118.22 22.3216.2012.30鸟瞰34.8225.8323.53 31.5322.5817.87方法任务容易AP |R11中度硬容易AP |R-40中度硬2D检测93.4285.1668.14 94.1384.4565.733DNet3D检测17.9414.6112.74 16.7212.1309.46鸟瞰24.8719.8916.14 23.1916.6713.392D检测94.0485.5668.50 94.9884.9366.11+CL3D检测20.6615.5713.41 17.1012.0909.47鸟瞰290323.8219.41 24.1217.7513.662D检测92.9885.3568.63 93.8186.7170.19+DLCN3D检测23.2517.9215.58 18.3213.5010.61鸟瞰27.7622.8918.73 26.7818.6815.142D检测92.5785.1468.40 93.3586.5267.93+SP3D检测25.3019.0217.26 19.6914.4411.52鸟瞰31.3924.4019.85 26.9120.0715.7711681表2.KITTI split1上的类车消融研究4.3. 仔细的分析4.3.1消融研究为了对模型进行消融研究，我们比较了五个版本的模型：（1）3DNet：使用L2D和L3D的基线模型，没有我们的深度引导滤波模块;（2）+ CL：将角点损失添加到3DNet中;（3）+ DLCN：增加了深度引导的深度局部滤波;（4）+SP：增加了移位池运算符（其中nf=3）;（5）D4 LCN（我们的完整模型）：自适应扩张率被添加，如在Eq. 二、从表2中，我们可以观察到：（1）当更多组件用于3D对象检测时，性能持续增加，显示每个组件的贡献。(2)我们的深度引导过滤模块增加了3D检测AP分数（mod-[2019 - 05 - 15][2019 - 05][2019 -05][20所述AP |R11和AP |R40度量，分别。这表明，它确实有效地捕捉有意义的本地结构，真正的3D物体检测。(3)主要的改进来自我们的自适应扩张卷积（2.69和1.7611682深度容易AP |R11中度硬容易AP |R-40中度硬表3.在KITTI split1上比较不同质量的深度图，以进行3D检测输入图像过滤器编号41：自适应扩张权重0.14、0.60和0.26类简单[拆分1/拆分2/测试]中度[拆分1/拆分2/测试]硬[拆分1/拆分2/测试]车26.97/24.29/16.6521.71/19.54/11.7218.22/16.38/9.51行人12.95/12.52/4.5511.23/10.37/3.4211.05/10.23/2.83骑车人5.85/7.05/2.454.41/6.54/1.674.14/6.54/1.36表4.我们的方法在三个数据分割上的多类3D检测结果。请注意，所有基于伪LiDAR的方法[33，50，48]都无法检测行人和骑自行车的人。用于AP |R11和AP |R40），这允许特征图的每个通道具有不同的感受野，从而解决了尺度敏感问题。注意，我们尝试了不同的nf∈ {1，2，3，4，5，6}值，发现nf=3是最好的4.3.2深度图的评价为了研究深度图的准确性对我们方法性能的影响，我们使用四种不同的方法提取深度图[13，10，35，3]，然后将其应用于3D检测。如在以前的工作中所报道的深度估计，三个监督的方法（即。PSMNet、Disp-Net和DORN）的性能显著优于无监督方法[13]。在监督方法中，基于立体的方法 [3 ， 35] 优于基于单眼的DORN。根据这些结论，我们从表3中得到以下观察结果：（1）深度图越好，3D检测的准确度越高。这是因为更好的深度图可以提供更好的场景几何形状和局部结构。(2) 随着深度图质量的提高，检测精度的增长(3)即使使用通过无监督学习获得的深度图[13]，我们的方法也达到了最先进的结果。与基于伪激光雷达的方法[33]相比，我们的方法较少依赖于深度图的质量（19.63 vs.15.45使用MonoDepth）。4.3.3多类3D检测由于人是非刚体，其形状变化，并且其深度信息难以准确估计。因此，行人和骑自行车者的3D检测变得特别困难。请注意，所有基于伪LiDAR的方法[33，50，48]都无法检测到这两个类别。然而，如表4所示，我们的方法在行人的3D检测上仍然达到了满意的性能，过滤器编号89：自适应扩张权重0.05、0.03、0.92过滤器编号70：自适应扩张权重0.96、0.02、0.02图5.对应于我们的D4 LCN块3的不同过滤器的活动地图的可视化。每个滤波器学习分别表示膨胀率1、2、3的三个权重。在我们的模型中，不同的滤波器具有不同的功能来自适应地处理尺度问题。例如，滤波器89具有用于大型汽车的大的接收域，而滤波器70处理小型汽车。骑自行车的此外，我们还在图5中显示了对应于我们的D4 LCN的不同滤波器的活动映射.在我们模型的同一层上的不同过滤器使用不同大小的感受野来处理不同尺度的对象，包括行人（小）和汽车（大），以及远处的汽车（大）和附近的汽车（小）。5. 结论本文提出了一种用于单目3D目标检测的深度引导的动态深度扩张局部卷积网络（D4LCN），其中卷积核及其感受野（扩张率）对于不同图像的不同像素和通道是不同的。这些内核是在深度图的条件下动态生成的，以补偿2D卷积的限制，并缩小2D卷积与基于点云的3D算子之间的差距。因此，我们的D4LCN不仅可以解决的问题的规模敏感和无意义的局部结构的二维卷积，但也受益于从RGB图像的高级语义信息。广泛的实验表明，我们的D4 LCN更好地捕捉3D信息，并排名1st的单眼3D物体检测的 KITTI数据集上提交的时间。6. 确认这项工作得到香港大学基础研究种子基金、创业基金及商汤科技研究捐赠的部分支持。国家自然科学基金（61976220、61832017、61573363）和北京市杰出青年科学家计划（BJJWZYJH012019100020098）资助。感谢杨国润博士的细心校对。MonoDepth [13] 22.4319.6316.38 16.8213.1810.87[10]第10话26.9721.7118.22 22.3216.2012.30DispNet [35]30.9524.0620.29 25.7318.5615.10PSMNet [3]30.0325.4121.63 25.2419.8016.4511683引用[1] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d区域提议网络在ICCV，第9287-9296页二三五七[2] FlorianChabot、MohamedChaouch、JaonaryRabarisoa 、 Ce'lineTeulie`re 和 ThierryChateau 。Deepmanta：一个从粗到精的多任务网络，用于从单目图像进行2d和3d车辆联合分析在CVPR中，第20403[3] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR中，第5410-5418页，2018年。8[4] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测在CVPR中，第2147一、二[5] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun. 用于精确对象类别检测的 3D 对象建议。NeurIPS，第424-432页，2015年。1、6[6] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检

下载后可阅读完整内容，剩余1页未读，立即下载