没有合适的资源?快使用搜索试试~ 我知道了~
887基于伪立体的自动驾驶单目3D目标检测陈怡楠1戴航2丁勇11浙江大学2穆罕默德·本·扎耶德人工智能大学,阿联酋阿布扎比通讯作者{hang. mbzuai.ac.ae,dingy@vlsi.zju.edu.cn}.摘要伪LiDAR 3D探测器通过深度估计网络增强感知深度的能力,并使用基于LiDAR的3D检测架构,在单目3D检测方面取得了显着进展。先进的立体3D检测器也可以准确地定位3D对象。立体视图的图像到图像生成中的间隙比图像到LiDAR生成中的间隙小得多。基于此,本文提出了一个伪立体三维检测框架,该框架包含三种新的虚拟视图生成方法,包括图像级生成、特征级生成和特征克隆,用于从单个图像中检测三维我们对深度感知学习的分析表明,深度损失仅在特征级虚拟视图生成中有效,并且估计的深度图在我们的框架中在图像级和特征级都是有效的。我们提出了一个disparity-wise动态卷积与动态内核采样的视差特征图过滤功能自适应地从一个单一的图像生成虚拟图像的功能,这减轻了深度估计误差所造成截至子任务(2021年11月18日),我们的伪立体3D检测框架在KITTI-3D基准上发表的单目3D检测器中,在汽车、行人和骑自行车者方面排名第一代码发布于https://github.com/revisitq/Pseudo-Stereo-3D网站。1. 介绍从单目图像中检测三维物体,使机器能够感知和理解三维真实世界,在虚拟现实、机器人和自动驾驶等领域有着广泛的应用。单目3D检测是一项具有挑战性的任务,因为在单个图像中然而,这种廉价且易于部署的3D检测解决方案的巨大潜力吸引了越来越多的研究人员。在伪LiDAR检测器[11,29,34,43,52]中已经取得了显著的进展,伪LiDAR检测器使用预先训练的深度估计网络来生成伪LiDAR表示,例如伪点云图1.我们的伪立体3D检测框架与新的虚拟视图生成方法的概述:(a)图像级使用生成的视差图将输入左图像前向扭曲特征转换基线是克隆左特征作为立体视图中的特殊情况。和伪体素,然后将它们馈送到基于LiDAR的3D检测器。结果表明,增强对深度的感知能力可以提高单目三维探测性能。然而,由于图像到LiDAR生成中的误差,伪LiDAR和基于LiDAR的检测器之间存在巨大的性能差距[32]。除了基于LiDAR的探测器之外,立体3D探测器[9,17]还可以准确地定位3D对象。此外,立体视图的图像到图像生成中的间隙比图像到LiDAR生成中的间隙小得多,图像到LiDAR生成是跨模态转换。代替伪激光雷达,我们提出了一个新的伪立体3D检测框架单目3D检测。我们的伪立体3D检测框架从单个输入图像生成虚拟视图然后,我们将伪立体视图馈送到立体3D检测器,用于从单个输入图像中检测3D我们使用最先进的立体3D探测器之一LIGA-Stereo [17]作为基本探测架构。因此,虚拟视图生成是我们的伪立体三维检测框架的关键。我们以KITTI-3D为例,仅解释如何生成虚拟视图。注意,虚拟视图不需要数据集中的地面实况实际视图用于训练。在KITTI-3D中,在来自立体视图的左图像我们的目标888是通过在图像级或特征级从输入左视图生成虚拟右视图来构造伪立体视图,如图1所示,我们提出了两种类型的虚拟视图生成:(a) 图像级以从输入左图像生成虚拟右图像,以及(b)特征级以将左特征转换在图像级,将左视图的深度估计值转化为视差,并利用视差将左视图前向扭曲为虚拟右视图,从而与左视图合成在特征层,本文提出了一种基于视差的动态卷积算法,该算法利用视差特征图中的动态核函数对左特征进行自适应滤波,生成虚拟右特征,有效地降低了深度估计误差对特征质量的影响。此外,简单的特征转换是克隆左特征作为虚拟右特征,这是虚拟右视图与左视图相同的立体视图的特殊情况。我们总结我们的贡献:• 本文提出了一个伪立体3D检测框架,该框架采用了三种新的虚拟视图生成方法,包括图像级生成、特征级生成和特征克隆,用于从单个图像中检测3D对象,实现了单目3D检测的显著改进。所提出的框架与功能级虚拟视图生成排名第一的单目3D探测器,在KITTI-3D基准的三个对象类的出版物。• 在我们的框架中,我们分析了学习深度感知特征表示的两个主要影响,包括估计的深度图和作为深度指导的深度损失。非常有趣的是,发现深度损失仅在特征级虚拟视图生成中有效,并且估计的深度图对于深度感知特征学习在图像级和特征级都有效。• 在我们的特征级虚拟视图生成方法中,我们提出了一种基于视差的动态卷积方法,该方法利用视差特征图的动态核函数自适应地对单幅图像中的特征进行过滤,从而生成虚拟图像特征,避免了深度估计误差造成的特征2. 相关作品用于单目3D物体检测的架构可以主要分为两组:基于伪LiDAR的方法[11,34,43],其使用预先训练的深度网络来生成伪LiDAR表示,例如伪点云和伪体素,然后将它们馈送到基于LiDAR的3D检测器,以及其余的单目3D检测方法,其使用从具有可选的3D线索匹配、连接或引导3D感知的单个图像学习的2D特征[24,26,31,38,39,54,57]。单眼3D检测。有一些单目3D检测器在2D主干中使用2D特征学习,可选的3D线索连接或匹配到2D特征以进行3D感知。Chabot等人[6]估计检测到的车辆与用作2D主干中的3D线索的预定义3D车辆形状模板之间的相似性。他们在标准的2D/3D匹配算法中解决了检测到的车辆的3D位置和3D旋转角度[22]。巴拉-巴瑙等。[2]使用2D特征预测2D主干中汽车的旋转和关键点。然后,他们使用CAD模型中的关键点和对应点之间的几何推理来获得汽车的深度和3D位置。 但要得到所有对象类的CAD模型是困难的。GrooMeD-NMS[21]提取2D特征用于单目3D检测,可区分的NMS选择最佳的3D框候选者。GS3D [23]使用专门设计的2D主干来提取表面特征,以解决2D边界框和3D边界框之间的表示模糊性。MonoEF [56]采用具有摄像机外部参数感知模块的2D主干来从3D检测参数解构摄像机外部参数。M3 D-RPN [4]通过最小化预测的3D边界框的2D投影与预测的2D边界框之间的距离误差来提取2D图像特征以直接预测2D和3D边界框。继M3 D-RPN [4]之后,许多工作[28,33,35]使用2D-3D检测头增强了2D特征学习,用于单目3D检测。一些方法聚合2D图像特征和从深度图提取的深度特征以获得2D深度感知特征[12,33]。D4 LCN [12]采用深度引导卷积,其中权重和接收场从估计深度学习,用于深度感知特征提取。DSP-3D [47]使用基于图的深度条件传播来学习用于单目3D检测的2D深度感知特征。DD3D [33]将深度预测头添加到3D检测头,并使用深度损失来学习对单目3D检测的深度信息敏感的2D特征。DD3D [33]还在大规模数据集上预训练深度预测头,并在单目3D检测任务上微调整个网络其他方法提取二维特征,通过二维特征的变换构造三维特征体,提高三维感知能力。CaDDN [38]使用估计的深度分布来构建frustum特征网格。然后,使用已知的摄像机校准参数将截头体特征转换ImVoxelNet [39]使用2D主干提取2D图像特征,并将2D特征投影到3D特征体积中[31]。然后,3D特征体通过3D主干来增强3D特征以用于单目3D检测。伪激光雷达 伪激光雷达架构将889∈−R−>LR将来自单个图像的估计深度图转换为伪3D数据表示[5,46],然后将其馈送到3D主干以学习用于单目3D检测的逐点、逐体素或鸟瞰精炼MPL[46]使用PointRCNN [41]在监督或无监督方案中从伪点云进行逐点特征学习。AM3D [30]使用PointNet [36]骨干从伪点云进行逐点特征提取,并采用多模态融合块来增强逐点特征学习。MonoFENet [1]增强了单眼3D检测的估计视差的3D特征。去耦-3D [5]使用3D对象高度的粗略深度以及从估计深度图转换的BEV特征来恢复对象的缺失深度。然而,这些方法的性能和泛化能力依赖于图像到LiDAR生成的准确性,这两种数据模式之间存在巨大差距。3. Stereo 3D探测器基于体积的立体3D检测器旨在从立体图像[37]生成3D锚空间,并从3D特征体积[9,17,48]定位3DDSGN[9]遵循立体匹配[16,45,50]中广泛使用的3D成本体积构造,具有3D几何信息编码。立体匹配分支中的深度损失有助于为检测分支学习Wang等人[48]使用3D成本体积的直接构造来减少计算成本。基于DSGN [9],LIGA-Stereo [17]在立体3D检测中实现了对其他方法[3,9,53]的因此,我们使用LIGA-Stereo [17]作为我们的基础立体3D检测架构,并将伪立体视图馈送到LIGA-Stereo。我们专注于如何从输入左视图生成虚拟右视图,并学习伪立体特征,是敏感的深度信息。因此,我们在LIGA-Stereo中介绍了立体图像特征提取和3D特征体构建[17]。立体图像特征提取. 给定来自立体视图的图像对(IL,I R),LIGA-Stereo [17]首先通过ResNet- 34 [18]提取左特征和右特征,其中共享权重作为2D图像主干。五个块中的输出特征图的步幅是2,2,分别为4、4和4。五个块中的输出特征图的通道为64、64、128、128和128。通过在每个候选深度水平处将左特征FL与重新投影的右特征FR->L连接来构建Vst因此,可以用相机参数将立体体积构造公式化为:Vst(u,v,w)=concat[FL(u,v),FR−>L(u,v)](1)F(u,v)=F(uf·b,v)(2)d(w)·Sd(w)=w·vd+zmin(3)其中(u,v)是像素坐标,w[0,1,. ]表示深度索引,S是特征图的步幅,v_d是深度间隔,z_min表示最小深度值,f是相机焦距,b表示立体相机对的基线。在通过立体网络3D Hourglass [17]过滤立体体积Vst之后,我们得到重新采样的立体体积Vs′t和深度分布体积Pst。Pst描述了d(w)中描述的所有候选深度级别的像素的深度概率分布。计算从重新采样的立体声体积Vs′t回归的深度图与地面实况深度图之间的深度损失,以指导Vs′t的深度感知学习。利用摄像机标定参数,通过连接由深度概率Pst划分的左图像的语义特征和重新采样的立体体积Vs′t,可以将立体空间中的体积Vs′t转换为3D空间中的体积V3d。在SECOND [51]之后,通过合并高度和通道的维度,将3D特征卷V3d折叠为鸟瞰最后,使用2D聚合网络来获得用于3D检测参数回归的细化BEV特征图FB′EV4. 方法如图2所示,我们提出了三种新颖的方法来从输入左视图生成虚拟右视图,并在(a)第4.2节中的图像级、(b)第4.3节中的特征级和(c)第4.4节中的特征克隆作为特征级生成的基线来构建伪立体视图。我们在第4.5节中描述了损失函数。在第4.6节中,我们分析了所提出的伪立体3D检测框架中的深度感知特征学习。4.1. 伪立体3D检测框架我们使用LIGA-Stereo [17]作为我们的基础立体3D检测。然后,我们将左特征和右特征表示为FL′和结构,并取代立体图像的功能外,FR′ 作为空间金字塔池化(SPP)的输入牵引块与我们的伪立体图像功能extrac,模块[7],其具有用于获得最终左特征FL和右特征FR的共享权重。最终左特征F_L和右特征F_R的步幅是1,并且最终左特征F_L和右特征F_R的通道是32。3D特征体积构造。利用左特征FL和右特征FR,立体声音量动作块。如图2所示,我们提出了三种虚拟右视图生成方法,并从输入左视图和生成的虚拟右视图中提取伪立体图像特征。然后,我们将伪立体图像特征馈送到LIGA-Stereo,用于仅从输入的左侧图像中检测3D对象。890∈∈∈图2.概述我们的虚拟视图生成方法:(a)图像级,使用生成的视差图将输入左图像前向扭曲为虚拟右图像,(b)图像级,通过提出的逐视差动态卷积(DDC)将左特征转换为虚拟右特征,(c)图像克隆,简单地复制左特征作为虚拟右特征。图3.使用我们的图像级虚拟视图生成方法生成的左图像(顶部)和虚拟右图像(底部)。4.2. 图像级生成在图像-1层中,我们使用如图2(a)中所示的估计视差图从输入左图像IL生成虚拟右图像IVR 然后,我们提取伪立体声图像特征来自P-立体对(IL,IR)。With左图像中的一对像素对应xl和xr对于右图像IL和右图像IR,像素对应对之间的视差d可以计算为:d=xl−xr(4)给定输入左图像中的像素xl的深度值z和相机校准参数,视差d与其对应的深度值z之间的关系可以公式化为:图3中的为了解决在图像级生成中,我们将从左图像中提取的估计深度信息嵌入到虚拟右图像中以进行伪立体3D检测。然后,我们使用具有共享权重的ResNet-34[18],然后使用具有共享权重的空间金字塔池(SPP)模块来提取左侧特征FL和虚拟右侧特征从伪立体声对(IL,IR)中提取F R。我们可以使用伪立体图像特征来构造立体体积如第3节所述。4.3. 企业级生成由于向前扭曲,生成虚拟右图像是一个耗时的过程[19,49]。为了克服这一点,我们提出了一种可区分的特征级方法,用于从左特征和视差特征生成虚拟右特征,如图2(b)所示我们将估计的深度图转换为视差图,并使用ResNet-34[18]从左输入图像中提取左特征FL′,并从视差图中提取视差特征FDd=f·bz(五)奇偶性映射两个ResNet-34没有共享权重。而不是计算偏移量来补偿左边的其中f和b分别是立体相机对的相机焦距和基线为了获得虚拟右图像,我们首先使用预训练的DORN [13]从输入左图像IL估计深度图Z。然后,我们根据等式(1)将深度图Z转换为视差图D。5相机参数下式4、我们使用视差图来向前扭曲将左图像IL[40]转换为虚拟右图像IR,如图所示视图作为虚拟右视图,我们提出了一个逐层动态卷积(DDC)来过滤左特征图FL′RW×H×C由视差特征图F D的动态核自适应地调整RW ×H×C用于发电虚拟右特征图F′RRW×H×C,其中W,H和C分别是特征图的宽度、高度和通道。如图4所示,自适应过滤过程使用3×3滑动窗口覆盖所有891∗3×3u′∈{ −}∈{ −}LDR3× 3g,gLD图4.动态卷积的一个例子。FD和FL′中的特征点:FFD(u′,v′)·FL′(u′,v′)(6)特征级生成的基线对于不同的伪立体视图,所提出的框架可以利用从估计的深度图转换的成对像素对应约束或特征对应约束来改进3D特征体的然而,克隆功能不需要一个预先训练的深度估计网络,在我们的伪立体3D检测框架,导致更好的泛化能力。4.5.损失函数由于我们使用LIGA-Stereo [17]作为我们的基础立体3D检测架构,并使用所提出的三种变体替换原始立体图像特征提取块,伪立体图像特征生成块,如其中u'我1,i,i+1和v′J1,j,j+1是滑动窗口中特征点的坐标。我们需要应用W-H次滑动窗口来覆盖整个特征图,这是效率不相反,我们使用了一个网格移动操作,可以覆盖整个特征图与9倍的移动。填充后,我们将aW×H窗口遵循3×3网格{(gi,gj)}中表示的方向和步长,g∈{−1,0,1}在FD和F′上,用于获得内核F(gi,gj)∈RW×H×C,特征映射F′(gi,gj)∈RW×H×C,关于i维。当在图2中,我们采用与LIGA-Stereo [17]相同的损失函数,包括用于所有检测参数的回归的检测损失Ld,深度损失L_depth作为重新采样的立体体积Vs′t的附加深度指导,以及知识蒸馏损失Lkd转移到结构从基于LiDAR的探测器获得的知识,如LIGA-Stereo[17]中所述。总损失可表述为:L=λdLd+λdepLdepth+λkdLkd(8)其中λd、λdep和λkd是正则化权重,gi=0,Lgj=0时,W×H风的作用超过了原来的W ×H风分别是检测损失、深度损失和知识扩散损失采用的知识蒸馏法没有填充的要素地图,如黑点所示图4的盒子。 这样,我们就可以得到虚拟正确的特征在LIGA立体声是很好的研究[17]。请参阅LIGA立体声[17]了解更多细节。我们专注于如何通过对F′(gi,gj)进行滤波,使F′(gi,g j)适应于核函数F(gi,gj):RF′L=1<$F′(gi,gj)<$F(gi,gj)I jD(七)从所述输入左视图生成所述虚拟右视图,并提高感知特征中的深度的能力。4.6. 学习深度感知特征其中网格移位操作被应用九次以覆盖整个特征图。更多详情,请参阅补充材料。我们将FL′和FR′送入SPP具有共享权重的模块使用步长4来获得最终左特征FL和虚拟右特征FRR。与图像级生成相比,特征级生成速度更快,无需前向扭曲,并且使用所提出的逐像素动态卷积更具自适应性此外,通过将估计的深度信息嵌入到高维特征空间中,并使用嵌入的深度信息来过滤剩余特征,它弥补了深度感知表示的退化,并且深度感知表示可以通过额外的深度指导来加强嵌入的深度信息,从而实现单目3D检测的显着改进。4.4.图像功能克隆我们将左侧特征克隆为虚拟右侧特征,如图2(c)所示。这可以被视为伪立体视图的特殊情况,即虚拟右视图与左视图相同。此外,功能克隆用作在我们的框架中,深度感知的特征学习包括两个方面:估计的深度图和深度损失。我们将所估计的深度图转换为视差图,并且在图像空间或特征空间中使用它。通过比较这两种方法的性能,我们可以研究估计深度图用于深度感知特征学习在图像级和特征级的效果。深度损失L_depth被用作重采样立体体Vs′t的附加深度引导,以提高特征的深度感知,从而提高单目3D检测性能。虽然估计的深度图和深度损失都可以提高特征学习中的深度意识,但在这项工作之前,这两个因素之间的相互作用对于单目3D检测没有得到很好的研究。对于第4.2节中的图像级生成,我们使用伪立体图像对来提取立体图像特征,其中虚拟右图像是在估计的深度图的帮助下从左图像生成的。单目深度估计是一个不适定问题,这使得难以获得高质量的深度图用于虚拟右图像生成。因此,像素对应关系v′892由于深度估计误差,所生成的伪立体对的约束可能相对于地面实况具有大的偏移。利用从不准确的像素对应关系变形的虚拟右图像进行学习会导致特征退化。由于地面实况深度和退化特征之间存在巨大差距,因此迫使网络使用深度损失和退化特征来拟合地面实况深度图会损害整体性能。对于第4.3节中的特征级生成,从左特征和视差特征生成虚拟右特征。与图像级生成不同,其中前向扭曲是从图像到图像的非学习过程,特征级生成是具有从特征到特征的逐精度动态卷积的自适应学习过程此外,估计的深度信息被嵌入到高维特征空间中,并且嵌入的深度信息用于在特征级生成中过滤剩余特征这减轻了深度感知表示的降级,减轻了地面实况深度和特征之间的差距因此,特征表示可以利用额外的深度引导(例如,深度损失)来演化和细化深度信息对于第4.4节中的特征克隆,我们将左侧特征复制为伪立体图像特征,而没有估计的深度图。仅深度损失就可以提高特征的深度感知,从而提高检测性能。5. 实验5.1. 数据集和评估指标数据集。KITTI 3D物体检测基准[15]是3D物体检测中使用最广泛的基准。它包括7481张训练图像和7518张测试图像,以及从农村地区和高速公路上捕获的中等城市周围的相应点云KITTI-3D提供了3个类别的3D边界框注释,汽车,行人和行人。通常,训练集分为3712个样本的训练分割和3769个样本的验证分割,我们分别表示为KITTItrain和KITTIval。消融研究中的所有模型均在KITTI序列上进行训练,并在KITTIval上进行评估。为了提交我们的方法,模型是在7481个训练样本上训练的每个对象样本被分配到一个难度级别,容易,中等或困难根据对象评估指标。我们在KITTI-3D中使用两个评估指标,即具有平均精度(AP)度量的3D边界框或BEV 2D边界框的IoU,其分别表示为AP3D和APBEV。根据单眼3D检测方法[2,12,54],我们对Car进行了消融研究。KITTI-3D使用AP|R40与40个召回点,而不是AP|R11有11个召回点从2019年10月8日。 我们在AP上报告所有结果|R4 0。5.2. 实验设置输入设置。 我们使用DORN[ 14]的预训练模型来估计深度图。然后,我们将深度图转换为视差图与相机校准参数。图像级生成中的虚拟右图像对于特征级生成,视差图通过μ= 33.20,σ=15.91标准化。µ和σ表示从训练集计算的视差图的均值和方差。培训详情。 该网络使用AdamW进行训练[25]优化器,β1=0.9,β2=0.999。我们用4个NVIDIARTX 3090 GPU训练网络. 批量大小 设置为4。对于训练损失的正则化权重,λd=1.0,λkd=1.0。深度损失L_depth的正则化权重λdep被设置为0或1,表示是否使用深度损失。我们使用一个单一的模型来检测不同类别的对象(汽车,骑自行车的人和行人)。其他超参数设置与LIGA-Stereo相同[17]。Exp.方法L深度容易AP3D/APBEV中度硬1映像级✓31.43 / 41.8221.53 / 29.0018.47 / 25.212映像级31.81/42.8722.36/30.1619.33/26.383特征级✓35.18/45.5024月15日/32月3日20.35/27.574特征级22.04 / 31.1016.18 / 22.5514.31 / 20.565无性系✓28.46/37.6619.15/25.7816.56/22.476无性系24.33 / 32.9917.09 / 23.7714.61 / 20.81表1.在IOU阈值0.7时,对三种拟议伪立体变体和L深度进行消融研究Exp.是实验标签5.3. 消融研究如表中所示1,我们对KITTIval进行消融研究,用于三种拟议的伪立体变体:图像级,特征级和特征克隆生成。图像级。如表中实验1和实验2所示。1、随着深度损失,图像级生成方法的整体性能对于AP 3D下降(-0.38%,-0.83%,-0.86%),对于AP BEV 下降(-1.05%,-1.16%,-1.17%)。的生成的伪图像的像素对应约束,由于深度估计误差,立体声对可能相对于地面实况具有大的偏移 利用从不准确的像素对应关系变形的虚拟右图像进行学习导致特征退化。强制降级特征以使深度损失与地面实况深度图拟合会损害整体性能。高级。从表中的实验3和实验4可以看出。1、具有深度损失的特征级生成在AP3D上实现了显著提升(+13.04%+7.97%,+6.04%)和APBEV(升14.4%,升9.48%,+7.01%)。在图像级生成中使用的前向扭曲是从图像到图像的非学习过程,而893方法参考容易AP3D中度硬容易APBEV中度硬MonodIS [44]ICCV 201910.377.946.4017.2313.1911.12AM3D [30]ICCV 201916.5010.749.5225.0317.3214.91M3D-RPN [4]ICCV 201914.769.717.4221.0213.6710.23D4LCN [12]CVPR 202016.6511.729.5122.5116.0212.55MonoPair [10]CVPR 202013.049.998.6519.2814.8312.89MonoFlex [55]CVPR 202119.9413.8912.0728.2319.7516.89MonoEF [56]CVPR 202121.2913.8711.7129.0319.7017.26[21]第二十一话CVPR 202118.1012.329.6526.1918.2714.05CaDDN [38]CVPR 202119.1713.4111.4627.9418.9117.19[47]第四十七话CVPR 202119.7112.789.8028.0817.8913.44MonoRUn [8]CVPR 202119.6512.3010.5827.9417.3415.24[58]第五十八话ICCV 202119.4013.6310.3528.1719.1714.84MonoRCNN [42]ICCV 202118.3612.6510.0325.4818.1114.10DD3D [33]ICCV 202123.2216.3414.2030.9822.5620.03乌尔斯伊姆–19.7913.8112.3128.3720.0117.39Ours-fld–23.7417.7415.1432.8423.6720.64Ours-fcd–23.6117.0315.1631.8323.3920.57表2.在IOU阈值0.7时,三种方法在KITTI测试上的Car性能最好的结果用粗体表示,第二好的用下划线表示。特征级生成是一种自适应的和可微分的学习过程,其具有从特征到特征的逐精度动态卷积。虚拟右特征由左特征和视差特征生成。因此,通过将估计的深度信息嵌入到高维特征空间中并使用嵌入的深度表示来在特征级生成中动态地过滤左侧特征,地面实况深度和特征之间的差距被减轻。通过深度损失的额外深度指导,深度表示可以在特征级加强嵌入式3D测量,从而实现更好的性能。克隆人表中实验5和实验6。结果表明,特征克隆算法在AP3D上的深度损失分别为+4.13%、+2.06%、+1.95%APBEV分别为+4.67%、+2.01%、+1.66%。 这就在于特征克隆不需要深度估计网络并且仅深度损失就可以提高对特征中的深度信息的感知估计深度图。根据表中实验2、实验4和实验6之间的比较。1,在图像级(实验2)和特征级(实验4)都使用估计深度图的情况下,模型比不使用估计深度图的模型(实验6)获得更好的性能,这意味着估计深度图是有效的在我们的框架中的图像级别和功能级别。在图像级中,不强制由不准确的像素对应引起的退化特征在没有深度损失的情况下拟合地面实况深度,并且估计的深度图提高了在图像输入级中感知深度信息的能力,从而提高了单目3D检测的性能。在特征级,特征退化在高维特征空间中的DDC方法使深度估计变得容易,而估计的深度图提高了感知特征中深度信息的能力,从而获得比图像级方法更好的性能。DDC 通过比较有无深度损失的特征级和特征克隆方法的性能,我们发现深度损失在单目3D检测的特征级生成中是必不可少的。我们使用特征克隆方法,深度损失作为基线,并将DDC添加到基线(表中的实验3)。(1)显示效果。与基线相比,本文提出的DDC算法在特征级虚拟右视图生成方面有了显著的改进,表明本文提出的DDC算法能够有效地生成单目三维检测的特征这是因为所提出的DDC使用嵌入的深度表示来动态地过滤左侧特征,从而导出深度感知特征学习并在单目3D检测中实现显著的改进。5.4. 定量和定性结果我们评估了三个拟议的伪立体变体:图像级生成,特征级生成和特征克隆,KITTI测试和val集。从以上的消融研究中,我们为每种方法选择了性能更好的策略:无深度损失的图像级生成(Ours-im),具有深度损失的特征级生成(Ours-fld)和具有深度损失的特征克隆(Ours-fcd)。测试集的结果。表. 2显示了KITTI测试服务器和表上Car的性能对比。3显示了KITTI测试服务器上行人和自行车DD3D [33]、GUPNet [27]和MonoPSR[20]在KITTI-3D基准测试中,894方法P edestrianAP3D/APBEV简单中硬CyclistAP3D/APBEV简单中硬D4LCN [12]4.55/5.063.42/3.862.83/3.592.45/2.721.67/1.821.36/1.79MonoPSR [20]6.12/7.244.00/4.563.30/4.118.37/9.874.74/5.783.68/4.57CaDDN [38]12.87 /14.728.14/9.416.76/8.177.00/9.673.41/5.383.30/4.75MonoFlex [54]9.43/10.366.31/7.365.26/6.294.17/4.412.35/2.672.04/2.50GUPNet [27]14.95/15.629.76/10.378.41/8.795.58/6.943.21/3.852.66/3.64乌尔斯伊姆8.26/9.945.24/6.534.51/5.724.72/5.762.58/3.322.37/2.85Ours-fld16.95/19.0310.82/12.239.26/10.5311.22/12.806.18/7.295.21/6.05Ours-fcd14.33 /17.089.1811.047.86/9.599.80/11.925.43/6.654.91/5.86表3.在IOU阈值0.5时,行人和骑自行车者在KITTI测试中的性能最好的结果用粗体表示,第二好的用下划线表示。图5.最佳模型(Ours-fld)在带有红色3D边界框的KITTIval集上的定性结果方法AP3D简单中硬D4LCN [12]22.3216.2012.30[47]第四十七话28.1220.3916.34CaDDN [38]23.5716.3113.84MonoFlex [55]23.6417.5114.83GUPNet [27]22.7616.4613.72乌尔斯伊姆31.8122.3619.33Ours-fld35.1824.1520.35Ours-fcd28.4619.1516.56表4. KITTI值设置为IOU阈值时的汽车0.7.最好的结果用粗体表示,第二好的用下划线表示。在这项工作之前。如表中所示2、桌子。3,Ours-fld在AP 3D和AP BEV上的所有三个对象类别上实现了比DD 3D [33],GUPNet [27]和MonoPSR [20]更好的性能,用于仅使用单模型的单眼3D检测。此外,我们的三种方法在AP 3D和AP BEV上的所有三个对象类中实现了18/18的最佳结果和15/18的次佳结果。请注意,Ours-fld在18个最好的结果中取得了17个,除了硬级别的汽车,其中最好的是Our-fcd。 这意味着所提出的伪立体3D检测框架在单目3D检测中是非常有效的。valset结果如表中所示。4、我们的方法在KITTI值集上的性能优于现有的方法。图5显示了Our-fld(最佳模型)在KITTIval集上的定性结果。泛化能力。通常情况下,由于过拟合的存在,单目3D检测在valset和test set上的性能存在很大的如表中所示2、桌子。4、Ours-fcd的性能差距远小于Ours-im和Ours-fld。这是因为这一特点-克隆方法不需要用于训练的估计深度图,从而导致更好的泛化能力。请注意,我们在框架中提供了这两种选项。6. 结论本文提出了一个伪立体三维检测框架,该框架采用了三种新的虚拟视图生成方法,包括图像级生成、特征级生成和特征克隆,用于从单个图像中检测三维物体,实现了单目三维检测的显著改进所提出的框架与我们的特征级虚拟视图生成方法排名第一的单目3D检测器,在KITTI-3D基准的三个对象类的出版物。在特征级虚拟视图生成中,我们提出了一种基于视差特征图的动态核的逐像素动态卷积算法,自适应地从单幅图像中过滤特征,生成虚拟图像特征,从而缓解了特征退化问题,取得了显著的效果。我们分析了深度感知特征学习在我们的框架中的两个主要影响。更广泛的影响。我们的伪立体3D检测框架具有为我们的社区提供具有伪立体视图的单目3D检测的新视角的潜力。此外,我们对伪立体框架中的深度感知特征学习的分析可能会给出一个解决方案,以减轻单目和立体3D检测器之间的性能差距。鸣 谢 : 本 工 作 得 到 国 家 重 点 研 发 计 划(2018YFE0183900)的支持。杭岱感谢MBZUAI创业基金(GR006)的支持。895引用[1] 包文涛,徐斌,陈振中。Monofenet:使用特征增强网络 的 单 目 3D 对 象 检 测 。 IEEE Transactions on ImageProcessing,2019。3[2] Ivan Barabanau 、 Alexey Artemov 、 Evgeny Burnaev 和Vyacheslav Murashkin。基于关键点几何推理的单目3d目标检测。arXiv预印本arXiv:1905.05618,2019。二、六[3] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragomirAnguelov和Cristian Sminchisescu。用于尺度不变3d对象检 测 的 范 围 调 节 扩 张 卷 积 。 arXiv 预 印 本 arXiv :2005.09927,2020。3[4] 加里克巴西和刘晓明。M3 d-rpn:用于对象检测的单目3d区域提议网络在IEEE计算机视觉国际会议论文集,第9287-9296页二、七[5] Yingjie Cai , Buyu Li , Zeyu Jiao , Hongsheng Li ,Xingyu Zeng,and Xiaogang Wang.具有解耦结构多边形估计和高度引导深度估计的单目三维物体检测。arXiv预印本arXiv:2002.01619,2020。3[6] FlorianChabot、MohamedChaouch、JaonaryRabarisoa、Ce'lineTeuliere和ThierryChateau。Deepmanta:一个从粗到细的多任务网络,用于从单目图像进行联合2D和3D车辆分析。在IEEE计算机视觉和模式识别会议论文集,第2040-2049页,2017年。2[7] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集,第5410- 5418页,2018年。3[8] Hansheng Chen , Yuyao Huang , Wei Tian , ZhongGao,and Lu Xiong. Monorun:通过重建和不确定性传播进行单目3D对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第10379-10388页,2021年。7[9] Yilun Chen ,Shu Liu , Xiaoyong Shen ,and Jiaya Jia.Dsgn:用于3D对象检测的深度立体几何网络arXiv预印本arXiv:2001.03398,2020。第1、3条[10] Yongjian Chen,Lei Tai,Kai Sun,and Mingyang Li.Monopair:使用成对空间关系的单目3d对象检测。arXiv预印本arXiv:2003.00504,2020。7[11] 朱晓梦,邓嘉俊,李耀,袁振勋,张燕勇,季健民,张宇.Neighbor-vote:通过邻居距离投票改进单目3D对象检测第29届ACM国际多媒体会议论文集,第5239-5247页,2021年。一、二[12] Mingyu Ding,Yuqi Huo,Hongwei Yi,Zhe Wang,Jianping Shi,Zhiwu Lu,and Ping Luo.单目3d物体检测的 深 度 引 导 卷 积 学 习 。 arXiv 预 印 本 arXiv :1912.04799,2019。二、六、七、八[13] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归InProceedings of theIEEE计算机视觉和模式识别会议,第2002-2011页,2018年。4[14] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议(CVPR),2018年。6[15] Andreas Geiger,Philip Lenz,and
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功