没有合适的资源?快使用搜索试试~ 我知道了~
Yilun Chen1Shu Liu2Xiaoyong Shen2Jiaya Jia1,2{ylchen, leojia}@cse.cuhk.edu.hk{sliu, xiaoyong}@smartmore.com𝑢𝑑𝑢𝑣𝑦𝑥𝑧𝑢𝑣𝑑𝑢𝑣𝑦𝑥𝑧𝑢𝑣Siamese NetworkProjection & Shift3D Unprojection1125360DSGN: 用于3D物体检测的深度立体几何网络01 香港中文大学 2 SmartMore0摘要0大多数最先进的3D物体检测器严重依赖于激光雷达传感器,因为基于图像和基于激光雷达的方法之间存在较大的性能差距。这是由于在3D场景中形成预测表示的方式所导致的。我们的方法称为深度立体几何网络(DSGN),通过在可微分的体积表示-3D几何体积上检测3D物体,显著减小了这一差距,该表示有效地编码了3D规则空间中的3D几何结构。借助这种表示,我们同时学习深度信息和语义线索。我们首次提供了一种简单有效的单阶段基于立体的3D检测流程,可以联合估计深度并以端到端的学习方式检测3D物体。我们的方法在KITTI3D物体检测排行榜上优于以前的基于立体的3D检测器(在AP方面高出约10%),甚至与几种基于激光雷达的方法达到了可比较的性能。我们的代码将在https://github.com/chenyilun95/DSGN上提供。01. 引言03D场景理解是3D感知中的一项具有挑战性的任务,它是自动驾驶和机器人技术的基本组成部分。由于激光雷达传感器准确获取3D信息的能力,我们在3D物体检测方面取得了快速进展。提出了各种各样的3D物体检测器[9, 23, 58, 26, 27,33, 39, 52,54]来利用激光雷达点云表示。激光雷达的局限性在于数据的相对稀疏分辨率和设备的高价格。相比之下,视频摄像机更便宜且具有更高的分辨率。计算立体图像上的场景深度的方法是通过考虑视差进行立体对应估计。尽管最近有几种基于单目[36, 7, 6, 30, 48]或立体[25, 45, 37,56]设置的3D检测器推动了基于图像的3D物体检测的极限,但准确性仍远远落后于基于激光雷达的方法。0平面扫描体 3D几何体积0深度估计 3D物体检测03D世界空间0立体图像对0特征对0图1.DSGN从立体图像对中联合估计深度和检测3D物体。它中间生成平面扫描体和3D几何体积,以在两个不同的3D空间中表示3D结构。0挑战基于图像的方法面临的最大挑战之一是为预测3D物体提供适当和有效的表示。最近的大部分工作[25, 36, 48, 37, 40,2]将此任务分为两个子任务,即深度预测和物体检测。相机投影是将3D世界映射到2D图像的过程。不同物体姿态中的一个3D特征会导致局部外观变化,使得2D网络难以提取稳定的3D信息。另一类解决方案[45, 56, 47,30]生成中间点云,然后使用基于激光雷达的3D物体检测器。这种3D表示不够有效,因为变换是不可微分的,并且包含了几个独立的网络。此外,点云面临着物体伪迹的挑战[18,47, 56],这限制了后续3D物体检测器的检测准确性。0我们的解决方案在本文中,我们提出了一种基于立体的端到端3D物体检测流程(图1)-深度立体几何网络(DSGN),它依赖于从2D特征到有效的3D结构的空间转换,称为3D几何体积(3DGV)。3DGV的背后的见解在于构建编码3D几何的3D体积的方法。3D几何体积在3D世界空间中定义,从相机视锥中构建的平面扫描体积(PSV)[10,11]进行转换。像素对应约束可以在PSV中很好地学习,而用于真实世界对象的3D特征可以在3DGV中学习。体积构建是完全可微的,因此可以共同优化用于学习立体匹配和物体检测的。这种体积表示具有两个关键优势。首先,可以很容易地施加像素对应约束,并将完整的深度信息编码到3D真实世界体积中。其次,它提供了具有几何信息的3D表示,使得可以学习真实世界对象的3D几何特征。据我们所知,尚未有研究明确研究将3D几何编码到基于图像的检测网络中的方法。我们的贡献总结如下。2. Related Work2125370•我们设计了一个端到端的流程,用于提取立体匹配的像素级特征和物体识别的高级特征。所提出的网络可以同时估计场景深度和检测3D物体,从而实现许多实际应用。0•为了弥合2D图像和3D空间之间的差距,我们在平面扫描体积中建立立体对应关系,然后将其转换为3D几何体积,以便能够在3D规则空间中编码3D几何和语义线索进行预测。02. 相关工作0•在没有花哨的技巧的情况下,我们简单而完全可微的网络在官方KITTI排行榜[13]上的所有其他基于立体的3D物体检测器中表现最好(在AP方面高出10个点)。0我们简要回顾了关于立体匹配和多视图立体的最新工作。然后我们调查了基于LiDAR、单目图像和立体图像的3D物体检测。0立体匹配 在双目图像的立体匹配领域,[21, 4, 57, 14, 43,46]的方法通过Siamese网络处理左右图像,并构建3D成本体积来计算匹配成本。最近的工作中应用了基于相关性的成本体积[31, 55, 51, 14, 28, 42]。GC-Net[21]形成了一个基于连接的成本体积,并应用3D卷积来回归视差估计。最近的PSMNet[4]通过引入金字塔池化模块和堆栈沙漏模块[32]进一步提高了准确性。最先进的方法已经在KITTI2015立体基准测试中实现了小于2%的3像素误差。0多视图立体方法[5, 53, 19, 20, 17, 16]在多视图立体设置[1,3]中重建3D对象。MVSNet[53]在相机视锥上构建平面扫描体积,为每个视图生成深度图。Point-MVSNet[5]则将平面扫描体积中间转换为点云表示以节省计算。Kar等人[20]提出了多视图图像上的可微投影和反投影操作。0基于LiDAR的3D检测LiDAR传感器非常强大,已经有几个领先的3D检测器证明了这一点。一般有两种类型的架构,即基于体素的方法[58, 9,24, 54]和基于点的方法[34, 35, 39, 52,49],被提出来处理点云。0基于图像的3D检测另一种检测方法是基于图像的。无论是单目还是立体设置,根据中间表示的存在,方法可以分为两种类型。0具有深度预测器的3D检测:该解决方案依赖于2D图像检测器和从单目或立体图像中提取深度信息。Stereo R-CNN[25]将3D检测公式化为多个分支/阶段,以明确解决几个约束。我们注意到,关键点约束可能难以推广到其他类别,如行人,而用于立体匹配的密集对齐直接操作原始RGB图像可能容易受到遮挡的影响。MonoGRNet[36]由四个子网络组成,用于渐进式3D定位,并仅基于语义线索直接学习3D信息。MonoDIS[40]将2D和3D检测的损失分离。它以端到端的方式同时完成两个任务。M3D-RPN[2]将多个具有非共享权重的2D卷积应用于学习特定位置的特征,以联合预测2D和3D框。Triangulation Stereo[37]直接从预定义的3D锚点学习偏移量,并在RoI级特征上建立对象对应关系。由于分辨率较低,像素对应关系没有得到充分利用。0基于3D表示的3D检测器:3DOP Stereo [7,8]通过立体视觉生成点云,并在能量函数中编码先验知识和深度。几种方法[45, 56, 47,30]将深度图转换为伪LiDAR(点云),然后再经过另一个独立的网络。这个流水线相对于以前的方法有很大的改进。OFT-Net Mono[38]将图像特征映射到正交鸟瞰视图表示,并在鸟瞰视图上检测3D物体。03.我们的方法0在本节中,我们首先探讨了3D空间的适当表示,并激发了我们的网络设计的动机。基于这个讨论,我们在双目图像对设置下提出了完整的3D检测流水线。03.1.动机0由于透视关系,随着距离的增加,物体看起来越来越小,这使得根据物体尺寸的相对比例和上下文粗略估计深度成为可能。然而,同一类别的3D物体仍然可能具有不同的尺寸和方向。它Conv3Ds 3D Hourglass𝐻𝐼 𝑊𝐼 𝐷𝐼𝐻𝐼 𝑊𝐼 𝐷𝐼4 , 4 , 4 ,64, , ,644 4 432 −d32-d3D Geometry Volume(𝐻𝑉,𝑊𝑉, 𝐷𝑉,64) 𝐻𝐼, 𝑊𝐼,𝐷𝐼,1Plane-SweepVolumeCost Volume32 −d𝑊𝑉,𝐷𝑉, 128Plane-SweepVolumeConv3DsConv3Ds3125380共享权重0左图右图0深度图02D沙漏 Conv2Ds 中心度0(d)3D物体检测SPP模块04倍0分类回归0(c)深度估计 (a)2D特征提取0鸟瞰视图0图2. Deep Stereo Geometry Network(DSGN)的概述。整个神经网络由四个组件组成。(a)用于捕捉像素级和高级特征的2D图像特征提取器。(b)构建平面扫描体积和3D几何体积。(c)在平面扫描体积上进行深度估计。(d)在3D几何体积上进行3D物体检测。0随着距离的增加,由于透视关系,物体变得越来越小,这极大地增加了准确预测的难度。此外,透视效果导致附近的3D物体在图像中不均匀缩放。一个正常的长方体汽车看起来像一个不规则的棱锥体。这两个问题给2D神经网络在建模2D成像和真实3D物体之间的关系时带来了重大挑战[25]。因此,不依赖于2D表示,通过反向投影的过程,中间的3D表示提供了一种更有前景的3D物体理解方法。以下两种表示通常用于3D世界。0基于点的表示当前最先进的流水线[45, 56,30]通过深度预测方法[12, 4,21]生成点云的中间3D结构,并应用基于LiDAR的3D物体检测器。主要的可能弱点是它涉及几个独立的网络,并且在中间转换过程中可能丢失信息,使得3D结构(如代价体积)被简化为点云。这种表示经常在物体边缘附近出现条纹伪影[18, 47, 56]。此外,该网络很难区分多物体场景[5, 54]。0基于体素的表示体积表示作为另一种3D表示方式,研究较少。OFT-Net mono[38]直接将图像特征映射到3D体素网格,然后将其折叠到鸟瞰视图上的特征。然而,这种转换保持了该视图的2D表示,并没有明确地编码数据的3D几何信息。0我们的优势建立有效的3D表示的关键在于能够对3D空间的准确3D几何信息进行编码。立体相机为计算深度提供了明确的像素对应约束。为了设计一个统一的网络来利用这个约束,我们探索了能够提取立体对应的像素级特征的深度架构。0一方面,为了获取语义线索的低级特征和高级特征,我们需要深度和高级特征。另一方面,像素对应约束应该沿着通过每个像素的投影射线施加,其中深度被认为是确定的。为此,我们从双目图像对创建一个中间平面扫描体,以在相机视锥中学习立体对应约束,然后将其转换为3D空间中的3D体积。在这个3D体积中,通过从平面扫描体提取的3D几何信息,我们能够很好地学习现实世界物体的3D特征。03.2.深度立体几何网络0在本小节中,我们描述了我们的整体流程-深度立体几何网络(DSGN),如图2所示。通过输入一个双目图像对(IL,IR),我们通过一个连体网络提取特征,并构建一个平面扫描体(PSV)。在这个体积上学习像素对应关系。通过可微分的变形,我们将PSV转换为一个3D几何体积(3DGV),以在3D世界空间中建立3D几何。然后,在这个3D体积上进行以下3D神经网络学习,以获得3D物体检测所需的结构。03.2.1图像特征提取0用于立体匹配的网络[21, 4, 14]和用于物体识别的网络[15,41]具有不同的架构设计,以适应各自的任务。为了确保立体匹配的合理准确性,我们采用了PSMNet[4]的主要设计。由于检测网络需要基于高级语义特征和大量上下文信息的判别特征,我们修改了网络以获取更多高级信息。此外,用于代价体积聚合的以下3DCNN计算量更大,这给我们在整体网络中修改2D特征提取器的空间,而不会引入额外的计算负担。𝐾−14125390网络架构详细信息我们使用[15]中的conv1,conv2,...,conv5符号。2D特征提取器的关键修改如下。0•将更多的计算从conv3转移到conv4和conv5,即将conv2到conv5的基本块数量从{3,16,3,3}更改为{3,6,12,4}。0PSMNet中使用的SPP模块将conv4和conv5的输出层进行连接。0•conv1中的卷积输出通道数为64,而基本残差块的输出通道数为192,而不是128。0我们2D特征提取网络的详细信息请参见补充材料。03.2.2构建3D几何体积0为了在3D常规空间中学习3D卷积特征,我们首先通过将平面扫描体变形到3D常规空间来创建一个3D几何体积(3DGV)。为了方便起见,我们将3D世界空间中的感兴趣区域离散化为相机视图中右侧、下方和前方方向上的3D体素占用网格,其大小为(WV,HV,DV)。WV,HV,DV分别表示网格的宽度、高度和长度。每个体素的大小为(vw,vh,vd)。0平面扫描体在双目视觉中,使用图像对(IL,IR)构建基于视差的代价体积,用于计算匹配代价,将左图像IL中的像素i与右图像IR中的水平位移为整数视差值d的对应像素进行匹配。深度与视差成反比。因此,由于相似的视差值[25, 45,56],很难区分远处的物体。例如,在KITTI基准[13]上,距离为40米和39米的物体几乎没有差异(<0.25像素)。为了以不同的方式构建代价体积,我们遵循经典的平面扫描方法[10, 11,53],通过将左图像特征FL和重新投影的右图像特征FR->L在等间距深度间隔上进行连接,构建一个平面扫描体积,避免了特征到3D空间的不平衡映射。PSV的坐标由(u,v,d)表示,其中(u,v)表示图像中的(u,v)像素,并在图像平面的垂直轴上添加另一个轴以表示深度。我们将(u,v,d)网格的空间称为相机视锥空间。深度候选值di沿深度维度均匀采样,间隔为vd,遵循预定义的3D网格。基于连接的体积使网络能够学习用于物体识别的语义特征。我们对该体积应用3D卷积,最终得到一个匹配代价体积,用于所有深度。为了简化计算,我们只应用一个3D沙漏模块,与整体网络中的相反。0世界空间 相机视锥0平面扫描体积 3D几何体积0�0左/右相机0�0� � 世界空间0图像平面0图3.体积变换示意图。图像在图像平面上捕获(红色实线)。PSV是通过在左侧相机视锥中以等间距深度(蓝色虚线)投影图像来构建的,该视锥在3D世界空间(左侧)和相机视锥空间(中间)中显示。汽车在中间显示为扭曲。通过相机内部矩阵K的映射,PSV被扭曲为3DGV,从而恢复了汽车。0这三个在PSMNet[4]中使用。我们注意到,由于整个网络是可微分的,所以可以在后续的检测网络中补偿由此产生的性能下降。0已知相机内部参数的3D几何体积,我们通过反向3D投影将PSV的最后特征图从相机视锥空间(u,v,d)转换为3D世界空间(x,y,z),反向3D投影使用的是�0� xy z0�0� =0� 1 /f x 0 − c u /f x 0 1 y − c v /f y 0 0 10�0�0� udvd d0�0� (1)0其中f x,fy是水平和垂直焦距。该变换是完全可微的,并通过消除预定义网格之外的背景(如天空)来节省计算。它可以通过三线性插值的变形操作来实现。图3说明了变换过程。在相机视锥中施加常见的像素对应约束(红色虚线),而在常规的3D世界空间(欧几里得空间)中学习对象识别。这两种表示中显然存在差异。在平面扫描体积的最后特征图中,低成本体素(u,v,d)意味着沿着焦点和图像点(u,v)的射线上存在深度d的对象的高概率。通过转换到常规的3D世界空间,低成本的特征表明该体素在场景的前表面上被占据,这可以作为3D几何结构的特征。因此,以下3D网络有可能在该体积上学习3D对象特征。这个操作与可微的非投影[20]基本不同,后者通过双线性插值将图像特征从2D图像帧直接提升到3D世界。我们的目标是将几何信息从成本体积提升到3D世界网格。我们使像素对应约束易于沿投影射线施加。现有的工作[56]将类似的思想应用于(7)5125400构建深度成本体积,类似于平面扫描体积。不同的是,我们的目标是避免从平面扫描体积到3D几何体积的不平衡变形,并解决条纹伪影问题。此外,我们的变换保持了深度的分布,而不是将其减少为深度图。我们的策略巧妙地避免了对象伪影。03.2.3 平面扫描成本体积上的深度回归0为了计算平面扫描体积上的匹配成本,我们通过两个3D卷积将平面扫描体积的最终特征图减少到1D成本体积(称为平面扫描成本体积)。应用软arg-min操作[21, 4,57]计算所有深度候选点的期望,概率为σ(- cd),如下所示:0ˆ d 0d ∈{ z min ,z min + v d ,...,z max } d × σ (- c d ) (2)0在预定义的网格[z min, zmax]内均匀采样深度候选点,间隔为vd。softmax函数鼓励模型选择每个像素的单个深度平面。03.2.4 3D几何体上的3D物体检测器0受最近的一阶2D检测器FCOS[44]的启发,我们在我们的流程中扩展了centerness分支的思想,并设计了一种基于距离的策略来为真实世界分配目标。因为3D场景中相同类别的物体大小相似,我们仍然保留了锚点的设计。令V∈RW×H×D×C为3DGV的特征图,大小为(W,H,D),通道数为C。考虑到自动驾驶的场景,我们沿着高度维度逐渐下采样,最终得到鸟瞰图的大小为(W,H)的特征图F。网络架构包含在补充材料中。对于F中的每个位置(x,z),放置几个不同方向和大小的锚点。锚点A和地面真实框G由位置、先验大小和方向表示,即(xA,yA,zA,hA,wA,lA,θA)和(xG,yG,zG,hG,wG,lG,θG)。我们的网络从锚点回归并得到最终预测(hAeδh,wAeδw,lAeδl,xA + δx,yA + δy,zA + δz,θA+π/Nθtanh(δθ)),其中Nθ表示锚点方向的数量,δ∙是每个参数的学习偏移量。0基于距离的目标分配考虑到物体的方向,我们提出了基于距离的目标分配。距离定义为锚点和地面真实框之间8个角的距离,如下所示:0distance(A,G)= 108 �0i = 10�0(xAi−xGi)2 +(zAi−zGi)2)0为了平衡正负样本的比例,我们将与地面真实框最近距离的前N个锚点作为正样本,其中N = γ ×k,k是鸟瞰图中地面真实框内的体素数。γ调整正样本的数量。我们的中心性定义为八个角的负归一化距离的指数形式:0centerness(A,G)= e−norm(distance(A,G)),(3)0其中norm表示最小-最大归一化。03.3. 多任务训练0我们的网络与立体匹配网络和3D物体检测器一起进行端到端的训练。我们使用多任务损失训练整体3D物体检测器,如下所示:0Loss = Ldepth + Lcls + Lreg + Lcenterness。(4)0对于深度回归的损失,我们在该分支中采用平滑的L1损失[21],如下所示:0Ldepth = 10ND0i = 1平滑L1�di−ˆdi�,(5)0其中ND是具有地面真实深度的像素数(从稀疏LiDAR传感器获得)。对于分类损失,我们的网络采用了焦点损失[29]来处理3D世界中的类别不平衡问题。0Lcls = 10Npos0(x,z)∈FFocalLoss(pA(x,z),pG(x,z)),(6)0其中Npos表示正样本的数量。中心性使用二元交叉熵(BCE)损失。对于3D边界框回归的损失,使用平滑L1损失进行边界框的回归,如下所示:0Lreg = 10Npos0(x,z)∈Fposcenterness(A,G)×0平滑L1(L1距离(A,G))0其中Fpos表示鸟瞰图上的所有正样本。我们尝试了两种不同的回归目标,一种是同时学习所有参数,一种是不学习所有参数。0•分别优化盒子参数。回归损失直接应用于(x,y,z,h,w,l,θ)的偏移量。0•联合优化框的角点。对于联合优化框参数,损失是根据[33]中预测框和地面实况框之间的八个角点的平均L1距离进行计算。6125410在我们的实验中,我们对Car使用第二个回归目标,对Pedestrian和Cyclist使用第一个回归目标。因为即使是人类也很难准确预测或注释像Pedestrian这样的对象的方向,其他参数估计在联合优化下可能会受到影响。04. 实验0数据集:我们的方法在流行的KITTI3D目标检测数据集[13]上进行评估,该数据集包含7,481对立体图像和用于训练的点云,以及7,518个用于测试的点云。地面实况深度图是根据点云生成的,遵循[45,56]的方法。训练数据对Car、Pedestrian和Cyclist进行了注释。KITTI排行榜限制了提交到服务器进行测试集评估的访问权限。因此,根据[9, 25,45]的协议,将训练数据分为训练集(3,712张图像)和验证集(3,769张图像)。所有消融研究都在该分割上进行。对于我们方法的提交,我们的模型仅使用7K训练数据进行训练。0评估指标:KITTI根据2D图像中的遮挡/截断和物体大小,设置了三个难度级别:简单、中等(主要指标)和困难。所有方法都根据每个类别的不同IoU标准在三个难度级别上进行评估,即对于Car,IoU≥0.7,对于Pedestrian和Cyclist,IoU≥0.5,用于2D、鸟瞰图和3D检测。根据大多数基于图像的3D目标检测设置[45, 25, 37, 36, 2,40],消融实验在Car上进行。我们还在补充文件中报告了Pedestrian和Cyclist的结果供参考。KITTI基准最近更改了评估方式,AP计算使用40个召回位置,而不是原始PascalVOC基准中提出的11个召回位置。因此,我们展示了官方KITTI排行榜上的主要测试结果。我们使用原始评估代码生成验证结果,以便与其他方法进行公平比较。04.1. 实施0训练细节:默认情况下,模型在4个NVIDIA TeslaV100(32G)GPU上进行训练,批量大小为4,即每个GPU保存一对大小为384×1248的立体图像。我们使用ADAM[22]优化器,初始学习率为0.001。我们将网络训练50个epoch,学习率在第50个epoch时降低10倍。整个训练时间约为17小时。所使用的数据增强仅为水平翻转。根据其他方法[56, 45, 58, 50, 39,54],对于Pedestrian和Cyclist,我们首先使用所有训练图像对网络进行预训练。0网络和应用3D框注释进行微调,因为只有约1/3的图像有这两个对象的注释。实现细节:构建平面扫描体积时,图像特征图缩小到32D,并对左右图像进行4倍下采样。然后通过重投影和连接,构建形状为(WI/4, HI/4, DI/4,64)的体积,其中图像大小为(WI=1248,HI=384),深度数为DI=192。接下来是一个3D沙漏模块[4,32]和额外的3D卷积,以获得形状为(WI/4, HI/4, DI/4,1)的匹配成本体积。然后使用插值将该体积上采样以适应图像大小。构建3D几何体积时,我们将区域在相机视图中的右侧(X)、下方(Y)和前方(Z)方向上的范围[-30.4, 30.4]×[-1,3]×[2, 40.4](米)离散化为大小为(WV=300, HV=20,DV=192)的3D体素占用网格。通过对PSV的最后一个特征图进行变形形成3D几何体积。每个体素是一个大小为(0.2,0.2,0.2)(米)的立方体。其他实现细节和网络架构包含在补充文件中。04.2. 主要结果0我们在表1和表2中与最先进的3D检测器进行了比较。在3D和BEV物体检测方面,我们的方法在没有花哨的技巧的情况下表现优于所有其他基于图像的方法。我们注意到,Pseudo-LiDARs [45,56]是在大规模合成场景流数据集[31]上使用经过预训练的PSMNet[4](具有30,000多对立体图像和密集视差图)进行立体匹配的。Stereo R-CNN[25]使用ImageNet预训练的ResNet-101作为主干,并且输入图像的分辨率为600×2000。与之不同的是,我们的模型仅使用这7K个训练数据从头开始训练,输入分辨率为384×1248。此外,Pseudo-LiDARs [45,56]方法应用了包括几个基于LiDAR的检测器在内的两个独立网络,而我们的方法只是一个统一的网络。DSGN没有明确学习2D框,超过了那些基于ResNet-101[25]或DenseNet-121[2]的强2D检测器。它通过在3D空间中的非极大值抑制(NMS)自然地实现了重复去除,这与常见的观点一致,即常规物体之间没有碰撞。更有趣的是,如表1所示,DSGN甚至在KITTI easyregime上的BEV检测上实现了可比较的性能,并且在3D检测上优于KITTI经典的基于LiDAR的3D物体检测器MV3D[9](仅使用LiDAR输入)-首次实现。这个结果至少在低速自动驾驶场景中展示了一个有前途的未来应用。上述比较显示了3D几何体积的有效性,它作为2D图像和3D几何之间的联系。ModalityMethod3D Detection AP (%)BEV Detection AP (%)2D Detection AP (%)EasyModerateHardEasyModerateHardEasyModerateHardLiDARMV3D (LiDAR) [9]68.3554.5449.1686.4978.9872.23–––MonoOFT-Net [38]1.611.321.007.165.694.61–––MonoGRNet [36]9.615.744.2518.1911.178.7388.6577.9463.31M3D-RPN [2]14.769.717.4221.0213.6710.2389.0485.0869.26AM3D [30]16.5010.749.5225.0317.3214.9192.5588.7177.78Stereo3DOP [7]––––––93.0488.6479.10Stereo R-CNN* [25]47.5830.2323.7261.9241.3133.4293.9885.9871.25PL: AVOD* [45]54.5334.0528.2567.3045.0038.4085.4067.7958.50PL++: P-RCNN* [56]61.1142.4336.9978.3158.0151.2594.4682.9075.45DSGN (Ours)73.5052.1845.1482.9065.0556.6095.5386.4378.75ModalityMethod3D Detection AP (%)BEV Detection AP (%)2D Detection AP (%)EasyModerateHardEasyModerateHardEasyModerateHardLiDARMV3D (LiDAR) [9]71.2956.6055.3086.1877.3276.3388.4187.7679.90MonoOFT-Net [38]4.073.273.2911.068.798.91–––MonoGRNet [36]13.8810.197.6243.7528.3923.87–78.14–M3D-RPN [2]20.2717.0615.2125.9421.1817.9090.2483.6767.69AM3D [30]32.2321.0917.2643.7528.3923.87–––StereoMLF [48]–9.80––19.54––––3DOP [7]6.555.074.1012.639.497.59–––Triangulation [37]18.1514.2613.7229.2221.8818.83–––Stereo R-CNN* [25]54.136.731.168.548.341.598.7388.4871.267125420表1.KITTI测试集(官方KITTI排行榜)上主要结果的比较。使用KITTI排行榜上的新评估指标进行评估。一些正在进行旧评估的方法在排行榜上不可用。PL/PL++*使用额外的场景流数据集对立体匹配网络进行预训练,而Stereo R-CNN*使用ImageNet预训练模型。0PL:F-PointNet* [45] 59.4 39.8 33.5 72.8 51.8 33.5 – – –0PL:AVOD* [45] 61.9 45.3 39.0 74.9 56.8 49.0 – – –0PL++:AVOD* [56] 63.2 46.8 39.8 77.0 63.7 56.0 – – –0PL++:PIXOR* [56] – – – 79.7 61.1 54.5 – – –0PL++:P-RCNN* [56] 67.9 50.1 45.3 82.0 64.0 57.3 – – –0DSGN(我们的方法) 72.31 54.27 47.71 83.24 63.91 57.83 89.25 83.59 78.450表2. KITTI验证集上的主要结果对比。如第4节所述,我们在这里使用原始的KITTI评估指标。PL/PL++*使用额外的SceneFlow数据集对立体匹配网络进行预训练,而Stereo R-CNN*使用ImageNet预训练模型。0通过结合深度信息和语义特征,将图像和三维空间相结合。0推理时间 在NVIDIA Tesla V100GPU上,DSGN对一对图像的推理时间平均为0.682秒,其中左右图像的2D特征提取需要0.113秒,构建平面扫描体积和三维几何体积需要0.285秒,对三维几何体积进行三维目标检测需要0.284秒。DSGN的计算瓶颈在于三维卷积层。04.3. 消融研究04.3.1 3D体积构建的消融研究0构建有效的三维几何表示的主要障碍之一是学习三维几何的适当方式。因此,我们研究了以下三个关键组成部分对构建三维体积的影响。0输入数据基于单目的3D体积只有学习2D和3D特征之间对应关系的潜力,而基于立体的3D体积可以学习额外的2D特征0像素对应约束的真实对应关系。0构建3D体积构建3D体积的一种直接解决方案是将图像特征直接投影到3D体素网格[20, 38](表示为IMG →3DV)。图3中的另一种解决方案是将平面扫描体积或基于视差的代价体积转换为3D体积,这在相机视锥体中沿投影射线提供了一种自然的像素对应约束的方式(表示为IMG→(PS)CV → 3DV)。0深度监督有或没有点云数据的深度监督,网络可以显式或隐式地学习深度。一种方法是通过使用二元交叉熵损失函数,通过真实点云来监督3D网格的体素占用。第二种方法是通过在平面扫描代价体积上监督深度,如第3.3节所述。为了公平比较,模型IMG → 3DV和IMG →(PS)CV →3DV具有相同的参数,通过为模型IMG →3DV添加相同的3D沙漏模块来实现。此外,还可以从中揭示出一些重要的事实8125430输入转换监督 AP 3D / AP BEV / AP 2D0单目IMG → 3DV × 6.22 / 11.98 / 58.230立体0IMG → 3DV × 11.03 / 15.17 / 57.300IMG → CV → 3DV CV 45.89 / 58.40 / 81.710IMG → PSCV → 3DV × 38.48 / 52.85 / 77.830PSCV 54.27 / 63.91 / 83.590表3.深度编码方法的消融研究。“PSCV”和“3DV”与“Supervision”标题表示在(平面扫描)代价体积和三维体积中施加了约束,分别。结果在中等水平下评估。0表3并在下面进行了解释。0点云监督是重要的。在有监督的LiDAR点云方法中,性能始终优于无监督的方法,这证明了对于基于图像的方法来说,三维几何的重要性。0在监督下,基于立体的方法比基于单目的方法表现更好。立体和单目方法之间的差异表明,从语义线索直接学习三维几何是一个非常困难的问题。相反,无监督的基于图像的方法使得这两条线的性能相似,这表明仅通过三维边界框的监督对于学习三维几何是不足够的。0平面扫描体是更适合表示3D结构的一种表示形式。平面扫描代价体(54.27 AP)比基于视差的代价体(45.89AP)表现更好。这表明在转换为3D体积时,平衡的特征映射是重要的。0平面扫描体作为中间编码器,更有效地包含深度信息。IMG→ PSCV → 3DV和IMG →3DV之间的不一致表明,作为中间表示的平面扫描体可以有效地帮助学习深度信息。这个观察解释了软arg-min操作鼓励模型在投影射线上为每个像素选择一个单一的深度平面,这与每个像素只有一个深度值为真的假设具有相同的精神。另一个原因可能是PSCV和3DV具有不同的匹配密度-PSCV在所有图像像素上中间施加了密集的像素对应关系,而3DV上只有通过体素中心的左右像素对匹配。从上述体积构建的比较中,我们观察到这三个关键事实影响计算流程的性能。对于如何构建适合的3D体积的理解和认识仍处于非常早期的阶段。需要更多的研究来全面理解来自多个方面的体积构建。0网络 目标 深度误差(米) AP 3D / AP BEV / AP 2D 平均 中位数0PSMNet-PSV* 深度 0.5337 0.1093 —- DSGN 0.5279 0.1055 —-0PSMNet-PSV* 0.5606 0.1157 46.41 / 57.57 / 80.67 DSGN 0.5586 0.110454.27 / 63.91 / 83.590表4.对深度估计的影响,评估KITTI验证图像。PSMNet-PSV*是PSMNet [4]的变体,它使用一个3Dhourglass模块进行细化,考虑到有限的内存空间,并采用平面扫描方法构建代价体。0查看图像。04.3.2 对立体匹配的影响0我们进行了深度估计影响的实验,使用KITTI验证集进行评估[45]。在预定义的[z min,zmax]范围内的绝对深度估计误差的平均值和中位数在表4中显示。我们方法的一个自然基准是从PSMNet[4]修改的PSMNet-PSV*,其2D特征提取器需要0.041秒,而我们的方法需要0.113秒。仅使用深度估计分支进行训练时,DSGN在深度估计方面表现略好于使用相同训练流程的PSMNet-PSV*。对于两个任务的联合训练,两种方法都存在较大且相似的深度误差(DSGN为0.5586米,PSMNet-PSV*为0.5606米)。不同的是,DSGN在3D物体检测上的AP值比其他方法高出7.86,BEV检测上的AP值比其他方法高出6.34。这个比较表明,我们的2D网络提取了更好的高级语义特征用于物体检测。05. 结论0我们在双目图像上提出了一种新的3D物体检测器。结果表明,端到端的基于立体视觉的3D物体检测是可行且有效的。我们的统一网络通过将平面扫描体转换为3D几何体来编码3D几何信息。因此,它能够学习到3D体积上的高质量几何结构特征。联合训练使网络能够学习到像素级和高级特征,用于立体对应和3D物体检测这两个重要任务。在没有花哨的技巧的情况下,我们的一阶段方法在3D物体检测上表现优于其他基于图像的方法,甚至与一些基于LiDAR的方法在性能上相当。消融实验在表3中研究了训练3D体积的几个关键组件。虽然改进是明显的并且有解释,但我们对3D体积转换的工作原理的理解将在我们未来的工作中进一步探索。9125440参考文献0[1] Henrik Aanæs, Rasmus Ramsbøl Jensen, George Vogiatzis,Engin Tola, and Anders Bjorholm Dahl.大规模数据用于多视图立体视觉。卷120,页153-168。Springer,2016年。[2] Garrick Brazil和XiaomingLiu。M3d-rpn:用于目标检测的单目3D区域提议网络。2019年。[3] Angel X. Chang,Thomas Funkhouse
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功