没有合适的资源?快使用搜索试试~ 我知道了~
10190GS3D:一种用于自动驾驶的高效三维物体检测框架0李布宇 1 欧阳万里 3 盛璐 1 , 4 曾星宇 2 王晓刚 101 香港中文大学CHUK-SenseTime联合实验室,2 SenseTime研究,3悉尼大学,4 北京航空航天大学0{ byli, lsheng, xgwang } @ee.cuhk.edu.hk, wanli.ouyang@sydney.edu.au, zengxingyu@sensetime.com0摘要0我们提出了一种基于单个RGB图像的高效三维物体检测框架,用于自动驾驶场景。我们的努力集中在从二维图像中提取潜在的三维信息,并在没有点云或立体数据的情况下确定物体的准确三维边界框。利用现成的二维物体检测器,我们提出了一种巧妙的方法,高效地为每个预测的二维框获取一个粗略长方体。粗略长方体具有足够的准确性,可以指导我们通过细化确定物体的三维框。与之前仅使用从二维边界框提取的特征进行框细化的最先进方法相比,我们利用可见表面的视觉特征来探索物体的三维结构信息。来自表面的新特征被用于消除仅使用二维边界框带来的表示模糊性问题。此外,我们研究了不同的三维框细化方法,并发现具有质量感知损失的分类公式比回归方法具有更好的性能。在KITTI基准测试中,我们的方法优于基于单个RGB图像的三维物体检测的当前最先进方法。01. 引言0三维物体检测是自动驾驶的关键组成部分之一。它在最近的计算机视觉社区中引起了越来越多的关注。通过三维激光雷达扫描仪,可以获取以点云形式的对象的离散三维位置数据,但设备非常昂贵。相反,车载彩色摄像头更便宜且更适用于大多数车辆,但它们只能提供二维照片。因此,仅使用单目RGB相机进行三维物体检测对于经济型自动驾驶系统来说既重要又具有挑战性。本文侧重于仅使用单目RGB图像检测完整的三维物体内容。本文提出了一种基于0(a)0(b)0(c)0图1. 我们方法的关键思想:(a)首先预测可靠的二维框及其观察方向。(b)基于预测的二维信息,我们利用巧妙的技术高效地确定相应物体的基本长方体,称为引导。(c)我们的模型利用从投影引导的可见表面以及其紧密的二维边界框提取的特征,通过分类公式和质量感知损失进行精确细化。0使用三维引导和表面特征细化(GS3D)来仅使用单目RGB图像检测完整的三维物体内容。典型的单张图像三维检测方法,例如Mono3d[2],采用传统二维检测的框架,其中在三维空间中利用穷举滑动窗口作为提议,任务是选择那些覆盖物体良好的窗口。问题在于三维空间比二维空间大得多,这样会导致更多的计算量,而且并不是必要的。我们的第一个观察是,可以从二维检测和场景的先验知识中恢复出三维粗略结构。由于最先进的二维物体检测方法可以提供具有相当高准确性的二维边界框,适当利用它们可以显著减少搜索空间,这已经应用于几种基于点云的方法[20,12]。此外,通过对自动驾驶场景(例如投影矩阵)的先验知识,即使缺乏点云,我们甚至可以获得2D框中物体的近似三维边界框(长方体)。受此启发,我们设计了一种算法,通过2D检测器高效地确定预测物体的基本长方体。虽然粗略,但基本长方体具有可接受的准确性,并且可以指导我们确定物体的三维设置、大小(高度、宽度、长度)和方向。因此,我们称基本粗略长方体为“引导”。1https://drive.google.com/file/d/188BxA_jlhHHpxCXk3SxPBA5qkmk53PIt/view?usp=sharing10200图2.仅使用2D边界框引起的特征表示模糊性的示例。这些3D边界框彼此差异很大,只有左侧的边界框是正确的,但它们对应的2D边界框完全相同。0作为我们的第二个观察结果,底层的3D信息可以通过研究3D边界框的可见表面来利用。基于这个指导,进一步的分类用于消除误报和适当的细化以获得更好的定位是必要的,以实现高精度。然而,仅使用2D边界框进行特征提取时会带来表示模糊性的问题。如图2所示,不同的3D边界框彼此差异很大,但它们对应的2D边界框完全相同。因此,模型将以相同的特征作为输入,但分类器应该为它们预测不同的置信度(图2中左侧的置信度高,其他置信度低),这是相互矛盾的。而且,残差(∆x,∆y等)的预测也很困难。仅通过2D边界框,模型几乎无法知道指导的原始参数是什么,但它的目标是基于这些参数预测残差。因此,训练效果非常低效。为了解决这个问题,我们探索了2D图像中的底层3D信息,并提出了一种新的方法,该方法使用从3D边界框的投影的可见表面解析的特征。如图1(c)所示,分别提取可见表面的特征,然后将其合并,以利用结构信息来区分不同形式的3D边界框。对于3D边界框的细化,我们将传统的回归形式重新定义为分类形式,并设计了一种质量感知损失,这显著提高了性能。我们的主要贡献如下:01.我们提出了一种基于纯单目数据的方法,通过可靠的2D检测结果高效获取对象的粗略基本立方体。基本立方体提供了对象的位置、大小和方向的可靠近似,并作为进一步细化的指导。02.我们利用在2D图像上投影的可见表面中的潜在3D结构信息,并提出利用从这些表面提取的特征来克服先前方法中特征模糊性的问题,当仅使用2D边界框的特征时。通过融合表面特征,模型的判断能力得到了提高,从而区分不同形式的3D边界框。对于3D边界框的细化,我们将传统的回归形式重新定义为分类形式,并设计了一种质量感知损失,这显著提高了性能。我们的主要贡献如下:0特征,模型的判断能力得到了提高,细化的准确性也得到了提高。03.我们设计并研究了几种细化方法。我们得出结论,基于离散分类的方法配合质量感知损失在3D边界框细化任务中的表现要比直接回归方法好得多。0我们在KITTI目标检测基准测试[7]上评估了我们的方法。实验证明,我们的方法仅使用单个RGB图像就超过了当前最先进的方法,甚至与使用立体数据的方法相媲美。为了方便与我们的工作进行比较,我们提供了在val1和val2上的结果[1]。02. 相关工作0随着对物体和场景的3D理解越来越受到关注。早期的工作[26, 6, 29, 9,5]使用低级特征或统计分析来处理3D识别或恢复任务。而3D目标检测任务更具挑战性[7]。3D目标检测方法可以根据数据分为3类,即点云、多视图图像(视频或立体数据)和单目图像。基于点云的方法,例如[4, 20, 28, 12,22],可以直接获取3D空间中对象表面上的点的坐标,因此它们可以比没有点云的方法更容易实现更高的准确性。基于多视图的方法,例如[3],可以使用从不同视图的图像计算得到的视差来获得深度图。尽管点云和立体方法具有更准确的3D推断信息,但单目RGB相机的设备更方便且更便宜。与我们最相关的工作是在自动驾驶场景中使用单个RGB图像进行3D目标检测的工作。由于缺乏3D空间信息,这种设置是最具挑战性的。许多最近的工作集中在这个设置上,因为它是一个具有重大影响的基本问题。Mono3d[2]通过使用3D滑动窗口来解决这个问题。它从几个预定义的3D区域中穷举采样3D提议,这些区域可能出现对象。然后,它利用分割、形状、上下文和位置的复杂特征来过滤掉不可能的提议,并最终通过分类器选择最佳候选项。Mono3d的复杂性带来了严重的效率问题。而我们设计了一种基于纯投影几何的方法,做出了合理的假设,可以高效地生成数量更少但准确性更高的3D候选框。由于最先进的2D检测器[21, 18, 13, 17, 16,15]可以为对象提供可靠的2D边界框,因此我们的方法可以利用这些2D边界框进行进一步的3D推断。xzαθ10210一些方法使用2D边界框作为先验来减少3D边界框的搜索区域[1,19]。[1]使用CNN根据2D边界框预测部件坐标、可见性和模板相似度,并匹配最佳对应的3D模板。而[19]首先使用CNN根据裁剪的2D边界框区域预测尺寸和方向,然后通过约束条件确定位置坐标,即投影后的3D边界框应紧密适应2D检测框。这些方法只从2D边界框中提取特征,存在表示模糊性的问题。而我们利用表面特征来消除这个问题。最先进的基于单目的方法更加关注额外的3D信息以促进检测。[25, 1,14]尝试通过学习子类别或3D关键点或部件在中间阶段利用更多的3D信息。[1,14]使用2D-3D匹配来确定物体的3D坐标。它们都需要带有额外结构或关键点标签的CAD模型。[27]使用从视差预测生成的深度信息来获取近似点云,然后使用2D边界框特征和点云的融合来确定3D边界框。虽然预测只使用单目图像,但视差模型的训练需要立体数据。与这些方法相比,我们的工作利用了单目图像中的3D结构信息,无需额外的数据或标签。03. 问题形式化0我们采用KITTI数据集的3D坐标系:坐标的原点位于相机中心;x轴指向2D图像平面的右侧;y轴指向下方;z轴指向与图像平面正交的内部方向,代表深度。3D边界框表示为B =(w, h, l, x, y, z, θ, φ,ψ)。这里w、h、l是边界框的尺寸(宽度、高度和长度),x、y、z是底部中心的坐标,遵循KITTI的注释。尺寸和中心坐标以米为单位测量。θ、φ、ψ分别是绕y轴、x轴和z轴的旋转。由于我们的目标物体都在地面上,我们只考虑θ旋转,与之前的工作一样。2D边界框用特定标记表示,即B2d =(x2d, y2d, w2d, h2d),其中(x2d, y2d)是边界框的中心。04. GS3D04.1. 概述0图5展示了提出的框架的概述。该框架以单个RGB图像作为输入,包括以下步骤:1)利用基于CNN的检测器获得可靠的2D边界框和物体的观察方向。这个子网络被称为2D+O子网络。0作为2D+O子网络。2)利用得到的2D边界框和方向以及对驾驶场景的先验知识生成一个基本的立方体,称为引导。3)将引导投影到图像平面上。从其2D边界框和可见表面提取特征。这些特征被融合为可区分的结构信息,以消除特征的模糊性。4)融合的特征被另一个称为3D子网络的CNN用于改进引导。3D检测被视为一个分类问题,使用质量感知分类损失来学习分类器和CNN特征。04.2. 2D检测和方向预测0对于2D检测,我们通过添加一个新的方向预测分支修改了更快的R-CNN框架。详细信息见图3。0RoI特征0类别0偏移0方向0FC6特征0角度特征0盒子特征0图3.2D+O子网头部的详细信息。这里的所有线连接表示全连接层。0具体来说,我们使用一个名为2D+O子网的CNN从图像中提取特征,然后区域建议网络生成候选的2D盒子提案。从这些提案中,使用ROI池化提取RoI特征,然后用于分类、边界框回归和方向估计。2D+O子网中估计的方向是物体的观测角度,直接与物体的外观相关。我们将观测角度表示为 α,以便与全局旋转 θ 区分开来。在KITTI数据集中,α 和 θ都有注释,并且它们的几何关系如图4所示。0相机0图4. 观测角度 α 和全局旋转角度 θ的俯视图。蓝色箭头表示观测轴,红色箭头表示车辆的行驶方向。由于这是一个右手坐标系,旋转的正方向是顺时针。the statistics on training data. With the known camera in-trinsic matrix K, we can obtain the normalized 3D coordi-nates ˜Cb = (˜xb, ˜yb, 1) for the guidance bottom center Cband ˜Ct = (˜xt, ˜yt, 1) for the top center Ct as follows:102202D+O子网03D子网0特征提取 3D 引导 RGB 图像精炼 3D 盒子0图5.提出的3D目标检测范式的概述。使用基于CNN的模型(2D+O子网)获取物体的2D边界框和观测方向。然后,使用投影矩阵将获得的2D盒子和方向生成引导。并且利用可见表面提取的特征以及投影引导的2D边界框被细化模型(3D子网)使用。细化模型采用分类形式的质量感知损失而不是直接回归,以获得更准确的结果。04.3. 引导生成0基于可靠的2D检测结果,我们可以为每个2D边界框估计一个3D盒子。具体来说,我们的目标是给定2D盒子 B 2 d = (x 2 d , y 2 d , h 2 d , w 2 d ) ,观测角度 α和相机内参矩阵 K ,获取引导 B g = ( w g , h g , l g , x g ,y g , z g , θ g ) 。04.3.1 获取引导尺寸 ( w g , h g , l g )0在自动驾驶场景中,同一类别实例的物体尺寸分布是低方差和单峰的。由于物体类别由2D子网预测,我们简单地使用训练数据上计算的某一类别的引导尺寸 ( ¯ w, ¯ h, ¯ l )作为具有相同类别的引导的尺寸。因此,我们有 ( w g , h g, l g ) = ( ¯ w, ¯ h, ¯ l ),这是类别相关的(方程中没有出现类别,为了方便表示)。04.3.2 估计引导位置 ( x g , y g , z g )0如第3节所述,( x g , y g , z g )是引导的底部表面中心,表示为 C b。因此,我们研究了底部中心的特点并提出了一种有效的方法。我们的估计方法基于在自动驾驶环境中的发现。物体3D盒子的顶部中心在2D平面上有一个稳定的投影,非常接近2D边界框的顶部中点,底部中心也有一个类似的稳定投影,位于2D边界框的上方且靠近它。这个发现可以通过以下事实解释:大多数物体的顶部位置的投影非常接近2D图像的消失线,因为相机设置在数据采集车辆的顶部,驾驶场景中的其他物体与之具有相似的高度。根据预测的2D盒子 ( x 2 d , y2 d , w 2 d , h 2 d ) ,其中 ( x 2 d , y 2 d )是盒子中心,我们有顶部中点 M 2 d t = ( x 2 d , y 2 d −h 2 d / 2) 和底部中点 M 2 d b = ( x 2 d , y 2 d + h 2 d /2) 。然后,我们近似得到投影顶部中心的齐次形式 C 2 d t= ( M 2 d t , 1) =0(x^2d, y^2d - h^2d/2, 1)和底部中心C^2db = (M^2db, 1) - (0, λh^2d, 0) = (x^2d, y^2d + (1 -λ)h^2d,1),其中λ是根据训练数据统计得到的。通过已知的相机内参矩阵K,我们可以得到指导底部中心Cb和顶部中心Ct的归一化3D坐标˜Cb和˜Ct,如下所示:0˜C b = K^(-1)C^2db, ˜C t = K^(-1)C^2dt. (1)0如果已知深度d,则可以通过以下公式得到Cb:0C b = ˜C b . (2)0因此,我们的目标是获得d。我们可以通过公式(1)计算顶部中心的归一化3D坐标˜Ct = (˜xt, ˜yt,1)。有了底部中心和顶部中心,我们可以得到归一化高度˜h= ˜yb - ˜yt。由于已知指导高度hg = ¯h,我们有d =hg/˜h。最后,我们有(xg, yg, zg) = Cb = (d˜xb, d˜yb,d)。04.3.3 计算指导方向θ0从图4中可以看出,观察角度α和全局旋转角度θ之间的关系是:0θ = α + arctan(0z (3)0由于xg、zg和α可以通过先前的估计得到,现在可以通过公式3计算θg。04.4. 表面特征提取0我们使用给定3D框的投影表面区域来提取3D结构指定的特征,以获得更准确的确定。如图6所示,可见的投影表面对应于轻红色、绿色和蓝色的物体的顶部、左侧和背面。由于所有目标物体都在地面上,底部表面始终不可见,我们使用顶部表面来提取特征。对于其他4个表面,它们的可见性可以由观察方向α来确定。在训练数据的统计信息中,λ是已知的。通过已知的相机内参矩阵K,我们可以得到指导底部中心Cb和顶部中心Ct的归一化3D坐标˜Cb和˜Ct,如下所示:∆x =x∗ − x√l2 + w2 , ∆y =y∗ − y√l2 + w2 , ∆z = z∗ − zh,∆l = log(l∗l ), ∆w = log(w∗w ), ∆h = log(h∗h ),∆θ = θ∗ − θ(5)10230深度卷积网络0透视投影0图6. 通过透视变换从3D框的投影表面提取特征的可视化。0前表面可见时,α>0;后表面可见时,α<0。在KITTI坐标系中,如图4所示,观察者的右手方向为零角度(α=0),顺时针方向为正旋转。因此,当α>0时,前表面可见;当α<0时,后表面可见。当−π<α<2π时,右侧可见。0当α>0时,前表面可见;当α<0时,后表面可见。当−π<α<2π时,右侧可见。可见表面区域的特征通过透视变换被映射到一个规则形状(例如5x5的特征图)。具体来说,对于一个可见表面F,我们首先使用相机投影矩阵在图像平面上得到四边形F2d,然后根据网络的步长计算出特征图上的缩放四边形F2ds。通过F2ds的4个角点和5x5特征图的目标4个角点,我们可以得到透视变换矩阵P。设X和Y分别表示透视变换前后的特征图,Y上坐标为(i,j)的元素的值由以下方程计算:0Yi,j = Xu,v (u, v, 1) = P^(-1)(i, j, 1) (4)0通常情况下,(u,v)不是整数坐标,我们使用最近的4个整数坐标进行双线性插值,得到值Xu,v。可见表面的提取特征被连接起来,我们使用卷积层来压缩通道数量并融合不同表面上的信息。如图7所示,我们还从2D边界框中提取特征以提供上下文信息。2D边界框特征与融合的表面特征进行拼接,最终用于细化。0RoI池化0整体特征融合 20480全局特征图0可见表面区域02D边界框0边界框特征 7x7x10240边界框特征 7x7x20480连接0透视变换0卷积层平0表面特征5x5x(1024x3)0表面特征融合 5x5x20480基于类别的细化03D框0图7. 3D子网头部的详细信息。04.5. 优化方法04.5.1 残差回归0对于候选框 ( w, h, l, x, y, z, θ ) 和目标ground truth ( w �, h � , l � , x � , y � , z � , θ � ) ,残差被编码为:0常用的方法是通过回归模型预测编码的残差。04.5.2 分类形式0在大范围的回归中,通常不如离散分类效果好,因此我们将残差回归转化为3D框细化的分类形式。主要思想是将残差范围划分为几个区间,并将残差值分类到一个区间中。将 ∆ di = d gt i − d gd i 定义为第 i个引导和其对应的3D设置描述符 d 之间的差异,其中 d∈ { w, h, l, x, y, z, θ } 。计算训练数据上 ∆ d 的标准差 σ (d ) 。然后将 (0 , ± σ ( d ) , ± 2 σ ( d ) , ..., ± N ( d ) σ (d )) 分配为描述符 d 的区间的中心,每个区间的长度为 σ( d ) 。根据 ∆ d 的范围选择 N ( d )。由于引导可能来自一个误报的2D框,我们将这些区间视为多个二分类问题。在训练过程中,如果引导的2D边界框无法与任何ground-truth匹配,所有区间的概率将接近于0。通过这种方式,我们可以将引导视为背景,并且如果所有类别的置信度都非常低,我们可以在推理过程中将其拒绝。04.5.3 偏移后的分类0由于将2D区域映射到3D空间是一个欠定问题,我们进一步考虑直接从3D坐标中开始偏差。具体来说,每个类别(残差区间)使用最相关的区域(对应残差偏移后的引导投影)提取自己的个体特征。并且所有残差区间的分类器可以共享参数。04.5.4 质量感知损失0我们期望分类预测的置信度能够反映相应类别目标框的质量,以便更准确的目标框获得更高的分数。这q =�����Deep3DBox [19]97.20/-96.68/Mono3D [2]79.1070.2429.5527.7227.23Ours89.8085.7835.5228.7425.02Table 2. Recallloc and Recall3D of our results compared withMono3D. The IoU threshold of Recall3D is 0.5. These are eval-uated on val2 set.5.2.3RefinementThe ablation study of the contribution of surface feature,classification formulation and quality aware loss are shownin Table.4.We first train a baseline model using direct residual re-gression following previous works e.g. [3, 27]. And the10240这是重要的,因为AP(平均精度)是通过根据分数对候选框进行排序来计算的。然而,常用的0/1标签对于这个目的是不合适的,因为模型被迫对所有正样本候选框预测为1,而不考虑它们在质量上的变化。受2D检测中的损失[11]的启发,我们将0/1标签更改为质量感知形式:0如果 ov > 0 . 75 则为1,如果02 ov − 0 . 5 否则 (6)0其中 ov是目标框和ground-truth之间的3D重叠。我们使用BCE作为损失函数:0L quality = -[q log(p) + (1 - q) log(1 - p)]. (7)05.实验0我们在KITTI目标检测基准测试[7]上评估了我们的框架。它包含7,481个训练图像和7,518个测试图像。我们按照[1]的方法使用了两个训练/验证集划分。在之前的工作中,[24,19]使用了val 1,[2, 3]使用了val 2,[1,27]同时使用了两者。我们的实验主要集中在车辆类别上,与大多数之前的工作相同。05.1.实现细节05.1.1 网络设置:0我们的2D子网络和3D子网络都基于VGG-16[23]网络架构。2D子网络使用在ImageNet数据集上预训练的分类模型来初始化其参数。训练好的2D子网络模型用于初始化训练中的3D子网络参数。05.1.2 优化0我们使用Caffe深度学习框架[10]进行训练和评估。在训练过程中,我们将图像放大2倍,并使用4个GPU,每个GPU处理一张图像。我们使用基础学习率为0.001的SGD求解器进行训练,前30K次迭代后将学习率降低为0.0001,再进行10K次迭代。05.2.消融研究05.2.1 2D检测和方向0由于我们的工作重点是3D检测,我们没有花时间调整2D模型的超参数(例如损失权重、锚点大小),只是训练了没有花哨的2D子网络。我们按照标准的KITTI设置评估了2D模型的平均精度(AP)和平均方向相似度(AOS)。结果如表1所示,并与其他最先进的方法进行了比较。尽管Deep3DBox[19]具有更高的AP,但我们的结果与其他方法相比更好或相当。此外,尽管Deep3DBox使用更好的2D框来估计3D框,但我们的3D结果大大超过了他们的结果(表5),这突显了我们的3D框确定方法的优势。0尽管Deep3DBox具有更高的AP,我们的结果比其他方法更好或相当。此外,尽管Deep3DBox使用更好的2D框来估计3D框,但我们的3D结果大大超过了他们的结果(表5),这突显了我们的3D框确定方法的优势。0方法 AP 2D AOS0Mono3D [2] - /88.67 - /86.2803DOP [3] - /88.07 - /85.800DeepMANTA [1] 91.01/90.89 90.66/90.660我们的方法 90.02/88.85 89.13/87.520表1. 在KITTI数据集的val 1 / val2上评估车辆类别的2D检测和方向结果的比较。为了方便表格的大小,只显示了在中等标准下的结果,这是KITTI的主要指标。05.2.2 引导生成0根据训练数据的统计结果,我们将 ¯ w = 1.62,¯ h =1.53,¯ l = 3.89 作为引导的尺寸,并将 λ = 0.07作为投影底部中心的偏移量。为了更好地评估引导的准确性,我们使用召回率(Recall loc)和3D召回率(Recall3D)作为指标。对于召回率(Recallloc),计算候选框和真实框之间的欧氏距离,如果有一个候选框与真实框的距离在阈值范围内,则认为真实框被召回。而召回率(Recall3D)则是将距离改为3D重叠度的标准。如表2所示,我们还将我们的引导召回率与Mono3D[2]的候选框召回率进行比较,因为它们在3D检测框架中具有类似的作用。评估是在val2上进行的,比Mono3D的候选框生成方法更高效。请注意,引导的数量正好等于2D检测到的框的数量,与真实框的数量相同数量级。因此,引导的3D召回率与AP3D相似,我们的优化后的3D框可以达到超过引导召回率的AP值。0方法 召回率(Recall loc) 召回率(Recall 3D) @IoU=0.50thr=2m thr=1m 简单 中等 困难baseline only uses guidance region (bounding box) featurespooled from the feature map of the image.Then we adopt the network architecture in Fig.7 and traina surface feature aware model. With the surface feature pro-viding 3D structurally distinguishable information, the re-gression accuracy is improved (seen in the line of “+surf”).For the classification formulated refinement, the distri-butions of ∆d for each dimension on the training set are an-alyzed as shown in Table.3. As stated in Section.4.5.2, weset the interval length for each dimension as the σd. And wechoose Nd = 5 for d ∈ {w, h, l, y, θ} and Nx = Nz = 10,mainly according to the range over std ratio.Dimensionwhlxyzθstd0.100.130.410.480.101.650.05range-0.49, -0.44, -1.74, -10.89, -0.52, -12.78, -0.27,0.400.901.276.220.6927.060.31Table 3. Distribution analysis of ∆d on training data.With the parameters for classes settled, we perform ex-periments with the classification formulation instead of thedirect regression. Comparison experiments using the fea-tures after shift for classification are also conducted. In Ta-ble.4, “+cls” and “+scls” represent these two methods re-spectively. We can see the two class formulated methodsboth surpass the regression method. The fixed feature basedmethod performs better in AP@0.5, while the shift featurebased one performs better in AP@0.7.Finally we change the 0-1 label based loss to the qualityaware form introduced in Section.4.5.4. Significant gain isachieved in both classification based methods (seen in theline “+qua” of Table.4).MethodAP3D@IoU=0.5AP3D@IoU=0.7EasyModrHardEasyModrHardBaseline21.66 15.47 14.752.751.991.86+surf25.81 20.41 17.703.752.992.86+surf +cls30.87 23.39 19.865.093.763.63+surf +scls28.57 18.81 17.637.414.514.51+surf +cls +qua33.11 27.16 23.578.716.646.11+surf +scls +qua30.60 26.40 22.8911.63 10.51 10.51Table 4. Ablation study of 3D detection results for car categoryon KITTI val2 set. “Modr” means moderate here. And “+surf”,“+cls”, “+scls”, “+qua” represent the usage of surface feature,class formulation, shift based class formulation and quality awareloss respectively.5.3. Comparison with Other MethodsWe compare our work with state-of-the-art RGB im-age based 3D object detection methods:Mono3D [2],Deep3DBox [19], DeepManta [1], MF3D [27] and 3DOP[3].Most of these methods requires extra data or label in ad-dition to single RGB image and the KITTI official anno-tation for training. 3DOP is a stereo data based method.Mono3D need segmentation data for the mask prediction.DeepManta need 3D CAD data and vertices for their 3Dmodel prediction. MF3D adopts the model in MonoDepth[8] for their disparity prediction, which is actually trainedon stereo data. Whereas only Deep3DBox, as well as ourwork, requires no extra data or label.AP3D: The major metric for our 3D detection evaluationis the KITTI official 3D Average Precision (AP3D): a de-tection box is considered as true positive if it has a overlap(IoU) with the ground truth box larger than the thresholdIoU=0.7. We also show result comparison with IoU=0.5.As we can see in Table.5, our method surpasses other worksby a large margin in the official metric (IoU=0.7), while3DOP has a better performance evaluated with IoU=0.5.This indicates that our method can achieve fine refinementresult for certain good guidances but is not good at correct-ing the largely deviated guidances. The inference time isalso shown in this table, which demonstrates the efficiencyof our method.ALP: Since DeepMANTA only provides their resultsevaluated in Average Localization Precision (ALP) metric[1], we also preform results comparison in this metric. Asshown in Table.6, our method is outstanding among currentstate of the art works, except that 3DOP outperforms us inthis metric. Since ALP focus only on the location accuracyand the size and rotation is not taken into consideration, itsability of reflecting the true quality of the 3D box may benot as good as 3D overlap.Results on Test Set: Among all published monocular3D detection works, only MF3D [27] shows the results eval-uated on the official test set. The comparison between theirresults and ours is shown in Table.7.We only submit once so there is no trick of hyper-parameter search. But even so, our method outperforms theother work. Note that both the results of MF3D and ourson test set have a gap compared with those on validationset (Table.5). And this is most probably caused by the gapof data distribution between training and testing set, sinceKITTI training set is really small.102505.4. 定性结果0图8展示了我们方法的一些
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功