没有合适的资源?快使用搜索试试~ 我知道了~
3289对象不同:灵活的单目3D对象检测张云鹏,陆继文*,周杰清华大学自动化系北京国家信息科学技术研究中心zhang-yp19@mails.tsinghua.edu.cn;{ lujiwen,jzhou} @tsinghua.edu.cn摘要在没有深度信息的情况下,从单幅图像中精确定位三维物体是一个极具挑战性的问题。大多数现有的方法采用相同的方法对所有对象,而不管其不同的分布,导致有限的性能截断对象。在本文中,我们提出了一个灵活的框架,单目3D物体检测,显式的截断对象和自适应地结合多种方法的物体深度估计。具体地说 , 我 们 解 耦 的 特 征 图 的 边 缘 预 测 长 尾 截 断 ob-boundary,使正常对象的优化不受影响。此外,我们将对象深度估计公式化为直接回归的对象深度和来自不同组关键点的求解深度的不确定性引导的集合实验结果表明,在保持实时性的前提下,该方法在中等水平上的性能比现有方法提高了27%,在硬水平上的性能比现有方法提高了30%.代码将在https://github上提供。com/zhangyp15/MonoFlex.1. 介绍三维物体检测是机器感知物理环境不可或缺的前提,在自动驾驶和机器人导航中得到了广泛的应用。在这项工作中,我们专注于解决问题,只有从单目图像的信息。大多数现有的3D物体检测方法需要LiDAR传感器[22,33,35,40,41,49]进行精确的深度测量或者用于立体深度估计的立体摄像机[8,24,37,45]因此,单目3D物体检测一直是一种有前途的解决方案,并在社区中受到广泛关注[2,3,7,10,13,20,27,31,34]。对于具有挑战性的3D物体定位,大多数前-*通讯作者(a) (b)D4LCN [13](c)基线(d)图1:现有技术[3,13],我们的基线和所提出的方法之间的定性比较。青色和粉色边界框表示检测到的汽车和行人。我们的方法可以有效地检测红色箭头突出显示的严重截断对象。编译方法用统一的方法处理不同的对象。例如,[10,25,28,52]利用完全卷积网络来预测具有共享内核的不同分布的对象。然而,我们观察到,所有对象的平等和联合处理可能导致不满意的性能:(1)如图1所示,严重截断的对象很难被最先进的方法检测到[3,13],但这些对象对自动驾驶车辆的安全很重要。(2)我们的经验发现,这些硬样本会增加学习负担,影响对一般对象的预测。因此,统一的方法可能无法找到每个对象和预测精确的3D位置。为此,我们提出了一个灵活的检测器,考虑对象之间的差异,并估计他们的3D位置在一个自适应的方式。由于物体的3D位置的估计通常被分解为寻找投影的3D中心和物体深度[10,28,36,52],因此我们还考虑了这两个为了定位投影的3D中心,我们根据对象的投影中心是在图像的“内部”还是“外部”来划分对象然后,我们表示内部对象的ex-periment作为投影中心和外部对象deli- cately选择的边缘点,使两组对象的处理的内部和边缘区域的特征地图re-periment。考虑到卷积3290过滤器来管理空间变化的预测,边缘融合模块进一步提出解耦的特征学习和预测的外部对象。为了估计对象深度,我们建议将不同的深度估计与不确定性估计结合起来[18,19]。估计量包括直接回归[10,25,36,52]和关键点的几何解[2,5]。我们观察到,从关键点计算深度通常是一个超定问题,其中简单地平均来自不同关键点的结果[5]可能对关键点的截断和遮挡敏感。因此,我们进一步将关键点分成M个组,每个组都足以解决深度问题。为了将基于M个关键点的估计量和直接回归相结合,我们对其不确定性进行建模,并将最终估计值表示为不确定性加权平均值。所提出的组合允许模型灵活地选择更合适的估计器,以进行稳健和准确的预测。KITTI [14]数据集上的实验结果表明,我们的方法显着优于所有现有的方法,特别是对于中等和硬样本。本文的主要贡献可以概括为两个方面:(1)揭示了在单目3D目标检测中考虑目标间差异的重要性,提出了对截断目标预测的解耦方法(2)我们提出了一个新的配方对象深度估计,它利用不确定性灵活地结合独立的估计。2. 相关工作单目3D物体检测。考虑到从2D图像感知3D环境的困难,用于单目3D对象检测的大多数现有方法利用额外信息来简化任务,其包括预训练的深度估计模块[30,45,46,47]、注释的关键点[2]和CAD模型[32]。Mono 3D [7]首先基于地面先验对候选者进行采样,并使用语义/实例分割,上下文信息,对象形状和位置先验对其进行评分。MonoPSR [21]估计实例点云,并强制对象外观和投影点云之间的对齐,伪激光雷达[45]将单目图像提升为具有估计深度的伪激光雷达,然后利用基于激光雷达的检测器。AM3D [31]提出了一种多 模 态 融 合 模 块 , 用 于 增 强 具 有 颜 色 信 息 的 伪LiDAR。PatchNet [30]将伪LiDAR组织到图像表示中,并利用强大的2D CNN来提高检测性能。虽然这些方法通常具有更好的性能,但它们需要更多的训练注释,并且通常不太通用。其他纯单眼方法[3,10,27,28,34,36]仅利用单个图像进行检测。 [34]第三十四话提出了MultiBin方向估计方法,并利用二维边界框的几何约束导出三维边界框。RightNet [27]测量投影的3D提案和对象之间的拟合度,以便挑选出最适合的提案。MonoGRNet [36]通过稀疏监督直接预测对象的深度,并结合早期特征来改进位置估计。M3 D-RPN [3]通过3D区域建议网络解决了这个问题,并提出了深度感知卷积层来增强提取的特征。MonoPair [10]考虑了相邻对象之间的成对关系,这些关系被用作空间约束以优化检测结果RTM3D [25]预测3D边界框的投影顶点,并使用非线性最小二乘优化解决3D属性。现有的方法大多忽略了对象之间的差异或只考虑了总体尺度的方差,这会导致对分布外对象的预测能力下降。相比之下,我们的工作显式地将严重截断的对象与长尾分布相结合,以实现有效的学习,并通过自适应地组合多个深度估计器来估计对象深度,而不是对所有对象使用一种单一的方法。不确定性估计。 在贝叶斯建模中通常研究两种主要类型的不确定性[18]。地震不确定性描述了模型参数的不确定性,而任意不确定性可以捕获观测的噪声,其在目标检测中的应用已在[10,11,15]中进行了探索。高斯YOLO [11]对预测的2D框的不确定性进行建模,以纠正检测分数。[15]将边界框预测为高斯分布,并将回归损失公式化为KL散度。MonoPair [10]使用不确定性为预测的3D位置和成对约束之间的后优化提供权重在这篇文章中,我们从多个估计器中建立了估计深度的不确定性模型,用于量化它们对最终组合预测的贡献。包围学习。包围学习[1,12,17,23,39]策略性地生成多个模型,并结合它们的预测以获得更好的性能。传统的集成方法包括bagging,boosting,stacking,gating network等。[17]使用gating networks来组合专家的混合进行分类。[1]提出了一种树结构的门来分层加权不同的面部对齐的期望。包围学习一般假设学习者具有相同的结构,但使用不同的样本或初始化进行训练,而我们的多个深度估计器以各自不同的方式运行,并且也由实质上不同的损失函数监督因此,我们建议将组合公式化为所有预测的不确定性指导平均值。3291图2:我们的框架概述。首先,CNN主干从单目图像中提取特征图作为多个预测头的输入。图像级定位涉及热图和偏移,其中边缘融合模块用于解耦截断对象的特征学习和预测。自适应深度集成采用四种深度估计方法,并同时预测它们的不确定性,形成一个不确定性加权预测。3. 方法3.1. 问题陈述物体的3D检测涉及估计其3D位置(x,y,z)、维度(h,w,l)和取向θ。尺寸和方向可以直接从基于外观的线索推断,而3D位置是一致的。转换到投影的3D中心xc=(uc,vc),(a) 分解3D位置(b) 偏移分布对象深度z如图3(a)和(1)所示:x=(uc−cu)z,y=(vc−cv)z(一)图3:(a)3D位置转换为投影中心和对象深度。(b)从2D中心到投影3D中心的偏移δ c的分布。内部和外部物体呈现出完全不同的分布。其中(cu,cv)是主点,f是焦距。为此,整个问题被分解为四个独立的子任务。3.2. 框架概述如图2所示,我们的框架是从CenterNet [52]扩展而来的,其中对象通过其代表点来识别,并通过热图的峰值来预测。多个预测分支部署在共享主干上以回归对象的属性,包括2D边界框、尺寸、方向、关键点和深度。最终的深度估计是回归深度和来自估计的关键点和尺寸的计算深度我们在第3.3节中给出了正常和截断对象的解耦代表点的设计,然后在第3.4节中介绍了视觉特性的回归。最后,自适应深度集合在第3.5节中详述。3.3. 对象的解耦表示现有方法[10,25,52]针对每个对象利用统一的表示xr,即2D边界框x b的中心。在这种情况下,偏移δc=xc− xb被回归以导出投影的3D中心xc。我们将物体分为两组,这取决于它们的投影3D中心是否在图像内部或外部,并在图3(b)中可视化相应的偏移量δc 考虑到子-3292在在出来出来由于两个组的偏移量基本上不同,δc的联合学习可能遭受长尾偏移,因此我们提出将内部和外部对象的表示和偏移学习解耦。内部对象。对于投影3D中心在图像内部的对象,它们直接由xc标识,以避免像[10,25]那样回归不规则的δc虽然由于骨干CNN的下采样率S,我们仍然需要回归离散化误差δin,如(2)所示,但它比δc小得多,更容易回归。(a) 交集(b)边缘热图δin=xcxc- -S S中国(2)(c)xI和xb图4:外部对象的表示。 (a)间-我们遵循[52]生成地面实况热图,在以xc为中心的圆形高斯核的物体内。外物。为了解耦外部对象的表示,我们建议通过图像边缘和从xb到xc的线之间的相交xI来识别它们,如图4(a)所示。可以看出,所提出的相交xl比简单地将xb或xc夹持到边界更有物理意义。 通过如图4(b)所示的边缘热图来实现x1的预测其从一维高斯核生成。我们还比较了图4(c)中的xI和常用的xb 由于2D边界框仅捕获物体的内部图像部分,xb的视觉位置可以图像边缘和从xb到xc的线之间的部分xl用于表示截断的对象。(b)边缘热图是用一维高斯分布生成的,内核大小与2D边界框的大小成比例。(c)对于严重截断的对象,始终在边缘上的交点xI(青色)是比2D中心xb最好用彩色观看。回归δin的L1损失和δout的对数尺度L1损失,因为它对极端离群值更稳健抵消损失计算为(4):.|如果在国内|ifinside甚至在其他物体上。相比之下,相交x1将热图的边缘区域解开,Loff=log(1+|δout−δ(四)|) otherwise专注于外部物体,并提供强大的边界先验其中,δin和δout表示预测,和δ以简化本地化。同时,我们回归了从xl到目标xc,如(3)中所示都是事实请注意,由于公式不同,Loff分别针对内部和外部对象δoutxcxI=− 1(3)3.4. 目视属性回归S S边缘融合。虽然内部和外部对象的表示在输出特征的内部和边缘区域中是解耦的,但共享卷积核仍然难以处理空间变化的预测。因此,我们提出了一个边缘融合模块,以进一步分离的特征学习和预测的外部对象。如图2的右侧部分所示,该模块首先提取特征图的四个边界,并按顺时针顺序将它们连接成边缘特征向量,然后由两个1D卷积层处理以学习我们详细阐述了视觉特性的回归-包括该部分中对象的2D边界框、尺寸、方向和关键点。2D检测 由于我们不将对象表示为它们的2D中心,因此我们遵循FCOS [44]回归从代表点xr=(ur,vr)到2D边界框的四边的距离,其中xb表示内部对象,xI表示外部对象。 如果我们将左上角表示为(u1,v1),右下角表示为(u2,v2),则回归目标为:l=ur−u1,r=u2−ur,截断对象的独特功能最后,经过处理的向量被重新映射到四个边界,并添加到tt=vr-v1,b=v2(五)-V河输入特征图。当应用于热图预测时,边缘特征可以专门预测外部对象的边缘热图,使得内部对象的定位对于回归补偿,信号-如图3(b)所示的δin和δout之间的显著尺度差异可以用边缘融合模块来解决损失函数惩罚减少的焦点损失[26]用于热图预测,如[10,25,28]中所示我们采用GIoU损失[38]用于2D检测,因为它对尺度变化具有鲁棒性。尺寸估计。考虑到每个类别中对象大小的方差很小,我们回归了相对于统计平均值而不是绝对值的相对变化。 对于每个类c,训练集表示为(hc,wc,lc)。假设尺寸的回归对数标度偏移为(δh,δw,δl),3293.图5:ry、α和θ是全局方向、局部方向和视角。图6:关键点包括八个顶点的投影,3D边界框的顶部中心和底部中心地面实况维度为(h,w,l),维度回归的L1损失定义为:图7:3D边界框的支撑线的深度我们将十个关键点分成三组,每组都可以独立地产生中心深度。3.5. 自适应深度增强我们将目标深度的估计公式化为M+1个独立估计量的自适应集成,包括直接回归和关键点的M个几何解。我们首先介绍这些深度估计,然后介绍我们如何将它们与不确定性相结合。直接回归。为了直接回归对象深度,我们遵循[10,52],使用逆S形变换将无限网络输出zo转换为绝对深度zr你好。11z=−1,σ(x)=(九)Ldim=k∈{h,w,l}. kcek−k。(六)rσ(zo)1+e−x方向估计方位可以表示为相机坐标系中的全局方位或相对于观察方向的局部方位对于位于(x,y,z)的对象,其全局方向-为了联合建模回归深度的不确定性,我们遵循[11,18,19]来利用修改的L1损失进行深度回归:|zr− z∗|和局部方向α满足(7):Ldep=σdep+ log(σdep)(10)ry=α+ arctan(x/z)(7)如图5所示,具有相同全局方向但不同视角的对象将具有不同的局部方向和视觉外观。因此,我们选择使用MultiBinloss [6]来估计局部方向,其将方向范围划分为N0个重叠的bin,使得网络可以确定对象位于哪个bin中并估计相对于bin中心的残余旋转。关键点估计。如图6所示,我们定义对于每个对象,Nk= 10个关键点,其包括八个顶点{k,i = 1. 8}、3D边界框的底部中心k9和顶部中心k10我们回归局部偏移{δki=ki−xr,i=1. Nk}从Xr到Nk个关键点,具有L1损失:其中σdep是回归深度的不确定性。当模型对其预测缺乏信心时,它将输出更大的σdep,以便可以降低Ldep术语log(σdep)可以避免琐碎的解决方案,并鼓励模型对准确的预测持乐观态度。从关键点的深度。利用已知的相机矩阵,我们可以利用像素高度和估计的对象高度之间的相对比例来计算对象深度,这与[5]类似。从我们的基线模型,预测尺寸的相对误差为5.2%,6.1%和11.8%的高度,宽度和长度。因此,从高度求解深度不仅与方向估计无关,而且受尺寸估计误差的影响较小。如图7所示,估计的十个关键点构成了ΣNkI(k)|δ-δ δ|三维边界框的五条垂直支撑线。的L=i=1in i kiki(八)每条垂直线的深度z1可以从其像素关键Nki=1in(ki)高度hl并且物体高度H为(11):我3294ki其中δi是地面真值,I在(ki)中表示是否f×H关键点ki在图像内部。zl=L(十一)H3295我Σ其中f是相机中心垂直线zc的深度正好是物体深度,而对两个对角垂直边缘(即z1和z3或z2和z4)的深度进行平均也可以得到物体深度。因此,估计的十个关键点被分成三组,并且分别生成表示为中心深度zc、diag1深度zd1和diag2深度zd2的独立深度。为了进一步监督关键点的计算深度并对其不确定性进行建模,我们采用L1损失不确定度如下:检测结果在三个难度级别上进行评估:容易,中等和困难,这是由边界框高度,遮挡和截断定义的。我们所有报告的结果都是由联合检测多个类别的模型产生的,包括汽车,行人和骑自行车的人。请注意,KITTI鸟瞰图基准的结果4.1. 实现细节我们采用相同的修改DLA-34 [51]作为我们的背部-Lkd=Σk∈{c,d1,d2}Σ|zK-z|σkΣ+Iin(zk)log(σk)(十二)骨网络后[10,28,52]。所有输入图像都被填充为384×1280的相同大小。每个连接到主干上的预测头由一个3×3×256conv层,BatchNorm [16],ReLU和另一个1×1×co其中z是地面真值,I在(zk)中表示是否所有用于计算zk的关键点在图像内部。再-移动从不可见关键点计算的“无效”深度的对数不确定性conv层,其中co是输出大小。边缘融合模块具有类似的设置,除了使用1D conv层和经验性地移除ReLU激活。 对于MultiBin[34]我们使用以[0,π,π,−π]为中心的四个bin。的2 2这样,这些深度就降低了,- 是的请注意,我们还将这些无效深度的梯度限制为仅更新不确定性。不确定性引导的包围。 现在我们有了M +1预测深度{i,i = 1. M+1}及其不确定性{σi,i = 1. M+1},我们建议计算不确定性加权平均,即软合奏,如(13)所示:使用AdamW [29]优化器训练模型,初始学习率为3e-4,权重衰减为1 e-5。我们在一个RTX 2080Ti GPU上训练模型进行34k次迭代,批量大小为7,在22k和30k次迭代时,学习率除以10。采用随机水平翻转作为唯一的数据增强。4.2. 评估指标.M+1z=- 是的M+1zi/1(十三)检测结果由三维包围盒的平均精度AP3D来评价.对于val集,我们报告了软σiσiAP|和AP|进行全面比较i=1i=13D R113DR40软集成可以分配更多的权重,这些更有信心的估计,同时是强大的潜在的不准确的不确定性。我们还考虑了硬集合,其中具有最小不确定性的估计器被选为最终的深度估计。第4.5节比较了两种连接方式的性能。积分角损耗如[36,42]中所讨论的,多个子任务的单独优化不能确保不同组件之间的最佳协作。因此,我们还监督八个角的坐标{vi=(xi,yi,zi),i=1,.,从预测的3D边界框(其由估计的尺寸、取向和软深度形成,具有L1损失:Σ8与以前的研究。 对于测试集,AP3D|R40结果从测试服务器报告。IoU阈值AP3D对于汽车是0.7,对于行人和骑自行车的人是0.5.4.3. 定量结果在表1中,我们对我们提出的方法和现有技术在KITTI汽车基准测试集上进行了全面的比较没有花里胡哨,我们的方法优于所有先前的方法,仅将单眼图像作为输入。 对于AP 3D|R40 上valset,我们的方法分别比第二个最好的方法MonoPair [10]在三个层次的困难。对于测试集,我们提出的方法超越了所有现有的方法,包括那些额外的信息。对硬样品的显著改进表明L角=4. 实验i=1|(十四)|(14)我们的方法可以有效地检测那些严重截断的目标,这对于实际应用是至关重要的。我们进一步在表2中显示了行人和骑自行车者在测试集上的结果。我们的方法优于M3 D-RPN [3]和Movi 3D [43],同时实现了相当的性能所提出的方法在KITTI 3D对象检测基准[14]上进行评估,其中包括7481张用于训练的图像我们按照[9]将训练图像分为train(3712)和val(3769)集。[10]第10话最后,我们的方法也比大多数现有方法快得多总之,我们提出的框架实现了性能和延迟之间的最先进的权衡。3296方法额外时间(毫秒)Val,AP 3D |R11Val,AP 3D |R40测试,AP 3D |R40容易Mod硬容易Mod硬容易Mod硬MonoPSR[20]深度,激光雷达12012.7511.488.59---10.767.255.85UR3D[48]深度12028.0518.7616.5523.2413.3510.1515.588.616.00AM3D[31]深度-32.2321.0917.2628.3115.7612.2416.5010.749.52PatchNet[30]深度-35.1022.0019.6031.6016.8013.8015.6811.1210.17DA-3Ddet[50]深度,激光雷达-33.4024.0019.90---16.8011.508.90D4LCN[13]深度-26.9721.7118.2222.3216.2012.3016.6511.729.51Kinem3D[4]多帧120---19.7614.1010.4719.0712.729.17[27]第二十七话--5.985.504.75---2.771.511.01MonoGRNet[36]-6013.8810.197.62---9.615.744.25MonodIS[42]-10018.0514.9813.42---10.377.946.40M3D-RPN[3]-16020.2717.0615.2114.5311.078.6514.769.717.42吸烟[28]-3014.7612.8511.50---14.039.767.84MonoPair[10]-57---16.2812.3010.4213.049.998.65RTM3D[25]-5520.7716.8616.63---14.4110.348.77Movi3D[43]-45---14.2811.139.6815.1910.909.26我们-3528.1721.9219.0723.6417.5114.8319.9413.8912.07表1:通过AP3D评估的KITTIval/测试集上的汽车的定量结果。“额外”列出了每种方法所需的额外信息。我们将现有的方法分为两组,考虑他们是否利用额外的信息,并根据他们的表现在每组内的测试集方法测试,AP3D|R40行人骑车人容易Mod硬容易Mod硬M3D-RPN[31]4.923.482.940.940.650.47Movi3D[43]8.995.444.571.080.630.70MonoPair[10]10.026.685.533.792.121.83我们9.436.315.264.172.352.04表2:KITTI测试集上行人和骑自行车者的定量结果。4.4. 消融研究4.4.1解耦表示在表3中,我们比较了内部和外部对象的各种表示,并验证了单独的偏移损耗(即解耦损耗)和边缘融合模块第二行表示所有具有xb的对象,将其视为基线。所有模型都直接回归对象深度而不集成。我们注意到:(1)与基线相比,简单地丢弃外部对象可以提高性能,这证明了解耦外部对象的必要性。(2)将内部对象识别为它们的投影3D中心xc比2D中心xb更好,可能是因为从xb到xc的偏移是不规则的并且难以学习。(3)内外偏移量的解耦优化和边缘融合模块对于中硬样本的显著改善至关重要,物体属于。(4)与如图4(a)所示的通过将xc和xb夹紧到图像边缘而导出的xcc和xcb相比,所提出的交点xl是外部对象的更表3:解耦表示的消融研究。4.4.2目标深度估计我们在表4中比较了对象深度估计的不同方法。“Direct Regression” refers to the best model in Table“Keypoints” replaces the depth branch with keypointprediction and solves the ob- ject depth from geometry asin Section 回归深度的性能略好于基于关键点的解决方案。不确定性的引入显著改善了这两种方法,因为它允许模型忽略困难的离群值,并专注于最温和的对象。相比之下,我们的自适应深度集成方法同时执行两个预测,并进一步将它们与不确定性指导的权重相结合,明显优于所有单独的方法。4.5. 深度结合为了进一步了解所提出的深度集成的有效性,我们比较了每个es的性能,表示解耦损失边缘融合Val,AP 3D|R40内部外面EMHXBXB-XB13.513.010.59.48.97.6XC-√√√15.311.09.6xcxcXIXI√13.914.210.211.78.99.8xcxcXIXI√√14.615.911.712.69.711.4xcxcxccxcb√√12.116.29.88.63297图8:定性结果。我们在KITTIval set上可视化3D对象检测的结果,其中预测的汽车,行人和骑自行车的人用青色,浅粉色和红色框表示。我们使用红色椭圆来强调那些严重截断的对象。深度法Val,AP 3D|R40容易Mod硬直接回归15.8612.6011.38直接回归+σ19.6314.8313.25关键点15.4512.1810.73关键点+σ18.4214.7612.49自适应增强23.6417.5114.83表4:对物体深度估计的消融研究。估计器和来自表5中的集合模型的组合深度。可以观察到,与表4中的结果相比,联合学习一致性提高了每个深度估计器的性能,这可以归因于增强的特征学习。来自软环境的组合深度优于每个单独的估计器,特别是对于中等水平的汽车和所有水平的行人。硬系综较差,可能是由于其对实际深度误差和估计的不确定性之间的失配的敏感性。我们还提供了Oracle深度的性能它可以被认为是我们的深度系综的理想上界为了将预测对象与地面实况对象相匹配,我们要求它们的2DIoU大于0.5。我们注意到,我们的软集成是非常接近的预言性能行人,证明了我们提出的组合方法的有效性另一方面,Car的Oracle性能揭示了组合不同深度估计器的巨大潜力,可以留给未来的工作。4.6. 定性结果从图8所示的定性结果来看,我们提出的框架可以为各种街道场景中的普通对象产生卓越的性能正如红色椭圆所强调的,我们还可以成功检测到一些非常截断的物体,这对安全至关重要表5:深度估计器的自适应集合的定量分析。自动驾驶,展示了解耦截断对象的有效性。5. 结论在本文中,我们提出了一种新的框架,单目3D目标检测灵活地处理不同的对象。我们观察到截断对象的长尾分布我们还将对象深度估计公式化为多种方法的不确定性引导的集合,从而实现更鲁棒和更准确的预测。在KITTI基准上的实验表明,该方法的性能明显优于现有的所有竞争者.我们的工作揭示了灵活处理不同对象的重要性,特别是对于具有挑战性的单目3D对象检测。确认这项工作得到了中国国家自然科学基金U1713214、U1813218、61822603基金的部分支持,北京人工智能研究院(BAAI)的部分支持,以及清华大学郭强研究所的部分支持。估计器Val,AP|R40汽车,IoU> 0.7行人,IoU> 0.5容易Mod硬容易Mod硬回归23.4116.8314.597.395.814.54关键词:中心23.2916.8414.727.405.744.54关键词:诊断123.1316.7014.507.305.644.52关键词:诊断223.3516.8114.637.385.764.56硬包围22.5816.8014.587.516.384.64软包围23.6417.5114.838.166.455.16Oracle26.2819.9817.078.546.725.553298引用[1] 这是阿尔诺,阿尔诺·达波格尼,还有凯文·贝利。三重门控深度混合专家的姿态鲁棒的脸对齐。T-BIOM,第122-132页,2019年。2[2] 伊万·巴拉巴瑙,阿列克谢·阿特莫夫,叶夫根尼·布尔纳耶夫,和维切斯拉夫·穆拉什金.基于关键点几何推理的单目3d目标检测。CoRR,abs/1905.05618,2019。一、二[3] 加里克巴西和刘晓明。用于物体检测的单目3d区域建议网络在ICCV,第9287-9296页一、二、六、七[4] Garrick Brazil,Gerard Pons-Moll,Xiaoming Liu,andBernt Schiele.单目视频中的运动3d目标检测。在ECCV,第135-152页,2020年。7[5] Yingjie Cai , Buyu Li , Zeyu Jiao , Hongsheng Li ,Xingyu Zeng,and Xiaogang Wang.基于解耦结构多边形估计和高度引导深度估计的单目三维目标检测。在AAAI,第10478-10485页,2020年。第二、五条[6] FlorianChabot、MohamedChaouch、JaonaryRabarisoa、Ce'lineTeuliere和ThierryChateau。Deepmanta:一个从粗到精的多任务网络,用于从单目图像进行2d和3d车辆联合分析在CVPR中,第20405[7] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目3D物体检测在CVPR中,第2147一、二[8] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun. 3D 对 象 建 议 用 于 准 确 的 对 象 类 别 检 测 。NeurIPS,第424-432页,2015年。1[9] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun. 3D 对 象 建 议 用 于 准 确 的 对 象 类 别 检 测 。NeurIPS,第424-432页,2015年。6[10] Yongjian Chen,Lei Tai,Kai Sun,and Mingyang Li.Monopair:使用成对空间关系的单目3d对象检测。在CVPR中,第12093-12102页,2020年。一、二、三、四、五、六、七[11] Jiwoong Choi,Daywei Chun,Hyun Kim,and Hyuk-JaeLee. Gaussian yolov 3:一个准确快速的物体检测器,使用定位不确定性进行自动驾驶。在CVPR中,第502-511页,2019年。第二、五条[12] Thomas G Dietterich et al. Entrance learning. 脑理论和神经网络手册,第110-125页,2002年。2[13] Mingyu Ding,Yuqi Huo,Hongwei Yi,Zhe Wang,Jianping Shi,Zhiwu Lu,and Ping Luo.单目3d目标检测的深度引导在CVPR中,第11672-11681页,2020年。第1、7条[14] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准 备 好 自 动 驾 驶 了 吗 ? Kitti Vision 基 准 套 件 。 在CVPR,第3354-3361页,2012年。第二、六条[15] Yihui He , Chenchen Zhu , Jianren Wang , MariosSavvides,and Xiangyu Zhang.Bounding Box Regressionwith uncer-用于精确物体检测的污点。在CVPR中,第2888- 2897页,2019年。2[16] 谢尔盖·约菲和克里斯蒂安·塞格迪。批量归一化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页,2015中。6[17] Robert A Jacobs,Michael I Jordan,Steven J Nowlan,and Geoffrey E Hinton.当地专家的适应性混合神经计算,第79-87页,1991年。2[18] 亚历克斯·肯德尔和亚林·加尔在计算机视觉的基础深度学习中,我们需要哪些不确定性在NeurIPS,第5580-5590页,2017年。第二、五条[19] Alex Kendall,Yarin Gal,Roberto Cipolla.使用不确定性来权衡场景几何和语义损失的多任务学习。 在CVPR中,第7482-7491页,2018年。 第二、五条[20] Jason Ku,Alex D Pon和Steven L Waslander。单目3d物体检测利用精确的建议和形状重建。在CVPR中,第11867-11876页,2019年。第1、7条[21] 作者:Alex D.Pon,and Steven L.瓦斯兰德单目3d物体检测利用精确的建议和形状重建。在CVPR中,第11867-11876页,2019年。2[22] Alex H Lang , Sourabh Vora , Holger Caesar , LubingZhou,Jiong Yang,and Oscar Beijbom. Pointpillars:用于从点云中检测物体的快速编码器。在CVPR中,第12697-12705页,2019年。1[23] Stefan Lee,Senthil Purushwalkam,Michael Cogswell,David Crandall,and Dhruv Batra.为什么M个头比一个头好:训练一个多样化的深度网络。CoRR,abs/1511.06314,2015。2[24] Peiang Li,Xiaozhi Chen,and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测在CVPR中,第7644-7652页1[25] Peixuan Li,Huaici Zhao,Pengfei Liu,and Feidao Cao.Rtm3d:从物体关键点进行实时单目3d检测,用于自动驾驶。参见ECCV,第644-660页,2020年。一、二、三、四、七[26] Tsung-Yi Lin , Priya Goyal , Ross Girshick , KaimingHe,and Piotr Dollar.用于密集目标检测的焦点损失。在ICCV,第2980-2988页,2017年。4[27] Lijie Liu,Jiwen Lu ,Chunjing Xu,Qi Tian ,and JieZhou.单目3d目标检测的深度拟合度评分网络在CVPR中,第1057-1066页,2019年。一、二、七[28] ZechenLiu,ZizhangWu,andRolandTo'th. Smok e:通过关键点估计的单阶段单眼3D对象检测在CVPRW,第996-997页,2020年。一、二、四、六、七[29] 伊利亚·洛希洛夫和弗兰克·赫特。解耦权重衰减正则化。2019年,在ICLR。6[30] Xinzhu Ma,Shinan Liu,Zhiyi Xia,Hongwen Zhang,Xingyu Zeng,and Wanli Ouyang.重新考虑伪激光雷达表示。在ECCV,第311-327页,2020年。二、七[31] Xinzhu Ma,Zhihui Wang,Haojie Li,Pengbo Zhang,Wanli Ouyang,and Xin Fan.用于自动驾驶的通过彩色嵌入式3d重建的精确单目3d物体检测。在ICCV,第6851-6860页,2019年。一、二、七3299[32] Fabian Manhardt , Wadim Kehl , and Adrien Gaidon.Roi-10 d:单目提升2d检测到6d姿态和度量形状。在CVPR中,第2069-2078页,2019年。23300[33] 丹尼尔·马图拉纳和塞巴斯蒂安·谢勒。Voxnet:用于实时对象识别的3D卷积神经网络在IROS中,第922-928页,2015年。1[34] Arsalan Mousavian,Dragomir
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功