没有合适的资源?快使用搜索试试~ 我知道了~
31420单目3D物体检测需要伪激光雷达吗?0Dennis Park * Rares, Ambrus, � Vitor Guizilini Jie Li Adrien Gaidon ToyotaResearch Institute0firstname.lastname@tri.global0摘要0最近在单幅图像中的3D物体检测方面取得的进展利用单目深度估计来生成3D点云,将摄像头转变为伪激光雷达传感器。这些两阶段的检测器随着中间深度估计网络的准确性而改进,该网络本身可以通过大规模自监督学习在没有手动标签的情况下进行改进。然而,它们往往比端到端方法更容易过拟合,更复杂,并且与类似的基于激光雷达的检测器之间的差距仍然显著。在这项工作中,我们提出了一种端到端的单阶段单目3D物体检测器DD3D,它可以像伪激光雷达方法一样受益于深度预训练,但没有它们的限制。我们的架构旨在实现深度估计和3D检测之间的有效信息传递,使我们能够根据未标记的预训练数据量进行扩展。我们的方法在两个具有挑战性的基准测试中取得了最先进的结果,在KITTI-3D基准测试中,汽车和行人的AP分别为16.34%和9.28%,在NuScenes上为41.5%的mAP。01. 引言0在许多应用中,包括机器人技术、自动驾驶和增强现实,检测和准确定位三维空间中的物体至关重要。因此,单目3D检测是一个活跃的研究领域[42, 57, 39,69],因为它可能具有广泛的影响,并且摄像头的普及性。利用深度估计的最新进展[11, 13, 15, 16,31],伪激光雷达检测器[69, 40,57]首先使用预训练的深度网络计算中间点云表示,然后将其输入到3D检测网络中。伪激光雷达方法的优势在于它们随着深度估计质量的提高而单调地改进,例如通过在原始数据上对深度网络进行大规模训练。0* 相等贡献 代码:https://github.com/TRI-ML/dd3d0图1:我们引入了一种单阶段的3D物体检测器DD3D,它结合了伪激光雷达方法(与深度预训练成比例)和端到端方法(简单性和泛化性能)。与需要额外深度微调步骤并且容易过拟合深度误差的伪激光雷达方法相比,我们的检测器采用了简单的深度预训练和检测微调的训练协议。0然而,从单幅图像中回归深度本质上是一个逆问题,因此深度估计的误差占据了伪激光雷达和基于激光雷达的检测器之间差距的主要部分,这个问题还因为不完全理解的泛化问题而加剧[56]。简单的端到端单目3D检测器[3,39]似乎是一个有希望的替代方案,尽管它们不具备无监督预训练的可扩展性优势,因为它们是单阶段的。在这项工作中,我们旨在兼顾两者的优势:伪激光雷达的原始数据可扩展性和端到端3D检测器的简单性和泛化性能。为此,我们的主要贡献是一种新颖的全卷积单阶段3D检测架构DD3D(用于密集深度预训练的3D检测器),它可以有效地利用单目深度估计进行预训练(见图1)。通过使用大量未标记的原始数据,我们展示了DD3D与伪激光雷达方法类似地扩展,并且深度预训练改进了与COCO[37]等大型标记2D检测数据集相同数量数据的预训练。31430我们的方法在KITTI-3D [14]和nuScenes[5]上的单目3D检测任务上取得了新的最佳结果,并与先前的最先进方法相比有了显著的改进。其训练过程的简单性和端到端的优化使得可以有效地利用大规模深度数据,从而实现了令人印象深刻的多类别检测准确性。02. 相关工作0单目3D检测。基于图像的3D检测的大量工作是基于2D检测器,并旨在通过使用来自物体形状和场景几何的各种线索将其提升到3D。这些先验通常通过将2D关键点与其投影的3D对应点对齐[6, 1, 2, 21, 50],或者通过学习低维形状表示[28,42]来注入。其他方法尝试利用2D和3D结构之间的几何一致性,将推断表述为约束优化问题[44, 38, 45, 12, 43, 24, 27,34]。这些方法通常使用额外的数据(例如3DCAD模型,实例分割)或假设对象的刚性。受基于激光雷达的方法[8, 68,30]的启发,另一类工作使用视图变换(即鸟瞰图)来克服透视范围视图的限制,例如遮挡或尺寸变化[25, 54,58]。这些方法通常需要精确的相机外参,或者仅在近距离内准确。端到端的3D检测器。或者,研究人员尝试直接从CNN特征回归3D边界框[57, 39, 73, 23, 3,9]。通常,这些方法通过添加预测各种3D长方体参数化的头部来扩展标准的2D检测器(单阶段[52,73]或两阶段[53])。深度感知卷积或密集3D锚点的使用[10,51]提高了准确性。将估计的3D框(或其深度)中的不确定性纳入考虑也被证明可以极大地提高检测准确性[57, 9,56]。在[57]中,作者提出了一种用于3D框回归的解缠结损失,有助于稳定训练。DD3D也属于端到端的3D检测器类别,但我们的重点是通过对原始数据进行大规模自监督预训练来学习良好的深度表示,从而实现稳健的3D检测。伪激光雷达方法。从[65]的开创性工作开始,这些方法利用单目深度估计的进展,在生成的伪点云上训练基于激光雷达的检测器,产生令人印象深刻的结果[67, 49, 66,41]。最近的方法通过使用稀疏激光雷达读数校正单目深度[69],用颜色装饰伪点云[41],使用2D检测来分割前景点云区域[47, 67,40],以及对单目点云进行结构化稀疏化[61]改进了[65]。最近,[56]在代表性的KITTI-3D[14]基准测试中显示了PL结果的偏差,而这种范式仍然是最先进的。多个研究人员表明,不准确的深度估计是PL方法中的主要误差来源[56,64]。在这项工作中,我们基于[47]和[40]构建了我们的参考PL方法,以研究使用大规模深度数据的好处,并将其与DD3D进行比较。单目深度估计。对于DD3D(作为预训练任务)和PL(作为两阶段流程的第一阶段)来说,估计每个像素的深度是一个关键任务。这本身就是一个蓬勃发展的研究领域:社区已经通过监督[35, 29, 19, 48, 26, 18, 32, 13, 31]以及自监督[46,72, 60, 16, 15,62]方法推动了准确的密集深度预测。我们注意到,本工作中使用的监督单目深度训练不需要人类的注释,使我们能够将我们的方法扩展到大量的原始数据。0最先进的研究人员表明,不准确的深度估计是PL方法中的主要误差来源[56,64]。在这项工作中,我们基于[47]和[40]构建了我们的参考PL方法,以研究使用大规模深度数据的好处,并将其与DD3D进行比较。单目深度估计。对于DD3D(作为预训练任务)和PL(作为两阶段流程的第一阶段)来说,估计每个像素的深度是一个关键任务。这本身就是一个蓬勃发展的研究领域:社区已经通过监督[35, 29, 19, 48, 26, 18, 32, 13,31]以及自监督[46, 72, 60, 16, 15,62]方法推动了准确的密集深度预测。我们注意到,本工作中使用的监督单目深度训练不需要人类的注释,使我们能够将我们的方法扩展到大量的原始数据。03. 3D检测的密集深度预训练0给定一张单独的图像及其相机内参矩阵作为输入,单目3D检测的目标是生成相对于相机坐标的一组多类别3D边界框。在推断过程中,DD3D不需要任何额外的数据,例如像素级深度估计、2D边界框、分割或3DCAD模型。DD3D还具有相机感知性:它根据相机内参缩放潜在的3D框的深度。03.1. 架构0DD3D是一个完全卷积的单阶段网络,扩展了FCOS [ 59]以执行3D检测和密集深度预测。架构(见图 2)由一个主干网络和三个子网络(或头部)组成,这些子网络在所有多尺度特征之间共享。主干以RGB图像作为输入,并在不同尺度上计算卷积特征。与[ 59]一样,我们采用特征金字塔网络(FPN)[ 36]作为主干。三个头网络应用于主干生成的每个特征图,并执行独立的预测任务。分类模块预测物体类别。它产生 C个实值,其中 C是物体类别的数量。2D框模块通过预测从特征位置到每个边界框的边的 4个偏移量和与中心相关的标量来产生类别不可知的边界框和中心性。有关2D检测架构的更多详细信息,请参阅[ 59]。3D检测头。该头部预测3D边界框和每像素深度。它以FPN特征作为输入,并应用四个 3 × 3的二维卷积核,为每个特征位置生成 12个实值。这些被解码为3D边界框、每像素深度图和3D预测置信度,如下所述:0• q = ( q w , q x , q y , q z ) 是allocentric orientation [42, 57, 39] of the 3D boundingbox. It is normalized and transformed to an egocentricorientation [42]. Note that we predict orientations withthe full 3 degrees of freedom.d = cp · (σl · z + µl),(1)p =�1f 2x+ 1f 2y,(2)K =�rxry1���fx0px0fypy001�� ,(3)31440图2:DD3D是一个完全卷积的单阶段架构,用于进行单目3D检测和密集深度预测。为了最大限度地重用预训练特征,密集深度和3D边界框的推理共享大部分参数。这些头部在所有FPN层之间共享。0• z { c,p } 表示深度预测。 z c 解码为3D边界框中心的 z 分量,因此仅与前景特征相关联,而 z p解码为到最近表面的单目深度,并与每个像素相关联。为了将它们解码为度量深度,我们使用每个级别的参数进行非归一化处理,如下所示:0其中 z ∈ { z c , z p } 是网络输出, d ∈ { d c , d p} 是预测的深度, ( σ l , µ l )是为每个FPN层定义的可学习的缩放因子和偏移量,p 是从焦距 f x 和 f y 计算得到的像素大小, c是一个常数。0我们注意到,使用相机焦距的设计赋予了DD3D相机感知能力,使我们不仅可以从输入图像中推断深度,还可以从像素大小中推断深度。我们发现这对于稳定的训练特别有用。具体来说,在训练过程中,当输入图像被调整大小时,我们保持地面真实3D边界框不变,但修改相机分辨率如下:0其中 r x 和 r y 是调整比例, K 是在公式 2 和 4中使用的新的相机内部矩阵。最后,{ z p }代表从每个FPN特征计算得到的低分辨率密集深度图的集合。为了恢复密集深度图的完整分辨率,我们应用双线性插值来匹配输入图像的大小。0• o = (∆ u , ∆ v )表示从特征位置到投影到相机平面上的3D边界框中心的偏移量。这通过反投影解码为3D中心:0C = K-10� u b + α l u v b + α l∆ v 10�0� d c,(4)0其中(u b,v b)是图像空间中的特征位置,αl是分配给每个FPN级别的可学习缩放因子。0• δ =(δ W,δ H,δH)表示3D边界框与类特定规范大小之间的偏差,即s=(W 0 e δ W,H 0 e δ H,D 0 e δD)。如[55]中所述,(W 0,H 0,D0)是每个类别的规范框大小,并且根据训练数据预先计算为其平均大小。0• β3D表示3D边界框预测的置信度[57]。它被转换为概率:p 3D =(1 + e^(-β 3D)) -1,并且与从分类头[59]计算的类别概率相乘,以考虑相对于2D置信度的相对置信度。调整后的概率用作候选框的最终得分。03.2.损失0我们采用了来自FCOS[59]的分类损失和2D边界框回归损失:0L 2D = L reg + L cls + L ctr,(5)0其中2D框回归损失L reg是IOU损失[70],分类损失Lcls是二元焦点损失(即一对多),中心性损失Lctr是二元交叉熵损失。对于3D边界框回归,我们使用[57]中描述的分离的L1损失,即0L 3D(B *,ˆB)= 108 || B * - ˆ B || 1,(6)p∗3D = e−31450其中B *和ˆB是真实和候选3D框的8个顶点。我们通过仅使用预测的3D框组件(方向、投影中心、深度和大小)之一,同时用其真实值替换其他三个来复制此损失4次。此外,与[57]一样,我们采用了用于3D置信度的自监督损失,该损失使用3D框预测中的误差计算3D置信度的替代目标(相对于2D置信度):0T L 3D(B *,ˆ B),(7)0其中T是温度参数。置信度损失L conf是p 3D和p *3D之间的二元交叉熵。总之,DD3D的总损失定义如下:0L DD = L 2D + L 3D + L conf,(8)03.3.深度预训练0在预训练期间,我们使用所有FPN级别的像素级深度预测,即{ z p}。我们考虑具有从稀疏激光雷达点云投影到相机平面上的有效地面实际深度的像素,并从预测值计算L1距离:0L l深度 = || D * - ˆ D l || 1 ⊙ M,(9)0L深度 =0l L l深度,(10)0其中D *是真实深度图,ˆ D l是FPN中第l级(即插值z p)的预测深度图,M是有效像素的二进制指示器。我们观察到,在目标域中使用所有FPN级别而不仅仅使用最高分辨率特征可以实现稳定的训练,特别是在从头开始训练时。我们还观察到,与在单目深度估计文献中流行的SILog损失[11,31]相比,L1损失在大批量和高分辨率输入下实现了稳定的训练。我们注意到,DD3D中从输入图像到3D边界框和密集深度预测的两个路径仅在最后的3×3卷积层中有所不同,因此几乎共享所有参数。这允许从预训练表示有效地转移到目标任务。在预训练期间,DD3D的相机感知性使我们能够使用与目标域的相机内参显著不同的相机内参,同时仍然享受有效的迁移。具体而言,从公式1和2可知,由于两个域之间分辨率的差异导致的深度预测误差z通过像素大小p的差异进行校正。04. 伪激光雷达3D检测0利用大量的图像-激光雷达帧的另一种方法是采用伪激光雷达(PL)范式,并旨在0为了改善深度网络组件,我们使用大规模数据。PL是一个两阶段的方法:首先,给定一张图像,它应用单目深度网络来预测每个像素的深度。密集的深度图被转换成3D点云,然后使用基于激光雷达的3D检测器来预测3D边界框。PL方法的模块化使我们能够量化大规模图像-激光雷达数据集带来的改进深度预测器的作用(有关详细信息,请参见补充材料)。单目深度估计。单目深度估计的目标是计算每个像素p ∈I的深度ˆD =fD(I(p))。与公式9类似,给定从激光雷达点云获取的地面真实深度测量D�,我们通过预测深度和地面真实深度之间的误差定义损失。在这里,我们使用SILog损失[11,31],它比L1更好地适用于PackNet。网络架构。作为深度网络,我们使用PackNet[17],这是一种先进的单目深度预测架构,它使用带有3D卷积的打包和解包块。通过避免特征子采样,PackNet以高精度恢复深度图中的细微结构;此外,PackNet已经证明具有更好的泛化能力,这要归功于其增加的容量[17]。3D检测。为了从输入图像和估计的深度图中预测3D边界框,我们遵循[47,40]提出的方法。我们首先将估计的深度图转换为3D点云,类似于公式4,然后将每个3D点与相应的像素值连接起来。这样就得到了一个包含颜色和3D坐标的6D张量。我们使用现成的2D检测器在输入图像中识别提议区域,并对6通道图像的每个RoI区域应用3D检测网络来生成3D边界框。主干网络、检测头和3D置信度。我们遵循[40],使用ResNet-18[20]主干网络处理每个RoI,该主干网络使用Squeeze-and-Excitation层[22]。由于RoI包含对象和背景像素,所以通过基于相关RoI深度图[41]计算的前景掩码对结果特征进行过滤。检测头遵循[40],在3个距离范围内操作,为每个范围生成一个边界框。然后根据输入RoI的平均深度选择最终输出。根据[57,56]的方法,我们修改了检测头,使其还输出每个检测的3D置信度值γ,该值与3D检测损失相关联。损失函数。3D回归损失[47]定义如下:0LPL3D = Lcenter + Lsize + Lheading + Lcorners. (11)0此外,我们定义了一个损失函数,将预测的3D置信度γ与3D边界框坐标损失[57]使用二进制交叉熵(BCE)公式与目标ˆγ = e−Lcorners相连。最终的PL 3D检测损失为:LPL =LPL3D + LPLconf。314605. 实验设置05.1. 数据集0KITTI-3D。KITTI-3D检测基准[14]包含城市驾驶场景和8个物体类别。该基准使用两个平均精度(AP)指标评估三个类别(汽车、行人和骑车者)的3D检测准确性,这些指标是根据3D边界框或鸟瞰图(2D)边界框的交并比(IoU)和类别特定阈值计算的。我们将这些指标称为3D AP和BEVAP。我们使用修订后的AP | R40指标[55]。训练集包含7481张图像,测试集包含7518张图像。测试集中的对象根据难度级别(简单、中等、困难)分为三个分区,并进行单独评估。在第6.2节的分析中,我们遵循常见的做法,将训练集分为3712张和3769张图像[7],并在后者上报告验证结果。我们将这些拆分称为KITTI-3D训练集和KITTI-3D验证集。0nuScenes. nuScenes3D检测基准[5]包含1000个多模态视频,其中有6个摄像头覆盖了完整的360度视野。这些视频分为700个用于训练,150个用于验证和150个用于测试。该基准要求报告10个物体类别的3D边界框,这些边界框是在2Hz采样的视频帧上计算的。评估指标nuScenes检测分数(NDS)通过将在中心距离上计算的检测准确度(mAP)与五个真正正指标相结合来计算。我们报告NDS和mAP,以及涉及3D检测的三个真正正指标,即ATE,ASE和AOE。0KITTI-Depth.我们使用KITTI-Depth数据集[14]来微调我们的PL模型的深度网络。它包含与KITTI原始数据集中的图像相关联的超过93000个深度图。标准的单目深度协议[71, 15,16]是使用Eigen分割[11]。然而,正如[56]中所述,其训练图像中有多达三分之一与KITTI-3D图像重叠,导致PL模型的结果存在偏差。为了避免这种偏差,我们通过删除与任何KITTI-3D图像地理接近(即在50米内)的训练图像来生成一个新的分割。我们将此分割称为Eigen-clean,并使用它来微调我们的PL模型的深度网络。0DDAD15M.为了预训练DD3D和我们的PL模型,我们使用了一个内部数据集,该数据集包含25000个城市驾驶场景的多摄像头视频。DDAD15M是DDAD[16]的一个更大版本:它包含高分辨率的激光雷达传感器以生成点云和与10Hz扫描同步的6个摄像头。大多数视频长度为10秒,总共约有1500万帧图像。除非另有说明,我们使用整个数据集进行预训练。05.2. 实现细节0DD3D. 我们使用V2-99[33]将其扩展为FPN作为骨干网络。在预训练DD3D时,我们首先使用在COCO数据集[37]上预训练的参数初始化骨干网络,然后使用DDAD15M数据集进行密集深度预测的预训练。我们使用测试时的数据增强,通过调整大小和翻转输入图像。我们观察到在KITTI验证集上的“Car”BEVAP上获得了2.3%的提升,但在nuScenes验证集上没有改进。第6.2节中DD3D的所有指标都是在4次训练运行的平均值上计算的。我们观察到运行的方差很小,即0.5�1.2%的BEVAP。PL. 在训练PackNet[16]时,我们只使用DDAD15M的前置摄像头图像对PackNet进行预训练,并进行直到收敛。然后我们在KITTIEigen-clean分割上对网络进行微调,进行5个epochs。有关DD3D和PL的训练详细信息,请参阅补充材料。06. 结果06.1. 基准评估0在本节中,我们在KITTI-3D和nuScenes基准上评估了DD3D。DD3D在DDAD15M上进行了预训练,然后在每个数据集的训练集上进行了微调。我们还在KITTI-3D上评估了PL。它的深度网络在DDAD15M上进行了预训练,并在KITTIEigen-clean上进行了微调,其检测网络在KITTI-3Dtrain上进行了训练。KITTI-3D.在表1中,我们将DD3D的准确性与KITTI-3D基准上的最先进方法进行了比较。DD3D在Moderate Cars上的3DAP达到了16.34%,这是比之前最好的方法(13.25%)提高了23%。图3展示了定性可视化结果。在表4中,我们还评估了DD3D在Pedestrian和Cyclist类别上的性能。DD3D在Pedestrian类别上优于所有其他方法,与之前最好的方法相比,提高了80.5%(9.30% vs 5.14%的3DAP)。在Cyclist上,DD3D取得了第二好的结果,缩小了与[27]之间的差距,后者使用地面真值点云训练了一个逐实例点云重建模块和一个两阶段回归网络来改进3D对象提议。接下来我们在表1中报告了我们的PL检测器的准确性。我们的PL检测器的准确性与最先进的方法相当,但明显低于DD3D(13.05% vs.16.34%)。我们将在第6.2节中讨论这个结果与PL方法的泛化能力的关系。nuScenes.在表2中,我们将DD3D与其他在nuScenes检测基准上报告的单目方法进行了比较。mark. The metrics are averages over all 10 categories ofthe dataset.DD3D outperforms all other methods witha 17% improvement in mAP compared to the previouslybest published method [63] (41.8% vs. 35.8% mAP) aswell as a 13% improvement compared to the best (unpub-lished) method. We note that DD3D even surpasses Point-Pillars [30], which is a Lidar based detector.In Table 5 we compare per-class accuracy of DD3D withother methods on the three major categories, with variousthresholds on distance. In general, DD3D offers significantimprovements across all categories and thresholds. In par-ticular, DD3D performs significantly better on the strictercriteria: comparing to the previous best method [63], the31470汽车0BEV AP 3D AP 方法 简单 中等 困难 简单 中等 困难0ROI-10D [42] 9.78 4.91 3.74 4.32 2.02 1.460GS3D [34] 8.41 6.08 4.94 4.47 2.90 2.470MonoGRNet [50] 18.19 11.17 8.73 9.61 5.74 4.250MonoPSR [27] 18.33 12.58 9.91 10.76 7.25 5.850MonoPL [67] - - - 10.76 7.50 6.100SS3D [23] 16.33 11.52 9.93 10.78 7.68 6.510MonoDIS(单一)[57] 17.23 13.19 11.12 10.37 7.94 6.400M3D-RPN [3] 21.02 13.67 10.23 14.76 9.71 7.420SMOKE [39] 20.83 14.49 12.75 14.03 9.76 7.840MonoPair [9] 19.28 14.83 12.89 13.04 9.99 8.650AM3D [41] 25.03 17.32 14.91 16.50 10.74 9.520PatchNet [40] 22.97 16.86 14.97 15.68 11.12 10.170Re�nedMPL [61] 28.08 17.60 13.95 18.09 11.14 8.960D4LCN [10] 22.51 16.02 12.55 16.65 11.72 9.510Kinematic3D [4] 26.99 17.52 13.10 19.07 12.72 9.170MonoDIS(多目标)[55] 24.45 19.25 16.87 16.54 12.97 11.040Demystifying [56] - - - 23.66 13.25 11.230PL 28.87 18.57 15.74 20.78 13.05 10.660DD3D 30.98 22.56 20.03 23.22 16.34 14.200表1:在Car上对KITTI-3D测试集进行评估。我们报告AP | R40指标。粗体和下划线分别表示最佳和次佳结果。0指标 AP[%] ↑ ATE[m] ↓ ASE[1-IoU] ↓ AOE[rad] ↓ NDS ↑0CenterNet � 33.8 0.66 0.26 0.63 0.400AIML-ADL � 35.2 0.70 0.26 0.39 0.430DHNet � 36.3 0.67 0.26 0.40 0.440PGDepth � 37.0 0.66 0.25 0.49 0.430P.Pillars [30] 31.0 0.52 0.29 0.50 0.450MonoDIS [55] 30.4 0.74 0.26 0.55 0.380FCOS3D [63] 35.8 0.69 0.25 0.45 0.430DD3D 41.8 0.57 0.25 0.37 0.480表2:对nuScenes检测测试集进行评估。我们提供了基准测试的摘要指标。*表示在撰写时没有相关出版物的基准测试结果。下划线表示次佳的已发表方法。请注意,PointPillars[30]是一种基于激光雷达的检测器。0BEV AP 方法 简单 中等 困难0MonoDIS(单一)[57] 18.5 12.6 10.70M3D-RPN [3] 20.9 15.6 11.90Kinematic3D [4] 27.8 19.7 15.10DD3D带有DLA-34骨干0DD3D(带有DLA-34)33.5 26.0 22.6 - DDAD15M26.8 20.2 16.7 - COCO 31.7 24.0 20.30DD3D带有V2-99骨干0DD3D(带有V2-99)37.0 29.4 25.4 - DDAD15M25.5 18.7 15.50伪激光雷达0PL(DDAD15M → KITTI)43.5 30.1 25.4 - KITTI 25.819.1 16.4 - DDAD15M 27.6 19.2 16.40表3:对KITTI-3D验证集上的DD3D和PL进行剖析分析。作为预训练方法,KITTI表示使用KITTI-Depth数据集的Eigen-clean分割进行密集深度预测,DDAD15M表示使用DDAD15M数据集进行密集深度预测,COCO表示在2D检测上进行初始预训练阶段。右箭头(→)表示顺序预训练阶段。我们报告Car上的BEV AP | R40指标。该分析在第6.2节中介绍。0相对改进平均值为103.7%和35.5%,分别对应0.5m和1.0m阈值。06.2. 分析0在这里,我们对DD3D进行了详细分析,重点关注深度预训练的作用,并与我们的PL方法进行比较。在各种设置下,我们对两个模型进行预训练,然后在KITTI-3D训练集上进行微调,并报告在KITTI-3D验证集上的AP指标。06.2.1 深度预训练是否有效?0消除大规模深度预训练。我们首先消除了在DDAD15M数据集上密集深度预训练的影响,结果报告在表3中。当我们省略深度预训练并直接在检测任务上使用DLA-34骨干网络对DD3D进行微调时,我们观察到Car Moderate BEVAP损失了5.3%。相比之下,当我们删除初始的COCO预训练(即从头开始在DDAD15M上进行预训练),我们观察到相对较小的损失,即2.0%。对于更大的V2-99骨干网络,消除深度预训练的影响更为显著,即-10.7%。深度预测作为预训练任务。为了更好地量化深度预训练的效果,我们设计了一个PedestrianCyclistBEV AP3D APBEV AP3D APMethodsEasyMedHardEasyMedHardEasyMedHardEasyMedHardDD3D15.9010.858.0513.919.308.053.201.991.792.391.521.31Car [%] ↑Pedestrian [%] ↑Bicycle [%] ↑Methods0.5m1.0m2.0m4.0m0.5m1.0m2.0m4.0m0.5m1.0m2.0m4.0mCenterNet∗20.045.868.080.67.926.749.665.94.313.828.436.2AIML-ADL∗14.236.858.571.09.630.854.669.45.221.637.346.2DHNet∗15.237.959.471.510.531.755.769.95.624.238.948.0PGDepth17.043.667.280.39.131.053.969.17.624.140.149.2DD3D30.259.777.484.118.742.461.970.215.732.645.250.0COCO20.27.83.813.96.03.1+ nusc-det20.57.93.814.06.03.0+ nusc-depth21.88.53.815.26.63.331480OFTNet [54] 1.28 0.81 0.51 0.63 0.36 0.35 0.36 0.16 0.15 0.36 0.16 0.150SSD3D [23] 2.48 2.09 1.61 2.31 1.78 1.48 3.45 1.89 1.440M3D-RPN [3] 5.65 4.05 3.29 4.92 3.48 2.94 1.25 0.81 0.78 0.94 0.65 0.470MonoPSR [27] 7.24 4.56 4.11 6.12 4.00 3.30 9.87 5.78 4.57 8.37 4.74 3.680MonoDis(多个)[55] 9.07 5.81 5.09 7.79 5.14 4.42 1.47 0.85 0.61 1.17 0.54 0.480表4:KITTI-3D测试集上的Pedestrian和Cyclist结果。0MonoDis(单一)[57] 10.7 37.5 69.0 85.7 - - - - - - - -0MonoDis(多个)[55] 10.6 36.1 65.0 80.5 6.7 30.0 48.5 64.7 4.4 17.5 32.8 43.90FCOS3D [63] 15.3 43.8 68.9 81.7 8.7 30.3 52.9 67.1 7.9 25.0 39.2 47.10表5:nuScenes测试集上的详细结果。我们报告了在Car、Pedestrian和Bicycle上的AP指标,并在距离上使用不同的阈值。下划线表示第二好的已发布方法。0BEV AP 3D AP 预训练任务 Car Ped. Cyclist Car Ped. Cyclist0表6:深度与2D检测作为预训练任务。从一个共同的初始模型(COCO)开始,我们使用相同的图像集对DD3D进行两个不同的任务的预训练。nusc-det表示2D检测任务,nusc-depth表示密集预测任务,两者都使用nuScenes图像。我们报告在KITTI-3D验证集上的准确性。0通过控制实验进一步分离其效果(表6)。从一组初始参数(COCO)开始,我们考虑了两个预训练任务,2D检测和密集深度预测。两个预训练阶段使用一组共同的图像,这些图像用2D边界框标签和通过投影激光雷达点云获得的稀疏深度图进行注释。为了进一步确保比较公平,我们应用了相同数量的训练步骤和批量大小(15K和512)。用于此预训练实验的数据由nuScenes[5]训练集中的136571个图像组成。实验表明,即使与DDAD15M相比,预训练数据规模较小(137K vs.15M),密集深度预训练也产生了明显的差异-0深度预训练的规模如何?接下来我们研究无监督深度预训练在不同预训练数据规模下的表现(图4)。为了进行这个实验,我们从DDAD15M中随机抽取了1K、5K和10K个视频,生成了4个预训练数据集(包括完整数据集),分别包含0.6M、3M、6M和15M张图像。需要注意的是,抽样后的数据集包含的图像数量较少,也缺乏多样性,因为我们是从视频集合中进行抽样。我们在每个数据集上都对DD3D和PL的PackNet进行预训练,并在KITTI-3D训练集上训练检测器。我们注意到,在每个检查点上,DD3D和PL的表现都相似,并且随着预训练使用的深度数据增加,性能不断提升,至少在使用了1500万张图像的情况下如此。06.2.2 PL方法的局限性。0PL的域内深度微调。回顾一下,训练我们的PL3D检测器包括在目标域(即Eigen-clean)上对深度网络进行微调,而该网络是在DDAD15M上进行预训练的。我们在训练PL检测器时剔除了域内微调步骤的影响(表3)。需要注意的是,在这个实验中,深度网络(PackNet)仅在预训练域(DDAD15M)上进行训练,并直接应用于KITTI-3D,没有进行任何适应。在这种设置下,我们观察到性能显著下降(从30.1%降至19.1% BEV AP)。0.0515.020222426283031490图3:DD3D检测结果的定性可视化。前两行来自KITTI-3D数据集,最后一行来自nuScenes数据集。这些图像在训练过程中没有出现过。0这表明域内微调对于PL风格的3D检测器至关重要。这给使用PL方法带来了实际上的障碍,因为必须为深度网络的微调筹备一个单独的域内数据集。我们认为这是PL方法仅在伴随有KITTI-Depth作为方便的域内微调源的KITTI-3D上报告的主要原因。而对于端到端的检测器来说,这是不必要的,如表1和表3所示。PL的有限泛化能力。通过大规模深度预训练和域内微调,我们的PL检测器在KITTI-3D验证集上表现出色(表3)。然而,深度预训练的收益并没有转移到基准结果上(表1)。虽然KITTI-3D验证集和测试集之间的准确性损失与其他方法一致[57, 4,3],但PL的损失更大(从30.1%降至18.6% BEVAP),相比其他方法,包括DD3D(从29.4%降至22.56%)。这揭示了PL泛化能力中一个尚未完全理解的微妙问题。我们认为域内微调过度拟合了某些图像统计特征,导致了KITTI-3D验证集和测试集之间的性能差距,尤其是相比其他方法更大。07. 结论0我们提出了DD3D,一种端到端的单阶段3D目标检测器,它享受了PseudoLidar方法的好处,即使用大规模深度数据进行预训练,然后端到端地在目标任务上进行微调。DD3D在两个具有挑战性的3D检测基准上取得了出色的准确性。0预训练图像数量(百万)0CarMod.BEVAP(%)0无深度预训练0DDAD15M0方法0PLDD3D0图4:DD3D和PL使用不同
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功