MonoJSG：单目三维物体检测的联合语义和几何代价体积

99 浏览量更新于2023-10-25 收藏 16.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10700MonoJSG：联合语义和几何代价体积用于单目三维物体检测0Qing Lian 1，Peiliang Li 2，Xiaozhi Chen 201 香港科技大学，2 大疆0qlianab@connect.ust.hk，peiliang.uav@gmail.com，cxz.thu@gmail.com0摘要0由于2D-3D投影的固有不适定性，单目三维物体检测缺乏准确的深度恢复能力。尽管深度神经网络（DNN）能够从高级学习特征中进行单目深度感知，但由于深度卷积机制，像素级线索通常被忽略。为了从DNN的强大特征表示和像素级几何约束中受益，我们将单目物体深度估计重新定义为渐进细化问题，并提出了一种联合语义和几何代价体积来建模深度误差。具体而言，我们首先利用神经网络学习物体的位置、尺寸和密集归一化的3D物体坐标。基于物体深度，将密集坐标补丁与相应的物体特征重新投影到图像空间中，以联合语义和几何误差的方式构建代价体积。最终的深度是通过将代价体积输入到细化网络中获得的，其中通过直接深度监督来规范语义和几何误差的分布。通过有效地通过细化框架减轻深度误差，我们在KITTI和Waymo数据集上取得了最先进的结果。01. 引言0作为3D感知的基本组成部分，3D物体检测在自动驾驶、机器人导航等领域引起了越来越多的关注。最近，基于激光雷达或立体感知解决方案，它在物体检测方面取得了显著的进展。然而，激光雷达传感器的高成本和立体相机的复杂在线校准限制了它们在下游任务中的大规模应用。因此，研究人员开始关注一种更便宜的替代方案，即基于单目的感知解决方案。然而，由于不适定的2D-3D投影，单目三维物体检测的定位精度远远落后于激光雷达和立体感知的01 代码可在https://github.com/lianqing11/MonoJSG找到0图1.从上到下：在图像空间中估计的角点的可视化，可用于约束初始3D边界框；使用初始边界框将物体补丁重新投影到原始图像中；BEV空间中的初始（绿色）和我们的Mono-JSG细化（蓝色）边界框分别。与角点相比，光度不匹配为识别定位误差提供了有区别的特征。0通过强大的神经网络驱动，提出了多种方法[1, 16, 24, 35, 38,39]来缓解从不同角度恢复单目深度的挑战。从数据形成的角度来看，基于伪激光雷达的方法[22, 23, 35,37]将输入图像转换为伪点云，并直接在其上采用激光雷达检测器。尽管它们在传统方法[6,26]上取得了更好的性能，但对深度预测网络的严重依赖导致了高延迟和过拟合[29]。从几何推理的角度来看，基于几何约束的方法[16,38]利用神经网络预测2D线索，然后根据2D-3D投影约束解决物体深度。特别地，2D-3D约束是从物体边缘[20, 26, 28, 38]、稀疏关键点[16, 17,19]、稠密关键点[4]等构建的。尽管通过2D-3D约束推理深度是可解释的和易于追踪的，但间接的2D线索预测和直接的深度预测之间的优化差距限制了最终的深度求解精度，即整个训练数据上的最小2D损失并不一定意味着最佳的深度估计性能。如图1所示，尽管在图像中估计的边界框的边缘和角点看起来几乎准确，但从鸟瞰图中可以观察到一个非常明显的定位误差。这种定位误差与回归的2D线索无关。然而，如果我们使用不准确的位置将物体重新投影到原始图像中，可以在图1中观察到明显的光度不匹配，这启发了我们的联合语义和几何深度细化方法。10710基于几何约束的方法[16,38]利用神经网络预测变体的2D线索，然后根据2D-3D投影约束解决物体深度。特别地，2D-3D约束是从物体边缘[20,26, 28, 38]、稀疏关键点[16, 17,19]、稠密关键点[4]等构建的。尽管通过2D-3D约束推理深度是可解释的和易于追踪的，但间接的2D线索预测和直接的深度预测之间的优化差距限制了最终的深度求解精度，即整个训练数据上的最小2D损失并不一定意味着最佳的深度估计性能。如图1所示，尽管在图像中估计的边界框的边缘和角点看起来几乎准确，但从鸟瞰图中可以观察到一个非常明显的定位误差。这种定位误差与回归的2D线索无关。然而，如果我们使用不准确的位置将物体重新投影到原始图像中，可以在图1中观察到明显的光度不匹配，这启发了我们的联合语义和几何深度细化方法。0在这项工作中，我们提出了一种称为联合语义和几何代价体（MonoJSG）的方法，它利用像素级视觉线索来细化边界框提议。我们首先通过额外估计归一化物体坐标中每个像素的位置，丰富了传统的二维-三维约束[16,19]。基于估计的物体深度，将归一化的物体坐标投影到图像空间中，为每个边界框建立像素级约束。像素级约束度量了每个像素的二维位置与归一化物体坐标的投影位置之间的几何误差。我们进一步通过语义误差丰富约束，该误差度量了原始二维位置查询的特征与投影位置之间的距离。如图1所示，虽然深度误差可以通过像素级原始光度误差明显显示出来，但我们发现将这种策略简单地扩展到所有实例并不能始终细化准确的深度，因为存在变化的无纹理和不规则区域（例如挡风玻璃或后窗等）。相比于原始图像强度，我们利用神经网络学习语义特征作为更稳健和判别性的表示。基于设计的联合几何和语义误差方式，我们构建了一个四维代价体，以绘制提议深度周围的误差分布进行细化。为了使代价体适应不同的深度误差，其大小根据预测的深度不确定性为每个提议进行自定义。然后设计了一个细化网络，将自适应代价体作为输入并输出最终的深度。0我们的方法从两个角度带来了好处。从显式约束的角度来看，利用的语义特征提供了比纯稀疏关键点更密集的定位误差测量线索。从以下角度来看：0通过数据驱动，我们迫使网络学习适用于细化的判别特征。凭借上述优势，所提出的框架在KITTI和Waymo数据集上取得了卓越的性能，达到了新的最先进水平。我们总结主要贡献如下：0•基于像素级几何和语义视觉线索，我们提出了一种新颖的联合语义和几何误差测量方法来估计物体深度。0• 我们设计了一个自适应的四维代价体来模拟深度细化的误差分布。0•我们在KITTI和Waymo数据集上展示了所提出方法的有效性，实现了具有实时性能的最先进结果。02. 相关工作02.1. 基于图像的单目检测0单目三维物体检测的目标是从单张图像中识别感兴趣的物体并定位它们的三维边界框。为了减轻二维-三维投影问题的歧义，现有方法要么利用神经网络提取高级语义表示，要么设计二维-三维几何约束，要么结合外部深度信息进行深度推理。基于语义表示的一些代表性方法[1, 6, 7, 25, 30,39]训练神经网络学习语义表示，然后根据学习到的表示直接回归三维边界框。后续的工作从网络架构[1, 21,27]、目标函数[20, 30]等角度进行了探索。CenterNet[39]提出了一种基于中心性的目标检测范式，并通过添加几个三维任务头将二维检测器提升到三维空间。M3D-RPN提出了一个将二维锚点与三维统计数据对齐的三维锚点。Shi等人[28]和Lu等人[20]利用几何先验将位置估计分解为二维和三维高度估计。MonoFlex[38]提出了一个解耦网络来处理具有不同截断程度的边界框。然而，正如[24,38]中所讨论的，学习到的语义表示是不可解释的，并且容易在训练数据中过度拟合一些虚假特征。基于几何约束的这一类方法[4, 8, 14, 16, 17, 19,26]通过二维-三维几何约束来推理三维位置。Mousavian等人[26]首次尝试通过解决二维边界框边缘和三维尺寸之间的约束来恢复三维位置。Li等人[16,17]和Liu等人[19]提出了一种基于关键点的方法，进一步限制了[26]中几何约束的搜索空间。MonoRun[4]提出了一种自监督算法。√2σz∥ˆz − z∗∥ + log σz,(3)10720通过采用修改后的PnP求解器学习像素级约束并通过采用修改后的PnP求解器恢复3D位置。然而，关键点定位精度与深度误差之间的连接是间接的，最佳关键点定位模型不能保证最小深度误差。这种间接连接在这一方法中引入了多个失败案例，即远处的物体具有较小的定位误差但具有较大的深度估计偏差。此外，几何约束方法中的语义信息未充分利用，这可以为深度推理提供强大的视觉线索。深度辅助单目检测与直接使用图像作为神经网络的输入不同，深度辅助方法将RGB图像转换为密集的深度图，然后利用它来辅助恢复3D信息。基于伪激光雷达的方法[22，23，34，35，37]将深度图转换为伪点云，并采用基于点云的检测器定位3D边界框。其他方法[9，20，33]则利用深度图指导2D卷积的学习。尽管深度辅助方法取得了更好的性能，但它们需要训练额外的深度估计网络，通常需要更多的训练数据，并且在推理中效率低下。02.2. 用于3D表示的代价体积0在立体匹配[3，11，31]，多视图立体[5，36]等领域，代价体积是一种广泛采用的计算匹配代价的技术。立体匹配方法[3，11，31]利用连体网络从左右摄像机提取特征，然后应用基于相关性或连接的代价体积计算匹配代价。在多视图立体中，MVS-Net[36]通过在相机视锥体空间中构建平面扫描体来生成深度图。然而，在单目3D物体检测中，代价体积的应用还没有得到充分利用。据我们所知，我们提出了第一个用于物体深度的2D-3D代价体积，用于计算匹配代价。03. 背景03.1. 问题定义0在单目3D物体检测中，检测器需要估计物体的尺寸（w，h，l），物体中心的位置 P o = [x o，y o，z o]T以及相应的偏航角ρ。估计的信息还可以表示为一个刚性变换矩阵[R o → c，Po]，该矩阵将标准化物体坐标中的点转换为相机坐标。转换矩阵 R o → c 定义为0如下:0R o → c =0w 2 ∙ cos(ρ) 0 w 2 ∙ sin(ρ) 0 h 2 0 − l02 ∙ sin(ρ) 0 l 2 ∙ cos(ρ)0� . (1)0将标准化物体坐标 o P i 转换为相机坐标 P i的刚性变换公式如下:0P i = R o → c o P i + P o . (2)0为了基于2D图像恢复3D信息，大多数基于单目的检测器[1，39]首先回归出图像坐标中 P o 的投影位置 p 0 = [u o，vo，1] T，然后通过估计相应的深度 z o来恢复3D位置。如图2所示，我们的检测器首先基于CenterNet[39]生成候选提议，该网络输出物体分类、2D边界框、3D中心的2D投影位置、物体尺寸和偏航角。对于深度估计，我们遵循MonoDLE[24]，在训练和推理阶段进一步估计Laplacian分布的标准差。损失函数的公式如下:0L深度 =0其中，σ z表示深度的估计标准差，ˆz和z�分别表示估计的深度和真实深度。03.2. 基于2D-3D坐标的几何约束0在本节中，我们介绍了构建像素级2D-3D匹配及其相应几何约束的方法。学习归一化物体坐标与相机坐标相比，归一化物体坐标由于在不同位置和视角下具有尺度不变性的特性，是一个更容易学习的目标[4,15]。因此，我们将相机坐标中每个像素i的位置Pi转换为归一化物体坐标oPi。然后，在CenterNet中添加一个分支来估计归一化物体坐标中每个像素的位置。对于具有匹配的激光雷达点的像素，我们利用激光雷达点生成归一化物体坐标的真实值，并直接最小化估计值与生成的真实值之间的ℓ1损失。对于没有匹配的激光雷达点的像素，我们采用无监督损失[4]将估计的oˆPi转换为图像坐标ˆpi，并最小化其与真实值pi之间的ℓ1距离。通过求解2D-3D约束获得深度通过估计归一化物体坐标中每个像素的位置，R-CNNHWD2C + 4∥pi − ˆpi∥,(5)op =�1W0− uoW01H− vo�pT ,(6)10730源特征0源坐标0投影特征投影坐标0类别0提案0阶段0语义约束0几何约束0自适应代价体积0估计结果0输入02D边界框02D中心0尺寸0方向0深度0候选深度细化0阶段0物体坐标0图2.我们框架流程的可视化。在提案阶段，我们利用修改后的CenterNet生成3D边界框提案并估计归一化物体坐标。然后，我们根据语义特征使用相应的源坐标和目标坐标构建自适应代价体积。最终的边界框是通过使用代价体积来细化边界框提案得到的。为了可视化，我们利用原始图像表示学习到的语义特征。自适应代价体积中的附加图像表示了联合语义和几何能量函数的误差。从紫色到黄色的颜色对应于从0到1的误差值。0建立像素级能量函数来表示边界框的深度误差。具体而言，我们首先根据边界框提案将估计的归一化物体坐标投影到图像坐标上：0ˆpi = π(K, ˆRo→coˆPi + ˆPo), (4)0其中，π表示从相机坐标到图像坐标的坐标转换，K是相机内参矩阵。然后建立源位置和图像坐标中每个像素的投影位置之间的能量函数：0E = 10n个0其中，n表示边界框中选定的像素数。传统方法[4,15,16]构建了稀疏或密集的2D-3D匹配，并通过求解类似的基于几何的能量函数来恢复深度。04. 方法0正如我们在第1节中介绍的，基于几何约束的深度恢复存在2D线索不具有区分性和2D线索预测与深度估计之间的间接优化差距的问题。为了缓解这些问题，我们首先提出了一种联合语义和几何能量函数来丰富深度推理的几何线索。基于估计的2D边界框和roi模块[12]，我们从CenterNet的最后一个特征提取层中提取物体级特征F∈R W × H ×C。对于每个像素i，我们利用其原始位置pi和投影位置ˆpi来采样相应的语义特征F(pi)和0F(ˆpi)。采用双线性插值来确保采样过程的可微性。通过提取相应的语义特征，我们构建了一个联合的语义（F(pi) vs.F(ˆpi)）和几何（pi vs. ˆpi）约束。04.1.通过自适应的2D-3D代价体积进行细化0通过将语义特征纳入2D-3D约束中，能量函数比以前更强大。然而，语义特征也导致了一个非凸能量函数，使得它无法通过快速线性求解器求解。我们将构建的能量函数作为深度细化特征来指示深度误差，而不是采用复杂的求解模块。为了提供有效的细化特征，我们构建了一个自适应的4D代价体积，以绘制深度的误差分布。对于每个候选边界框，通过将原始的和投影的语义和几何特征在图像坐标中进行连接来构建4D匹配代价体积（大小为W×H×D×2(C+2)，H：roi特征的高度，W：roi特征的宽度，D：采样深度的数量，第一个“2”来自连接操作，C：语义特征的维度，第二个“2”：图像坐标中像素位置的维度）。具体而言，特征包含源和图像坐标中的投影位置p和ˆp及其对应的语义特征：F(p)和F(ˆp)，其中ˆp由候选深度根据方程4确定。然后我们采用坐标归一化来获得具有位置不变性的几何特征进行细化：0H∆z = λ · σz,(7)ˆzrefine = ˆz ++∆z · σid · (i − n2 ),(8)10740其中[uo, vo]T是图像坐标中投影中心点的位置。正如Mon-oDLE[24]所示，深度误差随着位置的变化而变化，包括遮挡等。因此，为了使代价体积适应变化的误差分布，采样大小应足够大，以覆盖潜在的真实值。然而，过大的采样大小会引入较高的延迟和内存占用。因此，我们采用自适应采样策略，根据深度估计的不确定性确定代价体积的大小。具体而言，我们利用候选阶段估计的深度不确定性σz来计算采样大小。在采样过程中，我们首先设置固定值D的候选数，然后根据σz确定深度网格∆z：0其中λ是预定义的超参数。细化模块的网络架构通过对误差分布进行建模，我们设计了一个细化网络，将分布作为深度恢复的细化特征。我们首先采用几个2D卷积模块从空间中提取特征。然后我们插入3D卷积网络来在深度方向上聚合特征。之后，采用平均池化层和带有softmax激活函数的全连接网络来整合H和W方向上的特征，并输出最终估计值。输出向量σd∈RD经过软arg-margin函数[3]处理，以计算所有候选深度的期望概率：0D0其中ˆz是候选阶段估计的深度，σid表示第i个候选深度的估计概率。与直接回归深度值相比，使用带有softmax函数的软arg-margin操作将鼓励模型学习有区分性的特征并选择最优的深度候选。通过细化候选深度ˆzrefine，采用基于方程3的深度估计损失来更新细化网络。由于在选择语义特征时的采样操作是可微分的，神经网络可以被训练来学习适合细化的特征。如图2所示的误差图，语义表示忽略了无纹理区域并突出了语义区域。在推理过程中，最终的3D边界框是通过将细化的深度ˆzrefine与在候选阶段估计的物体尺寸、偏航角和投影位置相结合获得的。04.2. 整体流程0整体流程如图2所示。提议模块是修改后的CenterNet，如第3.1节所述。细化模块基于第4.1节中描述的成本体积。训练期间，用于优化提议模块的损失与MonoDLE[24]相同。对于细化损失，我们过滤掉与真值的2DIoU小于0.5的负样本。推理期间，我们基于CenterNet选择候选边界框，并通过组合提议阶段的估计类别、尺寸、偏航角、投影位置和细化阶段的估计深度生成最终边界框。05. 实验05.1. 实验设置0为了证明所提方法的有效性，我们在KITTI [10]和Waymo[32]单目3D目标检测基准上进行了实验。KITTI数据集包含7,481个训练图像和7,396个测试图像，标注了80,256个3D边界框。我们遵循3DOP[7]，将训练集进一步分为3,712个用于训练和3,619个用于验证的子集。报告了3D和BEV空间中AP | R40的指标。边界框被分为“Easy”、“Moderate”和“Hard”三个难度级别，这些级别由2D边界框的高度、物体的遮挡和截断级别确定。我们同时训练三个类别的模型“Car”、“Pedestrian”和“Cyclist”，并主要报告Car类别的结果。Waymo开放数据集是另一个大规模自动驾驶数据集，包含了从各种驾驶环境中收集的1,150个视频序列。官方协议将数据集分为798个训练序列、202个验证序列和150个测试序列。我们遵循PCT[34]，采用前置摄像头的数据进行单目3D目标检测。为了公平比较，我们从版本1.2的训练序列中每隔3帧采样图像进行训练（52,386张图像）。我们采用官方评估工具[32]计算mAP（平均精度）和mAPH（按航向加权的平均精度）。与KITTI数据集不同，Waymo将边界框分为两个难度级别：“Level 1”和“Level2”，根据边界框中包含的激光雷达点的数量。实现细节我们遵循最近的工作[19, 21, 38, 40]，采用常用的CenterNet[39]作为基线检测器，使用修改后的DLA-34骨干网络。对于KITTI数据集，输入图像保持原始分辨率，并在训练和推理时填充到1280×384的大小。对于Waymo数据集，输入图像MonoJSGDet24.6916.1413.6432.5921.2618.1842Improvement-+2.22+1.97+1.54+1.93+1.18+0.92-Hard10750表1. KITTI测试集上车辆类别的比较。我们用粗体突出显示最佳结果。对于基于深度辅助的方法（PatchNet [22]，PCT[34]），深度估计器的推理时间来自[22]。Datasplit表示训练期间使用的数据。“Det”表示用于训练3D目标检测的标准拆分，“Eigen”表示KITTI数据集中一组未标记的序列。PatchNet[22]和PCT [34]使用Eigen拆分训练深度估计模型，MonoEF [40]使用它训练外部估计网络，Kinemantic [2]使用它监督自运动网络。0设置数据分割 3D（测试）BEV（测试）运行时间（毫秒）Easy Mod Hard Easy Mod Hard014.41 10.34 8.77 19.17 41.20 11.99 50 RAR-Net（ECCV20）[18] 16.37 11.01 9.52 22.45 15.02 12.93 -MonoDLE（CVPR21）[24] 17.23 12.26 10.29 27.94 17.34 15.24 40 M3DSSD（CVPR21）[21] 17.51 11.468.98 24.15 15.93 12.11 - GrooMed-NMS（CVPR21）[13] 18.10 12.32 9.65 26.19 18.27 14.050CaDDN（CVPR21）[27] 19.17 13.41 11.46 27.94 18.91 17.19 630 MonoRun（CVPR21）[4] 19.65 12.310.58 27.94 17.34 15.24 70 MonoFlex（CVPR21）[38] 19.94 13.89 12.07 28.23 19.75 16.89 30 MonoR-CNN（ICCV21）[28] 18.36 12.65 10.03 25.48 18.11 14.10 70 AutoShape（ICCV21）[19] 22.47 14.1711.36 30.66 20.08 15.59 50019.07 12.72 9.17 26.69 17.52 13.10 - PatchNet（ECCV20）[22] 15.68 11.12 10.17 22.97 16.86 14.97 488MonoEF（CVPR21）[40] 21.29 13.87 11.71 29.03 19.70 17.26 30 DFR-NET（ICCV21）[41] 19.40 13.6310.35 28.17 19.17 14.84 455 PCT（NeurIPS21）[34] 21.00 13.37 11.31 29.65 19.03 15.92 4870将图像下采样到960×640的大小以节省计算时间。我们采用AdamW优化器训练模型，并将初始学习率设置为4e-3。网络使用ImageNet预训练权重进行初始化，并在KITTI数据集上进行90个epoch的训练，在Waymo数据集上进行15个epoch的训练。在训练过程中，我们只采用随机水平翻转来增强输入图像。0表2. KITTI测试集上Pedestrian和Cyclist的3D目标检测结果。0方法 Pedestrian Cyclist0MonoPair [8] 10.02 6.68 5.53 3.79 2.12 1.83 MonoFlex[38] 9.43 6.31 5.26 4.17 2.35 2.04 Autoshape [19] 5.763.74 3.03 5.99 3.06 2.70 MonoRun [4] 10.88 6.78 5.831.01 0.61 0.48 MonoJSG 11.02 7.49 6.41 5.45 3.21 2.5705.2. 基准评估05.2.1 KITTI测试集上的结果0在表1中，我们展示了我们的检测器和其他最先进方法在KITTI测试集上的实验结果。我们得出以下观察结果：（1）我们的方法在六个不同的指标上实现了car类别的最佳性能。与第二好的方法相比，我们的方法在性能上超过了它们的比例0在3D检测任务上，我们的检测器在“Easy”、“Moderate”和“Hard”设置下的mAP和mAPH指标分别为9.89%、13.90%和12.75%，在BEV检测任务上分别为6.29%、5.88%和5.33%。此外，我们检测器中设计的模块轻量化，适用于自动驾驶系统。（2）与基于几何约束的方法（如RTM3D[16]、AutoShape [19]和MonoRun[4]）相比，我们的方法在推理时间上保持了类似的性能，但实现了更好的3D检测性能，显示了将语义特征用于深度恢复的有效性。重要的是要注意，第二好的方法AutoShape[19]采用额外的CAD模型来学习归一化的物体坐标，而我们的方法与该方法是正交的。（3）此外，基于深度辅助的方法在推理过程中需要额外的深度估计模型，导致计算负担较重[22]。相比之下，我们的检测器不仅保持了轻量级框架，而且实现了更好的性能。0在表2中，我们进一步展示了在KITTI测试集上Pedestrian和Cyclist类别的实验结果。我们的方法在Pedestrian类别中获得了最佳性能，并在Cyclist类别中与最佳方法Autoshape[19]取得了可比较的性能。值得注意的是，这两个类别中标注实例的数量较少（训练集中Pedestrian为4,487个，Cyclist为1,627个，而Car为28,742个），这可能会引入性能波动。3D mAP / 3D mAPHIoU = 0.7IoU = 0.5020.514.212.01✓22.415.613.32✓✓24.316.213.43✓✓26.318.415.44✓✓✓26.418.315.410760表3. Waymo验证集上Car类别的实验结果。我们采用IoU阈值为0.7和0.5的mAP和mAPH指标。“Level1”表示包含5个以上激光点的边界框的评估。“Level 2”表示所有边界框的评估。0设置方法0总体 0 - 30m 30 - 50m 50 - ∞ 总体 0 - 30m 30 - 50m 50 - ∞0等级10PatchNet（ECCV20）[22] 0.39/0.37 1.67/1.63 0.13/0.12 0.03/0.03 2.92/2.74 10.03/9.75 1.09/0.96 0.23/0.18PCT（NeurIPS21）[34] 0.89/0.88 3.18/3.15 0.27/0.27 0.07/0.07 4.20/4.15 14.70/14.54 1.78/1.75 0.39/0.39 基线0.78/0.76 3.80/3.73 0.49/0.48 0.08/0.07 4.59/4.47 18.35/17.93 3.16/3.09 0.74/0.10 MonoJSG 0.97/0.95 4.65/4.590.55/0.53 0.10/0.09 5.65/5.47 20.86/20.26 3.91/3.79 0.97/0.920等级20PatchNet（ECCV20）[22] 0.38/0.36 1.67/1.63 0.13/0.11 0.03/0.03 2.42/2.28 10.01/9.73 1.07/0.94 0.22/0.16PCT（NeurIPS21）[34] 0.66/0.66 3.18/3.15 0.27/0.26 0.07/0.07 4.03/3.99 14.67/14.51 1.74/1.71 0.36/0.35 基线0.74/0.72 3.79/3.72 0.48/0.47 0.07/0.07 4.34/4.22 18.33/17.87 3.07/3.00 0.65/0.63 MonoJSG 0.91/0.89 4.64/4.650.55/0.53 0.09/0.09 5.34/5.17 20.79/20.19 3.79/3.67 0.85/0.820图3.KITTI数据集上细化前后的定性结果。“绿色框”和“蓝色框”分别表示细化前和细化后的结果。05.2.2 Waymo验证集上的结果0在表3中，我们将提出的方法与最近的顶级方法[22,34]在Waymo验证集上进行了比较。我们报告了Car类别在两个不同的IoU阈值（0.7和0.5）下的评估结果。与KITTI数据集上的观察结果类似，我们的方法相对于最佳方法PCT[34]在3DmAP上分别提高了5.61%和26.42%。我们在补充材料中展示了详细的定性结果。05.3. 消融研究0在表4中，我们比较了不同的深度恢复方式，并验证了在KITTI验证集上使用语义表示进行深度恢复的改进。令人惊讶的是，稀疏几何约束估计的3D边界框甚至比基线模型更差。相反，密集约束改进了0表4.在KITTI验证集上使用基于约束和基于细化的方法进行不同输入特征的实验结果。基于约束的方法采用在约束中达到最小误差的深度作为最终结果。“Sparse Geo”和“DenseGeo”分别表示使用八个边界框角点[16,17]和对象中的所有像素[4]构建约束。MonoJSG表示使用像素级联合语义和几何特征构建约束。0设置简单模式困难0基线 20.5 14.2 12.0 稀疏几何约束 18.9 13.110.8 密集几何约束 22.3 15.7 13.30MonoJSG 约束 24.3 17.0 14.5 MonoJSG细化 26.4 18.3 15.40在Easy设置中，基线模型的mAP下降了1.8%。性能下降可能来自于关键点定位的不准确。与密集几何约束相比，MonoJSG提供了一种数据驱动的方式来学习视觉线索，从而提高了检测性能。通过设计的细化模块，MonoJSG在不同设置中实现了最佳性能。0表5.在细化模块中使用不同输入特征的消融研究。'Geo'，'Photo'和'Semantic'分别表示图像坐标中每个像素的位置，原始照片特征和学习到的语义表示。0# Geo Photo Semantic 简单模式困难0细化中使用不同特征的不同特征在表5中，我们进一步展示了使用不同特征进行细化的比较。与仅使用几何特征相比，使用光度特征和语义特征的方法可以利用提供的视觉线索来识别用于细化的有区别的区域，从而产生更好的检测结果。此外，实验“2”和“3”之间的比较证明了利用学习到的表示进行细化的有效性。通过比较实验“4”和“5”，我们观察到将光度特征纳入MonoJSG的改进有限。这是因为语义特征是从原始图像中提取的，并在细化中起到类似的作用。Potential impacts This work studies monocular 3Dobject detection in autonomous driving.The poten-tial security risk of this work is that the localizationerror in the model may mislead the following mo-tion planning,which may lead to traffic accidents.10770(a) (b)0(d) (c)0图4.从左到右：原始图像的可视化，投影图像和具有不同2D线索的能量函数的损失分布。损失分布是从估计深度周围[-1.6m到1.6m]的范围绘制的。“Sparse Keypoint”表示八个边界框的角点。“Photometric”表示原始图像。0景深恢复的几何和语义线索的不准确性。然而，低可见性是计算机视觉中的典型问题，可以在图像预处理阶段解决。0表6. 提出的成本体积中采样操作的消融实验。0样本大小策略易模型难08 Uniform 23.6 16.9 13.8 Adaptive 24.717.2 14.4032 Uniform 25.2 17.3 14.7 Adaptive26.4 18.3 15.40成本体积中的不同采样策略为了验证成本体积中提出的自适应采样策略的有效性，我们将其与常用的均匀采样策略在KITTI验证集上进行了比较。我们采用大小为8和32来采样候选深度。如表6所示，自适应采样在大小为8和32时始终优于均匀采样。随着更多的候选深度，大小为32的成本体积的性能优于大小为8的成本体积，但在细化模块中也增加了8倍的内存占用。05.4. 定性结果0在图3和图4中，我们提供了我们的检测器在KITTI数据集上的定性结果。与稀疏几何误差和光度误差相比，损失较大。0我们提出了MonoJSG，一种基于细化的自动驾驶场景单目3D物体检测框架。MonoJSG既利用了DNN的强大特征表示，又利用了2D-3D约束的像素级视觉线索，有效减小了物体深度误差，在KITTI和Waymo数据集上取得了最先进的结果。06. 结论和局限性0潜在影响本研究研究了自动驾驶中的单目3D物体检测。这项工作的潜在安全风险是模型中的定位误差可能会误导后续的运动规划，从而可能导致交通事故。0与其他基于几何约束的方法类似，我们的2D-3D约束的准确性基于估计的物体尺寸和偏航角。虽然它们比物体深度更容易估计，但在低可见性或远处区域可能会波动。对它们的分布进行建模并将其不确定性纳入约束可能会缓解这个限制。10780参考文献0[1] Garrick Brazil和XiaomingLiu。M3D-RPN：用于目标检测的单目3D区域建议网络。在ICCV，2019年。1，2，30[2] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu和BerntSchiele。单目视频中的运动学3D物体检测。在ECCV，2020年。60[3] Jia-Ren Chang和Yong-ShengChen。金字塔立体匹配网络。在CVPR，2018年。3，50[4] Hansheng Chen，Yuyao Huang，Wei Tian，ZhongGao和LuXiong。Monorun：通过重建和不确定性传播的单目3D物体检测。在CVPR，2021年。2，3，4，6，70[5] Rui Chen，Songfang Han，Jing Xu和HaoSu。基于点的多视图立体网络。在ICCV，2019年。30[6] Xiaozhi Chen，Kaustav Kundu，Ziyu Zhang，HuiminMa，Sanja Fidler和RaquelUrtasun。自动驾驶的单目3D物体检测。在CVPR，2016年。1，20[7] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi，Huimin Ma，Sanja Fidler和RaquelUrtasun。用于准确的物体类别检测的3D物体提议。在NeurIPS，2015年。2，50[8] Yongjian Chen，Lei Tai，Kai Sun和MingyangLi。Monopair：使用成对空间关系的单目3D物体检测。在CVPR，2020年。2，60[9] Mingyu Ding，Yuqi Huo，Hongwei Yi，ZheWang，Jianping Shi，Zhiwu Lu和PingLuo。学习深度引导的卷积进行单目3D物体检测。在CVPR，2020年。30[10] Andreas Geiger，Philip Lenz和RaquelUrtasun。我们准备好自动驾驶了吗？kitti视觉基准套件。在CVPR，2012年。50[11] Xiaoyang Guo，Kai Yang，Wukui Yang，XiaogangWang和HongshengLi。组间相关立体网络。在CVPR，2019年。30[12] Kaiming He，Georgia Gkioxari，Piotr Dollar和RossGirshick。Mask R-CNN。在ICCV，2017年。40[13] Abhinav Kumar，Garrick Brazil和XiaomingLiu。Groomed-NMS：用于单目3D物体检测的分组数学可微NMS。在CVPR，2021年。60[14] Peiliang Li，Xiaozhi Chen和ShaojieShen。基于立体R-CNN的自动驾驶3D物体检测。在CVPR，2019年。20[15] Peiliang Li，Siqi Liu和ShaojieShen。用于自动驾驶的多传感器3D物体框细化。arXiv预印本arXiv:1909.04942，2019年。3，40[16] Peixuan Li，Huaici Zhao，Pengfei Liu和FeidaoCao。RTM3D：基于物体关键点的自动驾驶实时单目3D检测。在ECCV，2020年。1，2，4，6，70[17] Peixuan Li，Huaici Zhao，Pengfei Liu和FeidaoCao。RTM3D：用于自动驾驶的实时单目3D检测。arXiv预印本arXiv:2001.03343，2020年。2，70[18] Lijie Liu，Chufan Wu，Jiwen Lu，Lingxi Xie，Jie Zhou和QiTian。

下载后可阅读完整内容，剩余1页未读，立即下载