单目3D检测新方法：DID-M3D，实例深度估计与属性深度解耦

10 浏览量更新于2024-06-19 收藏 3.73MB PDF 举报

"该研究主要探讨了单目3D物体检测中的实例深度估计问题，提出了一种新的方法——DID-M3D，该方法将实例深度分解为实例视觉表面深度和实例属性深度，以此解决深度估计的复杂性。同时，通过解耦3D位置不确定性，提高了预测的准确性。在数据增强方面，该研究也提出了一种基于实例深度分离策略的方法，以突破传统单目3D检测数据增强的局限。在KITTI数据集上的实验表明，这种方法达到了新的 state-of-the-art 结果，并通过消融研究验证了各个组件的有效性。论文作者包括梁鹏、吴晓培、郑阳、刘海峰和邓才，他们来自浙江大学CADCG国家重点实验室和FabuInc.公司。论文关键词包括单目三维检测和实例深度估计。" 在单目3D物体检测中，由于仅使用RGB图像作为输入，深度信息的恢复是一项重大挑战。传统的深度估计方法直接回归实例深度，但这种方法忽略了深度估计的内在复杂性和歧义。研究者观察到实例深度是视觉深度和属性深度的耦合，视觉深度与物体的外观和在图像上的位置相关，而属性深度则与物体的固有属性相关，这些属性在仿射变换下保持不变。通过将实例深度分解为这两部分，可以分别处理，从而降低学习难度。 DID-M3D方法将3D位置不确定性解耦为视觉深度不确定性和属性深度不确定性，这样能更准确地估计实例深度。此外，由于单目3D检测的数据增强通常受限于物理性质，研究者提出了基于实例深度分离策略的数据增强技术，这有助于改善模型的泛化能力，提高检测性能。在实际应用中，例如自动驾驶和计算机视觉，精确的单目3D物体检测和深度估计至关重要。通过在广泛使用的KITTI数据集上进行实验，DID-M3D方法证明了其优越性，不仅在结果上超过了现有技术，还通过消融研究验证了方法的各个组成部分的有效性。研究人员开源了他们的代码，可供其他研究者和开发者进一步研究和应用。这项研究为单目3D物体检测提供了一个新的视角，通过实例深度的解耦和不确定性处理，提升了深度估计的准确性和整体检测性能，对相关领域的研究有着积极的推动作用。

+v：mala2255获取更多论

文

DID-M3 D：用于单目3D对象检测的解耦实例深度5

图二

网络框架。总体设计遵循GUPNet [26]。估计的2D框用于提取每个对象

的特定特征，然后是3D框头，其预测所需的3D框参数。3D头部中的红色部分

表示新提出的组成部分。它们用于解耦实例深度。

MonoFlex开发了一个集成策略来获得最终的实例深度。与以前的工作

不同，GUPNet[26]提出了一种实例深度的不确定性传播方法。它使用

估计的物体3D尺寸， 2D高度以获得初始实例深度，另外预测深度

偏差以细化实例深度。GUPNet主要致力于解决几何投影过程中的误

差放大问题MonoRCNN[45]还引入了基于2D高度和3D高度的距离分解

这种方法使用几何或辅助信息来细化估计的实例深度，而它们没有完

全使用实例深度的耦合性质

概述和框架

单

目3D检测将RGB相机捕获的图像作为输入，预测3D空间中对象的非模态

3D边界框。这些3D框由3D中心位置（

，

）、尺寸（

，

）和

方向（

）。请注意，在自动驾驶场景中，方向通常是指偏航角，而滚动角

和俯仰角默认为零。此外，自我汽车/机器人已经校准。

在本段中，我们提供了一个概述并描述了框架。总体框架如图2所

示。首先，网络将RGB图像I

∈

H×W

×3

作为输入。在特征编码之后，

我们有深度特征F

∈

，其中

是通道号。第二，深特征F被馈送到

H W

三个二维探测头，即二维热图H

∈

，二维偏移O

∈

×2

，且二维大小S2

∈

×2

，其中B是类别数通过

+v：mala2255获取更多论

文

∈

6升。Peng等人

结合这样的2D头部预测，我们可以实现2D盒子预测。然后，利用2D

框估计，通过RoI Align从深度特征F获得单个对象特征。我们有对象

特征F

obj

×7×7×

，其中7 7是RoI Align大小，

是RoI的数量最后，这些

物体特征F

obj

被馈送到3D检测头中以产生3D参数。因此，我们有3D框

尺寸S

×3

，3D中心投影偏移O

×2

，方向

n×k

×2

（我们遵循多箱

设计[32]，其中

是箱数），视觉深度D

vis

× 7 ×7

，视觉深度不确定性

vis

× 7 ×7

，属性深度D

att

×7×7

和属性深度不确定性U

att

×7×7

。使用

上述参数，我们可以实现最终的3D框预测。在下面的部分中，我们

将详细介绍所提出的方法。

解耦实例深度

我们将ROI图像块分成7 7个网格，为每个网格分配一个视觉深度值和

一个属性深度值。我们在实验中提供了视觉和属性深度的网格大小上

的消融（见第5.4节和表4）。在下文中，我们首先详细介绍了两种类

型的深度，然后是基于扩展深度的数据增强，然后介绍了获得最终实

例深度的方法，最后描述了损失函数。

4.1

视觉深度

视觉深度是指物体表面在小平面上的物理深度。 ROI图像网格。对于每

个网格，我们将视觉深度定义为网格内的平均像素深度如果网格是11像

素，则视觉深度等于逐像素深度。给定像素表示对象的量化表面，我们

可以将视觉深度视为像素深度的一般扩展。单目图像的视觉深度具有重

要的性质。对于基于单眼的系统，视觉深度高度依赖于对象的2D框大小

（远处的对象在图像上看起来很小，反之亦然）和图像上的位置（图像

坐标系下较低的v坐标表示较大的深度）。因此，如果我们对图像执行

仿射变换，视觉深度应该被相应地变换，其中深度值

应该是缩放的。我们称这种性质为仿射敏感性。

4.2

属性深度

属性深度是指从视觉表面到

对象

我们称之为属性深度，因为它更可能

与

对象

的固有属性有关例如，当汽车方向平行于3D空间中的

轴（深

度方向）时，汽车尾部

的

这

车

相比之下，如果方向平行于x轴，则属

性深度是

汽车

我们可以看到，属性深度取决于对象的语义及其固有属

性。与仿射敏感的

剩余25页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

单目3D检测新方法：DID-M3D，实例深度估计与属性深度解耦

用于3D车辆检测的KITTI数据集

单目3D目标检测经典数据集：kitti-mini

3D车辆检测中的KITTI数据集

matlab改变代码颜色-KITTI_Dense_Depth:在KITTI数据集上生成用于单眼深度估计任务的密集深度图

RTM3D:用于单目3D物体检测的RTM3D和KM3D的官方PyTorch实现

kitti-mini数据集在单目3D目标检测中的应用

RTM3D与KM3D：单目3D物体检测的深度学习实现

深度学习在KITTI数据集上应用openPCDet训练点云目标识别

利用MATLAB在KITTI数据集上生成密集深度图的方法

深度学习实践：Keras与TensorFlow在KITTI数据集分割的应用

最新资源