DD3D：一种端到端单目3D物体检测器

PDF格式 | 18.76MB | 更新于2025-01-16 | 178 浏览量 | 举报

"DD3D是一种端到端的单目3D物体检测器，旨在克服传统伪激光雷达方法的局限性，实现深度估计与3D检测的有效信息传递。该方法受益于深度预训练，但避免了过度复杂和过拟合的问题。在无手动标签的大规模数据上自我监督学习提升深度估计网络的准确性，进而改善3D检测性能。DD3D在KITTI-3D和NuScenes基准测试中展现出优越的性能，分别在汽车和行人检测上达到16.34%和9.28%的AP，以及在NuScenes上获得41.5%的mAP。" 在自动驾驶和机器人技术等领域，准确的3D物体检测是关键任务，而单目3D检测由于其广泛的应用潜力和摄像头的普遍使用，成为了研究热点。传统的单目3D检测方法通常依赖于深度估计，生成类似于激光雷达的点云数据，然后通过3D检测网络进行分析。这种方法的好处在于，随着深度估计网络的精度提升，检测性能也会相应提高。然而，这种两阶段的方法存在过拟合风险，且结构复杂。 DD3D作为单阶段的解决方案，借鉴了伪激光雷达方法的深度预训练优势，但设计了一个能直接进行3D检测的架构。该架构优化了信息传递，使得模型可以适应不同量的未标记预训练数据。通过简单的深度预训练和检测微调训练协议，DD3D解决了伪激光雷达方法中深度微调导致的过拟合问题，同时保持了良好的泛化能力。图1展示了DD3D如何结合深度预训练的效率与端到端方法的简洁性和泛化性。与依赖额外深度微调步骤的传统伪激光雷达方法不同，DD3D直接利用预训练的深度网络和3D检测网络，减少了对深度误差的敏感性。在评估中，DD3D在两个具有挑战性的数据集——KITTI-3D和NuScenes上，表现出卓越的性能。在KITTI-3D上，对于汽车和行人的平均精度（AP）分别为16.34%和9.28%，在更大规模的NuScenes数据集上，获得了41.5%的平均精度（mAP）。这些结果显示，DD3D成功地提升了单目3D物体检测的准确性和鲁棒性，为实际应用提供了强大的工具。