基于几何距离分解的单目三维目标检测方法

108 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15172H基于几何距离分解的单目三维目标检测石学鹏1齐烨3陈晓志2陈创荣2陈志祥1金泰均1，41伦敦帝国理工学院2大疆3浙江大学4韩国科学技术高等研究院{x.shi19，zhixiang.chen，tk.kim} @ imperial.ac.uk{ qi.ye} @ zju.edu.cn摘要单目3D物体检测对于自动驾驶具有重要意义，但仍然具有挑战性。核心挑战是在没有显式深度信息的情况下预测对象的距离。不同于回归的距离作为一个单一的变量，在大多数现有的方法，我们提出了一种新的基于几何的距离分解恢复的距离，其因素。分解因子将对象的距离分解为最具代表性和稳定的变量，即图像平面中的物理高度和投影视觉高度。此外，分解保持两个高度之间的自一致性，从而在两个预测高度都不准确时产生稳健的分解还使我们能够跟踪不同场景的距离不确定性的原因。这样的分解使得距离预测可解释、准确和鲁棒。我们的方法直接预测3D边界框从RGB图像与紧凑的架构，使训练和推理简单而有效。实验结果表明，我们的方法实现了国家的最先进的性能单目3D目标检测和鸟瞰图任务的KITTI数据集，并可以推广到图像与不同的1. 介绍目标检测是计算机视觉中的一个基本而又具有挑战性的问题。随着深度学习的出现[43，16]，2D对象检测在过去几年中取得了很大的进步[13，12，36，29，26，25]。然而，对于需要3D空间信息的应用，如自动驾驶，它仍然是不够的3D对象检测是将对象检测为3D边界框的一种方法，受到了广泛的关注。与依赖于昂贵的LiDAR传感器来提供深度信息的3D对象检测方法相比[47，38，51，22]，单目3D对象检测技术可以在3D对象检测中应用。1https://github.com/Rock-100/MonoDetℎℎ图1.我们的距离分解基于针孔相机的成像几何学[14]。从对象的中心到相机的距离，表示为Z，可以通过以下公式计算：Z=fH，其中f表示相机的焦距，H表示对象的物理高度，并且h表示投影中心线（PCL）的长度。PCL表示垂直线在3D边界框的中心处的投影。该等式示出了物体的距离由物理高度和图像平面中的投影视觉高度确定。[5，37]以低计算和能量成本从单目图像推断深度。单目3D对象检测的核心挑战给定物体的视觉外观，其空间位置可以基于成像几何结构[14]作为逆问题来推断。因此，物体的物理尺寸、场景布局和摄像机的成像过程的先验知识对于开发恢复距离是必不可少的一方面，这样的几何先验已被利用来预测的姿势或距离的对象的因素。在6D对象姿态估计中，PVNet [35]和SegDriven [17]回归对象的2D关键点。在类别级6D对象姿态和大小估计中，NOCS [44]使用归一化对象坐标空间图。在立体3D对象检测中，Stereo R-CNN [23]使用稀疏2D关键点、偏航角、对象物理大小以及使用左右ROI的基于区域的摄影对准。这些工作[35，17，23，44]通过几个因素（例如2D关键点，2D边界框和对象物理大小）恢复姿态或距离，从而实现可解释和鲁棒的姿态或距离估计。另一方面，大多数单目3D对象检测方法通过将其回归为单个变量来处理具有挑战性的距离预测。基于学习的方法-15173ods [50，7，41，42]直接学习从输入图像到距离的映射。基于伪LiDAR的方法[45，31，48]首先回归输入图像的深度图，然后用深度图预测对象的距离基于3D锚点的方法[2，3，9]将距离预测分解为区域建议和偏移回归。唯一的例外是[33，19，24]，其通过最小化3D边界框和2D边界框或2D关键点之间的重新投影误差来恢复距离。然而，[33，19，24]仍然落后于将距离作为单个变量回归的那些方法。为了缩小这一差距，我们提出了一种新的基于几何的距离分解，通过其因子来恢复距离。与[33，19，24]不同的是，我们将物体抽象为3D边界框中心的垂直线，其视觉投影为这些垂直线的投影，然后基于成像几何[14]通过它们恢复距离，如图所示。1.分解被设计为尽可能简单，但有效和高效地提取对象距离的最具代表性和稳定的因素，即，物理高度和投影视觉高度。分解的优点是四方面的。1)它使得距离预测可解释。物理高度可以被解释为对象的内在属性，并且视觉高度可以被解释为场景中的外在位置。2)物理高度和投影视觉高度很容易估计，正如我们的观察所揭示的那样。3)分解保持两个高度之间的自一致性4)分解使我们能够跟踪和解释的原因，不同的情况下，通过引入一个不确定性意识的回归损失的分解变量的距离不确定性。此外，我们的方法可以推广到具有不同相机的图像本质，因为它的原因，距离仅由物体的局部信息和解耦的焦距从距离预测。这种泛化能力对于促进单目3D视觉的机器学习模型的部署至关重要[10]。我们的方法的贡献总结如下：1. 一种新的基于几何的距离分解，使距离预测可解释，准确和鲁棒。2. 基于分解，我们的方法最初跟踪的距离不确定性的原因。3. 我们的方法直接从RGB图像中预测3D边界框，具有紧凑的架构，使训练和推理简单高效。4. 我们的方法实现了单目3D目标检测的最先进的（SOTA）性能和KITTI数据集的鸟瞰2. 相关作品2.1. 2D目标检测2D对象检测在过去几年中已经实现了可持续的改进[13，12，36，29，26，25]。值得注意的是，两阶段框架，如Faster R-CNN [36]和Mask R-CNN [15]，在几个具有挑战性的数据集上实现了主导性能还提出了特征金字塔网络（FPN）[25]来提高2D对象检测性能。我们采用更快的R-CNN [36]和FPN [25]作为我们的2D对象检测框架，因为它的高准确性和灵活性。2.2. 单目3D目标检测大多数单目3D对象检测方法通过将其回归为单个变量来处理具有挑战性的距离预测基于学习的方法[50，7，41，42]通过向2D对象检测器添加距离分支来直接回归对象的距离，这是简单且有效的。基于伪LiDAR的方法[45，31，48]首先使用外部单目深度估计器预测输入图像的深度图，然后使用基于点云的3D对象检测器从估计的深度图预测对象的距离。尽管来自估计深度图的显式深度线索可以简化距离预测，但是这些方法的推广受到单目深度估计器的推广的限制[40]。基于3D锚的方法[2，3，9]通过补充3D边界框模板将2D锚框[36]扩展到3D锚框，然后预测从3D锚框到地面实况3D边界框的转换。3D锚框可以简化远程学习。与这些方法中将距离作为单个变量回归不同，我们提出了一种新的基于几何的距离分解，通过其因子来恢复距离。一些作品[33，19，24]通过其因子预测对象的距离。Deep3Dbox [33]将对象抽象为3D边界框，将其视觉投影抽象为投影的3D边界框的四个边界，然后通过最小化投影的3D边界框和2D边界框的四个边界之间的重新投影误差来恢复距离。基于关键点的方法[19，24]将对象抽象为3D边界框，并将其视觉投影作为3D边界框的八个投影角然而，[33，19，24]仍然落后于将距离作为单个变量回归的那些方法。与[33，19，24]相似15174HResNet RoIAlign图2.MonoRCNN的主要架构 MonoRCNN基于Faster R-CNN [36]构建，并添加了精心设计的3D距离头。3D距离头基于我们的基于几何的距离分解。具体来说，我们的方法回归H，hrec=1，以及它们的不确定性，然后通过Z=fHhrec恢复距离。蓝色箭头表示在训练和推理期间网络中的操作，橙色箭头表示在推理期间恢复3D边界框的操作。我们的方法也恢复了距离的因素，但我们的分解是更简单和有效的。2.3. 基于几何的目标位姿估计几何先验已经被利用来通过它们的因子预测对象的姿态或距离。在6D对象姿态估计中，PVNet [35]和SegDriven [17]回归对象的2D关键点，然后通过解决透视n点（PnP）问题来优化6D姿态的估计。在类别级6D对象姿态和大小估计中，NOCS [44]在姿态拟合算法中使用归一化的对象坐标空间图以及深度图来估计看不见的对象的6D姿态和物理大小在立体3D对象检测中，立体R-CNN [23]首先根据稀疏2D关键点、偏航角和对象物理大小计算粗略距离，然后使用左右ROI通过基于区域的光度对准受这些工作的启发，我们提出了一个基于几何的距离分解单目3D物体检测，恢复其因素的距离。2.4. 不确定度估计有两个开创性的作品[20，21]探索了计算机视觉深度学习中的非线性。不确定性感知回归损失[21]使网络能够重新平衡样本并重新关注更合理的样本，从而提高整体准确性。 MonoLoco [1] ， MonoPair [7] 和UR3D [39]使用不确定性感知回归损失[21]回归对象的距离，MonodIS [41]提出了一种自监督置信度得分来重新排序预测的3D边界框。Kinematic3D [3]提出了一种自平衡3D置信度损失，以提高3D框回归精度并重新排序预测的3D边界箱. [1，7，39，41，3]直接将不确定性感知损失应用于距离。相反，我们将不确定性感知回归损失[21]应用于距离的分解变量，这使我们能够跟踪不同场景的距离不确定性的原因。3. 提议的MonoRCNN我们首先给出基本框架，然后给出两个3D相关的检测头，即，3D距离标头和3D属性标头。我们详细介绍了基于几何的距离分解和3D距离头中的不确定性感知回归。我们将我们的方法称为MonoRCNN，主要架构如图所示。二、3.1. 基本框架我们解决了单目3D对象检测，预测的3D边界框的对象从单目RGB图像。两个常见的假设[11]是1）仅考虑3D边界框的偏航角并将滚动角和俯仰角设置为零，2）在训练和推断期间每个图像的相机本质都是可用的。对于给定的RGB图像，MonoRCNN报告相关类别中的所有对象，每个对象的输出为1. 类标签CLS和置信度得分，2. 由左上角和右下角表示的2D边界框，表示为b=（x1，y1，x2，y2），3. -3D 边界框的 2D 投影中心，表示为 p= （ p1 ，p2），4. -3D边界框的物理尺寸，表示为m=（W，H，L），其中W、H、L分别是物理宽度、高度和长度3D属性头部：物理尺寸、kpts、偏航角, ,3D距离头：物理/视觉高度不确定性成像几何��,��,ℎ��,��ℎ��ℎ2D Head：class，bbox，，15175HD图3.预测的八个投影角（红框）和预测的视觉高度（蓝线）之间的比较。预测-长宽高平均预测误差（米）↓S F B SF B0.293 0.276 0.2960.071 0.078 0.0700.078 0.076 0.078在具有挑战性的情况下，对八个投影角进行投影失败，例如如遮挡、截断和极端光照条件，而预测视觉高度更简单和鲁棒。图像来自KITTI验证分割[6]的val子集。5. 3D边界框的偏航角，表示为α=（sin（θ），cos（θ）），其中θ是3D边界框的非同心姿态，6. 在图像坐标中，3D边界框的中心的距离，表示为Z。MonoRCNN预测图像中的3D中心（p，p，Z）表1. KITTI验证分割[6]的值子集上不同偏航角范围内物理尺寸的预测误差。和极端的光照条件。如图3、视觉高度预测在不同的挑战性情况下是准确的，但投影角预测失败。此外，根据预测，物理高度是物理尺寸中12车辆的物理尺寸在坐标，并在推断期间使用相机固有函数将其转换为相机坐标对于偏航角预测，MonoRCNN预测sin（θ）和cos（θ），并在推理期间将其转换为θMonoRCNN建立在更快的R-CNN上[36]。我们使用ResNet-50 [16]，FPN [25]作为主干和RoIAlign [15]来提取对象特征的作物对于2D对象检测网络的训练和推理，我们遵循[36，15]中的流水线。为适应单目三维目标检测，增加了三维距离头和三维属性头。3.2. 3D距离头3.2.1基于几何的距离分解3D距离头恢复对象的距离，并且基于我们基于几何的距离分解。具体地，我们将对象的距离Z1分解为物理高度H和投影视觉高度的倒数hrec=1，其被公式化为：KITTI确认分割[6]，如表1所示。1.物理高度的平均预报误差远小于物理长度的平均预报误差。此外，由于单视图模糊，偏航角对物理长度和宽度的预测误差有影响，而对物理高度的预测误差没有影响。我们的分解仅使用物理高度，而不是完整的物理大小[19，24]来恢复距离，这提高了距离预测的准确性。分解还可以在推断期间保持自一致性，从而在两个预测高度都不准确时产生鲁棒的距离预测。以预测距离为目标，神经网络可以在训练过程中学习H和hrec之间的相关性，然后学习到的相关性可以在推理过程中作为自一致性。H和h_rec之间的相关性详述如下。在单目3D对象检测任务的上下文中，对于给定对象，物理高度H是常数。对象到相机Z的距离可以被建模为随机变量fHZ==fHh hrec、（1）因为对象可以出现在场景中的不同位置类似地，PCL的长度的倒数为其中f表示相机的焦距我们倒退H和h分别回收，并通过它们回收Z分解使得距离预测可解释。H可以被解释为对象的内在属性，其估计可以被视为细粒度的对象分类问题。当给定对象时，h_rec可以被解释为场景中的外部位置，其估计是图像平面中的2D回归问题。我们的分解所需要的物理高度和视觉高度预测8个亲-对象h_rec也是随机变量。虽然变量Z对于指定的对象是随机的，但我们注意到，对于不同的对象，该这是因为对象位置的分布与其细粒度对象类型无关。例如，街道上汽车的空间位置不受其汽车类型的影响。我们将其公式化为Z=fHh rec D.（2）通过对Eq. （2）我们有由于遮挡、截断、偏航角变化，3D边界框[19，24]的投影角是一个挑战HE[hrec]= E[Z]。（三）F15176fHσ图4. KITTI验证分割[6]的val子集上的H和h rec之间的学习相关性。h rec−hrec和H−H的皮尔逊相关系数（ PCC ）为−0。四百七十二错误归一化为[-0。5，0。5]。当量(3)示出，对于不同对象的训练标签，它们的H和它们的期望hrec之间的乘积是常数。换句话说，对于不同的对象，hrec的期望值随着H的增加而减小。直观地说，物体的物理高度越大。这是H和hrec的训练标签之间的相关性。神经网络可以在训练期间学习这种相关性，如图所示。4.在推断期间，如果预测的H大于地面实况，则学习的相关性推动预测的h_rec平均变得更小，反之亦然。因此，我们的方法可以用不准确的H和h_rec来恢复准确的距离Z，即，保持推理过程的自洽性。3.2.2不确定性回归在此基础上，进一步分析了不同场景下距离不确定性的成因。我们将不确定性感知回归损失[21]修改为回归H和hrec。H和hrec的损失函数可以公式化为：图5. H（左）和hrec（右）与距离的不确定性KITTI验证分割[6]的val子集上的Z远离摄像机在近距离下，高不确定性主要由物体的截断视图引起用部分观测值很难作出准确的预报。在远距离处，高不确定性主要是由对象的粗糙视图引起的，其中在图像中表示它们的像素较少截断和粗糙的视图导致H的不确定性的相应增加。然而，hrec对于粗略视图比截断视图具有明显更高的不确定性。换句话说，针对遥远对象的距离估计的准确度受到h_rec的准确度的严重影响。σ h_rec比σ H对不同距离的目标更有区分力，而f_H_σ h_rec可以表示距离的不确定性。我们使用score代替score来对pre-h接收口述框，以提高3D对象检测精度。3.3. 3D属性头部3D属性头部预测物理尺寸、偏航角和2D关键点，即，3D边界框的投影中心和角。我们使用L1损失直接回归物理尺寸和偏航角，公式为：Lsize=L1（m，m），（6）Lyaw=L1（a，a），（7）L1（H，H）L=+λ对数（σ）、（4）其中mA和A是真理，M和A是真理。HσHHL1（hec，hrec）预测对于关键点回归，我们通过关键点的建议大小来规范化关键点。令（x1，y1，x2，y2）Lhrec=σhrec+λhreclog（σhrec），（5）注意提案的左上角和右下角，以及p=（p1，p2）和p=（p1，p2）表示真值key-其中H和hrec是根据真理，H和hrec是点和预测的k∈y点，关于v ∈ y。设t和预测λH和λhrec 是积极的参数t表示归一化的地面实况关键点，并且nor.具体预测的k∈y点，关于v∈y，并且来平衡不确定性项，并且σH和σhrec是不确定性的可学习变量在图5中，我们显示了物理如：t=（p（八）高度和投影视觉高度，即， σH和σhrec，x2−x115177y2−y1对于KITTI验证分割[6]的val子集上不同距离处的对象。对于H和hrec，不确定度随着物体的移动先减小后增大关键点损失函数可以公式化为：Lkpt=L1（t，t）.（九）15178××{联系我们|fHσ在推断期间，我们将归一化的预测关键点t变换为预测关键点p。我们在推理过程中只使用3D边界框的投影中心，八个投影角的损失是训练过程中的辅助3.4. 整体亏损检测头的总体训练损失函数是L=λclsLcls+λbboxLbbox+λsizeLsize+λyawLyaw+λkptLkpt+LH+Lhrec，（十）表2. KITTI验证分裂的val子集的消融研究[6]。“L”表示直接回归距离。 ‘K’ means using the eight projected corners andphysical size to re- cover其中λcls为1，λbbox为1，λsize为3，λyaw为5，λkpt为5，混合物. ‘U’ means adding the uncertainty-awareλ H为0。25，λhrec 为1.损失[21]。‘S’ means sorting the predicted boxes byf Hσhrec3.5. 实现细节MonoRCNN的主干是ResNet-50 [16]和FPN [25]，并在ImageNet [8]上进行了预训练。我们从骨干的P2，P3，P4和P5中提取ROI特征，如[25]中所定义。我们使用五个尺度锚点 32，64，128，126、512，其中三个比率为0.5、1、2，并且将锚点平铺在P4上。图像被缩放到512像素的固定高度，用于训练和推断。在训练过程中，批量大小为4，总迭代次数为1105和2分别在KITTI验证分割[6]和KITTI官方测试分割[11]的训练子集上进行。我们采用分步策略来调整学习率。初始学习率为0。01，在60%，80%，90%的迭代。在训练期间，使用随机镜像作为增广，并且在推理期间没有增广采用我们用PyTorch [34]和Detectron2 [46]实现了我们的方法。所有的实验都在一个服务器上运行，二、2GHz CPU和GTX Titan X。4. 实验我们首先分析了消融研究和KITTI验证分割的自洽性[6]。然后，我们在KITTI官方测试数据集[11]上对MonoRCNN 进行全面的基准测试。我们还使用nuScenes [4]交叉测试集呈现了交叉数据集测试结果。最后，我们在图中对KITTI数据集[11]上的定性示例进行可视化。6，以及图中的nuScenes [4]交叉测试集。七点二4.1. 数据集KITTI数据集[11]为自动驾驶中的计算机视觉问题提供了多个广泛使用的基准。鸟瞰这两项任务的特点是7481训练行人、骑自行车的人等。每个对象被分配有困难级别，即，根据视觉大小、遮挡程度和截断程度，选择容易、中等或困难我们对两种常见的数据分割进行了我们只使用左侧摄像机的图像进行训练。我们报告APR40 [41]以比较准确性。我们使用汽车类，最具代表性的类和官方IoU标准0。7汽车nuScenes [4] 3D对象检测任务需要在完整的3D边界框、属性和速度方面检测10个对象类在这项工作中，我们专注于检测汽车的3D边界框，以测试从KITTI [11]到nuScenes [4]的跨数据集性能。公司现采用国际脚本3，用于将nuScenes数据转换为KITTI格式以生成交叉测试集。交叉测试集由来自官方val子集的6019张4.2. 消融研究我们进行消融研究，以检查每个提议的组件如何影响最终性能。我们通过首先设置一个利用我们的分解的基线来评估性能，然后添加不确定性感知损失[21]，最后按得分对预测框进行排序，h接收如表所示。2. 我们还建立了一个模型，它...直接回归距离以将我们的方法与基于学习的方法[50，7，41，42]进行比较，以及通过八个投影角和物理尺寸恢复距离的模型以将我们的方法与基于关键点的方法[19，24]进行比较。从Tab。2、我们可以看到：1) 基于几何的距离分解是有效的。比较'D'与'K'，我们可以看到基于几何的距离分解大大优于基于关键点的模型，这支持了其有效性。和7518个带有汽车的2D和3D注释的测试图像，3https://github.com/nutonomy/nuscenes-devkit/blob/master/python-2更多定性实例可参见补充文件。sdk/nuscenes/scripts/export kitti.pyAP3D十五岁01/10. 52/8.45AP |R40[简易/改装/硬] ↑APBEVL21。03/14. 84/11. 44K13 决议 58/8 。 96/7. 0619 号。39/1359/10。54D15. 78/10 。 97/8. 十五二十二 06/15. 第52/11号决议。16. biggest biggest 94/12. 00/9. 46二十四岁60/1723/13。38D+U+S十六岁61/13. 十15179代表3D预测-方法输入时间（ms）AP |R40[简易/改装/硬] ↑AP3DAP BEVROI-10D（CVPR 19）[32]图像+深度2004.第一章32/2 02/1.469 .第九条。78/491/374AM3D（ICCV 19）[31]图像+深度400十六岁一半对一半74/9。52二十五03/17.32/14。91D4 LCN（CVPR 20）[9]图像+深度200十六岁65/11. 72/951二十二岁51/16。02/12. 55DA-3Ddet（ECCV 20）[48]图像+深度400十六岁77/11 五五开9323岁35/1590/1211PatchNet（ECCV 20）[30]图像+深度400十五岁第68/11号决议。十分之二17二十二岁97/16.86/1497Kinematic3D（ECCV 20）[3]图片+视频12019号。07/12. 72/917二十六岁69/17号决议。52/13. 10[28]第28话图像500二、77比1 51/1. 01五、四成三23/2 46M3D-RPN（ICCV 19）[2]图像160十四岁76/9 71/7。4221岁02/13. 67/10。23MonoPair（CVPR 20）[7]MoVi-3D（ECCV 20）[42]图像图像605−0十三岁04/9. 99/8. 65十五岁十分之十九九成九2619号。28/14。83/1289二十二岁76/1703/14.85RTM3D（ECCV 20）[24]†图像十四岁十分之四34/8。7719号。17/1420/11。99MonoRCNN（我们的）图像70十八岁36/12. 百分之六十五03二十五48/1811/14.10表3. KITTI基准的比较[11]。“输入”是指在训练和推理期间使用的输入数据模态。推理时间来自官方排行榜，硬件略有差异红色/蓝色分别表示最佳/第二†表示使用来自右相机的附加图像进行训练的方法。不存在相关性，即，预测的投影角和物理尺寸之间的自一致性。4.4.与KITTI基准的我们在Tab中的KITTI官方测试数据集[11]上全面基准MonoRCNN。3，并与现有方法进行了比较，说明了本文方法的优越性。从Tab。3、我们可以看到：表4.的val子集上的自一致性比较KITTI确认分割[6]。“K”表示使用八个投影角和物理尺寸来恢复距离，类似于[19，24]。‘P’ means using the predictedphysical height or size when recovering the distance, ‘G’ meansusing the groundtruth2) 不确定性感知回归损失[21]提高了准确性。比较3) 按分数排序是有效的。比较1) MonoRCNN实现了SOTA精度。现有的仅图像方法不能模拟使用额外深度输入的方法，而我们的方法将仅图像方法[42]的前端推进了3。17比1 75在AP 3D和2. 72/1。08在AP BEV的容易和温和的子集，并超过那些基于深度的方法1。59/0. 93在AP 3D和0. 45/0。在简易和现代子集上，APBEV为79。仅使用单个帧作为输入，我们的方法甚至可以与基于视频的方法[3]相媲美。注意，MonoRCNN使用ResNet-50主干[16]，而[2]使用DenseNet-121主干[18]和[7，24]f Hσhrec评分使用DLA-34主链[49]。虽然DenseNet-121对于准确度，显示得分hrec第34章比我更厉害的人质量优于f Hσhrec得分50 [16]，MonoRCNN仍然优于[2，7，24]。我们还强调MonoRCNN显著优于4.3. 自我一致性比较我们对自洽性进行了分析，如表1所示。4.从“我们的”，我们可以看到，如果用于恢复距离的预测物理高度被替换为地面实况物理高度，则准确度降低。这支持了我们的方法可以在推理过程中保持自洽性。从这说明AP |R40[简易/改装/硬] ↑AP3DAPBEVK（P）13。决议58/8。96/7. 0619.39/1359/10。54 K（G）13. 31/9。51/7. 四十五二十一十三四分98/11。4416.第16章我的世界94/12. 00/9. 四六二十四。60/1723/13。38我们的（G）14. 四成五82/8。6215180RTM3D [24]是一种基于关键点的方法，尽管[24]使用来自正确相机的额外图像进行训练。这支持我们的距离分解比基于关键点的距离分解好得多。2) MonoRCNN简单而高效。 MonoRCNN是一种只包含图像的方法，因此比基于深度和视频的方法更简单有效。[9，31，48，30]中的单目深度估计器使用重型ResNet-101主干[16]，MonoRCNN运行3次比[9]快，比[31，48，30]快515181图6.KITTI示例。我们在KITTI测试集[11]（第一行）和验证分割的val子集[6]（第二行）上可视化MonoRCNN的定性示例图像平面中的红色框表示预测的3D边界框的2D投影。鸟瞰图结果中的黄/绿两个相邻的白色圆圈之间的半径差为5米。并非所有图像都用于训练。图7. nuScenes交叉测试示例。我们在nuScenes [4]交叉测试集上可视化MonoRCNN的定性示例。2D投影和鸟瞰六、我们的模型仅使用KITTI val split [6]的训练子集进行训练，并且可以推广到具有不同相机内在函数的nuScenes [4]交叉测试集中的图像。4.5.交叉数据集检验为了评估推广到具有不同相机本质的图像的能力，我们通过将用KITTI val split [6]的训练子集训练的模型应用于nuScenes [4]交叉测试集来进行交叉数据集测试。由于本文是第一篇在单目3D对象检测中提出交叉数据集测试的论文，因此我们还提供了M3 D-RPN [2]的结果，使用其官方模型4作为比较。为了关注距离预测的准确性，我们报告了两种方法在不同距离范围内的距离预测的平均误差。5.将为调用的对象计算错误。结果表明，我们的方法实现了较低的距离预测误差。从不同距离区间的误差可以看出，目标距离越远，该方法的泛化能力越强。这是因为我们的方法的原因的距离的局部几何变量的对象。我们还在图中可视化一些定性的例子。7，我们可以看到我们的方法实现了准确的距离预测。基于伪LiDAR的方法[45，31，48]难以推广到具有不同相机本质的图像，因为单目深度估计器难以推广到具有不同相机本质的图像[10]。4https://github.com/garrickbrazil/M3D-RPN[2]（T）1.260.561.332.73[2]（N）2.751.043.2910.73我们的（T）1.140.461.272.59我们的（N）2.390.942.848.65表5. nuScenes [4]交叉测试集上的交叉数据集测试。我们在不同的测试数据集上显示了不同距离范围内的距离预测的平均误差所有模型仅使用KITTI val split的训练子集进行训练[6]。5. 结论我们提出了一种新的基于几何的距离分解，这使得距离预测可解释的，准确的，和鲁棒的。我们的方法直接预测三维包围盒从 RGB 图像与一个紧凑的architecture，因此是简单而有效的。实验结果表明，该方法在KITTI数据集的单目3D目标检测和鸟瞰图任务上达到了SOTA性能距离预测平均误差（米）↓[0，+∞）[0，20）[20，40）[40，+∞）15182引用[1] Lorenzo Bertoni ， Sven Kreiss ， and Alexandre Alahi.Monoloco：单目三维行人定位和不确定性估计。在ICCV，2019年。[2] 加里克巴西和刘晓明M3 D-RPN：用于对象检测的单目3D区域建议网络在ICCV，2019年。[3] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu，andBernt Schiele.单目视频中的运动三维目标检测。在ECCV，2020年。[4] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan ， Yu Pan ， Gi- ancarlo Baldan ， andOscar Beijbom.nuscenes：自动驾驶的多模态数据集。在CVPR，2020年。[5] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR，2016年。[6] 陈晓志， Kaustav Kundu ，朱玉坤， Andrew G.Berneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun. 用于精确对象类别检测的 3D 对象建议。InNeurIPS，2015.[7] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。在CVPR，2020年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[9] Mingyu Ding，Yuqi Huo，Hongwei Yi，Zhe Wang，Jianping Shi，Zhiwu Lu，and Ping Luo.用于单目3d目标检测的学习深度引导在CVPR，2020年。[10] 乔是我。Fa'cil，BenjaminUmmenhoferr，HuizhongZhou，Luis Montesano，Thomas Brox，and Javier Civera.Cam-convs：用于单视图深度的相机感知多尺度卷积。在CVPR，2019年。[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。CVPR，2012。[12] 罗斯湾娘娘腔。快速R-CNN。在ICCV，2015年。[13] 罗斯湾 Girshick ， Jeff Donahue ， Trevor Darrell ， andJitendra Malik.丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。[14] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521623049，2000。[15] Kaim i ngHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。InICCV，2017.[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6d物体姿态估计。在CVPR，2019年。[18] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR，2017年。[19] EskilJ o¨r gensen，ChristopherZach，andFredrikKahl. 单目3d物体检测和盒拟合训练端到端使用交叉-联合损失。CoRR，2019。15183[20] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？NeurIPS，2017。[21] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在CVPR，2018年。[22] 亚历克斯·H Lang ，Sourabh Vora，Holger Caesar ，Lubing Zhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在CVPR，2019年。[23] Peiang Li，Xiaozhi Chen，and Shaojie Shen.用于自动驾驶的基于立体R-CNN的3D对象检测在CVPR，2019年。[24] Peixuan Li，Huaici Zhao，Pengfei Liu，and Feidao Cao.RTM3D：自动驾驶的目标关键点实时单目3D检测。在ECCV，2020年。[25] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick ，KaimingHe，Bharath Hariharan，and SergeJ.贝隆吉用于对象检测的特征金字塔网络。在CVPR，2017年。[26] 放大图片创作者：林宗毅， Priya Goyal ，Ross B.Girshick，Kaiming He，andPiotrDoll a'r. 密集目标检测的焦面损失。InICCV，2017.[27] 作者： Michael Maire ， Serge J. Belongie ， JamesHays ， PietroPerona ， Dev aRamanan ， PiotrDol la'r ，andC.劳伦斯·齐尼克。Microsoft COCO：在上下文中常见的对象。2014年，在ECCV[28] Lijie Liu，Jiwen Lu，Chunjing Xu，Qi Tian，and JieZhou.基于深度拟合度评分网络的单目3d目标检测。在CVPR，2019年。[29] 刘伟，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy ， Scott E. Reed

下载后可阅读完整内容，剩余1页未读，立即下载