单目3D物体检测中的成对空间关系

83 浏览量更新于2023-10-23 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12093MonoPair：使用成对空间关系的李永健陈雷泰凯孙明阳李阿里巴巴集团{yongjian.cyj，tailei.tl，sk157164，mingyangli}@ alibaba-inc.com摘要单目3D物体检测是自动驾驶中的一个重要组成部分，同时具有挑战性，特别是对于那些仅部分可见的遮挡样本。大多数检测器认为每个3D对象作为一个独立的训练目标，不可避免地导致缺乏有用的信息被遮挡样本。为此，我们提出了一种新的方法，以提高单目3D目标检测考虑的配对样本的关系。这使我们能够编码空间约束的部分遮挡对象从其相邻邻居。具体而言，所提出的检测器计算相邻对象对的对象位置和3D距离的不确定性感知预测最后，一阶段的不确定性感知预测结构和后优化模块专门集成，以确保运行时的效率。实验表明，我们的方法在KITTI 3D检测基准上产生了最好的性能，通过大幅超越最先进的竞争者，特别是对于硬样本。1. 介绍3D物体检测在各种计算机视觉应用中起着至关重要的作用，例如自动驾驶、无人驾驶飞机、机器人操纵和增强现实。在本文中，我们通过使用单目摄像头来解决这个问题，主要用于自动驾驶用例。大多数现有的3D对象检测方法都需要精确的深度信息，这些信息可以从3D LiDAR [8，30，34，35，23，45]或多个LiDAR中获得。相机系统[6，7，20，29，32，41]。由于缺乏在直接可计算的深度信息中，使用单目相机的3D对象检测通常被认为是比使用LiDAR或多相机系统更具挑战性的问题。尽管在计算机视觉算法设计中存在困难，但是依赖于单目相机的解决方案可以潜在地允许低成本、低功率和低成本的视觉系统。在实际应用中部署灵活的系统。因此，近年来，在研究界中执行单目3D对象检测的趋势日益增长[3，5，26，27，31，36]。现有的单目3D物体检测方法对于自动驾驶中的正常物体已经实现了相当高的精度。然而，在真实场景中，存在大量处于严重遮挡下的对象，这对算法提出了重大挑战。与完全可见的前景中的观测不同，用于被遮挡对象的有用信息自然是有限的。解决这个问题的直接方法是设计网络以尽可能多地利用有用的信息，但这只能带来有限的改善。受试图使用场景图和对象关系的图像字幕方法的启发[10，22，42]，我们建议充分利用附近对象之间的空间关系，而不是单独关注信息受限的被遮挡对象。这与人类的直觉很好地一致，在数学上，我们的关键思想是优化预测的3D位置的对象引导其不确定性感知的空间约束。具体来说，我们提出了一种新的检测器，共同计算对象的位置和空间约束之间的匹配对象对。成对空间约束被建模为位于两个相邻对象之间的几何中心的关键点，其有效地编码所有必要的几何信息。通过这样做，它使网络能够明确地捕获对象之间的几何背景。在预测期间，我们将任意不确定性施加到基线3D对象检测器中以对输出的噪声进行建模。不确定性是以无监督的方式学习的，这能够显著地增强网络的鲁棒性。最后，我们将预测的3D位置以及它们的成对空间约束公式化为非线性最小二乘问题，以利用图优化框架来优化位置。计算出的不确定性关系被用来加权成本函数中的每一项。在具有挑战性的KITTI 3D数据集上进行的实验表明，12094我们的方法远远优于最先进的竞争方法。我们还注意到，对于具有较重遮挡的硬样本，我们的方法显示出巨大的改进。总之，本文的主要贡献如下：我们设计了一种新型的3D物体检测器，使用单筒相机通过捕捉成对物体之间的空间关系，允许在很大程度上提高被遮挡物体的准确性。我们提出了一个不确定性感知的预测模块，在3D对象检测，这是共同优化，与对象到对象的距离。实验表明，我们的方法产生的KITTI 3D检测基准的最佳性能，通过大幅超越国家的最先进的竞争对手。2. 相关工作在本节中，我们首先回顾用于自动驾驶的单眼3D物体检测的方法。文中还简要讨论了对象关系和不确定度估计的有关算法单眼3D物体检测。与多光束激光雷达或立体视觉相比，单目图像的三维信息自然是有限的。先验知识或辅助信息被广泛用于3D对象检测。Mono3D [5]关注的是3D对象位于地平面上的事实。车辆的先前3D形状也被杠杆化以重构用于自动驾驶的边界框[28]。DeepMANTA [4]利用关键点和3D CAD模型预测3D对象信息。SubCNN [40]从3D CAD模型中学习依赖于视点的子类别，以捕获形状，视点和遮挡模式。在[1]中，网络学习估计检测到的2D关键点和3D对应点之间的对应3D-RCNN [19]为图像中的所有对象实例引入了一个逆图形框架。可区分的渲染和比较损失允许通过2D信息学习3D结果。在[17]中，在训练阶段使用稀疏LiDAR扫描来生成训练数据，这消除了使用不便CAD数据集的必要性。另一种方法是在第一阶段预测单目图像的独立深度或视差信息[25，26，38，41]。虽然它们在测试时只需要单目图像，但地面实况深度信息仍然是模型训练所必需的。与上述单目3D检测工作相比，一些算法仅包括RGB图像作为输入，而不依赖于外部数据、网络结构或预训练模型。[27]第二十七话考虑到投影的几何约束，来自2D边界框的3D信息OFTNet [33]提出了一种正交特征变换，将基于图像的特征映射到正交3D空间。ROI-10 D [26]提出了一种新的损失，以正确测量框的度量未对齐。MonoGRNet[31]考虑到2D投影中的几何推理和未观察到的深度维度，从单目RGB图像预测3D对象位置。单目3D物体检测的当前最新结果来自 MonodIS [36] 和 M3 D-RPN[3]。其中，MonodIS [36]利用了一种新颖的2D和3D检测损失的解纠缠M3 D-RPN [3]将单目3D检测问题重新表述为独立的3D区域建议网络。最近，几个并行工作[24，21]也采用了与我们的工作类似的关键点检测策略。然而，上面提到的所有对象检测器都集中在从图像中预测每个单独的对象。没有考虑对象之间的空间关系。我们的工作最初受到CenterNet [44]的启发，其中每个对象都由点标识具体来说，我们通过使用类似于CenterNet的单个点来建模对象之间的几何关系，该点实际上是它们之间的几何中心视觉关系检测。关系在图像理解中起着至关重要的作用。迄今为止，它被广泛地应用于图像字幕。Daiet al.[10]提出了一种关系网络来利用对象及其关系之间的统计依赖性。MSDB [22]提出了一种多级场景描述网络来学习不同语义级别的特征。 Yao等人 [42]提出了一种基于注意力的编码器-解码器框架。通过图形卷积网络和长短期记忆（LSTM）进行场景生成。然而，这些方法主要用于处理视觉关系在表示和描述图像中的影响他们通常直接提取对象建议或显示对预测的边界框的完全信任相比之下，我们的方法侧重于3D对象检测，这是完善的检测结果的基础上的空间关系。这在现有的工作中没有探索过。目标检测中的不确定性估计。我们的方法的计算对象的位置和成对的3D距离都预测与不确定性。这受到了深度神经网络的任意不确定性的启发[13，15]。我们不必完全相信深度神经网络的结果，而是可以提取预测的不确定性。这对于各种感知和决策任务至关重要，特别是对于自动驾驶，其中人类的生命可能由于不适当的选择而受到威胁。该概念已应用于3D激光雷达目标检测[12]和行人定位[2]，其中它们主要将不确定性视为参考的附加信息。在[39]中，不确定性被用来近似对象···120953D检测输出分支对约束输出分支距离| 1距离|3深度| 1旋转|8尺寸|3偏移|2偏移| 1深度|1尺寸|2偏移|2热图|C2D限位框×××××××××最终3D边界框2D检测输出分支3D边界框具有不确定性3D对距离具有不确定性三维全局优化图1：我们的架构概述。将单目RGB图像作为骨干网络的输入，并在监督下进行训练。11个不同的预测分支，特征图为W H m，分为三个部分：2D检测、3D检测和对约束预测。输出特征（W，H）的宽度和高度与主干输出相同。虚线表示神经网络的前向流。还利用2D检测的热图和偏移来定位3D对象中心和成对约束关键点。具有有界碰撞概率的船体，用于后续的轨迹规划任务。Gaussian-YOLO [9]通过预测定位不确定性显著改善了检测结果这些方法只是利用不确定性来提高训练质量或提供额外的参考。相比之下，我们使用不确定性来加权后优化的成本函数，将检测估计和预测的不确定性集成在全局上下文优化中。3. 方法3.1. 概述我们采用一级架构，与最先进的无锚2D对象检测器共享类似结构[37，44]。如图1所示，它由一个骨干网络和几个特定于任务的密集预测分支组成。主干将大小为（Ws Hs）的单目图像I作为输入，并输出大小为（W H64）的特征图，其中s是主干有11个输出分支，大小为W Hm，其中m表示每个输出分支的通道，如图1所示。 11个输出分支分为三个部分：三个用于2D对象检测，六个用于3D对象检测，两个用于成对约束预测。我们对每个模块的详细介绍如下。3.2. 2D检测我们的2D检测模块源自CenterNet[44]有三个输出分支。大小为（W H c）的热图关键点类型包括KITTI3D对象检测中的c= 3关于从输出热图中提取对象位置cg=（ug，vg）的细节可以在(a)3D世界空间图像平面(b)特征地图坐标（c）顶视图图2：（a）世界空间中的3D边界框，（b）输出特征图中对象的位置，以及（c）顶视图中对象的方向的符号的可视化。三维尺寸以米为单位，并且（b）中的所有值均以特征坐标为单位。垂直距离y是不可见的并且在（c）中被跳过。[44 ]第44段。另外两个分支（每个分支具有两个通道）分别输出边界框的大小（wb，hb）和从定位的关键点cg到边界框中心cb=（ub，vb）的偏移向量（δu，δv）。如图2所示，这些值以特征图坐标为单位。3.3. 3D检测世界空间中的对象中心表示为cw=（x，y，z）。它在特征图中的投影是co=（u，v），如图2所示。类似于[26，36]，我们预测其偏移量（u，v）到两个单独分支中的关键点位置cg和深度z用摄像机内矩阵骨干网成对约束3D检测特征2D检测输入图像12096IJIJIJ−我JIJ- -IJIJi j. 、（3）（一）(a) 相机坐标（b）局部坐标图3：成对空间约束定义。 cw和cwI j是两个3D边界框的中心，其中pw是它们的中间点相机坐标中的3D距离kw和局部坐标kv分别如（a）及（b）所示(b)跳过沿y轴的距离K，从预测到3D中心cw的推导如下：图4：用于训练和推理的配对策略。fx0axK= 100fyay。（一）0 0 1C=（ug+ua z，fxvg+v−ayfyz，z）（2）(a) 相机坐标（b）局部坐标考虑到直接回归深度的困难，深度预测分支输出与[11]类似的逆深度z，通过逆S形变换z=1/σ（z）变换绝对深度。1.一、尺寸分支直接以米为单位回归物体的尺寸（w，h，l）2D和3D检测中的深度、偏移和尺寸的分支均使用以下L1损失进行训练[44]。如图2所示，我们根据[ 27 ]和[ 44 ]估计物体与相机坐标系中的全局取向β相比，局部取向说明了对象相对于相机视角的相对旋转γ= arctan（x/z）。因此，我们-图5：从不同视角观察，相机和局部坐标中的相同成对空间约束。相机坐标系中的空间约束在不同视角之间是不变的。考虑到汽车的不同投影形式，我们使用局部坐标系下的三维绝对距离作为空间约束的回归目标。给定一对选定的对象，它们在世界空间中的3D中心是cw=（xi，yi，zi）和cw=（xj，yj，zj），并且它们在特征图上的2D边界框中心是cb=（ub，vb）和cb=（ub，vb）。成对约束在处理问题时，i我我jJ J关键点在要素地图上的位置为pb =（cb+cb）/2。图像特征。与[27，44]类似，我们代表使用八个标量的方向，其中方向分支由MultiBin损失训练。i j i j相关关键点的回归目标是3D显示。这两个物体的距离。我们先找到中间点在3D空间中pw=（cw+cw）/2=（pw，pw，pw）ij。然后，xyz3.4. 成对空间约束3D绝对距离kv=（kv，kv，kv）ij沿公司简介除了常规的2D和3D检测流水线，我们提出了一个新的回归目标，这是通过特征映射上的关键点来估计相邻对象之间的成对几何约束。用于训练和推断的配对匹配策略在图4a中示出。对于任意样本对，我们通过将它们的二维包围盒中心的距离设置为直径来定义范围圆如果该对包含其他对象中心，则忽略该对。图4b示出了具有所有有效样本对的示例图像观察点方向，如图3b所示，取为回归目标是图1中的对约束输出的距离分支。请注意，pb不是pw在特征图上的投影点，如图2中的cw和cb。对于训练，可以通过地面实况3D对象中心从训练数据中轻松收集kv，如下所示：v=。-. R−−（γ−−）k−w→。图像平面图像平面K12097IJIJ−ii=1IJi=1IJ我J−| ·|σ˜NG- -(a) 对约束预测（b）对象位置预测（c）优化变量（d）优化结果图6：示例对的优化的可视化，包括。在（a）中，预测的成对约束k∈v及其不确定性σk由特征图上的预测的2D边界框中心（ub，vb）和（ub，vb）定位3D预测i i i j j结果（绿点）见（b）。所有不确定性均表示为箭头，以显示置信范围。我们表明（c）中的变量作为红点用于该优化函数。最终优化结果在（d）中呈现。我们的方法主要适用于封闭样本。成对轿厢之间的相对长的距离是为了可视化的简单性。将跳过沿v其中−−→表示提取向量中每个条目的绝对值 kw=cwcw是相机坐标中的3D距离yij=arctan（pw/pw）是它们的观察方向，这里，x是输入数据，y和y′是获得的地面实况回归和预测结果。是模型的另一个输出X z中间点pw，R（γij）是其沿Y轴为数据x. θ是回归模型的权重。如[15]中所述，任意不确定性σ（x）R（γij）=cos（γij）0sin（γij）0 1 0sin（γij）0 cos（γij）。（四）在回归任务中，损失对噪声输入更鲁棒。在在本文中，我们分别为深度预测σz、3D中心偏移σuv和成对距离σk添加了如图1中的σ他们不考虑相机坐标中的3D距离kw，因为它对于不同视角是不变的，如图5a所示。如在取向γ的估计中，考虑到通过视角的外观变化，在pw的局部坐标中的3D绝对距离kv在推理中，我们首先估计对象的2D位置，并提取位于预测的2D包围盒中心的中间的成对约束关键点。预测的kv为在距离分支的密集特征图中提取基于关键点位置。我们在训练和参考中都不考虑该约束关键点的偏移，并且直接将成对对象的2D中心的中间点pb四舍五入3.5. 不确定根据[15，16]中的异方差任意不确定性设置，我们将具有L1损失的回归任务表示为[yθ，σθ]=fθ（x），（5）√2L（θ）= y−y+logσ。（六）主要用于对3.6节中给出的误差项进行加权。3.6. 空间约束优化作为本文的主要贡献，我们提出了一个后优化过程从图的角度来看。假设在一幅图像中，网络输出N个有效对象，并且基于3.4节中的策略，它们之间存在M对约束。这些成对的物体是G视为顶点ξ大小为N和M成对的约束被认为是图的边。每个顶点可以连接多个邻居。在优化后不再更新未被其他顶点连接的预测对象所提出的空间约束优化被公式化为非线性最小二乘问题，Arg mineTWe，（7）（ui，vi，zi）NG其中e是误差向量，W是不同误差的权重矩阵W是一个对角矩阵，维数为3NG+ 3M。对于每个顶点i，有三个变量（ui，vi，zi），它们是要素地图上3D边界框的投影中心（ui，vi）和深度zi，如图所示12098JIJIJ× × ××我我我我我我我我我I.一.在图2中我们在下面介绍每个最小化项。成对约束误差对于连接Pwi和Pwj的每个成对约束，有三个误差项（ex，ey，ez）测量净误差之间的不一致性ij ij ij ij表1：每个的工作估计的3D距离kv 距离kvb-ijijWKITTI训练集的类别。通过两个相关联的获得的3D位置ci和cw来获得对象。Cw和Cw可以由变量（ui，vi，zi）表示，I j（uj，vj，zj）和已知的固有矩阵通过等式-第二种情况。因此，误差项（ex，ey，ez）是绝对差异。4.1. 培训ij ij ij ijk与k之间的关系kvv三个方向如下。-. −−w−w−→。我们采用修改后的DLA-34 [43]作为我们的骨干。输入图像的分辨率设置为380×1280。k ij=. R（γij）（c i −c j）。（八）.−−−−−−−→主干输出的特征图大小为xyz T. 波夫河96×320×64。11个输出分支中的每一个都连接（eij，eij，eij）=. kij− kij。（九）具有两个额外卷积层的骨干特征对象位置误差对于每个顶点Ei，有三个误差项（eu，ev，ez）用来自网络的预测值来正则化优化变量。我们使用该术语来约束网络估计对象位置与优化位置之间的偏差，如下所示。..联合谢谢尺寸为3 3 256和11 m，其中m是相关输出分支的特征通道。连接输出分支的卷积层保持相同的特征宽度和高度。因此，每个输出分支的特征尺寸为96×320×m。我们以端到端的方式在四个GPU上同时训练整个网络70个epoch，批量大小为32-ei=. ui+i−ui.（十）..ev=. vg+v−vi.（十一）ez=|z−z|（十二）是的初始学习率为1.25e-4，在45和60个时期都下降了0.1倍它使用Adam优化器进行训练，权重衰减为1 e-5。我们的行为不同-在训练期间输入数据增强策略，作为随机权重矩阵权重矩阵W由网络的不确定性输出σ_n构成。当不确定性较低时，误差的权重较高，这意味着我们对预测的输出更有信心。因此，我们使用1/σ作为W的元素。对于成对不一致的cy，三个误差项（ex，ey，ez）的权重是用于2D检测的裁剪和缩放，以及用于3D检测和成对约束预测的随机4.2. 评价ij ij ij ij与图6a中所示的预测的1/σij相同。F或ob-对象位置误差，深度误差ez的权重为1/σz，在[36]之后，我们使用40点插值平均精度度量AP，平均精度结果为40i i40如图6 b所示，对于eu和ev，1/σuv。我们看到-除了召回为0的位置之外的召回位置。关于previ-实现空间约束优化图6中的Understanding为我们提供了置信度范围来调整变量，以便可以联合最小化成对约束误差和对象定位误差。我们使用G2O[18]以在实现期间进行该图形优化结构4. 执行我们在挑战KITTI 3D物体检测数据集上进行实验[14]。它分为3712个训练样本和3769个验证样本，如[6]所示。根据其截断、遮挡和边界框高度的条件，将样本标记为容易、中等和困难。表1显示了通过所提出的配对策略从所有训练样本中获得的地面实况成对约束的计数。计数对象对成对宾语车14357 1111013620行人220711871614骑车人73421937112099KITTI3D的度量标准AP11在11个召回位置上平均精确度在世界空间中的鸟瞰图2D框APbv和3D边界框AP3D处评估精度。我们使用0.5和0.7作为阈值来报告交集大于并集（IoU）的平均精度。对于评估和消融研究，我们展示了三种不同设置的实验结果基线来自CenterNet [44]，具有额外的输出分支，以表示3D投影中心到定位关键点的偏移+σz+σuv在基线上增加了两个不确定性预测分支，基线由所有三个2D检测分支和六个3D检测分支组成，如图1所示。MonoPair是最后提出的方法集成了11个预测分支和成对空间约束优化。12100方法APBvIoU≥0.5AP3DIoU≥0.5APBvIoU≥0.7AP3DIoU≥0.7RT（毫秒）EMHEMHEMHEMH[44]第四十四话34.36 27.91 24.65 20.00 17.50 15.573.463.313.210.600.660.7745MonodIS[36]------18.45 12.58 10.66 11.067.606.37-MonoGRNet[31]52.13 35.99 28.72 47.59 32.28 25.50 19.72 12.81 10.15 11.907.565.7660M3D-RPN[3]*53.35 39.60 31.76 48.53 35.94 28.59 20.85 15.62 11.88 14.53 11.078.65161基线53.06 38.51 32.56 47.63 33.19 28.68 19.83 12.84 10.42 13.067.816.4947+σz+σuv59.22 46.90 41.38 53.44 41.46 36.28 21.71 17.39 15.10 14.75 11.429.7650MonoPair61.06 47.63 41.92 55.38 42.39 37.99 24.12 18.17 15.76 16.28 12.30 10.4257表2：KITTI3D确认集上的汽车AP40* 表示该值是我们自己从公共预训练模型或相关论文作者提供的结果中E、M和H代表容易、中等和坚硬样品。方法AP2DAOSAPbvAP3DEMHEMHEMHEMHMonoGRNet[31] 88.65 77.94 63.31---18.19 11.178.739.615.74 4.25MonodIS[36]94.61 89.15 78.37---17.23 13.19 11.12 10.37 7.94 6.40M3D-RPN[3]89.04 85.08 69.26 88.38 82.81 67.08 21.02 13.67 10.23 14.76 9.71 7.42MonoPair96.61 93.55 83.55 91.65 86.11 76.45 19.28 14.83 12.89 13.04 9.99 8.65表3：KITTI基准网站提供的KITTI 3D汽车测试集的AP40猫方法APbvAP3DEMHEMHPEDM3D-RPN[3]5.654.05 3.294.923.48 2.94MonoPair10.99 7.04 6.29 10.02 6.68 5.53CYCM3D-RPN[3]1.250.81 0.780.940.65 0.47MonoPair4.762.87 2.423.792.12 1.83表4：在0.7 IoU阈值下，来自KITTI3D测试集的行人和骑自行车者样本的AP40可以从KITTI基准网站上参考。5. 实验结果5.1. 定量和定性结果我们首先展示了我们提出的MonoPair在KITTI 3D汽车验证集上的性能，与其他最先进的（SOTA）单目3D探测器（包括MonodIS [36]，MonoGRNet [31]和M3D-RPN）进行了[3]在表2中。由于MonoGRNet和M3 D-RPN尚未通过AP40发布其结果，因此我们通过其发布的检测结果或模型评估如表2所示，尽管我们的基线仅与SOTA检测器M3D-RPN相当或稍差，但MonoPair的性能远远优于所有其他检测器，特别是对于不确定性和成对空间条件增强的硬检测基准1，我们实现了最高的得分为Mod-erate样本和排名在第一位的3D单目物体检测器，而无需使用额外的信息。 AP2D和AOS是遵循基准的用于2D对象检测和方向估计的度量。除了APbv和AP3D的Easy结果外，我们的方法在大范围内优于M3 D-RPN，特别是对于硬样本。证明了所提出的两两约束优化方法对高度遮挡样本的有效性我们在表4中显示了KITTI测试集上的行人和骑自行车者检测结果。由于MonoDIS [36]和MonoGRNet [31]没有报告其在步行者和骑自行车者类别上的性能，因此我们仅将我们的方法与M3 D-RPN [3]进行比较。它是我们MonoPair的一个重大改进。尽管行人和骑自行车者的训练样本相对较少，但与目标无关检测器相比，所提出的成对空间约束通过利用对象关系而深入得多此外，与那些依赖于耗时的区域建议网络的方法相比[3，36]，我们的一级无锚检测器在Nvidia GTX 1080Ti上的速度快了两倍多。如表2所示，它可以以每幅图像57 ms的速度实时执行推理。5.2. 消融研究我们针对不同的不确定项和成对约束计数进行了两项消融研究，均在KITTI 3D验证集上通过AP40进行。我们只显示结果从中度样本在这里。紧张表3显示了我们的MonoPair在KITTI3D汽车测试仪从KITTI 3D对象de-1 http://www.cvlibs.net/datasets/kitti/evalobject.php？obj基准=3d12101图7：KITTI验证集中的定性结果青色、黄色和灰色表示汽车、行人和骑自行车的人的预测不确定IoU≥0.5IoU≥0.7APbvAP3DAPbvAP3D基线+σuv38.5142.7933.1938.7512.8414.387.818.96+σz45.09 40.46 15.79 10.15+σz+σuv46.90 41.46 17.39 11.42表5：不同不确定度项的消融研究。对图像APbvAP3D不确定。MonoPair不确定。MonoPair0-1140410.4010.445.416.022-4117613.2514.008.468.975-888720.4522.3214.6315.549-30225.4925.8717.9818.94表6：通过0.7 IoU，不同对计数的消融研究改善。对于不确定度研究，除了上述基线和+σz+σuv设置外，我们添加了σz和σuv方法，仅基于基线预测深度或投影偏移不确定度。根据表5，深度和炮检距的不确定性预测显示基线以上有相当大的发展，其中深度的改善较大。结果表明，深度预测是一项更具挑战性的任务，它可以从不确定项中获益这证明了在三维目标预测中引入不确定性的必要性，而这在以往的检测器中是在成对约束方面，我们根据地面真值成对约束的计数将验证集划分为不同的不确定性。在表6中表示+σz+σuv 为简单起见。通过检查表 6 中的 APbv 和AP3D，具有5至8对的第三组显示出更高的平均精度改善。一种可能的解释是，较少的对可能无法提供足够的约束，而较多的对可能会增加优化的复杂性。此外，为了证明使用不确定性来衡量相关误差的利用率，我们尝试了各种策略来设计权重矩阵，例如，对靠近相机的物体给予更多的置信度或将权重矩阵设置为单位。然而，这些策略中没有一个显示出检测性能的改进。另一方面，由于后优化过粗，基线很容易下降到更差。结果表明，所提出的空间约束优化的权重矩阵的设置是非平凡的。而不确定性，除了其原有的功能，以加强网络的训练，自然是一个有意义的选择不同的误差项的权重。6. 结论我们提出了一种新的后优化方法，用于从单目相机进行不确定性感知训练的3D对象检测。通过在网络中引入任意不确定性通过探索目标对的空间约束，我们观察到几何关系在目标检测中的巨大潜力，这是以前很少考虑的。对于未来的工作，寻找跨对象类别的空间关系和创新配对策略将是令人兴奋的下一步。12102引用[1] 伊万·巴拉巴瑙，阿列克谢·阿特莫夫，叶夫根尼·布尔纳耶夫，和维切斯拉夫·穆拉什金.基于关键点几何推理的单目三维目标检测arXiv：1905.05618 [cs]，2019年5月。arXiv：1905.05618。[2] Lorenzo Bertoni ， Sven Kreiss ， and Alexandre Alahi.Monoloco：单目三维行人定位和不确定性估计。在IEEE计算机视觉国际会议（ICCV），2019年10月。[3] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d 区域提议网络。在 IEEE 计算机视觉国际会议（ICCV）上，2019年10月[4] FlorianChabot、MohamedChaouch、JaonaryRabarisoa 、 Ce'lineTeulie`re 和 ThierryChateau 。Deepmanta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。在IEEE计算机视觉和模式识别会议集，第2040-2049页[5] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目3D物体在2016年IEEE计算机视觉和模式识别会议（CVPR），第2147-2156页美国电气与电子工程师协会。[6] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun.用于精确对象类别检测的3D对象建议。神经信息处理系统进展，第424-432页，2015年[7] Xiaozhi Chen ， Kaustav Kundu ， Yukun Zhu ， HuiminMa，Sanja Fidler，and Raquel Urtasun.使用立体图像的3D对象建议，IEEE Transactions on Pattern Analysis andMachine Intelligence，40（5）：1259[8] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。[9] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯YOLOv3：一个精确和快速的目标检测器使用定位不确定性的自主驾驶。arXiv：1904.04620 [cs]，2019年4月。arXiv：1904.04620。[10] Bo Dai，Yuqi Zhang，and Dahua Lin.用深层关系网络检测视觉关系。在IEEE计算机视觉和模式识别会议论文集，第3076-3086页[11] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[12] Di Feng，Lars Rosenbaum，and Klaus Dietmayer.实现安全自动驾驶：在激光雷达3d车辆检测的深度神经网络中捕获不确定性。2018年第21届智能交通系统国际会议（ITSC），第3266-3273页。IEEE，2018年。[13] 亚林·加尔深度学习的不确定性博士论文，博士论文，剑桥大学，2016年。[14] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。[15] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第5574-5584页，2017年[16] 亚历克斯·盖伊·肯德尔计算机视觉深度学习中的几何和不确定性。博士论文，剑桥大学，2019年。[17] 作者：Alex D.Pon，and Steven L.瓦斯兰德单目3d物体检测利用精确的建议和形状重建。在IEEE计算机视觉和模式识别会议上，2019年6月。[18] Rai nerKümmerle ，Gior gioGrisetti ，Hauk eStrasdat ，KurtKonolige，and Wolfram Burgard.g2o：一个通用的图优化框架. 2011年IEEE机器人与自动化国际会议，第3607IEEE，2011年。[19] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集，第3559-3568页，2018年。[20] Peiang Li，Xiaozhi Chen，and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测。在IEEE计算机视觉和模式识别会议的论文集，第7644-7652页[21] Peixuan Li，Huaici Zhao，Pengfei Liu，and Feidao Cao.RTM3D：自动驾驶的目标关键点实时单目3D检测。arXiv：2001.03343 [cs]，2020。[22] 李益康，欧阳万里，周波磊，王坤，王晓刚.从对象、短语和区域字幕生成场景图2017年10月在IEEE计算机视觉国际会议（ICCV）上发表[23] 梁明，杨斌，王神龙，和拉奎尔·乌塔孙.多传感器三维目标检测的深度连续融合。In Vittorio Ferrari，MartialHebert ， Cristian Smin-chisescu ， and Yair Weiss ，editors，Computer Vision施普林格国际出版社，2018年。[24] Zech e nLiu，ZizhangWu，andRolandTo'th. 烟雾：通过关键点估计的单阶段单眼3D物体检测arXiv：2002.10111[cs]，2020.[25] Xinzhu Ma，Zhihui Wang，Haojie Li，Pengbo Zhang，Wanli Ouyang，and Xin Fan.用于自动驾驶的通过彩色嵌入式3d重建的精确单目3d物体检测。在IEEE计算机视觉国际会议，2019年10月。[26] Fabian Manhardt ， Wadim Kehl ， and Adrien Gaidon.ROI-10 d：将2d检测提升到6d姿态和度量形状的单目提升在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。12103[27] Arsalan Mousavian、Dragomir Anguelov、John Flynn和Jana Kosecka。使用深度学习和几何的3D边界框估计。2017年IEEE计算机视觉和模式识别会议（CVPR），第5632- 5640页，檀香山，HI，2017年7月。美国电气与电子工程师协会。[28] J Krishna Murthy，GV Sai Krishna，Falak Chhaya，andK Madhava Krishna.从单个图像重建车辆：用于道路场景理解的形状先验。2017年IEEE机器人与自动化国际会议（ICRA），第724-731页。IEEE，2017年。[29] 姜高范和在旭全。使用卷积神经网络在自动驾驶中进行对象检测的鲁棒对象属性重新排序信号处理：图像通信，53：110-122，4月。2017年。[30] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.从rgb- d数据中检测三维物体的平截体点网。在IEEE计算机视觉和模式识别会议论文集，第918-927页[31] 秦增义，王静璐，陆燕。Monogrnet：一个用于单目三维物体定位的几何推理网络。在AAAI人工智能会议论文集，第33卷，第8851-8858页[32] 秦增义，王静璐，陆燕。三角测量学习网络：从单目到立体3d物体检测。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[33] 托马斯·罗迪克、亚历克斯·肯德尔和罗伯托·西波拉。用于单目三维目标检测的正交特征变换arXiv预印本arXiv：1811.08188，2018。[34] Shaoshuai Shi ， Xiaogang Wang ， and Hongsheng Li.Pointr- cnn：从点云生成和检测3D对象建议。在IEEE计算机视觉和模式识别集，第770-779页[35] Kiwo

下载后可阅读完整内容，剩余1页未读，立即下载