单目3D目标检测的独立区域提议网络

29 浏览量更新于2023-10-13 收藏 13.82MB PDF 举报

3D目标检测

性能提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

92870M3D-RPN：用于目标检测的单目3D区域提议网络0Garrick Brazil，XiaomingLiu，密歇根州立大学，东兰辛0{brazilga, liuxm}@msu.edu0摘要0在城市自动驾驶中，理解3D世界是至关重要的。通常，昂贵的激光雷达传感器和立体RGB成像的组合对于成功的3D目标检测算法至关重要，而仅使用单目图像的方法则会导致性能大幅下降。我们提出将单目3D检测问题重新定义为一个独立的3D区域提议网络，以缩小差距。我们利用2D和3D视角的几何关系，使得3D边界框能够利用在图像空间中生成的众所周知且强大的卷积特征。为了解决3D参数估计的困难，我们进一步设计了深度感知卷积层，使得特征能够在特定位置进行开发，并因此改进了3D场景理解。与以往的单目3D检测工作相比，我们的方法仅包括所提出的3D区域提议网络，而不依赖于外部网络、数据或多个阶段。M3D-RPN能够显著提高KITTI城市自动驾驶数据集中单目3D目标检测和鸟瞰图任务的性能，同时高效地使用共享的多类别模型。01. 引言0在3D场景理解中，对于设计有效的现实世界系统（如城市自动驾驶[2, 10,15]和机器人技术[17, 36]）起着重要作用。目前，3D检测的主要方法[12, 24, 31, 35,41]主要依赖于昂贵的激光雷达传感器提供稀疏深度数据作为输入。相比之下，仅使用单目图像的3D检测[7, 8, 28,40]由于缺乏深度线索而更加困难。因此，激光雷达方法和单目方法之间的性能差距仍然很大。以往的单目3D检测工作都严重依赖于外部的最先进（SOTA）子网络，这些子网络分别负责生成点云[8]、语义分割[7]、2D检测[28]或深度估计[40]。这些方法在组件学习上存在固有的断裂和系统复杂性。相比之下，我们提出了一个单独的端到端区域提议网络，用于多类别3D目标检测（图1）。我们观察到2D目标检测表现良好并且持续取得快速进展[5,6, 11, 14, 19,33]。2D和3D检测任务的目标都是最终对所有对象实例进行分类；但它们在定位目标的维度上存在差异。直观地说，我们期望可以利用2D检测的能力来引导和提高3D检测的性能，理想情况下是在一个统一的框架中而不是作为独立的组件。因此，我们提出重新定义3D检测问题，使得2D和3D空间共享锚点和分类目标。通过这样做，3D检测器在可靠地对对象进行分类方面自然能够与其2D对应物的性能相媲美。因此，剩下的挑战就是在相机坐标空间内进行3D定位。为了解决剩下的困难，我们提出了三个关键设计，旨在改进3D估计。首先，我们将3D锚点主要用于图像空间，并使用每个3D参数的先前统计数据初始化所有锚点。因此，每个离散化的锚点在3D推理方面具有强大的先验知识，基于固定相机视点的一致性和2D尺度与3D深度之间的相关性。0CNN0IM0M3D-RPN 3D目标检测0图1.M3D-RPN使用单个单眼3D区域提议网络，其中包括全局卷积（橙色）和局部深度感知卷积（蓝色），用于预测多类别3D边界框。0tion[28]，或深度估计[40]。这种方法的一个缺点是组件学习之间存在固有的断裂以及系统复杂性。此外，依赖于额外的子网络可能会引入持续的噪声，从而限制了框架的上限。相比之下，我们提出了一个单一的端到端区域提议网络，用于多类别3D目标检测（图1）。我们观察到2D目标检测表现合理，并且持续取得快速进展[5, 6, 11, 14, 19,33]。2D和3D检测任务的目标都是最终对所有对象实例进行分类；但它们在定位目标的维度上存在差异。直观地说，我们期望可以利用2D检测的能力来引导和提高3D检测的性能，理想情况下是在一个统一的框架中而不是作为独立的组件。因此，我们提出重新定义3D检测问题，使得2D和3D空间共享锚点和分类目标。通过这样做，3D检测器在可靠地对对象进行分类方面自然能够与其2D对应物的性能相媲美。因此，剩下的挑战就是在相机坐标空间内进行3D定位。为了解决剩下的困难，我们提出了三个关键设计，旨在改进3D估计。首先，我们将3D锚点主要用于图像空间，并使用每个3D参数的先前统计数据初始化所有锚点。因此，每个离散化的锚点在3D推理方面具有强大的先验知识，基于固定相机视点的一致性和2D尺度与3D深度之间的相关性。92880其次，我们设计了一种新颖的深度感知卷积层，能够学习具有空间感知能力的特征。传统上，卷积操作更喜欢是空间不变的[21,22]，以便在任意图像位置检测对象。然而，尽管对于低级特征可能是有益的，但我们发现高级特征在增加深度感知能力和假设一致的相机场景几何形状时会得到改善。最后，我们使用后优化算法在3D →2D投影一致性损失的帮助下优化方向估计θ。因此，在假设可靠的2D边界框的情况下，有助于纠正θ估计中的异常。总结起来，我们的贡献如下：0•我们提出了一个独立的单目3D区域提议网络（M3D-RPN），具有共享的2D和3D检测空间，同时使用先前的统计数据作为每个3D参数的强初始化。 •我们提出了深度感知卷积来改善3D参数估计，从而使网络能够学习更具空间感知能力的高级特征。 •我们提出了一个简单的方向估计后优化算法，该算法使用3D投影和2D检测来改善θ估计。 • 我们在城市KITTI[15]基准测试中实现了最先进的性能，使用单个多类网络进行单目鸟瞰图和3D检测。02. 相关工作02D检测：许多研究都涉及通用[20, 23, 25, 29,32]和城市场景[3-6, 26, 27, 33, 42,45]的2D检测。最近的框架基于Faster R-CNN[34]的开创性工作，因为引入了区域提议网络（RPN）作为一种高效生成对象提议的方法。RPN作为一个滑动窗口检测器，在图像的每个空间位置检查是否存在与一组预定义的模板形状（称为锚点）匹配的对象。尽管RPN被构想为FasterR-CNN中的一个初步阶段，但它通常被证明具有很高的有效性，并被扩展为单次独立检测器[25, 32, 38,44]。我们的框架建立在RPN的锚点之上，专门设计用于在2D和3D空间中运行，并作为一个单次多类3D检测器。0LiDAR 3D检测：使用LiDAR数据已被证明是SOTA框架[9,12, 13, 24, 31, 35,41]在应用于城市场景的3D物体检测中的重要输入。领先的方法倾向于处理来自LiDAR点的稀疏点云[31, 35,41]或将点云投影到一组2D平面中[9,12]。虽然基于LiDAR的方法通常在各种3D任务中表现出色，02D RPN0R-CNN0后优化0CNN03D检测0IM0外部/冻结内部/端到端0R-CNN02D RPN03D检测0IM0点云03D检测0IM0后优化0深度2D-3D RPN0图2. Deep3DBox [28]和Multi-Fusion[40]与M3D-RPN的比较。请注意，先前的工作由多个内部阶段（橙色）和外部网络（蓝色）组成，而M3D-RPN是一个端到端训练的单次网络。0每个都取决于从LiDAR点生成的深度信息的可用性或直接通过点云处理生成的深度信息。因此，这些方法不适用于仅相机应用，这是我们单目3D检测算法的主要目的。0仅图像的3D检测：仅使用图像数据进行3D检测由于缺乏可靠的深度信息而困难。SOTA基于图像的3D检测方法[1, 7,8, 28,40]的一个共同主题是使用一系列子网络来辅助检测。例如，[8]使用SOTA深度预测与立体处理来估计点云。然后，在已知的相机投影矩阵的情况下，沿着地平面上放置3D立方体，并根据立方体区域在近似点云中的密度进行评分。作为后续工作，[7]通过将点云密度启发式替换为估计的语义分割、实例分割、位置、空间上下文和形状先验的组合，从立体到单目调整设计，在地平面上对提议进行详尽的分类。在最近的工作中，[28]使用外部SOTA对象检测器生成2D提议，然后在深度神经网络中处理裁剪的提议以估计3D尺寸和方向。与我们的工作类似，然后利用2D框和投影到图像平面上的3D框之间的关系在后处理中求解3D参数。然而，我们的模型直接预测3D参数，因此只优化以改善θ，实际上在约8次迭代中收敛，而[28]中需要64次迭代。Xu等人[40]利用额外的网络预测深度图，然后使用类似于LiDAR的点云来估计点云。然后，使用从单独的2DRPN生成的2D边界框对点云进行采样。最后，R-CNN分类器接收由采样的点云和图像特征组成的输入向量，以估计3D框参数。.(1)92890图3.M3D-RPN概述。所提出的方法包括全局（橙色）和局部（蓝色）特征提取的并行路径。全局特征使用常规的空间不变卷积，而局部特征表示深度感知卷积，如右侧所述。深度感知卷积在行空间ki中使用非共享内核，其中b表示不同bin的总数。为了利用这两种特征变体，我们加权组合并行路径的每个输出参数。0与之前的工作相比，我们提出了一个仅使用3D框架训练的单一网络，而不是使用一组外部网络和数据源，并由多个阶段组成。每个之前的工作[7，8，28，40]都至少使用一个组件的外部网络，其中一些还使用了外部数据进行训练。据我们所知，我们的方法是使用单眼3D区域建议网络（M3D-RPN）同时生成2D和3D对象建议的第一个方法。从理论上讲，M3D-RPN与之前的工作互补，可以用来替代建议生成阶段。我们进一步详细比较了我们的方法和之前的方法，如图2所示。03. M3D-RPN0我们的框架由三个关键组件组成。首先，我们详细介绍了多类3D区域建议网络的整体公式。然后，我们概述了深度感知卷积和我们的集合网络架构的细节。最后，我们详细介绍了一种简单但有效的用于增加3D→2D一致性的后优化算法。我们将我们的方法称为单眼3D区域建议网络（M3D-RPN），如图3所示。3.1.公式化我们提出的框架的核心基础是基于区域建议网络（RPN）的原则，该原则首次在Faster R-CNN[34]中提出，针对3D进行了调整。从高层次上看，区域建议网络充当滑动窗口。0窗口检测器扫描输入图像的每个空间位置，以匹配一组预定义的锚模板。然后，将匹配从离散的锚点回归到估计对象的连续参数。0锚定义：为了同时预测2D和3D框，每个锚模板使用两个空间的参数来定义：[w，h]2D，zP和[w，h，l，θ]3D。为了放置锚并定义完整的2D/3D框，必须指定共享的中心像素位置[x，y]P。2D表示的参数以像素坐标形式提供。我们通过将相机坐标中的3D中心位置[x，y，z]3D投影到图像中，使用已知的投影矩阵P∈R3×4来编码深度参数zP。0�x ∙ z∙ z z0�0�0P0= P ∙0�0�0xyz10�0��03D0θ3D表示观察视角[15]。与相机坐标系中的Y轴旋转相比，观察角度考虑的是物体相对于相机视角而不是地面平面的鸟瞰视图（BEV）的相对方向。因此，在处理图像特征时，观察角度在直观上更有意义。我们将剩余的3D尺寸[w，h，l]编码为相机坐标系中给定的3D。x′2D = xP + tx2D · w2D,w′2D = exp(tw2D) · w2D,y′2D = yP + ty2D · h2D,h′2D = exp(th2D ) · h2D,(2)x′P = xP + txP · w2D,w′3D = exp(tw3D) · w3D,y′P = yP + tyP · h2D,h′3D = exp(th3D) · h3D,z′P = tzP + zP,l′3D = exp(tl3D) · l3D,θ′3D = tθ3D + θ3D.(3)Lc = − log�exp(cτ)Σnciexp(ci)Lb2D = − log�IoU(b′2D,ˆb2D)�.(5)L = Lc + λ1Lb2D + λ2Lb3D.(7)92900图4.锚点公式和可视化的3D锚点。我们描述了2D/3D锚点公式的每个参数（左侧）。我们可视化了在图像视图（中间）和鸟瞰视图（右侧）中投影后使用12个锚点的预先计算的3D先验。仅用于可视化目的，我们在特定的x3D位置上展开锚点，以在视图中最小化重叠。0每个锚点的 z P 和 [ w, h, l, θ ] 3D的均值统计量是针对每个锚点单独预先计算的，它们作为强先验用于减轻估计3D参数的困难。具体而言，对于每个锚点，我们使用与对应的 [ w, h ] 2D 锚点的边界框具有 ≥ 0.5的交并比（IoU）的所有匹配真实边界框的统计量。因此，锚点表示离散化的模板，其中3D先验可以作为强大的初始猜测，从而假设一个合理一致的场景几何。我们在图4中可视化了锚点的形式以及预先计算的3D先验。03D检测：我们的模型为每个锚点预测输出特征图，包括c、[ t x , t y , t w , t h ] 2D、[ t x , t y , t z ] P 和 [ t w , t h, t l , t θ ] 3D 。设 n a 为锚点数量，n c 为类别数量，h ×w 为特征图分辨率。因此，每个像素位置 [ x, y ] P ∈ R w× h 上的每个锚点都有 n b = w × h × n a个边界框输出。第一个输出 c 表示共享的分类预测，大小为n a × n c × h × w，而其他每个输出的大小为 n a × h ×w。[ t x , t y , t w , t h ] 2D的输出表示2D边界框的变换，我们将其统称为 b2D。根据[34]的方法，边界框变换应用于具有 [ w, h ] 2D的锚点，如下所示：0其中 x P 和 y P表示每个边界框的空间中心位置。因此，变换后的边界框 b ′2D 定义为 [ x, y, w, h ] ′2D。接下来的7个输出表示变换，分别表示投影中心 [ t x , t y ,t z ] P，尺寸 [ t w , t h , t l ] 3D 和方向 t θ3D，我们将其统称为 b 3D。与2D类似，变换应用于具有参数 [w, h ] 2D、z P 和 [ w, h, l, θ ] 3D 的锚点，如下所示：0因此，b ′ 3D 被表示为 [ x, y, z ] ′ P 和 [ w, h, l, θ ] ′ 3D。如前所述，我们估计的是投影到图像空间的3D中心，而不是相机坐标，以更好地处理仅基于图像空间的卷积特征。因此，在推理过程中，我们通过使用方程的逆过程，将图像空间中的投影3D中心位置从 [ x, y, z ] ′ P 反投影到相机坐标 [x, y, z ] ′ 3D 。0损失定义：我们的框架的网络损失由分类 L c和2D和3D的边界框回归损失组成，分别表示为 L b 2D 和 Lb 3D。对于每个生成的边界框，我们检查是否存在至少 ≥0.5的IoU的真实边界框，如[34]所述。如果是，则对于每个生成的边界框，我们使用最佳匹配的真实边界框来定义一个目标，其中包括类别索引 τ、2D边界框 ˆ b 2D 和 3D边界框 ˆb 3D。否则，τ被分配给全背景类别，并且忽略边界框回归。我们使用基于softmax的多项式逻辑损失来监督 L c，定义如下：0损失函数L b 2D = −log � IoU ( b ′ 2D , ˆ b2D ) � . (5)0我们使用负逻辑损失函数应用于匹配的真实边界框 ˆ b 2D和变换后的 b ′ 2D 之间的IoU，类似于[37,43]，定义如下：0其余的3D边界框参数分别使用应用于变换 b 3D 和真实变换ˆ g 3D（使用 ˆ b 3D 按照方程的逆过程生成）的平滑 L 1回归损失进行优化，如下所示：0L b 3D = 平滑 L 1 ( b 3D , ˆ g 3D ) . (6)0因此，整体的多任务网络损失 L，包括正则化权重 λ 1 和 λ2，表示为：10σ ← σ · γ;11else if loss− < loss+ then12θ ← θ − σ;13η ← loss−1515else1717θ ← θ + σ;18η ← loss+Oi = Oiglobal · αi + Oilocal · (1 − αi).(8)Υ0 =−lllll−l −l −1−h −hhh −h −hhh−w −w −w wwww−w′3D/ 2,Υ3D =cos θ0sin θ010− sin θ0cos θ000 Υ0 + P−1x · zy · zz1′P,ΥP = P · Υ3D,Υ2D = ΥP./ΥP[φz],xmin = min(Υ2D[φx]),ymin = min(Υ2D[φy]),xmax = max(Υ2D[φx]),ymax = max(Υ2D[φy]).(9)929103.2. 深度感知卷积0空间不变卷积一直是计算机视觉中深度神经网络的主要操作[ 21 , 22]。我们期望网络的早期层中的低级特征可以合理地共享，并且对深度或物体尺度是不变的。然而，我们直观地认为，与三维场景理解相关的高级特征在假设固定的相机视角时是依赖于深度的。因此，我们提出了深度感知卷积作为提高区域建议网络中高级特征的空间感知能力的手段，如图3所示。深度感知卷积层可以粗略地概括为常规的二维卷积，其中一组离散的深度能够学习非共享的权重和特征。我们引入一个超参数b，表示将特征图分成多少行的区域，每个区域学习一个唯一的卷积核k。实际上，深度感知卷积核使得网络能够为每个区域开发位置特定的特征和偏置，理想情况下利用城市场景中固定视点的几何一致性。例如，高级语义特征，如编码用于检测汽车的大轮子的特征，在近距离是有价值的，但在远距离通常不是。类似地，我们直观地认为与三维场景理解相关的特征与它们在图像中的行位置是密切相关的。使用深度感知卷积的一个明显缺点是在给定层的情况下内存占用的增加 ×b。然而，执行卷积的总体理论FLOPS无论卷积核是否共享都保持一致。我们在PyTorch [ 30]中实现了深度感知卷积层，通过将一个层 L 展开成 b个填充的区域，然后重新利用组卷积操作在GPU上执行高效的并行操作。03.3. 网络架构0我们的网络的主干使用DenseNet-121 [ 18]。我们移除最后的池化层，以保持网络的步幅为16，然后通过将最后的Dense-Block中的每个卷积层扩张2倍来获得更大的视野。我们在主干网络的末尾连接两条并行路径。第一条路径使用常规卷积，其中卷积核在空间上共享，我们称之为全局路径。第二条路径专门使用深度感知卷积，称为局部路径。对于每条路径，我们附加一个提议特征提取层，使用各自的卷积操作生成 F global 和 Flocal。每个特征提取层使用一个 3 × 3 的卷积核和 1的填充，并且后面跟着一个ReLU非线性激活。然后我们将这 12 个输出连接到对应的 F，分别对应于 c，[ t x , t y , tw , t h ] 2D，[ t x , t y , t z ] P，[ t w , t h , t l , t θ ]3D。每个输出使用一个 1 × 1 的卷积核，总体上表示为0实际上，在使用PyTorch [ 30]中的并行组卷积实现时，我们观察到重塑的开销增加了10%到20%。0输入：b ′ 2D ， [ x, y, z ] ′ P ， [ w, h, l, θ ] ′ 3D ，σ，β，γ0ρ ← box-project ([ x, y, z ] P , [ w, h, l, θ − σ ] 3D )0η ← L 1 ( b ′ 2D , ρ )0当 σ ≥ β 时0ρ − ← box-project ([ x, y, z ] P , [ w, h, l, θ − σ ] 3D )0ρ + ← box-project ([ x, y, z ] P , [ w, h, l, θ + σ ] 3D )0loss − ← L 1 ( b ′ 2D , ρ − )0loss + ← L 1 ( b ′ 2D , ρ + )0如果 min( loss − , loss + ) > η ，则019 结束020 end Algorithm 1: 后处理3D →2D算法。该算法的输入为2D/3D框 b ′ 2D ，[ x, y, z ] ′ P，[ w, h, l, θ ] ′ 3D ，步长 σ ，终止条件 β 和衰减 γ参数，然后通过 L 1 角一致性损失函数迭代调整 θ 。0O global 和 O local。为了利用深度感知和空间不变性的优势，我们使用学习到的注意力 α（经过sigmoid函数处理）来融合每个输出，对于 i = 1 . . . 12，融合方式如下：03.4. 后处理3D → 2D 优化我们使用一种简单但有效的后处理算法来优化方向参数 θ（详见算法1）。该优化算法的输入包括2D和3D框估计 b ′2D ，[ x, y, z ] ′ P ，[ w, h, l, θ ] ′ 3D ，以及步长 σ，终止条件 β 和衰减 γ 参数。该算法通过迭代调整 θ，并使用 L 1 损失函数将投影的3D框与 b ′ 2D进行比较。3D → 2D框投影函数定义如下：TypeIoU ≥ 0.7 [val1 / val2 / test]IoU ≥ 0.5 [val1 / val2]EasyModHardEasyModHardMono3D [7]Mono5.22 /-/-5.19 /-/-4.13 /-/-30.50 /-22.39 /-19.16 /-3DOP [8]Stereo12.63 /-/-9.49 /-/-7.59 /-/-55.04 /-41.25 /-34.55 /-Deep3DBox [28]Mono-/ 9.99 /--/ 7.71 /--/ 5.30 /--/ 30.02-/ 23.77-/ 18.83Multi-Fusion [40]Mono22.03 / 19.20 / 13.7313.63 / 12.17 / 9.6211.60 / 10.89 / 8.2255.02 / 54.1836.73 / 38.0631.27 / 31.46M3D-RPNMono25.94 / 26.86 / 26.4321.18 / 21.15 / 18.3617.90 / 17.14 / 16.2455.37 / 55.8742.49 / 41.3635.29 / 34.08Table 1. Bird’s Eye View. Comparison of our method to image-only 3D localization frameworks on the Bird’s Eye View task (APBEV).TypeIoU ≥ 0.7 [val1 / val2 / test]IoU ≥ 0.5 [val1 / val2]EasyModHardEasyModHardMono3D [7]Mono2.53 /-/-2.31 /-/-2.31 /-/-25.19 /-18.20 /-15.52 /-3DOP [8]Stereo6.55 /-/-5.07 /-/-4.10 /-/-46.04 /-34.63 /-30.09 /-Deep3DBox [28]Mono-/ 5.85 /--/ 4.10 /--/ 3.84 /--/ 27.04-/ 20.55-/ 15.88Multi-Fusion [40]Mono10.53 / 7.85 / 7.085.69 / 5.39 / 5.185.39 / 4.73 / 4.6847.88 / 45.5729.48 / 30.0326.44 / 23.95M3D-RPNMono20.27 / 20.40 / 20.6517.06 / 16.48 / 15.7015.21 / 13.34 / 13.3248.96 / 49.8939.57 / 36.1433.01 / 28.9892920表2. 3D检测。我们的方法与仅图像3D定位框架在3D检测任务（AP 3D）上的比较。0其中P-1是填充后的逆投影[0, 0, 0, 1]，φ表示轴[x, y,z]的索引。然后，我们使用由ρ=[xmin, ymin, xmax,ymax]和源b'2D计算的投影框来计算L1损失，该损失作为驱动启发式。当使用θ±σ没有改善损失时，我们通过γ衰减步骤并在σ≥β的情况下重复。3.5. 实现细节我们使用PyTorch[30]实现了我们的框架，并在http://cvlab.cse.msu.edu/project-m3d-rpn.html上发布了代码。为了防止局部特征过度拟合图像区域的子集，我们使用预训练的全局权重初始化局部路径。在这种情况下，每个阶段训练50k次迭代。我们期望更高程度的数据增强或迭代的分箱计划，例如b=2i，其中i=0...log2(bfinal)，可以在更复杂的超参数成本下实现更容易的训练。我们使用学习率为0.004，使用幂函数0.9的多项式衰减率，批量大小为2，权重衰减为0.9。我们设置λ1=λ2=1。所有图像的高度都缩放到512像素。因此，我们对所有深度感知卷积层使用b=32个bin。我们使用12个锚定尺度，范围从30到400像素，按照30∙1.265i的幂函数进行设置。0对于i=0...11和宽高比为[0.5, 1.0,1.5]的模板，我们定义了36个锚点以进行多类别检测。使用训练数据集详细说明了如何使用这些模板学习3D锚点先验，详见第3.1节。我们在2D空间中对框输出应用NMS，使用IoU标准为0.4，并过滤掉得分小于0.75的框。3D→2D优化使用σ=0.3π，β=0.01和γ=0.5的设置。最后，我们通过在每个小批量中采样损失最高的前20%的框来进行随机镜像和在线难负样本挖掘。我们注意到M3D-RPN依赖于3D框注释和每个序列的已知投影矩阵P。要扩展到没有这些已知的数据集，可能需要预测相机内参并利用3D-2D投影几何作为损失约束的弱监督。04. 实验0我们在具有挑战性的KITTI[15]数据集上对我们提出的框架进行了评估，涉及两个核心的3D定位任务：鸟瞰图（BEV）和3D物体检测。我们在官方测试数据集以及两个验证拆分[8,39]上全面比较了我们的方法，并对构成我们框架的关键组件进行了分析。我们还在多样化场景中对M3D-RPN进行了多类别3D物体检测的定性示例可视化（图5）。04.1. KITTI KITTI[15]数据集为与自动驾驶汽车相关的视觉问题提供了许多广泛使用的基准。其中，鸟瞰图（BEV）和3D物体检测任务最相关，用于评估3D定位性能。官方数据集包括7,481个训练图像和7,518个带有2D和3D注释的测试图像，用于汽车、行人和骑车者。对于每个任务，我们报告了三个不同难度设置下的平均精度（AP）：简单、中等和困难，详见[15]。方法还使用每个类别的不同IoU标准进行进一步评估。我们强调我们的结果是基于IoU≥0.7的车辆和IoU≥0.5的行人和骑车者的官方设置。我们在三个常见的数据拆分上进行实验，包括val1 [8]，val2[39]和官方测试拆分[15]。每个拆分包含来自非重叠序列的数据，以确保没有来自评估帧或其邻居的数据被用于训练。我们将比较重点放在使用仅图像输入的SOTA先前工作上。我们主要使用车辆类别进行比较，因为先前的工作已经关注了这一点[7, 8, 28,40]。然而，我们强调我们的模型是作为共享的多类别检测系统进行训练的，因此还报告了单目3D检测的多类别能力，详见表3。0鸟瞰图：鸟瞰图任务旨在从俯视角度进行目标检测。APBEV [val1 / val2 / test]AP3D [val1 / val2 / test]M3D-RPN90.24 / 84.34 83.67 / 83.78 67.69 / 67.85bPost-OptimAP2DAP3DAPBEVRT (ms)32✓83.6717.0621.18161cx2D y2D w2D h2D xP yP zP w3D h3D l3D θ3D334847454544454442384338%92930车辆 21.18 / 21.15 / 18.36 17.06 / 16.48 / 15.70 行人 11.60 /11.44 / 11.35 11.28 / 11.30 / 10.54 骑车人 10.13 / 9.09 / 1.2910.01 / 9.09 / 1.030表3.多类别3D定位。我们的方法作为一个多类别3D检测系统使用单个共享模型时的性能。我们在KITTI上使用mod设置进行评估。02D检测 [val1 / test]0简单模型困难0Mono3D [7] 93.89 / 92.33 88.67 / 88.66 79.68 / 78.96 3DOP[8] 93.08 / 93.04 88.07 / 88.64 79.39 / 79.10 Deep3DBox [28]- / 92.98 - / 89.04 - / 77.17 Multi-Fusion [40] - / 90.43 - /87.33 - / 76.780表4.2D检测。我们的方法在val1和测试数据集上使用车辆类进行2D检测的性能评估。0地面平面。因此，所有的3D框首先被投影到地面平面上，然后应用自顶向下的2D检测。我们根据表1中的详细信息在每个数据集上评估M3D-RPN。M3D-RPN在所有数据集和协议设置上都比SOTA仅使用图像的检测器取得了显著的改进。例如，在与val1的IoU ≥0.7的标准下，我们的方法在中等难度上达到了21.18%（↑7.55%），在困难难度上达到了17.90%（↑6.30%）。我们进一步强调我们在测试集上的表现，该测试集在IoU ≥0.7的情况下达到了18.36%（↑8.74%）和16.24%（↑8.02%），分别在中等和困难设置中，这是最具挑战性的设置。03D目标检测：3D目标检测任务旨在直接在相机坐标系中进行目标检测。因此，所有IoU计算中引入了一个额外的维度，这大大增加了与BEV任务相比的定位难度。我们根据表2中描述的所有常用研究协议在每个数据集上评估我们的方法的3D检测。我们的方法在每个协议和数据集上都比最先进的仅使用图像的方法取得了显著的提升。我们强调当前评估3D定位最困难的挑战是3D目标检测任务。同样，IoU ≥0.7的中等和困难设置是最难评估的协议。在这些设置下，我们的方法分别显著达到了17.06%（↑11.37%）和15.21（↑9.82%）。我们还观察到在其他数据集上也有类似的增益。例如，在使用测试数据集进行评估时，我们在中等和困难设置上分别达到了15.70%（↑10.52）和13.32%（↑8.64），尽管我们是作为一个共享的多类别模型进行训练，并与单一模型方法[7, 8, 28, 40]进行比较。当使用IoU ≥0.5等较宽松的标准进行评估时，我们的方法显示出较小但合理的差距（约3-6%），这意味着M3D-RPN的召回率与先前的方法相似，但整体精度更高。082.16 10.99 12.99 118 � 82.16 15.08 17.47 128 1 �82.88 12.87 17.91 133 4 � 84.15 14.46 19.14 134 8 �83.86 16.04 20.99 143 16 � 83.02 15.97 18.48 1530表5. 消融实验。我们通过对比深度感知卷积的b效果和后优化的3D→2D算法对车辆中等设置的性能和运行时间（RT）进行了消融分析。0表6.本地和全局α权重。我们详细说明了学习到的α权重，用于分别融合每个全局和本地输出。较低的权重意味着更高的权重用于本地深度感知卷积。0多类别3D检测：为了展示超越单一类别的泛化能力，我们在汽车、行人和骑行者类别上评估了我们提出的3D检测框架。我们在KITTI测试数据集上进行了Bird's Eye View和3DDetection任务的实验，详见表3。虽然没有用于多类别的单目3D检测方法进行比较，但值得注意的是，行人的性能优于汽车，这通常是相反的关系，从而表明了合理的性能。然而，对于骑行者，M3D-RPN明显不稳定，这表明需要先进的采样或数据增强来克服对汽车和行人的数据偏差。02D检测：我们在2D汽车检测上评估了我们的性能（详见表4）。我们注意到M3D-RPN在2D任务中的表现较差。然而，我们强调之前的工作[7, 8, 28,40]使用了外部网络、数据源，并包含多个阶段（例如Fast[16]，Faster R-CNN[34]）。相比之下，M3D-RPN仅使用单次3D提议网络同时执行所有任务。因此，我们的工作重点主要是改进3D检测提议的质量和3D定位的准确性。尽管M3D-RPN不能直接与2D检测的SOTA方法竞争，但其性能适合于促进BEV和3D检测等重点任务。4.2.消融实验对于所有消融实验和实验分析，我们使用KITTIval1数据集进行评估，并使用汽车类别。此外，我们使用每个任务的中等设置，包括2D检测、3D检测和BEV（表5）。0深度感知卷积：我们提出了深度感知卷积作为一种提高高级特征的空间感知能力的方法。为了更好地理解深度感知卷积的效果，我们从以下角度进行了分析。92940图5. 定性示例。我们展示了多类别3D物体检测方法的定性示例。我们使用黄色表示汽车，绿色表示行人，橙色表示骑行者。所有示例图像均来自val1[8]数据集，未用于训练。0超参数b表示离散区间的数量。由于我们的框架使用512像素的图像尺度和16的网络步长，输出特征图可以自然地分为512个区间。016 =32个区间。因此，我们在表5中描述的情况下，对使用[4, 8,16, 32]区间的情况进行了消融实验。我们还对b =1的特殊情况进行了消融实验，这相当于使用两个全局流。我们观察到b = 1和b =4的性能通常比没有本地特征的基线差，这表明任意添加更深的层对于3D定位来说并不是有帮助的。然而，当使用b =32时，我们观察到一致的改进，AP BEV提升了3.71％，AP3D提升了1.98％，AP2D提升了1.51％。我们在sigmoid之后分解了学习到的α权重，用于融合全局和本地输出（表6）。较低的值偏向于本地分支，较高的值偏向于全局分支。有趣的是，分类c输出对本地特征的依赖性最高，这表明城市场景中的语义特征在一定程度上依赖于深度位置。03D到2D优化：后优化算法鼓励在图像空间中投影的3D框与预测的2D框之间的一致性。我们在表5中详细说明了这种优化的有效性。我们观察到后优化对BEV和3D检测性能都有显著影响。具体而言，我们观察到AP BEV提升了4.48％，AP3D提升了4.09％。我们还观察到该算法平均在大约8次迭代中收敛，并且在运行时每张图像增加了13毫秒的开销。0效率：我们强调我们的方法仅使用单个网络进行推断，因此涉及的整体3D预测比之前的工作更多。之前的工作使用多个网络和阶段（RPN与R-CNN）。0[7，8，28，40]。我们注意到，由于之前的工作中缺乏报告，直接效率比较是困难的。然而，我们全面报告了M3D-RPN在每个消融实验中的效率，其中b和后优化是关键因素，详见表5。运行时效率使用NVIDIA 1080 ti GPU在KITTIval1数据集上进行平均计算。我们注意到，深度感知卷积对b =1...32产生2-20%的开销，这是由PyTorch中的展开和重塑引起的。05. 结论0在这项工作中，我们提出了使用单次拍摄的3DRPN对单目图像的3D目标检测进行重新定义，与之前的工作相比，该工作由外部网络，数据源和多个阶段组成。M3D-RPN独特地设计了共享的2D和3D锚点，这些锚点利用了与2D尺度和3D深度之间的相关性密切相关的强先验知识。为了帮助改进3D参数估计，我们进一步提出了深度感知卷积层，使网络能够开发具有空间感知特征。总的来说，我们能够显著提高KITTI数据集上对车辆，行人和骑车人类别的鸟瞰图和3D目标检测任务的性能。0致谢：本研究部分资助来自美国陆军研究办公室，合同编号W911NF-18-1-0330。本文中所包含的观点和结论仅代表作者本人，不应被解释为美国陆军研究办公室或美国政府的官方政策，无论是明示还是暗示。美国政府有权为政府目的复制和分发再版，尽管此处有任何版权注释。92950参考文献0[1] Yo

下载后可阅读完整内容，剩余1页未读，立即下载