MonoDTR：基于深度感知Transformer的单目3D物体检测

173 浏览量更新于2023-10-26 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4012MonoDTR：基于深度感知Transformer的1吴宗汉1苏宏庭1黄宽智。许1、21国立台湾大学2行动驱动科技摘要单目3D物体检测是自动驾驶中的重要而又具有一些现有的方法利用来自现成深度的（一）伪激光雷达3D检测估计器，以协助3D检测，但遭受广告-减少计算负担并实现由不准确的深度先验引起的有限性能。为了缓解这一问题，我们提出了MonoDTR，一种新型的端到端深度感知Transformer网络，用于单目3D对象检测。它主要由两部分组成：（1）深度感知（b）第（1）款3D检测骨干融合骨干特征增强（DFE）模块，隐式学习具有辅助监督而不需要额外计算的深度感知特征，以及（2）全局集成上下文和深度感知特征的深度感知此外，不同于传统的逐像素位置编码，我们引入了一种新的深度位置编码（DPE）来将深度位置提示注入到变换器中。我们提出的深度感知模块可以很容易地插入到现有的图像只有单眼的三维物体检测器，以提高性能。在KITTI数据集上进行的大量实验表明，该方法的性能优于现有的基于单目的方法，并实现了实时检测。代码可在https：github.com/kuanchihhuang/MonoDTR获得。1. 介绍三维（3D）对象检测是基本问题，并且使得能够实现诸如自动驾驶的各种应用。先前的方法基于来自多个传感器的准确深度信息（例如LiDAR信号）实现了卓越的性能[16，22，39，40]或立体匹配[6，23，44，52]。为了降低传感器成本，已经提出了一些仅图像的单目3D物体检测方法[2，7，20，31，33，50]，并且依赖于2D和3D之间的几何约束取得了令人印象深刻的进展。然而，在没有深度线索的帮助下，性能仍然远远不能令人满意。最近，若干工作已经尝试从预训练的深度估计模型产生估计深度以辅助单目3D对象检测。基于伪激光雷达（c）第（1）款图 1. 不同深度辅助单目3D对象检测框架的比较。（a）基于伪激光雷达的方法[31，52，53]通过单目深度估计将图像提升到3D坐标，然后通过基于3D激光雷达的检测器重新覆盖对象位置。(b)基于融合的方法[10，34，48]从图像和估计的深度图中提取特征，然后将其融合以预测对象。(c)我们的MonoDTR通过额外的深度监督学习深度感知功能，并以端到端的方式执行3D对象检测。请注意，我们的深度监督仅在训练阶段使用。方法[31，52，53]将估计的深度图转换为3D点云以模仿LiDAR信号，然后是现有的基于LiDAR的检测器用于3D对象检测（见图1（a））。一些基于融合的方法[10，34，48]应用几种融合策略来结合从深度和图像中提取的特征来检测物体（见图1（b））。这些方法虽然在估计深度的帮助下更好地定位对象，但可能遭受在不准确的深度图上学习3D检测的风险。此外，深度估计器的额外计算成本使其对于现实世界的应用是不实际的[32]。为了解决上述问题，我们提出了MonoDTR，用于单目3D对象检测的新型端到端深度感知Transformer网络（参见图 1 （ c ））。引入深度感知特征增强（DFE）模块，MonoDTR3D检测深度监管4013利用辅助深度监督来学习深度感知特征，这避免了从预先训练的深度估计器获得不准确的深度先验此外，DFE模块是轻量级的，但在辅助3D对象检测方面是有效的，而无需构建复杂的架构来从现成的深度图中提取特征。与之前的深度辅助方法相比，它显著减少了计算时间[10，31，48]（见表1）。另外，与先前的基于融合的方法（例如，D4 LCN[10]和DCN-3D [48]），将精心设计的卷积核应用于上下文和深度感知特征，我们开发了第一个基于变换的融合模型，规则来全局地整合图像和深度信息。Transformer编码器-解码器结构[47]已被证明可以有效地捕获长距离依赖;因此，我们将其应用于对上下文和深度感知特征之间的关系进行建模。为了更好地表示3D对象的属性，我们利用深度感知特征来代替常用的对象查询[3，18，60]作为Transformer解码器的输入此外，我们引入了一种新的深度位置编码（DPE）涉及深度感知提示的Transformer，实现更好的性能比传统的像素位置编码。我们将我们的贡献总结如下：1. 我们提出了一种新的框架，MonoDTR，通过辅助监督学习深度感知功能，以协助单目3D对象检测，避免了使用现成的深度估计器引入高计算成本和不准确的深度pri- ors。2. 我们提出了第一个深度感知的Transformer模块，以有效地集成上下文和深度感知功能提出了一种新的深度位置编码（DPE），将深度位置提示注入到Transformer中。3. 在KITTI数据集上的实验结果表明，我们的方法优于最先进的基于单目的方法，实现了实时检测。此外，所提出的深度感知模块可以容易地在现有的仅图像框架中即插即用以提高性能。2. 相关工作仅图像单眼3D对象检测。最近，一些作品仅采用单个图像进行3D对象检测[1，27，33，37，42，43，51，56]。由于缺乏图像的深度信息，这些方法主要依靠几何一致性来预测目标。 Deep3Dbox[33]通过提出的新颖的Multi-Bin损失解决了方向预测，并利用几何先验在2D和3D框之间强制约束。M3 D-RPN [1]生成具有2D边界框约束的3D对象建议，并建议深度感知卷积来预测3D对象。OFT-Net [38]引入了正交特征变换，将基于图像的特征映射到3D体素空间。此外，MonoPair [7]探索了对象之间的空间成对关系，以提高检测性能。M3DSSD[29]提出了一种两步特征对齐方法来解决特征不匹配问题。此外，一些作品[24，27，32，58]预测3D边界框的关键点然而，由于缺乏深度线索，上述纯单目方法无法深度辅助的单目3D物体检测。为了进一步提高性能，许多方法提出使用深度信息来辅助3D对象检测[10，30，31，48，53，54]。一些先前的工作[31，52，53]通过利用现成的深度估计器和校准参数将图像转换Patch- Net [30]揭示了伪LiDAR的成功来自坐标变换并将其组织成图像表示，这可以受益于强大的CNN网络。D4 LCN [10]和DCN-3D [48]专注于通过精心设计的卷积网络开发图像和估计深度之间的基于融合的方法。此外，CaDDN [35]学习每个像素的分类深度分布，以构建鸟瞰然而，直接使用预先训练的深度估计器的大多数上述方法遭受额外的计算成本，并且仅实现由不准确的深度先验引起的有限性能。Transformer。Transformer [47]首次引入序列建模，并在自然语言处理（NLP）任务中有相当大的改进。自注意机制是Transformer中的核心组件，具有捕获远程依赖关系的能力最近，Transformer架构已成功地应用于计算机视觉领域，如图像分类[12]和人机交互[18]。此外，DETR [3]建议使用Transformer开发物体检测，而不依赖于传统管道中使用的许多手工设计的组件。虽然Transformer可以在大多数视觉任务中表现良好，但其在单目3D目标检测中的使用尚未被探索。在基于图像的3D检测任务中，由于透视投影[10，48]，图像中远距离和近距离处的对象大小变化很大，这使得利用DETR [3]中提到的学习对象查询来完全表示对象属性具有挑战性。因此，在本文中，我们建议全球集成上下文和深度感知功能与变压器和注入深度提示到变压器更好的3D推理。4014Conv...骨干深度感知Transformer编码器DPE深度位置编码深度感知Transformer解码器检测头...上下文感知特征深度感知特征DFE模块辅助深度损失∈∈8∈8按元素之和图2. 我们提出的MonoDTR的总体框架。输入图像首先被发送到主干以提取特征。深度感知特征增强（DFE）模块通过辅助监督学习深度感知特征（第3.2节），并且上下文感知特征由卷积层并行提取深度感知Transformer（DTR）模块然后集成两种特征，而深度位置编码（DPE）模块将深度位置提示注入到Transformer中（第3.3节）。最后，应用检测头来预测3D边界框（第3.4节）。注意，辅助深度监督仅在训练阶段使用3. 该方法3.1. 框架概述图2展示了我们的MonoDTR的框架，它主要由四个组件组成：主干、深度感知特征增强（DFE）模块、深度感知Transformer（DTR）模块和2D-3D检测头。我们采用DLA-102 [55]作为[29]之后给定分辨率为 Hinp×Winp 的输入 RGB 图像，主干输出特征图F∈RC×H×W，其中H=Hinp，W=Winp，并且（一）C= 256。DFE模块是为了隐式学习深度感知功能（第3.2节），而几个卷积-应用分层来并行地提取上下文感知特征。然后，我们通过DTR模块全局地集成两种特征，并且首先尝试通过深度位置编码（DPE）模块将深度位置提示注入到Transformer中（第3.3节）。因此，基于锚的检测头和损失函数被用于2D和3D对象检测（第3.4节）。3.2. 深度感知特征增强模块现有的深度辅助方法[10，48，52]使用现成的深度估计器，存在引入不准确的深度先验和额外计算负担的风险。为了缓解这一点，我们提出了一个深度感知的功能增强（DFE）模块的深度推理，如图3。精确的深度图用于训练阶段的辅助监督，使得DFE模块隐式地学习深度感知特征。与应用额外的主干[10，48]或复杂的架构[35]来编码深度的先前工作相比，我们生成深度感知特征以使用轻量级模块来辅助3D对象检测，从而显著降低计算预算。图3. 深度感知特征增强（DFE）模块的体系结构。DFE模块旨在通过辅助监督隐式地学习深度感知特征。（a）生成初始深度感知特征X并预测深度分布D。（b）深度原型Fd的估计特征表示。(c)产生深度原型增强特征F′，并与初始深度感知特征X融合。详见第3.2节。学习初始深度感知功能。为了生成深度感知特征，我们利用辅助深度估计任务并将其视为顺序分类问题[13，35]。如图3（a）所示，给定来自主干的输入特征FRC×H×W，我们采用两个卷积层来预测离散化深度仓DRD×H×W的概率，其中D是深度类别（仓）的数量。概率表示每个像素的深度值属于某个深度仓的置信度为了将深度地面实况从连续空间离散化到离散化区间，我们利用线性递增离散化（LID）[35，46]来制定深度箱（更多细节可以在补充材料中找到）。为此，中间特征图XRC×H×W可以被视为初始深度感知特征。ConvConvAux. 深度监督（b）第（1）款GConvConv矩阵乘法C串联深度原型（c）第（1）款C…4015×∈I∈×∈∈∈∈∈G×深度原型表示学习。为了进一步增强深度表示的能力，我们通过引入相应深度类别（bin）的中心表示来增强每个像素的特征，该中心表示受[ 57 ]中的类中心的启发。可以通过聚合属于指定类别的每个像素的深度感知特征在实践中，我们首先对预测的深度图D应用组卷积[19]来合并相邻的深度类别（bin），将类别数从D减少到D′=D/r，尺度为r。它有助于共享相似的深度线索并减少计算。深度原型Fd的表示可以通过收集所有像素X′的特征来生成，所述特征由它们到深度类别d的概率加权：Σ图4. 提出了深度位置编码（DPE）模块。 DPE模块基于DFE模块预测的深度类别生成深度位置编码。见章节3.3详情我们将平坦化的上下文感知特征XcRN×C，其中N=HW，作为输入馈送到变换器编码器中。编码后的上下文感知特征可以通过多头自注意操作和前馈网络（FFN）获得。Fd =i∈IPdiX′i，d={1，.，D′}，（1）Transformer解码器。解码器也是建立在标准的Transformer架构之上的。我们建议利用其中X′i表示X′中第i个像素的特征，RH×W是特征图中的像素集合，Pdi是第d个深度原型的归一化概率。以这种方式，Fd可以表示每个深度类别的全局上下文信息，如图3（b）所示。使用深度原型进行特征增强。现在，我们可以基于深度原型表示重建新的深度感知特征，这允许每个像素从全局视图理解深度类别的表示。重构特征F’被计算为：′ΣDF′=PdiFd.（二）d=1因此，我们通过连接初始深度感知特征X和重构特征F’，然后是简单的11卷积层来获得增强的深度特征，如图3（c）所示。3.3. 深度感知Transformer受Transformer巨大成功的启发[47]在对远程关系建模时，我们利用Transformer编码器-解码器架构来构造深度感知的Transformer（DTR）模块，以全局地整合上下文感知和深度感知特征。Transformer编码器。我们的Transformer编码器旨在提高上下文感知功能，其构建类似于以前的作品[3，61]。转换器的主要组成部分是自我注意机制[47]。给定输入：查询QRN×C，键KRN×C，并且值VRN×C具有序列长度N，单个头部自注意层可以被简单地公式化为：QKAttention（Q，K，V）= softmax（C）V。（三）深度感知特征作为解码器的输入，而不是可学习的嵌入（对象查询）[3]，这与先前编码器-解码器视觉Transformer作品中的常见用法不同[3，18，45，60]。主要原因是，在单目3D物体检测任务中，由于透视投影，近距离和远距离的摄像机视图通常会导致物体比例的显著变化[10，48]。这使得简单的可学习嵌入难以完全表示对象相反，丰富的距离感知线索隐藏在深度感知特征。因此，我们提议采用深度感知功能作为变压器解码器的输入为此，解码器可以利用Transformer中的交叉注意模块的能力来有效地对上下文感知特征和深度感知特征之间的关系进行建模，从而获得更好的性能。深度位置编码（DPE）。位置编码[47]对于Transformer的引入起着重要的作用导出位置信息。它通常是用正弦函数或以可学习的方式根据视觉任务中的图像的像素位置来生成的。观察到深度信息比像素级关系更好地让机器理解3D世界，我们首先提出了一个通用的深度位置编码（DPE）模块，将每个像素的深度位置提示嵌入到Transformer中。具体地，如图4所示，深度仓编码Ed=[el，. - 是的- 是的，eD] RD×C是用3.2节中介绍的每个深度区间的可学习嵌入构造的。根据每个像素的预测深度类别D的argmax，可以从Ed中查找到初始深度位置编码PRH×W×C。为了进一步表示来自局部邻域的位置线索，应用具有核大小为3 × 3的卷积层并将其添加到P以获得最终编码，称为深度位置编码（DPE）。重塑C深度位置编码1 2 3 D…4016OQ K·OP·×2个d2个dWH2d2个d2个d计算简化。公式3中的标准自我注意层导致（N2）时间和内存，这会破坏计算预算。为了缓解这个问题，最近的工作[8，17，49]努力加速注意力操作。在这些方法中，Linear Transformer [17]建议使用特征的线性点积来近似softmax具体地说，带有第3.2节所述的辅助深度监控：L=Lcls+Lreg+ Ldep。（五）我们采用焦点损失[25]来平衡分类任务的样本，并采用平滑L1损失[15]进行回归任务。对于第3.2节中描述的深度分类预测，我们使用焦点丢失[25]：原始Transformer [47]中相似性函数可以是⊤公式为：sim（q，k）=exp（q，k）。替换为sim（q，k）=φ（q）φ（k）在[17]中，其中φ（x）=elu（x）+1，1Ldep= |P|Σp∈PFL（D（p），D（p）），（6）而elu（）是指数线性单元[11]激活函数。第为此，可以首先将φ（K）和V组合以将计算减少到（N）。我们建议读者参考[17]以了解更多细节。在我们的Transformer中，我们考虑应用[17]中描述的线性注意力来代替香草自我注意力，以获得更高的推理速度。3.4. 2D 3D检测和丢失锚点定义。我们采用具有预定义的2D-3D锚点的单阶段检测器[26，36]来回归边界框。每个预定义的锚点由2D边界框[x2d，y2d，w2d，h2d]和3D边界框[xp，yp，z，w3d，h3d，l3d，θ]的参数组成。 [x2d，y2d]和[xp，yp]表示投影到图像平面的2D框中心和3D对象中心。[w2d，h2d]和[w3d，h3d，l3d]分别表示2D和3D边界框的物理尺寸。z表示3D物体中心的深度。θ是视锥角。在训练期间，我们将所有地面实况投影到2D空间中，以计算与所有2D锚点的并集相交（IoU）。选择IoU大于0.5的锚点以分配对应的3D框以进行优化。输出转换。类似于先前的工作[10，29，48，56]，我们遵循Yolov 3 [36]来预测每个锚点的[tx，ty，tw，th]2d和[tx，ty，tw，th，tl，tz，tθ]3d，其目的是参数化2D和3D边界框的残差值，并且还预测分类得分cls。输出边界框可以如下基于锚点和网络预测来恢复：[x<$2d，y<$2d]=[tx，ty]2d<$[w2d，h2d]+[x2d，y2d] [x<$p，x<$p]=[tx，ty]3d<$[w2d，h2d]+[xp，yp]其中，是图像上具有有效深度标签的像素区域，D是从LiDAR生成的深度箱地面实况（更多细节在下图中提供）。材料）。4. 实验4.1. 设置数据集。我们在chal-challing KITTI 3D对象检测数据集[14]上评估了所提出的方法，该数据集是3D对象检测任务最常用的基准。它包含7481张图像用于训练，7518张图像用于测试。我们按照[5]将训练样本分为训练集（3712）和验证集（3769）。消融研究是基于该分割进行的。评价指标。平均精度（AP）被用作评估的度量在3D对象检测和鸟瞰图（BEV）检测任务。我们利用40个召回位置度量AP 40而不是原始AP 11来避免偏差[43]。基准测试中的检测难度分为三个等级（所有的方法都是根据中等设置的AP3D进行排名的（Mod.）与KITTI基准相同根据官方设置，汽车、骑自行车者和行人类别的联合交叉口（IoU）阈值分别为0.7、0.5和0.5。实作详细数据。我们使用Adam优化器来训练我们的网络120个时期，批量大小为4。学习率从0.0001开始，并以余弦退火时间表衰减。我们在特征图的每个像素上应用48个锚点，其中3个纵横比为{0。五一0，1。5}和12个音阶[w]3d ，h3d，3d]= exp（[tw，th，tl]3d）[w3d ，h3d，l3d]高度遵循指数函数24×2i/4，i=[w，h ]=exp（[t，t]）<$[w，h]{0，…， 15}。对于3D锚参数，我们计算列车中3D地面实况的均值和方差统计[z，θ]=[tz，tθ]3d+[z，θ]，（4）其中（k）表示3D对象的恢复参数。注意，我们对2D框中心[x2d，y2d]和3D投影中心[xp，yp]应用相同的锚中心。损失函数总体损失L包含针对对象和类别的分类损失Lcls、用于优化等式4的边界框回归损失Lreg以及深度损失Ldep将数据集作为每个锚点的先验统计知识。在[56]之后，我们裁剪每个图像的前100个像素以减少推理时间，所有图像的大小都调整为288 1280。在训练阶段，我们应用随机水平镜像作为数据增强。在推理阶段，我们放弃置信度低于0.75的预测，并采用非最大抑制（NMS），IoU为0.4以减少冗余。4017方法参考时间（ms）AP3D@IoU=0.7APBEV@IoU=0.7容易Mod.硬容易Mod.硬MonoPSR [20]CVPR 201920010.767.255.8518.3312.589.91M3D-RPN [1]ICCV 201916014.769.717.4221.0213.6710.23MonoPair [7]CVPR 20206013.049.998.6519.2814.8312.89AM3D [31]ICCV 201940016.5010.749.5225.0317.3214.91[42]第四十二话ECCV 2020年版4515.1910.909.2622.7617.0314.85PatchNet [30]ECCV 2020年版40015.6811.1210.1722.9716.8614.97M3DSSD [29]CVPR 2021-17.5111.468.9824.1515.9312.11D4LCN [10]CVPR 202020016.6511.729.5122.5116.0212.55MonoDLE [32]CVPR 20214017.2312.2610.2924.7918.8916.00MonoRUn [4]CVPR 20217019.6512.3010.5827.9417.3415.24[21]第二十一话CVPR 202112018.1012.329.6526.1918.2714.05MonoRCNN [41]ICCV 20217018.3612.6510.0325.4818.1114.10Kinematic3D [2]ECCV 2020年版12019.0712.729.1726.6917.5213.10[48]第四十八话CVPR 202118019.7112.789.8028.0817.8913.44CaDDN [35]CVPR 202163019.1713.4111.4627.9418.9117.19DFRNet [62]ICCV 202118019.4013.6310.3528.1719.1714.84MonoEF [59]CVPR 20213021.2913.8711.7129.0319.7017.26MonoFlex [58]CVPR 20213019.9413.8912.0728.2319.7516.89GUPNet [28]†ICCV 2021-20.1114.2011.77---MonoDTR（Ours）-3721.9915.3912.7328.5920.3817.14表1. KITTI测试仪上的汽车类别检测性能。最佳和次佳结果分别以红色和蓝色†表示结果已在他们的论文中报道方法AP3D@IoU=0.7APBEV@IoU=0.7AP3D@IoU=0.5APBEV@IoU=0.5容易Mod.硬容易Mod.硬容易Mod.硬容易Mod.硬M3D-RPN [1]14.5311.078.6520.8515.6211.8848.5335.9428.5953.3539.6031.76MonoPair [7]16.2812.3010.4224.1218.1715.7655.3842.3937.9961.0647.6341.92MonoDLE [32]17.4513.6611.6824.9719.3317.0155.4143.4237.8160.7346.8741.89Kinematic3D [2]19.7614.1010.4727.8319.7215.1055.4439.4731.2661.7944.6834.56[21]第二十一话19.6714.3211.2727.3819.7515.9255.6241.0732.8961.8344.9836.29MonoRUn [4]20.0214.6512.61---59.7143.3938.44---CaDDN [35]23.5716.3113.84---------GUPNet [29]22.7616.4613.7231.0722.9419.7557.6242.3337.5961.7847.0640.88MonoFlex [58]23.6417.5114.83---------MonoDTR（Ours）24.5218.5715.5133.3325.3521.6864.0347.3242.2069.0452.4745.90表2. KITTI验证集上汽车类别的检测性能。我们使用粗体突出显示最佳结果。4.2. 主要结果KITTI测试集上的汽车类别的结果。如表1所示，我们将我们的MonoDTR与KITTI测试集上的几种最先进的单眼3D对象检测方法进行了比较。可以观察到，我们的方法在两个任务的中等水平方面比其他方法实现了更好的性能此外，值得注意的是，我们的方法优于其他深度辅助方法的大利润率。例如，与前三种深度辅助方法DFRNet [62]，CaDDN [35]和DALF-3D [48]相比，我们的MonoDTR在三种设置下在IoU阈值0.7处获得AP3D 的2.59/1.76/2.38，2.82/1.98/1.27和2.28/2.61/2.93改进，这表明了所提出的深度感知模块的有效性。KITTI验证集中的Car类别结果。我们还在表2中列出的不同IoU阈值和任务下对KITTI验证数据集进行了实验。我们的方法获得了优于几个图像的方法，受益于辅助深度监督。具体而言，与GUP- Net [28]相比，我们的方法在IoU的AP3D中实现了6.41/4.99/4.61的阈值0.5在容易、中等和困难设置上。KITTI测试集上行人和骑自行车者类别的结果。我们进一步在表3中呈现了行人和骑自行车者类别的性能。检测这两个类别比汽车更具挑战性，因为它们的尺寸较小且非刚性，因此难以精确定位位置。总的来说，我们的模型在行人类别上显著优于所有方法，4018→××消融AP3D@IoU=0.7容易改良硬度（一）基线19.35 15.47 12.83（b）第（1）款深度感知功能→对象查询20.09 16.10 14.07（c）第（1）款深度感知功能→DORN [13]24.08 17.10 14.02（d）其他事项DTR→浓度操作23.39 17.65 14.82（e）无深度原型增强23.72 18.22 15.36（f）第（1）款MonoDTR（全型号）24.52 18.57 15.51表3.行人和骑自行车者类别在KITTI测试集上的检测性能为0.5 IoU阈值。我们使用粗体突出显示最佳结果。相当大的利润。对于骑自行车的人3D检测，我们也实现了与CaDDN [35]竞争的结果，并获得了比其他方法更好的性能。运行时间分析。我们测量了在单个Nvidia Tesla v100GPU上处理批量大小为1的整个验证集如表1所示，我们的模型可以实现27 FPS的实时性能，这证实了我们方法的效率。与最先进的深度辅助方法相比，我们的MonoDTR比CaDDN [35]和Doppler快17和4.8。3D[48]。主要原因可以总结如下：（1）CaDDN [35]从预测的深度图构建鸟瞰视图表示以执行3D检测，其应用更复杂的架构来生成精确的(2)基于融合的方法[10，48]通常使用两个单独的主干来提取图像和深度的特征，这是耗时的。请注意，深度估计器还需要额外的推理时间，表1中没有包括。相反，我们的模型通过具有辅助监督的轻量级DFE模块来学习深度感知特征，这显著减少了运行时间。4.3. 消融研究每个拟定组件的有效性。在表4中，我们进行消融研究以分析所提出的组件的有效性：（a）基线：仅使用用于3D对象检测的上下文感知特征，即，而不需要所有提出的深度感知模块。(b)在Transformer中用对象查询[3]替换深度感知特性，即。基线 + 类似 DETR 的Transformer。(c)用从DORN生成的深度图像中提取的特征替换深度感知特征[13]。(d)将上下文和深度感知功能与卷积级联操作相结合。(e)无深度原型增强特征F′的全模型。(f)MonoDTR（完整模型）。首先，我们可以从（b f）观察到，利用深度感知特征来替换Transformer中的对象查询另外，和我们的端到端培训方法AP3 D（儿科）AP3 D（周期）容易Mod.硬容易 Mod.硬MonoDLE [32]9.646.555.444.592.662.45MonoPair [7]10.026.685.533.792.121.83MonoFlex [58]9.436.315.264.172.352.04D4LCN [10]4.553.422.832.451.671.36DDMP3D [48]4.933.553.014.182.502.32CADDN [35]12.878.146.767.003.413.30MonoDTR（Ours）15.3310.188.615.053.273.194019→表4. 分析我们的方法的不同组成部分的KITTI验证集的汽车类别。图5. 不同对象深度范围的AP和基线与MonoDTR之间的IoU阈值的比较，用于汽车类别的KITTI验证集最好用彩色观看在框架（f）中，简单地利用来自预训练的深度估计器（c）的深度先验导致更差的结果。接下来，我们证明了应用我们的深度感知Transformer（DTR）模块（f）可以比简单的卷积连接（d）更有效地集成上下文和深度感知特征。此外，利用我们提出的深度原型增强模块可以提高性能（e f）。最后，通过应用所有设计的模块，我们的完整模型（f）与基线（a）相比实现了显著的改进。此外，图5中的深入分析表明，我们的方法在不同的IoU阈值和对象深度下超过了基线。这些结果证明了我们的深度感知模块的有效性。与不同位置编码的比较。我们在表5中调查了所提出的深度位置编码（DPE）的有效性。与几种常用的位置编码相比，包括绝对位置编码（APE）[12]，条件位置编码（CPE）[9]，正弦位置编码[47]以及不使用位置编码（No PE），我们提出的DPE在KITTI验证集上实现了更好的性能。我们认为，编码的深度感知线索是更有效的学习3D任务的位置表示比像素级编码。插入现有的仅图像方法。我们提出的方法是灵活的，可以扩展到现有的仅图像3D对象检测器，以提高深度推理能力。4020图6. KITTI验证集的定性示例。我们提供了图像视图（左）和鸟瞰图上的预测（右）。图像和BEV平面中的紫色框表示来自MonoDTR的预测。BEV上的绿色和粉色框分别是地面实况和基线预测（没有深度感知模块）最佳的颜色和放大。位置编码AP3D@IoU=0.7APBEV@IoU=0.7容易Mod.硬容易Mod.硬无PE23.65 17.76 15.05 31.33 24.02 20.83正弦曲线[47]22.73 17.63 14.74 31.78 24.40 20.97APE [12]23.85 17.55 14.59 32.52 23.47 19.92CPE [9]24.34 18.04 15.14 33.01 24.69 20.48DPE（我们的）24.52 18.57 15.51 33.33 25.35 21.68表5.在KITTI验证集上比较Car类别的不同位置编码机制。能力我们分别将我们的深度感知模块插入三种流行的单目 3D 物体检测器：M3 D-RPN [1] ， GAC [56] 和MonoDLE [32]，基于它们的官方代码123。在实践中，我们从上述模型（检测头之前）的功能作为初始功能，并利用我们提出的模块（DFE，DTR和DPE模块）生成最终的综合功能，其次是他们的原始检测头检测3D对象。如表6所示，在我们提出的深度感知模块的帮助下，这些检测器在KITTI验证集上实现了进一步的改进，这证明了我们方法的灵活性4.4. 定性结果我们在图6中提供了KITTI验证集的定性示例。与没有深度感知模块帮助的基线模型相比，MonoDTR的预测更接近地面实况。实验结果表明，所提出的深度感知模块可以帮助精确定位目标。补充材料中包含了更多的定性结果。1https://github.com/garrickbrazil/M3D-RPN2https://github.com/Owen-Liuyuxuan/visualDet3D3https://github.com/xinzhuma/monodle表6. 对现有的仅图像单目3D物体探测器的扩展。 * 表示我们重新训练时没有使用额外的右图像。详见第4.3节。5. 结论在本文中，我们提出了一个深度感知的Transformer网络的单目三维物体检测。所提出的轻量级DFE模块以端到端的方式隐式地学习深度感知特征，以避免从现成的深度估计器获得我们还引入了深度感知的Transformer来全局集成上下文和深度感知的功能，而新颖的深度位置编码（DPE）被设计为将深度提示注入到Transformer中在KITTI数据集上进行的综合实验验证了该模型的实时检测性能，并优于目前最先进的基于单目的方法。鸣谢。这项工作得到了台湾科技部的部分支持，资助号为MOST110-2634-F-002-051，QualcommTechnologies，Inc.，和移动驱动技术公司，Ltd.（Mo-bileDrive）. 我们感谢国家高性能计算中心方法AP3D@IoU=0.7APBEV@IoU=0.7容易改良硬度容易改良硬度M3D-RPN [1]M3 D-RPN+我们的14.53 11.07 8.6520.9616.44 14.6320.85 15.62 11.8825.2420.52 17.43改进+6.43 +5.37 +5.98+4.39 +4.90 +5.55政府咨询委员会[56]*广汽+我们21.58 15.17 11.3524.3017.28 13.3528.62 19.99 15.4233.0223.06 18.22改进+2.72 +2.11 +2.00+4.40 +3.07 +2.80MonoDLE [32]MonoDLE +Ours17.45 13.66 11.6818.6815.69 13.4124.97 19.33 17.0126.6721.40 18.674021引用[1] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d区域提议网络在ICCV，2019年。二、六、八[2] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu，andBernt Schiele.单目视频中的运动三维目标检测。在ECCV，2020年。1、6[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。二四七[4] Hansheng Chen ， Yuyao Huang ， Wei Tian ， ZhongGao，and Lu Xiong. Monorun：通过重建和不确定性传播进行单目3D对象检测。在CVPR，2021年。6[5] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun. 用于精确对象类别检测的 3D 对象建议。InNeurIPS，2015. 5[6] Yilun Chen ，Shu Liu ， Xiaoyong Shen ，and Jiaya Jia.Dsgn ：用于 3D对象检测的深度立体几何网络。在CVPR，2020年。1[7] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。在CVPR，2020年。一、二、六、七[8] Krzysztof Choromanski 、 Valerii Likhosherstov 、 DavidDo- han 、 Song Xingyou 、 Andreea Gane 、 TamasSarlos 、 PeterHawkins 、 JaredDavis 、 AfrozMohiuddin 、 Lukasz Kaiser 、 David Belanger 、 LucyColwell和Adrian Weller。重新思考对表演者的关注。ICLR，2021年。5[9] 楚翔翔，田智，张波，王新龙，魏晓林，夏华夏，沈春华.视觉变换器的条件位置编码。arXiv预印本arXiv：2102.10882，2021。七、八[10] Min

下载后可阅读完整内容，剩余1页未读，立即下载