Li3DeTr：一种基于LiDAR的三维检测Transformer

34 浏览量更新于2023-10-16 收藏 880KB PDF 举报

自动驾驶

LiDAR点云

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4250Li3DeTr：一种基于LiDAR的三维检测TransformerGopi Krishna Erabati和Helder Araujo系统与机器人研究所，科英布拉大学，葡萄牙{gopi.erabati，helder}@ isr.uc.pt摘要受用于物体检测的视觉变换器的最新进展的启发，我们提出了Li3DeTr，这是一种用于自动驾驶的端到端的基于LiDAR的3D检测变换器，其输入LiDAR点云并回归3D边界框。分别采用稀疏卷积和多尺度变形在解码器头中，首先，在新颖的Li3DeTr交叉关注块中，我们将LiDAR全局特征链接到利用从数据中学习的对象查询其次，使用多头自注意来制定对象查询交互最后，解码器层被重复Ldec次以细化对象查询。受DETR的启发，我们采用集到集损失来训练Li3DeTr网络。在没有额外功能的情况下，Li3DeTr网络在nuScenes数据集上实现了61.3%的mAP和67.6%的NDS，超过了具有非最大抑制（NMS）的最先进方法，并且在KITTI数据集上也实现了具有竞争力的性能我们还采用知识蒸馏（KD）使用教师和学生模型，略微提高了我们的网络的性能。1. 介绍随着计算机视觉深度学习网络[16，37]和大规模数据集[10]的出现，用于自动驾驶汽车场景理解的感知系统的研究三维目标检测是自动驾驶的关键过程之一，是对场景中的目标进行分类和定位的双重过程。激光雷达是自动驾驶车辆的重要传感器之一，它能提供精确的场景三维信息。虽然2D物体检测方法[2，12，22，32，33，40]取得了巨大的进步，但由于其稀疏，无序和不规则的性质，基于CNN的方法不能很好地直接适应LiDAR点云。激光雷达数据上的3D物体检测的早期方法可以分为两种类型：基于点的方法和基于网格的方法。基于方法。基于点的方法[27，36，49]基于直接从点云检测3D对象的点操作[29，30]。基于网格的方法要么将点体素化为体积网格，要么将点投影到鸟瞰图（BEV）空间。BEV投影的优点是它保持了欧氏距离，避免了物体的重叠和物体的大小不随与自身车辆的距离而变化，这对于自动驾驶场景是重要的。基于稀疏CNN的体素特征提取[47]是有利的，但它不能在有限的接收域中提取丰富的语义信息。我们通过采用多尺度可变形注意力[55]编码器来捕获全局LiDAR特征图来缓解这个问题早期的方法使用两阶段检测流水线[7，36]或锚点[19，53]或无锚点网络[42，43，51]进行3D对象检测，但所有这些方法都采用NMS等后处理方法来去除冗余框。受Object-DGCNN [45]的启发，我们将3D对象检测问题表示为直接集预测问题，以避免NMS。我们提出了一个端到端，单级激光雷达为基础的3D检测Transformer（Li3DeTr）网络预测自动驾驶的3D边界框。首先，使用SECOND [47]通过杠杆稀疏卷积[15]和BEV变换或使用PointPillars [19]提取体素特征。其次，我们采用具有多尺度可变形注意力的编码器模块[55]来捕获BEV特征图中丰富的语义特征和长程依赖性，以生成LiDAR全局特征。LiDAR全局特征被传递到解码器模块。最后，我们在解码器中引入了一个新的Li3DeTr交叉注意对象查询在多头自关注块中相互交互[41]。在每个解码器层中，对象查询被迭代地细化，并且3D包围盒参数被回归受DETR [2]的启发，我们在训练过程中使用集到集损失来优化我们的网络。我们在两个公开可用的au上进行实验4251O测试驱动基准，nuScenes [1]和KITTI[14] 数据集。我们的网络在nuScenes数据集上实现了61.3%的mAP和67.6%的NDS，分别超过了最先进的CenterPoint [51]和Object-DGCNN [45] 3.3%的mAP（和2.1%的NDS）和2.6%的mAP（和1.6%的NDS）。我们的主要贡献如下：• 我们提出了一种用于自动驾驶的端到端、基于单级LiDAR的3D检测Transformer（Li3DeTr）。我们的方法在nuScenes [1]数据集上实现了61.3%的mAP和67.6%的NDS，超过了最先进的基于LiDAR的对象检测方法。我们的方法在KITTI [14]数据集上实现了与其他方法（使用NMS）的竞争性性能（无NMS）。与DETR [2]类似，我们的方法不需要NMS，因此将教师和学生模型应用于知识蒸馏以提高准确性是有效的。• 我们引入了一种新的Li3DeTr交叉注意块，将LiDAR全局编码特征与利用学习对象查询的3D对象预测联系起来。编码器和解码器中的注意机制有助于有效地检测大尺寸对象，如表3所示。表6中所示的消融研究证明了我们的新型Li3DeTr交叉注意阻断的合理性。• 我们发布我们的代码和模型，以方便进一步的研究。2. 相关工作基于LiDAR点云的3D对象检测方法可以分为两类：基于点的和基于网格的，这取决于用于预测3D边界框的数据表示的类型。基于点的方法[28，35，36，49，50]直接使用稀疏和无序的点集来预测3D边界框。通过多尺度/多分辨率分组和集合抽象来聚合点特征[29，30]。PointRCNN [36]采用两级流水线进行3D对象预测。PVRCNN [35]对基于点-体素的集合抽象层进行建模，以利用基于点和体素的方法的优势。Frustum-PointNet [28]使用2D对象检测对点的截头体进行采样，以应用Point-Net [29]来预测3D对象。虽然基于点的方法通过设置抽象层实现了大的感受野，但它们在计算上是昂贵的。基于网格的方法由于LiDAR点云是稀疏且无序的点集，因此许多方法将点投影到规则网格，例如体素[47，53]，BEV柱[19]或范围投影[3，13，39]。点云被离散化为3D体素[38，53]，3D CNN被用于提取体素特征。然而，3D CNN在计算上是昂贵的，并且需要大的存储器，为了减轻这个问题[5，47]，使用稀疏3D CNN [15]用于有效的体素处理。LiDAR点云被投影到Point- Pillars [19]和PIXOR [48]中的BEV地图中，并且采用2D CNN来降低计算成本，但是这种投影会导致3D信息丢失。为了减轻这种情况，一些方法[47，51]使用sprase卷积计算体素特征，然后将体素特征投影到BEV空间中，并最终预测BEV空间中的3D边界框。由于这种方法利用了体素和BEV空间的优势，我们用SECOND测试了我们的网络。[47]和PointPillars [19]特征提取网络。为了实现类似于基于点的方法的大感受野[29，30]，我们使用编码器中的多尺度可变形注意力[55]块对局部LiDAR特征的远程相互作用进行建模，以获得LiDAR全局特征。基于转换器的方法。早期的方法[7，19，35，36，50，53]对象检测头采用锚定框来预测对象，然而锚定框涉及手工制作的参数调整，并且它们是从数据集中统计地获得的。为了缓解这个问题，一些方法[5，43，48，51]通过计算每像素或每柱预测来遵循无锚流水线。但这些方法使用NMS来删除冗余框。DETR [2]是第一个将2D检测问题公式化为直接集合预测以去除NMS的Transformer架构。我们的网络遵循类似的3D对象检测公式。一些方法[24，27，34]使用Transformer进行特征提取网络。3DETR [25]是一个完全基于Transformer的架构，用于3D对象检测，使用香草Transformer [41]块进行最小修改。3DETR直接操作并关注点，而我们的方法体素化点并关注BEV全局体素特征，这对于自动驾驶场景是计算高效的。3DETR在室内场景的输入点上采用下采样和集合聚合操作[30]，因为自我注意的计算复杂度随着输入点的数量呈二次增加（（n2）此外，3DETR是有效的室内数据集，其中的点是密集和集中。Object-DGCNN [45]采用基于图形的模型，用于室外环境中基于变换的3D对象检测 BoxeR [26] 引入了一种新颖而简单的 Box-Attention，它可以实现网格特征之间的空间交互。BoxeR-2D支持端到端的2D对象检测和分割任务，可以扩展到BoxeR- 3D进行端到端的3D对象检测。VISTA[11]是一个即插即用模块，用于在全局空间环境中自适应融合多视图特征它引入了双交叉视图空间注意力，以利用BEV和范围视图（RV）功能中的信息。我们用基于体素-BEV的CNN骨干架构进行局部特征提取，并使用基于注意力的架构进行全局特征提取，以提高识别率。4252j=1∈NQj=1R1我NJNQi i=1j jjceptive字段大小，最后是一个Transformer解码器头，用于链接全局特征和3D预测。3. 方法我们基于LiDAR的 3D检测Transformer（Li3DeTr）架构可输入LiDAR点云，并在自动驾驶等大规模户外环境中预测3D边界框该网络包含两个主要模块：骨干和Transformer编码器-解码器，如图1所示。受最先进的3D对象检测方法[15，19]的启发具体而言，我们采用BEV网格，这不仅是因为2D网格状特征是准确性和效率之间的良好权衡，而且与自动驾驶非常相关，因为在地平面上的每个网格单元上可能存在一个对象基于多尺度可变形注意力[55]的编码器（§ 3.2）模块学习多尺度全局体素特征。编码器模块在多尺度可变形注意力块和多层感知器（MLP）块之间交替，并且重复Lenc次。解码器（§ 3.3）模块中的新型Li3DeTr交叉关注块将全局体素特征链接到利用学习对象查询的3D对象对象查询在多头自注意[41]块解码器模块重复Ldec次，交替使用多头自注意、Li3DeTr交叉注意和MLP块。细化的对象查询被转换为3D边界框参数，网络使用置换不变损失进行端到端训练[2]（§ 3.4）。3.2. 编码器：全局特性为了从局部体素特征图获得全局体素特征，我们采用多尺度可变形注意力[55]机制，因为传统的注意力机制[41]在编码高分辨率特征图时导致不可接受的计算复杂性。多尺度可变形注意力结合了可变形卷积[9]的稀疏采样和变换器[41]的远程关系框架的优点。编码器模块的输入和输出是具有相同分辨率的多尺度特征图。变形注意力只关注参考点周围的一小部分关键采样点，从而减少了计算复杂度。每个查询像素的可变形自关注中的参考点每个编码器层由多尺度可变形自注意和具有残差连接的MLP块组成，并且重复Lenc次。从编码器中提取的全局体素特征被传递到解码器中的Li3DeTr交叉注意块。3.3. 解码器最先进的3D物体检测方法要么用密集锚箱组或密集每柱预测（如 [43 ， 51] ）来制定检测头，然后是NMS。我们通过制定检测头来预测一组边界框而不是每柱预测来消除后处理步骤（如NMS）的需要这在解码器中被公式化，如下所述。解码器输入一组对象查询Q1为{ql}∈ Rd（其中l ∈ {1，2，. . . ，Ldec}，Nq是查询的数量，Q1是用模型权重学习的），全局体素特征图{Fj}4，并且其由de-3.1.主干：本地特色我们网络输入 LiDAR点云P={p，. . .，p，. . . 3. 为了加速3D OB-重复Ldec次以细化的编码器层对象查询。对于第一解码器层，3D参考点是使用单层完全解码器从对象查询编码的。连接（FC）网络和sigmoid归一化，如对于大规模点云的物体检测，我们将点到BEV网格中，并使用CNN来提取局部点特征。我们测试两个管道：1）我们对点进行体素化等式1ri=rref（qi），（1）云与[0.1，0.1，0.2]米体素大小，并采用SparseConv[15]来计算3D稀疏卷积并获得局部体素特征。空的体素被填充为零，并且稀疏体素被变换为BEV 2D网格状特征。2）我们将点云转换为其中，ri[0，1]3和Rref是FC层。每个解码器层由Li3DeTr交叉注意块、多头如图1所示，自注意块和具有跳过连接的MLP块。Li3DeTr交叉注意块输入对象查询与PointPillars[19]中相同的密集BEV支柱地图，其中[0.2，Q={qi}i=1（为了简单起见，我们删除了层inde x），3D0.2，8]米的支柱分辨率。我们使用柱特征网络参考点ri和LiDAR全局多尺度特征来改变柱子的特征最后，我们采用SEC映射{Fj}4。Li3DeTr交叉关注的公式OND [47]主干从稀疏体素或BEV柱特征中提取局部体素特征，并使用特征金字塔网络（FPN）[20]进一步对其进行变换，以获得多尺度局部体素特征图F1、F2、F3、F4，其中FRH× W × C。图2中示出了块。令ji表示参考点ri到LiDAR全局体素特征图的尺度j的投影的变换。尺度为j的LiDAR BEV特征图在参考点的投影位置处进行双线性采样4253对象查询特征解码器图层规范编码器LiDAR全球功能MLP图层规范图层规范LiDAR点云骨干MLP图层规范Li3DeTr交叉注意VQPSpaseConv/PointPillars多尺度可变形自注意图层规范QK VP参考文献点多头自注意x长度QK VPx L下降LiDAR本地功能对象查询FPNPredN*Predi方框jPred2方框2Pred1方框1我f=F（R（r））.w（2）jjiiijLQL我我我R F R我我我. . .. . .. . .. . .方框N没有一偶匹配图1：Li3DeTr架构概述。它是一个端到端的单级网络，输入LiDAR点云并预测3D边界框。局部和全局点特征被链接到利用对象查询的Transformer编码器-解码器架构中的对象预测LiDAR全局特征将3D参考点投影到BEV平面投影点以索引要素示例特征以产生交叉属性。特征参考文献分数（ri）Rji（qi）采样激光雷达特征（Fj（Rji（ri）注意重量（wij）交叉注意力激光雷达功能图2：Li3DeTr交叉注意模块（ji（ri）），由j（ji（ri））给出。在每个采样特征尺度j下，每个查询q i的注意力权重（wij）为：我们采用两个FC层来预测偏移到框位置<$pl∈R3、框大小（ll，wl，hl）、框方向-通过FC层（sample）和sigmoid归一化（sinθl，cosθl）、箱速度（vl，vl）和类标签计算伊伊希伊其中wij=samp（qi）。采样要素来自将多尺度特征图加在一起以获得第i个参考点的交叉注意特征（F_CAttn），如下：4CAttni（y_l）针对每个对象查询（q_l）。我们在每个解码器层中细化每个查询的参考点，除了第一解码器层（其使用等式编码）。1)通过使用前一层中框位置的预测，j=1rl+1=rl+pl（四）最后，我们将查询更新为，qi=qi+FCAttn+PE（ci），（3）3.4. 损失我我我我其中PE是参考点的位置编码，以使查询位置感知。查询在多头自注意块中相互交互，我们遵循跳过连接[41]。在每个解码器层中更新对象查询（l与[2，44，45]类似，预测和地面实况之间的误差是通过集到集损失计算的。首先，通过匈牙利算法[18]执行预测和地面实况之间的一对一分配其次，我们使用二分匹配来匹配预测和地面实况。最后，我们使用L1损失和焦点损失[21]来4254∼∼计算边界盒回归和分类损失恢复，给出二分匹配。4. 实验我们在公开的自动驾驶数据集nuScenes [1]和KITTI[14]上评估了Li3DeTr网络。我们介绍了实验设置（§4.1）与数据集细节和评估指标（补充中提供了模型设置和训练细节），然后给出了定性和定量结果（§4.2）以及对nuScenes和KITTI数据集的分析。我们进行了消融研究（§ 4.3），以研究我们网络的不同配置。4.1. 实验装置nuScenes数据集[1]包含750，150和150个序列（持续时间为20秒），分别具有28K，6K和6K注释样本用于训练，验证和测试。每个样本由32束LiDAR点云和30K个点组成。该数据集还提供了9个非关键帧（称为扫描），以聚合为一个关键帧，导致每个注释帧300K点。有10种不同类别的对象可用于计算度量。Kitti数据集由7481和7518个训练和测试样本组成。训练样本进一步分为3712个训练和3769个val分割。每个样本由32束LiDAR点云组成汽车、行人和骑自行车的人是三个主要的评估类别。评估指标。官方评估nuScenes数据集[1]后的两个主要指标是平均精度（ mAP ）和 nuscenes 检测得分（NDS）。此外，我们还评估了真阳性（TP）指标：平均平移误差（ATE）、平均尺度误差（ASE）、平均定向误差（AOE）、平均速度误差（AVE）、平均属性误差（AAE）。我们遵循KITTI数据集[14]的官方评估指标平均精度（mAP），汽车类别的IoU阈值为0.7，行人和骑自行车者类别的IoU阈值为0.5。4.2. 结果4.2.1定量结果我们在nuScenes [1]测试数据集上比较了Li3DeTr网络与最先进的方法，如表1所示。我们的网络超过了最先进的基于 CNN 的 CenterPoint [51] 3.3% mAP 和 2.1%NDS，以及基于transformer的Object-DGCNN [45]网络2.6% mAP和1.6% NDS。尽管CenterPoint [51]使用了像NMS这样的后处理方法，但我们将对象检测公式化为受DETR [2]我们还比较了无NMS的最先进的基于变压器的网络对象DGCNN[45]有两个不同的骨架：[19]第53话，我的朋友我们的基于Transformer的无NMS方法在柱[19]和体素[53]骨架中分别超过0.6% mAP（和0.2% NDS）和2.6% mAP（和1.6% NDS）。虽然我们的Li 3DeTr网络在mAP和NDS方面优于大多数其他方法，但VISTA-OHS [11]在nuScenes测试数据集上的表现略好于我们的方法。VISTA是一种即插即用模块，用于融合与[5]结合的多视图功能，需要像NMS这样的后处理方法，而我们的方法是一种用于 3D 对象检测的独立方法，在nuScenesval数据集上，我们的方法与最先进的方法相比的性能在补充中提供。我们采用知识蒸馏（KD）与教师和学生模型。早期的三维目标检测工作涉及到网络管理系统，因此提取这些模型的效果不佳。由于我们的方法是NMS免费的，我们可以有效地提取具有相似检测头的模型之间的信息。我们用§ 3.4中给出的损失训练一个教师模型，然后用教师模型的输出和地面事实的监督训练一个学生模型（与教师模型具有相同的架构）。在KD的情况下，我们实现了62.2%mAP和68.0%NDS，这比我们没有KD的模型提高了0.9%mAP和0.4%NDS。我们比较了KITTI [14]汽车类别数据集的最新工作，我们的网络在AP3D和APBEV方面实现了与最先进的基于 LiDAR 的方法（如 VoxelNet [53] ，PointPillars [19]，TANet [23]和SECOND [47]）竞争的性能，适用于简单，中等和硬样品。与nuScenes[1]数据集相比，我们的网络无法在KITTI [14]数据集上实现最先进的性能，因为Transformer网络是数据饥饿的，KITTI数据集有3712个样本用于训练，这比nuScenes数据集（具有28K个训练样本）的训练样本数量少约7.5倍。除此之外，nuScenes数据集还提供了9个非关键帧（称为扫描）来聚合为一个关键帧，从而产生密集的LiDAR点，但KITTI数据集仅提供一个LiDAR关键帧，从而产生稀疏的点云。然而，我们的方法获得了与使用NMS的最先进的基于Transformer的架构VoTr-SSD [24]相比具有竞争力的性能。据我们所知，这是第一个基于Transformer的3D检测网络，可以报告nuScenes和KITTI数据集的结果，它将检测结果与训练样本量进行比较，这对于基于Transformer的架构以及LiDAR点云的密度非常重要。我们进一步提供了在行人和骑自行车者类别上的AP3 D和APBEV方面的方法比较，以获得柔软环境中的简单、中等和坚硬样品。4255表1：nuScenes [1]测试集上最近工作的比较。方法NDS↑mAP↑mATE↓mASE↓mAOE↓mAVE↓mAAE↓NMS[19]第十九话55.040.139.226.947.627.010.2✓SSN [54]61.751.033.924.542.926.68.7✓[31]第三十一话66.157.628.325.329.126.818.0✓CVCNet-ens [4]66.658.228.424.137.222.412.6✓[5]第五届全国政协委员66.059.327.423.938.433.313.3✓[51]第五十一话65.558.0-----✓VISTA-OHS [11]69.863.025.623.332.121.612.2✓Object-DGCNN（pillar）[45]62.853.234.626.531.626.019.1✗Object-DGCNN（体素）[45]66.058.733.326.328.825.119.0✗我们的（支柱）63.053.835.126.432.126.519.0✗我们的（体素）67.661.330.525.435.226.712.5✗表2：近期在KITTI [14]val set上进行的AP3D和APBEV检测方面的工作比较我们列出了汽车类别的结果，简单，中等和坚硬的样品，IoU=0.7。方法容易AP3DMod.硬容易APBEVMod.硬NMSRGB激光雷达MV3D [6]71.262.656.586.578.176.6✓AVOD-FPN[7]-73.2----✓[28]第二十八话87.370.963.688.184.076.4✓3D-CVF [52]89.679.878.4---✓LiDARVoxelNet [53]81.965.462.888.078.471.3✓[19]第十九话86.676.068.990.186.682.8✓TANet [23]87.576.673.8---✓第二[47]87.476.469.189.483.878.6✓3DSSD [49]89.779.478.692.789.085.9✓[24]第二十四话87.878.276.9---✓[27]第27话90.087.679.676.878.873.9-89.6-86.8-83.1✓✗4.2.2定性结果我们的方法在nuScenes数据集上的3D边界框预测的可视化如图3所示。尽管LiDAR点云是稀疏的，但我们的方法不仅检测交通锥这样的小物体，而且有效地检测卡车、公共汽车、越野车等大尺寸物体。这是可能的，在编码器中的主干和注意力机制的局部和全局特征映射我们的方法也能够检测到一些没有注释的汽车地面实况在https://youtu.be/5pLnLRO_2-U上展示了我们的网络投影到BEV地图中的3D对象预测的简短演示视频。4.2.3分析下面详细介绍了我们的方法与最先进的基于LiDAR的CNN和Transformer模型相比，通过对象类别、对象距离和对象大小进行的性能分析对象类别。我们的网络在每个对象类别的平均精度（AP）方面的性能与nuScenes [1] val数据集上的其他最先进网络的性能一致，如表3所示。我们与Object-DGCNN [45]进行比较，因为它是一个像我们这样的独立Transformer模型，以便进行公平比较。Transformer编码器使用多尺度可变形注意力和解码器交叉注意力来提取利用长距离交互的全局LiDAR特征，从而显著提高了大型4256∗∗∞∗∞图3：nuScenes数据集上的结果可视化。蓝色和绿色框分别代表预测和地面实况。边界框内的点以红色显示。最佳的颜色和放大查看。表3：我们的网络在nuScenesval集合上按对象类别划分的平均精度（AP）方面的性能CV- 工程车辆，摩托车，儿童-行人，TC-交通锥，巴尔-障碍。：MMDetection3D [8]实现。绿色分数表示相对于下划线分数的性能提高。方法车卡车拖车总线CV自行车电机PEDTC巴尔地图[27]第二十七话82.348.143.455.68.622.755.081.872.266.053.6美国[51]维斯塔[11]85.185.053.057.435.439.966.866.413.921.234.451.755.266.684.684.566.968.567.566.856.260.9Obj-DGCNN [45]84.054.040.466.820.244.766.281.664.762.658.5我们85.856.5↑2.543.0↑2.670.9↑4.122.9↑2.751.6↑6.966.983.966.865.761.4尺寸对象，如公共汽车、工程车辆、拖车和卡车。虽然与其他对象相比，自行车类别对象的数量较少，但我们的模型超过了Object- DGCNN [45] 6.9% AP，这在本地表4：我们的网络在nuScenesval集合上的mAP和物体距离方面的性能。：MMDetection3D[8]实施. 绿色分数表示相对于下划线分数的性能提高。和全局特征提取，除了Li 3DeTr交叉-解码器注意其他对象类别获得竞争力的表现。我们在网络的主干中对点云进行了降采样，并将特征图降采样为多个步幅，以增加感受野，但这会导致信息丢失，从而使我们的网络难以检测到行人和障碍物等较小的物体。未来点云骨干的设计，在保持原有分辨率的同时增加接收场，我们的网络在nuScenes测试数据集上每个对象类别的AP方面的性能在补充中提供。目标距离。地面实况3D边界框分为三个子集：[0m，20m] 、[20m ， 30m]和 [30m ，+ ]三个参数。与CenterPoint [51]和Object-DGCNN [45]相比，我们的网络在nuScenes [1]数据集上按对象距离计算mAP我们的方法显著提高了与基于CNN的CenterPoint [51]相比，物体距离大于30 m的物体的mAP。虽然Li-DAR点云在远离自我车辆的距离处是稀疏的，但是编码器和解码器中的注意力机制对稀疏点之间的长距离相互作用进行建模，以预测远距离处的对象。方法[0 m，20 m] [20 m，30 m][30 m，+∞][51]第五十一话71.351.5Obj-DGCNN [45]73.2 55.5我们的75.6 ↑ 4.356.932.7 ↑ 6.2对象大小。地面实况3D边界框分为两个子集：[0m，4m]和[4m，+ ]，基于边界框的较长边的大小。与nuScenes上最先进的方法相比，我们的模型在对象大小的mAP方面的性能[1]数据集见表5。与基于CNN的CenterPoint相比，我们基于 Transformer 的方法主要改善了大尺寸对象的mAP，而不是小尺寸对象的mAP [51]。这证明了我们的假设，即通过注意机制实现的长距离交互提高了检测性能。4.3. 消融研究注意力障碍。我们的网络在mAP和NDS方面的性能，对解码器中的自我和交叉注意块进行不同的注意操作（§ 3.3）见表6。我们通过采用类似于[45]的DGCNN[46]和多头自我注意来4257∗∗表5：我们的网络在nuScenesval集合上按对象大小的mAP方面的性能。：MMDetection3D [8]实现。绿色分数表示相对于下划线分数的性能提高。[51]第五届全国人大代表Obj-DGCNN [45] 36.0 25.4我们的37.9↑3.027.8↑4.3[41] 对对象查询交互进行建模，可变形交叉注意[55]和我们的Li3DeTr交叉注意参加全局体素特征。我们的Li3DeTr交叉注意力与可变形交叉注意力[55]相比，对于两种自注意力操作都显示出改进的性能。这证明了我们的Li3DeTr交叉注意块有效地将全局体素特征与3D对象预测相关联的有效性。表6：nuScenesval集合上解码器中不同注意力操作的消融研究见表8。我们使用具有0.2m体素大小的Point- Pillars [19]和具有0.1m体素大小的VoxelNet [53]来测试我们的方法，用于LiDAR点云特征提取。如表8所示，我们使用VoxelNet特征提取的方法优于使用PointPillars主干的网络。然而，我们的架构是灵活的插件各种骨干取决于不同的应用程序的具体要求表8：nuScenesval集上不同主干的消融研究骨干方法地图NDS[51]第五十一话50.360.2[19]第十九话Object-DGCNN [45]53.262.8我们53.863.0[51]第五十一话56.464.8VoxelNet [53]Object-DGCNN [45]58.666.0我们61.467.6五、结论我们提出了一个端到端，单级激光雷达为基础的三维检测Transformer（Li3DeTr）架构，输入激光雷达点云和预测三维边界框。受DETR [2]的启发，我们用集到集损失来制定我们的模型，从而消除了对NMS等我们介绍了一种新型的Li 3DeTr交叉-查询数。我们的网络在nuScenes [1]数据集上针对解码器中不同数量的查询的mAP和NDS方面的性能如表7所示我们的网络在mAP和NDS方面的性能随着查询数量的增加而略有增加，因为对象查询代表了对象的潜在位置。但是，对于超过900个查询，性能略有影响。因此，我们将查询数量固定为900。表7：nuScenesval集上解码器中对象查询数量的消融研究Li3DeTr（支柱）Li3DeTr（体素）查询次数mAP NDSmAP NDS30051.960.459.365.160052.561.460.266.190053.863.061.467.6100053.162.560.867.2骨干与CenterPoint [51]和Object-DGCNN [45]相比，我们的网络在不同主干的nuScenes数据集上的mAP和NDS解码器头中的注意力块链接全局Li-DAR体素特征图（从编码器网络获得）和3D预测，通过从数据中学习的对象查询的稀疏集合来利用没有花里胡哨，我们的网络档案61.3%的mAP和67.6%的NDS超过了nuScenes数据集上的最先进的方法，并在KITTI数据集上实现了有竞争力的性能。确认这项工作得到了欧盟H2020 MSCA-ITN-ACHIEVE的支持，赠款协议编号为：765866，Funda ca oparaaCienciaeaTecnologia （ FCT ） undertheprojectUIDB/00048/2020 and FCT Portugal PhD research grantwith reference 2021.06219.BD.引用[1] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页方法[0m，4m][4m，+∞]自我注意交叉注意[46]第四十六章：一个女人[55]Li3DeTr（我们的）多头自适应[41]第四十一话[55个]Li3DeTr（我们的）地图58.659.057.961.4NDS66.066.365.567.64258[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[3] Yunning Chai，Pei Sun，Jiquan Ngiam，Weiyue Wang，Ben-Caine ， Vijay Vasudevan ， Xiao Zhang ， andDragomir Anguelov.直奔主题：利用图卷积核在深度图像中进行有效的3d目标检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第16000-16009页[4] Qi Chen，Lin Sun，Ernest Cheung，and Alan L Yuille.每个视图都很重要：混合柱面球面体素化三维物体检测中的跨视图一致性。神经信息处理系统的进展，33：21224-21235，2020。[5] Qi Chen，Lin Sun，Zhixin Wang，Kui Jia，and AlanYuille.作为热点的对象：一种通过热点激发的无锚点3d目标检测方法。欧洲计算机视觉会议，第68-84页。Springer，2020年。[6] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页[7] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.快点r-cnn.在IEEE/CVF计算机视觉国际会议论文集，第9775-9784页[8] MMDection3D 贡献者。 MMDetection3D ：开放式 -MMLab 下一代通用 3D 物体检测平台。https://github.com/open-mmlab/mmdetection3d，2020。[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] Shengheng Deng，Zhihao Liang，Lin Sun，and Kui Jia.Vista：通过双交叉视图空间注意力增强3D对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第8448- 8457页[12] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet ：用于对象检测的关键点三元组。在IEEE/CVF国际计算机视觉会议论文集，第6569-6578页，2019年。[13] 范略，熊轩，王峰，王乃艳，张兆祥。 Rangedet：为范围视图辩护用于基于激光雷达的3D对象检测。IEEE/CVF计算机视觉国际会议论文集，第2918-2927页，2021年[14] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。[15] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用亚流形稀疏卷积网络的3D语义分割。在IEEE计算机视觉和模式识别会议论文集，第9224-9232页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] Jas

下载后可阅读完整内容，剩余1页未读，立即下载