基于通道Transformer的三维目标检测

92 浏览量更新于2023-10-13 收藏 2.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2743基于通道Transformer的三维目标检测Hualian Sheng1，2*Sijia Cai2Yuan Liu2Bing Deng2Jianqiang Huang2Xian-Sheng Hua2Min-Jian Zhao1†1浙江大学信息科学与电子工程学院2阿里巴巴集团达摩hlsheng@zju.edu.cn，{stephen.csj，alen.ly，dengbing.db}@ alibaba-inc.comjianqiang. gmail.com，xiansheng. alibaba-inc.com，mjzhao@zju.edu.cn摘要虽然从点云的3D物体检测近年来取得了快速的进展，但缺乏灵活和高性能的建议细化仍然是现有的最先进的两阶段检测器的一大障碍先前关于细化3D提议的工作依赖于人类设计的组件，诸如关键点采样、集合提取和多尺度特征融合，以产生强大的3D对象表示。然而，这样的方法捕获点之间的丰富上下文依赖性的能力有限在本文中，我们利用高品质的区域建议网络和通道式Transformer架构，构成我们的两阶段3D对象检测框架（CT3D）与最小的手工制作的设计。所建议的CT3D同时执行提案感知嵌入和通道方式上下文聚合的点功能内的每个提案。具体来说，CT3D使用提案的关键点进行空间上下文建模，并在编码模块中学习注意力传播，将提案映射到点嵌入。接下来，新的逐通道解码模块经由逐通道重新加权来丰富查询-密钥交互，以有效地合并多级上下文，这有助于更准确的对象预测。大量的实验表明，我们的CT3D方法具有优越的性能和良好的可扩展性。值得注意的是，CT3D在KITTI 测试 3D 检测基准中的中型车类别中达到了81.77%的AP，优于最先进的3D检测器。1. 介绍从点云数据中检测三维物体是未来自主车辆（AV）不可或缺的一部分。*本文是作者作为研究实习生访问阿里巴巴时完成的。该代码可在https://github.com/hlsheng1/CT3D†通讯作者。与已开发的二维检测算法不同，其成功主要是由于图像像素的规则结构，LiDAR点云通常是稀疏的，无序的和不均匀分布的。这使得类CNN操作不太适合直接处理非结构化点云为了应对这些挑战，许多方法采用点云的体素化或定制离散化。几种方法[28，15]将点云投影到鸟瞰图（BEV）表示并应用标准的2D卷积，然而，它将不可避免地牺牲某些几何细节，这些细节对于生成准确的定位至关重要。其他方法[3，33]将点云光栅化为3D体素网格并使用常规3D CNN在网格空间中执行计算，但这类方法遭受与使网格更精细相关联的计算瓶颈点云检测任务的重大突破是由于点云表示的有效深度架构，例如体积卷积[33]和置换不变卷积[22]。最近，大多数用于3D对象检测的最新方法采用由3D区域提议生成和提议特征细化组成的两阶段框架。请注意，最流行的区域建议网络（RPN）骨干[33]在KITTI 3D检测基准上实现了超过95%的召回率，而这种方法仅实现了78%的平均精度（AP）。这种差距的原因源于在遮挡或长距离的情况下对对象进行编码和从3D提案中提取鲁棒特征因此，如何在建议特征细化阶段有效地对点之间的几何关系进行建模并利用准确的位置信息对于良好的性能至关重要。一个重要的模型家族是PointNet [22]及其变体[23，19，25]，它们使用灵活的感受野通过局部区域和置换不变网络来聚集特征。然而，这些方法具有涉及大量手工设计的缺点，例如邻近球半径和网格尺寸。另一个模特家族2744是基于体素的方法[33，27，39]，其使用3D卷积核来从相邻体素收集信息。但由于体素量化和对超参数的敏感性，后来的研究[43，24，4，10]进一步应用点-体素混合策略来捕获多尺度特征，同时保留细粒度定位，但与特定RPN架构紧密相关。在本文中，我们做了两个主要贡献。首先，我们提出了一种新的端到端的两阶段的3D目标检测框架，称为CT3D。受最近的基于Transformer的2D检测方法DETR [1]的启发，该方法使用CNN主干提取特征，使用编码器-解码器Transformer增强RoI区域特征，我们设计了CT 3D以在第一阶段生成3D边界框，然后通过在解码器中结合新颖的Transformer架构和通道重新加权机制来所提出的框架在准确性和效率方面表现出非常强的性能，因此可以方便地与任何高质量的RPN骨干相结合第二个贡献是自定义Transformer，它比传统的基于点/体素的特征聚合机制提供了几个好处尽管逐点或体素卷积具有局部和全局上下文建模的能力此外，基于点云的3D对象检测器还必须处理具有挑战性的缺失/噪声检测，例如具有几个点的遮挡和距离图案。变形金刚中的自我注意最近已经成为捕获远程交互的基本构建块，因此在获取上下文信息以丰富远处对象或增加假阴性的置信度方面是自然的选择。受此想法的启发，我们最初引入了一个建议到点的嵌入，以有效地编码器模块中的RPN建议信息。此外，我们利用一个通道明智的重新加权的方法，以增加标准的Transformer解码器在考虑到全球和本地通道明智的编码点的功能。目的是扩展特征解码空间，在该空间中，我们可以计算键嵌入的每个通道维度上的注意力分布广泛的实验表明，我们提出的CT3D可以在KITTI数据集和大规模Waymo数据集上表现出最先进的公开方法。2. 相关工作用于三维物体检测的点云表示。最近，在学习原始LiDAR点云的有效表示方面已经取得了很多进展。值得注意的是PointNet系列[22]其采用置换不变操作来聚集点特征。F-PointNet [21]为每个3D frustum内的点云生成区域级特征。PointRCNN[25]使用PointNet++ [23]来分割前景3D点，并使用分割功能完善建议STD [37]通过将稀疏点特征转换为密集体素表示来进一步扩展提议细化。此外，3DSSD [36]使用基于特征距离的新采样策略改进了基于点的方法然而，类似PointNet的架构仍然存在有限的能力来捕获LiDAR数据的局部结构。另一类方法[3、13、34、35、28、15、12、16、17]旨在将非结构化点云体素化为常规的2D/3D网格，在该网格上可以容易地应用常规的CNN。先驱工作[3]将点云编码为2D鸟瞰图特征图，以生成高度准确的3D候选框，从而激发了许多基于鸟瞰图表示的有效方法。VoxelNet [43]将这些点转换为一个紧凑的特征表示。SECOND [33]引入了3D稀疏卷积，用于高效的3D体素处理。这些基于体素的方法仍然集中在体积的细分上，而不是自适应地对局部几何结构进行建模。此外，已经提出了各种基于点体素的方法用于多尺度特征聚合。SA-SSD [10]提出了基于3D体素CNN的辅助网络。PV-RCNN [24]及其变体VoxelR-CNN [4]采用3D体素CNN作为RPN来生成高质量的建议，然后利用PointNet来聚合网格周围的体素特征。然而，这些混合方法需要大量手工制作的特征设计。物体检测变压器。由于变形金刚在许多计算机视觉领域的成功，最近已经发展了一种新的对象检测范例[1，44，5，9，6]。由于Transformer模型在学习局部上下文感知表示方面非常有效，DETR [1]将检测视为集合预测问题，并采用并行解码的Transformer来检测2D图像中的对象DETR [44]的一个变体进一步开发了一个可变形的注意力模块，以采用跨尺度聚合。对于点云，最近的方法[9，6]也探索了使用自我注意力进行分类和分割任务。3. 用于3D目标检测的给定由广泛使用的RPN主干（如3D体素CNN [33]）生成的提议，当前最先进的提议细化方法[24，4]集中于细化由卷积层提取的中间多级体素特征，遭受额外超参数优化和设计广义模型的困难我们认为，具有精确位置信息的原始点足以细化检测建议。基于这一观点，我们构建了CT 3D框架-2745我N{}- ∈N我−我.A·我我我我我我我22点云RPN通道式Transformer检测头部预测边界框Cls.3D方案和原始点FFN置信度编码器解码器BBox。FFN箱回归建议到点自我注意模块逐信道解码模块建议到点嵌入×自我注意编码转置1 ×转置重复Q××…SoftmaxK…H SoftmaX重新加权1 ××KHadamardV提案箱V1 ×图1. CT3D概述。原始点首先被馈送到RPN中以用于生成3D建议。然后将原始点与相应的建议由建议到点编码模块和信道解码模块组成的信道Transformer处理。具体地，提议到点编码模块用于利用全局提议感知上下文信息来调制每个点特征之后，编码的点特征被转换成一个有效的建议特征表示由通道解码模块用于置信度预测和盒回归。通过在RPN网络上部署一个精心设计的Transformer来直接利用原始点云。具体地，整个CT3D检测框架由三个部分组成，即，用于建议生成的RPN主干、用于建议特征细化的通道式Transformer以及用于对象预测的检测头。图1展示了我们的CT3D框架的概述。3.1. 3D建议生成从具有3维坐标和C维点特征的点云P开始，由RPN生成的预测的3D边界框由中心坐标pc= [xc，yc，zc]、长度lc、宽度wc、高度hc和方向θc组成。在本文中，我们采用 3D体素CNN SECOND [33]作为我们的默认RPN，因为它的高效率和准确性。请注意，任何高质量的RPN在我们的框架中都应该是容易替换的，并且可以通过端到端的方式进行训练。3.2. 建议到点编码模块为了改进生成的RPN建议，我们采用两步策略。具体地，第一提议到点嵌入步骤将提议映射到点特征，然后第二自注意编码步骤是通过对对应提议内的点之间的相对关系进行建模来细化点特征。建议到点嵌入。鉴于RPN生成的建议，我们在点上划定了一个缩放的ROI区域云根据建议。这是为了补偿其中，α是超参数，l、w分别表示提案的长度和宽度。在下文中，在缩放的RoI（= p1，. . . ，p，N）被取出用于进一步处理。首先，我们计算每个采样点与用于统一输入距离特征的建议的中心点之间的相对坐标，表示为Δpc=pipc，pi。一种直接的想法是将建议信息直接连接到每个点特征中，即，[∆pc，l c，w c，hc，θ c，f r]，其中f r是原始点特征，例如反射。然而，用于建议的尺寸取向表示仅产生适度的性能，因为Transformer编码器可能不太有效地根据上述几何信息重新取向。值得注意的是，关键点通常在检测任务中提供更明确的几何属性[41，14]，我们提出了一种新的关键点减法策略来计算每个点与相应建议的八个角点之间的相对坐标。计算出的相对坐标为Δpj=pi pj，j = 1，. . . ，8，其中p，j是第j个角点的坐标。注意，l c、w c、h c和θ c消失，但包含在距离信息的不同维度中。通过这种方式，新生成的相对坐标Δpj可以被视为提案信息的更好表示如图2的左侧部分所示，对于每个点pi，建议-引导点特征可以表示为：fi= A（[∆pc，∆p1，. . . ，∆p8，fr]）∈ RD，（1）通过尽可能多地包裹所有对象点来确定建议与对应的地面实况框之间的偏差。具体而言，缩放的RoI区域是圆柱形的，高度不限，半径r=α（lc）2+（wc）2，其中（）是将点特征映射到高维嵌入的线性投影层。自我注意编码然后，将嵌入的点特征馈送到多头自注意层，2746H'D∈H∈∀HH·Z·FHH.Σh·1·N√HD′∈建议到点嵌入×28：提案中心和角落：减法运算符图2.建议到点编码。该算法首先利用差分算子对原始点云的位置特征进行修正，得到点云的中心点和角点位置信息然后，所得到的点特征由具有多头自注意机制的提案感知编码模块进行细化。通过具有残差结构的前馈网络（FFN），对丰富的上下文关系和点依赖性进行编码，以用于细化点特征。如图2的右侧部分所示，这种自我注意编码方案共享• M查询嵌入遭受高存储器延迟，特别是对于处理多个建议。• M个查询嵌入通常独立地转换成M个词或对象，而我们的建议细化模型只需要一个预测。通常，解码后的最终建议表示可以被视为所有点特征的加权和，我们的关键动机是确定解码权，专用于每个点。在下文中，我们首先分析标准解码方案，然后开发改进的解码方案以获得更有效的解码权重。标准解码。标准解码方案利用可学习向量（即，查询嵌入），以聚合所有通道上的点特征。如图3（a）所示，每个关注头中所有点特征的最终解码权重向量为：T几乎与原始NLP Transformer编码器相同的结构，除了位置嵌入，因为它已经包括在点特征中读者可以参考[31]w（S）=σ. qhKhΣ ，h = 1，. . . 、H、（4）的双曲余切值。表示X =[fT，. . . ，f [T]TRN×D作为维度为 D 的嵌入点特征，我们有Q=WqX;K=WkX;V=WvX，其中Wq，Wk，WvRN×N是线性投影，Q，K和V是所谓的查询，键和值嵌入。这三个嵌入，然后处理的多头自注意机制。在H-头部注意力情况下， Q 、 K 和 V 被进一步划分为 Q=[Q1，. . . ， QH]，K =[K1，. . . ，KH]，并且V=[V1，. . . ，其中，Qh，Kh，VhRN×D′，h = 1，. . . ，H，并且D′= D。的多头自关注后的输出为：其中Kh是计算的第h个头部的k个嵌入通过编码器输出的投影，并且qh是相应的查询嵌入。注意vectorqhKT可以被视为单个点的全局聚集（即，每个密钥嵌入），并且随后的softmax函数根据归一化向量中的概率为每个点分配解码值。然而，解码权重向量中的值源自简单的全局聚合并且缺乏局部通道建模，这对于学习点云的3D表面结构是必不可少的，因为不同的通道通常表现出不同的特征。S（att）Σ。 QhKT ΣΣ（二）点云中的强几何关系。通道式重新加权。为了强调k个嵌入KT的信道信息，a其中σ（）是softmax函数。在此之后，应用SIM-使用FFN和残差算子，结果如下：S（emb）（X）=Z（F（Z（S（att）（Q，K，V），（3）哪里（）表示加法和归一化运算符，（）表示具有两个线性层和一个Relu激活的FFN。我们观察到，3个相同的自我注意编码模块的堆栈对于我们的CT3D框架是理想的。3.3. 逐信道解码模块简单的解决方案是基于K（T）的所有通道计算点的解码权重向量。也就是说，我们为每个信道生成D个不同的解码权重向量以获得D个解码值。此外，针对这些D个解码值引入线性投影以形成联合的逐声道解码向量。如图3（b）所示，用于解码权重向量的这种新的逐信道重新加权可以总结为：T在本小节中，我们设法解码所有点特征（即，例如，X（）从编码器模块转换为全局表示。w（C）=s·σK√D′ ，h = 1，. . . 、H、（5）在一些实施例中，检测预测被进一步处理，其由FFN进一步处理用于最终检测预测。不同于标准的Trans-自我注意编码输出添加规范FFN×256添加规范多头自注意Q K V3 灤（Q，K，V）=σ·Vh ，h =1，. . . ，H，2747former解码器，其使用自和编码器-解码器注意机制来变换M个多查询嵌入，我们的解码器根据以下两个事实仅操纵一个查询嵌入：其中s是将D’个解码值压缩到重新加权标量中的线性投影，σ（）计算沿着N维的softmax然而，由σ（）计算的解码权重与每个通道相关联，并且因此忽略每个点的全局聚合因此，我们可以得出结论，标准解码方案2748穆勒softmaxmulݓ穆勒重复ݓ穆勒mulΣ−−−√H'Dtt不Σ（一）（b）第（1）款分配置信度预测目标，置信度预测目标为：softmaxct= min.1，最大.0，IoU−αBαF−αBΣ，（8）（c）第（1）款softmax其中αF和αB分别是前景和背景IoU阈值。此外，回归目标（上标t）由建议及其对应的地面实况框（上标g）编码，由下式给出：图3.不同解码方案的图示：（a）标准解码;（b）逐通道重新加权;（c）扩展xt= xgxc ，yt=DLgygyc，zt=DWGzgzc、DHG信道式重新加权。t= log（Lc ），wt= log（WC），ht= log（），HC集中于全局聚合，而信道级重新加权方案集中于信道级局部聚合。为了组合它们的特性，我们提出如下的扩展的逐信道重新加权方案。扩展的逐通道重新加权。具体来说，我们首先重复查询嵌入和关键字嵌入的矩阵乘积，以将空间信息传播到每个通道中，然后将输出与关键字嵌入逐元素相乘，以保持通道差异。如图3（c）所示，这种新颖的扩展的逐信道重新加权方案为所有点生成以下解码权重向量：中文（简体）θt=θg−θc，（9）其中d=（l_c）2+（w_c）2是建议框的底部的对角线。3.5.培训损失我们采用端到端的策略来训练CT3D。因此，总体训练损失是RPN损失、置信度预测损失和箱回归损失的总和，其呈现为：L=LRPN+L配置+L注册这里，二进制交叉熵损失[11，35]被用于预测的置信度c以计算IoU引导的置信度损失：w（EC）=s·σ . ρ（qhKh）⊙KhΣ，h = 1，. . . 、H、（6）Lconf= −c log（c）−（1 − c）log（1 − c）。（十一）其中ρ（·）是重复算子，使得R1×N→RD’×N.此外，箱回归损失[35，33]采用：以这种方式，我们不仅可以保持与按信道重新加权方案相比的全局信息，Lreg=I（IoU ≥αR）µ∈x，y，z，l，w，h，θLsmooth-L1（µ，µ），（12）而且与标准解码方案相比丰富了局部和详细的信道交互。此外，与其他两种方案相比，这种扩展的逐信道重新加权仅带来1K+（字节）的增加。结果，最终解码的建议表示可以被描述如下：y=[w（EC）·V（1，. . . ，w（EC）·VH]，（7）其中I（IoU≥αR）表示只有IoU≥αR的建议会导致回归损失。4. 实验在本节中，我们在两个公共数据集KITTI [7]和Waymo [18，42]上评估了我们的CT3D。此外，我们进行了全面的消融研究，以验证疗效。1小时…………………………………………2749CT3D中的每个模块其中，值嵌入V是从X获得的线性投影。3.4. 检测头部和训练目标在前面的步骤中，输入点特征被求和为D维向量y，然后将其馈送到两个FFN中，用于分别预测相对于输入3D建议的置信度和框为了输出置信度，训练目标被设置为3D提案与其对应的地面实况框之间的3D IoU。给定3D提案的IoU及其相应的地面实况框，我们遵循[11，25，24]4.1. 数据集KITTI数据集。KITTI数据集包含7,481个训练LiDAR样本和7,518个测试LiDAR样本。根据之前的工作[2]，我们将原始训练数据分为3，712个训练样本和3，769个验证样本进行实验研究。Waymo数据集。Waymo数据集由798个训练序列和大约158，361个LiDAR样本组成，以及202个验证序列和40，077个LiDAR样本。由于其各种自动驾驶场景，这种大规模Waymo数据集检测任务更具挑战性[42]。2750L≥- -- --方法段落（男）3D检测-汽车简易模块硬方法3D检测-汽车简易模块硬激光雷达RGBMV3D，CVPR 2017[3]-74.9763.6354.00ContFuse，ECCV 2018[17]-83.6868.7861.67AVOD-FPN，IROS 2018[12]-83.0771.7665.73F-PointNet，CVPR 2018[21]4082.1969.7960.59UberATG-MMF，CVPR2019[16]-88.4077.4370.223D-CVF在SPA，ECCV 2020[38]-89.2080.0573.11CLOC，IROS 2020[20]-88.9480.6777.15仅LiDARSECOND，传感器2018[33]2083.3472.5565.82PointPillars，CVPR 2019[13]1882.5874.3168.99STD，ICCV 2019[37]-87.9579.7175.09PointRCNN，CVPR 2019[25]1686.9675.6470.703D IoU损失，3DV 2019[40]-86.1676.5071.392020年PAMIA2部分[26]22687.8178.4973.51SA-SSD，CVPR 2020[10]40.888.7579.7974.163DSSD，CVPR 2020[36]-88.3679.5774.55PV-RCNN，CVPR 2020[24]5090.2581.4376.82Voxel-RCNN，AAAI 2021[4]2890.9081.6277.06CT3D（我们的）3087.8381.7777.16表1.在KITTI测试集上与最先进方法进行性能比较。所有结果均以0.7 IoU阈值和40个召回位置的平均准确率报告。4.2. 实现细节RPN。我们采用SECOND [33]作为我们的RPN，因为它的高质量建议和快速推理。对于KITTI数据集，X、Y、Z轴范围设置为激光雷达RGBMV3D，CVPR 2017[3]71.2962.6856.56ContFuse，ECCV 2018[17]-73.25-AVOD-FPN，IROS 2018[12]-74.44-F-PointNet，CVPR 2018[21]83.7670.9263.653D-CVF在SPA，ECCV 2020[38]89.6779.8878.47仅LiDARSECOND，传感器2018[33]88.6178.6277.22PointPillars，CVPR 2019[13]86.6276.0668.91STD，ICCV 2019[37]89.7079.8079.30PointRCNN，CVPR 2019[25]88.8878.6377.38SA-SSD，CVPR 2020[10]90.1579.9178.783DSSD，CVPR 2020[36]89.7179.4578.67PV-RCNN，CVPR 2020[24]89.3583.6978.70Voxel-RCNN，AAAI 2021[4]89.4184.5278.93CT3D（我们的）89.5486.0678.99表2.在KITTI值集上与最先进方法的性能比较。所有结果均由平均精度报告，具有0.7 IoU阈值和11个召回位置。IOUThr.BEV检测3D 检测容易Mod.硬容易Mod.硬0.796.1491.8889.6392.8585.8283.46表3.我们的CT3D在KITTIval集上的性能，其中AP由汽车类别的40个召回位置计算。（0，70。4）、（40，40），（3，1），并且设置体素大小如（0. 05m、0. 05m、0. 1m） in（X轴，Y轴，Z轴）。对于Waymo数据集，对应的轴范围是（75. 2，75。2），（75. 2，75。2）、（2，4），并且体素大小是（0. 1米，0. 1米，0. 15米）。RPN由Focal-Loss分类分支和基于Smooth-L1-Loss的回归分支组成。请参考OpenPCDet [30]了解更多细节，因为我们使用此工具箱进行实验。培训详情。我们使用8个V100 GPU来训练整个网络，KITTI数据集的批量大小为24，Waymo数据集的批量大小为16对于逐通道Transformer的编码器和解码器模块，我们设置α= 1。2和H= 4。对于训练目标，我们设置α F= 0。75，α B= 0。25，α R= 0。55，分别。整个CT3D框架使用ADAM optimizer从头开始端到端训练100个epoch。针对学习率的衰减，采用余弦退火学习率策略，学习率的最大值为0.001。在训练阶段，只随机选择 128 个方案计算置信损失，而选择 64 个（IoUαR）方案计算回归损失。在推理阶段，选择前100个建议用于最终预测。表4.在KITTI上为行人和骑自行车的人表演我们的测试提交，所有发布的训练数据都用于训练模型。在[25，24，4，10]之后，与先前的方法1相比，测试集的平均精度（AP）是用40个召回位置计算的，而val集的AP是用11个召回位置计算的。性能比较。表1说明了我们的方法和最先进的方法在官方KITTI测试服务器之间的性能比较。它表明CT 3D在仅LiDAR和Li-dar RGB模式上的汽车检测的中等和硬水平上实现了最佳性能，特别是对于最重要的中等水平[8]。与共享相同RPN的最新发布的PV-RCNN（即，第二）作为我们的，CT 3D实现了更好的性能，同时需要约1/3倍的参数进行细化。此外，如图4所示，与PV-RCNN相比，CT 3D呈现出更好的可视化性能。这一显著的改进主要来自于CT3D在细化阶段处理原始点而不是依赖于4.3. KITTI数据集我们比较了我们的CT3D与最先进的方法在KITTI测试和val集与0.7 IoU阈值。为12019年10月8日，AP计算的设置从11个召回位置修改为40个召回位置。为了与以前的方法进行公平的比较，我们利用11召回设置的val集。IOUThr.行人骑车人容易Mod.硬容易Mod.硬0.565.7358.5653.0491.9971.6067.342751∼困难方法BEV检测-车辆整体0- 30米30- 50米50m-Inf整体0- 30米30-50m50m-InfPointPillar，CVPR 2019[1]56.6281.0151.7527.9475.5792.1074.0655.47MVF，CoRL 2020[42]62.9386.3060.0236.0280.4093.5979.2163.091级柱外径，arXiv 2020[32]PV-RCNN，CVPR 2020[24]69.8070.3088.5391.9266.5069.2142.9342.1787.1182.9695.7897.3584.8782.9972.1264.97Voxel-RCNN，AAAI2021[4]75.5992.4974.0953.1588.1997.6287.3477.70CT3D（我们的）76.3092.5175.0755.3690.5097.6488.0678.89PV-RCNN，CVPR 2020[24]65.3691.5865.1336.4677.4594.6480.3955.392级Voxel-RCNN，AAAI2021[4]CT3D（我们的）66.5969.0491.7491.7667.8968.9340.8042.6081.0781.7496.9997.0581.3782.2263.2664.34表5.与Waymo数据集上最先进的方法进行性能比较，其中包含202个验证序列（40k个样本）用于车辆检测。人类指定的设计和次优的中间特征。请注意，我们的CT3D的简易水平上的AP相对更差，可能有两个原因。首先，我们在所有级别的每个提案中只采样256个原始点，即使是简单级别的提案通常也有更多的点。其次，我们观察到，KITTI表现出很大的分布差异trainval和测试集之间为了进一步验证，我们进行比较与以前的方法KITTI值集。结果表明，我们的CT 3D以较大的幅度优于所有其他方法，在中等水平上领先最先进的方法Voxel-RCNN 1.54%，并在容易的水平上取得了有竞争力的结果这一改进也验证了我们的方法的有效性，表明我们的CT3D可以更好地模型的上下文信息和依赖关系相比，基于多尺度特征融合的方法。我们的模型也可以实现强大的行人和自行车检测性能。汽车-BEV，行人-3D和骑自行车者-3D结果列于表3和表4中以供参考。4.4. Waymo数据集至于Waymo数据集，我们在训练集上训练我们的模型，并在验证集上对其进行评估。同样，mAP用0计算。7车辆检测的IoU阈值。数据分为两个难度级别：LELVEL 1表示包含超过5个点的对象，LELVEL 2表示包含1〜5个点的对象。性能比较。在表5中，我们比较了CT3D采用基于官方发布的评估工具的最先进方法[29]。可以看出，我们的方法优于所有以前的方法，在级别1和级别2中的所有感兴趣的距离范围上具有显著的裕度。CT 3D对于常用的LEVEL 1 3D mAP评估度量达到76.30%，在3D检测上超过先前最先进的方法Voxel-RCNN 0.71%，在鸟瞰图检测上超过2.31%。这一显著的改进也验证了我们的CT3D方法在大规模点云特征表示上的有效性。我们在表5中报告了Level 2难度的结果，我们的方法比Voxel-RCNN显著高出2.45%3D检测。一个促成因素是Voxel-RCNN通过将RoI空间划分为网格来限制特征交互，而我们提出的CT 3D具有捕获稀疏点之间的远程交互的明显4.5. 消融研究在本节中，我们对CT3D进行了全面的消融研究，以验证每个单独组件的有效性我们报告的3D检测AP度量与40召回位置上的KITTI值集。不同的RPN主干。在表6中，我们分别使用“第二RPN[33]”和“PointPillar RPN [13]”验证了我们的细化网络可以看出，与RPN基线相比，检测性能提高了+5.47%和这得益于我们的两阶段框架CT3D可以集成在任何RPN之上，以提供强大的提案细化能力。我们还在表6中提供了参数的数量以供参考。建议到点嵌入。我们调查的重要性的关键点减法策略，通过比较它与基线大小方向的建议，以点嵌入的秒采用的策略。3.2.表7的第2行和第3行示出了关键点减法方法显著地改善了所有三个难度级别中的性能该策略背后的基本原理是，每个点与建议关键点之间的相对坐标可以提供更有效的几何信息，从而形成高质量的点位置嵌入。自我注意编码表7的第1行和第3行示出了移除自注意编码使性能下降很多，这表明自注意通过聚集全局感知上下文信息和依赖性来实现每个点的更好的此外，我们可视化了来自不同时期检查点的训练模型的最后一个自我注意力层的注意力图。如图5所示，汽车上的点在时期80中得到更多关注，即使在如图5（c）的极其稀疏的情况相反，背景点在训练过程中得到的关注较少在那里-2752图4. KITTI测试集上3D物体检测的定性比较结果。与PV-RCNN相比，我们的CT 3D能够实现更合理和更准确的检测。点柱RPN二RPN两级细化段落（男）中度AP（%）✓1879.26✓✓2884.08✓2080.35✓✓3085.82表6. KITTI值集上不同RPN的消融研究，3D检测AP指标，40个召回位置。图5.由自我注意力层生成的注意力地图我们将3个RoI（红色虚线）内的至多256个采样点的权重可视化为第30和第80个时期。因此，CT3D更加关注前景点，从而获得相当好的性能。逐通道解码。如表7的第3、第4和第5行所示，扩展的逐声道重新加权以大的这得益于标准解码与用于全局和逐通道局部聚集两者的逐通道重新加权的集成，从而生成更有效的解码权重。5. 结论在本文中，我们提出了一个两阶段的三维目标检测框架CT 3D与一个新的通道明智的trans-former架构。我们的方法首先编码的建议信息到每个原始点，通过一个有效的建议到点嵌入，然后由自我注意捕捉点之间的长程相互作用。随后，我们通过一个扩展的通道方式将编码的点特征转换为全局的提案感知表示表7.针对KITTI值集合上的提议到点嵌入、自注意编码和通道方式解码的消融研究。“K。S.”代表关键点减法策略，“S.E.”代表自我注意编码，S D."，“C. R.”和“E. C. R.”分别表示标准解码、逐通道重新加权和我们的扩展的逐通道重新加权。重新加权方案，其可以获得针对所有点的有效解码权重。CT3D提供了一个灵活和高效的框架，这是特别有帮助的点云检测任务。在 KITTI 数据集和大规模Waymo数据集上的实验结果也验证了CT3D可以实现比最先进方法的显着改进。确认本研究得到了阿里巴巴创新研究（AIR）项目和浙江省实验室重大科学研究项目（ No.2019DB0ZX01）。时代3080年代（一）（b）第（1）款（c）第（1）款CB一CBLiDAR视图注意力地图CT3DPV-RCNNK. S.S. E.S. D.C. R.E. C. R容易Mod.硬✓✓90.2979.2074.59✓✓91.9283.4181.79✓✓✓92.0985.1082.98✓✓✓92.5685.3483.23✓✓✓92.8585.8283.462753引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第213-229页[2] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun. 用于精确对象类别检测的 3D 对象建议。AdvancesinNeuralInformationProcessingSystems（NIPS），28：424[3] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集（CVPR），第1907-1915页[4] Jiajun Deng ， Shaoshuai Shi ， Peiwei Li ， WengangZhou，Yanyong Zhang，and Houqiang Li.体素r-cnn：面向高性能的基于体素的三维目标检测。arXiv预印本arXiv：2012.15712，2020。[5] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[6] Nico Engel、Vasileios Belagiannis和Klaus Dietmayer。点Transformer。arXiv预印本arXiv：2011.00931，2020。[7] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013.[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3354-3361页，2012年。[9] Meng-Hao Guo，Jun-Xiong Cai，Zheng-Ning Liu，Tai-Jiang Mu，Ralph R Martin，and Shi-Min Hu. Pct：点云Transformer。arXiv预印本arXiv：2012.09688，2020。[10] Chenhang He，Hui Zeng，Jianqiang Huang，Xian-ShengHua，and Lei Zhang.基于点云的结构感知单阶段三维物体在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第11873-11882页[11] 蒋博瑞，罗瑞轩，毛嘉源，

下载后可阅读完整内容，剩余1页未读，立即下载