从上述论述可以总结出如下的20字中文标题：点云3D检测方法Point2Seq的序列解码范例及性能优化

108 浏览量更新于2023-10-25 收藏 816KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8521Point2Seq：将3D对象检测为序列[StarCount*]1新加坡国立大学2华为诺亚3香港中文大学4华为国际私人有限公司摘要我们提出了一个简单而有效的框架，命名为Point2Seq，从点云的3D对象检测。与以前通常一次性预测3D对象属性的方法相比，我们对3D对象属性之间的相互依赖关系进行了表达具体而言，我们将每个3D对象视为单词序列，并将3D对象检测任务重新制定为以自回归方式从3D场景中解码单词。我们进一步提出了一个轻量级的场景到序列解码器，可以自动回归生成条件的3D场景的功能，以及从前面的话线索的话。预测的单词最终构成了一组序列，这些序列完全描述了场景中的3D对象，然后通过基于相似性的序列匹配将所有预测的序列自动分配给相应的地面实况我们的方法在概念上是直观的，可以很容易地插入到大多数现有的3D检测骨干，而不会增加太多的计算开销;另一方面，我们提出的顺序解码范例可以在先前预测的字的帮助下更好地利用来自复杂3D场景的信息。在没有花哨的情况下，我们的方法显著优于之前基于锚点和中心的3D对象检测框架，在具有挑战性的ONCE数据集和Waymo Open Dataset上获得了最新的技术水平。代码可在https://github.com/ocNflag/point 2seq上获得。1. 介绍3D物体检测是自动驾驶智能感知系统的关键组成部分随着LiDAR传感器的日益普及，从点云中进行3D对象检测已经成为一种新的技术。*共同第一作者，同等贡献。†通讯作者。电子邮件地址：xinchao@nus.edu.sg图1.Point2Seq将3D对象检测问题重新表述为自动回归生成可以表示3D对象的单词序列顺序解码范式获得更好的检测性能相比，以前的作品，并行预测的所有属性的3D对象，由于其在探索对象属性之间的内在依赖关系的能力。与其他输入方式相比，由于先进的检测精度而受到广泛关注在驾驶场景中，大多数3D对象相对于检测范围而言非常小，并且已经采用了许多方法来从点云中准确地检测这些小对象基于锚点的方法[13，38]将预定义的锚点放置在鸟瞰图（BEV）特征图的每个像素中心，而基于中心的方法[9，42]将对象中心附近的像素视为阳性，并使用这些像素特征预测框。这些方法依赖于复杂的手工制作的标签分配和后处理过程，并且由BEV表示引入的量化误差导致对象位置与用于预测这些对象的像素特征之间的严重不对准。像[16，25，27]这样的方法依赖于第二个细化阶段来缓解未对准问题，但代价是增加了太多的计算开销。因此，学习更多的空间对齐的功能，以检测3D对象准确，同时保持高效率提出了一个开放的挑战，研究界。为了应对这一挑战，在本文中，我们介绍了Point2Seq，一个灵活和精简的框架，从点云的3D与通常预测3D对象的所有属性的现有方法（例如，位置、类别、大小），我们将每个对象表示为序列，其中每个词对应于对象属性，并且我们明确地探索词之间的固有我们的动机是非常直观的：考虑到每一个OB-作为序列的3D对象点云骨干BEV特性地图区域位置取向L尺寸类别8522对象由连续的单词表示，现有的单词将为3D检测器提供线索，以更好地利用空间特征，并帮助检测器更准确地预测后续单词。例如，3D检测器可以利用对象的更多空间对准的特征（如果对象位置先前已经被预测），并且更好地识别对象类别（如果其尺寸信息已经已知）。因此，期望设计一种检测框架，其可以以先前生成的单词以及空间特征为条件来顺序地预测3D对象的单词，直到所有单词形成描述场景中的3D对象的序列的集合。为了实现这一目标，我们必须解决两个关键挑战：如何设计序列目标词预测模块并使其与现有的3D检测流水线兼容，以及如何使用地面实况和预测序列优化3D检测器。为了解决第一个问题，我们提出了一种新的场景到序列解码器，该解码器将BEV特征图和一组初始区域线索作为输入，并并行地对所有对象的序列进行自回归解码。场景到序列解码器与大多数基于网格的3D主干兼容[13，19，35，38，44]，并且可以根据前面单词的信息有效地凭借高度并行的深度学习库，场景到序列解码器可以一次生成所有3D对象的序列，几乎不增加时间和内存成本。为了处理第二个问题，我们采用集到集损失来匹配预测序列与地面真值。与现有的方法[3，21，36]不同，这些方法利用分类和回归损失的总和作为二分匹配的成本函数，在本文中，我们提出了一种新的度量来衡量两个序列之间的相似性。然后，我们执行二分匹配最大化的全球相似性的预测和地面真理集使用建议的度量。以这种方式，每个预测序列可以自动分配给相应的地面实况，而无需预定义的锚点或中心。分配是全局最优的，并导致更好的性能与以前的方法。使用轻量级的场景到序列解码器，我们的方法可以逐步预测3D对象的单词，产生可靠的预测，显着优于形式的最先进的。此外，我们的方法是免费的，从人类设计的标签分配程序与基于相似性的序列匹配。我们的主要贡献概述如下：• 我们提出了一个有效的和灵活的框架，从点云的三维物体检测。我们将每个3D对象表示为一个单词序列，并对3D对象进行建模。保护问题，如以自回归方式从3D场景中解码单词。• 我们提出了一个场景到序列解码器，可以自动-回归地生成表示检测到的3D对象的序列，并引入基于相似性的序列匹配方案，以使得能够将预测序列自动分配给相应的地面实况，用于端到端训练。• 我们的方法显着优于基于锚和基于中心的3D检测器具有相同的骨干，达到66。ONCE数据集上的16%mAP和77。Waymo开放数据集上的52%2. 相关工作用于3D对象检测的主干。3D检测器依赖于各种骨干网络从输入点云中提取特征现有的3D检测器的主干可以分为3个流：基于点的、基于范围的和基于网格的。基于点的主干[15，22，26，28，39-基于距离的主干[1，8，14，20，31]将距离图像作为输入表示，距离图像是来自LiDAR传感器的原始数据。定制的操作员，例如，将距离条件卷积[1]、元核[8]应用于距离图像以进行特征提取。基于网格的骨干[13，19，35，38，44]首先将点云光栅化为体素或柱。这些体素或柱子被送入3D网络，然后投影到BEV特征图中，然后由2D卷积神经网络检测3D对象。在这3种骨干中，基于网格的骨干可以在保持高效率的同时获得更好的检测性能我们的Point2Seq是一个灵活的检测框架，可以应用于大多数基于网格的骨干。3D对象预测机制。3D检测器采用各种预测机制来从主干特征生成检测到的3D对象对于基于点的骨干，PointRCNN [26]直接在关键点的位置上生成对象提议对于基于范围的主干，RangeDet [8]在范围图像的像素上生成3D边界框。对于基于网格的主干，SEC- OND[38]在BEV地图的每个网格中心放置一组3D锚点。与地面实况3D对象具有高重叠的锚点被设置为正，然后在正锚点上预测对象。SA-SSD [11]应用部分敏感的扭曲方案来增强空间特征。CenterPoints [42]将对象中心附近的BEV像素视为正值，并在对象中心附近生成预测边界框。现有的方法通常不考虑对象内部的信息，同时预测3D对象的所有属性，而Point2Seq可以建模与场景到序列解码器的对象用于对象检测的集对集匹配。集合到集合匹配机制首先在DETR [3]中引入，8523点云骨干BEV特征图场景到序列解码器预测序列基于相似性的序列匹配图2.我们框架的整体架构Point2Seq包含三个主要组件：3D主干，场景到序列解码器和基于相似性的序列匹配方案。3D主干将栅格化的点云作为输入，并输出3D场景的鸟瞰图（BEV）特征图。场景到序列解码器对BEV特征图进行操作，并基于来自先前预测的单词的信息顺序地预测3D对象的单词。最后，预测序列自动分配到相应的地面真理所提出的基于相似性的序列匹配方案。其中通过二分匹配将一组对象查询分配给相应的基本事实。通过一系列关于基于图像的对象检测的工作[29，32，34，45]改进了该方法。集合到集合匹配方案也被采用在3D对象检测中。3DETR [21]将采样点用作对象查询。对象DGCNN [36]利用对象查询的稀疏集合来迭代地与BEV特征图交互作用以生成3D对象。与之前的方法相同，Point2Seq不需要稀疏对象查询或[33，37]中的多步细化模块。这些序列是从BEV地图并行密集生成的，并且通过基于相似性的序列匹配自动匹配到相应的地面实况，而无需额外的模块或参数。3. 将3D对象检测为序列3.1. 架构对于每个3D场景，Point2Seq将点云作为输入，并输出一组3D边界框B={B1，···，BM}∈RM×8，表示检测到的3D ob。例如，车辆、行人、骑自行车的人等。3D点云是一个N×d矩阵，其中N表示场景中的点的数量，d表示点的初始特征，即，3D坐标、强度等。每个3D对象Bi∈R8是向量：[x，y，z，l，w，h，θ，c]，其中[x，y，z]是物体中心的位置size，θ是对象如图2所示，Point2Seq的架构由3个部分组成：3D主干、场景到序列解码器和基于相似性的序列匹配方案。3D主干首先消耗点云并从点云生成BEV特征图。然后，场景到序列解码器将BEV特征图和区域线索的初始集合两者作为输入，并且对描述场景中的检测到的3D对象的单词序列进行解码。最后，应用基于相似性的序列匹配来将预测的句子分配给相应的地面实况。Point2Seq中的3D主干的选择可以是灵活的：大多数基于网格的骨干[13，19，35，38]可以应用于我们的框架。基于网格的主干首先将点云转换为体素或柱子，然后分别通过稀疏卷积[10]或集合抽象[23]从这些体素或柱子中提取3D特征。然后将3D特征投影到鸟瞰图（BEV）。2D卷积神经网络网络应用于投影特征以获得最终 BEV 特征图F∈RH×W×C，其中检测空间被划分为H×W网格，并且C表示特征通道的数量。在场景到序列解码器中，3D对象B被变换成序列集合{S1，...，SM}，其中每个序列S1对应于3D对象B1，并且相应地，12��ሚ1��ሚ2场景到序列解码器预测GT序列预测值超声波序列L区域词L位置词方向词大小字分类字解码器…………8524我我我我有K个词{W0，···，WK−1}，可以表示3D对象作为一个单词序列转换每个3D我我3D物体。场景到序列解码器操作于BEV特征图F和可以自回归地预测将物体转化为文字是我们方法的关键一步。不同从那些采用离散标记作为单词的方法中，一个词Wj F和前面的词的条件作用自然语言处理任务，我们代表的话，W0：j−1。我们将在第二节介绍场景到序列解码器的详细设计。3.2节中，然后说明如何通过基于相似性的序列匹配来优化场景到序列解码器和3D主干。三点三最后，我们讨论和比较我们的方法与以前的文献中。三点四分。3.2. 场景到序列解码器问题表述。先前的单级3D检测器将3D对象检测问题建模为从特征F同时预测3D对象B的所有属性。学习过程可以用公式表示为优化问题：ΣMmaxlogP（Bi| D（F）），（1）i=1在我们的方法中以连续格式。在3D对象检测中优选使用对象词的连续表示，因为3D对象的大多数属性，例如，位置、大小、方向是连续值，并且预测的单词可以直接转换回相应对象在本文中，每个3D对象B=[x，y，z，l，w，h，θ，c]被翻译成5个单词：B= T（S）= T（W R，W L，W O，W S，WC）.（四）区域词WR=[Rx，Ry]∈R2表示三维物体可能出现的可能区域，其中[Rx，Ry]是该区域的BEV中心坐标，并引入附加参数[Rl，Rw]来描述该区域在BEV特征图上的空间范围。位置字WL=[Lx，Ly，z]∈R3表示位置，物体中心的位置其中Bi∈ B是第i个地面实况3D对象的属性[x，y，z，l，w，h，θ，c]，M = |B|，并且D通常是应用于BEV特征图的卷积预测头F.并行预测范式因其效率而被广泛采用。然而，由于光栅化引入的高量化误差，其遭受对象的实际位置与用于预测的BEV特征之间的不对准可以采用多阶段改进来减轻未对准问题，但是将因此引入太多的计算开销。在本文中，我们从自然语言处理应用中的语言建模（LM）[2，7]中获得灵感，并将每个3D对象B翻译为包含K个单词{W0，···，WK−1}的序列S：B= T（S）= T（W0，···，W K−1）.（二）平移T是无参数和双向的，因此3D对象及其对应的词可以容易地相互转换。然后类似于语言模型，我们可以将检测问题重新表述为最大化所有目标的概率生成Wj，条件是特征F和先前的预测Ly=（y−Ry）/Rw表示在区域中的相对位置，gion。方位词WO=[sin（θ），cos（θ）]∈R2用三角函数对物体的方位θ进行编码大小字WS=[log（l），log（w），log（h）]∈R3将对数函数应用于对象类别词WC∈Rn+1表示n个检测类和背景类的概率。场景到序列预测。我们提出的场景到序列解码器将BEV特征F和一组区域词W R作为初始输入，并顺序地预测W L、W O、W S、W C，即，W1、W2、W3、W4合4每个区域WR的步骤。在每一步中，单词在隐藏状态映射H∈RH×W×C上被预测，该映射编码了前一步的历史信息。具体地，首先将隐藏状态H1初始化为输入BEV特征图F：H1= F。（五）然后在第j步，将从相应区域中心W_R处的隐藏状态H_j直接预测单词W_j，即，Hj[WR]∈RC，通过单个线性投影层f线性：单词W0：j−1：Wj=f线性（Hj[WR]），（6）MK其中[·]是整数运算符。隐藏状态Hj[WR]MaxlogP（Wi|D（F，W0，···，Wj−1））。（3）RR然后，W处的ii将被更新到第n个步骤Hj+1[W]i=1j =1我们的方法的主要见解是，每个3D对象被分解成几个单词，并且顺序地预测这些单词，而不是在先前的方法中同时预测，使得能够更有效地利用BEV特征，其中具有来自先前预测单词的线索。基于从先前预测的单词{W0，···，Wj}已经学习的知识：Hj+1[WR]=Φ（Hj[WR];W0，···，Wj），（7）8525其中Φ是更新函数。为了在第j步对隐藏状态更新过程进行建模，在每个区域WR附近，我们8526Ij（（（用于反向传播的匹配序列对。通过这种方式，我们可以消除手工制作的标签分配过程，并使我们的模型在没有非最大抑制的情况下可端到端训练场景到序列解码器输出包含总共所有BEV像素的H ×W序列的一组预测序列{S1，...，SHW}。对于地面实况3D对象，我们还构造了一个序列集{S，···，S，，···，}1M图3. 每个步骤的采样位置。对于每个区域，我们基于来自预测单词的信息，从空间采样器S逐渐获得1、4、4个首先通过以下方式对稀疏点集{pj，···，pj}∈Rn×2进行采样：其中地面真值集的大小等于预测集，我们用剩余的序列填充如果M< H×W。为了测量预测序列S和地面实况序列S之间的相似性，我们定义一个新的相似性度量，其可以公式化为Σ1NSim（S，S<$）=（WCW<$C）α·e−（1−α）j∈{R，L，O，S}|Wj−Wj|、- 空间采样器S，其由所预测的字参数化：{pj，···，pj}=S（W0，···，Wj）.（八）（十）其中第一项（WCW<$C）α测量类相似性r-1N预测对象和地面实况对象之间的一致性，以及S的采样模式如图3所示，详细配方见附录。然后，对于每个区域WR，我们可以通过在Hj上的那些采样位置处聚合隐藏向量来更新到Hj+1[WR]H[WR]=A（H[pj]，···，H[pj]），（9）第二项测量形状和位置相似性。超参数α用于平衡两个相似性并设置为0。25在我们的实验中Sim（S，S）=0，如果预测序列匹配到S。建议的相似性度量是一个更严格的标准，以匹配预测与地面真理，j+1j1jn即使两个序列之间有微小的差异，相似性得分趋于0。考虑到3D其中，聚合函数A将采样的隐藏向量并将其投影到RC空间中。区域词W_R的初始集合指示3D对象可能出现在3D场景中的位置。由于不存在这样的先验信息，本文采用了一种稠密预测策略.也就是说，我们将BEV特征图中的每个像素视为一个区域词，并预测一个se-由于三维物体本身就很小，并且应该完全避免不匹配，因此我们提出的严格相似性度量在三维物体检测任务中是可取的。有了相似性度量，我们可以通过考虑二分匹配问题进一步建立最佳集对集匹配矩阵Σ每个BEV像素的序列WC是前-最大值=Sim（S，S），（11）如果在相应的像素区域附近没有3D对象，则期望预测背景类的最高概率密集预测范式受益于现代深度学习库的高度并行特性，并且场景到序列解码器可以使用共享的MLP和采样运算符有效地并行预测所有像素的序列3.3. 基于相似性的序列匹配在本节中，我们将介绍如何通过基于相似性的序列匹配来优化我们我们的方法受到基于图像的检测框架中采用的集到集损失的启发[3]。我们的主要内容在于设计一个新的成本函数，I jn（i→j）∈n其中，R1是双射函数，其实现从预测序列集到地面实况集的一对一映射。二分匹配问题的目的是找到最佳的匹配，使两个集合的最大总体相似度可以实现。使用随机化，每个地面真值序列可以自动分配给具有最高相似性的相应预测序列。最佳的双粒子匹配矩阵可以通过匈牙利算法[12]有效地计算。一旦建立了S和S的匹配对，针对3D对象检测定制的所提出的损失函数可以被计算为：用于集合到集合匹配问题中的3D对象检测。具体地说，我们提出了一个新的度量Sim（S，S）来度量两个序列S和S之间的相似性。ΣLdet=[L（i→j）∈Ncls（WC，W<$C）+预测和地面实况序列集。✶˜λregLreg(W{R,L,O,S},W˜{R,L,O,S})],我们把预测的序列和相应的焦油-{Si=}iJ（十二）通过最大化两个序列集的全局相似性来获得序列。最后，损失可以适用于其中Lcls是应用于预测和目标类别词的焦点损失，Lreg取词W{R，L，O，S}）（，区域中心采样点8527和W将{R，L，O，S}作为输入，并将它们转换回相应对象的位置和形状[ x，y，z，l，w，h，θ ]，指示器序列（近158k点云样本）被用作训练集，202个序列（近40k点云样本）被用作验证集。评价函数{S这意味着我们只将Lreg应用于Waymo开放数据集上的指标是3D平均值与地面实况匹配的序列，λreg为平衡两种损失的系数。由于每个地面实况3D对象仅与一个预测序列匹配，因此场景到序列头不会为单个对象产生重复的框因此，在我们的框架中可以消除非最大抑制的耗时过程在推理阶段，我们简单地过滤掉WC中的最大类概率低于某个阈值的低质量序列，并将剩余序列转换为3D对象作为最终检测结果。3.4. 讨论我们提出的Point2Seq与并行工作Pix2Seq [5]有着相似的直觉，Pix2Seq [ 5 ]是针对基于图像的对象检测提出的，它将对象作为可以从特征图中读出的单词然而，我们的方法在3个方面与[5]有本质的不同1）不同于[5]，将所有对象合并到单个se中，序列，我们把每个对象作为一个序列，并行预测所有对象，而每个对象中的单词是顺序生成的。以这种方式，我们可以规避[5]中的对象排序问题，并且与[5]相比，我们的方法在推理阶段更有效，其中推理延迟将受到图像中的总对象计数的严重影响2)我们在[5]中采用了连续的单词表示而不是离散的标记。连续表示的使用减轻了对量化的需要，并使我们的方法与现有的损失函数兼容，为3D对象检测量身定制。3)我们提出了场景到序列解码器来为每个对象生成单词，以代替[5]中的Transformer架构。场景到序列解码器是轻量级的，并且利用稀疏的特征集来预测每个对象，这更适合于检测到的目标通常较小且稀疏的3D对象检测。4. 实验在本节中，我们在常用的Waymo Open Dataset [30]和ONCE数据集[17]上评估Point2Seq我们首先介绍的实验设置在第二。 4.1. 然后，我们将我们的方法与Waymo Open Dataset上以前最先进的方法进行比较（第二节）。4.2）和ONCE数据集（Sec.4.3）。最后，我们报告的推理速度和参数的数量，以及在我们的模型中不同组件的功效。4.44.1. 实验装置Waymo开放数据集。Waymo Open Dataset由1000个点云序列组成，其中798个点云序列精度（mAP）和按航向精度加权的mAP（mAPH）。用于车辆的IoU阈值为0。7和0的情况。五是其他类别。检测结果根据难度等级报告：1级用于超过5分的箱子，2级用于至少1分的箱子。ONCE数据集。ONCE数据集总共包含100万个点云，其中5k、3k、8k点云分别被标注为训练、验证、测试分割。其余的点云保持未注释，自我/半监督学习在本文中，我们在训练分割上训练我们的模型，并在验证和测试分割上报告车辆，行人和骑自行车者的检测结果，而不使用未标记的数据。官方的评估指标是平均精度（mAP），检测结果根据物体到传感器的距离进行划分：0 - 30 m、30 - 50 m和50m-inf。实施详情。在Waymo Open Dataset上，我们使用相同的3D稀疏卷积神经网络，和2D卷积神经网络[42]。BEV特征图的输入体素大小和输出分辨率也与[42]保持相同，以进行公平比较。在ONCE数据集上，所有基于体素的检测器在其官方基准实现中使用相同类型的3D主干[38]。我们也遵循设置并使用[38]中对于其他模型配置，我们采用与ONCE基准测试相同的配置。训练和推理细节。我们用ADAM优化器和余弦退火学习率调度器训练我们的模型。在Waymo OpenDataset上，我们对20%的点云样本进行统一采样以进行训练，并使用完整的验证集进行评估[25]。我们使用批量大小32和初始学习率0来训练模型。006，在8个V100 GPU上运行180个epoch损失函数中的λreg被设置为2。数据扩充与[42]相同在ONCE数据集上，我们遵循相应基准的训练设置，并使用批量大小32和初始学习率0训练我们的模型。003，在8个V100 GPU上运行80个epoch损失函数中的λreg设置为0。五、数据扩充与[17]相同在这两个数据集上，我们过滤掉WC中最大前景类概率低于0的那些对象。在推理阶段，将剩余的目标作为最终的检测结果，而不做任何后处理。4.2. Waymo开放数据集的比较由于我们的贡献集中在3D对象预测机制上，因此评估我们的方法并将其与基于锚点和基于中心的方法进行比较的最公平方法是仅用我们的场景到序列解码器替换中心或锚点头部，同时保留其他组件我8528方法骨干头车辆等级13D mAP（%）3D mAPH（%）车辆水平23D mAP（%）3D mAPH（%）[20]第二十话范围锚52.1 50.1- -刚果民主共和国[1]范围中心69.0 68.5- -RangeDet [8]范围中心72.85-- -RSN [31]范围中心75.1 74.666.0 65.6[13]第十三话支柱锚63.3 62.755.2 54.7支柱外径[35]支柱锚69.8-- -MVF [43]体素锚62.93-- -PV-RCNN [25]体素锚77.51 76.8968.98 68.41[19]第十九话体素锚74.95 74.2565.91 65.29Voxel R-CNN [6]体素锚75.59-66.59-Pyramid-RCNN [16]体素锚75.6867.23 66.68CT3D [24]体素锚76.3-69.04-CVCNet [4]体素中心65.20-- -AFDet [9]体素中心63.69-- -[42]第四十二话体素中心76.7 76.268.8 68.3[38]第二次世界大战体素锚73.6273.1464.8664.40[42]第四十二话体素中心75.5875.0167.0066.52Point2Seq（我们的）体素序列77.5277.0368.8068.36表1.Waymo Open Dataset与202个车辆检测验证序列的性能比较*：使用官方代码重新实施Point2Seq使用重新实现的基线维护相同的主干、数据扩充和训练时期方法最大平均接入点（%）溶剂mAP（%）整体 0- 30米 30-50m 50m-inf行人平均空气流量（%）整体 0- 30米 30-50m 50m-inf骑自行车者mAP（%）整体 0- 30米 30-50m 50m-inf[25]第二十五话28.7452.0974.4540.8916.814.286.172.40.9129.8446.0320.945.46[13]第十三话44.3468.5780.8662.0747.0417.6319.7415.1510.2346.8158.3340.3225.86PV-RCNN [25]53.5577.7789.3972.5558.6423.5025.6122.8417.2759.3771.6652.5836.17第二[38]51.8971.1984.0463.0247.2526.4429.3324.0518.0558.0469.9652.4334.61[42]第四十二话60.0566.7980.1059.5543.3949.9056.2442.6126.2763.4574.2857.9441.48Point2Seq（我们的）66.1673.4385.1666.2150.7657.5368.2147.1525.1867.5377.9562.1446.06表2.ONCE数据集验证分割的性能比较Point2Seq维护与ONCE基准上的基线相同的骨干架构和一样。我们遵循这一原则，并从官方实现中重新实现了两个基线模型： SEC- OND [38] 与锚钉头，CenterPoints [42]与中心头。我们提出的Point2Seq，重新实现的SECOND和CenterPoints具有相同的基于体素的3D骨干，数据增强和训练时期，以确保完全公平的比较。表1显示了Waymo验证集上的检测结果简单地从锚和中心头切换到我们的Point2Seq给出3。90%和1。分别为94%的1级mAP改善。我们的方法达到77。52%Level 1 mAP和68. 80%的2级mAP车辆检测，超过了现有的方法，由一个显着的margin。我们的方法甚至优于那些耗时的两阶段3D检测器[16，24，25]，这表明场景到序列解码器的有效性。4.3. ONCE数据集上的比较ONCE数据集使用相同的骨干网络对不同的基于体素的检测器进行基准测试，我们还遵循这个规则进行公平的比较。如表2所示，Point2Seq在所有类别上都获得了最先进的结果，其中 73.43%mAP用于车辆检测，57. 53%的mAP行人检测，和67。骑自行车者检测为53%。我们方法的总体mAP为66。百分之十六，六。比基于中心的3D对象检测器高11%[42]和14. 比基于锚的3D对象检测器高27%[38]。ONCE数据集上的观察结果与Waymo Open Dataset上的观察结果一致。4.4. 消融研究推理速度和模型参数。表3展示了我们方法的推理时间和参数数量。由于场景中的3D对象是并行预测的，Point2Seq可以获得70. V100 GPU上单个模型的平均推理延迟为4ms场景到序列头只包含几个线性投影层，采样操作无参数，因此模型只引入0. 与基于中心的基线相比，18529j=1方法车辆L1/L2 mAP（%）#参数延迟（ms）分配模块Veh. 1级mAP/mAPH（%）Veh. 2级mAP/mAPH（%）PV-RCNN [25]77.51/68.9813.05M300[42]第四十二话76.7/68.88.74M77锚C.H73.62/73.1464.86/64.40中心C.H75.58/75.0167.00/66.52S.S.M.C.H76.72/76.1968.02/67.54S.S.M.S.S.D77.52/77.0368.80/68.36表3.推理速度和参数数量。†：在相同环境下使用V100 GPU上的单个模型进行测试。骨干头Veh. 1级mAP/mAPH（%）Veh. 2级mAP/mAPH（%）锚63.31/62.7455.24/54.72支柱中心65.46/64.6657.59/56.88Point2Seq69.01/68.2560.72/60.03锚73.62/73.1464.86/64.40体素中心75.58/75.0167.00/66.52Point2Seq77.52/77.0368.80/68.36表4.在不同骨干网络上的性能。表5. Point2Seq中不同组件的效果。C.H：以前作品中的卷积头。S.S.M.：基于相似性的序列匹配。S.S.D：场景到序列解码器。秩序Veh. 1级mAP/mAPH（%）Veh. 2级mAP/mAPH（%）WR，WO，WS，WL，WC77.40/76.9168.71/68.27WR，WO，WL，WS，WC77.43/76.9468.74/68.30WR，WL，WO，WS，WC77.52/77.0368.80/68.36WR，WL，WS，WO，WC73.82/73.2466.16/65.61WR，WC，WL，WO，WS75.96/75.4167.26/66.76WR，WC，WS，WO，WL74.52/73.9966.86/66.35WR，WC，WO，WL，WS77.05/76.5468.37/67.90WR，WC，WO，WS，WL76.82/76.2868.11/67.62表6.不同语序的影响。不同3D主干上的通用性。为了-验证Point2Seq是否能够实现卓越性能在不同的骨干上，我们将场景到序列头部应用于基于体素的[42]和基于柱的[13] 3D骨干上，并分别将结果与中心和合唱头部进行比较。表4表明，在两种情况两种类型的骨干网络，我们的方法始终优于基于锚和基于中心的检测器。Point2Seq中不同组件的效果。Ta-表7.不同相似性度量的比较。两个边界框的3D IoU得分。公式⑴表5示出了场景到序列去的有效性，用e−（1−α）8|Cj−C˜j| 得双曲余切值.编码器和基于相似性的序列匹配方案。基于相似性的序列匹配可以独立地应用于先前使用的卷积头，并将检测性能提高3倍。与基于锚钉的基线相比，1%mAP。结合这两个建议的组件，我们可以获得3的性能增益。9%mAP。单词在序列中的顺序。我们探讨了在我们的方法中改变预测的词序的影响。表6中的结果表明，单词的顺序对检测性能起着不可忽略的作用例如，将W0放在第4位大大降低了检测精度，这可以指示在较早位置预测对象取向的重要性。将WC放在最后将表现出更好的perfor-曼斯相比，把WC在开始。不同相似性度量的选择。我们评估了基于相似性的序列匹配中使用的相似性度量的不同公式。表7显示了我们检查的3个公式（3）是目前采用的相似性度量。公式（2）我们计算两个边界框的8个相应角C的差。结果表明，Eq. 10是3个公式中最好的相似性度量。5. 结论我们提出了Point2Seq，一个有效的和通用的三维对象检测框架，可以应用于大多数基于网格的骨干网络。Point2Seq包含一个场景到序列解码器，它可以自动回归地生成描述检测到的3D对象的序列，并且提出了基于相似性的序列匹配，以实现端到端的训练，而无需人为设计的标签分配。对于未来的工作，我们计划将我们的框架扩展到多模态3D对象检测。确认这项工作得到了新加坡国立大学教师研究委员会资助（WBS：A-0009440-00-00）和NRF先进机器人技术[38]第二次世界大战73.62/64.867.28M66.5[42]第四十二话75.58/67.007.76M69.5Point2Seq†（我们的）77.52/68.807.86M70.4度量Veh. 1级mAP/mAPH（%）Veh. 2级mAP/mAPH（%）（一）74.31/73.5265.61/65.04（二）75.07/74.4366.36/65.738530创新中心（CARTIN）取代术语eΣ−（1−α）j∈{R，O，S，L}|Wj−W˜j|由方程式10项目其中e−（1−α）3DIoU（B，B<$）计算8531引用[1] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragomirAnguelov和Cristian Sminchisescu。用于尺度不变3d对象检测的范围调节扩张卷积。 arXiv 预印本 arXiv ：2005.09927，2020。二、七[2] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。4[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。二、五[4] Qi Chen，Lin Sun，Ernest Cheung，and Alan L Yuille.每个视图都很重要：混合柱面球面体素化三维物体检测中的跨视图一致性。神经信息处理系统进展，2020年。7[5] 陈婷， Saurabh Saxena ， Lala Li ， David J Fleet ，和Geoffrey Hinton.Pix2seq：一个用于对象检测的语言建模框架arXiv预印本arXiv：2109.10852，2021。6[6] Jiajun Deng ， Shaoshuai Shi ， Peiwei Li ， WengangZhou，Yanyong Zhang，and Houqiang Li.体素r-cnn：面向高性能的基于体素的 3d 目标检测。 arXiv ：2012.15712，2020。7[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。4[8] 范略，熊轩，王峰，王乃艳，张兆祥。范围：为射程辩护基于激光雷达的3D物体检测视图。arXiv预印本arXiv：2103.10039，2021。二、七[9] 葛润州、丁壮壮、胡一涵、王宇、陈思佳、李煌、袁力.Afdet：Anchor free one stage 3d object detection. arXiv预印本arXiv：2006.12671，2020。1、7[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用亚流形稀疏卷积网络的3D语义分割。在IEEE计算机视觉和模式识别会议论文集，第9224-9232页，2018年。3[11] Chenhang He，Hui Zeng，Jianqiang Huang，Xian-ShengHua，and Lei Zhang.基于点云的结构感知单阶段三维物体检测在IEEE/CVF计算机视觉和模式识别会议论文集，第11873-11882页2[12] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，2（1-2）：83-97，1955年。5[13] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在IEEE/CVF计算机视觉和模式识别会议论文集，第12697-12705页，2019年。一、二、三、七、八[14] Z

下载后可阅读完整内容，剩余1页未读，立即下载