三维点云对象跟踪的Transformer算法（PTTR）的研究及实现

124 浏览量更新于2023-10-25 收藏 2.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18531PTTR：基于Transformer的关系型三维点云对象跟踪周长青1，3<$* 罗志鹏2，3<$罗跃如1<$<$刘天瑞1，3潘亮2蔡忠昂3赵海宇3卢世坚11南洋理工大学2南洋理工大学S-Lab 3商汤科技摘要在点云序列中，3D目标跟踪的目的是在给定模板点云的情况下预测目标在当前搜索点云中的位置和方向。Mo-tivated由变压器的成功，我们提出了点跟踪TRansformer（PTTR），它有效地预测高品质的3D跟踪结果，在粗到细的方式与变压器操作的帮助。PTTR由三种新颖的设计组成。1）在二次采样过程中，我们设计了一种新的采样算法，2）提出了一种点关系Transformer（PRT）算法，该算法由以下几部分组成：（一）（b）第（1）款100帧200帧300帧自我注意和交叉注意模块的操作。全局自注意操作捕获长程依赖性以分别增强搜索区域和模板的编码点特征。随后，我们通过交叉注意匹配两组点特征来生成粗跟踪结果3）在粗跟踪结果的基础上，采用一种新的预测细化模块，得到最终的细化预测。此外，我们基于Waymo Open Dataset创建了一个大规模点云单对象跟踪基准。大量的实验表明，PTTR实现优越的点云跟踪的准确性和效率。我们的代码可在https://github.com/Jasonkks/PTTR获得。1. 介绍随着3D传感器在过去十年的快速发展，解决各种视觉问题[16，20，21，23，24，26，29，42，43，45]由于在自动驾驶、运动规划和机器人等应用中的巨大潜力，点云的应用越来越受到点云目标跟踪作为计算机视觉领域的一个长期研究课题，也引起了广泛的研究兴趣。3D对象跟踪的目的不仅是检测每个帧中的对象姿态和位置，而且还检测对象运动*在商汤†同等贡献‡通讯作者图1. （a）3D点云对象跟踪旨在基于给定模板点云来跟踪目标对象。（b）PTTR在KITTI跟踪数据集上的性能大大优于现有方法[9]。（c）我们将连续帧的追踪结果可视化，包括轨迹跨越连续帧。然而，三维跟踪仍然面临着一些开放性和挑战性的问题，如激光雷达点云稀疏性，随机形状的不完整性，纹理特征的缺乏等。现有的3D对象跟踪方法可以主要分为两组：多目标跟踪（MOT）和单目标跟踪（SOT）。MOT方法[36，39，40，46]通常采用检测跟踪策略，首先检测每帧中的对象，然后基于估计的位置或速度匹配连续帧中的检测。相比之下，大多数SOT方法仅需要处理点云的子集，这通常具有低得多的计算消耗和更高的吞吐量。我们研究SOT在这项工作中，我们的目标是估计的位置和方向的一个单一的对象在搜索框架中给定的对象模板。先驱3D SOT方法SC3D [10]首先在给定特定对象的最后位置的情况下生成一系列候选，并且通过选择潜在空间中的最佳匹配候选来进行预测。然而，它不是端到端可训练的，并且遭受低推理速度（c）第（1）款模板搜索18532因为需要大量的候选人。P2B [25]首先使用余弦相似度将搜索区域的特征与模板融合，然后采用VoteNet [22]的预测头来生成最终预测。在P2B之后，SA-P2B [52]添加了额外的辅助网络来预测对象结构。在类似框架中，3D-SiamRPN [8]使用互相关模块进行特征匹配，并使用RPN头进行最终预测。这些方法[10，25，52]基本上在搜索域和模板中的特征之间执行线性匹配过程，其不能适应由随机噪声、稀疏性和遮挡引起的不同3D观测。此外，如在检测模型中包含复杂的预测头高度限制了它们的跟踪速度，这是在线应用的关键因素。在这项工作中，我们设计了点跟踪 Transformer（PTTR），一种新的跟踪范式，实现了高质量的3D对象跟踪在一个由粗到细的方式。具体而言，PTTR首先使用PointNet++从模板和搜索区域中分别[24] Bronze.为了缓解点稀疏性问题，我们提出了一个采样策略，称为搜索感知采样，它可以保留更多的点，是相关的给定的模板，利用关系感知的特征相似性之间的搜索和模板。然后，我们提出了一种新的点关系Transformer（PRT），它配备了关系注意模块来匹配搜索和模板特征，并基于匹配的特征生成粗略的预测PRT首先利用自注意操作，自适应聚合点特征的模板和搜索区域分别，然后执行特征匹配与交叉注意操作。此外，我们提出了一个轻量级的预测细化模块，以细化与局部特征池的粗预测。我们强调，PTTR是更有效的比现有的方法，尽管其预测细化过程。KITTI跟踪数据集[9]已被广泛用于3D跟踪评估。然而，它有明显的限制，包括有限的样本量和高度不平衡的类分布。我们基于Waymo Open Dataset [30]创建了一个名为Waymo SOT Dataset的新点云跟踪基准，该数据集具有较大的样本量和均衡的类分布。因此，新的基准是对KITTI跟踪数据集的补充，为3D跟踪研究社区提供了更全面、更全面的评估。在两个数据集上进行的大量实验表明，PTTR在准确性和效率方面都具有优异的性能。我们的主要贡献概括为：1）我们提出了PTTR，一种基于变换的3D点云目标跟踪方法，它采用了一种新的粗到精跟踪范式，首先生成粗的全局预测，然后用局部池进行细化。2）设计了两个新颖的模块在PTTR中，包括用于有效特征聚合和匹配的点关系Transformer，以及用于保留更多模板相关点的可感知采样。3）PTTR在性能上大大优于以往的SoTA方法，且计算代价更低。4）我们基于Waymo Open Dataset[30]生成了一个新的大规模点云跟踪数据集，以促进对3D对象跟踪方法进行更全面的评估。2. 相关作品2D对象跟踪。大多数最近的2D对象跟踪方法遵循暹罗网络范式，由两个CNN分支组成，具有共享参数，有助于将输入投影到相同的特征空间。[31]采用Siamese网络来学习不同对象的通用匹配在推理时，使用一组候选数据来匹配原始目标，并选择最匹配的一个作为预测。[2]提出了一种完全卷积的Siamese架构，以在更大的搜索区域中定位[12]提出了一种动态暹罗网络，它学习变换目标外观并抑制背景。 [17 ， 18] 应用Siamese网络提取特征，并将成对相关分别用于区域建议网络（RPN）的分类分支和回归分支2D跟踪方法不直接适用于点云，因为它们是由2D CNN架构驱动的，并且它们不是为了解决3D跟踪的独特挑战而设计的。3D对象跟踪。 3D对象跟踪可以大致分为两类：多对象跟踪（MOT）和单对象跟踪（SOT）。大多数MOT方法采用检测到跟踪策略，主要关注数据关联[14，41]。[38]首先提出了一个3D检测模块来提供3D边界框，然后使用3D卡尔曼滤波器来预测当前估计，并使用Hungar算法来匹配它们[36]提出使用GNN在空间和时间上对不同对象之间的关系进行建模，而[46]在速度补偿后使用最近距离匹配SOT方法专注于跟踪给定模板的单个对象。SC3D [10]提出匹配候选人和目标之间的特征距离，并使用形状完成来规则化P2B [25]用余弦相似性匹配搜索和模板特征，并采用Hough Voting[22]来预测当前位置。SA-P2B [52]提出学习对象结构作为辅助任务。3D-SiamRPN [8]使用RPN [27]头预测最终结果。BAT [51]在Box Cloud中对盒子信息进行编码，以包含结构信息。MLVSNet [37]建议执行多级Hough投票，以聚合来自不同级别的信息。PTT [28]提出了一个点跟踪转换器模块来加权特征大多数现有的SOT方法使用余弦相似性或互相关来匹配搜索和模板特征。18533∈∈模板N×N点关系Transformer工位埋此外粗预测关系感知抽样权重共享权重共享精确预测预测改进模块搜索N×N我们的跟踪结果本地合并点偏移骨干Self-Attention本地合并交叉注意康卡特Self-Attention骨干I. 特征提取2。基于注意力的特征匹配III.预测优化图2. 我们提出的PTTR概述。该网络主要由三部分组成：特征提取、基于注意力的特征匹配和预测细化。主干用于从输入点云中提取特征。我们用我们提出的关系感知采样修改了PointNet++ [24]，以帮助从搜索区域中选择更多的积极点。对于特征匹配，我们提出了点关系Transformer配备关系注意模块匹配搜索和模板特征。在预测阶段，我们提出了一个预测细化模块，以粗到细的方式生成预测。其本质上是线性匹配过程，并且不能适应于涉及随机噪声和遮挡的复杂情况此外，检测模型预测头的使用导致高计算开销。本文提出的方法解决了上述限制。视觉变形金刚。 Transformer [32]首先被提出作为机器翻译中基于注意力的构建块，以取代RNN架构。近年来，大量的工作 [3 ， 5 ， 19， 44 ，47 ， 48 ，53]将Transformer应用于二维视觉任务，并取得了巨大的成功。这些尝试中的大多数在3D域中，PCT [11]使用点的3D坐标生成位置嵌入，并采用具有偏移注意模块的Transformer来丰富其局部邻域中的点的特征。PointTrans- former [50]采用矢量化自注意力网络[49]用于局部邻居，并设计了一个点Transformer层，该层是顺序不变的，以适应点云处理。[7]提出SortNet从点云中收集空间信息，它通过学习分数对点进行排序以实现顺序不变性。所有这些工作都集中在形状分类或部分分割任务。Transformer中的注意我们提出了一种新的基于transformer的模块，利用注意力机制进行特征聚合和匹配。3. 方法3.1. 系统概述给定一个三维点云序列，三维目标跟踪的目的是估计目标在每个点云观测中的位置和方向，即。搜索点云PsRNs×3，通过预测一个以模板点云PtRNt×3.为此，我们提出了PTTR，一种新的粗到精的框架，用于3D对象跟踪。如图 2，PTTR执行3D点云跟踪有三个主要阶段：1）特征提取（第2节）。3.2）; 2）基于注意力的特征匹配（第3.2节）;3.3）;（3）预测精度（Sec. 第3.4段）。特征提取。根据以前的方法[8，10，25，52]，我们采用PointNet++[24]作为骨干，从模板和搜索中提取多尺度点特征。然而，在原始PointNet++中，在随机子采样期间可能会发生重要信息丢失因此，我们提出了一种新的基于关系感知的采样，通过利用关系感知的特征相似性来保留更多与给定模板相关的基于注意力的特征匹配。与通常使用余弦相似性[10，25，52]或线性相关性[8]来匹配模板和搜索的先前方法不同，我们利用新颖的注意力操作并提出点关系Transformer（PRT）。PRT首先利用自注意操作自适应地分别聚合模板和搜索区域的点特征，然后利用交叉注意执行特征匹配。基于PRT的输出生成粗略预测。预测优化。粗预测进一步细化与轻量级的预测细化模块（PRM），这导致在粗到精跟踪框架工作。基于粗略的预测，我们首先对搜索中的种子点进行点偏移操作，以估计模板中对应的种子点。之后，我们分别对两个点云的种子点采用局部池化操作，然后将池化特征与PRT的匹配特征连接起来，以估计我们的最终预测。3.2. 关系感知特征提取作为最成功的主干之一，Point- Net++ [24]引入了一种分层架构，18534||·||∈∈∈∈j=1我J我J模板其中，2表示L2范数，并且Ns和Nt是来自搜索区域和模板的点的当前数量。然后，我们通过考虑特征空间中来自搜索的每个点与其离模板最近的点之间的距离来计算最小距离VRNsF-FPS（34%）我们的（46%）图3. 取样方法的比较。我们使用不同的采样方法从搜索区域显示采样点。我们提出的采样方法保留了最多的点属于对象。图中的百分比表示阳性点与所有采样点的比率。三重距离-最远点采样（D-FPS）和球查询操作，有效地利用了多尺度点特征。大多数现有的3D对象跟踪方法[8，25，52]使用PointNet++进行特征提取。然而，它对目标跟踪有一个不可忽视的缺点：PointNet++中使用的D-FPS采样策略倾向于生成在欧氏空间中均匀分布的随机样本，这通常会导致采样过程中重要信息的丢失。特别地，搜索点云通常具有比模板大得多的尺寸，并且因此D-FPS采样不可避免地保持背景点的大部分，并且导致感兴趣对象的稀疏点分布，这进一步挑战了使用特征匹配的后续模板搜索。为了缓解这个问题，以前的方法使用随机点采样[25，52]或特征最远点采样（F-FPS）[45]。然而，在采样期间大量前景信息丢失的问题没有完全解决。关系感知采样。相比之下，我们建议使用一种新的采样方法称为感知采样（RAS），以保留更多的点相关的给定项目板考虑关系语义。我们的关键见解是，在搜索点云中的感兴趣的区域应该具有与模板相似的语义。因此，搜索区域中与模板点具有更高语义特征相似性的点更可能是前景点。具体来说，给定模板点特征XtRNt×C和搜索区域点特征XsRNs×C，我们首先计算成对点特征距离矩阵DRNs×Nt：Dij=||xs−xt||2，<$xs∈Xs，<$xt∈Xt，（1）NtVi= min（Dij），i ∈ {1，2，.， Ns}。（二）遵循先前的方法[8，10，25，52]，我们通过使用来自先前搜索点云的跟踪结果来更新每个帧的模板点云。当跟踪预测质量较低时，新生成的模板可能会误导RAS，导致采样结果不理想。此外，背景信息的包含为跟踪对象的定位提供了有用的上下文信息。为了提高采样过程的鲁棒性，我们采用了与[45]类似的策略，将我们提出的RAS与随机采样相结合。在实践中，我们用RAS对一半的点进行采样，而其余的点通过随机采样获得。我们在图中显示了不同采样方法的效果。3.第三章。可以观察到，所提出的采样方法可以保留最多的对象点。3.3. 关系增强特征匹配现有的3D对象跟踪方法通过使用余弦相似性[10，25，52]或线性相关性[8]来执行搜索点云和模板之间的特征匹配。另一方面，受计算机视觉应用中各种基于注意力的操作成功的启发[11，21，32，50]，我们努力探索基于注意力的3D跟踪机制，该机制可以适应不同的噪声点云观测。虽然PTT [28]在其模型中使用了Transformer，但它们仍然通过余弦相似性匹配模板和搜索点云，并且Transformer模块仅用于特征增强。关系注意模块。受最近研究特征匹配的工作的启发[4，33- 35 ]，我们提出了相关注意力模块（RAM）（如图所示）。4）通过预测的注意力权重自适应地聚集特征。首先，RAM使用线性投影层来转换输入特征向量RAM不是简单地计算“Query”和“Key”之间的点积，而是通过计算两组L2归一化特征向量之间的余弦距离来预测注意力图。在L2归一化的帮助下，RAM可以防止具有极大幅度的少数特征通道的主导地位。随后，使用Softmax操作对注意力图进行归一化为了提高注意力权重和平均值，同时减少噪声的影响[11]，我们采用了关闭-随机（22%）D-FPS（21%）搜索18535.Σ∈∥· ∥��联系我们抵消注意力��联系我��克×克��Softmax��联系我L2NormL2Norm��q��×��线性线性线性��q×��查询键��联系我们值矩阵乘法逐元素减图4. 关系注意模块（RAM）的架构。 RAM首先将查询、关键字和值投影到一个潜在特征空间中，然后通过将L2规范化的查询和关键特征相乘来估计注意力矩阵。然后将注意力矩阵应用于值特征，以在偏移注意力[11]操作之前获得注意力产品，并在线性和ReLU层中注入非线性。设置注意力以通过用先前归一化的注意力图减去查询特征来预测最终注意力图因此，所提出的RAM可以用公式表示为：Attn（Q，K，V）=<$Q− softmax（A）·（WvV），（3）其中，Rk表示应用于输出特征的线性层和ReLU操作，注意力矩阵ARNq×Nk由下式获得：其中Attn（Q，K，V）表示我们提出的关系注意模块，X′s表示匹配特征，X′s和X′t分别表示增强搜索和模板特征通过使用全局自注意，所利用的特征可以获得对当前观察的全局理解。注意，自注意使用与Q、K、V相同的点特征，并且两个自注意操作共享权重，以便将搜索和模板特征投影到相同的潜在空间中。此后，交叉注意执行查询标记X′s和k∈y到k∈ sX′t之间的成对匹配，这通过捕获两组点特征之间的相关性来利用X′s的交叉注意信息基于关系增强的点特征X_s，我们可以生成用于3D对象跟踪的粗略预测结果3.4. 粗到精跟踪预测现有的点跟踪方法大多采用检测模型的预测头来生成预测，例如，P2B [25]采用VoteNet [ 22 ]的聚类和投票操作，3D-SiamRPN [8]使用RPN [18，27]头。然而，这些预测头引入了额外的计算开销，这在很大程度上限制了它们的效率。为了避免这个问题，我们提出了一个新的从粗到细的跟踪框架。粗预测Yc是通过直接回归的关系增强的功能Xs从建议的PR T模块与多层感知器（MLP）。值得注意的是，Yc为大多数情况提供了忠实的跟踪预测，并且还超越了SoTA方法的跟踪性能。预测细化模块。为了进一步细化跟踪预测，我们提出了一个轻量级的预测细化模块（PRM）来预测我们的最终预测⊤WqQWkKYf基于Yc。具体来说，我们使用采样点A=Q·K，Q= ||文勤|| ，K= ||焕光|| 、（四）作为种子点，然后我们q2k2其中2是L2范数，Q、K、V分别表示输入“查询”、“键”和“值”，W q、W k和W v表示相应的线性投影。点关系Transformer。通过结合RAM，我们提出了点关系Transformer（PRT）模块，自适应地利用点特征之间的相关性，用于上下文增强。PRT模块首先分别对搜索和模板特征执行自注意操作。随后，PRT采用交叉注意操作来收集两个点云之间的交叉上下文信息。这两种操作都使用全局注意力，其中所有输入点特征向量都被视为标记。PRT的形式公式为：X<$s=Attn（Xs），且X<$t=Attn（Xt），（5）X<$s=Attn（X<$s，X<$t，X<$t），（6）18536·通过使用Yc的偏移操作来估计它们在模板中的对应关系。然后，我们对来自两个源的种子点的局部区分特征描述符进行编码，这是通过对分组的相邻点特征使用局部池化操作来实现的通过使用具有固定半径r的球查询操作对邻近特征进行分组。最后，我们将来自源和目标的池化特征与Xt连接起来，并在此基础上生成最终预测Yf：Yf=γ（[Fs，Ft，Xs]），（7）其中Fs和Ft分别是来自搜索和模板的池化特征，[ ]表示级联操作，γ表示MLP网络。我们强调，即使与细化阶段，我们提出的方法仍然具有较低的计算复杂度比现有的方法感谢轻量级的设计。18537∈∈LL--·（）下一页CLSCLSregreg表1. 数据集统计。来自KITTI [9]和Waymo SOT数据集中不同类别的tracklet/样本数据集汽车/车辆行人Van骑车人KITTI（火车）KITTI（试验）第441 /19522号来文120 /642496 /4600第62 /6088号决议第38/1994号决定16 /124827 /15298 /308Waymo（火车）Waymo（测试）16119 /2415441658 /5337715452 /249800949 /27308--1066 /22389138 /5374训练损失。我们的PTTR以端到端的方式进行培训。粗略预测Yc和最终预测Yf具有相同的形式，每个都包含分类分量YclsRNs×1和回归分量YregRNs×4，其中Ns表示来自搜索区域的采样点的数量。Ycls预测每个点的客观性，Yreg由沿每个轴的预测偏移组成，其中具有附加的旋转角度偏移。对于每个预测，我们使用由二进制交叉熵定义的分类损失cls和由均方误差计算的回归损失reg因此，我们的整体损失函数被公式化为：在地面实况边界框内，并删除长度小于3帧的轨迹。性能和优点。生成数据集的统计数据报告见表1。1.一、虽然Waymo数据集没有区分不同的车辆，如汽车和货车，但Waymo SOT数据集的规模要大得多，类别分布比KITTI跟踪数据集更平衡例如，Waymo SOT数据集中有15,452个5. 实验我们在KITTI [9]和Waymo SOT数据集上评估了我们提出的方法，以进行全面比较。评估指标。根据评价指标[25]并衡量“成功”和“精度”。具体而言，cgtcgt模板和搜索在训练中，我们利用地面Ltotal=Lcls（Ycls，Ycls）+Lreg（Yreg，Yreg）+（8）λ。Lcls（Yf，Ygt）+Lreg（Yf，Ygt）真值边界框来裁剪点云以形成模板。为了模拟扰动，可能会遇到，我们添加随机扭曲，以增加其中，Ygt表示对应的地面真值，并且λ是加权参数。4. Waymo 3D单一物体追踪数据集现有基准。现有方法在KITTI [9]跟踪数据集上进行评估。[10]中规定了数据分割、轨迹生成和评估指标。然而，我们发现这个数据集提供了有限数量的样本，而对象类是高度不平衡的。选项卡. 图1显示了数据集的统计数据，我们可以观察到汽车类别占了tracklet和样本的大多数，而一些类别几乎没有示例。[25]研究了有限训练样本的影响因此，我们认为，如果有大规模的数据集，这将是有益的。正在构建Waymo SOT数据集。幸运的是，我们发现最近发布的Waymo Open Dataset [30]能够满足这一需求。虽然Waymo没有直接包含SOT数据集，但在其检测数据集中，每个对象不仅使用边界框进行注释，而且还使用唯一的对象ID进行注释，这使得从点云序列中提取轨迹变得可行为了缓解类不平衡问题，我们使用10%的训练和验证序列来生成车辆轨迹，20%的序列用于行人，所有序列用于骑自行车者，因为它是最罕见的。我们排除10分以下的物体沿x，y，z轴范围为[-0.3 to 0.3]的边界框。对于训练和测试，我们以0.1的比率扩展框以包括一些背景点。我们在所有方向上将模板包围盒扩大2米以形成搜索区域。型号详细信息。我们使用PointNet++ [24]，3个集合抽象层作为主干。这些SA层的半径分别设置为0.3、0.5、0.7米。在第一阶段，我们使用一个3层MLP分类和回归，分别。每个层之后是BN [13]层和ReLU [1]活化层。在PRM中，本地池化是通过球查询操作和半径为1.0米的分组操作[24]进行的在池化之后，我们获得了连接的特征，这些特征被馈送到5层MLP中以生成最终的预测。培训和测试。对于KITTI跟踪数据集，我们训练了160个epoch的模型，批量大小为64。我们使用Adam优化器[15]，初始学习率为0.001，每40个epoch减少5个。对于Waymo SOT数据集，我们以相同的初始学习率训练模型80个epoch，并每20个epoch降低学习率。在测试过程中，我们使用以前的预测结果作为下一个模板。与[10，25]一致，我们使用地面真值边界框作为第一个模板。5.1. KITTI Tracking数据集上的3D跟踪为了与以前的方法进行公平的比较，我们遵循[10，25]中指定的数据分割和处理18538GroundTruth第一阶段第二阶段表2. KITTI数据集上的性能比较。成功率/精密度用于评价。方法车行人Van骑车人平均SC3D [10]41.3/57.918.2/37.840.4/47.041.5/70.435.4/53.3P2B [25]56.2/72.828.7/49.640.8/48.432.1/44.739.5/53.93D-SiamRPN [8]58.2/76.235.2/56.245.7/52.936.2/49.043.8/58.6SA-P2B [52]58.0/75.134.6/63.351.2/63.132.0/43.644.0/61.3MLVSNet [37]56.0/74.034.1/61.152.0/61.434.3/44.544.1/60.3英美烟草[51]60.5/77.742.1/70.152.4/67.033.7/45.447.2/65.1PTT [28]67.8/81.844.9/72.043.6/52.537.2/47.348.4/63.4LTTR [6]65.0/77.133.2/56.835.8/45.666.2/89.950.0/67.4我们65.2/77.450.9/81.652.5/61.865.1/90.558.4/77.8如表1所示。在图2中，PTTR在平均成功率和精确度方面以8.4和10.4的显著幅度超过先前的最先进的方法特别是，PTTR在具有挑战性的类别（行人和自行车）上的表现明显优于SA-P2B。如图6，我们在两个pedes-trian点云序列上比较了所提出的PTTR与P2B [25当多个实例接近时，P2B经常做出错误的预测，而PTTR能够生成稳定可靠的预测。令人印象深刻的性能增益主要归功于拟议的五点二。此外，我们可视化图中的粗略和精细预测。五、在细化阶段中进一步校正粗预测，特别是当点稀疏或大运动存在时。它表明，我们提出的预测细化通过局部特征池是能够适应具有挑战性的情况，并产生强大的预测。表3. 推理时间。SC3D[10]P2B[25]PTTR（我们的）66.3ms23.6ms19.9ms推理时间。速度是物体跟踪任务中的关键因素。因此，我们使用Tesla V100 GPU在KITTI测试数据集上测试模型推理时间如表1所示。3、在相同配置下，PTTR平均运行时间最短，为19.9ms。5.2. 消融研究为了评估PTTR中提出的组件的有效性，我们对KITTI进行了消融研究[9]数据集和报告的成功和精度。取样方法我们将我们提出的关系感知采样（RAS）方法与现有的采样方法进行比较，包括随机采样[25]，距离最远点采样（D-FPS）[24]和特征最远点采样（F-FPS）[45]。如Tab.所示。4，RAS产生最佳性能，具有明显的裕度。通过使用RAS，我们的方法实现了成功/精度比随机抽样基线提高5.5/8.8小表4.不同采样方法的性能比较D-FPS表示距离最远点采样，F-FPS表示特征最远点采样。RAS是指我们提出的可感知采样。方法车行人Van骑车人平均[25]第二十五话62.4/74.036.6/59.950.4/58.362.2/83.952.9/69.0D-FPS [24]61.3/73.042.5/68.841.8/47.259.8/78.551.4/66.9F-FPS [45]59.3/72.541.9/68.652.1/60.563.8/83.854.3/71.4RAS（我们的）65.2/77.450.9/81.652.5/61.865.1/90.558.4/77.8图5. 预测细化的可视化。我们提出了4个不同的对象，以表明，细化阶段进一步纠正粗预测通过本地特征池。对象通常由更少的点组成，因此对点稀疏性挑战更敏感。对于行人类，这是最小对象大小的类，RAS将结果从36.6/59.9显著提高到50.9/81.6。表5. 模型组件的消融研究。对于禁用点关系Transformer（PRT）的实验，我们使用余弦相似度替换PRT，以进行现有方法中的特征相关性提取[10，25，52]。我们还比较了性能W/或W/O的预测细化模块（PRM）。PRTPRM车行人Van骑车人平均40.2/52.023.0/41.625.9/34.730.0/57.829.8/46.5✓✓62.9/74.360.6/73.149.1/77.739.2/66.950.7/58.743.5/48.964.1/90.058.7/87.256.7/75.250.5/69.0✓✓65.2/77.450.9/81.652.5/61.865.1/90.558.4/77.8模型组件。我们进行实验，investi-门的有效性，建议的点关系转换器（PRT）和预测细化模块（PRM）。对于PRT上的消融研究，我们用余弦相似性代替PRT，以进行特征相关性计算，如现有方法[10，25，52]。我们在实验中使用粗预测进行评估w/o PRM。如Tab.所示。5，当PRT和PRM都被禁用时，性能急剧下降，从58.4到29.8。与基本情况相比，PRT和PRM都显著提高了模型性能。请注意，用余弦相似度替换PRT将使成功率平均降低8.8，这表明 PRT模块具有强大的特征匹配能力。此外，这两个组件也是相互补充的，当两者都启用时获得最佳结果我们强调，即使没有预测改进，我们的模型仍然达到了最佳的平均性能（56.7/75.2）。18539GroundTruth我们GroundTruthP2B我们时间轴图6.与P2B的定性比较[25]。我们比较PTTR与P2B在两个行人跟踪序列。可以观察到，当多个实例接近时，P2B容易发生匹配错误，而PTTR生成更可靠的预测。表6. 关于关系注意的消融实验。我们in-investigate在我们提出的关系注意力模块的两个主要修改的有效性。Offset是指偏移atten- tion和Norm是指特征归一化。偏移规范车行人Van骑车人平均55.4/68.036.6/65.134.6/38.655.9/78.845.6/62.6✓✓✓✓56.6/69.163.7/75.365.2/77.440.3/67.347.1/73.550.9/81.648.3/59.653.0/60.452.5/61.863.7/90.364.1/89.565.1/90.552.2/71.657.0/74.758.4/77.8关系注意。我们提出的关系注意力和常规的Transformer注意力的主要区别在于对查询和关键特征的L2归一化以及偏移注意力。每个组件的消融研究报告见表1。六、这两种操作都提高了模型的性能，特别是L2归一化。结果表明，余弦距离有利于点云特征匹配.表7. Waymo SOT数据集上的性能比较。成功/精度用于评价。方法车辆行人骑车人平均SC3D [10]P2B [25]46.5/52.755.7/62.226.4/37.835.3/54.926.5/37.630.7/44.533.1/42.740.6/53.9我们58.7/65.249.0/69.143.3/60.450.3 / 64.95.3. Waymo SOT数据集上的3D跟踪对于Waymo SOT数据集，我们通过使用官方代码重新实现方法，将PTTR与SC3D [10]和P2B [25]进行了比较。如Tab.所示。PTTR再次以平均成功率9.7和平均准确率11.0的大幅度优势获得了所有比较方法中最好的结果与KITTI类似，步行者和骑自行车者类别的收益更高。总体而言，在不同基准测试上的一致性能改进证明了我们所提出的方法的有效性和鲁棒性。6. 限制讨论我们在图中显示。7我们的模型遇到的失败情况，这主要发生在点云太稀疏，模型很难捕获足够的模式，以有效地匹配模板和搜索点云。进一步缓解这一问题的一种可能方法是利用互补的多帧信息进行对象跟踪，这可以在未来的研究中进行探索。图7.我们的跟踪失败主要发生在点云太稀疏的时候。7. 结论在本文中，我们提出了PTTR，一个新的框架，三维点云单目标跟踪，它包含一个设计的感知采样策略，以解决点稀疏，一个新的点关系Transformer的特征匹配，和一个轻量级的预测细化模块。PTTR不仅获得了新的国家的最先进的性能，但也实现了提高效率。我们还基于Waymo Open Dataset生成了一个大规模的SOT跟踪数据集，以便于对3D跟踪方法进行更全面的评估我们希望我们的方法和Waymo SOT数据集可以帮助推动进一步的研究。鸣谢本研究得到了RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助计划的支持18540引用[1] 阿比恩·弗雷德·阿加拉普。使用校正线性单元（relu）的深度学习arXiv预印本arXiv：1803.08375，2018。6[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。欧洲计算机视觉会议，第850-865页。施普林格，2016年。2[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。3[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。4[5] Xiangxiang Chu，Zhi Tian，Yuqing Wang，Bo Zhang，Haibing Ren，Xiaolin Wei，Huaxia Xia，and ChunhuaShen. Twins：Revisiting the design of spatial attention invision transformers. arXiv预印本arXiv：2104.13840，1（2）：3，2021。3[6] 崔玉波，郑芳，单嘉瑶，顾左旭，周思凡。使用Transformer 进行 3D 对象跟踪。 arXiv 预印本 arXiv ：2110.14921，2021。7[7] Nico Engel、Vasileios Belagiannis和Klaus Dietmayer。点Transformer。IEEE Access，9：134826-134840，2021。3[8] Zheng Fang ， Sifan Zhou ， Yubo Cui ， and SebastianScherer. 3d-siamrpn：一种使用原始点云进行实时3D单对象跟踪的端到端学习方法IEEE Sensors Journal，21（4）：4995-5011，2020。二三四五七[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别上，第 3354-3361 页。IEEE，2012。一、二、六、七[10] Silvio Giancola，Jesus Zarzar，and Bernard Ghanem.杠杆老化形状完成三维暹罗跟踪。在IEEE/CVF计算机视觉和模式识别会议上，第1359-1368页，2019年一二三四六七八[11] Meng-Hao Guo，Jun-Xiong Cai，Zheng-Ning Liu，Tai-Jiang Mu ， Ralph R Martin ， and Shi-Min Hu. 点云Transformer 。Computational Visual Media ，7（2）：187-199，2021。三、四、五[12] 青果、卫风、周策、黄睿、梁婉、宋王。学习动态连体网络用于视觉目标跟踪。在IEEE计算机视觉国际会议论文集，第1763-1771页，2017年。2[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上，第448-456页。PMLR，2015. 6[14] Hasith Karunasekera，Han Wang，and Handuo Zhang.关注外观、结构、运动和大小的多目标跟踪。 IEEEAccess，7：104423-104434，2019。218541[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[16] Loic Landrieu和Marti

下载后可阅读完整内容，剩余1页未读，立即下载