基于时间特征的多帧3D对象检测：TransPillars

201 浏览量更新于2023-10-15 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4230TransPillars：用于多帧3D对象检测的粗到细聚合罗志鹏1，3张功杰1，3周长青1，3刘天瑞1，3卢世坚1*潘良21南洋理工大学2南洋理工大学S-Lab 3商汤科技摘要基于点云的三维目标检测在自动驾驶和机器人领域有着广泛的应用前景。然而，大多数现有的研究集中在单点云帧没有利用的时间信息的点云序列。在本文中，我们设计了一种新的基于Transformer的特征聚合技术，利用连续点云帧的时间特征进行多帧3D对象检测。TransPillars从两个角度聚合首先，它直接从多帧特征图中融合体素级特征，而不是合并实例特征，以保留实例细节和上下文信息，这些信息对于准确的对象定位至关重要。其次，采用分级的由粗到精的策略，逐步融合多尺度特征，有效地捕捉运动对象的运动此外，本文还引入了变形Transformer的一种变体，以提高跨帧特征匹配的有效性。大量的实验表明，我们提出的TransPillars实现了最先进的性能相比，现有的多帧检测方法。1. 介绍基于点云的三维物体检测在自动驾驶和机器人领域有着广泛的应用，近年来得到了随着大规模数据集的出现[8，30，1]，流行的深度学习-基于单帧3D对象检测器[47，27，26，40，20，37，36]提出。然而，有一些挑战很难用点云的单次扫描来解决。首先，点云是稀疏的，特别是在距离LiDAR传感器很远的地方。第二，由于部分观测、遮挡和视图截断而导致的不完整点云会导致对象几何形状的模糊性（如图所示）。1上部）。*通讯作者点稀疏遮挡部分视图1帧4帧16帧图1：上部：点云对象检测中的挑战说明。被遮挡的对象由红色框表示，LiDAR由轴亮显。下：序列帧包含互补信息，并且聚集互补信息导致更完整的视图。另一方面，利用点云的多个帧提供了缓解上述挑战的关键时间线索[38，24，41]。图的下部分。图1示出了从连续帧累积的点逐渐形成对象的整体描绘。然而，利用时间信息并不是微不足道的。一种简单的方法是简单地连接来自多个帧的点[1]。然而，这种方法没有明确地对跨帧关系进行建模，并且当连接帧的数量超过某个阈值时，对于移动对象，性能恶化[38]。最近的一些方法通过特征聚合来融合多帧信息[19，13]。特别是，受关系网络[12]的启发，[38]提出了一种3D多帧注意力网络，该网络对池实例级特征执行特征对齐和聚集。尽管与单帧基线相比其显著的性能增益，但RoI池化过程不可避免地导致1）由于RoI与对象之间的未对准而导致实例细节的丢失，因为尺寸和位置估计不准确，42312）由于对象与场景的分离而导致的上下文信息的丢失，这两者都破坏了跨帧相关建模。所提出的特征池方法还引入了额外的类特定的启发式设计，例如每个类的关键点的数量，这使得该方法的适应性较差。此外，这种方法依赖于高质量的区域建议，这在与点云相关联的上述挑战下是不能保证的。受上述观察的启发，在本文中，我们探索直接从特征图聚合多帧信息。具体来说，我们提出了TransPillars，它建立在PointPillars [17]之上，并采用Transformer的注意力机制来执行体素级别的跨帧特征聚合。为了避免过高的计算复杂性和内存消耗，我们采用可变形注意力[48]进行特征聚合，每个体素自适应地关注少量目标体素，而不是像常规变换器那样在特征图的每对令牌之间执行全局注意力计算。为了解决原始可变形注意力在跨帧匹配过程中的局限性，我们通过在注意力模块中引入查询-键匹配操作来开发可变形注意力的变体，以更好地适应移动对象。为了有效地捕捉快速移动对象的运动，本文引入了一种新的由粗到细的聚合策略，首先识别高层次的实例对应关系，以指导后续的精细特征融合，从而实现精确定位。总之，这项工作的贡献有三个方面。首先，我们提出了一个基于 transformer 的多帧点云检测模型TransPillars。TransPillars执行体素级特征聚合，而不是使用池化实例特征，以保留实例细节和exploit上下文信息，从而实现准确的本地化。我们表明，我们所提出的方法的性能超越国家的最先进的多帧方法的标准基准。其次，我们设计了一种新的分层的粗到细的特征聚合策略，以有效地捕捉快速移动的对象的运动，以指导后续的精细特征融合。第三，我们开发了一种变形注意力的变体，用于在特征聚合过程中进行有效的跨帧特征匹配。2. 相关工作单帧点云目标检测。单帧3D检测器通常可以分为两类，即基于体素的方法和基于点的方法。基于体素的方法[47，16，34，28，40]首先将点投影到固定大小的网格以形成体素表示并使用卷积处理输入特别是另一方面，在一项研究中，基于点的方法[21，27，20，37，36]首先利用点云特征提取器[22，23]来执行点采样和特征提取，用于随后的区域建议生成或边界框预测。最近的方法[26]提出将基于体素的方法和基于点的方法相结合，以获得精确的预测。在这项工作中，我们采用Point- Pillars[17]，一种通常由多帧检测器[39，38，42]使用的轻量级单级基于体素的检测器，作为我们的基础模型。多帧点云目标检测。利用多帧进行点云检测的基本方法是通过连续帧的点连接[1]。尽管其有效性，但单帧方法的性能增益是有限的，特别是在较长的时间间隔内，因为它确实明确地建模了帧之间的关系[38]。FaF[19]建议连接从点云提取的特征图，但面临类似的未对齐表示的限制。一些最近的方法[13，39]采用递归网络来聚合多帧特征，但此类方法通常会导致高计算成本。[24]通过对各个帧执行检测并聚集来自整个序列的结果，探索了用于自动标记的场外设置。受关系网络[12]及其在2D视频对象检测上的应用[3，29，33，9，11]的启发，3D-MAN [38]提出将注意力机制应用于池化RoI特征，以进行多帧对齐和聚合。然而，RoI池将对象从上下文中分离出来，导致细节丢失。我们的方法也诉诸注意力机制，但在体素级执行特征聚合，以最大限度地保留实例细节和上下文信息。视觉变形金刚。Transformer [31]首先在自然语言处理（NLP）中提出，作为基于注意力的构建块，它允许从整个输入序列中聚合信息。近年来，变压器已被用于解决各种计算机视觉问题，并取得了显着的成功[6，2，6，32，45，15，43，44，46]。变压器的一个主要优势是他们的全球接收场和捕捉长期关系的能力。然而，这样的特征也带来不利的高计算成本和存储器使用，这使得涉及大规模输入或特征表示的应用具有挑战性。已经进行了广泛的研究来解决这个问题，许多研究[18，5，14，4，7，35]建议使用受限的注意模式（如局部窗口）来降低复杂性。这样的方法可能不适合我们的任务，因为物体以各种速度移动，这使得难以确定合适的窗口大小。另一方面，[48]提出了变形注意力，它学习查询相关的稀疏采样位置，以自适应地从值输入中收集特征4232联系我们n=0--n=0--聚合的特征帧T帧T-1特征提取器融合聚合模块融合聚合模块融合聚合模块框架T-2框架T-3帧T预测图2：拟议的跨支柱框架：给定多个连续的点云帧作为输入，首先由特征提取器提取多尺度特征，然后以粗到细的方式与多个融合聚合模块聚合。我们首先聚合粗特征来提取高级别的跨帧对应关系，然后使用它们来指导精细特征的聚合。最后，多尺度聚合特征被融合以产生最终的预测。最好用彩色观看。然而，变形注意力并没有显式地执行查询键匹配，这导致我们的任务中的跨框架特征匹配的能力有限在这项工作中，我们提出了一种变形注意力的变体来缓解这个问题。3. 方法在本节中，我们将详细介绍我们提出的用于多帧点云对象检测的 TransPillars 。第 3.1 节简要介绍了PointPillars [17]模型，该模型在我们提出的方法中用作基础模型。第3.2节概述了我们提出的方法，随后是第3.3节和第3.4节，解释了融合聚合模块和我们提出的注意力机制。最后，我们在3.5节中描述了模型优化的损失3.1. 预赛在我们提出的方法中，我们使用PointPillars作为基础模型。PointPillars与常规的基于体素的检测器不同，它只对输入点云进行离散化，在x-y平面中具有固定尺寸的网格，从而形成柱体而不是立方体素。然后，每个支柱内的点被增强并用于生成特征向量。请注意，只有非空的柱子才被网络处理，以加速特征提取。然后，将所获得的柱特征散射回场景中它们的对应位置，以形成伪图像表示。随后，通过特征金字塔网络处理伪图像特征，该特征金字塔网络使用卷积层来提取多尺度特征Fi，其中i1，2，3表示i=1的尺度级别，指的是最小尺度的特征图。最后，下采样特征使用转置卷积进行上采样，并且使用基于级联特征的检测头来生成最终预测。我们建议读者参考[17]的详细内容。PointPillars被认为是一种轻量级3D检测器，可在效率和准确性之间实现良好的平衡，并且已被多帧3D检测方法广泛采用[38，39，42]作为基线模型。我们还基于我们提出的方法PointPillars不做修改的基线模型，并专注于多帧特征聚合。3.2. 跨柱图2给出了我们提出的TransPillars的概述在特征提取阶段，给定点云输入序列IT−nN−1，其中N表示序列中的帧的数量，并且IT指当前（最新）帧，基础模型的共享特征提取器用于提取多尺度特征FT−nN−1。在随后的特征聚合阶段，目标是聚合来自过去帧的有用信息以丰富当前帧的特征表示，从而增强检测预测因此，我们将提取的特征重组为当前和过去的表示，并执行基于注意力的特征聚合。如在相关工作中所介绍的，在2D视频检测领域中通常采用的范例是使用RoI Pooling或RoIAlign操作来提取实例级特征，并且使用关系网络来[12]或其变体。然而，与基本上是从3D真实世界空间到平坦的2D空间的投影的图像帧不同，点云具有不同的特征。首先，由于深度信息的丢失4233不不不·不{Fn=1由于点云是一个三维投影，图像不包含明确的空间信息，如物体大小和位置，而点云提供准确的3D坐标。此外，与ImageNet VID [25]等典型视频检测数据集相比，对象移动在点云应用（如自动驾驶）中构成了更大的挑战，其中经常观察到快速移动的对象。区域池方法将对象从场景中分离出来，导致实例细节和上下文信息的丢失，限制了特征聚合的有效性。受上述分析的启发，我们建议直接从特征图执行体素级聚合，以最大限度地利用上下文和保留细节进行准确定位。为了执行体素级聚合，面临两个挑战。第一个挑战是由于全局匹配过程导致的与注意力机制相关的高计算成本和内存消耗，这对于本工作中研究的大规模点云场景来说为了缓解这个问题，我们求助于最近提出的可变形注意力[48]，其中查询中的每个元素仅自适应地关注少量的值to- kens。然而，原始的可变形注意力并不明确地强制查询键匹配，这使得它对于需要跨帧特征匹配的多帧检测任务不太有效。因此，我们引入了一个变形注意力的变体，它包含了上述匹配过程，这将在第3.4节中详细介绍。在实践中，为了进一步减少计算，我们从当前帧中选择一部分具有由基础模型预测的高分类得分的体素来形成查询特征。第二个挑战是捕捉快速移动物体的运动，以建立跨帧对应，特征融合融合特征特征聚合聚合的特征Concat + Conv多头交叉注意QKV多头自注意位置客观编码Q K V上采样位置客观性编码上一个聚合功能当前帧特征融合特征过去的帧功能图3：所提出的融合聚合模块（FAM）的架构：FAM融合（可选）并聚合每个刻度级别的特征。对于特征融合，先前聚合的特征首先被上采样，然后与当前帧特征融合。对于特征聚合，使用Transformer将融合特征与过去帧的特征聚合。最终预测基于聚集的特征。3.3. 融合聚合模块图图3示出了融合聚集模块（FAM）的体系结构FAM由特征融合和特征聚合操作组成特征融合是将来自先前FAM的聚集特征Fi-1以及当前帧特征Fi作为输入的操作，其中i表示尺度级别。前一次的攻击-dence. 要实现这一目标，直接对精细功能是Tˆi−1由于小的体素尺寸带来的大的搜索空间而困难。为了解决这个问题，我们设计了一种新的粗到细的聚合策略，利用基础模型生成的具体来说，我们采用了一个基于transformer的融合聚合模式，选通特征F1被转置卷积层上采样以匹配当前缩放级别的大小，并与当前帧特征F1连接。卷积层用于融合两个级联的输入，并且通过以下方式获得融合的特征F¯i规则（FAM）进行特征融合和特征聚合，F¯i =Con v（[upsample（Fi−1），Fi]）（1）从粗糙的特征图开始。输出ag-TTT然后将聚集的特征与下一尺度级别的特征图融合以用于随后的聚集。其主要思想是利用粗特征图对跨帧特征标记进行粗匹配，并利用聚合特征指导后续的细特征匹配过程，细特征标记的物理尺寸较小。最后，所有FAM的输出如Point- Pillars [17]中那样组合以生成最终预测。的细节其中[ ]表示级联。该方法通过将先前聚合的较小尺度特征与当前帧特征融合，融合后的特征融合了粗的跨帧匹配信息，用于指导后续的特征聚合。注意，由于最小尺度级别是第一级别，因此对于最小尺度级别在特征聚集阶段，融合特征F¯i聚集来自过去帧FAM在第3.3节中详细说明。我们强调，我们提出的方法强调fea-表示为iT−n }N-1，其中N是帧的数量。真实聚合，不需要修改基本模型。相同的预测头用于生成如示于图3.首先通过以下步骤处理融合特征：多头自注意模块，用于收集帧内的特征，并且输出特征用作4234不C·联系我们--i、j√后续交叉关注模块，其执行跨帧特征聚合，而过去帧的特征被连接并用作键和值。特征聚合过程可以概括为：输出输出Fi=Attn（Attn（F<$i，F<$i），[Fi、...、Fi（2）T TTT−1T−N+1其中，输出Fi是电流的聚集特征，斯凯尔岛注意，为了简单起见，省略了Transformer中的归一化层、跳过连接和前馈网络，并且每个FAM由上述用于特征聚合的L个Transformer查询值(a) 变形注意力查询键值(b) 建议注意事项位置客观编码。在[31]中介绍的使用正弦函数生成的规则位置编码之上，我们引入了额外的客观性编码，以促进特征聚合过程。具体来说，我们从每个帧的基本模型中获得分类预测，并使用卷积层将其编码为与特征图相同的维度。在多类预测的情况下，选择最高形式上，客观性编码Eobj通过以下方式获得Eobj=Conv（σ（maxS））（3）c=1其中，C表示类别的数量，S表示单帧分类预测。σ（）是将分数转换为[0，1]范围的sigmoid函数。然后将客观性编码与位置编码相加以形成位置客观性编码。分类预测反映了特征图中每个标记的客观性，并且将此信息显式地添加到查询和关键特征中有助于Transformer在匹配过程中定位前景对象。3.4. 注意机制常规变换器的一个已知问题是它们的高计算复杂度和存储器消耗，因为在查询和关键字之间执行全局匹配。复杂性随着令牌数量的增加而二次增长。当我们处理大规模点云场景时，这个问题甚至会被放大。可变形注意力[48]是在可变形DETR中提出的，作为一种替代注意力机制，以减少计算并加快检测模型的收敛如图4（a）所示，可变形注意力不是计算全局注意力，而是根据查询元素的位置生成少量采样位置图4：原始可变形注意力[48]和我们提出的变体。(a)原始的可变形注意力直接通过投影从查询特征生成注意力权重。(b)我们提出的注意力采样关键元素，并执行查询键匹配，以获得注意力矩阵，该矩阵应用于值样本以产生输出。可变形注意力将计算复杂度从二次型降低到线性型。特征长度。此外，它不限制注意模式到一个固定的局部范围，这使得它有利于我们的应用程序中的对象是不同的移动速度。然而，原始的可变形注意力并没有明确地强制查询-键匹配以生成注意力矩阵，这限制了在我们的任务中对移动对象的跨帧相关性建模的能力。具体地，当当前帧特征用作跨帧匹配中的查询时，值特征来自过去的帧并且可能由于对象移动而与查询不对齐。然而，注意力权重是通过投影查询特征直接生成的，其中不包含运动信息。因此，注意力模块很难生成有意义的注意力权重，以便聚焦于移动对象（如图6所示）。为了解决这个问题，我们引入了一个变量的变形注意力，将查询键匹配过程。具体地，投影采样位置分别用于生成键样本和值样本。将关键样本与查询特征相乘以获得注意力矩阵，该注意力矩阵对于mally，我们使用qi来表示一组查询令牌，以及ki和vi用于采样的键和值令牌。注意力矩阵计算如下：通过查询特征的线性投影。同时，查询特征也被投影到与采样位置相对应的一组注意力权重。Ah=softmax（（Wqqi）T（Wkkj）（d）（4）基于采样位置从值特征中获得值样本，并且通过将注意力权重与值样本相乘来计算输出。其中h表示注意力头，Wq和Wk表示注意力头。查询和关键预测。d是缩放因子[31]，d是特征尺寸。注意力的输出是MatMulSoftmaxMatMul示例键值地点样品样品投影采样MatMulSoftmax注意样本值权重位置样本投影采样4235LLL×我ΣJJOi、jv JHK计算公式：Attn（q，k，v）=W（Ahh=1j=1·Wv）（5）性能通过平均精度（mAP）和航向精度加权的mAP（mAPH）来评估，而对象基于包含的点数其中Wo和Wv分别是输出投影和值投影K表示每个查询元素的样本位置的数量，H是头的数量。3.5. 损失在FAM的特征聚合阶段，除了最终聚合的特征之外，还保留来自每个Transformer层的中间输出以提供额外的监督。我们以与基础模型相同的方式融合多尺度特征[17]，以生成用于损失计算的最终预测。损失与基本模型相同，包括分类损失cls、定位损失loc和方向损失dir。我们将所有Transformer层的损耗相加，以获得聚合损耗：L4.2.实现细节nuScenes 对于x-y平面，我们使用[-51.2m，51.2m]的输入范围，对于z轴，我们使用[-5m，3m]的输入范围。体素大小被设置为0.2m，这导致总共512 512个柱。初始特征图以因子[2，4，8]下采样以获得如[17]中所述的多尺度特征图。进行自我运动校正以补偿自运动。我们将来自关联扫描的点与关键帧连接以形成一个输入帧。我们遵循[39，42]中的实践，使用3个关键帧及其相关的扫描作为输入。对于FAM，我们使用6个Transformer层和8个attention头。可变形点的数量设置为8。我们选择具有前5%分类分数的体素来形成查询特征。基础模型以0.001的学习率和余弦退火调度训练了40个epoch，整个模型是拉格尔=1（βLl=1CLSLcls +βloc L锁定+βdir L方向）（6）然后以0.0005的学习率训练30个时期。Waymo对于Waymo上的实验，我们使用输入其中L是Transformer层数，βcls、βloc、βdir是损耗系数。另一方面，计算所有输入帧的基本模型损失，并将聚合损失和基本模型损失相加以获得总损失：L=Lbase + Laggr（7）整个模型以端到端的方式进行优化。4. 实验4.1. 数据集我们评估我们提出的方法对两个流行的点云检测基准，包括连续帧。nuScenes nuScenes [1]数据集包含700个序列用于训练，150个序列用于验证。每个点云序列的长度约为20 s，帧间隔为0.05 s。每10个连续帧提供一个注释检测任务的主要评价指标是平均精度（mAP）。mAP计算使用一系列中心距离阈值，而不是常用的框IoU阈值。Waymo Waymo Open Dataset [30]是一个大规模的自动驾驶数据集，包含798个用于训练的点云序列和202个用于验证的序列。点云是使用64线LiDAR收集的，每帧大约有180k个点连续帧之间的帧检测根据[38]中的设置，x轴和y轴的点云范围为[-76.8m，76.8m]，z轴的点云范围为[-2m，4m]体素大小被设置为0.3m，这为我们提供了与nuScenes数据集相同数量的柱子。我们遵循[38]使用16帧作为输入，将它们分为4个窗口，每个窗口内的点都是协调的。基础模型首先以0.003的学习率训练20个epoch，然后以0.0016的学习率训练整个模型另外 10 个 epoch 。其余设置与nuScenes相同。4.3. 基准测试结果我们比较现有的多帧检测方法，利用时间信息，以提高检测性能。我们不包括单帧检测器，因为它们建立在不同的架构和参数，这不是本研究的重点表1报告了nuScenes数据集上的检测性能我们提出的方法优于当前最先进的多帧检测方法TCTR [42]，在mAP中的裕度为1.8，同时实现了大多数类别的最佳结果。表2报告了Waymo数据集上的检测性能。TransPillars优于最先进的多帧方法3D-MAN [38]：尽管3D-MAN采用了比我们的更强的单帧基本模型，但我们仍然获得了更好的结果，在基本模型上具有令人信服的更大的改进幅度。基础模型性能的差异来自于3D-MAN对主干进行的修改，而我们使用原始PointPillars [17]。从距离细分来看，4236表1：与nuScenes数据集上的多帧3D检测器的性能比较。TC摩托和Cons.分别代表交通锥、摩托车和工程车辆。平均精密度（mAP）用于评价。方法车PED总线屏障 T.C. 卡车拖车摩托弊自行车平均值3DVID [39]79.7 76.5四十七点一48.858.833.643.040.718.17.945.4TCTR [42]83.2 74.9六十三点七53.852.551.533.054.015.622.650.5我们84.0 77.9 62.055.155.452.434.355.218.927.652.3表2：与Waymo验证数据集上的多帧3D检测器的性能比较即使使用竞争力较低的基线模型，我们的方法也优于最先进的多帧检测器3D-MAN。困难方法mAP（IoU=0.7）mAPH（IoU=0.7）整体0- 30米30-50m 50m-Inf整体0- 30米30-50m 50m-InfConvLSTM [13]63.6-------3D-MAN（基线）69.0387.9966.5543.1568.5287.5765.9242.371级3D-MAN [38]74.5392.1972.7751.6674.0391.7672.1551.02我们的（基线）67.4086.9162.9341.3566.7486.3462.1940.47我们74.9791.3973.1053.5274.4290.9172.4852.753D-MAN（基线）60.1687.1059.2732.6959.7186.6858.7132.082级3D-MAN [38]67.6192.0067.2041.3867.1491.5766.6240.84我们的（基线）58.9486.0757.1331.7258.3685.5056.4431.02我们67.8990.6967.3742.5767.3590.2066.7841.9115.015.0表3：不同聚集方法的消融研究。12.510.07.55.02.512.510.07.55.02.50.00~30 30~5050~Inf距离范围（m）0.00~30 30~50 50~Inf距离范围（m）图5：与3D-MAN相比，我们提出的方法对于更远（>30 m）的对象具有更显著的性能增益，这些对象更容易受到点稀疏和遮挡的影响，因此更多地受益于多帧信息。从图中可以看出5，我们的模型实现了更高的性能增益的对象在一个较长的距离（>30米）的3D-MAN，例如。对于30- 50米范围内的1级物体，与3D-MAN的增量为6.23如[38]中所指出的，其他对象通常具有更稀疏的点分布并且更容易受到遮挡，这使得多帧信息在补充单帧视图时更有用显着的性能增益证明了我们的方法在聚合多帧特征的有效性。4.4. 消融研究我们进行消融研究，以调查我们在Waymo数据集上提出的组件的有效性。由于大量的训练样本和有限的计算资源，我们抽样10%的se-序列从训练集的实验。我们使用相邻帧之间间隔为0.4s的4个点云帧作为输入来报告结果，除非另有说明。使用完整验证数据集进行评价聚合方法。我们比较了我们提出的层次粗到细的特征聚合方法与两种不同的方法，即单尺度和Sepa率多尺度。对于单尺度设置，基本模型的最终连接特征图用于特征聚合。分离多尺度是指并行执行不同尺度的特征聚合，然后组合聚合的特征。如表3所示，我们观察到两种方法的性能都下降了，而单尺度方法的性能损失更大。实验结果表明，多尺度特征有助于跨框架关系的学习，而本文提出的由粗到细的分层聚合策略使特征聚合更加有效。注意机制。我们比较了我们提出的注意力机制与原来的变形注意力[48]并在表4中报告结果。使用原始可变形注意力的模型[48]经历了一个清晰的过程，3D-MAN我们mAPH增益@难度等级1（%）3D-MAN我们聚合方法1级2级mAP mAPHmAP mAPHmAPH增益@难度Lv 2（%）单尺度59.7858.8652.0551.26独立多尺度61.2160.4453.3852.70分层多尺度（我们的）62.0961.2355.4554.594237表4：注意机制的消融研究。注意类型1级2级mAP mAPHmAP mAPH[48]第四十八话60.86 60.04 53.03 52.32我们62.09 61.23 55.45 54.59表5：Transformer编码的消融研究。表6：输入帧数量的性能比较。表示点连接。数量帧1级2级mAP mAPHmAP mAPH编码类型1级2级mAP mAPHmAP mAPH变形注意力与我们提出的注意力机制相比，这表明了本文研究的任务中查询键匹配对聚合多帧特征的重要性。Transformer编码。为了研究我们提出的位置客观性编码的有效性，我们通过去除位置编码和客观性编码来进行实验。表5中的结果表明，删除每种类型的编码都会导致模型性能的损失，而客观性编码的影响更为显著。它证明了客观性编码通过添加额外的信号来指示每个输入标记的客观性，对引导特征聚合具有积极的影响。4.5. 进一步讨论输入帧数。我们研究了我们提出的方法在不同数量的输入帧下的性能。对于具有8个和16个输入帧的实验，我们将它们分别分成4个窗口，每个窗口有2个和4个级联此外，我们还与使用4帧的基点拼接[1]方法（表示为4分）。如表6中所示，通过使用4个连续帧作为输入，已经有了相对于单帧基线（例如，1级物体的mAP增加了6.86）。当使用相同数量的帧时，我们的方法明显优于点连接方法，这证明了显式跨帧相关建模的好处。随着帧的数量进一步增加，我们注意到2级对象的改进更高，这与具有稀疏点分布的对象可以从多帧信息中受益注意力可视化。我们可视化的学习atten- tion模式上的鸟瞰视图的对象实例。如示于图6，我们用红色圆圈表示注意力采样位置，而每个圆圈的半径表示注意力的大小。据观察，原始-图6：注意力权重的可视化。当前帧点以深蓝色显示，强度随着过去帧点的时间间隔增加而降低箭头指示对象的移动方向。注意力采样位置以红色显示，而每个圆圈的半径表示注意力权重大小。最终的可变形注意力[48]展示了高度稀疏的注意力模式，这些注意力模式随意地分散在物体周围，而我们提出的注意力机制有效地集中在移动物体的轨迹上。它表明，所提出的查询键匹配操作是必不可少的跨帧的特征聚合任务，因为它是在聚合过程中更5. 结论本文提出了一种多帧三维目标检测方法TransPillars，它进行体素级特征聚合。我们设计了一种新的分层聚合策略来执行基于多尺度特征的由粗到细的聚合：使用粗特征来捕获对象运动，以引导精细特征的融合以进行精确定位。变形atten- tion的一个变种引入高效和运动感知的特征匹配。实验结果表明，在标准基准测试中，TransPillars的性能优于最先进的多帧检测方法。14∗54.4357.0153.5256.2147.0450.3946.2449.66460.7559.9152.7652.02861.2660.4353.3652.641662.1661.4155.5554.85无位置编码61.52 60.6854.87 54.09无目标编码61.29 60.4753.32 52.60我们62.09 61.2355.45 54.594238引用[1] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。[3] Yihong Chen，Yue Cao，Han Hu，and Liwei Wang. 用于视频对象检测的存储器增强的全局-局部聚合。在IEEE/CVF计算机视觉和模式识别会议论文集，第10337-10346页，2020年。[4] Xiangxiang Chu，Zhi Tian，Yuqing Wang，Bo Zhang，Haibing Ren，Xiaolin Wei，Huaxia Xia，and ChunhuaShen. Twins：Revisiting the design of spatial attention invision transformers. arXiv预印本arXiv：2104.13840，1（2）：3，2021。[5] 董晓义，鲍建民，陈东东，张伟明，于能海，卢远，陈东，郭百宁. Cswin Transformer：带有十字形窗口的通用视觉变换器主干。arXiv预印本arXiv：2107.00652，2021。[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[7] Jiemin Fang，Lingxi Xie， Xinggang Wang，XiaopengZhang，Wenyu Liu，and Qi Tian.Msg-transformer：通过操纵信使令牌交换局部空间信息。arXiv预印本arXiv：2105.15168，2021。[8] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013.[9] Qichuan Geng，Hong Zhang，Na Jiang，Xiaojuan Qi，Liangjun Zhang，and Zhong Zhou.用于视频对象检测的对象感知特征聚合。arXiv预印本arXiv：2010.12573，2020。[10] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用亚流形稀疏卷积网络的3D语义分割。在IEEE计算机视觉和模式识别会议论文集，第9224-9232页[11] Mingfei Han，Yali Wang，Xiaojun Chang，and Yu Qiao.视频对象检测的视频间建议关系挖掘。在欧洲计算机视觉会议上，第431446. Springer，2020年。[12] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年[13] 黄锐，张万月，阿比吉特·昆杜，卡罗琳·潘托-法鲁，大卫·A·罗斯，托马斯·芬克豪泽和阿里雷扎·法蒂。激光雷达点云数据中三维目标检测的lstm方法。在计算机视觉-ECCV 2020中：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，Pro-ceedings，第XVIII 16部分，第266-282页。Springer，2020年。[14] 黄子龙、本友成、罗国忠、裴成、余刚、傅斌。混洗Transformer：重新思考视觉Transformer的空间洗牌。arXiv预印本arXiv：2106.03650，2021。[15] Drew A Hudson和C Lawrence Zitnick。生成式对抗转换器。arXiv预印本arXiv：2103.01209，2021。[16] 洪武匡、北王、安建平、张明、张泽涵。Voxel-fpn：多尺度体素特征聚合，用于从激光雷达点云检测3d物体。传感器，20（3）：704，2020。[17] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在IEEE/CVF计算机视觉和模式识别会议论文集，第12697-12705页[18] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang，Stephen Lin，and Baining Guo. Swin变压器：分层视觉Transformer使用移位的Win32. arXiv预印本arXiv：2103.14030，2021。[19] Wenjie Luo，BinYang，and Raquel Urtasun.快速和狂热：利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。在IEEE计算机视觉和模式识别会议论文集，第3569-3577页[20] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票。在IEEE/CVF计算机视觉国际会议集，第9277-9286页[21] Charles R Qi ， Wei Liu ， Chenxia Wu ， Hao Su ， andLeonidas J Guibas.从rgb- d数据中检测三维物体的平截体点网。在IEEE计算机视觉和模式识别会议论文集，第918-927页[22] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别集，第652[23] Charles R Qi，Li Yi，Hao Su，and Leonidas J Guibas.Point- net++：度量空间中点集上的深度层次特征学习。arXiv预印本arXiv：1706.02413，2017。[24] Charles R Qi ， Yin Zhou ， Mahyar Najibi ， Pei Sun ，Khoa Vo，Boyang Deng，and Dragomir Anguelov.从点云序列中检测非机载三维在IEEE/CVF计算机视觉和模式识别会议论文集，第6134-6144页[25] OlgaRussakovsky ， Jia Deng

下载后可阅读完整内容，剩余1页未读，立即下载