VISTA:通过多视图特征融合的双重交叉视觉空间注意力提升3D物体检测

197 浏览量更新于2023-10-26 收藏 16.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Shengheng Deng1,*, Zhihao Liang1,3,*, Lin Sun2 and Kui Jia1,4,†{eedsh, eezhihaoliang}@mail.scut.edu.cn, kuijia@scut.edu.cn, lsun@magicleap.comVISTA84480VISTA: 通过双重交叉视觉空间注意力提升3D物体检测01 华南理工大学, 2 Magic Leap, Sunnyvale, CA 3 DexForceTechnology Co., Ltd., 4 Peng Cheng Laboratory0摘要0从LiDAR点云中检测物体对于自动驾驶具有重要意义。尽管取得了一定的进展，但由于LiDAR点云的稀疏性和不规则性，准确可靠的3D检测仍然有待实现。在现有的策略中，多视图方法通过利用鸟瞰图（BEV）和距离视图（RV）中更全面的信息显示出很大的潜力。这些多视图方法要么通过融合特征来改进单视图预测的提案，要么在不考虑全局空间上下文的情况下融合特征；因此它们的性能受到限制。在本文中，我们提出了一种自适应地在全局空间上下文中融合多视图特征的方法，即双重交叉视觉空间注意力（VISTA）。所提出的VISTA是一个新颖的即插即用的融合模块，其中广泛采用标准注意力模块中的多层感知机被替换为卷积层。由于学习到的注意力机制，VISTA能够产生高质量的融合特征用于提案的预测。我们在VISTA中解耦了分类和回归任务，并应用了注意力方差的额外约束，使注意力模块能够专注于特定目标而不是通用点。我们在nuScenes和Waymo的基准测试上进行了全面的实验；结果验证了我们设计的有效性。在提交时，我们的方法在nuScenes基准测试中整体mAP达到63.0%，在NDS上达到69.8%，在安全关键类别如骑行者方面超过所有已发表的方法高达24%。01. 引言0LiDAR是一种广泛应用于自动驾驶中的突出传感器，用于提供精确的3D信息-0* 表示相等的贡献. † 通讯作者: Kui Jia .03D骨干网络0边界框头部0BEV 特征0颈部0提案0输入LiDAR点云预测的边界框03D骨干网络0边界框头部0BEV 特征0BEV颈部0输入LiDAR点云预测的边界框0RV 特征0RV颈部0(b) 基于VISTA的多视图融合0图1. 单视图检测与基于VISTA的多视图融合的比较。 (a)显示了单视图检测流程。 (b)说明了基于VISTA的多视图融合。由共享的3D骨干网络提取的BEV和RV特征通过各自的颈部传递，并通过VISTA输出高质量的融合特征。0因此，基于LiDAR的3D物体检测引起了广泛关注。许多3D物体检测算法[19,29,32]通过将无序和不规则的点云体素化为体积网格，将卷积神经网络应用于3D点云。然而，3D卷积运算符在计算上效率低下且占用内存。为了缓解这些问题，一系列工作[6,28]在网络骨干中使用稀疏的3D卷积[9-11]来提取特征。如图1(a)所示，这些工作将3D特征图投影到鸟瞰图或距离视图中，并使用提案方法从这些2D特征图生成物体提案。不同的视图有各自的优势和缺点需要考虑。在鸟瞰图中，物体之间不重叠，每个物体的大小与车辆自身距离无关。距离视图是LiDAR点云的本地表示，因此可以产生紧凑且密集的特征。然而，无论选择BEV还是RV，投影都不可避免地会损害空间信息在3D空间中的完整性。例如，由于自遮挡和84490由于LiDAR数据生成的特点，BEV表示非常稀疏，并且它整合了3D点云的高度信息，因此在RV中，遮挡和物体尺寸的变化会更严重，因为它丢失了深度信息。显然，从多个视图中联合学习，即多视图融合，为准确的3D目标检测提供了解决方案。之前的一些多视图融合算法[7,17]从单个视图中生成提案，并利用多视图特征来优化提案。这种算法的性能高度依赖于生成的提案的质量；然而，从单个视图生成的提案没有充分利用所有可用的信息，可能导致次优解。其他工作[5,31]根据不同视图之间的坐标投影融合多视图特征。这种融合方法的准确性依赖于其他视图对应区域提供的互补信息；然而，遮挡效应是不可避免的，导致多视图特征融合的质量较低。0为了提高3D目标检测的性能，在本文中，我们提出了通过双重交叉视图空间注意力（VISTA）从全局空间上下文中生成高质量融合的多视角特征，用于提案预测，如图1（b）所示。所提出的VISTA利用了变压器中的注意力机制，该机制已成功应用于各种研究领域（例如自然语言处理、2D计算机视觉）。与通过坐标投影直接融合相比，VISTA中内置的注意力机制利用了全局信息，并通过将各个视图的特征视为特征元素序列来自适应地建模了所有视图之间的成对相关性。为了全面地建模跨视图的相关性，必须考虑到两个视图中的局部上下文，因此我们将传统注意力模块中的多层感知机替换为卷积运算符，在第6节中展示了其有效性。然而，学习跨视图之间的相关性仍然具有挑战性，如第6节所示。直接采用注意力机制进行多视图融合带来的收益很小，因此我们认为这主要是由于3D目标检测任务本身的特点所致。0一般来说，3D目标检测任务可以分为两个子任务：分类和回归。正如[5,22]所阐述的，3D目标检测器在检测整个3D场景中的对象时面临许多挑战，例如遮挡、背景噪声和点云中稀缺的纹理信息。因此，注意力相关性很难学习，注意力模块倾向于学习整个场景的平均值，这与注意力模块设计为关注感兴趣区域的初衷不符。因此，我们明确约束了由注意力模块学习到的注意力图的方差。0VISTA提供了一种关注机制，引导注意力模块关注复杂的三维室外场景中的有意义的区域。此外，分类和回归的不同学习目标决定了注意力模块中学习到的查询和键的不同期望。不同对象的各种回归目标（例如，尺度、平移）期望查询和键能够意识到对象的特征。而分类任务则推动网络理解对象类别的共同属性。不可避免地，共享相同的注意力建模将给这两个任务的训练带来冲突。此外，一方面，由于纹理信息的丢失，神经网络很难从点云中提取语义特征。另一方面，神经网络可以很容易地从点云中学习到对象的几何属性。因此，在训练过程中，会出现分类任务被回归任务主导的困境。为了解决这些挑战，我们在提出的VISTA中将这两个任务解耦，以学习根据不同任务聚合不同线索。我们提出的VISTA是一个即插即用的模块，可以应用于最近先进的目标分配策略。我们在nuScenes [2]和Waymo[25]的基准数据集上测试了基于我们提出的VISTA的多视角融合与不同目标分配算法的性能。对它们的验证集进行的消融研究证实了我们的猜想。由于VISTA产生的高质量融合特征，我们提出的方法优于所有已发布的算法。在提交时，我们的最终结果在nuScenes排行榜上达到了63.0%的整体mAP和69.8%的NDS。在Waymo开放数据集上，我们在车辆、行人和骑车者上分别达到了74.0%、72.5%和71.6%的2级mAPH。我们总结我们的主要贡献如下。0• 我们提出了一种新颖的即插即用融合模块DualCross-VIew SpaTial Attention(VISTA)，以产生良好融合的多视图特征，以提高3D目标检测的性能。我们提出的VISTA用卷积算子替代了MLPs，能够更好地处理局部线索进行注意力建模。0•我们在VISTA中解耦了回归和分类任务，利用个体注意力建模来平衡这两个任务的学习。我们在训练阶段对VISTA应用注意力方差约束，有助于注意力学习并使网络能够关注感兴趣的区域。0•我们在nuScenes和Waymo的基准数据集上进行了全面的实验。我们基于VISTA的多视图融合可以在各种先进的目标分配策略中采用，轻松提升原始算法，并在基准数据集上实现最先进的性能。具体而言，我们的84500所提出的方法在整体性能上比第二好的方法提高了4.5％，在像骑自行车者这样的安全关键对象类别上提高了高达24％。02. 相关工作02.1. 单视图3D检测0基于BEV的3D检测大多数基于体素的3D检测算法在BEV上检测对象。[19]将点云投影到BEV柱中，并将BEV柱输入2DCNNs。这种投影不可避免地导致3D空间信息的丢失。最近的工作[6, 28, 30, 32]通过利用3DCNNs直接在3D点云或处理后的3D点云（例如体素）上操作，然后将3D特征图投影到BEV上，最终在投影的BEV特征上检测对象。基于RV的3D检测少数工作[22]从RV中检测对象。RV表示提供了紧凑的特征。然而，正如[22]中提到的，RV检测器需要更多的训练数据，并且面临着由于遮挡和不同尺度的变化对象而带来的巨大挑战。然而，这两种投影都会破坏3D空间信息的完整性。我们认为，一个全面的3D检测框架需要从两个视图中学习，并且性能取决于从两个视图中获得的互补信息的融合特征。02.2. 多视图3D检测0一系列的工作[4,18]通过聚合特征来改进提议，或者在空间投影约束的区域内融合特征。[7,17]将来自点云和相机图像的ROI特征进行融合以改进提议。与之前的工作不同，CVCNet[5]提出了一种混合体素化方法，以统一两个视图的优点，并利用霍夫变换限制来自两个视图的分类结果的一致性。然而，CVCNet不直接利用多视图特征来生成提议，因此无法充分利用融合特征进行3D检测。所有这些工作都在有限的区域内融合特征，或者没有利用融合特征进行3D检测。为了利用全局空间上的多视图特征，我们提出的VISTA考虑了整个场景中来自不同视图的特征之间的相互作用。02.3. Transformer中的注意力机制0由于能够有效捕捉输入特征序列中的长程依赖关系，transformer[26]已被广泛应用于计算机视觉任务[3,8,13,14,21,24,34]。transformer中的核心组件是自注意力模块，它可以对输入特征进行加权整合。0显式地对输入特征序列之间的成对相关性进行建模。ViT[8]将图像划分为补丁，以构建注意力来实现图像分类。PCT[13]将注意力模块修改为离散的拉普拉斯算子，用于点云分类。CT3D[24]通过通道注意力对提议特征进行重新加权，用于边界框细化。不幸的是，由于3D目标检测任务本身的特点以及室外3D点云的固有属性，现有的注意力模块无法集中关注场景中感兴趣的区域。此外，网络训练很容易被回归任务所主导。相反，所提出的VISTA通过解耦的注意力建模和设计的训练约束来解决上述问题，从而能够为3D目标检测生成高质量的融合多视图特征。03. 概述0给定一个场景的LiDAR点云，3D目标检测的任务是准确预测物体的类别，并输出包围场景中物体的定向边界框。如图1(a)所示，在大多数3D目标检测器中，学习到的3D特征网格将被折叠成BEV或RV的2D特征图，然后是一个2D边界框头部。我们将这些方法称为单视图检测器。不可避免地，'折叠'操作会损害空间完整性，这将导致边界框预测结果较差。为了弥补这种损失，已经提出了各种多视图融合方法。正如在第1节中所详述的，由于提案的质量或融合区域的限制，所有这些方法都无法全面地融合多视图特征。我们认为在多视图融合过程中应考虑全局上下文，以更好地利用两个视图中传递的互补信息。因此，我们提出了双重交叉视觉空间注意力(VISTA)模块，它将3D目标检测中的分类和回归任务解耦，并在设计的注意力约束下进行训练。我们遵循现有融合算法中广泛使用的通用融合流程。整体架构如图1(b)所示。我们采用广泛使用的稀疏3D ResNet[5]作为共享的3D骨干网络，生成3D特征图 F 3 d ∈ R B× C × H × W × D，其中B是批量大小，C是特征维度，H、W和D分别是 F 3d 的宽度、高度和深度轴的大小。对于BEV和RV， F 3 d被折叠成两个2D特征图 F bev ∈ R B × ( C × W ) × H ×D 和 F rv ∈ R B × ( C × D ) × H × W 。 F bev 和 F rv被输入到各自的2D特征提取器，即2Dneck。与最近的一些最先进的检测器[6,30]一样，我们采用UNet-like架构作为我们的2Dneck，其中包含几个卷积层，每个卷积层后面跟着一个归一化和激活函数。在2D neck之后，VISTA…xCxC…+xCxCxC��84510查询填充的BEV0双重交叉视觉空间注意力(VISTA)0填充的RV0值0卷积0卷积0展平0展平0展平0缩放点注意力权重0加权平均0取消填充0输出0重塑0卷积0卷积0卷积0语义注意力建模0几何注意力建模0图2. 所提出的VISTA架构。0以 F bev 和 F rv作为输入，输出融合的多视图特征以产生检测结果。04. 双重交叉视觉空间注意力0对于大多数基于体素的3D检测器，密集地生成柱状提案可以在经验上保证检测质量。在多视图3D目标检测的情况下，提案来自融合的特征图，需要在融合过程中考虑全局空间上下文的整体考虑。为此，我们寻求利用注意力模块捕捉多视图融合的全局依赖能力，即交叉视图空间注意力。在考虑全局上下文之前，交叉视图空间注意力模块需要聚合局部线索以构建不同视图之间的相关性，如我们在第6节中所示。因此，我们提出了VISTA，其中基于多层感知机的标准注意力模块被替换为卷积模块。然而，在复杂的3D场景中学习注意力是困难的。为了采用交叉视图注意力进行多视图融合，我们进一步将VISTA中的分类和回归任务解耦，并应用所提出的注意力约束来提升注意力机制的学习过程。在本节中，我们首先详细介绍所提出的双重交叉视觉空间注意力(VISTA)的整体架构，然后详细阐述了VISTA的解耦设计和注意力约束。04.1. 总体架构0如图2所示，VISTA接受来自两个不同视图的特征序列作为输入，并对多视图特征之间的跨视图相关性进行建模。与使用线性投影的普通注意力模块不同，VISTA使用卷积算子来进行特征序列的转换，将输入特征序列X1和X2投影为查询Q和键K（值V）。0为了将输入特征序列转换为查询和键，VISTA通过3×3卷积算子将输入特征序列X1∈Rn×df和X2∈Rm×df投影为查询Q∈Rn×dq和键K∈Rm×dq（值V∈Rm×dv），其中dq和dv是查询（键）和值的特征维度。为了解耦分类和回归任务，Q和K进一步通过各自的MLP（实现为1D卷积）投影为Qi，Ki，i∈{sem,geo}。为了计算值V的加权和作为跨视图输出Fi∈Rn×dv，应用缩放点积来获得跨视图注意力权重Ai∈[0, 1]n×m：0Ai = softmax(QiKi�0d q ) , i ∈ { sem, geo } (1)0输出将为Fi =AiV。输出Fi将被馈送到各自的前馈网络FFNi（FFN）中以获得最终结果。我们采用了先前工作中广泛使用的架构[3,26]作为我们的FFN，以确保非线性和多样性。所提出的VISTA是一种一阶段的方法，它基于跨视图融合的特征直接生成提议；这样的设计可以利用更多信息进行准确和高效的3D检测。04.2. 解耦分类和回归0VISTA解耦了分类和回归任务。在共享的卷积算子之后，查询和键进一步通过个体线性投影进行处理，以产生Qi和Ki，然后参与不同的注意力建模，以获取语义信息或几何信息。这种解耦的动机是分类和回归的监督信号对训练的不同影响。给定场景中的一个查询对象，对于分类来说，注意力模块需要聚合语义线索从...Lvar = −1NboxNbox�q1NqNq�iV ar(Aq[i])(3)84520为了丰富融合特征中传达的语义信息，我们在全局上下文中引入了对象，这些对象需要学习到的查询和键意识到相同类别的不同对象之间的共同之处，因为相同类别的对象在语义上应该相互匹配。然而，由于不同对象具有自己的几何特征（如平移、缩放、速度等），回归任务不能使用相同的查询和键，因此回归特征在不同对象之间应该是多样的。因此，共享相同的查询和键会在分类和回归的联合训练中对注意力学习产生冲突。此外，无论是单视图还是多视图，传统的基于体素的3D检测器中的分类和回归结果都是从相同的特征图中预测出来的。然而，由于3D场景的固有属性，在3D点云中存在不可避免的遮挡和纹理信息丢失，因此3D检测器很难提取语义特征，这给分类学习带来了巨大的挑战。相反，3D点云传达的丰富几何信息减轻了理解对象几何属性的负担，这是学习回归任务的基础。因此，在网络训练过程中，分类和回归之间存在不平衡的学习，其中回归主导了分类的学习。这种不平衡的学习是涉及基于3D点云的3D物体检测中的分类和回归的常见问题，会对检测性能产生负面影响。具体而言，3D检测器在具有相似几何特征的不同对象类别（例如卡车和公共汽车）之间不会具有鲁棒性，如我们在第6.4节中所示。为了缓解上述问题，我们的动机是分别为语义和几何信息建立注意力模型。注意力模块的输出是基于构建的语义和几何注意力权重的Fsem和Fgeo。分类和回归的监督分别应用于Fsem和Fgeo，从而保证了相应任务的有效学习。04.3. 注意力约束0当学习从全局上下文中建模跨视图相关性时，VISTA面临许多挑战。3D场景包含大量背景点（约95%），只有很小一部分是对检测结果有贡献的感兴趣的点。在跨视图注意力的训练过程中，大量的背景点会给注意力模块带来意外的噪音。此外，复杂的3D场景中的遮挡效应会给注意力学习带来不可避免的失真。0因此，注意力模块倾向于关注不相关的区域，如第6.4节所示。注意力学习质量差的极端情况是全局平均池化（GAP）操作，如我们在第6节中展示的，直接使用注意力模块进行多视图融合而没有任何明确的监督，性能与GAP相似，这表明注意力模块不能很好地建模跨视图相关性。为了使注意力模块能够聚焦于特定目标而不是通用点，我们提出对学习到的注意力权重的方差施加约束。由于提出的约束，我们使网络具备了学习何处关注的能力。通过将注意力方差约束与传统的分类和回归监督信号相结合，注意力模块将注意力集中在场景中有意义的目标上，如我们在第6.4节中所示，从而产生高质量的融合特征。我们将提出的约束形式化为训练过程中的辅助损失。为简单起见，我们忽略批次维度，给定学习到的注意力权重A ∈ R N bev × N rv，其中N bev和Nrv分别是BEV和RV中的柱体数量，x-y平面上真实边界框的尺度和中心位置集合B = {b q | b q = (w q, h q, x q, y q), q= 1, ..., N box}，其中Nbox是场景中的边界框数量。对于BEV中的每个柱体，我们根据体素大小计算其中心的实际世界坐标，并获得集合C ={c j | c j = (x j, y j), j = 1, ..., Nbev}。通过以下方式获得每个真实边界框的注意力权重：0A q = A [ p, :] , s . t . � x q − w q / 2 ≤ x p ≤ x q + w q / 2 y q − h q / 2 ≤ y p ≤ y q + h q / 2 (2)然后我们将所有真实边界框的方差约束公式化如下：0其中N q 是由b q 包围的柱体数量，Var( ∙)计算给定向量的方差。05. 实现0Voxelization我们根据x、y、z轴对点云进行体素化。对于nuScenes数据集，体素化的范围为[-51.2, 51.2]m，[-51.2,51.2]m和[-5.0, 3]m。对于Waymo数据集，范围为[-75.2,75.2]m，[-75.2, 75.2]m和[-2,4]m。除非特别说明，我们所有的实验都是在低体素化分辨率[0.1, 0.1, 0.1]m的x、y、z轴上进行的。增强点云根据x、y轴进行随机翻转，围绕z轴旋转，范围为PointPillars [19]45.330.517ms68.423.04.128.223.438.927.41.159.730.8WYSIWYG [15]41.935.0-79.130.47.146.640.134.718.20.165.028.8PointPainting [27]59.246.4-77.935.815.836.237.360.241.524.173.362.4CBGS [33]63.352.855ms81.148.510.554.942.965.751.522.380.170.9CVCNet [5]64.255.891ms82.746.120.745.846.769.961.334.381.069.7OHS [6]66.059.360ms83.150.923.056.453.371.663.536.681.373.0CenterPoint [30]67.360.370ms85.253.520.063.656.071.159.530.784.678.4VISTA-OHS (Ours)69.863.069ms84.455.125.163.754.271.470.045.482.878.5(a)59.566.060ms(b)✓59.265.861ms(c)✓58.765.963ms(d)✓60.066.864ms(e)✓✓60.467.564ms(f)✓✓✓60.868.169msCBGS51.961.5CenterPoint56.464.8OHS59.566.0V-CBGS53.2(+1.3)62.8(+1.3)V-CenterPoint57.6(+1.2)65.6(+0.8)V-OHS60.8(+1.3)68.1(+2.1)84530方法 NDS mAP 运行时间轿车卡车建筑物公共汽车拖车障碍物摩托车自行车行人交通锥0表1. nuScenes测试服务器上的3D检测结果。“cons.”表示施工车辆。0在 [−0.3925, 0.3925]弧度范围内旋转，缩放因子在0.95到1.05之间缩放，并在x、y、z轴上平移范围为[0.2, 0.2,0.2]米。我们采用了类平衡分组和采样[33]以及数据库采样[28]来增加训练过程中正样本的比例。联合训练我们使用不同的目标分配[6, 30,33]来训练VISTA。为了训练网络，计算了不同目标分配的原始损失，我们建议读者参考它们的原始论文以获取更多损失的详细信息。简要地说，我们考虑了分类和回归：0L target = λ 1 F cls (ˆ y, y ) + λ 2 F reg ( ˆ b, b ) (4)0其中 λ 1 和 λ 2 是损失权重，F cls ( ∙ , ∙ ) 是真实标签 ˆ y和预测值 y 之间的分类损失函数，F reg ( ∙ , ∙ )是真实边界框 ˆ b 和预测边界框 b之间的回归损失函数。总损失 L 是 L target 和 L var的加权和：L = L target + λ 3 L var。我们将 λ 1 、λ 2 和λ 3 设置为1.0、0.25和1.0。我们使用Focal loss [20]作为 Fcls，使用L1 loss作为 F reg。06. 实验0平均线性注意力卷积注意力变量一致性解耦 mAP NDS 运行时间0表2.VISTA在多视图融合上的消融研究。性能评估基于nuScenes验证集。0方法 mAP NDS 方法 mAP NDS 方法 mAP NDS0表3.基于VISTA的最先进方法（V-method）在nuScenes验证集上的3D检测结果。为了效率，所有方法都是基于官方代码库中提供的低体素化分辨率配置进行实验的。0我们在nuScenes数据集和Waymo开放数据集上评估了VISTA。我们测试了VISTA在三个最先进的方法上的有效性：CBGS [33]、OHS [6]和CenterPoint [30]。0最先进的方法的目标分配不同：CBGS [33]、OHS[6]和CenterPoint [30]。06.1. 数据集和技术细节0nuScenes数据集包含700个用于训练的场景，150个用于验证，150个用于测试。该数据集以2Hz的频率进行注释，总共有40000个关键帧被注释为10个对象类别。我们按照[33]的方法，将每个注释关键帧的10个扫描合并，以增加点的数量。我们的性能评估采用平均精度（mAP）和nuScenes检测得分（NDS）。NDS是mAP和其他属性指标（包括平移、尺度、方向、速度和其他框属性）的加权平均值。在训练过程中，我们按照CBGS [33]的方法使用Adam[16]优化器和一周期学习率策略[12]来优化模型。Waymo开放数据集包含798个序列用于训练，202个序列用于验证。每个序列的持续时间为20秒，以10Hz的采样率进行采样，使用64通道的LiDAR，包含6.1M个车辆、2.8M个行人和67k个骑车者的框。我们根据IoU阈值为0.7（车辆）、0.5（行人和骑车者）对网络进行标准mAP和mAP加权（mAPH）的度量评估。官方评估协议将方法分为两个难度级别：LEVEL 1表示至少有五个LiDAR点的框，LEVEL2表示至少有一个LiDAR点的框。06.2. 与其他方法的比较0我们将基于VISTA的OHS的测试结果提交到了nuScenes测试服务器。为了对结果进行基准测试，我们遵循[30]来调整训练的分辨率，并在测试数据增强中使用双重翻转。由于我们的结果是基于单一模型的，使用集成模型和额外数据的方法没有包含在我们的比较中。测试性能如表1所示。提出的VISTA在nuScenes测试集上实现了最先进的性能，在整体mAP和NDS方面都大幅超过了所有已发表的方法。特别是，在摩托车和自行车上的性能超过了第二好的方法CenterPoint[30]高达48%的mAP。具体而言，性能提升在StarNet [23]61.561.067.859.9--54.954.561.154.0--PointPillars [19]63.362.862.150.234.725.355.655.155.945.133.324.3PPBA [23]67.567.069.761.7--59.659.163.055.8--RCD [1]72.071.6----65.164.7----CenterPoint [30]81.080.680.577.374.673.673.473.074.571.572.171.284540LEVEL 1 LEVEL 20方法车辆行人骑车车辆行人骑车0mAP mAPH mAP mAPH mAP mAPH mAP mAPH mAP mAPH mAP mAPH0VISTA-CenterPoint 81.7 81.3 81.4 78.3 74.9 73.9 74.4 74.0 75.5 72.5 72.5 71.60表4. Waymo测试服务器上的3D检测结果0几何相似类别（例如卡车、建筑车辆）的结果证实了我们提出的解耦设计的有效性。为了进一步验证我们提出的VISTA的有效性，我们将所提出的VISTA应用于CenterPoint[30]，并将测试结果提交到Waymo测试服务器。在训练和测试过程中，我们完全按照CenterPoint的规则进行。测试性能如表4所示。VISTA在所有级别的所有类别上都显著提高了CenterPoint的性能，超过了所有已发表的结果。06.3.消融研究0多视角融合中的VISTA如表2所示，为了展示所提出的VISTA的优越性，我们以OHS[6]作为基准（a），在nuScenes数据集的验证集上进行消融研究。如第4.3节所述，如果没有注意力约束，学习到的注意力权重的极端情况将是全局平均池化（GAP）。为了澄清，我们通过GAP手动获取RV特征，并将其添加回所有BEV特征进行融合。这种基于GAP的融合方法（b）将基准的整体mAP性能降至59.2%，表明需要自适应地融合全局空间上的多视角特征。直接采用VISTA进行多视角融合（d）的mAP结果为60.0%。当将卷积注意模块替换为传统的线性模块（c）时，整体mAP下降至58.7%，这反映了聚合局部线索构建跨视图注意力的重要性。在添加了所提出的注意力方差约束后，如（e）所示，性能提升至整体mAP的60.4%。从（d）到（e）行的性能增益表明，通过注意力约束可以很好地引导注意机制，并且正如我们将在第6.4节中分析的那样，注意模块能够关注整个场景的感兴趣区域。然而，共享的注意力建模将在3D目标检测中导致分类和回归任务之间的冲突，前者任务将进一步被后者任务所主导。如（f）所示，在解耦注意力建模之后，整体mAP的性能从60.4%提高到60.8%，进一步验证了我们的假设。不同目标分配中的VISTA所提出的0VISTA是一种即插即用的多视角融合方法，可以通过轻微修改应用于各种最新的高级目标分配策略中。为了证明所提出的VISTA的有效性和泛化能力，我们在CenterPoint[30]、OHS [6]和CBGS[33]上实现了VISTA，这些方法都是最新的先进方法。这些方法代表了基于锚点或无锚点方式的不同主流目标分配方法。我们在nuScenes数据集的验证集上评估了结果，为了验证，所有方法都基于官方代码库提供的低体素化分辨率（即x、y、z轴上的[0.1, 0.1, 0.1]m）配置进行实现。如表3所示，所有三种目标分配方法在整体mAP和NDS得分上都取得了较大的性能提升（mAP和NDS分别约为1.3%和1.4%），这表明所提出的VISTA可以通过双重跨视图注意机制融合普遍高质量的多视角特征。VISTA在实际应用中我们在表2中展示了所提出的VISTA在一块RTX3090GPU上的运行时间。在没有任何修改的情况下，基准（a）每帧运行时间为60ms。在基准中采用卷积注意模块（d）后，运行时间增加到64ms。我们可以从（e）和（f）中观察到，应用所提出的注意力方差约束不会影响推理速度，解耦设计需要5ms，但额外的开销仍然可以忽略不计。在这样的高效率下运行，我们认为所提出的VISTA完全满足实际应用的要求。06.4. VISTA的分析0我们认为，通过提出的注意力约束训练的VISTA可以捕捉BEV和RV之间的全局和局部相关性，从而可以有效地进行多视角融合以进行准确的边界框预测。为了生动地展示注意力方差约束在训练VISTA中的有效性，我们在图3中可视化了带有和不带有注意力方差约束的构建的跨视图相关性。给定包含目标视图（BEV）边界框的区域以查询源视图（RV），我们为上述区域中的每个柱状体获取相应的跨视图注意力权重，并将权重映射回原始点集以进行可视化。我们观察到，没有提出的注意力方差约束，学习到的注意力权重在RV中几乎对每个柱状体都保持较小的值，导致近似的全局平均池化操作。在图3（b）和（d）中，注意力模块关注离查询车辆和行人较远的背景点，并且每个聚焦区域的注意力权重相对较低。相反，使用注意力方差约束训练的注意力模块突出显示与查询相同类别的对象，如图3（a）和（c）所示。特别是对于查询车辆，通过注意力方差约束训练的注意力模块成功地关注到场景中的其他车辆。我们提出的VISTA的另一个关键设计是分类和回归任务的解耦。这两个任务的个体注意力建模缓解了不平衡学习问题，因此检测结果更准确可靠。为了展示我们设计的重要性，我们在图4中展示了解耦前后的检测结果。每一行代表一个场景，左列显示解耦结果，另一列显示未解耦结果。如图4（b）和（d）所示，没有解耦设计的3D检测器很容易将具有相似几何特性的对象A误认为其他B，我们将这种现象称为A-to-B，例如巴士（紫色）-卡车（黄色），巴士（紫色）-拖车（红色），自行车（白色）-摩托车（橙色），证明了分类和回归任务的不平衡训练。此外，与左列相比，混淆的预测并不准确。相反，使用我们提出的解耦设计的VISTA成功区分了对象的类别，并预测了紧密的边界框，如图4（a）和（c）所示，证明了提出的解耦设计的有效性。0https://github.com/poodarchu/Det3Dhttps://github.com/tianweiy/CenterPoint84550(b) (a)0(c) (d)0图3.VISTA学习到的注意力图的可视化，包括使用((a)和(c))和不使用((b)和(d))注意力方差约束。每一行代表一个采样场景。红色表示查询边界框。点的颜色越亮，表示点的注意力权重越高。0我们根据目标视图（BEV）到查询源视图（RV）的边界框所在区域获取相应的跨视图注意力权重，并将权重映射回原始点集以进行可视化。我们观察到，没有提出的注意力方差约束，学习到的注意力权重在RV中几乎对每个柱状体都保持较小的值，导致近似的全局平均池化操作。在图3（b）和（d）中，注意力模块关注离查询车辆和行人较远的背景点，并且每个聚焦区域的注意力权重相对较低。相反，使用注意力方差约束训练的注意力模块突出显示与查询相同类别的对象，如图3（a）和（c）所示。特别是对于查询车辆，通过注意力方差约束训练的注意力模块成功地关注到场景中的其他车辆。我们提出的VISTA的另一个关键设计是分类和回归任务的解耦。这两个任务的个体注意力建模缓解了不平衡学习问题，因此检测结果更准确可靠。为了展示我们设计的重要性，我们在图4中展示了解耦前后的检测结果。每一行代表一个场景，左列显示解耦结果，另一列显示未解耦结果。如图4（b）和（d）所示，没有解耦设计的3D检测器很容易将具有相似几何特性的对象A误认为其他B，我们将这种现象称为A-to-B，例如巴士（紫色）-卡车（黄色），巴士（紫色）-拖车（红色），自行车（白色）-摩托车（橙色），证明了分类和回归任务的不平衡训练。此外，与左列相比，混淆的预测并不准确。相反，使用我们提出的解耦设计的VISTA成功区分了对象的类别，并预测了紧密的边界框，如图4（a）和（c）所示，证明了提出的解耦设计的有效性。0(a) (b)0(c) (d)0图4.使用解耦设计学习的检测结果的可视化。每一行代表一个样本场景。浅色表示地面真实边界框，深色表示正确的预测结果，不同颜色表示错误的预测。0如图4（a）和（c）所示，我们的VISTA成功区分了对象的类别，并预测了紧密的边界框，证明了提出的解耦设计的有效性。07. 讨论0更广泛的影响3D物体检测对于自动驾驶至关重要。我们提出的VISTA可以精确全面地识别感兴趣的对象，以确保自动驾驶的安全。然而，技术的误用将使一些恶意人员或团队侵入和攻击这个感知部分。因此，我们鼓励未来的研究减轻这些风险，使激光雷达传感器更加稳健和优化。局限性我们通过跨视图注意力机制实现了多视图融合的VISTA。注意力机制需要大量的数据进行训练，如果数据不足，可能表现不佳。结论在本文中，我们提出了VISTA，一种用于准确的3D物体检测的即插即用的多视图融合策略。为了使VISTA能够关注特定的目标而不是通用的点，我们提出了约束学习到的注意力权重的方差。我们解耦了分类和回归任务以处理不平衡训练问题。我们提出的即插即用的VISTA能够为提案的预测产生高质量的融合特征，并可以与各种目标分配方法配合使用。在nuScenes和Waymo数据集上的基准测试证明了我们提出的方法的有效性和泛化能力。致谢本工作得到了中国广东省重点研发计划（项目编号：2019B010155001）和广东省引进创新创业团队计划（项目编号：2017ZT07X183）的部分支持。84560参考文献0[1] Alex Bewley, Pei Sun, Thomas Mensink, DragomirAnguelov和Cristian Sminchisescu.基于范围条件的扩张卷积用于尺度不变的3D目标检测.arXiv预印本arXiv:2005.09927，2020年。0[2] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan和Oscar Beijbom. nuscenes:用于自动驾驶的多模态数据集.在计算机视觉和模式识别IEEE会议论文集

下载后可阅读完整内容，剩余1页未读，立即下载