X-Align：跨模态跨视图对齐用于鸟瞰图分割

116 浏览量更新于2023-10-15 收藏 32.36MB PDF 举报

特征融合

自动驾驶

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Shubhankar Borse *Marvin Klingner †Varun Ravi Kumar ‡Hong Cai *Abdulaziz Almuzairee *§Senthil Yogamani ¶Fatih Porikli *{sborse, mklingne, vravikum, hongcai, almuzair, syogaman, fporikli}@qti.qualcomm.com32870X-Align：用于鸟瞰图分割的跨模态跨视图对齐0摘要0鸟瞰图（BEV）网格是自动驾驶中道路组成部分（例如可行驶区域）的典型表示。大多数现有方法仅依赖相机在BEV空间中进行分割，这在根本上受到可靠深度信息的限制。最新的工作利用相机和LiDAR两种模态，但使用简单的串联机制对它们的特征进行次优融合。在本文中，我们通过增强单模态特征的对齐来解决这些问题，以帮助特征融合，并增强相机的透视视图（PV）和BEV表示之间的对齐。我们提出了一种新颖的端到端跨模态和跨视图学习框架X-Align，用于BEV分割，包括以下组件：（i）一种新颖的跨模态特征对齐（X-FA）损失，（ii）一种基于注意力的跨模态特征融合（X-FF）模块，以隐式地对齐多模态BEV特征，以及（iii）一个带有跨视图分割对齐（X-SA）损失的辅助PV分割分支，以改进PV到BEV的转换。我们在两个常用的基准数据集nuScenes和KITTI-360上评估了我们提出的方法。值得注意的是，X-Align在nuScenes上的mIoU绝对值比现有技术提高了3个百分点。我们还进行了大量的消融研究，以证明各个组件的有效性。01. 引言0鸟瞰图（BEV）分割旨在对车辆周围的BEV网格中的每个单元进行分类。因此，它是自动驾驶和机器人等应用的关键因素。例如，BEV分割图是当前行为预测和轨迹规划工作的先决条件[17, 47,54]。它也是学习端到端控制（例如速度控制、转向控制）的重要输入模态。0* 高通技术公司的高通AI研究部门 †高通技术国际有限公司的自动驾驶部门 ‡ 高通技术公司的自动驾驶部门 §加州大学圣地亚哥分校。在高通完成的工作 ¶ QT Technologies IrelandLimited的自动驾驶部门0图1：现有的跨模态BEV分割方法（顶部）利用基于简单串联的融合（例如[33]），而我们提出的X-Align则通过强制跨模态特征对齐以及基于注意力的特征融合，以及跨视图分割对齐（底部）来改进特征聚合和PV到BEV转换，从而实现更准确的BEV分割。0控制、转向）在自动驾驶中的应用[9]。鉴于相机传感器的普及，现有的BEV分割方法主要集中在从相机图像预测BEV分割图[39, 55, 56,64]。然而，缺乏可靠的三维信息显著限制了这些方法的性能。解决这一挑战的一种可能的方法是利用LiDAR传感器，并将测得的稀疏几何信息与相机图像中的信息相结合。虽然相机-LiDAR融合已经在3D物体检测任务中得到了广泛研究，但这种融合策略在BEV分割中相对较少探索。32880BEV分割。[33]的并行工作提供了第一个基线，使用简单的LiDARBEV特征和通过估计深度和体素池化从透视视图（PV）到BEV的相机特征的简单串联。然而，由于深度估计中的误差，PV到BEV的投影可能不准确。因此，在串联阶段，网络可能会聚合相机和LiDAR分支之间对齐不良的特征，导致次优的融合结果。在本文中，我们提出了一种新颖的跨模态、跨视图对齐策略X-Align，它通过强制对来自相机和LiDAR输入提取的特征进行特征对齐以及通过PV和BEV的分割一致性来提高整体BEV分割准确性（参见图1）。首先，我们提出了一种跨模态特征对齐（X-FA）损失函数，通过余弦相似度来促进投影相机特征和LiDAR特征之间的相关性。此外，我们在这两组模态特定特征的跨模态特征融合（X-FF）中引入了注意力，而不是像[33]中那样使用简单的串联。这使得网络能够更好地对齐和聚合来自两种感知模态的特征。我们在训练过程中还引入了跨视图分割对齐（X-SA）损失。我们引入了一个基于中间PV相机特征的可训练分割解码器来生成PV分割。接下来，我们利用相同的PV到BEV转换[39]将PV相机特征转换为BEV，将PV分割图转换为BEV分割图，然后通过地面真值进行监督。我们还使用高质量的现成语义分割模型生成的伪标签来监督中间PV分割图。这样，相机分支学习从中导出包含有用的PV语义特征的中间特征，为在投影到BEV空间后的BEV分割提供更丰富的信息。此外，这还为PV到BEV模块提供了额外的监督，使其能够学习更准确的转换。我们的主要贡献总结如下：0•我们提出了一种新颖的框架X-Align，可以更好地对齐和融合相机和LiDAR模态，并强制执行透视视图和鸟瞰视图的分割对齐。0•具体而言，我们提出了一种跨模态特征对齐（X-FA）损失，以增强相机和LiDAR特征之间的相关性。我们还设计了一种基于注意力的跨模态特征融合（X-FF）。0•我们进一步提出了在透视视图和鸟瞰视图之间强制执行交叉视图分割对齐（X-SA），这鼓励模型学习更丰富的语义特征和更准确的PV-0到BEV投影。0•我们在nuScenes和KITTI-360数据集上进行了大量实验，并进行了全面的消融研究，证明了X-Align的有效性。特别是在nuScenes上，我们的BEV分割优于现有技术3个绝对mIoU点。02. 相关工作0BEV分割：BEV分割任务主要使用（多个）相机图像作为输入进行研究。在透视视图（PV）分割 [ 2 – 4 , 18 , 61 ,62]的基础上，早期的工作使用单应性变换将相机图像转换为BEV，随后估计分割图 [ 13 , 34 , 50 , 65]。由于单应性变换引入了强烈的伪影，后续的工作转向深度估计和体素化 [ 39 , 42 ]进行PV到BEV转换的端到端学习 [35 , 41]。这个基本设置已经在各个方向上进一步探索：VPN [ 38]探索领域自适应，BEVerse [ 63 ]和M 2 BEV [ 55]探索带有3D物体检测的多任务学习，CoBEVT [ 56]探索来自车辆的特征融合，Gosala等人探索全景BEV分割 [15 ]，而其他一些工作则探索时间上下文的融入 [ 17 , 44]。此外，CVT [ 64]使用了学习的地图嵌入和地图查询与相机特征之间的注意力机制。与这些仅使用相机图像的现有BEV分割方法不同，我们探索了LiDAR点云和相机图像的多模态融合。最近引入的大规模数据集提供了来自多个传感器的时间同步数据，使得多模态融合成为BEV分割的可能 [ 5 , 14 , 46]。然而，这些数据集上的大多数工作都集中在3D物体检测任务上 [ 1 , 10 , 24 , 33 , 45 , 59]，而我们专注于BEV分割。与我们的工作最接近的先前工作是BEVFusion [ 33]。虽然他们的方法也基于LiDAR点云和相机图像预测BEV分割，但他们使用简单的特征串联来融合多模态特征，使得网络隐式地连接来自不对齐特征的信息。相反，我们明确强制执行多模态特征之间的对齐。此外，我们强制执行PV和BEV分割之间的对齐，以改进PV到BEV的转换。相机-LiDAR传感器融合：绝大多数融合方法都是针对3D物体检测任务提出的。最初，提出了两阶段方法，将图像边界框提升到3D截锥视图 [ 37 , 40 , 53]以与LiDAR融合。然而，研究重点已转向端到端训练，方法大致可以分为三类：点输入级装饰，特征级融合和提案级融合。点级融合包括PointAugmenting [ 51]，PointPainting [ 49 ]，32890FusionPainting [ 57 ]，AutoAlign [ 8 ]和MVP [ 60]提取相机特征并使用这些特征丰富点级信息，然后由基于LiDAR的检测器处理。最近提出的FocalSparseC-NNs [ 7]在早期特征提取阶段类似地丰富特征。对于提案级融合，通常会对预测的边界框进行细化 [ 27]，通常使用注意机制，例如在FUTR3D [ 6 ]和Trans-Fusion [ 1]中。然而，这两种融合类型在泛化方面存在缺点。虽然提案级融合不容易推广到其他任务，但输入级装饰在其他传感器模态上不具有普遍可扩展性。特征级融合旨在融合来自不同传感器的提取特征，随后为一个或多个任务预测输出 [ 24 –26 , 33 ]。我们的方法也属于这个类别。虽然 [ 26 , 33]使用连接进行融合，但更近期的方法应用了基于注意力的融合 [ 24 , 25]。然而，这些方法仍然试图隐式学习跨模态特征之间的相互连接，而我们明确鼓励来自不同模态的特征之间的对齐。此外，上述方法中没有一种使用基于注意力的跨模态融合来进行BEV分割或PV和BEV分割的输出级分割对齐。03. 提出的X-Align框架0本节介绍了X-Align，我们的新颖的跨模态和跨视图对齐策略。我们首先正式介绍了问题并在第3.1节中描述了一个基线方法。在第3.2节中，我们概述了X-Align的工作原理，并在接下来的几节中详细讨论了它的组成部分，包括跨模态特征融合（X-FF）、跨模态特征对齐（X-FA）和跨视图分割对齐（X-SA）。03.1. 问题定义和基线我们的目标是开发一个以多模态传感器数据X作为输入，并预测一个BEV分割地图ˆm∈SHBEV×WBEV，分辨率为HBEV×WBEV，类别集合为S={0,1,...,|S|}。如图2所示，输入集合X={x,l}包含PV中的RGB摄像头图像x∈RNcam×Hcam×Wcam×3，其中Ncam、Hcam、Wcam分别表示摄像头数量、图像高度和图像宽度，以及LiDAR点云l∈RP×5，其中P表示点的数量。每个点由其三维坐标、反射率和环索引组成。基线方法：我们首先建立了一个基于融合的BEV分割的基线方法，基于BEVFusion[33]。如图2所示，从两个传感器输入中提取初始特征。对于摄像头图像，使用摄像头编码器ECam提取PV中的特征fcam。随后，我们使用特征金字塔网络（FPN）和基于[39]的PV到BEV转换来获得BEV空间中的摄像头特征。0BEV空间，参考了BEVDet[19]的方法。对于LiDAR点云，我们使用SECOND[58]中的体素化和稀疏LiDAR编码器ELiDAR。通过将LiDAR特征投影到BEV空间，使用与[33]中相同的展平操作，得到两组模态特定的BEV特征，˜fcam∈RHlat×Wlat×Ccam和˜fLiDAR∈RHlat×Wlat×CLiDAR，其中BEV特征的分辨率为Hlat×Wlat，通道数为Ccam和CLiDAR。0对于摄像头和LiDAR特征，我们分别进行特征融合（例如，简单的串联，如[16,23,33]所示），得到融合特征˜ffused∈RHlat×Wlat×Cfused，然后使用BEV编码器和FPN进行进一步处理，如SECOND[58]中所述。最后，我们使用与[33]中相同的架构对特征进行分割，以确保可比性。该基线模型使用焦点交叉熵损失[30]进行训练：0LBEV = FocalCE(ˆyBEV, yBEV), (1)0其中ˆyBEV∈RHBEV×WBEV×S是类别概率，yBEV∈{0,1}HBEV×WBEV×S表示独热编码的真实标签。在推断过程中，我们可以通过对ˆy进行逐像素的argmax操作来获得最终的类别ˆm。03.2. X-Align概述在前面描述的基线上，我们提出了一种新颖的跨模态和跨视图对齐策略X-Align（在图2中用红色框标出）。首先，我们通过跨模态特征融合（X-FF）模块改进了简单的串联融合方法，该模块利用注意力机制减轻了不同模态特征之间的不对齐问题（第3.3节）。其次，我们提出了一种跨模态特征对齐（X-FA）损失函数LX-FA，促进了不同模态特征之间的相关性（第3.4节）。最后，我们在第3.5节中提出了用于实现跨视图分割对齐（X-SA）的损失函数，其中我们使用损失函数LPV监督从中间摄像头特征预测的PV分割结果，使用损失函数LPV2BEV监督将该分割结果投影到BEV空间。这两个损失函数为PV到BEV的转换提供了更直接的训练信号，并鼓励在转换之前在PV中提取更丰富的语义特征。总体而言，我们的优化目标是0LX-Align = λ1LBEV + λ2LX-FA + λ3LPV +λ4LPV2BEV，(2)0其中λi，i∈{1,2,3,4}是损失权重因子。0tion can cause inaccurate PV-to-BEV transformation of fea-tures, which subsequently results in suboptimal alignmentand fusion of multi-modal features. The convolution blocksutilized in existing approaches [16, 23, 33] cannot rectifysuch misalignment due to their translation invariance. Toaddress this issue, we propose more powerful, Cross-ModalFeature Fusion (X-FF) modules that can account for pixel-wise misalignment, as shown in Fig. 3. Next, we describein detail our three proposed fusion designs.Self-Attention: Our proposed X-FF using self-attentionis shown in Fig. 3 (left). We first stack features ˜f cam ∈RHlat×W lat×Ccam and ˜f LiDAR ∈ RHlat×W lat×CLiDAR, andtokenize them into K × K patches with an embedding di-mension of Lembed. These patches are fed into a multi-head self-attention module [48]. The output is then pro-jected back to the original resolution using a deconvolu-tion block, resulting in the final fused features ˜f fused ∈RHlat×W lat×Cfused. By using self-attention, our proposedmodule can correspond to the camera and LiDAR featuresspatially, accounting for potential misalignment.Spatial-Channel Attention: In this option, we lever-age the recently proposed Split-Depth Transpose Attention(SDTA) [36], as shown in Fig. 3 (middle). It first performsspatial and channel mixing of the stacked camera and Li-DAR features via depth-wise and point-wise convolutions.Then, it applies channel attention followed by a lightweightMLP. The output is passed through a deconvolution blockto generate the fused features ˜f fused. Spatial and channel32900图2：我们提出的X-Align框架：我们提出了一种基于相机图像和LiDAR点云的BEV分割的跨模态和跨视图对齐算法。我们在训练过程中应用了交叉视图分割对齐（X-SA）和交叉模态特征对齐（X-FA）损失。我们还提出了一个跨模态特征融合（X-FF）模块，用于纠正多模态特征之间的像素不一致性。我们的提出的贡献用红色标出。在推理过程中，我们可以删除仅用于计算损失函数的块，这意味着性能的提升不会增加推理成本。0将通道注意力与混合在一起，为模块提供了强大的能力，以更好地解决相机和LiDAR特征之间的不对齐问题。姿态驱动的可变形卷积：该设计如图3（右）所示。我们知道，模态之间的转换是相对于自车的姿态的函数。因此，我们应用自适应变换，即可变形卷积（DCNv2）[66]，对堆叠的多模态特征˜f cam和˜fLiDAR进行处理，它可以根据可用的姿态信息隐式学习跨模态对齐。具体而言，我们使用MLP处理姿态矩阵，生成姿态嵌入˜f pose ∈ R H lat × W lat × C pose，然后将其与˜fcam和˜fLiDAR连接起来。它们用于生成K×K偏移向量，供DCNv2块使用，该块产生融合后的输出特征˜ffused。我们提出的X-FF设计为网络提供了适当的能力，以正确对齐和融合多模态特征。虽然它们引入了额外的计算量，但与简单地增加基线网络的复杂性相比，它们显示出更优越的准确性和效率的权衡，如我们将在第4.3节中看到的。03.4. 跨模态特征对齐(X-FA)0虽然我们提出的X-FF模块可以改善特征对齐，但它们会增加额外的计算量，这在某些情况下可能并不可行。因此，我们提出了第二种方法来改善特征对齐，即跨模态特征对齐(X-FA)。By introduforce that across PV and BEV, the segmentations are ac-curate and aligned through the PV-to-BEV transformation.This benefit is two-fold: First, the module used here isgiven by the same PV-to-BEV transformation as on the fea-ture level in the main camera branch. Our X-SA loss pro-vides additional supervision to more accurately train thiskey module. Second, imposing a PV segmentation lossPV32910图3：我们提出的三种跨模态特征融合(X-FF)策略，分别使用标准的自注意力(left)、空间-通道注意力(middle)和姿态驱动的可变形卷积(right)。0特征对齐(X-FA)损失L X -FA仅在训练过程中应用，不会引入额外的计算量。它也可以与X-FF一起使用。考虑到BEV空间中从相机和LiDAR分支提取的特征˜f cam和˜fLiDAR，我们通过对它们之间施加余弦相似性损失来促进两组特征之间的相关性：0L X - FA = CosineSim(˜f cam, ˜f LiDAR)0为了应用这个损失，有两个要求。首先，BEV空间中的相机特征˜f cam和LiDAR特征˜fLiDAR需要具有相同的分辨率。在这项工作中，我们确保网络参数相应地选择。如果两个特征具有不同的分辨率，可以使用可微分的网格采样[20]。其次，通道C cam和CLiDAR应该匹配，才能适用于公式(3)。然而，一般情况下并不是这样。因此，我们将所有来自低维分支的特征与来自高维分支的几个子集的特征相似性进行强制约束。03.5.跨视角分割对齐(X-SA)除了鼓励特征对齐外，我们还通过我们的跨模态分割对齐(X-SA)损失在PV和BEV之间在输出分割层面上进行对齐。具体来说，对于相机分支，我们取中间的PV特征，并通过额外的解码器将其转换为PV分割预测ˆy PV∈ R N cam × H cam × W cam×|S|(参见图2，顶部部分)。我们进一步利用与特征相同的PV到BEV变换将ˆyPV转换为BEV空间，得到一个投影的BEV分割图ˆy PV →BEV ∈ R H BEV × W BEV×|S|。通过使用焦点交叉熵损失对投影的BEV分割图进行监督：0L PV2BEV = FocalCE(ˆy PV → BEV, y BEV)0至于PV分割，由于BEV感知数据集上并不总是有PV的真值，我们使用在Cityscapes[12]上预训练的最先进模型生成的伪标签来监督它，具体如下：0L PV = FocalCE(ˆy PV, y PV)0鼓励网络学习有用的PV语义特征，为下游的BEV特征提供更丰富的语义信息。我们的X-SA组件，包括额外的解码器和损失函数，仅在训练过程中使用，不需要在测试时额外的开销。总之，我们完整的X-Align框架提出了四个改进：X-FF特征融合模块以及三个额外的训练损失：L X - FA，L PV和LPV2BEV。在网络只接受相机输入的情况下，我们应用两个X-SA损失，L PV和LPV2BEV，得到X-Align视图变体。此外，如果不允许额外的计算，我们在训练网络时应用所有三个X-Align损失，形成X-Align损失变体。我们在第4.3节中对这些变体以及我们提出的X-Align组件的组合进行了广泛评估。04. 实验0在本节中，我们对X-Align进行了全面的性能评估，并将其与基线和当前最新技术进行了比较。我们还对我们提出的方法的各个方面进行了广泛的消融研究。32920模型骨干模态可行驶区域行人交叉路口步行道停车线停车场分隔线 mIoU0OFT [42] ResNet-18 C 74.0 35.3 45.9 27.5 35.9 33.9 42.1 LSS [39] ResNet-18 C 75.4 38.8 46.3 30.3 39.1 36.5 44.4 CVT [64]EfficientNet-B4 C 74.3 36.8 39.9 25.8 35.0 29.4 40.2 M 2 BEV [55] ResNeXt-101 C 77.2 � � � � 40.5 �0BEVFusion [33] Swin-T C 81.7 54.8 58.4 47.4 50.7 46.4 56.60X-Align视图 Swin-T C 82.4 55.6 59.3 49.6 53.8 47.4 58.00PointPillars [22] VoxelNet L 72.0 43.1 53.1 29.7 27.7 37.5 43.8 CenterPoint [59] VoxelNet L 75.6 48.4 57.5 36.5 31.7 41.9 48.60PointPainting [49] ResNet-101，PointPillars C + L 75.9 48.5 57.1 36.9 34.5 41.9 49.1 MVP [60] ResNet-101，VoxelNet C + L76.1 48.7 57.0 36.9 33.0 42.2 49.0 BEVFusion [33] Swin-T，VoxelNet C + L 85.5 60.5 67.6 52.0 57.0 53.7 62.70X-Align损失 Swin-T，VoxelNet C + L 85.8 63.1 68.6 53.6 57.9 56.7 64.30X-Align全部 Swin-T，VoxelNet C + L 86.8 65.2 70.0 58.3 57.1 58.2 65.70表1：在nuScenes验证集上的定量评估，以单类IoU和整体mIoU为指标。我们与文献中的现有方法进行了比较，其中的数字取自[33]，因为他们复现的结果比原始论文中的结果更好，原因是训练类别更多。我们还在表中提供了关于骨干和输入模态的信息。我们提出的X-Align在单类IoU和整体mIoU上都显著优于所有现有方法。0模型编码器模态 mIoU PQ0PanopticBEV [15] EffDet-D3 C 25.4 16.00X-Align视图 EffDet-D3 C 27.8 16.90表2：在KITTI-360上的定量评估，以mIoU和PQ为指标，使用仅相机的模态。04.1. 实验设置0数据集：我们在大规模的nuScenes基准测试[5]上评估性能，该基准测试提供了支持BEV分割的地面真值注释。它包含由32束激光雷达扫描仪捕获的40,000个带注释的关键帧和提供360°视野的六个单目相机。根据[33]中的BEV地图分割设置，我们预测六个语义类别：可行驶车道、人行横道、人行道、停车线、停车场和车道分隔线。我们还在KITTI-360[28]上进行评估，这是一个包含83,000个带注释帧的大规模数据集，包括使用两个鱼眼相机和一个透视立体相机收集的数据。KITTI-360不提供BEV分割的密集地面真值注释。因此，我们使用[15]中的BEV分割注释作为地面真值。这些注释包含静态类别，如道路和人行道，以及动态物体，如汽车和卡车。评估指标：对于BEV地图分割，我们的主要评估指标是平均交并比（mIoU）。由于某些类别可能重叠，我们将二进制分割分别应用于每个类别，并选择不同阈值下的最高IoU。然后，我们取所有语义类别的平均值得到mIoU。这个评估协议是在[33]中提出的。在评估全景BEV分割时，我们还使用KITTI-360上的全景质量（PQ）[21]。网络架构和训练：对于评估0在nuScenes中，我们在BEVFusion[33]的基础上构建，并在mmdetection3d[11]中训练我们的网络。在相机分支中，图像被降采样为256×704，然后进入在ImageNet [43]上预训练的Swin-T[31]或ConvNeXt[32]骨干网络。提取的特征被送入多个FPN[29]层，然后通过基于LSS[39]的PV-to-BEV转换映射到BEV空间。在LiDAR分支中，我们使用0.1m的网格大小对点云进行体素化，并使用稀疏卷积骨干网络[58]提取特征，然后将其展平到BEV空间。给定BEV空间中的相机和LiDAR特征，我们利用第3.3节中提出的X-FF机制进行融合。我们在主要结果中使用自注意力模块，提供最佳的准确性-计算效率平衡（见图4）。融合的特征被送入类似于SECOND[58]中的BEV编码器和FPN层，然后进入像BEVFusion[33]中的分割头。由于nuScenes不提供地面真值PV分割标签，我们利用在Cityscapes上预训练的SOTA模型生成伪标签来监督我们在X-SA中的PV分割。具体来说，我们使用了一个使用InverseForm [4]训练的HRNet-w48[52]。在KITTI-360上，我们将仅使用相机的PanopticBEV[15]作为基线，使用作者发布的代码和超参数进行重新训练。然后，我们在这个基线上加入我们提出的两个X-SA损失，以在KITTI-360上生成X-Align视图结果。所有实验的其他超参数和训练细节可以在附录中找到。0✓✗✗✗85.762.868.452.456.556.163.7364.35.1✗✓✗✗85.662.368.251.656.455.963.4364.35.1✗✗✗✓86.864.369.554.559.557.665.3367.45.0✗✓✗✓86.865.169.860.056.558.265.4367.45.0✓✗✓✓86.865.070.055.957.058.165.5367.45.032930模型 PV X-FA PV2BEV X-FF 可行驶区域行人跨越人行道停车线停车场分隔线 mIoU GFlops fps0基准 � � � � 85.5 60.5 67.6 52.0 57.0 53.7 62.7 364.3 5.10X-Align视图 � � � � 85.8 63.1 68.6 53.2 57.7 56.4 64.1 364.3 5.10X-Align损失 � � � � 85.8 63.1 68.6 53.6 57.9 56.7 64.3 364.3 5.10X-Align全部 � � � � 86.8 65.2 70.0 58.3 57.1 58.2 65.7 367.4 5.00表3：对提出的X-Align组件进行消融研究。在上部分，我们展示了我们提出的损失的效果，即交叉模态特征对齐（X-FA）损失和交叉视图分割对齐（X-SA）由PV和PV2BEV分割损失组成。在下部分，我们进一步展示了我们的交叉模态特征融合（X-FF）所带来的改进。050m，50m] ×[-50m，50m]围绕自车进行标准评估程序在nuScenes上报告分割结果[25，33，39，55，64]。我们将我们的完整方法X-Align与现有的BEV分割方法进行比较，并发现X-Align明显优于它们。具体来说，X-Align在nuScenesBEV分割上实现了新的记录mIoU达到65.7％，并在所有类别上持续改进，这要归功于提出的新颖的交叉模态和交叉视图对齐策略。我们使用图3中的自注意力块作为我们首选的X-FF策略，因为它在图4中提供了最佳的权衡。对于这种策略，计算开销（0.8％）和延迟增加（2％）都很小，如表1所示。我们进一步展示了X-Align的性能，但在推理过程中没有使用更先进的融合模块，即X-Align损失，在表1的倒数第二行。即使在没有引入额外的计算复杂性的情况下，X-Align仍然明显优于现有方法。01基准分数是通过使用作者在https://github.com/robot-learning-freiburg/PanopticBEV上的代码训练PanopticBEV获得的。0图4：准确性-计算分析：我们将我们提出的交叉模态特征融合（X-FF）设计与现有方法[23，33]中简单扩展融合机制进行准确性和计算复杂性方面的比较。0在nuScenes和KITTI-360上都展示了我们提出的X-FF、X-FA和X-SA组件的有效性。04.3. 消融研究我们对不同的X-Align组件进行了消融研究，并在表3中总结了我们的结果。我们使用不同组合的我们提出的新型损失函数进行模型变体的评估，包括跨模态特征对齐（X-FA）损失和我们的跨视图分割对齐（X-SA），包括我们的PV和PV2BEV损失。此外，我们还研究了我们的跨模态特征融合（X-FF）的影响。我们的X-Align视图变体，在利用PV和PV2BEV损失时，将mIoU从62.7%提高到64.1%，相对于基准模型有1个百分点的mIoU改进。当使用X-FA损失时，我们将基准mIoU从62.7%提高到63.4%。最后，将所有损失都加在一起，我们的X-Align损失变体将mIoU得分提升到64.3%，显著超过基准的mIoU。值得注意的是，这些改进依赖于新的训练损失，在推理过程中没有计算开销。接下来，我们研究了X-FF模块的影响。在没有任何新的损失的情况下，X-FF相对于基准实现了2.6个百分点的mIoU改进（计算略微增加，参见表3和图4）。这表明简单的串联是基准的一个关键限制，它无法正确地融合相机和LiDAR特征。最后，将我们所有的新型损失函数与X-FF模块一起使用，我们得到了完整的X-Alignall模型，其mIoU达到了65.7%，显著高于基准的62.7%mIoU。我们广泛的消融研究结果表明，X-Align中的每个提出的组件对于改进SOTA BEV分割性能都有意义的贡献。4.5. Qualitative ResultsIn Fig. 5, we present qualitative results on a sample testscene from nuScenes, showing both LiDAR and camera in-32940图5：nuScenes上的定性结果。我们展示了来自nuScenes的一个样本场景：a）六个相机输入，b）LiDAR扫描，c）地面真值BEV分割图，d）基准BEV分割，e）使用X-Align视图的BEV分割，和d）BEV分割X-Alignall。我们观察到基准模型的预测在绿色区域中高度错误。我们在输入视图中也突出显示了这个感兴趣的区域。通过使用两个X-SA损失，X-Align视图已经可以纠正基准预测中的重大错误，而X-Align all模型进一步提高了准确性。04.5. 定性结果在图5中，我们展示了来自nuScenes的一个样本测试场景的定性结果，显示了LiDAR和相机的信息。04.4. 准确性-计算分析在图4中，我们通过使用不同的X-FF融合策略（包括自注意力、空间通道注意力和姿态驱动的可变形卷积（DCNv2））报告了准确性-计算的权衡。可以看到，使用空间通道注意力时，我们在更高的计算成本下实现了最高的准确性改进，而姿态驱动的DCNv2引入了最少的额外成本但提供了较少的性能增益。另一方面，使用自注意力提供了性能和复杂性之间的最佳权衡。我们进一步通过简单地增加基准融合的复杂性，例如通过在卷积块中添加更多的层和通道，来进行比较，蓝色曲线表示。可以看到，基准的性能饱和，而我们所有提出的融合方法相对于基准都实现了更好的权衡。这再次验证了使用简单的串联和卷积的基准融合不能为模型对齐和聚合多模态特征提供合适的容量。0puts。我们比较了不同模型的BEV分割图，包括基准模型、X-Align视图（仅使用两个X-SA损失）和完整的X-Align，即X-Alignall。在这个场景中，由于PV到BEV转换不准确，基准模型错误地将NW图像中的建筑物预测为BEV分割输出中的道路的一部分，参见图5（d）。由于建筑物在LiDAR扫描中没有被捕捉到（参见图5（b）），因此LiDAR分支也无法在融合中纠正相机投影。然而，通过利用我们的跨视图分割对齐（X-SA），这种错误的投影可以在很大程度上被纠正，如图5（e）所示。当我们应用我们提出的对齐和融合方案X-FA和X-FF时，这个错误的残留就被完全消除了，从而实现了从相机获取的视觉信息和从LiDAR获取的几何信息的正确融合。我们可以看到在图5（f）中，我们的完整的X-Align模型可以准确地预测BEV分割图。更多视觉示例请参见附录。05. 结论在本文中，我们提出了一种新颖的框架X-Align，用于解决BEV分割中的跨视图和跨模态对齐问题。它增强了单模态特征的对齐，以帮助特征融合，并增强了透视图和鸟瞰图之间的对齐。我们的实验证明，X-Align在nuScenes和KITTI-360数据集上提高了性能，特别是在nuScenes上超过了先前的SOTA3个mIoU点。我们还通过广泛的消融研究验证了X-Align组件的有效性。作为未来工作的一部分，我们相信X-Align可以进一步改善其他多模态感知任务。32950参考文献0[1] Xuyang Bai，Zeyu Hu，Xinge Zhu，QingqiuHuang，Yilun Chen，Hongbo Fu和Chiew-LanTai。Transfusion：用于3D物体检测的稳健的激光雷达-相机融合。在CVPR的论文集中，页码为1090–1099，2022年。2，30[2] Shubhankar Borse，Hong Cai，Yizhe Zhang和FatihPorikli。Hs3：在分层监督语义分割中学习适当的任务复杂性。2021年。20[3] Shubhankar Borse，Hyojin Park，Hong Cai，DebasmitDas，Risheek Garrepalli和FatihPorikli。全景、实例和语义关系：一种关系上下文编码器以增强全景分割。在

下载后可阅读完整内容，剩余1页未读，立即下载