CAT-Det:多模态3D物体检测的增强对比变换器

56 浏览量更新于2023-10-25 收藏 13.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9080CAT-Det: 增强对比变换器用于多模态3D物体检测0Yanan Zhang 1,2 , Jiaxin Chen 2 , Di Huang 1,2*01 软件开发环境国家重点实验室，北京航空航天大学，中国北京 2计算机科学与工程学院，北京航空航天大学，中国北京0{ zhangyanan, jiaxinchen, dhuang } @buaa.edu.cn0摘要0在自动驾驶中，LiDAR点云和RGB图像是两种具有互补线索的主要数据模态，用于3D物体检测。然而，由于大的模态间差异，很难充分利用它们。为了解决这个问题，我们提出了一种新的框架，即增强对比变换器用于多模态3D物体检测（CAT-Det）。具体而言，CAT-Det采用了一个由Point-former（PT）分支、Imageformer（IT）分支和Cross-ModalTransformer（CMT）模块组成的双流结构。PT、IT和CMT共同编码了物体的模态内和模态间的长程上下文，从而充分利用了多模态信息进行检测。此外，我们提出了一种有效的单向多模态数据增强（OMDA）方法，通过层次对比学习在点云和物体级别上，仅通过增强点云显著提高了准确性，而无需生成两种模态的配对样本。在KITTI基准测试上进行了大量实验证明，CAT-Det实现了新的最先进水平，凸显了其有效性。01. 引言03D物体检测是自动驾驶感知系统中的基本步骤。它主要处理由LiDAR传感器获取的3D点云，并提供重要的空间线索，包括位置、方向和物体大小。尽管记录了真实和准确的几何信息，但点云的分布是无序、不规则和稀疏的，使得3D物体检测成为一项具有挑战性的任务。过去几年中，3D物体检测取得了快速发展。文献中介绍了大量的方法，根据检测特征学习中的输入形式，这些方法大致可以分为0*表示对应作者。0图1. CAT-Det中融合过程的示意图。(A)：点云模态中由于远距离处的点较少而导致的失败案例。(A')：图像模态中对应的案例。尽管PT分支中的特征通过PT分支中的(B)和(C)的增强，但这通常是不足够的。通过CMT模块，(A)的特征通过IT分支中的(A')的特征进一步增强，该特征还整合了IT分支中(D')和(F')的贡献，最终实现了准确的检测。0将点云分为基于网格和基于点的两种方法。前者通过将点云投影到特定视图的图像上[11,22]或将其细分为空间中的体素[19, 43, 50,60]，然后进一步使用2D或3D卷积神经网络（CNN）对几何线索进行编码。后者直接采用原始点云，并应用点云深度学习网络，例如PointNet [34]/PointNet++[35]或图神经网络，例如DGCNN[45]，以捕捉形状结构[38, 40, 51,56]。最近，一些尝试[15, 37,52]通过将基于点和基于网格的网络集成为混合表示来提供更强大的模型，并报告了更好的结果。为了提高3D物体检测的性能，另一种9090策略针对多模态解决方案，利用了3D点云和2D图像。尽管图像作为独立模态在这个问题上尚未证明出色，如[2, 5, 21,30]中的较差基线所证明的那样，但点云和图像中传达的几何和纹理线索的组合确实可以提高准确性，因为它们具有自然的互补性[7, 18, 33, 41, 53]。F-PointNet[33]和F-ConvNet[46]按顺序执行融合，首先基于标准的2DCNN检测器在准备好的2D区域上裁剪出3D视锥提议，然后使用类似PointNet的块对提议中的每个点进行分割和筛选以进行回归。相比之下，更多的研究并行地完成这个任务。例如，[41,48]通过将3D坐标与点级2D分割特征相结合来进行数据级融合；[7, 17, 18, 22,23]通过简单的连接或特定模块实现了来自各自网络的2D和3D表示的特征级融合；[32]实现了盒级融合，它以学习的方式合并了一对2D和3D检测器的各自候选集。与仅使用LiDAR的方法不断更新更复杂设计的模型和更合适的训练方案以适应单一点云模态不同，多模态的替代方案致力于利用更多的多样信息并提供巨大的潜力。然而，正如KITTI[12]排行榜显示的那样，多模态方法与顶级的仅使用LiDAR的方法之间仍然存在一定差距[59]。0这种差距是由三个方面造成的。（1）在多模态3D物体检测中，PointNet++[35]、3D稀疏卷积[50]和2DCNN是提取点云和图像特征的主要构建模块。由于它们的局部感受野的限制，无法全面地从两种模态中获取上下文信息，导致信息丢失。（2）广泛采用的融合方案，特别是特征级别的融合方案，如直接拼接[7，18]、附加卷积[22，23]和简单注意力[17，53]，对不同特征没有分配权重或在有限的感受野内学习粗糙的权重，关键线索没有得到很好的突出。（3）地面真值数据增强[50]是促进仅基于激光雷达的方法的常见做法；不幸的是，将这种机制应用于多模态方法并不那么直接，因为单一模态的增强往往会导致语义不对齐。[42]确实提出了一种用于配对数据的跨模态增强技术，但图像上的过程繁琐且容易产生噪音。0为了解决上述问题，本文提出了一种新颖的多模态3D物体检测框架，即对比增强变换检测器（CAT-Det）。它采用了两流结构，包括一个Pointformer（PT）分支、一个Imageformer（IT）分支和一个跨模态Transformer（CMT）0模块。与PointNet++和CNN不同，PT和IT分支都具有大的感受野，能够分别在点云和图像中捕捉丰富的全局上下文信息，以增强难样本的特征。随后，CMT模块进行跨模态特征交互和多模态特征组合，其中在两种模态中提取的关键线索通过整体学习的细粒度权重得到充分强调。PT、IT和CMT的整合完全编码了模态内部和模态间的长程依赖关系，从而提高了检测性能。此外，我们提出了一种单向多模态数据增强（OMDA）方法，通过分层对比学习，在仅对点云模态进行处理的情况下实现了有效的增强。总之，本文的主要贡献有：（1）我们提出了一种新颖的CAT-Det框架，用于多模态3D物体检测，包括一个Pointformer分支、一个Imageformer分支和一个跨模态Transformer模块。据我们所知，这是首次将Transformer结构应用于该任务。（2）我们提出了一种用于多模态3D物体检测的单向数据增强方法，通过分层对比学习，仅通过增强点云显著提高了准确性，因此无需生成两种模态的配对样本。（3）与已发表的方法相比，我们在KITTI测试集上实现了三个类别的新的最先进的mAP，并展示了它在检测难物体方面的优势。02. 相关工作0基于图像的3D物体检测器。一些方法[2，05，6]通过穷举采样和评分3D提议来执行2D/3D匹配作为代表性模板。许多方法[8，20，21，30]直接从准确的2D边界框开始，通过经验观察获得的几何属性粗略估计3D姿态。另一种方法是首先进行深度估计，然后采用现有的基于点云的方法[1，44，54]。尽管2D物体检测取得了显著的进展，但图像并不被视为预测3D物体的良好单一模态。由于缺乏深度信息，单目图像方法的精度较低。立体图像方法能够恢复深度信息，但通常粗糙且带有额外的噪音。基于点云的3D物体检测器。一些方法通过将点云投影到平面[11，22]或细分为体素[19，43，50，60]来将点云转换为规则网格，以便通过2D或3DCNN进行特征学习。更多的方法将原始的无序和不规则数据作为输入，并应用点云深度学习网络，如PointNet[34]和PonintNet++[35]，来编码结构特征[38，51]和一些方法[40，56]9100图2. 框架概述. 整个框架由三个主要模块组成: (1) 双流Pointformer和Imageformer (TPI), (2) 跨模态Transformer (CMT), 和 (3)单向多模态数据增强 (OMDA). TPI从两种模态中构建了内部长程上下文特征表示，CMT在多个层次上执行跨模态特征交互和聚合.此外，OMDA通过分层对比学习实现简洁而有效的数据增强.0在这一步中尝试图形神经网络. 最近的方法 [15, 37, 52]也利用基于点和基于体素的网络从点云的不同表示中提取特征. 最近，一系列基于点变换器的方法 [13, 26, 28, 29, 31,36] 出现，以捕捉全局上下文的特性. 多模态3D目标检测器.MV3D [7] 和 AVOD [18]将LiDAR投影和RGB图像作为输入，并融合基于区域的特征进行预测. F-PointNet [33] 和 F-ConvNet [46]首先利用2DCNN目标检测器从图像中提取2D区域，然后将2D区域坐标转换到3D空间中裁剪截锥体提议，并通过类似于PointNet的块对截锥体内的兴趣点进行回归定位. PointPainting [41]和 PI-RCNN [48]则利用语义网络进行每像素分类，并将相关分割分数作为图像的紧凑特征附加到LiDAR点上，通过将它们投影到分割掩码中. CLOCs [32]直接使用预训练的2D和3D检测器进行后期融合，使不同模态中的提议相互连接而不集成特征. 最近的研究 [17, 22, 23,53]将模态在特征空间中组合，以获得多模态表示，然后将其输入到监督学习器中.尽管有许多努力，据我们所知，我们是第一个研究多模态Transformer网络用于此任务的人.03. 提出的方法03.1. 框架概述0如图2所示，CAT-Det基本上采用了一个由Pointformer(PT)分支组成的双流结构0并且通过探索长程内部模态上下文，分别学习LiDAR点云和RGB图像的表示.为了补充每个单一模态中的学习，采用了跨模态Transformer(CMT)模块来执行跨模态特征交互，随后使用全面学习的细粒度权重进行多模态特征聚合.PT、IT和CMT的组合构成了一个新颖的Transformer骨干.同时，开发了一种单向多模态数据增强(OMDA)方法，通过分层对比学习在点级和对象级上实现高效的数据增强，进一步促进了用于多模态3D目标检测的强大深度Transformer网络的训练.03.2. 双流多模态Transformer0现有的多模态3D目标检测器 [17, 53]大多采用PointNet++/稀疏3DCNN来进行点云和图像的表示学习.它们大多受到有限的感受野的限制，因此无法充分探索全局上下文信息，这对于检测困难样本（例如小物体）非常重要.最近的工作 [9, 10]已经证明了Transformer在建模长程依赖性方面的有效性.尽管Transformer的使用越来越普遍，但它在多模态3D目标检测中的结构尚未得到研究.这激发了我们首次尝试开发一个深度多模态Transformer骨干，以捕捉更丰富的全局上下文用于3D目标检测.为此，我们提出了一种新颖的多模态Transformer网络，由两个流的PT和IT分支通过多个CMT连接而成，如图2所示.给定一个φ-ψδαγφ-ψδαγMPCMPci𝑩𝑐𝑖𝑟δαγConcatenationAdditionCDot productBall Querypj∈BrciLNLNBasic Transformercloud locally, unable to present the holistic context infor-mation. Therefore, we additionally employ a global trans-former layer, which has a similar transformer structure asthe local one, but takes all points C as input, instead of alocal subset Brci. The features generated by the local andglobal transformer layer are concatenated to integrate bothlocal and global contexts.Similar to PointNet++, we adopt a Feature Propagation(FP) layer after stacked PTBs for up-sampling.Imageformer. Vision Transformer (ViT) [10] is the ﬁrstwork that adopts the transformer network in the visual do-main, which employs the self-attention mechanism to buildholistic dependencies among visual tokens. Since raw im-age patches are taken as tokens, it fails to encode local vi-sual spatial information. Some recent studies [47, 55] han-dle this problem by adding a few convolutional layers be-fore the transformer layer, which is used as the basic trans-former in our work. To align with Pointformer, we adoptsimilar structures by stacking several Image TransformerBlocks (ITB) as shown in Fig. 4. Each ITB consists oftwo convolutional layers for local visual context encoding,and a successive basic multi-head transformer encoder [10]for global context information exploration. Finally, ITB re-shapes the transformed vector sequence into a 2D featuremap for further processing. Following the stacked ITBs, anup-sampling (UP) layer is employed to recover the imageresolution, generating feature maps with the same size asthe original image.Cross-Modal Transformer. PTB and ITB extensivelyexplore contexts in the point-cloud P and the image I, re-spectively. However, as in Fig. 1, the context in a singlemodality is probably incomplete due to noise, which can becomplemented by that conveyed in the other modality. Thismotivates us to propose a module between PTB and ITB,to perform cross-modal information interaction and multi-modal feature aggregation.Suppose the features from PTB and ITB are FP and FIrespectively, where FP are representations of a set of down-sampled points ˆP ⊂ P . For each point p ∈ P , we project itto the corresponding pixel coordinate p′I in I by a functionfproj(·). For instance, in KITTI, fproj(·) is formulated as:9110BT0BT0MP0局部Transformer层0φ-ψ0δ0α0γ0BT0�0BT0全局Transformer层0�0图3. PointTransformer块。通过局部和全局的组合，它捕捉了相邻区域和整个场景的依赖关系，从而促进了3D目标检测的特征学习。BT：基本Transformer；MP：最大池化。0配对的多模态输入 { P , I } ，PT(∙)和IT(∙)分别学习点云 P = {p 1 , p 2 , ∙ ∙ ∙ , p N } ∈ R N × 3 和图像 I的表示。CMT在不同层级上执行跨模态交互和多模态聚合。Pointformer。尽管最近有一些尝试研究了用于点云的Transformer[14,57]，但其中大多数是专门设计用于分类的，只采用了局部Transformer结构。然而，全局上下文信息对于3D检测至关重要，局部Transformer无法完全记录。为了解决这个问题，我们提出了一种新的Pointformer，由多个堆叠的PointTransformer块（PTB）组成。如图3所示，PTB由一个局部Transformer层和一个全局Transformer层组成。局部层探索邻域内点的几何结构，全局层在场景级别编码整体上下文。通过将它们结合起来，PTB从附近局部区域的点以及整个场景中捕捉上下文信息。具体而言，局部Transformer层首先对输入点云P进行最远点采样，选择子集C = { c 1 , c 2 , ∙∙ ∙ , c N ′ } � P。然后，我们通过以每个点c i 为中心，在以c i为中心、半径为r的球内选择K个点B r c i进行球查询操作。子集B r c i进一步分组并输入基本Transformer块BT(∙)进行局部信息聚合，该块采用了[57]中启发的基于自注意力的结构。给定输入B r c i，输出y i = BT(B r c i)的公式如下：0y i = �0ρ ( γ ( ϕ ( p i ) − ψ ( p j ) + δ )) ⊙ ( α ( p j )+ δ ) , (1)0conv3x30MHSA0MLP0图4. 图像变换器块，它是卷积层和Transformer的组合。0p' I = f proj(p) = C rect ∙ R rect ∙ T cam ← LiDAR ∙ p，(2)0其中T cam ← LiDAR是从LiDAR到相机的变换矩阵。VPKPQPQIKIVISoftmaxSoftmaxC9120图像特征0融合特征0点特征0图5.跨模态Transformer。通过交叉Transformer自适应地学习不同模态的权重，实现互补特征增强。0LiDAR到相机的坐标，R rect和Crect分别是相机的校正旋转和校准矩阵。基于fproj(∙)，我们将3D坐标ˆP转换为2D像素ˆP' I = fproj(ˆP)，根据ˆP' I的位置从F I中选择特征，并获取与FP空间对齐的子集F' I。换句话说，F P和F'I分别是ˆP的点特征和图像特征。随后，CMT将FP投影到查询Q P = F P ∙ W Q，键K P = F P ∙ W K和值V P= F P ∙ W V，其中W Q，W K和WV是可学习的线性映射。类似地，图像特征F' I被投影到QI，K I和V I。通过注意力权重A P ← I = Softmax(Q I K TP)从图像模态中探索上下文，并通过F cont P = A P ← I ⊙V P将其编码为点特征。类似地，可以通过F cont I =Softmax(Q P K T I) ⊙ VI从点模态中探索上下文并将其编码为图像特征。原始的多模态特征F P / F I和具有跨模态交互的特征F cont P / F contI通过F P := F P ⊕ F I ⊕ F cont P ⊕ F contI作为新的点特征进行聚合，其中⊕表示连接。03.3. 单向多模态数据增强0数据增强已被证明对目标检测有效，但通常仅应用于单一模态，并且很少考虑多模态场景。由于点云和图像之间的异质性，跨模态增强操作通常很难同步，导致严重的跨模态不对齐。最近，[42]提出了一种复杂的方法来生成配对数据，但图像上的流程繁琐且容易产生噪声。相反，我们提出了一种新颖的单向多模态数据增强（OMDA）方法，它仅对点云进行增强，并通过对比学习高效地扩展到多个模态。OMDA背后的基本思想是双重的：（1）高质量的图像增强通常比点云更复杂和困难，因此预期仅增强LiDAR数据，然后进行轻量级的多模态扩展。（2）单向增强（如（1）中所述）可能会导致严重的跨模态不对齐。受到自监督模型[4，16]和跨模态语义对齐[24，25]中对比学习的最近成功启发，我们精心设计了一种对比学习方案来解决跨模态的不对齐问题。具体而言，OMDA采用了广泛用于仅LiDAR方法的GT-Paste[50]来通过将来自其他LiDAR帧的额外3D对象粘贴到给定的点云中来增强点云，而不会发生空间碰撞。由于缺少与增强的点云对应的图像，会发生跨模态数据不对齐，可能会恶化多模态交互（例如CMT），而CMT隐含地假设点云/图像对齐良好。因此，我们以分层方式在点级别和对象级别上对原始点云P、对应的图像I和增强的点云P aug进行对比学习。点级别对比增强。为了保留原始数据对的监督，我们首先从（P，I）中构建跨模态正/负点对进行对比学习。给定点p ∈ P，我们通过p' I = f proj(p)获取其对应的2D像素坐标p'I，如公式（2）所示。由于P和I对齐良好，（p，p'I）表示相同对象的3D/2D位置，因此自然形成正对。为了构建负对，我们从p中选择属于不同对象类的3D点N p � P，例如，具有置信度分数（由分割头预测）小于阈值t的点。负对被选择为{(p，q'I) | q' I ∈ N' p，I}，其中N' p，I是N p的2D坐标集，即N' p，I = f proj(Np)。然后，我们根据图6中的方法从增强的点云P aug 和未配对的图像I构建正/负点对。假设p aug∈ P aug 是来自粘贴的虚拟对象O vir 的一个点。由于GP-paste在将O vir粘贴到P时避免了与现有对象的空间重叠，因此在I中的位置f proj(paug)上没有对象。这意味着（p aug，f proj(paug)）肯定是未配对的，因此形成一个负对。为了收集与p aug相关的正对，我们选择最有可能属于与p aug 相同类的3D点ˆp ∈P，例如，具有最高置信度的点。0对象级别点级别0MB MB P0I I0MB：内存库：正对：负对0: 原始点和框 : 增强点和框0图6. 对比学习的正/负对选择。0如（1）所述可能会导致严重的跨模态不对齐。受到对比学习在自监督模型[4，16]和跨模态语义对齐[24，25]中的最近成功启发，我们精心设计了一种对比学习方案来解决跨模态的不对齐问题。具体而言，OMDA采用了广泛用于仅LiDAR方法的GT-Paste[50]来通过将来自其他LiDAR帧的额外3D对象粘贴到给定的点云中来增强点云，而不会发生空间碰撞。由于缺少与增强的点云对应的图像，会发生跨模态数据不对齐，可能会恶化多模态交互（例如CMT），而CMT隐含地假设点云/图像对齐良好。因此，我们以分层方式在点级别和对象级别上对原始点云P、对应的图像I和增强的点云P aug进行对比学习。点级别对比增强。为了保留原始数据对的监督，我们首先从（P，I）中构建跨模态正/负点对进行对比学习。给定点p ∈ P，我们通过p' I = fproj(p)获取其对应的2D像素坐标p'I，如公式（2）所示。由于P和I对齐良好，（p，p'I）表示相同对象的3D/2D位置，因此自然形成正对。为了构建负对，我们从p中选择属于不同对象类的3D点N p �P，例如，具有置信度分数（由分割头预测）小于阈值t的点。负对被选择为{(p，q' I) | q' I ∈ N' p，I}，其中N'p，I是N p的2D坐标集，即N' p，I = f proj(Np)。然后，我们根据图6中的方法从增强的点云P aug和未配对的图像I构建正/负点对。假设p aug ∈ P aug是来自粘贴的虚拟对象O vir的一个点。由于GP-paste在将O vir粘贴到P时避免了与现有对象的空间重叠，因此在I中的位置fproj(p aug)上没有对象。这意味着（p aug，f proj(paug)）肯定是未配对的，因此形成一个负对。为了收集与paug 相关的正对，我们选择最有可能属于与p aug相同类的3D点ˆp ∈ P，例如，具有最高置信度的点。ﬁdence score predicted by the segmentation head. Thus,(paug, fproj(ˆp)) is chosen as the positive pair.Based on the selected positive/negative pairs S+/S−, weformulate the following point-level contrastive loss as:Lcl−p = −Lcl−o = −bank. Refer to [16] for more details about the optimizationon E(·) and memory banks QP /QI.Overall optimization. Besides the contrastive learninglosses Lcl−p and Lcl−o, we also utilize the conventional de-tection losses Lrpn and Lrcnn as in [38]. The total loss foroptimizing the overall transformer network is formulated asLtot = Lrpn + Lrcnn + λ · (Lcl−p + Lcl−o), where λ is thetrade-off parameter, empirically set as 0.15 by default.9130(i,j) ∈ S+ log 0(i,k) ∈ S- exp(fTi ∙ fk/τ), (3)0其中 fi 是 P 中第 i 个点的特征，fj 是图像 I 中位置 j处的特征，τ 是缩放因子。可以观察到，通过最小化 Lcl−p来增加成对的跨模态特征之间的相关性，同时减小不成对特征之间的相关性，从而减轻增强数据的跨模态不对齐问题。对象级对比增强。点级对比学习提供了细粒度的点级语义对齐，而检测器则关注区域。为了减轻区域语义对齐问题，我们还对增强数据进行了对象级对比学习。与点级对比学习类似，我们首先在模态之间构建正/负对象对。如图6所示，原始点云 P 中的对象 O 和对齐图像 I 中的配对对象 O'I自然构成一个正对。贴在图像上的虚拟对象 Ovir ，属于与O 相同的类别，也与 O'I构成一个正对。由于标记数据中经常发生类别不平衡，P 和I可能只包含来自一个类别的对象。虽然我们可以简单地选择背景区域来形成负对，但来自不同类别对象的前景区域更理想，因为它们提供了更强的监督。受[16]的启发，我们使用内存库来生成更精确和有区分度的负对选择的表示。如图2所示，内存库采用与双流多模态变换器相同结构的编码器E(∙) ，并维护由 QP 和 QI 表示的两个特征队列。QP包含来自所有类别的对象的点特征，QI包含图像特征。对于 O 或 O'vir ，我们从不同类别中选择QP 和 QI 中的元素来收集负对。通过正负对象对 O+/O-，应用对象级对比学习来最小化损失：0(i,j) ∈ O+ log 0(i,k) ∈ O- exp(gTi ∙ gk/τ), (4)0其中 g是通过最大池化聚合对象边界框内的特征向量或直接从内存库 Q P / Q I中获取的对象级表示。与[16]中一样，我们采用动量更新机制来优化编码器 E(∙)，而不是梯度更新，以增强内存中特征的稳定性。04. 实验0我们在广泛使用的KITTI基准测试[12]上评估CAT-Det，并为了公平比较，采用与[7,38]相同的协议，将原始训练数据分为训练集和验证集。平均精度（AP）被用作度量标准，对于汽车、行人和骑车者，IoU阈值分别设置为0.7、0.5和0.5，官方规定。AP通过在验证集和测试集上回忆11个和40个位置来计算。04.1. 实现细节0训练和测试中使用了点云和图像。点云的范围限制在X轴、Y轴和Z轴上分别为(0, 70.4), (-40, 40)和(-3,1)，然后进一步下采样为16,384个点作为输入，图像的分辨率为1280×384。在PT分支中，有四个堆叠的PTB，采样点的数量分别设置为4,096、1,024、256和64，然后有四个FP层，以4的步幅将点云上采样回原始大小。类似地，在IT分支中，有四个级联的ITB，然后是四个UP层，用于平行转置卷积，步幅分别为2、4、8和16。在我们的内存库中，每个类别的样本数量为1,024。我们采用ADAM优化器和余弦退火学习率调度，初始值为0.002。批量大小和最大学习周期数分别设置为16和80。所有实验都在8个GTX 1080TiGPU上进行。04.2. 与现有技术的比较0我们将CAT-Det与以下类别的方法进行比较，包括(1)仅使用LiDAR的非Transformer结构[ 3 , 15 , 19 , 27 , 37 – 39 ,50 – 52 , 59 , 60 ]; (2)仅使用LiDAR的Transformer结构[13 , 31 ]; (3)多模态(LiDAR+RGB) [ 7 , 17 , 18 , 22 , 23 ,32 , 33 , 41 , 46 , 48 , 49 , 53 , 58]。表1总结了测试集上的官方结果。如表1所示，仅使用LiDAR的方法在大多数情况下优于现有的多模态对应方法，这表明尽管有更多的信息可用，但建模多模态数据确实仍然是一个具有挑战性的任务。PointTransformer和M3DETR都采用了Transformer结构，但它们的性能不如[ 51 ]和[ 3]等非Transformer结构的方法。通过VoxelNet [60]L77.4765.1157.7366.7739.4833.6931.5134.8961.2248.3644.3751.3250.99PointRCNN [38]L86.9675.6470.7077.7747.9839.3736.0141.1274.9658.8252.5362.1060.33PointPillars [19]L82.5874.3168.9975.2951.4541.9238.8944.0977.1058.6551.9262.5660.65TANet [27]L84.3975.9468.8276.3853.7244.3440.4946.1875.7059.4452.5362.5661.71STD [52]L87.9579.7175.0980.9253.2942.4738.3544.7078.6961.5955.3065.1963.60Part-A2 [39]L87.8178.4973.5179.9453.1043.3540.0645.5079.1763.5256.9366.5463.99PV-RCNN [37]L90.2581.4376.8282.8352.1743.2940.2945.2578.6063.7157.6566.6564.913DSSD [51]L88.3679.5774.5580.8354.6444.2740.2346.3882.4864.1056.9067.8265.01HotSpotNet [3]L87.6078.3173.3479.7553.1045.3741.4746.6582.5965.9559.0069.1865.19SA-SSD [15]L88.7579.7974.1680.90–––––––––SE-SSD [59]L91.4982.5477.1583.73–––––––––PointTransformer [31]L87.1377.0669.2577.8150.6742.4339.6044.2375.0159.8053.9962.9361.66M3DETR [13]L90.2881.7376.9682.9945.7039.9437.6641.1083.8366.7459.0369.8764.65MV3D [7]L+R74.9763.6354.0064.20–––––––––ContFuse [23]L+R83.6868.7861.6771.38–––––––––MMF [22]L+R88.4077.4370.2278.68–––––––––PI-RCNN [48]L+R84.3774.8270.0376.41–––––––––EPNet [17]L+R89.8179.2874.5981.23–––––––––3D-CVF [53]L+R89.2080.0573.1180.79–––––––––CLOCs [32]L+R88.9480.6777.1582.25–––––––––AVOD-FPN [18]L+R83.0771.7665.7373.5250.4642.2739.0443.9263.7650.5544.9353.0856.84F-PointNet [33]L+R82.1969.7960.5970.8650.5342.1538.0843.5972.2756.1249.0159.1357.86PointPainting [41]L+R82.1171.7067.0873.6350.3240.9737.8443.0577.6363.7855.8965.7760.82F-ConvNet [46]L+R87.3676.3966.6976.8152.1643.3838.8044.7881.9865.0756.5467.8663.15PointPillars [19]L86.4677.2874.6579.4657.7552.2947.9052.6580.0562.6859.7067.4866.53SECOND [50]L88.6178.6277.2281.4856.5552.9847.7352.4280.5867.1563.1070.2868.063DSSD [51]L88.5578.4577.3081.4358.1854.3149.5654.0286.2570.4865.3274.0269.82PointRCNN [38]L88.7278.6177.8281.7262.7253.8550.2455.6086.8471.6265.5974.6870.67PV-RCNN [37]L89.0383.2478.5983.6263.7157.3752.8457.9786.0669.4864.5073.3571.64Part-A2 [39]L89.5579.4078.8482.6065.6860.0555.4460.3985.5069.9065.4873.6372.20SE-SSD [59]L90.2186.2579.2285.23–––––––––MV3D [7]L+R71.2962.6856.5663.51–––––––––3D-CVF [53]L+R89.6779.8878.4782.67–––––––––AVOD-FPN [18]L+R84

下载后可阅读完整内容，剩余1页未读，立即下载