点云理解中的统一查询范式与Q-Net的应用

15 浏览量更新于2023-10-25 收藏 12.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…85410一种用于点云理解的统一查询范式0Zetong Yang 1 , 4 � Li Jiang 2 � Yanan Sun 3 Bernt Schiele 2 Jiaya Jia 101 香港中文大学 2 MPI Informatics 3 香港科技大学 4 SmartMore0{ tomztyang, now.syn } @gmail.com { lijiang, schiele } @mpi-inf.mpg.de leojia@cse.cuhk.edu.hk0摘要0三维点云理解是自动驾驶和机器人技术中的重要组成部分。在本文中，我们提出了一种新颖的三维理解任务的嵌入-查询范式（EQ-Paradigm），包括检测、分割和分类。EQ-Paradigm是一种统一的范式，可以将现有的三维骨干架构与不同的任务头部结合起来。在EQ-Paradigm下，首先使用任意特征提取架构对输入进行嵌入阶段的编码，该编码与任务和头部无关。然后，查询阶段使编码特征适用于各种任务头部。这是通过在查询阶段引入中间表示，即Q-representation，来连接嵌入阶段和任务头部实现的。我们设计了一种新颖的查询阶段网络Q-Net。对各种三维任务的大量实验结果表明，EQ-Paradigm与Q-Net结合使用是一种通用且有效的流水线，可以灵活地协同骨干和头部，进一步提升了最先进方法的性能。01. 引言0三维点云理解是计算机视觉中的一个重要领域，因为它可以为许多应用提供帮助，例如自动驾驶[14]、机器人技术[12]和增强现实[31]。在点云理解中，有两种主要的输入表示方法：点和体素。专为这两种表示方法设计的主流模型可以分为基于点的[19, 23, 28, 36, 51, 56, 69]和基于体素的[7, 16,61,71]网络。在这两种情况下，最先进的模型由一个编码器网络逐渐对点/体素进行下采样，采用采样算法/步幅卷积。还有一个解码器网络将子采样点/体素的特征传播到原始点/体素，并有一个任务特定的头部进行预测。我们将这些方法称为编码器-解码器范式（ED-Paradigm）模型。由于0� 相等贡献。工作在SmartMore实习期间完成。0基于体素的网络0嵌入阶段0查询阶段0分类0头部0输入点云0基于点的网络或0查询0位置0Q-representation0各种任务头部0分割0头部0基于BEV的检测0头部0基于点的0检测0头部0图1.统一查询式EQ-Paradigm的示意图。查询位置可以在三维场景中随机指定，从而可以将任何骨干嵌入网络与不同的任务头部结合起来。0下采样-上采样设计，ED-Paradigm模型提取出出现在下采样过程中的一些固定位置的特征。在本文中，我们提出了一种新颖的三维理解任务的嵌入-查询范式（EQ-Paradigm）。与提取固定位置特征的ED-Paradigm相比，EQ-Paradigm可以为三维场景中的任何位置生成特征。因此，EQ-Paradigm是ED-Paradigm的泛化。任何ED-Paradigm模型都有一个对应的EQ-Paradigm模型。EQ-Paradigm模型由三个阶段组成：嵌入阶段、查询阶段和任务特定头部。嵌入阶段可以使用任何特征提取架构来实现，包括基于体素和基于点的网络，不论任务和头部如何。我们使用嵌入网络来提取后续阶段的支持特征。然后，查询阶段将一组位置作为查询位置，并基于支持特征生成它们的中间表示，即Q-representation。注意，查询位置可以是连续三维空间中的任意点，从而实现对任何位置的特征生成。我们进一步提出了一种新颖的查询阶段网络。85420称为Q-Net的工作，以有效地提取Q表示。然后，使用任务头部根据Q表示生成预测。由于查询位置指定的灵活性，EQ-Paradigm是一种统一的基于查询的范例，可以轻松地将任何最先进的3D骨干网络与不同的任务头部组合在一起，无需额外的努力（图1），这在头部设计中提供了很大的自由度。例如，为基于体素的检测器[61,72]设计的SSD头部[21]可以与基于点的嵌入网络在EQ-Paradigm下应用；EQ-Paradigm分割模型可以直接基于基于体素的嵌入网络[7,16]获取点级特征；此外，基于体素的骨干网络的EQ-Paradigm版本PVRCNN[39]能够直接从体素骨干生成提议网格特征，供后续检测头部使用。这极大地增加了不同任务的模型设计的灵活性。我们在包括目标检测[26, 32, 39, 40, 61]、语义分割[7,16]和形状分类[36]在内的多个重要的3D理解任务上评估了我们的EQ-Paradigm。我们的实验表明，我们的EQ-Paradigm和Q-Net可以与任何最先进的模型很好地集成，无论任务、骨干架构和头部设计如何，都能实现一致的性能提升。我们的主要贡献如下。0•我们提出了一种用于3D点云理解的嵌入-查询范例。它是一种统一的基于查询的范例，可以将任意基于点或体素的网络与不同的任务头部组合起来。0•我们提出了一种新颖的查询阶段网络Q-Net，用于提取中间的Q表示，即查询特征，用于设计的查询位置。0•我们将我们的EQ-Paradigm和Q-Net集成到多个最先进的3D网络中，用于不同的任务，并通过广泛的实验实现了一致的性能提升。02. 相关工作0ED-ParadigmED-Paradigm模型被广泛使用。它们由一个编码器网络用于提取高级语义特征，一个解码器网络用于特征传播，以及一个任务头用于执行预测。U-Net[37]是一个经典的ED-Paradigm网络，用于处理生物医学图像分割。它启发了后续关于2D像素级任务的工作，包括语义分割[5, 6, 27, 70]，超分辨率(SR) [50]和抠图[13, 44,57]。在3D任务中，它也是目标检测[18, 34, 61,72]和语义分割[23, 28, 45, 54, 69]的主流范例。0基于点的3D架构基于点的3D模型处理原始点云，提取稀疏的点特征，在编码器网络中对点云进行下采样，进行特征传播0通过解码器将特征映射回原始点，并通过任务特定的头部进行预测。PointNet++[36]是一种基础的基于点的骨干网络，已广泛应用于许多基于点的模型[26, 33, 34, 40, 52, 63,64]。这些模型利用一系列的集合抽象层作为编码器和多个特征传播层作为解码器。一些模型专注于开发优雅的头部来利用稀疏的点特征。例如，F-PointNet[34]实现了非模态的3D框估计。在[40,65]中，分别提出了规范化的3D边界框细化和PointsPool层。其他基于点的骨干网络[19, 59,68]专注于通过引入图卷积[42, 48]、类似卷积的操作[45,54, 56]或变换器结构[30,69]来改进PointNet++中的特征聚合操作。对于原始点云，基于点的模型可以提取具有准确相对位置和结构信息的特征。但是，由于球查询和最远点采样的高时间复杂度，它在处理大规模点云时受到限制。0基于体素的3D架构基于体素的方法首先将原始点云划分为规则的体素，然后应用由稀疏[7, 15,16]或密集[72]卷积组成的卷积神经网络（CNN）作为编码器和解码器网络来提取体素特征。尽管在不同的任务上各种方法[7, 18, 39, 41, 61,72]广泛应用了基于体素的模型，但基于体素的方法减少了相同体素中的大量冗余点，但在体素化过程中牺牲了数据精度。然而，基于体素的方法能够处理大规模场景。在本文中，我们提出了一种EQ-Paradigm，使得不同任务的模型可以轻松切换这两种骨干架构，并在头部设计中提供了很大的灵活性。03. EQ-Paradigm0本节首先概述了EQ-Paradigm，然后在下一节详细介绍了我们的新型查询阶段设计Q-Net。03.1. 概述0如图2所示，我们的EQ-Paradigm有三个阶段：嵌入阶段、查询阶段和任务头。首先，嵌入阶段从输入点云I∈RN×3中提取特征。我们将这些特征作为查询阶段的支持特征FS。支持特征FS的相应3D位置表示为支持点S∈Rn×3。然后，查询阶段负责根据支持点S和支持特征FS生成查询表示，即查询特征FQ，用于查询位置Q∈Rm×3。值得注意的是，Q不需要是I的子集。相反，期望查询点是任意位置。(a)……(b)(c)(d)Features 𝐹!𝑄85430在连续的3D空间中。我们提供了一种称为Q-Net的新型查询阶段设计。最后，任务头根据查询位置Q和特征F Q生成预测。我们的EQ-Paradigm表达为0FS, S = Embedding(I)，0F0O = Head(FQ, Q)，(1)0其中O表示特定任务的最终输出。03.2. 嵌入阶段0在EQ-Paradigm中，嵌入阶段中的特征提取网络可以是任何3D网络，包括基于体素的网络（使用体素化输入）[7, 15,16]和基于点云的网络（使用原始点云）[23, 35, 36,54]，与任务和头部无关。嵌入阶段的目标是生成支持点S和支持特征FS。对于基于点云的嵌入网络，支持点S通常是输入点云I的子采样，具体取决于网络的下采样策略（例如最远点采样）。在基于体素的情况下，下采样通常通过步幅卷积实现，并且我们将下采样的体素中心作为S。如第2节所述，基于体素的骨干网络能够处理大规模点云场景，而基于点云的骨干网络可以提取更精确的结构信息。在EQ-Paradigm中，模型可以根据实际需求任意指定其嵌入阶段网络，这在模型设计中带来了灵活性。03.3. 查询阶段0查询阶段用于从支持特征F S和它们的位置S中提取一组手动指定的查询位置Q的查询特征FQ。然后，查询特征被发送到任务特定的头部以生成最终的预测。查询阶段的关键在于根据不同的任务和头部设计选择查询位置，如图2所示。0•在检测中的查询位置。在室外3D物体检测模型中部署SSD [21,61]头部时，查询位置被选择为目标鸟瞰图（BEV）地图内的像素中心（图2(a)）。为了利用[32, 40,63]中提出的基于点云的头部，查询位置是从原始输入点云中均匀或最远点采样得到的子采样点（图2(b)）。0•在分割中的查询位置。在语义分割中，查询位置是需要在3D场景中进行点对点类别预测的点（图2（c））。通常，整个输入点云I被视为Q。0查询阶段0查询0特征 � !0(Q-表示)0任务头0体素中心0点0样本0输入 �0嵌入阶段0支持0支持点 �0查询0位置0检测0分割0分类0检测0基于BEV0基于点云的0图2.我们EQ-范式的概述。给定输入点云I，嵌入阶段生成一组支持点S的支持特征FS。支持点（绿色标记）可以是体素中心或用于体素或基于点云的嵌入网络的点采样。查询阶段网络根据S和FS生成用于查询位置Q的查询特征FQ（也称为Q-表示），用于任务头。不同任务和头部的查询位置Q（黄色标记）在（a）-（d）中显示。0•在分类中的查询位置。在分类中，Q可以是形状中心，用于生成分类器的代表性特征，也可以是多个均匀分布的位置，表示物体的不同部分对类别进行投票（图2（d））。在本文中，我们打算使用16个采样点作为查询位置进行类别投票。查询阶段对嵌入网络类型不敏感，并且在查询位置选择方面具有很大的灵活性。在嵌入阶段提取的点云或体素特征可以很好地传播到不同任务和头部所需的查询位置。此外，对于特定的任务头，根据哪种表示对头部更好，可以切换基于点云或体素的嵌入网络。这对于像检测这样的任务非常有价值，其中头部和骨干设计都很重要，如第5.5节的消融研究所示。04. Q-网络0我们的查询阶段网络Q-网络基于Transformer结构[11,47]来提取Q-表示，即𝑆𝑚 × 𝑑𝑛 × 𝑑𝑚 × 3𝑄𝑛 × 3𝑚 × 𝑑𝑛 × 𝑑𝐹!%𝐹$%𝑚 × 𝑑𝑛 × 𝑑𝐹!&𝐹$&……𝑚 × 𝑑𝑛 × 𝑑𝐹!'(%𝐹$'(%Q-DecoderQ-Block #L𝑚 × 𝑑𝐹!4.1. Q-BlockF lQ = Q-Decoder(Q, F l−1Q, S, F l−1S),F lS = Q-Encoder(S, F l−1S).(2)ˆF lS = Attention(S, F l−1S, S, F l−1S) + F l−1S,F lS = FFN( ˆF lS) + ˆF lS.(3)85440输入点云�0查询特征 �!0支持点0(a) 嵌入阶段 (b) 查询阶段 (Q-网络)0(c) 任务头0基于点云或体素0嵌入0网络0支持特征� # " (�$ )0Q-解码器0层0Q-块 #10Q-编码器0层0查询0位置0Q-解码器0层0Q-块 #20Q-编码器0层0Q-块0分割0Q-编码器0层0层0图3.EQ-Paradigm中我们的Q-Net的示意图。以支持点S和支持特征FS作为输入，Q-Net为查询位置Q生成查询特征FQ。Q-Net由L个连续的Q-Block组成，每个Q-Block包含一个Q-Encoder层用于更新支持特征和一个Q-Decoder层用于优化查询特征。我们通过将F0Q初始化为0并将FS作为初始支持特征F0S来初始化。0查询特征FQ。最近，transformer模型在2D计算机视觉领域[4, 10, 11, 25, 46, 62]以及3D任务[29, 30, 66,69]中展现出巨大潜力。基于transformer，我们开发了基于transformer的Q-Net，以有效地为查询位置生成特征，因为transformer层具有灵活的感受野和强大的表示能力。注意，transformer机制适用于查询阶段，因为具有位置编码的注意力操作符既提供了全局视角，又考虑了点之间的相对位置，满足了对灵活查询位置生成特征的需求。图3显示了Q-Net的架构。0Q-Net是L个Q-Block的堆叠。每个Q-Block有四个输入元素。对于第l个块，四个输入是查询位置Q，支持点S，查询特征Fl−1Q和支持特征Fl−1S，其中Fl−1Q和Fl−1S是(l−1)个块的输出。对于第一个Q-Block，我们将F0Q初始化为0。由于查询位置Q不一定是输入点云I的子集，将它们的特征初始化为零不会引入任何归纳偏差。同时，F0S由嵌入阶段的支持特征FS初始化。这些L个Q-Block迭代地更新查询和支持特征。我们的实现中将L设置为3。关于L的消融研究包含在补充材料中。每个Q-Block利用两层，分别是一个Q-Encoder层和一个Q-Decoder层，用于更新支持特征和优化查询特征。支持特征的更新可以编码更丰富的全局语义信息，从而有利于查询特征的优化。在最后一个Q-Block中，我们放弃了Q-Encoder层，因为没有下一个Q-Decoder层，我们不再需要更新的支持特征。最后一个Q-Block的输出是最终的查询特征FQ，将其输入到任务头部进行0进行预测。形式上，Q-Block被描述为0我们遵循原始的transformer[47]构建我们的Q-Encoder和Q-Decoder层。我们将transformer编码器层作为我们的Q-Encoder层，而Q-Decoder层则改编自transformer解码器层。0Q-Encoder层我们使用Q-Encoder层来更新支持特征。我们的Q-Encoder层的架构遵循广泛使用的transformer编码器层，包括一个注意力层（Attention）和一个前馈网络（FFN）。我们将Q-Encoder层表示为0这里的注意力层是一个经典的基于qkv的多头自注意力[47]，其中q、k和v都来自支持特征Fl−1S。我们在每个Attention和FFN模块之前使用LayerNorm[3]对特征进行归一化。0Q-Decoder层Q-Decoder层为查询位置生成增强的特征表示。与transformer解码器层不同，在Q-Decoder层中，我们不对查询特征应用自注意力，而是直接采用交叉注意力层从支持特征生成查询特征，表示为0FlQ = FFN(ˆFlQ) + ˆFlQ, (4)0其中注意力层是基于qkv的多头交叉注意力，其中q来自查询特征，而k和v来自支持特征。去除自注意力plays a fundamental role in a Q-Block. It leverages m tar-get positions Y ∈ Rm×3 with features FY ∈ Rm×d and nsource positions X ∈ Rn×3 with features FX ∈ Rn×d toobtain new target features ˜FY ∈ Rm×d. Here, d denotes thechannel number of features. A qkv-based attention layercan be viewed as applying attention weights to the sourcefeatures FX for computing new target features. Here, wedescribe the single-head calculation for clarity. The compu-tation of the i-th new target feature ˜F (i)Yis formulated as85450在传统的Transformer解码器层中，查询位置保持独立。也就是说，查询位置的查询特征仅取决于其与支持点/特征的关系，而不取决于其他查询位置/特征，因此在选择查询位置时提供了更大的自由度。例如，我们可以只查询整个场景中感兴趣的部分的特征。第5.5节的消融研究显示了这种设计的优势。0˜FY = Attention(Y, FY, X, FX), (5)0˜F(i)Y = A(i)(FX Wv + B(i)v). (6)0注意权重A∈Rm×n通过在目标特征FY和源特征FX之间的点积结果上使用softmax函数得到0A = SoftMax � (FY Wq)(FX Wk)T + Bqk √0d0� . (7)0Wq，Wk和Wv分别是q、k和v的线性层的权重。此外，在我们的Q-Block中，我们应用了两种类型的相对位置编码。公式（6）中的第一个Bv∈Rm×n×d用于在值向量中提供相对几何信息。第二个Bqk∈Rm×n0在公式（7）中，编码了目标Y和源X之间的欧几里得位置差异在注意力权重中。0相对位置编码相对位置编码是我们的Q-Net中不可或缺的组成部分。与之前采用具有有效语义和位置信息的输入特征的Transformer结构[4,47]不同，我们在第一个Q-Block中将查询特征F0Q初始化为0，避免引入归纳偏差并提供无效信息。因此，在我们的Q-Net开始时，查询位置是生成查询特征的唯一提示。同时，在第一个块中仅依靠查询和支持点之间的坐标差异来更新查询特征并不是最优的，因为对于具有相同相对位置但尺度和形状不同的对象点，注意力权重不会有任何区别。受到[38,53]的启发，我们采用上下文相对位置编码，这非常适合我们的Q-Block。0分层嵌入网络0支持点0支持特征0查询点查询特征0C0Q-Net0Q-Net0Q-Net0Q-Net0图4. 我们Q-Net的分层扩展。0与偏置模式相对位置编码[25, 53,62]相比，上下文相对位置编码考虑了位置嵌入与q、k、v特征的交互作用，使得相对位置编码能够自动适应具有不同上下文信息的特征。因此，即使一些点对具有相同的相对位置差异，它也能够为具有不同尺度和形状的对象中的点产生各种响应。我们在补充材料中提供了相对位置编码策略及其效果的详细信息。0局部注意力当目标点的数量m和源点的数量n很大时，例如40k，将全局注意力应用于它们会极大地消耗GPU内存，因为注意力权重A∈Rm×n太大而无法存储。为了解决这个问题，我们在我们的Q-Net中应用局部注意力，受到[30,69]的启发。具体而言，对于每个目标点，我们根据欧几里得距离找出其K个最近邻的源点，并仅在这些邻居上计算注意力。通过这种方式，注意力权重A的大小大大减小为m×K，而K远小于n。04.2. 分层Q-Net0分层多级架构被证明对于3D任务是必不可少的[7,36]，考虑到3D场景尺度和物体大小的多样性。特别是对于像语义分割这样的逐点预测任务，多级特征在产生最先进的结果方面非常重要[7,69]，因为需要细粒度的特征来进行详细的逐点分割。我们开发了一个分层的Q-Net来利用多级特征。如图4所示，我们在分层嵌入网络的多个级别的支持特征上应用一系列的Q-Net，并将来自不同级别的查询特征连接起来生成最终的预测。05. 实验0我们在四个流行的3D任务上进行实验：语义分割，室内物体检测，室外物体检测和形状分类。训练计划，超参数和网络实现细节的实现详情见补充材料。85460方法 ScanNet S3DIS0验证测试区域5 6折0PointNet [35] - - 41.1 47.60PointNet++ [36] - 33.9 - -0PointCNN [19] - 45.8 57.3 65.40PointWeb [68] - - 60.3 66.70PointEdge [17] 63.4 61.8 61.9 67.80PointConv [54] 61.0 66.6 - -0PointASNL [60] 66.4 66.6 62.6 68.70KPConv [45] 69.2 68.6 67.1 70.60FusionNet [67] - 68.8 67.2 -0SparseConvNet [16] - 72.5 - -0MinkowskiNet [7] 72.2 73.6 65.4 -0PAConv [56] - - 66.6 69.30PointTransformer [69] - - 70.4 73.50Sparse U-Net（基准）72.9 - 66.9 72.60Sparse EQ-Net（我们的方法）75.3 74.3 71.3 77.50改进 +2.4 - +4.4 +4.90表1.我们的方法和其他3D网络在ScanNet和S3DIS上的mIoU（%）语义分割结果。Sparse U-Net是我们重新实现的SparseConvNet版本。0方法网络 mAP mAP0ScanNetV20VoteNet [32] PointNet++ 58.6 33.5 VoteNet + PointNet++ 62.939.9 VoteNet（我们的方法）EQ-PointNet++ 64.3 45.40GroupFree [26] PointNet++（L6，O256）67.3 48.9 GroupFree +PointNet++（L6，O256）66.3 47.8GroupFree（我们的方法）EQ-PointNet++（L6，O256）68.0 50.00SUN RGB-D0VoteNet [32] PointNet++ 57.7 32.9 VoteNet + PointNet++ 59.135.8 VoteNet（我们的方法）EQ-PointNet++ 60.5 38.50表2. 在ScanNetV2和SUNRGB-D数据集上使用PointNet++和EQ-PointNet++的不同方法的性能。+表示由MMDetection3D [8]复现的模型。0结构包含在补充材料中。05.1. 语义分割0点云语义分割，我们在实验中使用了竞争性和流行的ScanNetV2 [9]和S3DIS[1]数据集。ScanNetV2包括1613个室内扫描（训练/验证/测试分别为1201/312/100），具有20个物体类别的点云语义标签。S3DIS由6个大型室内区域收集的271个点云场景组成，标注了13个语义类别。对于评估，我们遵循常用的S3DIS数据集划分[7, 19,68]，在区域5上进行测试，在其他5个区域上进行训练，并且还应用了6折交叉验证，每个区域作为测试集一次。对于评估指标，我们采用平均交并比（mIoU）。0模型在我们的实验中，我们使用基于体素的残差U-Net结构与稀疏卷积[7 , 16]作为基准模型。稀疏U-Net遵循ED-范式，具有一个编码器网络和一个解码器网络。它是一个强大的0在3D分割中使用了完整的骨干结构。我们使用EQ-范式基于稀疏U-Net开发了我们的网络，保持编码器作为我们的嵌入网络，并采用Q-Net来提取每个点的特征。在嵌入阶段，输入的3D体积被下采样了6次，提供了多级支持特征。我们使用体素的中心坐标作为支持位置，并应用分层的Q-Net来融合多级特征，以获得更好的查询位置的特征表示。然后，查询特征被输入到分类器中产生逐点的语义预测。0实验结果我们将我们的EQ-Net与基准模型和其他3D网络进行了比较。结果如表1所示。在两个数据集上，我们的方法的mIoU都比强基准模型更高，分别在ScanNet验证集、S3DIS Area5和6-fold上分别获得了2.4%、4.4%和4.9%的显著增益。此外，与最近的最先进的3D分割网络相比，我们的EQ-Net在这两个数据集上仍然实现了更高的性能，显示了EQ-范式和我们设计的Q-Net在逐点预测任务中的有效性。05.2. 室内物体检测0数据集我们在两个流行的数据集ScanNetV2 [ 9 ]和SUNRGB-D [ 43]上评估了我们的方法。ScanNetV2包含1,513个带有18个类别边界框标记的场景；SUNRGB-D包含10个类别中的5,000个训练场景。评估指标是平均精度均值(mAP)与交并比(IoU) 0.25 (mAP@0.25)和0.5(mAP@0.5)，遵循[ 32 ]的定义。0基准模型我们在ScanNetV2数据集上测试了VoteNet [ 32]和GroupFree [ 26 ]，在SUNRGB-D数据集上测试了VoteNet。所有基准模型都可以在MMDetection3D [ 8]代码库中公开获得。VoteNet是经典的室内检测器，是所有现代方法的基准模型；GroupFree是当前最先进的室内检测器。0EQ-PointNet++ PointNet++ [ 36]是室内3D物体检测的基石。最近的方法[ 26 , 32]都利用它来提取检测头的稀疏点特征。EQ-PointNet++是PointNet++的EQ-范式版本。它将一堆集合抽象层作为其嵌入阶段，类似于PointNet++，并在其查询阶段应用分层的Q-Net来提取具有多级信息的查询特征。查询位置是通过在原始输入点云上应用最远点采样(FPS)获得的1,024个点，遵循[ 26 , 32]。对于所有模型，我们用我们的EQ-PointNet++网络替换它们的PointNet++骨干网络。0实验结果如表2所示，使用EQ-PointNet++的模型在两个方面都取得了更好的性能HardValSECOND [61]90.8581.6678.5756.0751.1246.1483.0666.6963.02PointRCNN [40]91.3580.2577.8461.1954.3347.4389.7771.5567.20Test85470方法 Car (%) Pedestrian (%) Cyclist (%)0EQ-SECOND (我们的) 91.74 81.49 78.62 57.48 53.64 49.55 85.01 67.13 63.340EQ-PointRCNN (我们的) 91.80 84.00 82.29 64.80 58.36 52.55 91.23 71.09 66.350EQ-PVRCNN † (我们的) 92.63 85.41 82.97 66.78 59.23 54.34 93.34 75.71 71.110EQ-PVRCNN § (我们的) 92.52 85.61 83.13 69.95 62.55 56.51 91.51 74.02 69.460EQ-PVRCNN§（我们的方法） 90.13 82.01 77.53 55.84 47.02 42.94 85.41 69.10 62.300表3. KITTI验证集和测试集上的性能比较。0数据集。具体来说，VoteNet与EQ-PointNet++在ScanNetV2和SUNRGB-D数据集上分别获得了5.5%和2.7%的mAP@0.5改进。在最先进的室内检测器GroupFree[26]上，我们的方法相对于官方结果[26]和我们重现的结果[8]分别提高了0.7%和1.1%的mAP@0.25和mAP@0.5。这些实验证明了我们的EQ-范式和Q-Net很好地适应了室内检测器，并提升了它们的性能。05.3. 室外物体检测0数据集对于室外检测，我们在广泛采用的KITTI数据集[14]上进行实验。训练点云有7481个，测试点云有7518个，分为“Car”、“Pedestrian”和“Cyclist”三个类别。根据[72]的方法，我们将原始的KITTI训练数据集分为3717个图像/场景的训练集和3769个图像/场景的验证集。所有“AP”结果都是根据官方的KITTI协议，使用40个召回位置计算的。0基准模型我们选择了3个室外检测器来展示我们方法的优越性。它们分别是SECOND [61]、PointRCNN [40]和PVRCNN[39]。这些方法具有不同的头部设计，需要不同的查询位置指定。在SECOND中，查询位置是目标BEV图中的像素中心；在PointRCNN中，输入点云中的所有点都作为查询位置；而在PVRCNN中，查询位置可以是关键点的坐标（EQ-PVRCNN§）遵循原始PVRCNN设计，也可以是直接的提议网格的坐标（EQ-PVRCNN†）。0实验结果如表3所示，我们的方法在不同的检测器上都取得了一致的改进。特别是在PointRCNN上，EQ-PointRCNN在“Car”实例的“Moderate”难度标签上取得了显著的改进，例如“AP”提高了3.75%。与最先进的模型PVRCNN相比，我们的方法在KITTI验证集和测试集上都取得了显著的改进。在测试集上，EQ-PVRCNN§在“Pedestrian”和“Cyclist”实例的“Moderate”难度级别上分别取得了3.73%和5.39%的提高。这些实际的改进表明EQ-0方法输入精度（%）0PCNN [2] 1k点 92.3 RS-CNN（SSG）[23] 1k点 92.4PointCNN [19] 1k点 92.5 KPConv [45] 1k点 92.9DGCNN [51] 1k点 92.9 InterpCNN [28] 1k点 93.0DensePoint [22] 1k点 93.2 Grid-GCN [58] 1k点 93.1PosPool [24] 5k点 93.20SpecGCN [49] 2k点+法线 92.1 PointWeb [68]1k点+法线 92.3 SpiderCNN [59] 1k点+法线 92.4PointConv [54] 1k点+法线 92.50PointNet++（SSG）1k点 92.1EQ-PointNet++（SSG）1k点 93.20表4. ModelNet40数据集上的精度比较。0范式和Q-Net可以广泛应用于任何3D室外检测器，并提供持续的性能改进。同时，通过改变查询位置，我们的方法可以激发现有方法的一些新设计。如表3所示，通过直接获取用于框预测的提议网格特征，摆脱了一些模块（包括PVRCNN中的体素集抽象、预测关键点加权和RoI网格池化），EQ-PVRCNN†仍然通过简洁的头部设计实现了令人印象深刻的性能改进。05.4. 形状分类0数据集和模型我们在ModelNet40数据集[55]上进行分类实验，该数据集包括40个类别中的9843个训练和2468个测试网格模型。我们采用EQ-PointNet++作为我们的分类模型。查询位置是通过对输入点云进行最远点采样得到的16个点。在识别头部，我们部署了另一个集合抽象层，用于总结16个查询特征以进行类别预测。0实验结果如表4所示，EQ-PointNet++在分类准确性方面比单尺度分组（SSG）的PointNet++提高了1.1%。与其他分类器[51]相比，EQ-PointNet++仍然表现出更好的性能，显示了EQ-Paradigm的泛化能力和Q-Net的有效性。85480头嵌入网络 AP（%）基于体素基于点0SECOND头（基于体素的）0√ - 81.490- √ 82.70 √ √ 82.940PointRCNN头（基于点的）0√ - 82.650- √ 84.00 √ √ 84.380表5. 基于点和基于体素的嵌入网络的不同头设计的AP比较。05.5. 切除研究0关于EQ-Paradigm的分析在表5中，我们通过采用不同的嵌入结构在基于点和基于体素的检测器SECOND [61]和PointRCNN[40]中，验证了EQ-Paradigm将基于点或基于体素的主干网络与不同任务头部相结合的能力。在KITTI验证集上进行实验，以“Car”类别的“Moderate”难度级别计算“AP”。我们使用SECOND[61]中的SparseConvNet作为基于体素的嵌入网络，使用PointRCNN[40]中没有解码器的PointNet++作为基于点的嵌入网络。如表5所示，SECOND和PointRCNN中的头部都适用于基于点和基于体素的嵌入阶段网络，并产生了有希望的性能。这证明了EQ-Paradigm统一了不同的3D架构。值得注意的是，基于点的嵌入的SECOND相比基于体素的基线提高了1.21%。这表明不同的架构具有独特的优势。例如，基于点的架构提取更精确的结构信息。同时，在表5中，我们展示了基于体素和基于点的嵌入网络可以同时在EQ-Paradigm模型中使用，以进一步提高性能。这些实验表明EQ-Paradigm在主干和头部选择方面具有很大的灵活性，并能够结合点和体素的优势。0关于分层Q-Net的分析多层特征在识别中起着重要作用[5,20,70]。我们的EQ-Paradigm与多层方案自然兼容，只需在查询阶段使用多层特征作为支持特征。因此，我们设计了一个简单而有效的分层Q-Net结构。我们通过在点云语义分割上进行实验验证了融合多层信息的优势，该任务需要更好地分割物体边界上的点。表6列出了在ScanNet验证集上在查询阶段中融合不同层级特征的效果。我们从最粗糙的层级开始，并逐渐包含更多细节特征。随着特征层级数量的增加，持续观察到性能的改善，证明了我们的分层Q-Net的有效性。0层级数量 1 2 3 4 5 60mIoU（%） 58.4 64.1 68.3 71.9 74.2 75.30表6.我们分层Q-Net中特征层级数量的影响。实验在ScanNet验证集上进行。0方法 SA 查询位置选择 AP（%）训练测试0EQ-SECOND0√ patch patch 81.61 √ patch random74.960- patch patch 81.490- patch random 81.490表7. EQ-SECOND在使用或不使用自注意力（“SA”）层的Q-Decoder层上的AP比较。0在Q-Decoder层中，为了使查询位置彼此独立，允许任意查询位置选择，我们在变压器解码器层中删除了查询点的自注意力层。在表7中，我们比较了EQ-SECOND在不同测试模式下使用和不使用自注意力层的性能。两个模型都是在“patch”模式下训练的，并在“patch”和“random”模式下进行测试。在“patch”模式下，我们将目标BEV图分成相等大小的块，每次迭代随机选择一个块，并将块内的所有像素中心视为查询位置。在“random”模式下，我们任意选择BEV图中的像素中心作为查询位置。自注意力层编码了查询位置之间的关系，因此限制了测试时查询位置的选择。表7显示了在随机选择查询位置进行测试时，具有自注意力层的模型的AP下降了6.65%。观察到自注意力层对任意查询位置选择的负面影响。相比之下，我们的模型不受自注意力的限制，可以任意选择查询位置而不影响性能。值得注意的是，自注意力层在处理大量查询位置时带来了有限的AP改进（0.12%），并且产生了大量的计算开销。06. 结

下载后可阅读完整内容，剩余1页未读，立即下载