3D-SPS：基于渐进选择的单阶段3D视觉定位方法

121 浏览量更新于2023-10-25 收藏 20.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Wrong PredictionWrong PredictionCorrect PredictionGround Truth1645403D-SPS：通过所指点渐进选择的单阶段3D视觉定位0罗俊宇1,2*，傅佳辉1,2*，孔祥浩1,2，高晨1,2†，任海兵3，沈浩3，夏华夏3，刘思1,201 北航人工智能研究院 2 北航杭州创新研究院 3 美团公司0摘要03D视觉定位旨在根据自由形式的语言描述在3D点云场景中定位所指目标物体。以往的方法主要遵循两阶段的范式，即与语言无关的检测和跨模态匹配，这受到孤立架构的限制。在这种范式中，由于3D点云的固有属性（不规则和大规模），检测器需要从原始点云中采样关键点，为每个关键点生成相应的物体提议。然而，稀疏的提议可能会在检测中遗漏目标，而密集的提议可能会混淆匹配模型。此外，与语言无关的检测阶段只能对目标上的少部分关键点进行采样，从而降低了目标预测的准确性。在本文中，我们提出了一种3D单阶段所指点渐进选择（3D-SPS）方法，它通过语言的引导逐步选择关键点并直接定位目标。具体而言，我们提出了一种描述感知关键点采样（DKS）模块，粗略地关注与语言相关的物体的点，这是定位的重要线索。此外，我们设计了一种面向目标的渐进挖掘（TPM）模块，精细地集中于目标的点，这是通过渐进的内模态关系建模和跨模态目标挖掘实现的。3D-SPS弥合了3D视觉定位任务中检测和匹配之间的差距，将目标定位在单个阶段。实验证明，3D-SPS在ScanRefer和Nr3D/Sr3D数据集上均取得了最先进的性能。01. 引言0视觉定位（VG）旨在根据与物体相关的语言描述在场景中定位目标物体。近年来，由于其广泛应用，3DVG任务受到越来越多的关注，例如自主机器人和AR/VR/Metaverse等。0* 平等贡献 † 通讯作者：高晨。0两阶段0单阶段0(a) 稀疏提议0(b) 密集提议0(c) 3D-SPS0检测阶段匹配阶段0描述：沙发椅靠近一张长沙发。沙发椅的两侧各有一张桌子。0图1. 传统的两阶段3DVG方法受到检测阶段和匹配阶段孤立的限制。（a）稀疏提议可能会在检测中遗漏目标。（b）密集提议可能会混淆匹配模型。（c）3D-SPS逐步选择关键点（蓝色点→红色点→绿色点）并在单个阶段进行所指。注意，密集表面仅用于帮助读者理解示例3D场景，而我们方法的输入仅包含稀疏点云。0作为自主机器人和AR/VR/Metaverse中的人机交互。尽管在2D VG任务中取得了很多进展[29, 33-38, 40, 41,43]，但在3D场景中定位所指目标物体仍然具有挑战性，因为点云是不规则且大规模的。0现有的3D VG方法[2, 7, 11, 39, 42,44]主要基于检测-匹配两阶段的流程。第一阶段是与语言无关的检测，采用通用的3D物体检测器[4, 20,23]生成大量的物体提议。第二阶段是跨模态匹配，其中采用特定的视觉-语言注意力机制164550通常设计的机制用于匹配提案和描述。以前的方法主要关注第二阶段，即探索提案之间的关系以区分目标对象。0我们认为两个阶段的分离限制了现有方法。以前的2D检测方法在规则和有序的图像上采用独立于数据的锚框作为提案。然而，锚点的方式通常在大规模和不规则的3D点云上是不切实际的。因此，第一阶段使用的3D检测器需要采样有限数量的关键点来表示整个场景，并为每个关键点生成相应的提案。然而，稀疏的提案可能会在检测阶段遗漏目标（例如图1(a)中的沙发椅），导致无法在匹配阶段定位目标。同时，密集的提案可能包含冗余的对象，使得提案之间的关系变得非常复杂，使得匹配模块难以区分目标。如图1(b)所示，从这些外观相似的众多提案中选择正确的沙发椅是困难的。因此，两阶段的定位方法面临着决定提案数量的困境。此外，第一阶段检测器通常采用与语言无关的关键点采样策略（例如最远点采样（FPS）[25]）。该策略旨在尽可能多地采样关键点以覆盖整个场景以检测所有潜在对象。因此，目标关键点的比例相对较小，这对于目标预测是不利的。0为了解决上述问题，我们在本文中提出了一种3D单阶段参考点渐进选择（3D-SPS）方法。我们的主要思想是在整个过程中根据语言描述的指导逐步选择关键点，如图1(c)所示。基于这个思想，我们提出了一个描述感知关键点采样（DKS）模块，粗略地关注与语言相关的对象的点，例如图1(c)中的沙发椅、长椅和桌子。这些关键点为后续的跨模态交互定位目标提供了重要线索。此外，我们设计了一个面向目标的渐进挖掘（TPM）模块，通过渐进挖掘来精确确定目标。我们分别利用自注意力机制和交叉注意力机制来建模模态内部和模态间的关系。此外，我们将关键点特征与整个场景的点特征融合，实现全局定位感知。为了逐步选择目标的关键点，我们利用语言-关键点交叉注意力图选择语言更关注的关键点并丢弃不相关的点。模型通过多层逐渐集中于目标并获得一组精简的关键点。因此，随着更丰富的与目标相关的特征，目标点的比例将逐渐增加，这对于目标预测是有益的。0最后，3D-SPS从精简的关键点集中区分目标并回归其边界框。需要注意的是，3D-SPS也符合人类寻找目标对象的常识。通常，人类首先根据语言描述选择一个粗略的候选集，然后通过细致的识别和判断来选择目标对象。[16,31]总之，我们的工作具有以下贡献：0•我们提出了3D-SPS方法，该方法在单个阶段直接进行3DVG，以弥合检测和匹配之间的差距。据我们所知，3D-SPS是第一个研究单阶段3D VG的工作。0• 我们将3DVG任务视为关键点选择问题。设计了两个选择模块，即DKS和TPM，来逐步选择与目标相关的关键点。DKS采样粗略的与语言相关的关键点，TPM通过渐进挖掘跨模态关系来区分目标。0•大量实验证实了我们方法的有效性。3D-SPS在ScanRefer[2]和Nr3D/Sr3D[1]数据集上取得了最先进的性能。代码提供在https://github.com/fjhzhixi/3D-SPS。02. 相关工作02D图像上的视觉定位。2D图像上的视觉定位的目标是根据指代表达式选择一个指定的目标[8, 14, 22,40]。已经提出了两种主流框架：两阶段和一阶段方法。具体而言，两阶段方法[13, 19, 33-36, 40, 41, 43,46]首先使用目标检测器生成区域提议，然后通过将语言特征与提议进行匹配来选择目标区域。尽管在指代上下文中它们的重要性不同，但每个提议在匹配阶段被视为相同。此外，一阶段方法[3, 6, 17, 29, 37,38]在两阶段框架中消除了提议生成和特征提取阶段。在这些方法中，语言特征与每个像素或块密集融合，生成用于回归边界框的多模态特征图。然而，2D一阶段方法不能直接应用于3DVG。首先，3D点云数量众多且噪声较大。因此，将每个点视为候选对象在计算上是不可接受的[9, 10,45]。然后，由于3D场景的大规模和复杂性，很难对所有对象的关系进行建模并确定目标[11, 39, 44]。此外，2D一阶段方法采用类似于[12,30]的滑动窗口方式，无法处理3D点，因为2D输入高度规则，而3D点本质上是稀疏、无序和不规则的[24,25]。在本文中，我们提出了3D-SPS来解决3D点云引入的问题，成为领先的3DVG解决方案。3D点云上的视觉定位。随着深度学习技术在3D点云上的普及，3D VG任务引起了广泛关注。Chen等人[2]发布了一个3DVG数据集ScanRefer，其中物体的边界框通过室内场景中对应的描述进行引用。ReferIt3D[1]还提出了两个数据集，即Sr3D和Nr3D，用于3DVG任务。现有的3D VG工作[2, 7, 11, 15, 28, 39, 42,44]主要集中在更好地对对象之间的关系进行建模以定位目标对象，例如采用图神经网络[15]和注意力机制[44]。据我们所知，以前的3D定位方法通常可以归结为检测-匹配两阶段框架。在这些方法中，检测阶段无法利用语言上下文集中于对指代任务更为重要的点上。为了克服这些缺点，我们提出了第一个3D VG的单阶段方法，根据描述逐步选择关键点。P0PTLT164560N×(3+F)0厨房橱柜位于冰箱之间0和烤箱。0T层0语言编码器0骨干网络0描述D0P cloud P seed0L 00索引0选择0MLP s r0ArgMax0P cloud P seed P 0 P T 预测框0预测0框0K T×(3+C)0TPM0K 0×(3+C)0DKS0M×(3+C)0图2. 3D-SPS框架。我们将3DVG任务视为关键点选择问题，并避免了检测和匹配的分离。具体而言，我们使用PointNet++作为骨干网络，从点云P cloud中提取点种子Pseed。然后，我们通过DKS和单词特征L 0 粗略采样与语言相关的关键点P0，这些关键点主要位于图中的厨房橱柜、冰箱和烤箱上。然后，TPM精细选择目标关键点P T，并预测指代置信度得分sr。这里的关键点集中在目标厨房橱柜上。最后，从P T 中具有最高s r的关键点回归出目标框。蓝色框是真值框，黄色框是与目标同类别的物体，绿色框是我们的目标预测。最佳观看效果为彩色。0不规则[24,25]。在本文中，我们提出了3D-SPS来解决3D点云引入的问题，成为领先的3DVG解决方案。3D点云上的视觉定位。随着深度学习技术在3D点云上的普及，3DVG任务引起了广泛关注。Chen等人[2]发布了一个3DVG数据集ScanRefer，其中物体的边界框通过室内场景中对应的描述进行引用。ReferIt3D[1]还提出了两个数据集，即Sr3D和Nr3D，用于3D VG任务。现有的3D VG工作[2, 7,11, 15, 28, 39, 42,44]主要集中在更好地对对象之间的关系进行建模以定位目标对象，例如采用图神经网络[15]和注意力机制[44]。据我们所知，以前的3D定位方法通常可以归结为检测-匹配两阶段框架。在这些方法中，检测阶段无法利用语言上下文集中于对指代任务更为重要的点上。为了克服这些缺点，我们提出了第一个3DVG的单阶段方法，根据描述逐步选择关键点。03. 方法0在本节中，我们详细介绍3D-SPS方法。在第3.1节中，我们概述了3DVG任务和我们的方法。在第3.2节和第3.3节中，我们深入探讨了技术细节和0我们如何通过渐进的关键点选择获得目标。在第3.4节中，我们介绍了3D-SPS的训练目标。03.1. 概述0在3D VG任务中，输入是点云P cloud ∈ R N × (3+ F)和目标对象的自由文本描述D，其中P cloud包含N个点的3D坐标和F维辅助特征（RGB、法向量等）。该任务的目标是定位目标对象（即与描述最相关的对象）并预测其边界框。3D-SPS的主要思想是渐进的关键点选择过程，如图2所示。首先，我们采用广泛使用的PointNet++[25]作为骨干网络，从P cloud提取点特征。骨干网络输出M个种子点，具有(x, y,z)坐标和C维丰富的局部特征P seed ∈ R M × (3+ C)。同时，我们使用语言编码器从长度为W的描述D中提取H维词特征L 0 ∈ R W × H。其次，DKS模块基于词特征L 0从M个种子点中选择K 0个与语言相关的关键点，这些关键点属于描述中提到的对象的类别，为区分基准目标提供了重要线索。第三，TPM模块以点特征P 0 和词特征L 0 为输入。TPM模块的第t层以P t-1和L t-1 为输入，输出P t 和L t 。TPM模块逐步区分基准。FFNFFNQK&VQK&VFFNFFNQK&VK&VQQTopkrK&V so = MLP(Pseed),Pobj = Pseed [argtopk(so, ko)] .(1)sd = MLP(Pobj || MaxPool(L0)),P0 = Pobj [argtopk(sd, kd)] .(2)164570Top k o0LP0s o s d0索引0选择0索引0选择0非对象点0与语言无关的点0与语言相关的点0MLP0P seed P 0 P obj0Top k d0图3. DKS模块。我们使用对象置信度得分s o来选择靠近对象中心的点，使用描述相关性得分s d来选择与语言相关的点。0通过多层交叉模态变换器选择目标。我们选择具有特征P T∈ R K T × (3+ C )的K T 个关键点，并更新词特征为L T。最后，我们通过简单的MLP头部基于关键点特征P T和跨模态对齐的词特征L T 预测参考置信度得分s r。具有最高s r的关键点特征用于回归基准目标的边界框，作为中心c ∈ R3 和大小s ∈ R 3 。将3DVG任务视为关键点选择问题，我们的3D-SPS专注于从点云中区分目标对象的关键点，直接预测边界框，比传统的检测-匹配两阶段方法更有效。03.2. 描述感知的关键点采样0由于3D锚框的搜索空间非常庞大，2D目标检测中广泛采用的数据无关锚点分配策略在3D中是不可行的。为此，大多数3D目标检测方法通常采用采样方法（例如FPS[25]）从种子点中采样关键点，并为每个选定的点生成一个提案。现有的3DVG任务的检测-匹配方法通常在检测阶段使用相同的策略。然而，直接将检测中的采样策略应用于3DVG任务是不明智的，因为两个任务的兴趣点不同。3D目标检测的采样目标是尽可能覆盖整个场景以检测潜在的对象，而3DVG的目标是定位所指目标。因此，我们提出了DKS来帮助模型关注与语言相关的对象的关键点，而不是整个场景。具体而言，我们将词特征引入采样过程，选择在描述中提到的对象的关键点。这些关键点包含了不仅目标对象的信息，还包含了帮助确定目标的相关对象的信息。图3详细介绍了DKS。我们首先基于点特征P seed 使用对象置信度得分s o来确定0点自注意力语言自注意力0加和和归一化0点交叉注意力0加和和归一化0跨模态注意力0加和和归一化0加和和归一化0加和和归一化0跨模态注意力0点0加和和归一化0加和和归一化0加和和归一化0加和和归一化0平均池化0跨注意力0映射0索引选择0词特征0关键点0词特征关键点0图4.TPM模块。它是一个双流跨模态转换器模型。我们根据语言-点交叉注意力图A t 在第t层选择目标的关键点。0判断点是否靠近物体中心。选择具有前k o 个最高s o的关键点，如下所示：0然后，利用描述相关性得分s d 选择与描述上下文L 0相关的前k d 个关键点作为P 0 。我们同时使用点特征P obj和全局词特征来预测每个点的s d ，可以表示为：03.3. 面向目标的渐进挖掘0通过DKS粗略选择与语言相关的关键点后，我们使用TPM模块进行精细目标挖掘。TPM由T层堆叠的多模态双流转换器模型构成，其中词特征和关键点特征在分离的流中进行处理，并通过跨模态注意力层进行交互以建模关系和挖掘目标。在第t层，TPM从P t − 1 中选择P t。TPM逐步选择关键点，并通过在每一层中丢弃与目标无关的关键点来集中注意力。内部/跨模态建模。如图4所示，我们采用注意力机制[32]来学习内部模态关系。对于点特征，点自注意力块有助于细化点的视觉特征并利用它们的空间关系。对于词特征，语言自注意力块用于提取上下文关系。164580特别地，我们利用一个点交叉注意力块来建模场景中关键点的全局位置，因为选定的关键点之间的交互无法很好地建模包含全局位置的描述，比如“在房间的中心/角落”。因此，场景点云Pseed（DKS之前的点特征）被融合以获取全局场景特征。接下来，点特征和词特征在跨模态注意力块中进行交互。在这些块中，点分支通过词特征辅助来区分目标，而语言分支通过关注点特征来融合场景信息。注意力引导的关键点选择。TPM在每个层次上减少关键点集，并逐渐聚焦于目标，如图4所示。我们利用语言-点交叉注意力图A t来表示关键点对于指代任务的重要性。具体而言，我们对At 进行平均池化，得到逐点的注意力分数ˆa t ∈ R K t − 1。然后，选择具有前k r 个最高ˆa t的关键点作为下一层的关键点，如下所示：0P t = P t − 1 [argtopk(ˆa t, k r)]. (3)03.4. 训练目标0视觉定位损失。3D VG损失L VG是我们框架的主要损失。在训练阶段，我们使用从PT预测的指向置信度分数s r监督目标标签。在推断阶段，我们只选择P T中具有最高s r的关键点来预测目标框。我们将ScanRefer[2]中的损失函数调整为适应我们的框架。在ScanRefer中，s r的目标标签是一个one-hot标签。将与真实目标框具有最高IoU的提议框的关键点设置为1，其他关键点设置为0。然而，在3D-SPS中，由于模型旨在选择目标上的点，通常在TPM之后会得到几个可行的目标关键点。因此，我们将这个目标标签从one-hot修改为multi-hot。具体而言，我们将预测框与真实目标框的IoU为前k1个最高且大于阈值θ的关键点分配为1。DKS损失。在DKS模块中，我们使用FocalLoss [18]对目标置信度分数s o 和描述相关性分数s d进行监督。s o由点是否在物体框内以及是否属于离物体中心最近的k2个点来监督。s d由点是否属于描述中提到的任何物体来监督。检测损失。根据[20, 23]中使用的损失函数，我们使用目标检测损失L Det作为视觉定位任务的辅助损失。具体而言，L Det包括目标语义分类损失L Cls、目标性二分类损失LObj、中心偏移回归损失L Center和边界框回归损失LBox。在训练阶段，我们监督0由每个TPM层的所有关键点预测的物体框。在推断阶段，我们只使用最后一个TPM层中具有最高s r的关键点的框预测作为我们的预测定位目标。语言分类损失。根据[2]，我们还引入语言分类损失L Lang作为辅助损失，其中包括基于每个TPM层的更新语言特征的目标类别的多类别对象分类损失。总的损失函数为：L =α1L VG + α2L DKS + α3L Det + α4LLang，其中权重α1、α2、α3、α4用于平衡不同的损失项。04. 实验04.1. 数据集0ScanRefer数据集[2]是一个基于800个ScanNet[5]场景的3D视觉定位数据集，包含51,583个描述。每个场景平均有13.81个物体和64.48个描述。数据集的评估指标是Acc@ mIoU，即预测框与真实框的IoU > m的描述的比例，其中m∈ {0.25,0.5}。准确率以独特和多个类别进行报告。具体而言，如果目标物体是场景中其类别唯一的物体，则被分类为独特；否则，被分类为多个。Nr3D和Sr3D。ReferIt3D数据集[1]也基于ScanNet[5]场景。它包含两个子集：Sr3D和Nr3D。Sr3D（3D空间参考）包含由模板生成的83,572个合成表达式，Nr3D（3D自然参考）包含41,503个人类表达式。它直接提供每个物体的分割点云作为输入，而不是整个场景。ReferIt3D的评估指标是准确率，即模型是否正确选择目标物体。04.2. 实现细节0我们的模型使用AdamW优化器[21]进行端到端训练，批大小为32，训练32个epochs。TPM层和模型的初始学习率分别经验性地设置为1e-4和1e-3。我们在第{16, 24,28}个epoch应用学习率衰减，衰减率为0.1。我们采用预训练的PointNet++[25]，遵循[20]中的设置和[26]中的语言编码器，而网络的其余部分从头开始训练。对于ScanRefer数据集，我们使用xyz坐标、RGB值、法向量和提取的多视图特征作为输入，遵循[2]的方法。Pseed的数量M经验性地设置为1024。P 0的数量K0经验性地设置为512。TPM层的数量T设置为4，在每一层中选择50%的关键点，即{K t | t ∈ {1, 2, 3, 4}} = {256,128, 64, 32}。损失权重经验性地设置为α1 = 0.1，α2 =0.8，α3 = 5，α4 =0.1以平衡项。我们将k1设置为4，θ设置为164590方法发表输入 Unique Multiple Overall0Acc@0.25 Acc@0.5 Acc@0.25 Acc@0.5 Acc@0.25 Acc@0.50SCRC [14] CVPR16仅2D 24.03 9.22 17.77 5.97 18.70 6.45 One-stage [38] ICCV19仅2D 29.32 22.82 18.72 6.49 20.38 9.040ScanRefer [2] ECCV20仅3D 67.64 46.19 32.06 21.26 38.97 26.10 TGNN [15] AAAI21仅3D 68.61 56.80 29.84 23.18 37.3729.70 IntanceRefer [42] ICCV21仅3D 77.45 66.83 31.27 24.77 40.23 32.93 SAT [39] ICCV21仅3D 73.21 50.83 37.64 25.1644.54 30.14 3DVG-Transformer [44] ICCV21仅3D 77.16 58.47 38.38 28.70 45.90 34.47 3D-SPS（我们的方法）- 仅3D 81.6364.77 39.48 29.61 47.65 36.430ScanRefer [2] ECCV20 2D + 3D 76.33 53.51 32.73 21.11 41.19 27.40 InstanceRefer [42] ICCV21 2D + 3D 75.72 64.6629.41 22.99 38.40 31.08 3DVG-Transformer [44] ICCV21 2D + 3D 81.93 60.64 39.30 28.42 47.57 34.673D-SPS（我们的方法）- 2D + 3D 84.12 66.72 40.32 29.82 48.82 36.980表1. ScanRefer的比较。Unique代表没有干扰物的样本，Multiple代表其余样本。我们测量预测与真实值的IoU大于{0.25, 0.5}的百分比。0方法发表 Easy Hard View-dep. View-indep. Overall0Nr3D0ReferIt3DNet [1] ECCV20 43.6% ± 0.8% 27.9% ± 0.7% 32.5% ± 0.7% 37.1% ± 0.8% 35.6% ± 0.7% TGNN [15] AAAI21 44.2% ±0.4% 30.6% ± 0.2% 35.8% ± 0.2% 38.0% ± 0.3% 37.3% ± 0.3% IntanceRefer [42] ICCV21 46.0% ± 0.5% 31.8% ± 0.4% 34.5% ±0.6% 41.9% ± 0.4% 38.8% ± 0.4% 3DVG-Transformer [44] ICCV21 48.5% ± 0.2% 34.8% ± 0.4% 34.8% ± 0.7% 43.7% ± 0.5%40.8% ± 0.2% LanguageRefer [28] CoRL21 51.0% 36.6% 41.7% 45.0% 43.9% SAT [39] ICCV21 56.3% ± 0.5% 42.4% ± 0.4%46.9% ± 0.3% 50.4% ± 0.3% 49.2% ± 0.3% 3D-SPS（我们的方法）- 58.1% ± 0.3% 45.1% ± 0.4% 48.0% ± 0.2% 53.2% ± 0.3%51.5% ± 0.2%0Sr3D0ReferIt3DNet [1] ECCV20 44.7% ± 0.1% 31.5% ± 0.4% 39.2% ± 1.0% 40.8% ± 0.1% 40.8% ± 0.2% TGNN [15] AAAI21 48.5% ±0.2% 36.9% ± 0.5% 45.8% ± 1.1% 45.0% ± 0.2% 45.0% ± 0.2% IntanceRefer [42] ICCV21 51.1% ± 0.2% 40.5% ± 0.3% 45.4% ±0.9% 48.1% ± 0.3% 48.0% ± 0.3% 3DVG-Transformer [44] ICCV21 54.2% ± 0.1% 44.9% ± 0.5% 44.6% ± 0.3% 51.7% ± 0.1%51.4% ± 0.1% LanguageRefer [28] CoRL21 58.9% 49.3% 49.2% 56.3% 56.0% SAT [39] ICCV21 - - - - 57.9% ± 0.1%3D-SPS（我们的方法）- 56.2% ± 0.6% 65.4% ± 0.1% 49.2% ± 0.5% 63.2% ± 0.2% 62.6% ± 0.2%0表2. Nr3D和Sr3D的比较。Easy样本不包含干扰物，其余属于Hard。View-dep. / View-indep.表示描述是否依赖于相机视角。0在L VG中，我们将k1设置为0.25，在LDKS中将k2设置为5。所有实验都是在单个NVIDIA V100GPU上使用PyTorch实现的。有关ReferIt3D数据集的更多实现细节，请参阅补充材料。04.3. 定量比较0在表1和2中，我们将3D-SPS与ScanRefer和Nr3D/Sr3D数据集上的现有3DVG方法进行比较。涉及的方法包括基于2D的方法SCRC[14]和One-stage [38]，基于分割的两阶段方法TGNN[15]和InstanceRefer [42]，基于检测的两阶段方法SAT[39]，3DVG-Transformer [44]，ScanRefer[2]和ReferIt3DNet [1]。0ScanRefer.3D-SPS在表1中表现出色，远远超过现有方法。在输入列中，3D0only代表xyz + RGB + normals，2D +3D表示每个点额外添加了一个128维的多视角特征到仅3D中。我们将这些多视角特征与主干网络的点特征连接起来，并将它们一起输入到TPM中。在仅3D设置中，与现有最先进方法相比，3D-SPS在Acc @0.5上提高了+1.96%，在Acc@0.25上提高了+1.75%。在2D+3D设置中，3D-SPS在Acc@0.5上超过现有方法2.31%，在Acc@0.25上超过现有方法1.25%。0请注意，TGNN和InstanceRefer都依赖于预先定义的3D实例分割模型。因此，InstanceRefer在Unique子集的Acc@0.5得分上表现更好。0Nr3D & Sr3D。ReferIt3D数据集（Nr3D &Sr3D）的任务是在给定的真实边界框中识别目标对象。我们修改了3D-SPS3D-SPSTwo-stage Baseline641282565120.200.250.300.35Point Number Sampled From Pseed3D-SPSTwo-stage BaselinePseedP0P1P2P3P400.050.100.150.20K S.164600(a) (b)0目标关键点比例0关键点选择0图5. 有效性验证。 (a) 随着从Pseed采样的点数的增加，我们的3D-SPS表现更好。两阶段基线的性能先增加后减少。 (b)随着渐进的与语言相关的关键点选择，我们的3D-SPS中目标关键点的比例在每次选择后增加。此外，在两阶段基线中使用的与语言无关的采样（例如FPS）相比，这一比例始终表现出更好的性能。0Acc@0.25 Acc@0.50FPS 43.83 31.88 DKS (w/o s d) 46.1534.95 DKS (w/o s o) 46.06 35.19 DKS47.65 36.430表3. DKS采样策略的消融结果。0T 1 2 3 4 50Acc@0.25 45.37 45.99 46.48 47.65 47.02 Acc@0.533.13 33.97 34.53 36.43 36.070表4. TPM层数T的消融结果。0因此，移除DKS并仅验证TPM的有效性。为了公平比较，我们在训练过程中采用了SAT[39]提出的2D语义辅助训练，并且在推理过程中仅使用3D输入。表2中的结果显示，渐进选择对于指代任务是有效的。3D-SPS在Nr3D中的准确性上提高了+2.3％，在Sr3D中提高了+4.7％。尽管LanguageRefer在合成数据集Sr3D的Easy子集上表现更好，但在更具挑战性的Hard子集上，3D-SPS的表现要远远优于它。0有效性验证。图5证实了我们的主要思想，即渐进关键点选择，可以解决第1节中的动机问题。我们在ScanRefer的整个验证集上分析了3D-SPS和两阶段方法基线[2]。如图5(a)所示，两阶段基线面临着从Pseed采样的点数的困境。相比之下，3D-SPS受益于更多的采样点。根据图5(b)，两阶段基线受到与语言无关的关键点采样的目标关键点比例较小的限制，而3D-SPS在每次选择后的目标关键点比例显著增加。0关键点 w/o selection w/ selection0Num 32 64 128 256 512 512 → 320Acc@0.25 42.06 44.77 46.30 46.38 46.09 47.65 Acc@0.5 31.8933.88 34.99 35.53 34.98 36.430表5.TPM在是否选择关键点和不同关键点数量上的消融结果。我们的默认设置是w/ selection，其中我们从512逐渐选择关键点到32。04.4. 消融研究0在本小节中，我们研究了提出的DKS和TPM模块的贡献。我们以ScanRefer为例，在仅使用3D设置下报告了总体准确率。DKS模块的采样策略。表3显示了DKS模块中采样策略的消融结果。FPS[25]是一种广泛采用的点采样方法，它努力覆盖整个场景而不特别关注与语言相关的点。DKS（w/o sd）表示仅利用对象置信度分数s o，DKS（w/o so）表示仅使用描述相关性分数s d。DKS表示同时采用so和sd，并且是提出的DKS模块的完整版本。根据表3中的结果，s o和sd对于指代任务都是有益的，有助于DKS选择靠近对象中心的与描述相关的关键点。同时使用s o和sd可以产生有希望的结果。TPM的层数。我们研究了不同TPM层数T ∈ {1, 2, 3, 4,5}的性能。如表4所示，更多的TPM层数可以带来更高的准确性，这证明了TPM和渐进挖掘对于定位是必不可少的。我们将T =4作为默认设置，因为更多的层数可能会导致模型遗漏目标对象的一些关键点并错过最佳边界框。TPM的渐进选择。为了进一步确认渐进关键点选择的有效性，我们比较了是否采用关键点选择的结果，如表5所示。具体而言，对于w/oselection设置，我们只进行多模态自/交注意力。这样，TPM中的关键点数量不会改变，并且在TPM之后从所有关键点中选择预测的框。从表5可以看出，随着关键点数量的增加，w/o selection设置的性能先升高后降低。3D-SPS（w/selection）相比w/oselection设置取得了显著的改进。这一观察结果证明了渐进关键点选择的好处。04.5. 定性比较0在本小节中，我们对ScanRefer验证集进行定性比较，展示3D-SPS的工作原理。语言相关关键点。我们在图6中可视化了3D-SPS的渐进关键点选择过程，并与两阶段基线ScanRefer[2]进行了比较。164610这个水槽在中间0这个咖啡桌子在左边的椅子前面，上面有一个小圆桌子。咖啡桌的左边是一个橙色的凳子。0这个咖啡桌子在左边的椅子前面，上面有一个小圆桌子。咖啡桌的左边是一个橙色的凳子。0从左到右是洗衣机。0描述真实值 3D-SPS 两阶段基线0(a) P0 (b) PT (c) Pred. (d) P0 (e) Pred.0图6.两阶段基线（ScanRefer）失败，而我们的3D-SPS预测正确，因为3D-SPS可以选择更有价值的关键点。(a)由DKS采样的语言相关关键点P0。(b)由TPM选择的目标关键点PT。(c)由3D-SPS预测的边界框。(d)由FPS采样的语言不相关关键点。(e)由ScanRefer预测的边界框。0描述：有一个方形桌子。它在两把扶手椅之间。描述：黑色的桌子在两把灰色的扶手椅之间。黑色桌子后面是窗户。0描述：这是一个棕色的架子。它在桌子上。描述：这个物体是一个小的架子。它坐在床下。0真实值0真实值0床0书桌0窗户0(a) P0 (b) PT (c) Pred. (a) P0 (b) PT (c) Pred.0(a) P0 (b) PT (c) Pred. (a) P0 (b) PT (c) Pred.0图7.在3D-SPS中使用不同描述可视化相同的参考目标。(a)由DKS采样的P0。比较每行中左右子图，当语言相关的对象发生变化时（例如窗户、桌子、床），3D-SPS会关注不同的关键点（红色关键点）。(b)由TPM选择的PT。(c)预测的目标边界框。0由DKS和TPM实现，3D-SPS逐渐关注目标。相比之下，ScanRefer的注意力分散在场景中的各个地方，最终由于检测和匹配的分离而无法定位目标。语言适应关键点。3D-SPS对于不同描述的相同目标选择不同的关键点。如图7（上），为了定位桌子，当左侧样本中提到窗户时，3D-SPS会选择窗户上的一些关键点进行后续挖掘。在右侧，当只提到扶手椅时，3D-SPS只选择扶手椅和桌子上的关键点。在图7（下）中，对于目标架子，当左侧样本中将架子描述为“在桌子上”时，3D-SPS会找到与桌子相关的更多关键点。当描述中包含“床下”时，模型会更关注床。5.结论与讨论0在这项工作中，我们提出了一种全新的基于点云的3D视觉定位框架，称为3D单阶段Re-0点云渐进选择方法（3D-SPS）。在语言的指导下，它按照粗到细的模式逐步选择关键点，并在单个阶段直接定位目标。综合实验证明，我们的方法在ScanRefer和Nr3D/Sr3D数据集上的性能优于现有的3DVG方法，取得了新的最先进性能。局限性。3D-SPS的局限性存在于3D点云和自由形式描述的复杂性，尽管我们在现有方法上取得了显著的改进。视角相关的描述和模糊的查询都可能使模型困惑。这些限制可以指导我们未来的工作。0致谢。这项研究部分得到了中国国家自然科学基金（Grant62122010，61876177），中央高校基本科研业务费和浙江省重点研发计划（2022C01082）的支持。164620参考文献0[1] Panos Achlioptas，Ahmed Abdelreheem，FeiXia，Mohamed Elhoseiny和LeonidasGuibas。Referit3d：用于现实场景中细粒度3D对象识别的神经听众。在ECCV，2020年。2，3，5，60[2] Dave Zhenyu Chen，Angel X. Chang和MatthiasNießner。Scanrefer：使用自然语言在RGB-D扫描中定位3D对象。在ECCV，2020年。1，2，3，5，6，70[3]陈新鹏，马林，陈景元，杰泽群，刘伟和罗杰波。单阶段基础网络的实时引用表达理解。arXiv预印本arXiv:1812.03426，2018年。20[4] Bowen Cheng，Lu Sheng，Shaoshuai Shi，MingYang和DongXu。基于投票的点云中的3D对象检测的回溯代表点。在CVPR，2021年。1，40[5] Angela Dai，Angel X Chang，Manolis Savva，MaciejHal- ber，Thomas Funkhouser和MatthiasNießner。Scannet：室内场景的丰富注释的3D重建。在CVPR，2017年。50[6] Jiajun Deng，Zhengyuan Yang，Tianlang Chen，WengangZhou和HouqiangLi。Transvg：使

下载后可阅读完整内容，剩余1页未读，立即下载