3DVG-变压器：基于点云的视觉接地方案

82 浏览量更新于2023-10-13 收藏 3.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

29283DVG-变压器：基于点云的可视化接地关系建模赵丽晨1，戴岗蔡1，路胜†1，东旭21北京航空航天大学软件学院2澳大利亚悉尼大学{zlc1114，caidaigang，lsheng} @ buaa.edu.cn，dong. sydney.edu.au摘要3D点云的视觉基础是一种新兴的视觉和语言任务，有利于理解3D视觉世界的各种应用。通过将该任务表述为基于检测的问题，许多最近的工作集中于如何利用更强大的检测器和全面的语言特征，但是（1）如何建模复杂关系以生成上下文感知的对象建议以及（2）如何利用建议关系来区分真正的目标对象和相似的建议尚未得到充分研究。受著名的transformer架构的启发，我们提出了一种基于3D点云的关系感知视觉基础方法，命名为3DVG- Transformer，以充分利用上下文线索进行关系增强的建议生成和跨模态建议消歧，这是通过新设计的坐标引导上下文聚合实现的在对象建议生成阶段中的CCA模块和在跨模态特征融合阶段中的多重注意（MA）模块之间的通信。我们验证了我们的3DVG-变压器在两个基于点云的视觉接地数据集，ScanRefer和Nr 3D/Sr 3D从ReferIt 3D，特别是对于包含多个相同类别的对象的复杂场景上，1. 介绍作为一种新兴的三维视觉理解任务，点云视觉定位（visualgroundingonpointcloud），也称为参照三维物体定位（referenced3Dobjectlocalization），其目的是从给定的文本描述中定位输入点云中的目标或区域。视觉基础技术将显著有益于各种现实生活应用，诸如自动驾驶机器人、AR/VR等。尽管在2D图像上的视觉接地方面已经取得了很大的进展[1，2，3，4，5]，但是设计一个可靠的基于点的视觉接地方案仍然是一个具有挑战性的任务，该方案可以很好地理解图像的视觉特性。* 前两位作者贡献相同。†通讯作者：路胜在复杂的3D场景中的关系，并区分从其他类似的建议的目标对象的proposals。最近，Chenet al. [6]和Achlioptaset al. [7]提出通过将其公式化为检测接地问题来解决3D点云上的视觉接地，以及两个新开发的数据集（即，ScanRefer [6]和ReferIt3D [7]）。具体来说，他们首先使用最先进的（SOTA）3D对象检测器[8]或地面实况（GT）边界框来生成对象建议，然后将其特征与来自语言查询的语言特征融合，以预测最有信心的建议。从那时起，提出了几个变体，如TGNN [9]和InstanceRefer [10]，以利用实例分割[11]和专门设计的语言特征，以实现两种模态之间更好的定位和细粒度匹配。然而，这些方法仍然受到一些关键问题的困扰：（1）如何建模复杂的关系（例如，相对的空间位置），（2）如何利用方案之间的各种关系，以在文本描述的帮助下将真实的目标对象与类似的方案区分开因此，当输入场景包含来自同一类别的多个对象时，最近的方法[6，7，9，10]此外，由于最近的视觉背景数据集的规模相对较小，现有的方法也遭受过拟合问题，这也阻碍了这些方法学习可推广的视觉背景模型。为此，我们提出了一个三维点云的关系感知的视觉接地方法，命名为3DVG- Transformer。虽然我们的方法遵循来自ScanRefer [6]的地面检测策略，但我们还在对象建议生成阶段和跨模态融合阶段利用建议之间的各种关系，基于众所周知的Transformer架构[12]的强大关系建模能力。具体来说，在对象提案生成阶段，在生成聚类中心和特征作为初始对象提案之后，我们提出了一个坐标引导的上下文聚合（CCA）模块，该模块堆叠一组坐标引导的Transformer层，从相邻提案和后向提案中提取多级上下文感知表示2929地上在每个Transformer层内，我们在每个多头注意模块处的注意力矩阵中添加新的在跨模态融合阶段，从语言编码模块中提取的词特征和从所选择的专业人员中提取的建议特征与多重注意（MA）模块相融合。多重注意模块由交错的自我注意和交叉注意块的堆叠组成，其中自我注意块增强提议之间的上下文关系，并且交叉注意块将消息从单词特征传递到提议特征。该模块借助点云内以及视觉和语言领域的全面上下文知识，将真实接地结果与其他建议区分开来。来自跨模态融合模块的输出被直接馈送到前馈网络（FFN）中以预测每个提议的对象置信度得分。此外，我们可选地对两种模态采用一对特征增强策略（即，建议复制粘贴和字擦除），这也有利于培训过程。这项工作的贡献有三个方面：（1）专门为点云设计的简单而强大的视觉基础框架（称为3DVG-变换器），其全面地对各种关系进行建模，以用于关系增强的建议生成和跨模态建议消歧。(2)一个新的坐标引导的上下文聚合模块，用于提取点云内的多级上下文特征，和一个多路复用的注意力模块，用于消除歧义的接地结果。这两个模块都受到了Transformer架构[12]的启发。(3)ScanRefer数据集[6]和ReferIt 3D数据集[7]中的Nr 3D/Sr 3D的最新视觉基础性能。我们的方法在具有来自同一类别的多个对象的复杂场景上显著优于基线[6，7，9，102. 相关工作2D图像的视觉基础。视觉基础，或称为指称表达理解，已经在各种二维视觉和语言任务中得到了其目的在于定位由参考表达式[1，2，3]描述的图像中的感兴趣区域。输入的文本描述可以是短句[13]或长句[14]，相应的定位结果由2D边界框[13，15]指定。常规方法主要由两个阶段组成。第一阶段是通过使用预训练的对象检测器或无监督的客观性检测器来生成目标对象建议。第二阶段是通过识别感兴趣的区域来匹配最相关的对象提案，并对它们进行排序。根据区域与查询语句的相似性对区域进行排序[16，2]。这些方法中的大多数专注于利用对象之间的关系[16，17，18，19]。例如，Yanet al. [20]还使用了图注意力网络和模块分解方法来学习关系和语言表达之间的对齐。在MAttNet [2]中，Yuet al.提出了基于语言的注意和视觉注意机制来获取多模态上下文信息。虽然这些方法在处理2D视觉和语言推理任务方面是强大的，但是这些方法可能对于点云上的视觉基础不起作用，其中如何处理3D几何关系[6，7]还没有被探索。因此，我们提出了一个基于变压器的关系建模方案，匹配点云的特点，是专门针对这个特殊的输入数据的视觉接地任务。三维点云的可视化基础。深度学习技术已成功应用于各种基于点云的视觉任务，如分类[21，22]，分割[23，22]，检测[24，25]，3D动作识别，[26]，22]，上采样[27]和点云压缩[28]。3D点云的视觉基础也越来越受到视觉社区的关注。Chen等人[6]发布了ScanRefer数据集，并提出了一个接地检测框架，以端到端的方式学习接地模型。ReferIt3D [7]引入了两个数据集，称为Nr3D和Sr3D，它们与ScanRefer [6]相似，但基于真实边界框而不是预测边界框。Huang等人 . [9] 提出了一种基于文本引导的图神经网络（TGNN），根据查询语句在三维场景中分割出目标对象InstanceRefer [10]还利用了预先训练的全景分割模型，该模型也依赖于手工制作的语言解析模块来选择可识别的边界框。我们的3DVG-变压器在不使用任何外部知识的情况下进行训练，并且我们更加关注对象建议之间的关系建模，以便消除类似匹配的歧义，以实现更强大的接地结果。计算机视觉中的变形金刚受Transformer [12]在自然语言处理（NLP）中的成功启发，最近研究人员还将Transformer结构扩展到各种计算机视觉任务，如图像分类[29]，风格转换[30]，图像字幕[31]，视频接地[32]和物体检测[33，34]。在在点云领域，Transformer 3D-Det [35]使用基于变换器的方法进行3D对象检测，而Pointformer [36]使用所谓的局部-全局变换器将局部特征与全局特征相结合。与现有方法不同，我们的目标是利用Transformer架构来建模3D场景中对象和背景之间的关系，为此我们提出了一种坐标引导的上下文聚合。2930∈∈∈B∈∈i=1C{}i=1∈联系我们印花椅子在玻璃双人椅语言编码模块词语言门.印花椅子在灰色书桌的左边。手套嵌入字擦除GRU特征语言分类器文本类文本描述对象建议生成模块跨模态融合模块点云初始聚类中心初始群集功能精细化集群中心细化的多级聚类特征检测头特征选择词特征F字BBox建议书特点F波普多重注意对象置信度评分图1.我们的3DVG-Transformer的流水线，其中包括一个对象建议生成模块，一个语言编码模块和一个跨模态融合模块。我们的方法的输入是一对点云和文本描述。输出是对象置信度分数，即，具有最高分数的边界框将被认为是最终的接地结果。标记为黄色的模块是我们框架中的关键组件，用于在点云上实现关系增强的视觉基础。由虚线框标记的模块是可选的，并且仅在训练阶段中采用以减轻过拟合。最好用彩色观看。在跨模态特征融合阶段，使用CCA（CCA）模块和MA（multiplex attention）模块来可靠地融合上下文线索以提取更鲁棒的建议特征，并将真实的基础结果与类似的建议区分开。3. 方法在本节中，我们将介绍3DVG-Transformer的技术细节。节中3.1，我们提出了我们的方法的概述节中3.2节。3.3，我们详细阐述了如何利用多层次的语境线索来丰富提案特征的语境意识，以及如何利用提案关系借助词特征来消除基础结果的歧义。节中3.4中，我们介绍了我们的方法的目标函数，它还包括一对用于减轻过拟合的特征增强策略。3.1. 概述如图1，我们的3DVG变压器有两个输入。一种是点云PRN×（3+K），它通过三维坐标和K维辅助特征（例如，RGB、法向量或预训练的多视图外观特征[6]）。另一个输入是单词嵌入WRL×T，表示关于指定目标对象的自由形式L长度文本描述，该文本描述是通过使用预训练的GloVE模型提取的[37]。在3 D点云上的视觉基础的目标是定位感兴趣的对象（即，目标对象），并输出轴对齐的边界。在世界坐标系中，中心为c=[Cx，cy，cz]∈R3，大小为s=[sx，sy，sz]∈R3.我们的3DVG-变压器的整体框架由三个阶段的三个模块组成，包括ob-transformer和ob-transformer。主题建议生成模块、语言编码模块和跨模态融合模块。对象建议生成模块的目标是从对象建议生成边界框，并同时产生它们的上下文感知建议特征为FpropRM×F，其中M是预定义的建议数量，F是特征维度。语言编码模块旨在使用与ScanRefer [6]中相同的GRU单元来将查询词嵌入编码为一组词fea。turesFwordRL×F，全局语言特征eRF用于后续语言分类器以生成文本类[6]。跨模态融合模块将提议特征F_prop和单词特征F_word融合在一起，以产生所生成的边界框的最终对象置信度分数。最终，具有最高置信度分数的绑定框将被认为是最终的接地结果。在这项工作中，我们专注于如何可靠地利用丰富的上下文线索，以提高在对象的建议生成模块的建议功能的目的模型的各种关系，并在同一时间区分真正的目标对象从类似的建议在跨模态融合模块。3.2. 关系增强型提案生成与[6]类似，在对象建议生成阶段，我们使用PointNet++[38]主干从给定点云P中提取基本特征，然后我们应用投票和分组模块[8]对它们进行聚类和聚合，作为关于所有可能对象候选的初始聚类。每个初始聚类被表示为xi，fi，M。XiR3和fiRc分别是每个初始聚类的中心和特征。然而，这些中间输出仅捕获描述候选对象的局部点云特征，因此它们不知道与其他点云特征的关系FFN交叉注意自我关注交叉注意提案复制粘贴自我关注自我关注投票分组坐标引导的上下文聚合2931J·−∞输出聚类中心输出聚类要素X2添加规范FFN空间邻近度计算中间集群中心中心偏移空间邻近矩阵添加规范交叉注意查询键值中间群集功能空间邻近度计算FFN空间近似添加范数矩阵Self-Attention查询键值初始聚类中心初始聚类要素（最后一层的输出）（最后一层的输出）（一）交叉/自注意模块FC级联空间邻近矩阵Sofftftmtmax融合注意力矩阵（×H）注意力矩阵（×H）FCFCFC关查询值（b）第（1）款对象检测的扩展版本[33，34]和我们最近的工作[35]。我们的CCA模块显式地考虑了附近聚类之间的空间接近度，从而显式地对除了其他上下文线索之外的亲们之间的局部空间关系坐标引导的上下文聚合在图2（a）中，我们使用初始聚类中心xi和初始聚类特征fi作为该CCA模块的输入。它具有几个堆叠的坐标引导Transformer层（例如2层），然后是多级特征融合模块。每个坐标引导Transformer层细化其输入聚类中心和聚类特征。多级特征融合模块聚合来自每个Transformer层的输出的细化聚类特征以生成细化的多级建议特征。如[12]所建议的，在每个坐标引导Transformer层中存在两个坐标引导多头注意力模块。第一个是利用输入聚类的空间邻居之间的关系的自注意力块，其随后是添加范数层以产生中间聚类特征，并且随后是前馈网络（FFN）层以生成中间聚类中心。第二个是交叉注意模块，其进一步利用每个中间聚类和初始聚类之间的关系（即，CCA模块的输入）。详细结构示于图1中。第2段（a）分段。我们的坐标引导Transformer的这种特殊设计是为了收集足够的上下文线索到聚类特征，但仍然保留来自初始聚类特征的区分性，以可靠地识别目标对象候选者。上述注意力模块是坐标引导的[35]，因为它们明确考虑了集群之间的空间接近性。如图在图2（b）中，注意矩阵被添加有空间邻近度矩阵，该空间邻近度矩阵描述相邻聚类中心之间的归一化逆坐标距离。空间邻近度矩阵被定义为Ai ， j=norm（1/[d（xq ，xk ）+ε]），其中xq是空间邻近度矩阵。i j i图2. 我们的坐标引导的上下文聚合模块（a）的网络结构，其由2个Transformer层组成（这里省略多级特征融合模块在每个Transformer层中，交叉/自关注块中的关注矩阵由对应的逐块稀疏空间邻近矩阵（b）来增强。建议或背景，并且因此不能与包含关于目标对象的丰富上下文描述的查询语句有效地匹配。因此，我们进一步利用丰富的上下文线索之间的这些集群，通过使用新提出的坐标引导的上下文聚集（CCA）模块。我们的CCA模块的设计受到Transformer架构[12]的启发，特别是第i个查询聚类的聚类中心，并且Xk是第j个关键聚类的聚类中心。是要避免的小常数无穷大. d（xq，xk）表示距离（例如，1distance）和norm（）是一个归一化操作，它将每个在距离矩阵中的条目乘以平均倒数距离。我们应用k-最近邻搜索来生成逐块稀疏空间邻近矩阵，而其余条目则用。具体地，第一自注意模块寻找较大的邻域，并且第二交叉注意模块使用较小的邻域。因此，第一模块在更大范围内对输入聚类之间的非局部关系进行建模，这有助于在大量聚类特征之间传递消息第二个模块利用中间聚类和初始聚类之间的局部对齐来保留代表性的聚类原始群集功能原始集群中心2932∈L L LLLL LLLLi=1L--C候选对象的能力我们根据经验设定k1=20，并且在我们的实现中，k2=5多层次特征融合模块将多层次特征融合模块中的多层次特征融合模块与多层次特征融合模块进行级联。输出来自每个坐标引导变换器层的聚类特征，然后采用FFN层来产生细化的多级聚类特征。这些特征不仅包含来自每个建议的多层次特征，而且还知道邻近对象和背景中的无效建议特征选择。通过采用检测头在细化的多级聚类特征和细化的聚类中心，我们预测的边界框和他们的二进制客观分数的所有建议。我们改进的多级聚类特征被预测的客观性分数所掩盖，即，不可靠的簇特征将被标记为零。然后将最终建议特征FpropRM×F馈送到跨模态融合模块中。3.3. 跨模态提案消歧在将单词特征Fword馈送到独立的自注意模块中之后，我们提出了一个多重注意模块来融合单词特征和建议特征Fprop以消除真实边界框与其他类似建议的歧义。多重注意。如图如图1所示，多路注意（MA）模块包括若干对交错的多头自注意和交叉注意块。在每一对中，首先使用自我注意力块来利用所选择的提议之间的上下文关系，并增强独特性（a.k.a.消歧），然后输入单词特征和增强的建议特征被馈送到交叉注意块中，用于从单词特征向建议特征传递消息。在我们的实现中，我们使用两对交错的注意力块。在这项工作中，我们的自我注意力块遵循香草多头注意力结构[12]，它可以很容易地被坐标引导的自我注意力块所取代（见图2）。2（b））的辅助下，额外的空间接近矩阵。MA模块的输出特征被馈送到FFN层以产生对象置信度分数在softmax激活层之后，作为M个生成的边界框的定位置信度。3.4. 损失函数我们使用类似的损失函数，如ScanRe中所使用的。fer [6]，其包含用于视觉基础的定位损失loc、用于训练可靠检测器的对象检测损失det以及语言到对象分类损失cls，以确保单词特征可以与目标对象良好匹配。注意，对象检测损失ex-0 的情况。1sem-cls+box ，以及 box=center-reg+0 。 1size-cls+size-reg.最终损耗是这些项的线性组合，即，=0。3loc+10det+0. 1cls. 权重是根据经验设置的，用于平衡不同的项。功能增强。如图1，我们还使用两种策略来合成更硬的负训练词特征和建议特征对，以减轻过拟合问题。(1)建议复制粘贴：我们从3D对象检测中的复制粘贴策略[40]中继承了类似的想法，但是我们从其他场景中复制可靠的建议特征并替换不可靠的建议特征（即，具有低客观性分数的那些）。(2)词嵌入：我们在GRU单元之前删除了一部分词嵌入，以缓解基础模型主要由句子的突出部分决定的问题具体来说，我们随机删除输入句子的20%的单词，并且我们也有50%的机会删除具有最高注意力分数的目标对象名词。被擦除的单词被替换为4. 实验4.1. 数据集和实施详细信息数据集。我们在两个基于最近点云的视觉基础数据集上评估我们的3DVG-变压器，包括来自ReferIt 3D [7]和ScanRefer [6]的Nr 3D/Sr 3D。- ScanRefer：ScanRefer [6]对800个场景中的11，046个对象有51，583个每个场景平均有13个。81个物体和64个。48个描述。我们遵循ScanRefer基准测试，分别使用36，655、9，508和5，410个样本分割训练/验证/测试集。对于这个数据集，我们使用Acc@0。25 IoU和Acc@0。5 IoU作为我们的衡量标准，即正确预测与地面实况（GT）边界框的IoU大于0的边界框。25和0。五、报告了“唯一”和“多个”子集的总体准确度和准确度。在[6]之后，如果场景只包含其类中的单个对象，则将其标记为“唯一”，否则将其标记为“多个”。为了充分评估我们的方法，我们比较我们的方法与基线方法的验证集和在线测试集可在ScanRefer- Nr3D和Sr3D：在ReferIt3D [7]中存在两个子数据集：参考话语的合成数据集（Sr3D）和具有自然（人类）参考话语的数据集（Nr3D）。这两个数据集都是基于Scan-Net构建的，我们使用它的官方分裂。具体来说，Nr3D包含由ReferItGame和Sr3D收集的41，503个样本包含从合成TEM生成的83，572个板. 对于这两个数据集，任务是选择哪个对象是首选对象，它通过实例匹配精度进行评估。与[6]类似，Nr3D和Sr3D也在Qiet al.”[8]《说文》：“以礼为礼，以礼为礼。Net数据集[39]，其中Ldet=Lvote-reg+ 0。1Lobjn-cls+1http://kaldir.vc.in.tum.de/scanrefer_benchmark2933表1.ScanRefer数据集[6]上不同方法的比较，其中还报告了“唯一”和“多个”子集的结果我们报告其与GT框的IoU大于0的正确预测的边界框的百分比。25和0。五、验证集上的唯一多个总体ScanRefer在线基准测试扫描参考[6]二维+三维68.5943.5334.8820.9742.4426.03TGNN [9]二维+三维68.3058.9033.1025.3041.0032.80实例参考[10]二维+三维77.8266.6934.5726.8844.2735.803DVG-变压器（我们的）二维+三维75.7655.1542.2429.3349.7635.12表2. Nr3D和Sr3D数据集上不同方法的比较[7]。“容易”和“困难”表示场景中是否存在来自同一对象类别的2个以上实例，其中“view-dep”。和“视图独立”。是指所述引用表达式是依赖于还是独立于相机视图。数据集Nr3DSr3D具有不同的测试子集，其中“容易”和“困难”子集具有与ScanRefer上的“唯一”和“多个”子集相同的定义，而“视图-深度”子集具有与ScanRefer上的“唯一”和“多个”子集相同的定义和“视图独立”。通过参考表达式是依赖于还是独立于摄像机视图来确定子集实施详情。所有实验都在配备NVIDIA RTX 2080TiGPU卡的PyTorch平台上实现。对于ScanRefer数据集，我们使用AdamW优化器以端到端的方式训练我们的模型[42]。根据经验将投票分组模块和检测头、CCA模块、语言编码模块和跨模态融合我们应用余弦学习率衰减策略，权重衰减因子为1 e-5。该网络被训练了120，000次迭代，批量大小为8，其中每个场景与8个句子配对，因此在每次迭代中有64个句子与8个对于Sr3D和Nr 3D数据集，我们遵循[7]中的设置来提取亲-中心来指导我们的CCA模块，因此我们不输出聚类中心。由于Nr 3D/Sr 3D中的句子长度比ScanRefer [6]短得多，因此我们不对该数据集使用基于单词擦除的增强策略。其他培训细节与[7]中描述的相同。4.2. 与最先进方法的在表 1 和表 2 中，我们的 3DVG-Transformer 与ScanRefer和Nr 3D/Sr 3D数据集上的几种基线方法进行了比较，这些方法包括基于2D的方法SCRC [1]和One-stage [41] ，基于实例分割的方法 TGNN [9] 和InstanceRefer [10]，以及其他基线方法ScanRefer2 [6]和ReferIt 3D [7]。定量比较。表1报告了ScanRefer数据集的定量结果。在验证集上，我们根据使用的辅助信息报告了两个结果，其中模态+多视图+法线处理来自GT实例分割掩模的特征使用PointNet++ [38]。在这项工作中，我们使用的GT集群2我们报告了基于其github存储库的更新结果。方法模态Acc@0.25Acc@0.5Acc@0.25Acc@0.5Acc@0.25Acc@0.5SCRC [1]仅2D24.039.2217.775.9718.706.45单级[41]仅2D29.3222.8218.726.4920.389.04扫描参考[6]仅3D67.6446.1932.0621.2638.9726.10实例参考[10]仅3D77.1366.4028.8322.9238.2031.353DVG-变压器（我们的）仅3D77.1658.4738.3828.7045.9034.47扫描参考[6]二维+三维76.3353.5132.7321.1141.1927.40TGNN [9]二维+三维68.6156.8029.8423.1837.3729.70方法容易硬视图深度视图独立整体参考3D [7]43.6% ± 0.8%27.9% ± 0.7%32.5% ± 0.7%37.1% ± 0.8%35.6% ± 0.7%TGNN [9]44.2% ± 0.4%30.6% ± 0.2%35.8% ± 0.2%38.0% ± 0.3%37.3% ± 0.3%实例参考[10]46.0% ± 0.5%31.8% ± 0.4%34.5% ± 0.6%41.9% ± 0.4%38.8% ± 0.4%3DVG-变压器（我们的）48.5% ± 0.2%34.8% ± 0.4%34.8% ± 0.7%43.7% ± 0.5%40.8% ± 0.2%参考3D [7]44.7% ± 0.1%31.5% ± 0.4%39.2% ± 1.0%40.8% ± 0.1%40.8% ± 0.2%TGNN [9]48.5% ± 0.2%36.9% ± 0.5%45.8% ± 1.1%45.0% ± 0.2%45.0% ± 0.2%实例参考[10]51.1% ± 0.2%40.5% ± 0.3%45.4% ± 0.9%48.1% ± 0.3%48.0% ± 0.3%3DVG-变压器（我们54.2% ± 0.1%44.9% ± 0.5%44.6% ± 0.3%51.7% ± 0.1%51.4% ± 0.1%2934椅子和桌子在白板前面的后面。是左边的那个。沙发在咖啡桌的左边。沙发是橙色的有两个座位。一把黑色的椅子坐在书桌旁。它在墙上的信息板前面。一个棕色的奥斯曼，上面有两个黑色的背包左边是一架黑色的钢琴。站在桌子的末端面对擦黑板。从桌子的右边往下看，办公椅是第四把，正对着墙上的板子图3.来自ScanRefer [6]和我们的3DVG-变压器的定性结果。GT箱用蓝色标记。如果一个预测框的IoU得分高于0。5、这个盒子用绿色标记，否则用红色标记。我们的方法在“2D+3D”设置下的结果我们的方法优于所有的基线方法显着的性能增益。对于“2D+3D”设置下的验证集上的“多个”子集，我们的方法实现了超过6。5%和5。与最近的SOTA方法相比，在 Acc@0 方面获得了 2% 的增益。 25 和Acc@0。5个指标，分别验证了所提出的3DVG-变压器是有效的建模复杂的关系，特别是当接地一个实例出多个类似的对象在同一场景中。测试集上的结果也验证了我们的方法显着优于其他基线方法的注意，TGNN [9]和InstanceRefer [10]受益于预训练的实例分段骨干网络，因此InstanceRefer具有更好的Acc@0是合理的。5分，其中关系建模可能不是必需的。在表2中，我们报告了Nr3D和Sr3D数据集上的实例匹配精度。所提出的3DVG- Transformer实现了40的整体精度。8%，51。4%，其在很大程度上优于所有基线方法（即，二、0%和3. 比并发工作InstanceRefer [10]高4%）。请注意，我们的结果对更具挑战性的“硬”和“视图独立”。子集优于所有基线方法，这也验证了我们的3DVG-变压器可以建模表3.“2D+3D”设置下ScanRefer确认集[6 我们仅报告Acc@0.25和Acc@0.5的“总体”结果。方法Acc@0.25Acc@0.5扫描参考[6]41.1927.40我们的无CCA MA aug.41.4526.66我们的无CCA aug.43.6531.15我们的无CCA45.7632.25我们47.5734.67复杂的空间关系。定性比较。图 3 显示了我们的方法和基线方法ScanRefer [6]的代表性视觉接地结果如果预测框与GT框的IoU得分高于0，则预测框标记为绿色。5，否则用红色标记。GT箱用蓝色标记。这些示例表明，我们的3DVG-变换器实现了更可靠的3D对象本地化结果，特别是当场景中混杂有多个类似对象并且文本描述很长时（参见最后两列）。ScanRefer的失败案例表明，该基线方法不能很好地建模复杂关系和区分歧义对象。4.3. 消融研究和分析在本小节中，我们将讨论每个模块的贡献，并进行更多的分析。描述我们扫描参考地面实况2935表4.我们的3DVG-变压器的结果（即。“Add SPM”) and twovariants ( “w/o SPM” and “Mul SPM”) on the Nr3D validationset成分分析我们以ScanRefer验证集[6]为例，执行全面的消融研究并分析3DVG- Transformer中的不同组件。表3示出了来自我们的方法中的模块的不同组合的结果第一行是ScanRefer [6]中基线方法的报告结果。“Oursw/o CCA 意味着我们在我们的方法中不使用我们新提出的模块和增强策略，这与ScanRefer [6]几乎相同。“Ours w/o CCA 这意味着我们用我们新提出的基于多注意力的跨模态融合模块替换了基线方法ScanRefer [6]中的简单特征融合模块。 “Ours w/o CCA” means wefurther use the feature augmentation strategies (建议复制粘贴和字擦除）。“Ours” means 实验结果表明，引入各个组件后，系统性能得到了持续的提高，验证了各个模块的有效性。在坐标引导的注意力模块中用于融合空间邻近矩阵与注意力矩阵的选择。我们以Nr3D数据集[7]为例，比较在本模块中融合空间邻近矩阵与注意力矩阵时的不同选择我们考虑三种策略：1）“不带SPM”：不使用空间邻近矩阵，即直接将注意力矩阵作为最终的注意力矩阵; 2）“Mul-SPM”：将空间邻近度矩阵与注意力矩阵相乘生成融合注意力矩阵; 3）“Add-SPM”：在我们的3DVG-变换器方法中使用的默认策略，其中我们添加空间邻近矩阵和注意矩阵以产生融合的注意矩阵。如表4所示，通过使用我们的默认策略实现了最佳结果，而不使用坐标引导注意力策略的定位精度显著下降。使用不完整的文本描述时的结果根据[6，10]中的实验，我们还比较了ScanRefer [6]、InstanceRefer [10]和我们的3DVG- Transformer在仅使用第一个句子作为输入时的结果场景标准注意我们的方法找到垃圾桶旁边的梳妆台图4.通过使用我们基于Sr3D [7]的地面实况边界框（bboxes）的方法对注意力地图进行可视化，与我们的方法的一个变体进行比较，该变体简单地应用了标准注意力机制。这个注意力图来自我们的MA模块中的第二个自我注意力块，因此已经捕获了点云中对象之间的关系，并且还跨两种模态。这里，我们只可视化查询对象的注意力图（即，也就是说，我们只使用与查询对象"垃圾桶"相对应的融合注意力矩阵的一行（在softmax操作之后）来生成注意力地图。查询对象、真实接地对象和相似对象分别被着色为红色、绿色和黄色较暗/较亮的颜色表示较高/较低的注意力分数。所提出的方法可以更好地发现查询对象在 Acc@0.5 度量方面为 32.45% ，其优于基线方法ScanRefer （即， 26.12% ，如 [6] 中所报道的）和InstanceRefer（即，29.15%，如[10]中所报道）。这个模型在多大程度上真正提取了提议之间的关系？在表1中，在“多个”设置下的显著改进图4.我们证明了我们的关系建模方案可以更好地接地“梳妆台”旁边的5. 结论在这项工作中，我们介绍了一个新的三维点云为基础的视觉接地框架，被称为3DVG- Transformer。我们的框架包括两个新设计的transformer类模块（即。坐标引导的上下文聚合模块和多重注意力模块）来利用点云中的丰富关系。我们的框架充分利用上下文线索来全面地表示3D场景，并帮助消除视觉基础结果的歧义。综合实验表明，我们的方法显着优于现有的视觉接地方法（ScanRefer [6]和Nr 3D/Sr 3D在ReferIt 3D[7]），特别是在具有多个对象来自同一类别的挑战性场景。致谢这项工作得到了Na-的双曲正切值。由于我们的关系建模能力所赋予的变压器式的结构，我们的方法3DVG变压器实现了最佳的整体精度国家重点研究开发项目（No. 2018AAA0101900）、国家自然科学基金（No.61906012）。方法不带SPMMul SPM添加SPM整体36.6% ± 0.3%38.7% ± 0.4%40.8% ± 0.2%容易44.0% ± 0.3%45.3% ± 0.5%48.5% ± 0.2%硬29.5% ± 0.6%32.5% ± 0.3%34.8% ± 0.4%视图深度32.6% ± 0.6%34.8% ± 0.4%34.8% ± 0.7%视图独立38.6% ± 0.2%40.7% ± 0.4%43.7% ± 0.5%2936引用[1] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，2016年。[2] Licheng Yu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，Mohit Bansal，and Tamara L.伯格。MAttNet：用于引用表达式理解的模块化注意力网络。在CVPR，2018年。[3] 瓦伦湾弗拉德？纳加拉贾Morariu和Larry S.戴维斯为引用表达式理解建模对象之间的上下文。在ECCV，2016年。[4] Jingyu Liu，Liang Wang，Ming-Hsuan Yang.通过属性引用表达式生成和理解。InICCV，2017.[5] Xuejing Liu，Liang Li，Shuhui Wang，Zheng-Jun Zha，Dechao Meng，and Qingming Huang.自适应重构网络在弱监督指称表达中的应用。在ICCV，2019年。[6] Dave Zhenyu Chen ， Angel X Chang ， and MatthiasNießner. ScanRefer：使用自然语言在RGB-D扫描中进行3D对象定位。在ECCV，2020年。[7] Panos Achlioptas ， Ahmed Abdelreheem ， Fei Xia ，Mohamed Elhoseiny，and Leonidas Guibas.ReferIt3D：用于在真实世界场景中进行细粒度3D对象识别的神经在ECCV，2020年。[8] Charles R. Qi，Or Litany，Kaiming He，and Leonidas J.Guibas点云中3D物体检测的深霍夫投票。在ICCV，2019年。[9] 黄品浩，李汉鸿，陈焕宗，刘丁禄。用于参考3D实例分割的文本引导图神经网络。在AAAI，2021年。[10] Zhihao Yuan ， Xu Yan ， Yinghong Liao ， RuimaoZhang，Zhen Li，and Shuguang Cui.实例参考：基于实例多层次上下文参照的点云视觉基础协同整体理解。ICCV，2021年。[11] 李江，赵恒双，史少帅，刘舒，傅志荣，贾佳雅.PointGroup：用于3D实例分割的双集点在CVPR，2020年。[12] 作者：Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszko-reit，Llion Jones，Aidan N.戈麦斯，卢卡斯凯泽，伊利亚·波罗苏欣。注意力是你所需要的。NeurIPS，2017。[13] 布莱恩A.放大图片作者：Chris M. 胡安·塞万提斯Caicedo ， Julia Hockenmaier ，和 Svetlana Lazebnik.Flickr30k实体：收集区域到短语的对应关系，以获得更丰富的图像到句子模型。在ICCV，2015年。[14] 毛俊华，黄强，亚历山大·托舍夫，Oana Camburu，Alan L. Yuille和Kevin Murphy无歧义对象描述的生成和理解。在CVPR，2016年。[15] Sahar Kazemzadeh 、 Vicente Ordo

下载后可阅读完整内容，剩余1页未读，立即下载