Transformer实现3D密集字幕的跨模态知识传递

169 浏览量更新于2023-10-25 收藏 13.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

85630X-Trans2Cap：使用Transformer进行3D密集字幕的跨模态知识传递0袁志豪1，†，严旭1，†，廖英红1，郭瑶2，李冠斌3，崔曙光1，李震1，*01 香港中文大学（深圳），智能未来网络研究所，深圳大数据研究院，2 上海交通大学，3中山大学0{ zhihaoyuan@link., xuyan1@link., lizhen@ } cuhk.edu.cn0摘要03D密集字幕旨在通过自然语言描述3D场景中的个体对象，其中3D场景通常表示为RGB-D扫描或点云。然而，仅利用单模态信息，例如点云，以前的方法无法生成准确的描述。虽然将2D特征聚合到点云中可能是有益的，但它会引入额外的计算负担，特别是在推理阶段。在本研究中，我们研究了一种使用Transformer进行3D密集字幕的跨模态知识传递，即X-Trans2Cap。我们提出的X-Trans2Cap通过教师-学生框架实现了对单模态3D字幕的性能提升。在实践中，在训练阶段，教师网络利用辅助的2D模态，并通过特征一致性约束指导只接受点云输入的学生网络。由于训练阶段中设计良好的跨模态特征融合模块和特征对齐，X-Trans2Cap轻松地获取嵌入在2D图像中的丰富外观信息。因此，在推理阶段只使用点云就可以生成更准确的字幕。定性和定量结果证实，X-Trans2Cap在ScanRefer和Nr3D数据集上的性能优于以往的最先进方法，分别提高了约+21和+16个CIDEr分数。01. 引言0迄今为止，计算机视觉领域在图像字幕[3, 25, 33, 46,50]和密集字幕[24-26,30]方面取得了显著进展，这得益于深度学习技术的成功。与描述2D图像的图像字幕不同，密集字幕（DC）更好地诠释了“一图胜千言”。0* 通讯作者：李震。† 共同一作。0多模态0模型0单模态0模型0知识0训练阶段0多模态0模型0仅使用0单模态0推理阶段0(b)0多模态0模型0(a)0多模态0模型0单模态0模型02D03D02D03D03D02D03D02D03D03D0图1. 跨模态知识传递的动机。 (a)以往的方法在训练和推理阶段都使用额外的2D模态作为输入。 (b)相反，我们在训练过程中利用带有多模态数据的教师-学生框架。对于推理，学生网络只接受3D模态输入。0也就是说，对于DC任务，图像中的每个对象首先被感知，然后根据其性质和上下文提供更加个性化和详细的描述。最近，视觉和语言中的3D跨模态学习也引起了越来越多的关注。提出和研究了几个数据集[1, 6, 15]和下游应用[20,56]。与具有规则网格和密集像素的2D图像不同，由一组点表示的3D数据是无序的并且在3D空间中分散，这阻碍了将基于2D的方法直接扩展到3D场景。为了在3D点云上执行密集字幕，[9]首次提出了一种方法，即Scan2Cap，通过直接将3D目标检测与自然语言生成相结合。具体而言，Scan2Cap首先使用检测主干获取对象提议，85640然后应用关系图和上下文感知注意力字幕模块来学习对象关系并生成标记。此外，通过预训练的E-Net[36]提取的多视图特征进一步投影到输入点云中以增强最终的字幕。然而，Scan2Cap仍然存在一些问题：1）Scan2Cap中的对象表示是有缺陷的，因为它们仅从稀疏的3D点云中学习，因此与从2D图像生成的对象表示相比，无法提供强大的纹理和颜色信息。2）在训练和推理阶段都需要额外的2D输入，如图1(a)所示。然而，额外的2D信息通常在计算上是密集的，并且在推理过程中不可用。例如，同时使用2D和3D输入进行训练的模型无法应用于仅包含3D点云的LiDAR场景。为了解决上述问题，我们探索如何减轻2D和3D数据之间的跨模态学习障碍，并研究如何在3D密集字幕中有效地结合两种模态的优点。为此，我们首次提出了一种灵活而新颖的跨模态框架，即X-Trans2Cap，它使用Transformer[44]将2D图像中的颜色和纹理感知信息转移到3D对象表示中。具体而言，给定场景中的所有实例可以首先通过3D对象检测进行提取。随后，每个实例及其2D对应物的3D特征通过师生框架进行处理。在此框架内，教师网络接受多模态输入，而学生网络仅利用3D输入。考虑到教师和学生流的不同模态，我们创新地设计了一个基于Transformer的知识传递框架，具有更灵活的输入控制和更好的表示。此外，为了进一步增强知识传递，提出了一种具有跨模态融合（CMF）模块和跨模态特征对齐目标的修改后的知识蒸馏操作。由于端到端的训练方案，2D模态中的先验知识可以从根本上改进教师网络和学生网络，即我们的模型利用了具有颜色和纹理感知的2D表示，并减少了额外的计算成本。因此，在推理阶段，X-Trans2Cap可以仅使用3D输入执行卓越的字幕性能，如图1(b)所示。在ScanRefer [6]和Nr3D[1]数据集上进行的充分实验证明了我们提出的X-Trans2Cap的有效性。具体而言，借助额外的2D先验知识和新颖的框架设计，X-Trans2Cap可以有效地学习更好的3D对象表示，并提高模型在没有2D先验知识的情况下的性能，即将ScanRefer上的CIDEr分数从75.75提高到87.09。这个结果也超过了之前的最先进的Scan2Cap约21个CIDEr。01 https://github.com/CurryYuan/X-Trans2Cap0总之，我们的主要贡献有三个方面：0•我们首次提出了X-Trans2Cap，这是一个简单但有效的用于3D密集字幕的跨模态知识传递框架，可以实现具有20•X-Trans2Cap利用修改后的知识蒸馏方法，通过新颖的跨模态融合模块和特征对齐技术合并在Transformer中，消除了推理过程中的额外计算负担，同时实现了卓越的知0• 我们的X-Trans2Cap在ScanRefer [6]（+21.0CIDEr）和Nr3D [1]（+16.7CIDEr）数据集上获得了显著的性能提升。02. 相关工作02.1. 图像字幕和密集字幕0在过去几年中，图像字幕领域提出了许多方法[13, 29, 33,46,50]。最近，许多方法专注于利用注意机制来捕捉图像中的有意义的信息，例如，通过网格区域[33,50]和检测到的对象[3,34]。此外，一些工作尝试将注意力与图神经网络[14, 23,52, 54]或Transformer[10]结合起来以提高性能。对于密集字幕任务，需要为所有检测到的对象生成字幕。Johnson等人[24]是这一具有挑战性领域的先驱。在这方面，[51]考虑了显著图像区域外的上下文，并利用全局图像特征。[26]进一步介绍了检测区域之间的对象关系。然而，由于单个图像的视角有限，当直接转移到3D场景时，基于图像的密集字幕方法的性能会显著降低。02.2. 3D视觉和语言0与图像和语言理解相比，3D视觉和语言理解是一个相对新兴的研究领域。现有的研究侧重于使用语言来限制单个对象，例如检测引用的3D对象[8]或根据语言短语区分对象[2]。最近，ScanRefer[6]和ReferIt3D[1]引入了一项任务，即根据语言描述在3D场景中定位对象，即3D视觉定位。TGNN[20]和InstanceRefer[56]遵循上述设置，并利用全景分割来减少提案的数量。Scan2Cap[9]最近提出了3D密集字幕，它专注于分解3D场景并描述对象的色彩和空间信息。最近，[61]将上述3D定位和字幕任务相结合，相互增强两个任务的性能。虽然有希望，但它.....................85650描述0编码器层10编码器层L0解码器0层0多模态输入0编码器层10编码器层L0解码器0层0特征0对齐0一级CMF03D模态输入0描述的真值0L对齐0（b）0学生0目标对象参考对象0教师...0仅在推理中0一级CMF0（a）02D对应物03D提案0图2.X-Trans2Cap。部分（a）描述了对象表示，其中利用3D提案生成纯3D模态输入。通过整合它们的2D对应物，获得多模态输入。部分（b）说明了X-Trans2Cap的架构，该框架遵循教师-学生设计。教师和学生网络都包含多个Transformer编码器层和一个解码器层。0仅采用点云作为输入来生成实例特征。与包含更强纹理和颜色信息的良好组织的2D图像相比，这种表示固有地挑战了学习过程。02.3. 跨模态知识转移0以前的研究将2D图像应用于3D任务的额外输入，例如3D物体检测[28，37，39，49]，语义分割[12，19，22]和物体跟踪[59，60]。然而，它们在训练和推理阶段都需要额外的2D信息。因此，在评估过程中不可避免地增加了计算负担，并严重限制了在实际应用中的效率。知识蒸馏的概念最早由Hinton等人提出[18]。随后的研究[4，7]通过使用不同方法在网络中匹配中间表示和输出来增强蒸馏。Zagoruyko等人提出了在网络之间对齐注意力激活图的方法[57]。Srinivas和Fleuret通过将Jacobian匹配应用于网络来改进它[43]。近年来，跨模态知识蒸馏[16，47，55，58]通过将知识蒸馏应用于不同的模态来扩展知识蒸馏。最近，有一些工作尝试仅在训练阶段利用2D图像来解决上述问题。其中，提出了2D辅助预训练[32]，将2D卷积核膨胀为3D[48]和与掩膜注意力联合训练[53]。与这些不同，我们采用了一个精心设计的教师-0学生框架通过跨模态融合实现更高效的知识转移，并且实验结果也证明我们的方法比之前的知识转移要好得多。03. 方法0我们的X-Trans2Cap是基于教师-学生框架[18]开发的，这在知识蒸馏研究领域被广泛应用。X-Trans2Cap的详细架构如图2所示。X-Trans2Cap以两种类型的特征作为输入，即学生的纯3D模态输入和教师的多模态输入。我们首先在第3.1节介绍上述特征表示的细节。然后我们在第3.2节中提出了一个基于Transformer的3D密集字幕的基线模型，称为TransCap。在第3.3节中，我们说明了X-Trans2Cap如何将2D先验转化为3D表示，其中提出了一个跨模态融合（CMF）模块。第3.4节介绍了训练目标的细节。最后，通过将上述组件整合到一个整体架构中，我们在第3.5节中说明了X-Trans2Cap在训练和推理阶段的数据流程。03.1. 对象表示0如图2（a）所示，我们的框架以对象级别表示作为输入，每个对象特征都是被描述为。̸(2)(3)SA(X) = Attention(Q, K, V),Q = WqX, K = [WkX; Mk], V = [WvX; Mv],(4)L�l=1αl ⊙ CA(ˆXl, Y),(5)85660注意到一个令牌。鉴于3D场景中有M个对象，在剩余的部分中，对象集表示为O={Om}Mm=1，其中Om和Oattm分别表示第m个对象和第m个对象的属性。在每次迭代中，我们随机选择一个对象作为目标对象（O�）来进行描述，如[9]所述。其他M−1个对象，即{OminO}∩{Om≠O�}，被视为参考对象，只提供位置或关系的线索给目标对象。对于3D模态输入，每个对象从其3D特征、语义、大小以及相对于目标对象的位置角度进行考虑。具体而言，对象表示计算如下：0F3dm = T1([Of3dm;Oclsm;W1Ob3dm;W2Opem]),(1)0其中[∙;∙]表示连接操作。Of3dm是由3D网络（例如PointNet++[40]）提取的输出特征，Oclsm是预测的语义类别的one-hot向量。Ob3dm是对象的3D边界框，由边界框中心（x，y，z）和大小（w，h，l）组成。为了更好地表示对象，我们还为第m个对象设计了一个位置编码Opem，如下所示：0Ope m =[Oxm−0Owm/Ow�;Ohm/Oh�;Olm/Ol�].0位置编码中的前三个元素计算目标对象和第m个对象之间的中心偏移量，其他元素表示它们的相对大小。方程（1）中的两个可学习的投影矩阵W1和W2然后将Ob3dm和Opem的维度转换为d。最后，一个变换函数T1生成第m个对象的最终对象特征F3dm。除了多模态输入中的3D信息外，还引入了相应的2D特征Of2dm和2D边界框Ob2dm作为第m个对象的如下：0Fmulti m =T2([Of3dm;OOpem;0对象级别的表示作为输入，每个对象特征被描述为。0具体而言，对于每个对象，将其3D边界框的真值投影到原始的ScanNet视频[11]上，以获得相应的2D边界框。在每个训练步骤中，从视频序列中随机选择一张图像生成额外的输入。2D框区域的特征由在VisualGenome[27]数据集上预训练的Faster-RCNN检测器[41]提取，被视为第m个实例的2D特征，即Of2dm。最后，如方程（3）所示，通过应用线性和非线性变换W3和T2，为第m个对象生成了一个d维的多模态表示Fmultim。如图2（a）所示，多模态和3D模态输入具有相同的格式，每个输入都是一组0对象特征的形状为R M ×d，其中包含目标对象和M-1个参考对象的特征。为了方便起见，我们将多模态输入表示为F multi = { F multi m } Mm =1，将三维输入表示为F 3d = { F 3d m } M m=1。然后，这两个输入被送入教师网络和学生网络进行跨模态知识传递。03.2. 基线模型：TransCap0为了将三维和多模态对象表示应用于我们的框架，我们首先引入了一个基线模型，名为TransCap，它采用Transformer[44]结构生成目标对象的描述。图2(b)中的学生网络显示了TransCap的架构。它包含L个编码器层和一个解码器层。在每个编码器层中，利用自注意机制获得输入特征的置换不变编码。受[10]的启发，我们设计了自注意算子SA( ∙ )如下：0其中X ∈ R M × D是一个D维序列，W q，W k和Wv是可学习权重的矩阵。与传统的注意力机制[44]不同，两个持久性记忆向量M k和Mv被附加以学习先验知识。字幕解码器以先前生成的单词和来自编码器层的特征为条件，生成下一个标记。具体而言，它集成了来自不同编码器层的特征，并对生成的标记进行交叉注意力。0解码器( ˆ X l , Y ) =0其中CA( ∙ , ∙)表示编码器-解码器交叉注意力[44]，使用来自解码器输出Y的查询以及来自第l层编码器输出ˆ Xl的键和值进行计算。α是具有与交叉注意力结果相同大小的可学习权重。通过这种方式，TransCap以对象特征序列作为输入，并为目标对象生成描述。03.3. 交叉模态融合模块0交叉模态融合（CMF）模块实现了纯三维和多模态特征表示之间的交叉模态特征交互。如图3所示，它旨在构建学生网络到教师网络的相互作用，从而在单一和多个模态之间融合特征。此外，为了进一步增强学生网络学习多模态表示的能力，我们利用随机掩码对教师网络的特征进行处理。由于该框架，多模态表示的优势可以通过端到端的训练协议融合到学生网络中。具体而言，我们逐元素地将学生特征与掩码的教师特征相加。.........++++...where the ˆXstuland ˆXldenote features from l-th en-coder layer of student and teacher networks, respectively.The notation ⊕ means element-wise addition. The mask in-dicator I(p) is initialized with 1 and has the probability ofp change to 0. After that, we feed the fused features intothe next encoder layer of the teacher network. It should behighlighted that, since our CMF module employs the single-directional connection from the student to the teacher, theteacher network can be discarded during inference, i.e., itintroduces no extra computation for the student network.Moreover, various designs for the CMF module, includingablations, are shown in Section. 4.4.85670教师特征学生特征0掩码特征0图3.交叉模态融合（CMF）模块。它旨在构建学生网络到教师网络的相互作用，以相同的编码器层级相互作用不同模态的特征。在训练阶段，教师网络的特征以特定概率被随机屏蔽。0其中ˆ X 学生 l和ˆ X 老师l分别表示学生和教师网络的第l个编码器层的特征。符号⊕表示逐元素相加。掩码指示器I(p)初始化为1，并具有概率p变为0。之后，我们将融合的特征馈送到教师网络的下一个编码器层。需要强调的是，由于我们的CMF模块采用了从学生到教师的单向连接，在推理过程中可以丢弃教师网络，即对学生网络不会引入额外的计算。此外，本文还展示了CMF模块的各种设计，包括消融实验，在第4.4节中。0ˆ X � l = ˆ X 学生 l ⊕ I ( p ) ˆ X 老师 l , (6)03.4. 目标函数0特征对齐损失。遵循知识转移的标准做法，我们使用Huber损失Lalign（即平滑L1回归损失）来对教师和学生网络之间的解码器特征进行对齐。字幕损失。与之前的工作[9]一样，我们在教师和学生网络中的生成的标记概率上应用传统的交叉熵损失函数Lce。此外，为了进一步提高性能，我们提出了一个增强版本的模型X-Trans2Cap（C），通过应用CIDEr-D分数[3]作为奖励来改进性能。按照之前的工作[10]，我们使用基线来计算奖励。0平均奖励而不是贪婪解码。总目标损失。我们将所有三个损失项线性组合成为我们的最终目标损失函数：0L = αLalign + βLce + γLCIDEr, (7)0其中α、β和γ是每个单独损失的权重。为了保证损失项大致相等，我们在验证集上微调权重，并在实验中经验性地将其设置为α=1、β=1和γ=0.1。03.5. 训练和推理方案0图2(b)中的黑色和红色箭头说明了X-Trans2Cap在训练和推理中的信息流。值得注意的是，教师网络和学生网络都是从头开始训练的。在训练阶段，两个网络都被利用（参见图2(b)中的黑色和红色箭头），并且在相应的编码器层之间进行CMF模块和特征对齐以增强相互表示。在推理过程中，如果只有3D模态存在，我们只应用学生网络（参见图2(b)中的红色箭头）。然而，如果还有辅助的2D信息可用，我们将利用更强大的教师框架。在我们的实验中，我们证明了我们的架构可以在有和没有额外模态的情况下同时提高教师和学生网络的性能。04. 实验0我们将我们的方法与Scan2Cap和他们论文中提出的2D基线进行比较。在[9]的基础上，我们进一步在Nr3D数据集[1]上比较了所有方法。更多的实验结果，包括主观评价和消融实验，请参见补充材料。04.1. 数据集0ScanRefer数据集[6]在ScanNet[11]数据集中对800个3D室内场景进行了注释，其中包含了51,583个语言查询。它遵循了官方的ScanNet划分，并分别在训练/验证/测试集中包含了36,665、9,508和5,410个样本。由于该数据集最初用于视觉定位，测试集的标签是不可访问的，因此我们按照[9]中的设置形成了用于训练和测试的训练集和验证集。Nr3D数据集[1]与ScanRefer具有相同的训练/验证划分，其中包含了由亚马逊机械土耳其工人（AMT）进行注释的41,503个查询。与ScanRefer数据集相比，Nr3D更具挑战性，因为它不包含固定或冗余的句子模式，即以“this is”或“thatis”开头的陈述句。我们不会在其对应的数据集Sr3D上比较我们的方法，因为它完全是由机器模板生成的。ScanReferNr3DCB-4MRCB-4MRScan2Cap [9]✗65.7938.5428.8161.9363.3632.0728.9264.56Scan2Cap (Inst)✗64.4436.8928.4260.4261.8932.0228.8864.17TransCap✗75.7542.0628.8262.6270.6035.9929.0466.00X-Trans2Cap✗87.0944.1230.6764.3780.0237.9030.4867.64X-Trans2Cap (C)✗89.4644.4630.7164.5581.4439.0830.7968.15Scan2Cap [9]✓67.9541.4929.2363.6664.1332.9829.7565.24Scan2Cap (Inst)✓70.0441.5729.6764.1064.0033.1929.5365.29TransCap✓88.7244.2430.9564.7077.5537.2530.6367.43X-Trans2Cap✓89.7344.2531.0064.5085.3839.5231.2368.18X-Trans2Cap (C)✓106.1149.0732.2565.5485.4040.5131.3668.8485680表1.使用X-Trans2Cap和以前的方法在ScanRefer和Nr3D数据集上使用地面实例获得的3D密集字幕结果的比较。我们引入了传统的字幕评估指标，即CIDEr（C）、BLEU-4（B-4）、METEOR（M）和ROUGE（R）。列“Extra2D”表示在推理阶段是否使用额外的2D模态。X-Trans2Cap（C）表示在最终目标函数中利用额外的LCIDEr损失的原始模型。0方法额外的2D04.2. 任务和评估指标0任务。在我们的实验中，我们遵循[9]并设计了两个协议来评估生成的字幕：0• 使用真实实例进行密集字幕（OracleDC）：在这种设置下，给出了每个实例的点云。然后需要根据它们的属性信息和空间关系生成忠实的字幕。0• 使用3D扫描进行密集字幕（ScanDC）：这种设置更具挑战性。首先需要从3D扫描中检测出物体，然后根据检测结果为每个物体生成字幕。0评估指标。在Oracle DC中，我们直接将CIDEr[45]、BLEU-4 [35]、METEOR [5]和ROUGE[31]平均应用于所有实例作为评估指标。为了简洁起见，我们将它们分别简化为C、B-4、M和R。在ScanDC中，为了共同衡量生成的字幕和检测到的边界框的质量，我们将上述指标与预测边界框与GT边界框之间的交并比（IoU）得分相结合进行评估。具体而言，我们遵循[9]，将组合指标定义为m @ k IoU = 1 N � N i =1 m i u i，其中 u i∈ {0,1}，如果第i个框的IoU得分超过k，则设置为1，否则为0。我们用m表示上述字幕评估指标，例如CIDEr。N是检测到的物体边界框的数量。我们还使用IoU阈值化的平均精度（mAP）作为物体检测指标。04.3. 3D密集字幕结果0Oracle密集字幕。在表1中显示了OracleDC任务的结果。在上部分，我们比较了在推理中没有额外的2D输入的结果。Scan2Cap和Scan2Cap（Inst）分别表示利用ground-truth（GT）边界框和GT实例作为输入的方法。0仅仅使用基准模型TransCap，与Scan2Cap相比，我们在ScanRefer和Nr3D上的字幕结果有很大的提升（CIDEr分别提高了9.96和7.24个点）。利用我们的跨模态知识传递训练策略进一步提高了所有字幕评估指标的性能。具体来说，在使用我们的师生网络框架后，X-Trans2Cap在ScanRefer和Nr3D数据集上相对于TransCap的CIDEr分别提高了11.04和9.42个点，而这两个数据集的性能都比Scan2Cap高出约20个CIDEr分数。表1的底部展示了在训练和推理阶段都使用额外的2D输入的结果。尽管在推理中使用了额外的2D输入，Scan2Cap的性能仍然不如我们提出的仅利用3D模态输入的X-Trans2Cap，更不用说使用多模态了。此外，当同时使用额外的2D输入时，X-Trans2Cap比TransCap更好，特别是在Nr3D上（85.38 vs 77.55CIDEr），这说明使用学生网络进行训练甚至可以提高教师网络的结果。此外，通过CIDEr-D分数优化，即X-Trans2Cap（C）模型，字幕的性能可以进一步提高。0扫描密集字幕。在表2中，我们比较了ScanDC的结果，展示了在推理阶段没有和有额外的2D输入的结果。第三列列出了提案生成的方法。在这些方法中，2D-3DProj.和3D-2D Proj.是[9]中提出的两种基准方法。2D-3DProj.应用Mask R-CNN[17]在图像中生成2D提案，然后将相应的2D边界框和特征输入到描述生成模块[9]。相反，3D-2D Proj.利用VoteNet[38]提取3D提案，然后将其投影回2D图像。然后最终采用投影的2D提案[50]生成字幕。如表2所示，基于2D的方法获得了最低的字幕-Scan2cap [9]✗VoteNet50.7133.0125.4753.6033.5321.5821.0443.0332.46TransCap✗VoteNet55.3632.4625.6453.1940.0822.8621.7244.0433.34X-Trans2Cap✗VoteNet58.8134.1725.8154.1041.5223.8321.9044.9734.682D-3D Proj. [50]✓Mask R-CNN18.2910.2716.6733.638.312.3112.5425.9310.503D-2D Proj. [50]✓VoteNet19.7317.8619.8340.6811.478.5615.7331.6531.83Scan2cap [9]✓VoteNet56.8234.1826.2955.2739.0823.3221.9744.7832.21TransCap✓VoteNet60.0435.0426.2754.4643.1224.2522.1544.7234.34X-Trans2Cap✓VoteNet61.8335.6526.6154.7043.8725.0522.4645.2835.31brown cabinetbrown cabinetwooden cabinetwhite bathtubwhite bathtubwhite bathtub85690表2.使用X-Trans2Cap和先前方法在ScanRefer数据集上获得的3D密集字幕的比较。我们对上述字幕指标进行了平均，这些指标是在预测边界框与实际边界框之间的IoU百分比大于0.25和0.5时得到的。'额外的2D'表示是否使用了额外的2D模态，如上所述。2D-3D Proj.和3D-2DProj.分别表示[9]中的方法，即将2D提案映射到3D和将3D提案投影到2D图像。'提案'显示了用于获取2D或3D提案的方法。0方法额外的2D 提案 C@0.25 B-4@0.25 M@0.25 R@0.25 C@0.5 B-4@0.5 M@0.5 R@0.5 mAP@0.50Scan2Cap这是一个白色的毛巾。它在另一个毛巾的左边。0X-Trans2Cap这是一个绿色的毛巾。它挂在墙上。0真实情况一个深绿色的毛巾。它挂在墙上的杆子上。0Scan2Cap: 这个柜子是白色和木质的。它在床的右边。0X-Trans2Cap: 这个柜子是棕色和木质的。它在床的左边。0真实情况: 这个柜子又高又木质。它在窗户和床之间。0Scan2Cap这是一个白色的冰箱。它在冰箱的右边。0X-Trans2Cap这是一个白色的冰箱。它在角落里，位于炉子的左边。0真实情况这是一个白色的冰箱。冰箱在角落里，靠左边的炉子。0Scan2Cap: 这个浴缸是棕色的。它在马桶的右边。X-Trans2Cap:这是一个白色的浴缸。这个浴缸在浴室里。它在马桶的左边。真实情况:这是一个棕色的浴缸。这个浴缸在浴室里，与马桶相对。0(a)神谕DC(b)扫描DC0图4. 在ScanRefer数据集上的定性比较。上部分展示了应用真实实例（即神谕DC任务）的结果，下部分展示了使用目标检测（即扫描DC任务）的结果。最好以彩色查看。0通过分数的比较，我们发现Scan2Cap无法直接处理3D密集字幕任务。尽管Scan2Cap的结果比这些基于2D的方法更好，但与X-Trans2Cap相比仍然差很多，因为它没有吸引人的2D先验和专用网络结构的辅助。令人惊讶的是，我们观察到X-Trans2Cap的检测性能也得到了改善，尽管在训练和测试过程中没有额外的2D输入馈入检测器。这证实了我们的X-Trans2Cap不仅能够生成忠实的字幕，还能够在多模态中获得知识挖掘能力，用于更复杂的应用，即挖掘嵌入到语言描述中的3D视觉检测信息。Nr3D数据集上的ScanDC结果在补充材料中进行了说明。可视化。图4展示了可视化结果。0X-Trans2Cap的结果表明，在更忠实的字幕方面，它相对于Scan2Cap有很大的改进。此外，我们在每个3D场景中呈现了相应的2D对应物。就2D图像而言，与稀疏点云相比，它们显然可以提供更强的纹理和颜色信息。知识传递的比较。为了进一步验证我们提出的方法在常见的教师-学生架构和其他跨模态方式上的有效性，我们将X-Trans2Cap与典型的知识传递方法进行了比较，结果见表3。在所有方法中，Hinton等人[18]和Huang等人[21]都是纯粹的知识蒸馏设计，前者是该研究领域的先驱，后者是最新提出的。从表中可以看出，纯粹的知识蒸馏方法无法达到预期的效果。85700表3. 知识迁移的比较。这些结果是在ScanRefer数据集上的OracleDC上获得的，我们比较了单模态和跨模态知识迁移方法。0方法（年份）C B-4 M R0Hinton等人[18]（2015）81.43 42.85 30.40 64.07Huang等人[21]（2021）78.61 41.93 30.14 63.78像素到点[32]（2021）77.82 41.98 29.42 62.79 2DSAT[53]（2021）80.13 41.13 30.00 63.160TransCap（基线）75.75 42.06 28.82 62.62X-Trans2Cap（预训练）79.41 42.78 29.88 63.41X-Trans2Cap 87.09 44.12 30.67 64.370直接应用于3DDC场景的方法，对基线模型的改进有限。最近，[32]和[53]的方法在3D任务中采用了跨模态知识迁移技术。[32]的核心思想是使用额外的2D输入进行3D预训练。我们修改了这个方法，首先训练一个带有多模态输入的TransCap，然后使用其预训练参数作为纯3D输入训练的初始化权重。对于2D语义辅助训练（SAT）[53]，它将2D特征视为同一模型中的附加标记（即在序列维度上连接），然后在Transformer层中利用注意力掩码。该掩码只忽略从3D到2D的注意力。然而，这两种方法都不能提升性能，因为没有引入相互增强。我们还提供了一种离线蒸馏设计，在训练学生网络之前准备一个预训练的教师网络，称为表3底部的X-Trans2Cap（预训练）。可以注意到，使用预训练的教师网络会导致7.38CIDEr的性能下降，这可能是由于多模态数据之间的分布差异。最后，在表3中，X-Trans2Cap表现出更好的性能，说明了教师-学生框架和跨模态融合（CMF）模块的有效性。04.4. 分析和消融研究0知识迁移是否有帮助？如表1和表2所示，当我们在训练阶段采用2D先验（X-Trans2Cap）时，可以大大提高基线模型（TransCap）的性能。我们提出的组件是否有帮助？为了进一步验证不同组件的有效性，我们在表4中进行了消融研究。如表4所示，模型A是我们的基线模型（TransCap），模型B是我们的整个X-Trans2Cap架构。模型C是舍弃特征对齐损失L align的消融架构。可以看出，CIDEr指标从87.09下降到79.58，性能大幅下降。幸运的是，由于CMF模块的优势，它仍然比基线模型提高了3.83。类似地，0表4.应用不同知识迁移设计的消融研究。这些结果是在ScanRefer数据集的OracleDC上获得的。上部分显示了没有特定组件的消融结果，下部分说明了CMF设计的结果。0设计C B-4 M R0A TransCap（基线）75.75 42.06 28.82 62.62 BX-Trans2Cap 87.09 44.12 30.67 64.370C w/o L对齐 79.58 41.47 30.07 63.59 D w/o CMF 80.5443.15 30.19 63.590E 串联 79.87 43.28 30.22 64.88 F w/o随机掩码 85.3642.57 30.52 64.18 G 注意力[44] 80.85 44.75 30.45 64.910当移除CMF模块（模型D）时，性能下降出现（-5.25CIDEr）。这个结果表明，框架架构和CMF模块在X-Trans2Cap中都起着重要作用。如何设计跨模态融合？我们在表4的底部展示了不同CMF模块设计的结果。一方面，舍弃随机掩码会影响字幕结果，如模型F所示。另一方面，采用更复杂的操作，如串联和注意机制，不能有效提高性能。采用注意机制只会在BLEU-4和Rough指标上略微提升。然而，这会大大增加模型复杂性，同时使CIDEr下降。05. 结论0在这项工作中，我们提出了一种通过跨模态知识传递增强的3D密集字幕方法，名为X-Trans2Cap。通过精心设计网络架构和知识蒸馏方法，我们的X-Trans2Cap在多个数据集上比以前的方法取得了更好的效果，生成了更准确的字幕。我们相信我们的工作可以应用于更广泛的3D视觉和语言场景，并提供一种解决缺少严重纹理细节的3D场景理解的方法，即利用2D先验和跨模态知识传递来提高性能。0致谢0本工作部分得到NSFC-Youth61902335的支持，广东省重点领域研发计划资助号2018B030338001，国家重点研发计划资助号2018YFB1800800，深圳市杰出人才培养基金，广东省研究项目资助号2017ZT07X152，广东区域联合基金-重点项目2019B1515120039，NSFC61931024&81922046，helixon生物技术公司基金和CCF-Tencent开放基金。[21] Zhen Huang, Xu Shen, Jun Xing, Tongliang Liu, Xin-mei Tian, Houqiang Li, Bing Deng, Jianqiang Huang,85710参考文献0[1] Panos Achlioptas，Ahmed Abdelreheem，FeiXia，Mohamed Elhoseiny和LeonidasGuibas。Referit3d:用于真实场景中细粒度3D对象识别的神经监听器。在欧洲计算机视觉会议论文集中，Springer出版，2020年，第422-440页。1，2，50[2] Panos Achlioptas，Judy Fan，RobertHawkins，Noah Goodman和Leonidas JGuibas。Shapeglot:学习形状区分的语言。在IEEE/CVF国际计算机视觉会议论文集中，2019年，第8938-8947页。20[3] Peter Anderson，Xiaodong He，ChrisBuehler，Damien Teney，Mark Johnson，StephenGould和LeiZhang。图像字幕和视觉问答的自下而上

下载后可阅读完整内容，剩余1页未读，立即下载