3D视觉与语言的统一框架：共享与互补的任务解决

188 浏览量更新于2023-10-25 收藏 950KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

164643DJCG：三维点云戴岗蔡1，赵丽晨1，张静<$1，路胜一，徐东21北京航空航天大学软件学院2澳大利亚悉尼大学{caidaigang，zlc1114，张静，lsheng}@ buaa.edu.cn，dong. sydney.edu.au摘要观察到3D字幕任务和3D接地任务在本质上包含共享和互补的信息，在这项工作中，我们提出了一个统一的框架，以协同的方式共同解决这两个不同但密切相关的任务，该框架由共享的任务不可知模块和轻量级的任务特定模块组成。一方面，共享的任务无关模块旨在学习对象的精确位置、用于表征不同对象的细粒度属性特征以及对象之间的复杂关系，这有利于字幕和视觉基础。另一方面，通过将两个任务中的每一个都转换为另一个任务的代理任务，轻量级任务专用模块分别解决字幕任务和基础任务。在三个3D视觉和语言数据集上进行的大量实验和消融研究表明，我们的联合训练框架在每个单独任务上都实现了显着的性能提升，并最终提高了字幕和接地任务的最新性能。1. 介绍人们对3D视觉理解和自然语言处理之间的交叉领域越来越感兴趣，例如3D密集字幕[9]和3D视觉接地[1，7，21，50]。这两项任务推动相交场沿不同方向前进（即，从视觉到语言对从语言到视觉），并通过单独解决每一项任务取得了令人鼓舞的进展是否有可能建立一个统一的框架，以协同方式共同解决这两个密切相关的任务，这仍然是一个悬而未决的问题我们观察到，这两个三维视觉语言任务包含共享和互补的信息在本质上，它是可能的，以提高这两个任务的性能，如果我们把一个任务作为代理任务的其他。一†通讯作者：张静。另一方面，这两个任务中的每一个都可以分解为若干子任务，并且这些子任务中的一些共享共同的目标和网络结构。例如，如先前关于RGB-D扫描的视觉语言作品[1，7，9，21，44，47，50]所示，3D密集字幕和3D视觉基础都需要：1）3D对象检测器，用于检测3D场景中的突出对象提议，2）关系建模模块，用于对这些检测到的对象之间的复杂3D关系进行建模，以及3）多模态学习模块，用于从视觉特征和文本特征学习融合信息另一方面，也使用相反的过程来分别解决这两个问题，即，字幕任务是从检测到的框中生成有意义的文本描述（即，从视觉到语言），而基础任务是通过理解给定的文本描述（即，从语言到视觉）。此外，从RGB-D扫描生成的3D点云通常包含不同对象之间的丰富且复杂的关系，而相应的RGB数据提供更细粒度的属性信息，例如颜色、纹理和材料。因此，RGB-D扫描固有地包含丰富的属性和关系信息，用于增强3D字幕和3D接地任务。然而，我们根据经验观察到，3D密集字幕任务更加面向对象，其倾向于学习目标对象的更多属性信息（即，感兴趣的对象），并且仅确定目标对象与其周围对象之间的主要关系。而3D视觉背景任务则更倾向于关系导向，它更关注对象之间的关系，并根据对象之间的关系区分不同的对象（尤其是同一类的对象）。因此，需要开发一个联合框架来统一3D密集字幕和3D视觉基础任务，并利用彼此的优势来提高这两个任务的性能。为此，在这项工作中，我们提出了一个联合框架，通过统一不同但密切相关的3D视觉-164653D密集字幕和3D视觉基础的语言任务。具体来说，所提出的框架包括三个主要模块：（1）3D对象检测器，（2）属性和关系感知特征增强模块，以及(3)特定任务的接地或字幕头。特别地，3D对象检测器和特征增强模块是任务不可知的，其被设计用于协作地支持字幕和接地任务两者。这两个模块输出对象建议作为场景中潜在对象的初始定位结果，以及通过整合来自每个对象建议的属性信息和多个建议之间的复杂关系来通过与任务无关的模块，特定于任务的字幕头和接地头被设计为用于处理每个任务的轻量级网络，其包括基于轻量级transformer的模块以及简单的预处理模块（即，查询/键/值生成模块）和轻量级后处理模块（即，单词预测或边界框选择模块）。以这种方式，3D字幕和3D视觉基础任务可以被投射为彼此的代理任务。换句话说，更面向对象的字幕任务可以提供更多的属性信息，以潜在地提高接地性能，而更面向关系的接地任务可以通过用更多的关系信息增强字幕任务来帮助改善字幕结果。此外，我们的联合框架还启发了设计每个单独的字幕网络和接地网络的见解。这项工作的贡献是双重的：（1）通过分析3D密集字幕和3D视觉背景任务，我们提出了一个统一的框架，通过使用我们简单而强大的网络结构来联合解决这两个不同但密切相关的任务，该网络结构由一个带有3D对象检测器的任务无关模块和一个属性和关系感知的特征增强模块组成，以及两个轻量级任务专用模块（即，字幕头和接地头）。(2)在三个基准数据集ScanRefer [7]，Scan2Cap [9]和Nr3D数据集[1]上进行的广泛实验表明，我们的联合框架实现了3D密集字幕和3D视觉基础任务的最新结果。2. 相关工作2D视觉和语言任务。深度学习技术在各种2D视觉和语言任务中得到了广泛的研究，例如视觉基础[15，26，35，45]。[2，11，17，18，42]，vi-常见问题回答[2，4，43]和文本到图像生成[25]。这些有影响力的研究问题推进了计算机视觉和自然语言处理的交叉研究领域的快速发展在深度学习中，研究人员引入了几种协作方法（例如，说者-听者模型[3，46]）来联合解决然而，这些模型专注于基于2D图像的任务，而我们的方法专注于基于RGB-D的任务，其中我们工作中要处理的不同类型的数据需要不同的网络设计策略。具体来说，我们提出了一个精心设计的任务无关的功能增强模块和轻量级的特定于任务的字幕和接地头，这一切都建立在Transformer架构。最近，几个联合框架[8，23，24，27，41，48]专注于通过繁琐的模型（例如，VilBERT[23]）通过使用丰富多样的2D视觉和语言数据集。相比之下，基于对RGB-D扫描的内在属性以及3D字幕和接地任务特点的深入分析，我们精心设计的具有轻量级模块的联合学习框架可以在不依赖大量配对训练数据的情况下以协同方式有效地解决这两个任务3D密集字幕和视觉接地。3D数据中的深度学习吸引了大量的...est [10，13，20，22，32近日有提出了适合于3D数据的密集字幕和视觉基础任务。例如，一些研究[9]提出了3D密集字幕方法，并通过显式建模不同对象之间的关系[9]获得了令人印象深刻的结果然而，密集字幕任务是更面向对象的，其通常集中于基于对象外观的精确属性描述，因此不同对象之间的复杂3D几何关系可能被忽略（即使它们内在地包含在3D数据中）。结果，生成的帽可以是单调的。除了3D密集字幕，3D点云的视觉基础[1，7，14，16，44，47，50]也吸引了越来越多的研究兴趣。Chen等人[7]引入了ScanRefer数据集，用于通过使用自然语言描述来本地化对象。最新的3D视觉接地方法[7，16，47]由两个阶段组成。在第一阶段中，应用3D对象检测器或全景分割模型来从输入场景生成目标对象提议在第二阶段中，引用模块用于从所选择的对象建议和查询语句中匹配最相关的区域。这些方法主要关注如何根据目标检测结果对复杂关系进行建模，而对表征不同目标，尤其是同一类内目标的外观特征关注较少。换句话说，目前的接地方式更注重关系。我们的联合框架通过更面向对象的字幕任务的帮助，利用了接地任务中被忽视的属性信息，并采用16466∈∈∈××在更面向关系的基础任务的帮助下，在captioning任务中相对较少地探索关系信息以增加生成句子的多样性。3. 方法在本节中，我们将描述我们框架的技术细节。如图1（a）所示，我们的框架由三个模块组成：1）对象检测模块，2）属性和关系感知特征增强模块，以及3）特定于任务的字幕头和接地头。对象检测模块和特征增强模块是任务不可知的，并且由两个任务共享。字幕和接地头是特定于任务的，基于变压器的轻量级网络结构分别用于字幕和接地任务。具体而言，点云由VoteNet [31]对象检测模块使用改进的边界框建模方法进行编码，然后，通过任务无关的属性和关系感知的特征增强模块增强建议特征，以生成增强的对象建议。然后，增强的对象建议分别被馈送到密集字幕任务和视觉基础任务的字幕头和基础标题中，并为每个任务生成最终结果。3.1. 检测模块检测模块的输入是点云PRN×（3+K），用N个三维坐标和K维辅助特征表示整个三维场景。在这里，我们采用与[7，9]中相同的132维辅助特征，其中包括预训练的128维多视图外观特征[7]，3维法线和地面以上每个点的1维高度。我们使用VoteNet [31]作为我们的检测模块。由于字幕和接地任务的成功依赖于初始对象提案的精确定位以及区分特征，因此我们借用了无锚FCOS方法[36]的思想，通过预测投票点与对象提案每一侧之间的距离来生成初始对象提案3.2. 属性和属性感知的特征增强模块由于检测相关的损失，由检测模块产生的初始对象建议特征相对于不同的对象类是有区别的。然而，它们不知道细粒度的对象属性（例如，对象位置、颜色和材料），特别是类内对象，以及不同对象之间的复杂关系，这是3D字幕和3D接地任务成功的关键。因此，我们进一步提出一个属性和关系感知的特征增强模块，以增强每个建议的特征，并更好地建模建议之间的关系。受Transformer编码器结构[37]的激励，我们将建议特征增强模块建模为两个具有附加属性编码模块和关系编码模块的多头自关注层，其中属性或关系编码模块由几个完全连接的层组成。属性编码模块。为了聚合属性特征和初始对象特征，我们对辅助边界框属性相关特征（即，通过对27维框中心和角坐标的连接操作的155维特征，以及可能包含诸如颜色和材料的属性信息的128维多视图RGB特征）通过使用全连接层嵌入到128维属性嵌入中。属性嵌入具有与初始对象提议特征相同的维度然后可以将其添加到初始建议特征中，以使用更多属性信息来增强初始对象特征。关系编码模块。受[50]的启发，我们还对任何两个对象建议之间的成对距离进行编码，以捕获复杂的对象关系。与[50]不同的是，我们不仅编码（逆）相对欧氏距离（即，DistRM×M ×1），而且还包括沿x、y、z方向的初始对象提议的任何两个中心之间的三个成对距离（即，Dx，Dy，DzRM×M ×1），以更好地捕获沿不同方向的对象关系，其中M是初始对象提议的数量然后，所有四个空间邻近矩阵（Dx、Dy、Dz和Dist）沿着通道维度聚集，并被馈送到完全连接的层中，以产生具有通道维度H的关系嵌入，该关系嵌入匹配注意头部的数量（即，在我们的实现中H = 4）。每个关系嵌入（具有M M1的大小）然后与相似性矩阵相加（即，所谓的注意力图）从多头自注意力的每个头module.注意，任务无关的3D对象检测器和特征增强模块可以为字幕和接地任务产生更准确的定位结果和改进的对象特征，因此我们可以在我们的框架中使用比最先进的方法更简单的更轻量级的任务特定的字幕头和接地头[9，50]。对于这两个任务特定的头，我们采用类似的轻量级1层多头交叉注意为基础的网络结构与简单的预处理模块（即，如图2所示的查询/键/值生成）和后处理模块（即，单词预测或BBox选择）。16467PreviousPrevious字幕参考BBox增强的对象建议参照边界框字幕头目标GT BBox（训练时）接地头文本输入FC BBox×1选择添加标准FC增强的对象建议级联空间距离矩阵辅助特征计算属性关系感知的特征增强3D物体探测器空间距离矩阵辅助特征SofftftmtmaxFC FC FCQ K V键值生成输入3D点云初步目标提案增强对象建议（和GT BBox培训时）增强的对象建议一把黑色的椅子坐在书桌旁。文本输入(a) 我们的框架(b) 属性关系感知的特征增强(c) 加标题头（d）接地头图1. (a)我们的框架概述。(b)属性和关系感知的特征增强模块。(c)我们框架内的字幕头（d）我们框架内的接地头。“查询键和值键和值文本类在场景中的所有对象之间）是非常重要的。既然物体检测到-级联FCTatget对象提案方案选择FC手套k近邻Tatget对象提案方案选择FCGRU手套tor和特征增强模块可以提供丰富的对象类信息、属性特征和全局上下文特征，我们简单地将我们的字幕头设计为一层多头交叉注意网络结构，对象BBox隐藏词目标GTBBox增强对象文本输入增强功能之间的有效消息传递建议（培训时）功能（培训时）建议从目标对象提案和所有其他初始对象(a) 查询生成（标题）(b) 键值生成（字幕）(c) 关键价值生成（接地）建议，这将更加侧重于主要的上下文功能。图2. 查询、键值生成过程字幕头和接地头。对于字幕头，我们首先选择感兴趣的对象，以产生目标对象投影。我们将目标建议特征、来自前一个词的标记化词特征和由多头交叉注意模块重复输出的隐藏特征我们选择目标对象建议的K个最近邻居作为键和值。对于接地头，首先将文本输入标记化并馈送到GRU单元中以产生多头交叉注意模块的键和值。基础任务的查询是增强的对象建议功能（见图1）。1（d））。3.3. 字幕头3D密集字幕任务是从输入点云中为每个检测到的边界框生成因此，对象性（用于准确定位每个对象）、属性信息（用于合理地描述对象的属性）和主上下文（用于进一步描述关键关系）是：为了生成多头交叉注意模块的查询（Q）输入，我们首先选择目标对象建议，然后使用全连接层对相应的对象特征进行编码在训练阶段，我们选择具有最高IoU分数的对象提案，并将地面实况边界框作为查询对象。在测试阶段，我们使用场景中的所有对象建议（在非最大值抑制（NMS）过程之后）以一个接一个的方式作为查询对象。对于目标对象提案，我们遵循大多数字幕方法[9]，使用递归网络结构来逐步生成字幕的每个单词。然后，我们递归地聚合由多头交叉注意模块输出的隐藏特征和前一个词的标记化词特征（其在训练阶段是地面实况词，并且在测试阶段是新预测的词）与当前查询对象特征。融合的特征形成最终生成的查询输入。在递归查询生成过程中，为了减轻序列生成任务中的暴露偏差[6]，×2添加标准FC级联SofftftmtmaxFCFC FC FCQ K VFC属性嵌入这是一个键盘…输出字FC单词预测隐藏功能×1添加标准FC级联SofftftmtmaxFCQFC足球俱乐部KV查询&键值生成一代增强目标GT16468在训练阶段（使用地面实况词）和测试阶段（使用先前预测的词）之间，我们在训练期间具体来说，在训练过程中，我们用预测的单词标记随机替换10%的地面真实单词标记在键（K）和值（V）生成模块中，我们使用k-NN策略来基于它们在3D坐标空间中的中心距离来选择与目标提议最接近的前k个对象提议，所选择的对象建议被用作多头交叉注意模块的键和值。在我们的实验中，k根据经验设定为20。该策略是专门为字幕任务设计的，因为它主要关心目标对象与其周围对象之间最明显（或最主要）的关系，而其余的关系信息对字幕任务可能不太重要。最后，多头交叉注意模块之后是一个完全连接的层和一个简单的单词预测模块，以一个接一个的方式预测字幕的每个单词3.4. 接地头对于3D视觉基础任务，输入包括场景的3D点云和场景中的对象之一的文本形式的语言描述，并且任务是基于语言描述来定位感兴趣的对象。由于任务不可知的3D对象检测器和特征增强模块已经捕获对象属性和场景中对象之间的复杂关系我们的方法中的接地头通过简单地使用1层多头交叉注意模块而不是如[50]和[14]中所使用的多个堆叠基于输入语言描述生成键（K）和值（V）输入。具体来说，我们使用与ScanRefer [7]中类似的语言编码器。输入的语言首先通过使用预训练的Glove [30]模块进行编码GRU单元的输出字特征形成键（K）和值（V）输入。此外，还从GRU细胞中生成全局语言特征来预测每个句子的主题类别。对象建议被用作查询（Q）输入。通过在语言描述（KV）和对象建议（Q）之间使用多头交叉注意机制，很好地捕获了句子和检测到的建议之间的关系为了充分探索给定的语境之间的关系一些单词或改变文本输入的顺序，并随机复制其他场景中的一些对象建议作为增强对象建议的负样本），有关这两种数据增强策略的更多详细信息，请参见[50最后，接地分类器被用来产生每个对象的建议的信心得分，并与最高的预测得分被认为是最终接地结果的建议。3.5. 培训详情我们框架的损失函数是检测损失L检测、接地损失L接地和字幕损失L字幕的组合。对象检测损失类似于Qi等人中使用的。[31]对于ScanNet 数据集 [12] ，其中 L 检测 =10Lvote-reg+Lobjn-cls+Lsem-cls+200Lboundary-reg，除了我们将[7，31]中的边界框分类损失Lbox-cls和回归损失Lbox-reg替换为边界回归损失Lboundary-reg[36]。为了视觉基础任务中，我们应用与ScanRefer [7]中使用的相似损失函数，其是用于视觉接地的定位损失Lloc和辅助语言到对象分类损失Lcls的组合，以增强输入句子的主题分类，并且L接地=Lloc+Lcls。对于密集字幕任务，我们顺序地输入地面实况单词（或概率为10%的预测单词），L字幕是所有生成单词的平均交叉熵损失。最终损失是这些损失项的线性组合，即，L=L检测+0。3L接地+0. 2L字幕，其中权衡参数是根据经验设置的，用于平衡不同的损失项。4. 实验4.1. 数据集和实现细节视觉基础数据集：我们使用ScanRefer [7]数据集来评估我们的视觉基础任务方法。ScanRefer数据集包含来自800个场景的11，046个对象的51，583个文本描述报告了总体精度和“唯一”和“多”子集的精度如果每个接地数据仅包含场景中其类中的单个对象，则将其标记为“唯一”，否则将其标记为“多个”。对于这个数据集，我们使用Acc@0。25 IoU和Acc@0。5 IoU作为我们的评估指标。我们还将我们的方法与ScanRefer基准网站1上的验证集和在线测试集上的基线方法进行了比较可视字幕数据集：Scan2Cap [9]是一个用于3D场景的密集字幕数据集。ScanRefer数据集中长于30个标记的描述将被截断两个特殊的令牌[SOS]和[EOS]被添加到[50][51][52][53][54][55][56][57][58][59]两种模式的定位策略（例如，随机擦除1http://kaldir.vc.in.tum.de/scanrefer_benchmark16469表1. ScanRefer [7]数据集上不同方法的视觉基础结果比较。我们报告了正确预测的边界框的百分比，其IoU分数与地面实况框大于0。25和0。5所示。还报告了“唯一”和“多个”子集的结果[*]：注意InstanceRefer [47]方法根据对象类预测结果过滤预测的3D建议，因此该方法仅从同类建议中选择目标对象建议，这简化了3D视觉基础问题。在我们的工作中没有采用这种策略。独特的多重总体验证集在线基准扫描参考[7]VoteNet二维+三维68.5943.5334.8820.9742.4426.03TGNN [16]3D-UNet二维+三维68.3458.9433.1225.2641.0232.81[47]第四十七话点编组二维+三维77.8266.6934.5726.8844.2735.80[50]第五十话VoteNet二维+三维75.7655.1542.2429.3349.7635.12我们VoteNet二维+三维76.7560.5943.8931.1751.2637.76表2.Scan2Cap [9]验证集上不同方法的3D密集字幕结果比较我们根据预测的边界框对传统字幕指标的得分进行平均，这些边界框的IoU得分与地面实况框的得分大于0。25和0。5所示。检测器数据C@0.25B-4@0.25M@0.25R@0.25C@0.5B-4@0.5M@0.5R@0.5Scan2Cap [9]VoteNet仅3D53.7334.2526.1454.9535.2022.3621.4443.57我们VoteNet仅3D60.8639.6727.4559.0247.6831.5324.2851.08[31]第三十一话VoteNet二维+三维15.1218.0919.9338.9910.1813.3817.1433.22Scan2Cap [9]VoteNet二维+三维56.8234.1826.2955.2739.0823.3221.9744.48我们VoteNet二维+三维64.7040.1727.6659.2349.4831.0324.2250.80指示描述的开始和结束，因此ScanRefer和Scan2Cap数据集的文本描述不同。作为 ReferIt3D [1] 的子数据集， Nr3D 也是基于ScanNet构建的，并添加了额外的文本描述，它包含了ReferItGame 收集的 41 ， 503 个样本。我们使用与Scan2Cap数据集上的性能评估相同的指标。具体而言，这两个3D字幕数据集上的性能评估的度量组合了预测边界框和目标边界框之间的不同IoU分数下的标准图像字幕度量。组合度量定义为m@kIoU=B-4、M和R在下表中。P是地面实况或检测到的对象边界框的数量。实施详情。我们遵循[50]，在训练我们的框架时，对两个数据集的每个场景使用8个句子。我们的实验是在具有单个NVIDIA 11GB 2080Ti GPU的机器上进行的，并且它在ScanRefer [7]和Scan2Cap [9]数据集上执行200个epoch来训练我们的框架，每个数据集的批量大小为10（即，有来自10个点云的80个句子）。我们应用余弦学习率衰减策略与AdamW优化器和1 e-5的权重衰减因子来训练我们的方法。我们根据经验将初始学习率设置为1ΣPPmi ui，其中ui∈ {0，1}被设置为1，如果检测2 e-3用于探测器，5e-4用于我们的其他模块第i个边界框的IoU得分大于k，否则为0。我们使用mi来表示字幕度量，例如CiDEr[38]，BLEU [28]，METEOR [5]和ROUGE-L [19]，它们分别缩写为C，框架（即，特征增强模块和两个特定任务的领导人）。此外，具有交叉熵损失的字幕任务易于过拟合，因此我们仅在最后50个epoch期间添加字幕损失。i=0时检测器数据Acc@0.25Acc@0.5Acc@0.25Acc@0.5Acc@0.25Acc@0.5扫描参考[7]VoteNet仅3D67.6446.1932.0621.2638.9726.10[47]第四十七话点编组仅3D77.1366.4028.8322.9238.2031.35非SAT [44]VoteNet仅3D68.4847.3831.8121.3438.9226.40[50]第五十话VoteNet仅3D77.1658.4738.3828.7045.9034.47我们VoteNet仅3D78.7561.3040.1330.0847.6236.14扫描参考[7]VoteNet二维+三维76.3353.5132.7321.1141.1927.40TGNN [16]3D-UNet二维+三维68.6156.8029.8423.1837.3729.70[44]第四十四话VoteNet二维+三维73.2150.8337.6425.1644.5430.14[47]第四十七话点编组二维+三维75.7264.6629.4122.9938.4031.08164704.2. 与最新方法的根据ScanRefer [7]和Scan2Cap [9]的工作，我们根据是否使用辅助功能报告了“仅3D”和“2D + 3D”设置下的结果在“仅3D”设置下，我们使用“xyz + RGB +法线”作为辅助特征。在“2D + 3D”设置下在表1和表2中，我们比较了我们的框架与ScanRefer[7]和Scan2Cap [9]数据集上的几种最先进方法具体而言，在扫描参考数据集上，我们将我们的方法与基于3D实例分割的方法TGNN [16]和InstanceRefer [47]以及基于 3D 检测的方法（包括 ScanRefer [7] 和 3DVG-Transformer [50]）进行了比较。在Scan2Cap数据集上，我们将我们的方法与最先进的基于3D检测的方法Scan2Cap [9]和VoteNetRetr [31]进行了比较。从表1中，我们观察到我们的方法优于视觉基础任务的基线方法。请注意，与最先进的方法 3DVG-Transformer [50]相比，我们使用了更简单的网络结构，因此结果验证了我们的联合学习框架可以仅使用轻量级接地头来完成接地任务。具体而言，在Acc@0.25和Acc@0.5指标方面，我们的方法实现了约1。9%和2。在“2D+3D”设置下的验证集上，与3DVG-Transformer [ 50 ]相比，“总体”情况下的改进为6%与其他基于检测的方法相比当场景中没有来自相同类别的混淆对象时，称为“唯一”子集。实验结果也证实了面向对象的字幕任务通过提供更多的属性信息来提高接地性能。请注意，基线方法InstanceRefer [47]和TGNN [16]使用额外的实例分割掩码来生成3D建议，而InstanceRefer [47]方法进一步根据语义预测结果过滤实例，即它仅保留来自相同预测类的实例以生成视觉基础结果。可能由于这两个方面，InstanceRe- fer [47]方法在“Unique”子集中获得了良好的结果与[16，47]相比，我们的工作仅依赖于检测结果，并且在“多项”和“总体”情况下仍然优于这两种方法与基线方法“Scan2Cap”相比从表2的结果中，我们观察到我们的联合学习框架使用了一个简单的特征增强模块并且重量轻的字幕头对于字幕任务实现了显著的性能改进。在“2D+3D”环境下，该方法的性能提高了10.4%，7. 71%和6。C@0.5IoU、B-4@0.5IoU和R@0.5IoU分别为32%对于这个任务，改进来自于网络结构设计（例如，属性和关系感知特征增强模块以及轻量级字幕头）和联合训练策略。每个模块的贡献将在下面的消融研究中讨论4.3. 消融研究特征增强模块和联合训练策略的有效性。为了评估所提出的任务无关特征增强模块以及联合训练策略的有效性，我们进行了消融研究，并在表3中报告了相应的结果。在不使用联合训练策略的情况下，替代方法“w/o接地头”（分别为，“w/o Captioning Head”）意味着我们训练两个独立的网络，包括两个任务不可知的模块和字幕头（分别是接地头）用于3D密集字幕任务（分别视觉基础任务）。“w/o Feature Enhance- ment”对于密集字幕和视觉基础任务，我们基于默认训练数据（即，从Scan2Cap和ScanRefer数据集）优于这些替代方法，这表明这两种策略都有助于在一定程度上提高最终的性能。性能的提高是否来自更多的训练数据？我们的联合训练框架同时使用了加帽和接地训练数据，其中唯一的区别是文本描述（即，用于基础任务的描述相对较长，或者具有更复杂的关系，而密集字幕是更短的文本描述，更集中于对象类和相应的属性）。因此，我们进行了实验，以验证性能的提高是否是由于利用了更多的训练数据（即，来自两个任务的更多文本描述）。在表3（a）和（b）中，3DJCG（“仅字幕数据”（分别为，3DJCG（“仅接地数据”））表示我们仅使用3D字幕数据集Scan2Cap [ 9 ]（分别为，3D视觉接地数据集ScanRefer [7]），当训练我们的联合学习框架时，包括字幕和接地头以及两个任务不可知模块。请注意，Scan2Cap和ScanRefer数据集都可以很容易地用作这两个任务的训练数据。默认情况下，我们在训练联合学习框架时使用这两个数据集作为默认训练数据。结果表明，我们的3DJCG框架使用16471表3.比较“2D+3D”设置下的视觉基础结果和基于正确预测的边界框的密集字幕结果，边界框的IoU分数大于0。五、在“网络模块”一栏中，为了更好地(a) 数据集Scan2Cap上的3D密集字幕结果[9]培训数据集净工作模块密集字幕结果Scan2Cap扫描参考DEFeCHGHB-4@0.5C@0.5R@0.5M@0.53DJCG（不带接地头）/3DJCG-C✓✓✓✓26.2445.0446.6923.273DJCG（无功能增强）✓✓✓✓✓29.0847.6749.5823.783DJCG（仅字幕数据）✓✓✓✓✓30.4047.2950.2923.913DJCG（默认训练数据）✓✓✓✓✓✓31.0349.4850.8024.22(b) 数据集ScanRefer上的3D视觉基础结果[7]训练数据集Netw Ork模块目视接地结果Scan2Cap扫描参考DEFeCHGH独特@0.5Multiple@0.5Overall@0.53DJCG（不带字幕头）/3DJCG-G✓✓✓✓62.6030.4836.723DJCG（无功能增强）✓✓✓✓✓63.2028.3635.123DJCG（仅接地数据）✓✓✓✓✓64.5030.2936.933DJCG（默认训练数据）✓✓✓✓✓✓64.3430.8237.33表4.不同方法和不同训练策略在ReferIt3D [1]的Nr3D数据集上的密集字幕结果B-4@0.5 C@0.5 R@0.5 M@0.5Scan2Cap [9]17.2427.4749.0621.803DJCG-C（从零开始）20.4533.0351.7323.053DJCG-C*（Finetune）22.8238.0652.9923.77仅限数据”（，“仅接地数据”）通常提高字幕任务的性能（分别接地任务）与替代方法 3DJCG （ “w/oGrounding Head”）（分别，3DJCG（结果验证了性能增益来自两种策略（即，我们的网络设计和附加训练数据的利用）。此外，我们的联合学习框架在“仅限标题数据”和“仅限基础数据”设置下的改进结果Nr3D数据集上的实验[1]。我们还Nr3D数据集上的密集字幕任务作为一个例子，以评估我们提出的框架时，从头开始训练或使用微调策略。“3DJCG-C（FromScratch）”表示我们从头开始训练我们的3DJCG-C网络，而不使用任何预训练策略。 “3DJCG-C*（Finetune）”表示我们基于Nr 3D数据集微调预训练模型。请注意，预训练模型是基于ScanRefer和Scan2Cap数据集学习的，我们还在执行微调过程之前删除了我们还列出了基于Nr3D数据集从头开始训练的基线方法Scan2Cap的如表4所示，方法我们还观察到我们的5. 结论和未来工作观察两个不同但密切相关的任务3D密集字幕和3D视觉接地的共享和互补属性，我们提出了一个统一的框架，以协同的方式共同解决这两个任务。在我们的框架中，任务无关模块负责精确的对象定位，几何和细粒度属性特征的增强，并充分探索三维场景中对象之间的复杂几何关系，而特定于任务的轻量级字幕头和接地头解决了这两个任务，重新定位。实验结果验证了所提出的框架对这两个任务的有效性。虽然联合框架提高了这两个任务的性能，但视觉接地任务的性能提高不如密集字幕任务的性能提高在我们未来的工作中，我们将开发更先进的联合训练框架，以进一步提高3D视觉接地性能。鸣谢本工作得到国家重点研发项目（ No.2018AAA0101900 ）和国家自然科学基金（ No.61906012 ， No.62006012 ， No.62132001 ）的资助。16472引用[1] Panos Achlioptas ， Ahmed Abdelreheem ， Fei Xia ，Mohamed Elhoseiny，and Leonidas Guibas.Referit3d：用于现实世界场景中细粒度3D对象识别在ECCV，第422-440页，2020年。一、二、六、八[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中，第6077-6086页，2018年。2[3] 雅各布·安德烈亚斯和丹·克莱因。与神经听者和说话者的语用学推理。在EMNLP，2016。2[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在ICCV，第2425-2433页，2015中。2[5] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性 . 在ACLWorkshop，第65-72页，2005年。6[6] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer 。循环神经网络序列预测的计划采样。NeurIPS，28，2015. 4[7] Dave Zhenyu Chen ， Angel X Chang ， and MatthiasNießner. ScanRefer：使用自然语言在RGB-D扫描中进行3D对象定位。在ECCV，第202-221页，2020年。一二三五六七八[8] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu. UNITER：通用图像-文本表示学习。在ECCV，第104-120页，2020中。2[9] Zhenyu Chen ， Ali Gholami ， Matthias Nießner ， andAngel X Chang. Scan 2Cap：rgb-d扫描中的上下文感知密集字幕。在CVPR中，第3193-3203页，2021年。一二三四五六七八[10] 程博文、路胜、石少帅、名扬、董旭。基于投票的点云3d目标检测中代表点的回溯。在CVPR中，第8963-8972页，2021年。2[11] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara.网状记忆Transformer，用于图像覆盖。在CVPR中，第10578-10587页，2020年。2[12] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。ScanNet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页，2017年。5[13] 郭金阳，刘家恒，徐东。JointPruning：沿多个维度修剪网络，以实现高效的点云处理。 IEEE TCSVT ，2021。2[14] Dailan He，Yusheng Zhao，Junyu Luo，Tianrui Hui，Shaofei Huang，Aixi Zhang，and Si Liu. transmarty 3d：用于细粒度3d视觉基础的语义和关系感知Transformer在ACM MM中，第2344-2352页，2021年。二、五[15] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，第4555-4564页，2016年。216473[16] 黄品浩，李汉鸿，陈焕宗，刘丁禄。用于参考3d实例分割的文本引导图神

下载后可阅读完整内容，剩余1页未读，立即下载