G3RAPHGROUND：基于图形的语言基础

172 浏览量更新于2023-10-13 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1G3RAPHGROUND：基于图形的语言基础Mohit Bajaj1，2Lanjun Wang3Leonid Sigal1，2，41不列颠哥伦比亚大学2人工智能矢量研究所3华为技术4加拿大CIFAR AI主席mbajaj@alumni.ubc.calsigal@cs.ubc.calanjun.wang huawei.com摘要在本文中，我们提出了一个端到端的框架接地的短语图像。与以前的作品相比，我们的模型，我们称之为G3RAPH G ROUND，使用图形来制定更复杂的，非顺序的依赖关系之间的建议图像区域和短语。我们针对每种模态（视觉和语言）使用单独的图神经网络来捕获模态内依赖性，然后在另一个图神经网络中使用条件消息传递来融合它们的输出并捕获跨模态关系。这最终的表示导致接地决策。该框架支持多对多匹配，并且能够将单个短语接地到多个图像区域，反之亦然。我们通过一系列消融研究验证了我们的设计选择，并在Flickr30k和ReferIt Game基准数据集上展示了最先进的性能。1. 介绍在过去的几年里，短语（或更一般的语言）基础已经成为计算机视觉中的一项基本任务。短语基础是更传统的计算机视觉任务的概括，例如对象检测[11]和语义分割[27]。接地需要在图像中的自由形式的语言短语的空间定位。核心挑战在于，与例如标记集通常更加有限（例如，MS COCO中的80个类别[18]）。标签集的这种指数表达性需要分期学习，其通常使用视觉和语言数据的连续嵌入来公式化。尽管存在挑战，但由于跨越图像字幕[19]，视觉问答[2，40]和参考表达识别[20]（这是许多HCI和HRI系统的核心）的应用范围，短语基础成为视觉中的核心问题。年的任务取得了重大进展图1. 图为G3RAPHGROUND。分别为短语和图像区域形成两个单独的图，然后将其融合在一起以进行最终的接地预测。着色的边界框对应于相同颜色的短语。最近几年，由大规模数据集（例如，Flickr30k [24]和ReferIt Game [14]）和各种形式的神经架构。大多数方法将该问题视为学习嵌入的问题之一，其中类不可知的区域建议[25]或参与图像[8，34]被嵌入到靠近相应短语的位置。各种嵌入模型，有条件[22]和无条件[13，29]，已经提出了这项任务。最近，已经开始探索使用区域和短语之间的上下文关系，并且显示出显著提高性能。具体地，[9]和[6]通过顺序地处理多个短语和/或通过考虑其他短语和区域将每个决策置于上下文来对先前决策的上下文进行编码[9]。在[6]中使用了使用策略梯度的不可微过程，而[9]使用了使用LSTM的端到端可微公式在这两种情况下，使用顺序传播（例如，使用LSTM [6，9]）。42814282实际上，图像中的上下文信息，在所提出的区域中，很难被认为是连续的。对于短语也是如此，特别是在它们不来自像句子这样的底层结构化来源的情况下（这被明确地陈述为[9]的假设和限制）。本质上，以前的方法为了方便起见，对基本上非顺序的数据进行顺序序列化。我们认为，明确地解决这个限制，可以导致更好的性能和更明智的结构化模型。利用对象检测中的最新进展，这些进展已经通过在图中使用传递推理（例如，使用卷积图神经网络 [15 ， 17 ，36]），我们提出了一种新的基于图的短语基础框架。明显地，该公式化允许我们考虑提案图像区域和需要接地的语言短语两者之间的更复杂的非顺序依赖性。具体地，如图1所示，首先从图像中提取区域提议，并使用CNN和边界框坐标将其编码为视觉图的节点特征。使用双向RNN将短语类似地编码为短语图的节点特征。基于对应的节点特征和全局图像/字幕上下文来预测两个图中的节点之间的连接强度（边权重）。门控图神经网络（GG-NN）[17]用于通过一系列消息传递迭代来细化两个特征表示。然后，通过将视觉图与所选择的短语融合，使用精炼的表示来构造每个短语的融合图。再次使用GG-NN中的消息传递细化融合特征。最后，每个节点的融合特征，对应于<短语i的编码，图像区域j>元组，用于预测接地短语i到图像区域j的概率。这些结果进一步细化的简单方案，做非极大值抑制（NMS），并预测是否一个给定的短语应该接地到一个或多个区域。最后的模型，我们称之为G3RAPH GROUND，是端到端的dif- ferentiable，并显示产生国家的最先进的结果。虽然我们清楚地设计了我们的架构，考虑到短语接地，我们想强调的是，它是更普遍的，将是有用的任何多模态分配问题，其中每个模态中的元素之间存在一些上下文关系例如，文本到剪辑[35] /标题-图像[16，39]检索或更一般的跨模态检索和定位[3]。贡献：我们的贡献是多方面的。首先，我们提出了一种新的基于图形的接地架构，它由三个连接的子网络（视觉，短语和融合），使用门控图神经网络实现。我们的设计是模块化的，可以模拟丰富的上下文在给定的模态内和跨模态，而不对数据的顺序性质做出强有力的假设其次，我们展示了如何在端到端的方式有效地学习这种架构。第三，我们提出了一个简单但非常有效的细化方案，除了NMS有助于解决一对多接地。最后，我们通过一系列消融研究验证了我们的设计选择;并在Flickr 30 k [24]和ReferIt Game上说明了比最先进的性能高出5.33%和10.21%[14]数据集。2. 相关工作我们的语言（短语）接地的任务与丰富的视觉和语言文献有关;建筑设计建立在图形神经网络的最新进展之上。我们回顾了最相关的文献，并向读者指出最近的调查[1，4]和[33，41]以增加上下文。短语接地。先前的工作，例如Karpathy等人。[13]，提出在子空间中对齐句子片段和图像类似地，Wanget al.[30]提出了一种结构化匹配方法，该方法鼓励短语之间的语义关系与区域之间的视觉关系一致。在[29]中，Wanget al.建议学习具有对称距离的联合视觉文本嵌入，其中给定短语被接地到最近的边界框。该思想被提出的相似性网络进一步扩展[28]它使用单个向量来表示多模态特征，而不是显式嵌入空间。Plummer等人[22]基于这个想法，并提出一个概念权重分支来自动将短语分配给嵌入。它已被证明，文本和视觉上下文信息可以帮助短语接地。Plummer等人[23]使用来自属性、动词、介词和亲名词的广泛的视觉文本约束来执行全局推理。Chen等人[6]尝试通过提出一个上下文策略网络来利用短语和相应视觉区域之间的语义和空间关系，该网络在本地化给定短语时考虑对其他短语所做的预测。他们还提出并微调了查询引导回归网络，以通过更好的建议和功能来提高性能。Seqstrike [9]使用完整的图像和句子作为全局上下文，同时将任务公式化为顺序和上下文过程，该过程以给定短语对预先确定的接地短语的接地决定为条件。[31]使用图来对图像区域之间的关系进行建模，并且一次仅局部化一个指代表达式。图神经网络（GNN）。图卷积网络（GCN）在[15]中首次引入用于半监督分类。GCN的每一层可以执行涉及邻域节点的局部计算。4283这些层可以进一步堆叠以形成能够对图形数据执行复杂计算的更深的网络。在视觉中，Yanget al. [37]用注意力增强GCN，发现它们对场景图生成是有效的;[32]部署GCN将视频建模为时空图，并在视频分类任务中获得令人印象深刻结果。在[7]中示出了使用GCN在图像区域之间进行对象检测的视觉推理，并作为我们的视觉图形子网络的概念动机最近，[36]提出了一个理论框架，用于分析GNN捕获不同图结构的表达能力。他们提到GNN中的消息传递可以用两个函数来描述：聚集和结合。AGGREGATE函数聚合来自邻居节点的消息，并且COM-BINE函数通过组合聚合的消息和每个节点的先前状态来更新每个节点的状态。他们证明了这些函数的选择对GNN的表达能力至关重要Li等[17]提出了使用门控递归的门控图神经网络（GG-NNs）。租用单元（GRU）用于COMBINE步骤中的门控。我们的模型是从这些作品中得到启发的。我们使用一个GG-NN来建模图像区域之间的空间关系，并且使用另一个GG-NN来捕获短语之间的语义关系。最后，我们使用第三个GG-NN来融合从相应的图中获得的文本和视觉嵌入。融合网络的输出用于预测给定短语是否应接地到特定图像区域。3. 方法短语接地是具有挑战性的多对多匹配问题，其中单个短语通常可以接地到多个区域，或者多个短语可以接地到单个图像区域。G3RAPHGROUND框架使用图形网络来捕获短语和图像区域之间丰富的我们在图2中说明了该架构。我们假设这些短语是可用的，例如从图像标题（Flickr30k [24]数据集）解析或独立存在于单个图像（ReferIt Game [14]数据集）。我们使用我们称为短语编码器的双向RNN对这些短语进行编码。然后，这些编码用于初始化短语图的节点，该短语图被构建为捕获短语之间的关系。类似地，我们形成视觉图，该视觉图对使用RPN从图像中提取的图像区域之间的关系进行建模，然后使用视觉编码器进行编码。标题和完整图像提供了额外的上下文信息，我们使用这些信息来学习这两个图的边权重消息传递是独立完成的这些图更新各自的节点功能.这允许每个短语/图像区域知道其他上下文短语/图像区域。最后，我们融合这两个图形的输出，instan- tiating一个融合图为每个短语。我们将视觉图的所有节点的特征与短语图的给定节点的特征向量连接起来，以在这个新的融合图中调节消息传递。融合图的每个节点的最终状态（其对应于对<短语i，图像区域j，）被馈送到完全连接的预测网络，以进行预测。二进制判决短语i是否应该被接地到图像区域j。请注意，由于三个图中的一系列消息传递迭代，所有预测都是隐式相互依赖的。我们还预测短语是否应该扎根于单个或多个区域，并使用此信息进行后处理以改进我们的预测。3.1. 文本和视觉编码器短语编码器。我们假设一个或多个短语是可用的，需要接地。每个短语由一个单词或一系列单词组成。我们使用其GLoVe [21]嵌入对每个单词进行编码，然后使用双向RNN的最后一个隐藏状态对完整的短语进行编码。最后，我们得到短语编码p1，. . .，pn的对应n个输入短语P1…Pn.字幕编码器。我们使用另一个双向RNN对完整的输入字幕C进行编码，并获得字幕编码c_enc。这是有用的，因为它提供了在各个短语的编码中丢失的视觉编码器。我们使用一个区域建议网络（RPN）提取区域建议R1…Rm从图像。每个区域提议R1被馈送到预训练的VGG-16网络以从第一全连接层提取4096维向量我们通过将该向量通过具有三个完全连接的层的网络来将其转换为300维向量ri，其中三个层具有ReLU激活，并且在最后具有批量归一化层。图像编码器。我们使用与视觉编码器相同的架构来也将完整图像编码成对应的300维矢量ienc，其用作接地网络的全局图像上下文。3.2. G3RAPHG圆形网络短语图。为了对短语之间的关系进行建模，我们构造短语图GP，其中图的节点对应于短语编码和边与它们之间的上下文相对应。其核心思想是根据字幕中的其他短语为每个短语做出基础决策。这为给定短语的基础提供了重要的上下文形式上，GP=（VP，EP），其中VP是对应于短语的节点，EP是连接这些节点的边。我们使用门控图神经网络对此进行建模工作位置AGGREGATE消息传递步骤4284vuv ku图2. G3RAPHGROUND架构。短语被编码到短语图中，而图像区域被提取并编码到视觉图中。融合图通过独立地调节短语图的每个节点上的视觉图来形成。将融合图中各节点的输出状态经过消息传递后反馈给预测网络，得到最终的接地决策。每个节点v∈VP可以描述为aP（t）=AGGREGATE（{ hP（t−1）：u∈ N（v）}）我们在[17]提出的COMBINE步骤中使用GRU门控。在k（对于所有实验k= 2）个消息阶段v=Σ{APu（WP·hP（t−1））}，（1）通过这个图网络，我们得到hP（k），对短语节点v∈ VP的最终状态进行u∈N（v）u，v k u短语图;然后在融合中使用这些最终状态。其中P（t）是由节点v视觉图表。类似地，我们将另一个GG-NN实例化为v在t期间从其邻域N消息的迭代对建模空间关系的视觉图GV进行在图像中存在的图像区域之间运送每个通过，hP（t−1）是d维特征向量uphrase-nodeu beforetth消息传递迭代图的节点对应于所提取RPN的为了初始化这些节点的状态，我们使用WP∈Rd×d是可学习的d×d维图核kP由vi产生的图像区域的编码特征矩阵，并且Au，v对应于学习的标量条目一个表示边的权值的邻接矩阵连接节点u和v。我们用相应的短语en初始化hP（0）sual编码器，并将它们与由四个归一化坐标表示的图像中的对应图像区域的位置VV表示视觉对象编码pu∈Rdu由短语编码器产生。获得图GV.消息传递的聚集步骤对于每个节点v∈V，该网络可以描述为：邻接矩阵AP的每一个元素，我们连接字幕嵌入（c_enc）、全图像嵌入（i_enc）以及对应的短语嵌入的总和：pu和pv。连接的要素通过两个aV（t）=Σ{αu（WV·hV（t−1））}，（4）u∈N（v）层全连接网络Fadj 然后是sigmoid：其中我们用向量初始化hV（0）[ru，xmin，ymin，xmax，ymax]，其被获得一个P=AP=σ（f（Concat（p+p，c，i）。u u u u日u，vv，uadju vencENC（二）在连接了u的可视编码（ru）图像区域及其归一化位置，αu表示u，v4285v由节点v接收的聚合消息aP（t）用于在第t次迭代期间更新节点v的状态hP（t）=COMBINE（{hP（t−1），aP（t）}）（3）在消息传递期间给予节点u的注意权重。为了获得αu，我们将该节点的视觉编码ru与字幕编码cenc和完整图像编码i连接起来，然后将此向量通过v v venc4286J我vv˜˜˜全连接网络fattn后跟sigmoid：α u=σ（f attn（Concat（ru，cenc，ienc）。（五）这类似于短语图上的消息传递的聚集步骤，除了我们不学习该图的完整邻接矩阵。我们注意到，学习这个矩阵在计算上是昂贵的，因为邻接矩阵中的条目数量随着图像区域数量的增加而二次增加。相反，我们在视觉图的节点上使用无监督注意α来决定边权重。所有源自节点u是加权的αu，其中αu∈[0，1]。类似于短语图，我们使用GRU机制[17]在这个图上的消息传递的组合步骤。在此图网络上经过k个阶段的消息传递后，我们获得hV（k），其编码图像重建的最终状态其中，hV（k）对应于视觉图中的节点j的最终特征向量，并且hP（k）是相位图中的所选节点i的最终特征向量。在每个融合图上的消息传递的聚集和组合步骤保持与针对等式2中的视觉图所描述的相同。⑷和⑶。预测网络接地时，我们预测标量对于表示概率的每个短语-区域对，dij短语Pi是否接地到图像区域Rj。以给定图像和字幕为条件的该决定的概率可以从以给定图像和字幕为条件的该图像区域的融合嵌入来近似。短语我们通过预测网络f_p_ed传递融合图G_F_i的节点j的融合嵌入，预测网络f_p_d由三个全连接层组成，其中三个全连接层之间具有vgion节点v∈VV的视觉图形。更新后的视觉在最后留下了ReLU激活和sigmoid函数图以短语图的每个节点为条件P（dij=1|hFi（k））=σ（fpre d（hFi（k）（7）我们接下来要解释的融合步骤J J融合图由于我们分别从短语图和视觉图中获得短语嵌入和图像区域嵌入，因此融合图被设计为在做出接地决策之前合并这些嵌入。针对每个短语实例化一个融合图。该说明通过将视觉图的所有节点的特征与来自短语图的所选短语节点的节点特征连接来实现。也就是说，融合图具有以下性质：（1）结构相同后处理。注意，给定短语可以接地到单个或多个区域。我们发现，该模型所以我们预测每个短语v∈VP的标量βv，表示短语被基于的概率大于一个图像区域。我们将从短语图获得的节点v的更新的短语嵌入hP（k）通过2层全连接网络fcount：（即，节点的数量以及邻接矩阵）作为视觉图; 2）融合图的数量瞬时v=σ（f计数（hP（k），⑻ated与短语图中的节点数量相同。我们还可以将该图表征为基于短语图的节点的视觉图。在融合图中的消息传递的k次迭代之后，我们使用每个节点的最终状态来预测对应的图像区域相对于相应的融合图被调节的短语的接地决策。通过从每个短语的视觉图实例化新的融合图，并且在短语图的所选择的短语节点上调节该新的图中的消息传递，这对于所有短语独立地重复。请注意，融合图中的消息传递似乎是针对每个短语独立发生的，但事实用于在融合中调节消息传递的每个短语嵌入图是短语图的输出，因此，知道如果βv大于0.5，我们选择预测网络的输出高于固定阈值的那些图像区域，然后应用非最大值抑制（NMS）作为最后一步。否则，我们简单地将短语接地到具有从预测网络输出的最大决策概率的图像区域。训练我们对编码器进行预训练，为它们提供良好的初始化，以进行端到端学习。首先，我们以自动编码器格式预训练短语编码器，然后保持固定，我们使用排名损失预训练视觉编码器。损失强制执行余弦相似性Sc（. ）之间的短语编码和视觉编码的地面真值对（pi，rj）要比一个对比对的最小余量γ：标题中出现的其他短语设GFi表示通过将视觉图条件化在短语图的节点i上而获得的融合图。的该融合图中节点j的初始化可以被描述为：L=Σ（Ep~+E=/pimax{0，γ-SC（pi，rj）+SC（p~，rj）}rjmax{0，γ−SC（pi，rj）+SC（pi，r）}）（九）hFi（0）=Concat（hP（k），hV（k）），j∈VV（6）其中r和p表示随机采样的对比图像区域和短语。字幕编码器和ji j4287方法精度SCRC [12]17.93MCB + Reg + Spatial [5]26.54[26]第二十六话26.93相似网络+空间[28]31.26CGRE [20]31.85MNN + Reg + Spatial [5]32.21EB+QRN（VGGcls-SPAT）[6]32.21CITE [22]34.13IGOP [38]34.70QRC Net [6]（微调）44.07G3RAPH GROUND ++44.91表1. Flickr30k上的最新比较。测试集上的短语基础准确度以百分比报告以类似方式预训练图像编码器在预训练编码器之后，我们端到端地联合训练模型对于端到端训练，我们将其制定为二进制分类任务，其中模型预测每个短语区域对的基础决策我们尽量减少二元交叉-模型预测和真实标签之间的条目损失BCE（·）。我们还联合培训fcount并申请二进制交叉熵损失，用于预测短语是否应该被固定到单个区域或多个区域的二进制分类任务。总训练损失描述为：Ltrain=BCE（di，j，di，j）+λBCE（βi，βi），（10）其中，di，j和di，j分别是第i短语和第j个区域的预测和真实基础决策，同时，βi和βi是预测和真实基础决策。关于第i个短语是否扎根于多个区域的真实性;λ是使用网格搜索调谐的超参数4. 实验4.1. 设置和推断我们使用具有VGG-16主干的Faster R-CNN [25]作为从图像中提取建议区域的机制。我们处理那些图像区域（即，边界框），其在训练期间由RPN提出作为正标签，其具有大于0.7的IoU与数据集的地面实况框和符号。对于不存在这样的框的短语，我们将阈值降低到0.5。我们在训练期间对每个阳性样本采样三个这确保了所学习的模型不偏向于否定。在推理过程中，我们将所有的建议图像区域都输入到模型中，并进行两次预测。第一预测表2. 国家的最先进的比较参考游戏。测试集上的短语基础准确度以百分比报告是针对每个短语，以确定该短语是否应该被接地到单个或多个图像区域。第二预测是针对每个短语-区域对，以确定将给定短语接地到给定图像区域的概率。基于第一预测，相应地对第二预测的结果进行后处理，并且将短语接地到单个或多个图像区域。4.2. 数据集和评估我们在Flickr30k [24]和Referit Game [14]数据集上验证了我们的模型。Flickr 30 k包含31，783张图像，每张图像都有五个标题/句子。每个标题被进一步解析成短语，并且相应的边界框注释可用。短语可以用多于一个真实边界框来注释，并且边界框可以被注释到多于一个短语。我们使用与先前作品相同的数据集分割[22，24]，其中使用29，783张图像进行训练，1000张用于验证，1000张用于测试。Referit Game数据集包含20，000张图像，我们使用与[12，22]中相同的分割，其中我们使用10，000张图像进行训练和验证，而其他10，000张用于测试。每幅图像都用多个指称表达（短语）和对应的边界框来注释我们注意到，与该数据集的给定图像相对应的短语不是来自句子，而是独立存在的。与先前的工作[26]一致，我们使用接地准确性作为评估指标，即正确接地短语与测试集中短语总数的比率。如果一个短语被固定到多个框，我们首先在图像平面上取预测框的并集。如果预测区域具有大于0.5的IoU与地面真实值，则短语正确接地4.3. 结果和比较Flickr30k。我们在Flickr30k数据集上测试了我们的模型并在表1中报告我们的结果。我们的完整模型方法精度SMPL [30]42.08非线性SP [29]43.89简体中文[CN]47.81MCB [10]48.69RtP [24]50.89相似网络[28]51.05IGOP [38]53.97SPC+PPC [23]55.49SS+QRN（VGG检测）[6]55.99CITE [22]59.27SeqGROUND [9]61.60CITE [22]（finetuned）61.89QRC Net [6]（微调）65.144288方法Flickr30k参考游戏GG -短语G60.8238.12简体中文62.2338.82简体中文59.1336.54简体中文_English56.3232.89GG -ImageContext62.3240.92GG -标题上下文62.7341.79GGFusionBase60.4138.65G3RAPH GROUND（GG）63.8741.79G3RAPH GROUND ++66.9344.91表3. 消融结果。 Flickr30k和ReferIt游戏数据集。G3RAPHGROUND ++以66.93%的最佳准确度该模型实现了5.33%的接地准确性比Seqlord的最先进的性能提高[9]。大多数方法，就像我们一样，不微调目标数据集上的特征例外情况包括CITE [22]和QRC Net [6]，在表中指定为（微调）。我们强调，与这些方法的比较尽管如此，我们优于他们，分别为5%和1.8%，没有利用spece- cialized特征提取器。当与未微调的这些模型的版本（CITE和SS+QRN（VGGdet））相比时，我们的模型分别比它们高这突出了我们在G3RAPH GROUND中上下文推理的力量。功能的微调可能会带来额外的改进。表4显示了Flickr30k数据集中不同粗类别的模型的短语接地性能。我们观察到G3RAPH G ROUND ++在除了“仪器”之外的所有类别中与其他方法相比实现了准确性的一致增加;事实上，我们的模型在八个类别中的六个类别中表现最好，即使与像[6，22]这样的微调方法相比也是如此。“衣服”和“身体部位”类别的准确性分别提高我们还考虑了一个更严格的度量框级的准确性。我们称短语正确接地，如果：1）短语的地面真值中的每个框都具有IOU>0。2）通过模型与短语匹配的那些框中的每个框具有IOU> 0。5，至少有一个框，从地面真理的短语。我们在下面报告了具有单个（n= 1）和多个（n>1）地面实况注释的短语我们还考虑了我们模型的Top1版本，该模型将每个短语接地到一个最大得分框。方法累积（n=1）累积（n>1）平均接入G3RAPH GROUND（Top1）69.034.8056.12G3RAPH GROUND（GG）53.1725.7848.08G3RAPH GROUND ++67.4625.6159.07图3. 视觉图形的注意力结果示例。对投影在图像中的每个图像区域的聚合注意力。参考游戏。我们在表2中报告了我们的模型在ReferItGame数据集上的结果。G3RAPH GROUND ++的性能明显优于所有其他最先进的技术，并达到了44.91%的最佳精度。我们的模型比使用类似功能的最先进IGOP[384.4. 定性结果在图3中，我们将注意力（α）可视化在视觉图（图像）的节点（图像区域）上。我们发现，该模型能够将重要的图像区域与其余区域区分开，例如，在（a）中，该模型向重要的前景对象（诸如儿童和人）分配比背景对象（诸如墙壁和柱子）更高的注意力权重。类似地，在（d）中，女人和汽车比图像中的任何其他区域得到更多的注意。我们还在图4中可视化一些短语接地结果。我们发现，我们的模型是成功的接地短语具有挑战性的情况。在（f）中，模型能够将两个女人与其他女人区分开来，并且还能够推断出五颜六色的衣服对应于两个女人而不是其他女人的衣服。在（b），（d）和（f）中，我们的模型能够将单个短语接地到多个相应的边界框。也注意在（i）中的手的正确接地，尽管存在其他手候选者。我们还指出了一些错误，例如在（i）中，蓝色Bic笔不正确地接地到空间上接近的手镯在（h）中，卷曲的头发被固定到更大的边界框。4.5. 消融我们对我们的模型进行消融研究，以清楚地了解每个组件的益处表3显示了两个数据集的结果。G3RAPHGROUND ++是我们的完整型号，可实现最佳精度。G3RAPHGROUND缺少单独的计数预测分支，因此使用4289方法人服装身体部位动物车辆文书场景其他SMPL [30]57.8934.6115.8755.9852.2523.4634.2226.23简体中文[CN]61.0038.1210.3362.5568.7536.4258.1829.08RtP [24]64.7346.8817.2165.8368.7237.6551.3931.77IGOP [38]68.7156.8319.5070.0773.7539.5060.3832.45SPC+PPC [23]71.6950.9525.2476.2366.5035.8051.5135.98SeqGROUND [9]76.0256.9426.1875.5666.0039.3668.6940.60CITE [22]（finetuned）75.9558.5030.7877.0379.2548.1558.7843.24QRC Net [6]（微调）76.3259.5825.2480.5078.2550.6267.1243.60G3RAPH GROUND ++78.8668.3439.8081.3876.5842.3568.8245.08表4. Flickr30k数据集上粗分类的短语基础准确性比较图4. 由G3 RAPH G ROUND得到的示例结果。彩色边界框对应相同颜色的短语。门槛机制。模型GG-PhraseG缺少短语图来跨短语共享信息，并且在融合步骤期间直接使用短语编码器的输出。在类似的方法中，模型GG-VisualG缺少可视图，即在建议图像区域之间不发生消息传递。视觉编码器的输出在融合期间被直接使用。模型GG-FusionG缺少融合图，即预测网络直接从与短语图的输出连接的可视图的输出进行预测。GG-VisualG-FusionG缺少视觉图和融合图。GG-ImageContext和GG-CaptionContext在上下文信息中不分别使用完整图像和字幕嵌入。我们设计了另一个强基线 GGFusion-Base 用于G3RAPHGROUND来验证我们的融合图.在该方法中，我们没有在每个短语上实例化一个用于条件消息传递的融合图，而是在由短语图和视觉图两者的更新节点组成的单个大图上通过消息传递来执行融合，使得每个短语节点以单位权重的边连接到每个图像区域节点;在相同模态的节点之间不存在边。我们发现，结果显示在这两个数据集一致的模式。GG-PhraseG和GG-VisualG与G3RAPH GROUND con相比性能更差企业抓住内部模式关系的重要性。 GG-VisualG-FusionG在两个数据集上的表现最差。即使其中一个视觉图形或者存在融合图时，准确度显著提高。然而，融合图是我们模型中最关键的单个组件，因为它的缺失会导致准确性的最大下降。GGFusionBase略好于GG-FusionG，但仍显著差于G3RAPHGROUND。这有力地证明了我们的融合图的有效性。我们的后处理技术的作用也从G3RAPH GROUND和G3RAPH GROUND ++之间的性能差距中显而易见。由于每个消融模型的性能明显差于组合模型，我们得出结论，每个模块都很重要。结论在本文中，我们提出了G3RAPHGROUND框架，部署GG-NN捕获短语和图像区域之间的模态内和跨模态关系，以执行语言接地的任务。G3RAPHGROUND将短语编码到短语图中，将图像区域编码到视觉图中，最后使用条件消息传递将它们融合到融合图这允许模型联合地对所有短语-区域对进行预测，而不对数据的底层结构进行任何假设。在两个基准数据集上证明了我们方法的有效性，最高可达10%的改进。4290引用[1] Nayyer Aafaq、Syed Zulqarnain Gilani、Wei Liu和AjmalMian。视频说明：方法、数据集和评价指标的调查。CoRR，abs/1806.00186，2018。2[2] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在IEEE计算机视觉和模式识别会议（CVPR），2018。1[3] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV），2018。2[4] Lisa Beinborn，Teresa Botschen，和Iryna Gurevych。语言处理的多模态基础。第27届国际计算语言学集，第2325-2339页。计算语言学协会，2018年。2[5] Kan Chen ， Rama Kovvuri ， Jiyang Gao ， and RamNevatia.多模态空间回归与语义上下文短语接地。在ACM关于多媒体检索的国际会议上，第23-31页，2017年。6[6] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文政策的短语接地- ing。在IEEE国际计算机视觉会议（ICCV），第824-832页，2017年。一二六七八[7] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.迭代的视觉推理超越了卷积。在IEEE计算机视觉和模式识别会议（CVPR），2018年。3[8] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议（CVPR），2018。1[9] Pelin Dogan，Leonid Sigal，and Markus Gross.神经序列短语接地（seqground）。在IEEE计算机视觉和模式识别会议（CVPR），2019。一二六七八[10] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。自然语言处理经验方法会议（EMNLP），2016年。6[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 IEEE 计算机视觉和模式识别会议（CVPR），2014年。1[12] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在IEEE计算机视觉和模式识别会议（CVPR）中，第4555-4564页，2016年。6[13] Andrej Karpathy，Armand Joulin，and Li Fei-Fei.用于双向图像句子映射的深度片段嵌入。神经信息处理系统进展，第1889-1897页，2014年一、二[14] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在经验主义会议上自然语言处理方法（EMNLP），第787-798页，2014年。一、二、三、六[15] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。国际学习表征会议（ICLR），2017年。2[16] Ryan Kiros、Ruslan Salakhutdinov和Richard S.泽梅尔统一视觉语义嵌入与多模态神经语言模型。TransactionsoftheAssociationforComputationalLinguistics（TACL），2015年。2[17] Yujia Li ， Daniel Tarlow ， Marc Brockschmidt ， andRichard Zemel.门控图序列神经网络国际学习表征会议（ICLR），2016年。二三四五[18] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Dollar，andLawrence Zitnick.微软coco：上下文中的公用对象。欧洲计算机视觉会议（ECCV），第7401[19] Jiasen Lu，Jianwei Yang，Dhruv Batra，and Devi Parikh.神经宝宝的谈话。在IEEE计算机视觉和模式识别会议（CVPR），2018。1[20] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在IEEE计算机视觉和模式识别会议（CVPR）中，第7102- 7111页，2017年。1、6[21] 杰弗里·潘宁顿，理查德·索彻，克里斯托弗·曼宁.Glove：单词表示的全局向量。在自然语言处理经验方法会议，第1532-1543页，2014年。3[22] Bryan Plummer 、 Paige Kordas 、 Hadi Kiapour 、 ShuaiZheng、Robinson Piramuthu和Svetlana Lazebnik。条件图像 - 文本嵌入网络。在欧洲计算机视觉会议（ECCV），第249-264页，2018年。一二六七八[23] Bryan Plummer、Arun Mallya、Christopher Cervantes、Julia Hockenmaier和Svetlana Lazebnik。综合图像-语言线索的短语定位和视觉关系检测在IEEE InternationalConference on Computer Vision（ICCV），第1928-1937页，2017年。二、六、八[24] Bryan Plummer 、 Liwei Wang 、 Chris Cervantes 、 JuanCaicedo 、 Julia Hockenmaier 和 Svetlana La

下载后可阅读完整内容，剩余1页未读，立即下载