自然图像中基于视觉语言信息传递的场景图

50 浏览量更新于2023-10-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4391基于视觉语言信息传递的自然图像场景图Aditay Tripathi1Anand Mishra2Anirban Chakraborty11印度科学学院2印度理工学院焦特布尔{aditayt，anirban} @mishra@iitj.ac.in iisc.ac.inhttps://iiscaditaytripathi.github.io/sgl/摘要本文提出了一个框架，共同接地对象，遵循一定的语义关系的场景图中给出的约束。一个典型的自然场景包含几个对象，它们之间经常表现出不同复杂性的视觉关系这些对象间关系提供了强大的上下文线索，提高接地性能相比，传统的对象查询仅基于本地化任务。场景图是一种有效的结构化方法来表示图像中的所有对象及其语义关系在试图弥合这两种方式表示场景和利用上下文信息，以提高对象定位，我们严格研究自然图像接地场景图的问题。为此，我们提出了一种新的基于图神经网络的方法，称为Visio-L语言信息PAssingG神经网络（VL-MPAG网）。在VL-MPAG网中，我们首先构造一个有向图，其中对象建议作为节点，并且一对节点之间的边表示它们之间的似然关系。然后执行三步图间和图内消息传递以学习提案和查询对象的上下文相关表示。这些对象表示用于对生成对象定位的提议进行评分。所提出的方法显着优于基线上的四个公共-李克数据集。1. 介绍“当我们的目光落在一个新奇的场景上时，会发生什么样的心理事件？所获得的理解不是简单地列出生物和物体。相反，我们的心理表征包括对这些实体之间存在的各种关系的规范。-Biederman等人，[1]第一章图1：我们的目标：在图像上建立场景图。给定场景图和图像，我们将对象接地（或定位），从而间接地将视觉关系也联合在图像上。[最佳颜色]。概念与语境的联系被称为在视觉基础中，自然场景是上下文，而概念可以使用不同的查询形式来表达，例如草图[32]，自然图像[13]，语音[4]，文本[17，22，41]或场景图[16]。在许多计算机视觉任务中，例如图像生成[21]和图像编辑[31]，场景图已经成为查询的流行选择，因为它们能够以简洁，无歧义和结构化的方式表达具有多个对象实例和它们之间的语义关系的复杂场景。此外，如[28]中所述，事实上，场景图已经证明了它们在体现AI中的效用[40]，其中场景先验通常被编码为场景图，并将它们接地在一个4392⟨⟩}×⟩ ⟨ ⟩ ⟨⟩{⟨⟩环境有助于体现代理有效地导航预见上述应用，约翰逊等人。[16]已经将场景图接地的任务作为辅助任务引入到基于场景图的图像检索中，作为该方向的早期工作。虽然使用图形作为基础对象的查询在原则上是令人兴奋的，但一个自然的问题是如何构建这样的查询。一个可能的方向是使用自然语言句子来生成图形[30]，这对于长句和复杂句来说尚未达到可接受的性能水平，并且是一个开放的研究领域[36]。另一种可能性是使用一个精心设计的用户界面，非专家用户可以快速绘制任意复杂度的图形[16，43]。此外，还可以通过从表示场景图的固定集合中选择它们来获得场景图查询，使用常识知识[11]获得的场景中对象的空间配置，例如Monitor、on、Table、Keyboard、near、Monitor、Chair、nextto、Table、Person、sitting on、Chair。无论用于获得场景图查询的方法，我们在本文中的范围是研究场景图接地作为一个独立的任务。在这项工作中，我们制定和研究的任务，地面- ING场景图的图像定义在图1中，在一个原则的方式。在此基础上，提出了一种新的、鲁棒的、有效的、适合于查询数据结构和当前任务的求解策略;并对大规模计算机视觉基准进行严格的实验和分析。我们希望这项工作将有助于建立场景图接地- ING作为一个重要的和独立的跨模态计算机视觉问题，从而导致令人兴奋的贡献，沃德这个开放的问题。在这项工作中，我们提出了一种新的方法来解决场景图接地问题。为此，给定一个查询场景图G1和一幅图像，我们首先使用区域建议网络获得图像上的对象建议，并构造一个建议图Gv。请注意，建议图包含对象建议和可训练的视觉关系嵌入，分别作为节点和边缘的表示设图Gl和Gv分别含有m个和n个结点，则在Gl和Gv的结点之间加上m n条辅助有向边，构成一个复合语义图Gvl. 这些辅助有向边允许我们学习与查询图相关的建议表示。然后，我们在G vl上执行消息传递操作以学习上下文提议和对象表示。这些学习的建议针对每个查询对象进行评分以执行视觉基础。我们将我们的方法称为VISIO-L语言M消息PA SSING G神经网络或简称为VL-MPAG网络。我们在四个公共数据集上评估了VL-MPAG Net，即Visual Genome [20]，VRD [25]，COCO-stuff [2]和SG[16]，并将其与以下基线进行比较：（i）仅节点方法，其中仅对象在场景图查询在不利用关系约束的情况下被本地化，（ii）一种方法，其中从场景图查询获得的扁平化三元组被用于使用现有技术的方法来执行基础[17]。(iii)由[16]提出的基于CRF的方法，其中他们在图像上的边界框上构建条件随机场（CRF），并执行对象定位的最大后验估计。这些方法要么不利用关系，要么未能利用图中存在的结构信息，因此在性能上有所不足。与这些方法相反，VL-MPAG Net联合地将遵循场景图中给出的某些语义关系约束的对象接地，从而超越它们。该工作的实现在https://iiscaditaytripathi.github.io/sgl/上提供。贡献：我们做出以下贡献：（i）我们以原则性的方式将场景图基础作为一个独立的问题提出。(ii)针对这一问题，我们提出了一种新的模型--VL-MPAG网络具有两个新颖的特征。首先，查询引导的建议图生成，利用查询图中的关系生成具有相关边的稀疏建议图。第二，一个基于语言的消息传递网络，它学习对象建议和查询实体的查询条件结构化表示，以生成更好的本地化。(iii)我们通过对现代大型公共基准的严格实验，消融和分析来证明VL-MPAG Net的有效性。2. 相关作品计算机视觉中的场景图：场景图是场景的结构化表示，其可以精确且明确地表示多个对象及其语义关系。场景图在整体场景理解中起着关键作用，并且是表示视觉知识的流行方式[20]。作为语义丰富的表示，场景图在许多计算机视觉任务中显示出它们的实用性，例如视觉问题回答[9，5]，图像检索[16，35]，自然场景生成[16，35[15，44，21]和高级图像编辑[7，31]。在这项工作中，我们研究了场景图接地多个对象和关系联合图像。查询引导的对象本地化：在查询引导的对象本地化中，需要在图像上本地化的概念（或查询）使用文献中的各种模态来表达。在文献[32]和[13]中，作者分别用手绘草图和物体的自然形象来表达“单一物体”的概念。Cheng等人[4]使用语音输入来定位和分割名词的概念，即，宾语和形容词。主体和对象之间的交互已经由视觉关系表示，即，主语、谓语、宾语三个字。该任务的主体和客体都受到4393u u=1--⊂V E V E V× R × V联系我们联系我们图2：所提出的场景图基础框架（VL-MPAG Net）按以下步骤工作：（i）建议图生成：建议图首先使用从RPN获得的对象建议作为节点（使用灰色节点显示）和使用查询中存在的关系定义的边来构建。从查询节点到建议节点的有向边（使用虚线箭头显示）也被包括在内，以连接查询和建议图（第3.2节）。(ii)结构化图学习：在这里，建议和查询的结构化表示是通过使用从查询节点到建议的边的三步消息传递来学习的，并且在查询和建议图中是独立的（第3.3节），以及（iii）建议评分对象建议最终针对查询节点进行评分以定位对象（第3.4节）。视觉关系，需要在图像上接地被称为参考关系[25，19，12]。文献[26，22，17，8，45]中的作者使用单行句子或短语作为查询，以所有提到的对象为基础。计算机视觉文献中场景图的概念已经触发了以简洁和结构化的形式编码复杂的语义概念（例如多个对象类别和实例之间的交互考虑到这一点，在一项开创性的工作中，约翰森等人。[16]利用场景图查询来定位受视觉关系约束的对象，并将其作为最大后验估计问题。我们通过提出一种新的基于图神经网络的方法和大规模评估来进一步开展这项工作，以便在图像上对场景图进行接地。图形神经网络：图神经网络（GNN）被提出来学习图中存在的实体的表示。它们有几个变体，如图注意力网络[33]，图卷积网络[6，18]和消息传递网络[10]。其中，消息传递网络学习图中节点和边的表示，并在许多领域中看到应用，如知识图完成[34]，视觉关系检测[14]，场景图生成[38]和场景理解[42]。与现有文献不同的是，我们提出了一种新的多语言消息传递网络来学习异构多模态图的结构化表示。图神经网络，一般来说，已被广泛用于各种场景图相关的任务。Yang等人[39]提出了用于场景图生成的图他们提出了一个注意力图卷积网络，其中场景图中的全局上下文用于更新对象节点和关系边缘标签。作者在[24]中使用了图相似性网络-为小短语打下基础。与我们不同的是，他们认为自然语言查询的可用性，在他们的框架中使用它的嵌入，并在视觉和语言图上独立地执行消息传递。在[15]中，作者使用图形卷积来生成场景图形到图像;他们通过预测对象的边界框和分割掩码来计算场景布局。然后，他们将布局转换为具有细化网络的图像。查询驱动的建议图生成，多模态多语言图上的消息传递，以及建议和查询对象的学习上下文相关表示是我们提出的基于GNN的方法的一些亮点，这使我们与基于场景图的GNN文献不同。3. 视觉-语言消息传递图神经网络（VL-MPAG网络）3.1. 背景和问题表述场景图是场景的结构化表示通常，场景图还包含表示为图中的节点的对象属性。然而，在本文的上下文中，我们放弃了属性，我们的场景图只包含作为节点的对象和作为边的关系。形式上，给定一组对象实体 O=e1 ， e2 ， enn 和一组关系 R=r1 ，r2，，rm，场景图被定义为s=（，），使得O和“是一组标记边，其中R′R.设Iu，GlM为自然象的M对，在一个实施例中，每个场景图分别在数据集的训练集中具有对应的场景图。此外，设O和R是所有对象实体4394∈KJΣjRk、juKKJu|R|uuuu我 JKuKJKJ我∈∈i=1∈∈--符号含义Gv，Gl，Gvl建议图，查询图，语义图在此基础上，提出了一种新的算法，该算法由场景中的对象之间的视觉语义关联约束，并且比O（|Ru|2）的情况。Iu，Gl第u个自然图像和第u个场景图给定一对区域建议（p，p）及其对应的uO、R对象实体集和关系集k jRu图像Iu的区域建议集Φi，i∈{1，2，. . . ，6}神经网络工作响应边界框坐标（Bk，Bj），我们首先估计，按如下方式匹配提案的表示：p=W，Wi，i∈ {1，. . .，4}可训练矩阵Kϕϕϕek，ej查询图Gl中的节点查询图中节点ek和ej之间的边pk，pj提议图Gv中的节点建议图中节点pk和pj之间的边建议pk和实体el之间的相似性得分Φ1（pk）和pj =Φ1（pj），其中pk，pjRd和Φ1是一个神经网络。注意，pk和pj表示图像分别由图像上的Bk和Bj限定的区域然后，我们计算这些之间的边的表示ESkj，i边hkj和关系ri之间的相似性得分两个节点作为W好吧表1：本文中使用的符号。和数据集中存在的关系每个查询场景图G1是三元组{（e，r，e）}的集合，使得对象enti-hkj=pk，pj，Φ2（[γk，j，γk，kj，γj，kj]）这里，WR3d×d，hRd和Φ2是神经网络。使用边界框Bk和Bj计算γ s，如下：给定一对边界框Bk和Bj，我们首先构造一个联合矩形盒Bkj，其紧密地连接-关系ei，ek0和关系rjR。在推理过程中，给定图像Iu和场景图查询Gl，接地场景图关闭Bk和Bj，然后我们计算几何特征，对于{（B，B），（B，B），（B，B）}中的每对盒子。涉及到当地的-在所述图像上确定与所述实体相对应的对象在场景图中，它遵循例如，对（B k，B j）的几何特征计算如下：场景图中的对应关系。所提出的端到端可训练框架如图2所示。其工作分为以下三个阶段：γk，j=马林|xk−xj|焕光，ln|yk−yj|HK，lnwj焕光hT，lnHK、（1）(i)建议图生成，（ii）结构化图学习，以及（iii）我们接下来描述的联合建议评分。3.2. 建议图生成给定图像Iu，我们生成一组区域命题u使用区域建议网络（RPN）建议 [29]。它是一种神经网络，其生成使用边界框坐标和作为前景的置信度得分表示的一组固定的区域建议之一查询图中的对象类别这里应该注意的是，RPN并不提供精确的对象类别标签，其中，（xk，yk，wk，hk）是框Bk的边界框坐标;并且这些特征是针对每个两个目标提案。现在，为了仅保留使用视觉线索h_k获得的表示与给定查询场景图上存在的关系中的至少一个良好对齐的那些边，我们对场景图查询中存在的关系中的每对propos_al（p_k，p_j）进行评分，如下所示：re lSim =max.Θ。h，r K、（二）生成的提案。一种用于使场景图接地的合理方法然而，这种方法没有利用查询图或目标图像中的结构信息，并且不太可能非常有效。查询场景图显式地捕获对象之间存在的结构信息，并表示为表示对象之间关系的边。然而，为了整合不同语义之间存在的结构信息（对象间语义关系）其中，r1， r2，. . . ，rK是存在于关系中的关系的集合。查询图G1和Θ是余弦相似度。现在，如果关系相似性得分re lSi mkj高于预定义阈值，则将来自提议p k的有向边添加到p j。对每一对建议重复此过程，以生成一个以p为节点表示的有向图和h*作为边缘表示。请注意，在这个图形生成过程中的所有映射，即（W，Φ1，Φ2）是可学习的，并以端到端的方式进行训练。3.3. 结构化图学习目标图像中的区域，我们创建一个具有区域的图设Gl是表示第u个场景的有向图建议作为节点，边作为约束它们的关系。的RPN给出了一组区域propos- als，我们提出了一个如果提案是全连接的，则提案图的时间复杂度为O（u2）-边。然而，实际的数量-关联受到一组看似合理的关系的限制图查询，并且Gv是如前一节（第3.2节）中所描述的从图像Iu生成的对应提议图。查询图G1中的节点表示对象，并且边表示关系。在对象节点之间运送。我们使用Glove [27]来获得Gl中实体和关系的初始表示。这两个图中的节点的表示通过传递来自邻居的消息来更新。然而，在这方面，KJKKJJKJ4395pKuuE ∈Rϕ ^）先生先生^=uKu|nbd（pk）|nbd（p）6KKJ=e3K4J公式如下：Skl=Θ（pk，ele3K4L1234JK|nbd（ek）|nbd（e）4KKJKJKJKJ2u^Σ如果独立于查询节点更新建议表示，则相同的建议表示将可以学习不同的查询场景图。例如，考虑包含戴帽子的人的图像，^=1Φ.，^h。（八）shoes和两个不同的查询（person，wearing，hat）和（person，wearing，shoes）。具体地，在提议图中，对应于查询节点人的区域提议可能具有可能对应于帽子或鞋子的相邻提议。如果我们独立于查询节点更新提案节点的表示，提案的表示会受到所有邻居的均匀影响，即使一些邻居不对应于任何查询节点。为了缓解这个问题，我们从查询图这里，nbd（pk）是节点的邻居的集合，表示建议图Gv中的建议pk，Φ5，Φ6是两层神经网络。在学习了上下文代表之后，通过对两个图中的节点进行标记，针对查询节点对提议节点进行评分，以使场景图基于图像。在消息传递的第二和第三步骤之后学习的表示可以通过使用两层GNN来变得更有表达性，因为它使模型能够利用2跳邻域上下文。3.4. 联合提案评分l到建议图Gv的每个节点，如由图2中的虚线边，并构建一个组合的语义图。在此图上执行三步消息传递以更新节点的表示。在第一步中，在从查询图到提议图的辅助边上执行消息传递，并且对象提议的表示被更新为：一旦查询对象的表示和区域提议被更新，评分函数Θ就被用于对具有查询对象的区域提议进行评分。考虑一个带有标签变量yk的提案pku。在训练阶段，yk被分配一个类cel 或0，基于其与属于类cel的查询对象el的基本事实边界框的交并（IoU）。是p<$=W1p<$+W2simkj·e′，（3）当其IoU ≥ 0时，分配类ce。否则为5和0。k k jJL一旦标签被分配给提案框，每个区域的建议，关于查询是生成-（Wpkj（Wp）T，We′，其中，Θ是余弦相似性，并且Skl是表示-提案的立场PK以及查询节点E1。为每个节点其中，W，W，W，W ∈Rd×d，e∈′是表示-el和一组区域建议Ru，图像Iu，损失函数定义如下：使用Glover e获得的查询图中的实体ej的位置在在该步骤中，将查询节点的表示的加权和添加到每个建议还权重取决于提案代表的兼容性，L（Qu，el）= 0，−.1[yk=ceK]ln（Skl）（九）与查询节点一起发送。此步骤有助于将查询信息合并到建议表示中。换句- 我是说...1[yk]=ce]ln（1 − Skl）+Lk ，.对于一个目标图像，最终表示的重新，对于每个查询，GION建议将以不同的方式学习这里，Lk 是边际损失，定义如下：在第二步中，在u01-02|Skl−Sjl|−m−查询场景图。对于查询图G1，节点表示句子更新如下：r^′=Φ3. e′，e′，r′，（5）先生j=k+1，0）+1[YKKyj]Jmax（m+−|Skl -Sjl|,0),,（十）KJe'1kj kjΦ.K其中，m+和m-分别是针对i v e的iv e和n eg，并且yk是针对提议p k的类标签。等式（10）中的边际损失采用一对方案，并且确保被分配相同标签的建议对具有彼此更接近的预测概率，其中，nbd（e，k）是e，k在图G1和Φ3、Φ4是两层神经网络。此外，在第三步骤中，给定建议图Gv，建议节点的表示被更新如下：同时使得具有不同标签的建议在预测概率方面更宽。为了在建议图生成期间选择期望的边集合，还在边上定义损失函数，该损失函数可以从区域提案的集合中构建用于一组GSIM、（四）LLL4396^h =Φ5. p<$，p<$，h，（7）N区域建议，. 连接一对区域的N条4397∈ EEE我≥边缘1 2 3 4 5 6 7 8边缘已移除仅节点（检测）21.0 47.9仅节点（本地化）33.957.2扁平三胞胎MDETR [17]结构化图查询[16]第十六话我们的（VL-MPAG Net）单层35.5 57.9双层36.3 58.430.1 62.829.9 53.525.4 44.8- -32.7 61.636.0 63.323.4-34.7 62.5十五岁929岁923.9-35.9 64.236.9 65.6表2：COCO-填充值和VG-FO上场景图接地任务的结果，用于完全重叠的训练测试类别设置。由于在提交本文时无法获得[16]的实施情况，我们仅与其论文中报告的结果进行比较可以定义提案设为所有这些边的集合考虑有向边hkj（其中k和j是源节点，并且t是关于iv el y的节点。）以及它的标签变量zkj。如果对应于边hkj的命题对遵循查询图中的关系ri，则变量z k j被分配标签c ri。所述边缘的视觉表示随后针对关系嵌入进行评分其中，Θ是余弦R@133.835.833.530.727.926.024.623.2VG-FOR@5样本数量62.721,80764.97,54361.23,82658.22,34754.21,54753.293649.569348.6434R@123.930.033.735.134.735.740.135.7VG-PO-UnseenR@5 #样品51.225,91358.17,66561.53,00559.81,39156.177056.439059.221856.9130表3：查询大小对模型性能的影响。Unseen是指在训练期间未使用的VG-PO中的类别集。（参见第4.2节）。相对于地面实况边界框的预测边界框位置的回归损失。推理：在推理过程中，在获得图像上的对象与训练不同的是，我们然后针对查询对象对区域建议进行评分，并为每个查询对象选择得分最高的建议作为本地化输出。4. 实验和结果4.1. 数据集、评价方案和基线我们使用四个公共数据集，即VisualGenome [20]，VRD [25]，COCO-stuff [2]和SG [16]，相似性和ESKJIh和我们的实验其中，基于VRR-vg的动机[23]kj，i是边kj关系ri. 对于关系ri和边的集合，损失定义如下：L（E，ri）=0，−.1[zkj=cr]ln（ESkj，i）L和VG-150 [37]，为了最小化由于长尾分布和视觉上不相关的关系（例如平面或南瓜标志的字段）引起的偏差，我们使用包含93 K图像场景的视觉基因组图对用于训练，40K图像场景图对用于- 我是说...1[zkj=cri] ln（1−ESkj，i），，（十一）试验. 此数据集中的场景图是使用150个对象类别和40个谓词。我们将这种视觉基因组的分裂称为视觉基因组-完全其中，cri 是关系ri的标号。例如，这样的标签是通常，对于关系，正边缘和负边缘的数量具有巨大的不平衡（通常负边缘比正边缘多得多），导致训练不佳。为了缓解这个问题，我们提出了以下策略来采样一组更平衡的边。考虑查询场景图中的边（l，m）（关系）。所有N个区域提议都被评分，如严格定义的，其中两个节点（el和em）都存在于边缘中假设Pl和Pm是相对于el和em以分数的递减顺序排序的建议列表。我们从Pl和Pm中随机选择p个提案，但确保其中一半来自每个列表的前50名从这些p个提议的集合中，形成连接来自所选列表的pro-proc的一组边对查询场景图中的所有边重复这些步骤以获得平衡子集。然后，对于小批量中的这些平衡的边缘子集，计算等式（11）中定义的损失函数在我们的实验中，我们根据经验选择p=48。我们还定义了区域建议的标记（前景或背景）特征向量上的交叉熵损失，观察到（或VG-FO）。为了便于研究看不见的对象，我们创建了一个名为Visual Genome- Partially Observed（或VG-PO）的分割，其中包含在训练期间从125个对象类别的子集构建的场景图，而测试场景图包含额外的25个对象类别的子集。其他三个数据集，即， VRD[25]、COCO-stuff [2]和SG [16]包含（45K，100，70），（77K，183，6）和（5K，166，68）图像-场景图对、对象类别、全部谓词的数量。COCO-stuff的场景图使用[15]中的协议构建。我们使用1和5处的Recall（从这里开始表示为R@1和R@5）来评估场景图接地，当其与地面实况边界框的交集为0时，将对象定位视为正确。5基线：由于没有现有的方法来解决使用场景图时的视觉接地任务除了基于CRF的方法外，还可作为查询[16]。因此，除了与它们进行比较之外，我们还提供了基线以了解：（i）视觉关系的重要性（即，查询中的边）定位对象。为此目的，COCO-stuffR@1R@5VG-FOR@1R@5SGR@1R@54398图3：Visual Genome上的结果选择。场景图查询以及基础结果使用查询图中的对象节点的相同颜色边界和对应的基础对象边界框并排显示。我们为边缘去除查询提供了以下两个基线：（a）仅节点（基于检测）：我们使用Faster-RCNN [29]检测查询场景图中的请注意，此模型仅限于训练期间看到的对象类别。(b)仅节点（本地化-基于）：在这方面，我们获得区域建议使用更快-RCNN，然后根据查询图中存在的每个对象的Glove词表示对其进行评分，以生成本地化。(ii)查询图的结构化属性的重要性。为此，我们使用从场景图中获得的扁平化三元组（主语-谓语-宾语）作为MDETR [17]中的查询-一种为了与我们的模型进行公平的比较，我们只在我们的数据集上训练这个模型，没有任何预训练，并使用Resnet50作为主干。此外，当场景图仅包含两个节点时，场景图接地问题简化为引用关系[19]。因此，对于这种情况，我们与最先进的引用关系方法进行比较[19，25，12]。4.2. 结果和讨论我们首先在表2中显示了VG-FO、COCO-stuff和SG数据集的结果。我们观察到VL-MPAG Net在所有数据集上的表现都优于所有基线只有节点的基线不能利用场景图查询中的视觉关系，并且性能很平面化场景图接地方法（MDETR）没有将结构信息编码在场景图中，性能不佳。此外，它还需要处理语言理解的挑战，如共指，名词短语和关系提取，以及概念的长期依赖MDETR需要大量的训练数据;因此，为了评估SG数据集（仅包含4K训练样本）上的模型，我们利用在VG-FO数据集上训练的MDETR模型。VL-MPAG Net的性能优于基于CRF的方法[16]，表明GNN在场景图本地化任务中的表示学习优于CRF。此外，COCO-stuff具有语义上非常接近的细粒度对象沃尔伍德对wall-stone）。这会导致COCO-stuff上仅节点（检测）查询图中边数的影响：我们进行接地场景图实验，表4：当图形仅包含VRD数据集上的两个节点时，VL-MPAG Net与场景的引用关系基线的比较查询场景图的大小在我们的实验中，我们在图像上的最大场景图包含八个边缘。为了分析VL-MPAG Net在场景图大小方面的性能，我们在本文使用的VG数据集的两个分裂上计算查询场景图中边数不同的如表3所示，我们的方法成功地接地场景图，即使图形包含8个边。在VG-FO的情况下，由于数据集包含更少的大尺寸场景图的样本，当图尺寸变得更大时，召回率会下降。相比之下，对于固定不可见对象（也请参阅本节末尾的固定不可见对象这个结果是直观的，因为大图提供了更好的全局上下文，随后也实现了不可见对象的基础。对于只有一条边的场景图，场景图的接地问题归结为引用关系。我们直接将我们的方法与VRD数据集上表4中的最先进的引用关系方法进行比较。这里，CPARR [12]通过在最后阶段将节点预测分数与关系预测分数相结合来利用查询节点之间的关系。相反，VL-MPAG Net在建模的初始阶段利用了关系信息，从而实现了具有竞争力的R@1和显著更好的R@5（与最具竞争力的方法相比，分别高出近10%和6%）。定性分析：一个选择的场景图地面上的VG-FO数据集，如图3所示。通过详细分析（参考补充材料），我们观察到VL-MPAG Net能够在包含许多对象类别实例的密集图像中定位正确的对象。作为图3中的示例，在第二示例中，模型能够定位如查询中指定的印刷在“板”上的模型主题R@1 R@5对象R@1 R@5SSAS [19]21.5-24.2-VRD-LP [25]31.5 38.834.9 40.3CPARR [12]49.8 69.452.470.2我们的（VL-MPAGNet）51.6 79.351.776.14399→→→AE-MPQG-MPPG-MP✓ ✓✓ ✓✓✓ ✓ ✓✓ ✓ ✓订单R@1R@529.9 53.528.5 53.031.8 59.629.9 53.7QG-MP→AE-MP → PG-MP31.3 59.3AE-MP→QG-MP → PG-MP32.7 61.6表5：所提出的模型优于VG-PO数据集上“可见”和“不可见”对象类别的基线多实例本地化：在我们的框架中，由于一跳或两跳相邻对象和关系的差异，为同一类节点学习的表示不同。因此，我们的框架自然支持多实例本地化。即使一跳或两跳对象和关系是相同的（例如，图3中最左边的定位），我们的模型允许定位与每个节点对应的所有对象，从而实现多实例定位。然而，在这种罕见的情况下，消除不同实例的歧义变得不可行。接地看不见的对象：虽然这项工作的主要目标是解决在自然图像上接地场景图的任务，但看不见的对象类别的本地化是一个辅助但具有挑战性的设置，我们也在表5中的VG-PO数据集上进行了评估。与“看得到”相比然而，所提出的模型可以更好地捕获对象之间的上下文，从而导致比基线更好的性能仅节点（loc.）因为它没有利用可能有助于“看不见的”对象类别的本地化的关系，所以另一方面，MDETR使用基于transformer的模型来学习上下文嵌入，并捕获“看不见的”类别的上下文仅节点（检测）要求在训练过程中知道所有的对象类别;因此，为了比较而丢弃。对稀疏和不完整查询的鲁棒性：场景图接地方法必须对稀疏和不完整的查询，而不仅仅是干净的查询。为了证明所提出的模型的鲁棒性，我们首先通过引入不同程度的噪声扰动场景图查询，然后评估我们的模型对这种扰动查询。对于场景图中的每个边，我们通过使用Word-Net同义词集获得的同义词替换主题、对象或关系或从查询图中删除关系，以概率p扰动图。我们利用在VG-FO数据集上训练的VL-MPAG Net模型来执行此分析。对于10%至40%的噪声，我们获得R@1 =[30.六，二十九。九二十九0282]，证明了该模型对不完整和稀疏场景图查询的鲁棒性。消息传递步骤的分析在我们的框架中，消息传递是在从查询图的节点到亲节点的辅助边上执行的。表6：对VG-FO数据集执行的消息传递步骤的分析。这里，AE-MP、QG-MP和PG-MP分别表示辅助语义边缘上的消息传递、查询图和建议图。一B表示A在B之前执行。最后一行代表我们的完整模型。查询图（AE-MP）、查询图（QG-MP）和建议图（PG-MP）。为了更好地理解这些消息传递步骤及其顺序的效果消融结果见表6。第一步是在从查询图到建议图的辅助边（AE- MP）上执行消息传递，这是必不可少的，如当排除它时性能的降低（表6中的第2行）所示此外，在查询图（QG-MP）和提议图（PG-MP）上传递的消息有助于在学习节点和边的表示的同时合并结构信息，从而导致本地化性能的改进消息传递的顺序也很关键。首先在辅助节点上执行消息传递，然后分别执行查询图和建议图（AE-MPQG-MP PG-MP），这有助于VL-MPAG Net为建议图学习更好的条件节点表示，从而有助于实现更好的本地化。这一点在结果中也很明显，我们观察到，与在查询图（QG-MP）上执行消息传递之前执行消息传递的顺序相比，上述顺序提供了更好的性能。在辅助节点上传递（AE-MP）。5. 结论深入研究了自然图像上场景图的生成问题，提出了一种基于端到端语义消息传递的图神经网络框架，并在大规模图像数据集上进行了实验。基线的性能改进证实了所提出的VL-MPAG Net的有效性，并表明对场景图中存在的上下文进行更好的建模我们相信，这项工作将恢复研究兴趣和未来的贡献，对未开发的场景图为基础的接地问题。致谢：这项工作是由启动研究资助（SRG）的SERB，政府的部分支持。印度（文件编号：SRG/2021/001948）提交给Anand Mishra。模型浏览类别R@1R@5看不见的类别R@1 R@5仅节点（本地化）MDETR [17]我们的（VL-MPAGNet）1层2层33.226.256.647.119.626.443.145.738.039.964.966.927.529.054.553.64400引用[1] 放大图片作者：Robert J. Mezzanotte和Jan C.拉-宾诺维茨。场景感知检测和判断对象发生关系的侵犯。认知心理学，14：143[2] 作者：Holger Caesar，Jasper R R.乌伊林斯和维托里奥·费拉里。Coco-stuff：上下文中的事物和东西类。2018年IEEE/CVF计算机视觉和模式识别会议，第1209-1218页[3] Khyathi Raghavi Raghu，Yonatan Bisk，and Alan W.黑色. NLP中的接地。在ACL/IJCNLP的调查结果中，2021年。[4] 郑帅，郑明明，林文艳， Vibhav Vi- neet ， PaulSturgess，Nigel T.克鲁克Mitra，and Philip H. S.乇图片说明：语言引导的图像解析。ACM事务处理图表，34（1）：3：1[5] Vinay Damodaran 、 Sharanya Chakravarthy 、 AkshayKumar 、 Anjana Umapathy 、 Teruko Mitamura 、 YutaNakashima、Noa Garc 'ıa和Chenhui Chu。理解场景图在视觉问答中的作用。ArXiv，abs/2101.05479，2021。[6] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。在Daniel D. Lee，Masashi Sugiyama，Ulrikevon Luxburg，Isabelle Guyon和Roman Garnett，编辑，Advances in Neural Information Processing Systems 29：2016年神经信息处理系统年会，2016年12月5日至10日，西班牙巴塞罗那，第3837-3845页，2016年。[7] Helisa Dhamo ， Azade Farshad ， Iro Laina ， NassirNavab，Gregory Hager，Federico Tombari，and C.鲁普雷希特使用场景图的语义图像处理。2020 IEEE/CVF计算机视觉和模式识别会议（CVPR），第5212-5221页[8] MartinEngilber ge ， LouisChevallier ， PatrickPe'rez ，andMatthieu Cord.在汉堡里发现豆子：深度语义-视觉嵌入与本地化。2018年IEEE/CVF计算机视觉和模式识别会议，第3984-3993页[9] Shalini Ghosh，Giedrius Burachas，Arijit Ray，and AviZiskind.使用场景图和视觉注意力为视觉问答生成自然语言解释ArXiv，abs/1902.05715，2019。[10] 放大图片作者：Justin Gilmer.帕特里克·舍恩霍尔茨Riley、Oriol Vinyals和George E.达尔量子化学的神经信息传递。在Doina Precup和Yee Whye Teh，编辑，第34届国际机器学习会议论文集，ICML 2017，悉尼，新南威尔士州，澳大利亚，2017年8月6日至11日，机器学习研究论文集第70卷，第1263-1272页。PMLR，2017年。[11] Francesco Giuliari ， Geri Skenderi ， Marco Cristani ，Yiming Wang，and Alessio Del Bue.局部场景中目标定位的空间常识图。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第19518-19527页[12] Chuanzi He，Haidong Zhu，Jiyang Gao，Kan Chen，andR.奈瓦提亚Cparr：基于类别的建议分析，用于参考-戒指关系2020 IEEE/CVF计算机视觉和模式识别研讨会（CVPRW），第4074-4083页[13] Ting-I Hsieh ， Yi-Chen Lo ， Hwann-Tzong Chen ， andTyng- Luh Liu.具有共同注意和共同激励的单次目标检测。NeurIPS，2019。[14] 岳虎，陈四恒，陈旭，张雅，顾晓。用于视觉关系检测的神经消息传递。CoRR，abs/2208.04165，2022。[15] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。 2018 IEEE/CVF会议计算机视觉和模式识别，第1219- 1228页，2018年。[16] Justin Johnson，Ranjay Krishna，Michael Stark，Li

下载后可阅读完整内容，剩余1页未读，立即下载