没有合适的资源?快使用搜索试试~ 我知道了~
acrossScene GraphRepresentationsthe girlblue smockthe tableinexpression: the girl in blue smock across the tableacrossthe girlblue smockthe tableinStructured Reasoning12345Reasoning ProcessNeural Modules199520野外图结构化指称表达式推理0Sibei Yang 1 Guanbin Li 2 † Yizhou Yu 1 , 3 †01 香港大学 2 中山大学 3 Deepwise AI Lab0sbyang9@hku.hk , liguanbin@mail.sysu.edu.cn , yizhouy@acm.org0摘要0定位指称表达式的目标是在图像中找到自然语言表达式所指的对象。指称表达式的语言结构提供了对视觉内容进行推理的布局,对于对齐和共同理解图像和指称表达式通常至关重要。在本文中,我们提出了一种基于场景图引导的模块化网络(SGMN),它在语言结构的指导下,通过神经模块对语义图和场景图进行推理。具体而言,我们将图像建模为结构化的语义图,并将表达式解析为语言场景图。语言场景图不仅解码了表达式的语言结构,而且与图像语义图具有一致的表示。除了探索结构化的解决方案来定位指称表达式,我们还提出了Ref-Reasoning,这是一个用于结构化指称表达式推理的大规模真实世界数据集。我们使用多样的表达式模板和功能程序在图像的场景图上自动生成指称表达式。该数据集具有真实世界的视觉内容以及具有不同推理布局的语义丰富的表达式。实验结果表明,我们的SGMN模型不仅在新的Ref-Reasoning数据集上表现出色,而且在常用基准数据集上也取得了最先进的结果。0不仅在新的Ref-Reasoning数据集上明显优于现有的最先进算法,而且在常用基准数据集上也超过了最先进的结构化方法。它还可以提供可解释的推理视觉证据。01. 引言0定位指称表达式的目标是在图像中找到自然语言表达式所指的对象。0†通讯作者。本工作部分得到香港博士研究生奖学金、广东省基础与应用基础研究基金(编号2020B1515020048)、国家自然科学基金(编号61976250和U1811463)的支持。数据和代码可在https://github.com/sibeiyang/sgmn上获取。0图1.基于场景图引导的模块化网络(SGMN)用于定位指称表达式。SGMN首先将表达式解析为语言场景图,并将图像建模为语义图,然后在语言场景图的指导下使用神经模块进行结构化推理。0对象被称为指称的挑战性问题,因为它需要理解以及对语义丰富的指称表达式和包括对象、属性和关系在内的多样化视觉内容进行推理。分析指称表达式的语言结构是定位指称表达式的关键,因为它们自然地提供了对视觉内容进行推理的布局。对于图1中所示的例子,指称表达式“the girl inblue smock across the table”(即三元组(“thegirl”,“in”,“blue smock”)和(“thegirl”,“across”,“thetable”))揭示了一个树状布局,用于找到蓝色罩衫、定位桌子并识别穿着蓝色罩衫并且与桌子“across”的女孩。然而,几乎所有现有的工作要么忽视语言结构,学习指称表达式和视觉内容之间的整体匹配分数[18,29,23],要么忽视句法信息,通过自注意机制探索有限的语言结构[26,8,24]。因此,在本文中,我们提出了一种基于场景图引导的模块化网络(SGMN),以充分分析指称表达式的语言结构,并在解析的语言结构的指导下使用神经模块对视觉内容进行推理。具体而言,SGMN首先使用结构化表示对输入图像进行建模。sions.99530表达式的表示,是图像中视觉对象之间的有向图。图的边编码了对象之间的语义关系。其次,SGMN通过使用外部解析器将其解析为语言场景图[21,16],包括名词短语和介词/动词短语对应的节点和边,分析表达式的语言结构。语言场景图不仅编码了语言结构,而且与图像的语义图表示一致。第三,SGMN在语言场景图的指导下,在图像语义图上使用设计良好的神经模块[2,22]进行推理,包括AttendNode、AttendRelation、Transfer、Merge和Norm。推理过程可以通过图注意机制明确解释。除了方法,数据集对于推理指称表达式也很重要,已经发布了各种各样的现实世界数据集[12,19,27]。然而,最近的研究[4]表明数据集存在偏差,这些偏差可能被方法所利用。而只访问图像的方法只能比随机猜测略高的性能。现有数据集还有其他限制。首先,数据集中的样本难度不平衡。由于注释过程,数据集中的许多表达式直接用属性描述指称对象。这种不平衡使得模型学习浅层相关性而不是实现图像和文本的联合理解,这违背了推理指称表达式的初衷。其次,评估仅在最终预测上进行,而不是在中间推理过程上进行[17],这不鼓励可解释模型的发展[24,15]。因此,为了解决这些限制,我们构建了一个大规模的现实世界数据集,名为Ref-Reasoning。我们使用多样的表达式模板和功能程序在图像的场景图上生成语义丰富的表达式,并在模块化生成过程的所有中间步骤上自动获取地面真实注释。此外,我们通过采用均匀采样和控制推理步骤数量上的表达式-指称对的分布来仔细平衡数据集。总之,本文的贡献如下:0•提出了一种场景图引导的模块化神经网络,用于在语义图和场景图上执行推理,使用神经模块在指称表达式的语言结构的指导下,满足了推理指称表达式的基本要求。0•构建了一个用于推理指称表达式的大规模现实世界数据集Ref-Reasoning。Ref-Reasoning包括描述对象、属性、直接和间接关系的语义丰富的表达式,以及各种推理布局。0•实验结果表明,所提出的方法不仅在新的Ref-Reasoning数据集上显著超越了现有的最先进算法,而且在常见的基准数据集上也优于最先进的结构化方法。此外,它还可以提供可解释的推理视觉证据。02. 相关工作02.1. 约束指称表达式的基础0指称表达式通常不仅直接描述指称对象的外观,还描述其与图像中其他对象的关系,其参考信息取决于其组成表达式的含义和组合规则[9,24]。然而,大多数现有的工作[29,23,25]忽略了语言结构,学习了图像和表达式中对象的整体表示。最近有一些工作将表达式分析纳入到他们的模型中,并从头到尾学习表达式和视觉推理的组成部分。[9,26,28]中的方法将表达式软分解为与不同视觉证据相关的不同语义组件,并为每个组件计算匹配分数。他们使用固定的语义组件,例如主题-关系-对象三元组[9]和主题-位置-关系组件[26],这对于复杂的表达式来说是不可行的。DGA[24]通过迭代地关注其组成表达式,分析复杂表达式的语言结构。然而,它们都依赖于对表达式的自我关注来探索其语言结构,但忽略了其句法信息。另一项工作[3]使用解析树来确定指称对象,其中树的每个节点都是一个可以是名词、介词或动词的词(或短语)。02.2.数据集偏差及解决方案0最近,开始讨论指代表达的数据集偏差[4,17]。[4]中的工作揭示了即使是基于语言的模型也倾向于学习浅层相关性,而不是利用语言结构,因为数据集偏差。此外,独立于表达的模型可以达到很高的性能。数据集偏差可能对语言和视觉的联合理解和推理的模型准备性评估产生显著的负面影响。Given an image with objects O = {oi}Ni=1 , we definethe image semantic graph over the objects O as a directedgraph, Go = (Vo, Eo), where Vo = {voi }Ni=1 is the setof nodes and node voi corresponds to object oi; Eo ={eoij}Ni,j=1 is the set of directed edges, and eoij is the edgefrom voj to voi , which denotes the relation between objectsoj and oi.For each node voi , we obtain two types of features, visualfeature voi extracted from a pretrained CNN model and spa-tial feature poi = [xi, yi, wi, hi, wihi], where (xi, yi), wiand hi are the normalized top-left coordinates, width andheight of the bounding box of node vi respectively. For eachedge eoij, we compute the edge feature eoij by encoding therelative spatial feature loij between voi and voj and the visualfeature voj of node voj together because relative spatial infor-mation between objects along with their appearance infor-mation is the key indicator of their semantic relation [5].Specifically, the relative spatial feature is represented99540图2.我们的场景图引导模块化网络(SGMN)的概述(在彩色中更好地查看)。不同的颜色代表语言场景图中的不同节点及其在图像语义图中对应的节点。SGMN将表达式解析为语言场景图,并在输入图像的对象上构建图像语义图。接下来,它在语言场景图的指导下进行推理。它首先使用神经模块AttendNode和Norm定位图像语义图中的叶节点的节点。然后对于语言场景图中的中间节点,它使用AttendRelation、Transfer和Norm模块来关注图像语义图中的节点,并使用Merge模块来组合关注结果。0为了解决上述问题,[17]中的工作提出了一个新的诊断数据集,称为CLEVR-Ref+。与视觉问答中的CLEVR[11]一样,它包含渲染图像和自动生成的表达式。特别是,图像中的对象是带有属性(即颜色、大小和材料)的简单3D形状,表达式使用设计的模板生成,其中包括空间和相同属性关系。然而,训练在这个合成数据集上的模型不能很容易地推广到真实场景,因为视觉内容(即带有属性和空间关系的简单3D形状)对于语言和视觉的联合推理来说太简单了。感谢VisualGenome数据集[14]中提供的真实世界图像的场景图注释,并在GQA数据集[10]中进一步清理,我们使用精心设计的模板和功能程序在场景图上生成具有对象、属性和关系的语义丰富的表达式。03.方法0现在我们介绍提出的场景图引导模块化网络(SGMN)。如图2所示,给定一个输入表达式和一个带有视觉对象的输入图像,我们的SGMN首先为图像和表达式分别构建一对语义图和场景图表示,然后使用神经模块对图进行结构化推理。03.1.场景图表示0基于场景图的表示形成了我们结构化推理的基础。特别是,图像语义图灵活地捕捉和表示了在输入图像中用于指代表达的所有视觉内容,而语言场景图则探索了语言的0输入表达式的结构定义了推理过程的布局。此外,这两种类型的图具有一致的结构,其中语言场景图的节点和边分别对应于图像语义图的节点和边的子集。03.1.1图像语义图0w i h i ],其中(x ci,y ci)是节点v oi的边界框的归一化中心坐标。而e o ij是l o ij和v oj的编码版本的连接,即e o ij = [W T o l o ij,v oj],其中W o是一个可学习的矩阵。03.1.2语言场景图0给定一个表达式S,我们首先使用现成的场景图解析器[21]将表达式解析为初始语言-t=1αlookt,m ftt=1αloct,mft,(1)βlook = sigmoid(WT0 h + b0)βloc = sigmoid(WT1 h + b1)(2)99550我们定义了语言场景图作为有向图G = (V,E)上的语言场景图,其中V = {vm} M m =1是节点的集合,节点vm与名词或名词短语相关联,该名词或名词短语是从S中的单词序列;E = {ek} K k =1是边的集合,边ek = (vks, rk, vko)是主语节点vks ∈V,宾语节点vko ∈V和关系rk的三元组,其方向是从vko到vks。关系rk与S中的介词/动词词或短语相关联,ek表示主语节点vks由宾语节点vko修饰。03.2. 结构化推理0我们使用神经模块在图的节点和边上进行结构化推理,遵循语言场景图G的结构指导。具体来说,我们首先设计节点V和边E的推理顺序和推理规则。然后,我们按照推理顺序进行推理。对于每个节点,我们采用AttendNode模块找到其在图Go中对应的节点,或者使用Merge模块将其关联边的信息进行合并。对于每个边,我们使用精心设计的神经模块执行特定的推理步骤,包括AttendNode、AttendRelation和Transfer。03.2.1 推理过程0在本节中,我们首先介绍推理顺序,然后分别介绍节点和边的具体推理步骤。一般来说,对于语言场景图G中的每个节点,我们根据其连接关系学习其在图像语义图Go的节点上的注意力图。给定语言场景图G,我们将出度为零的节点作为其参考节点vref,因为参考对象通常是由其他实体修饰而不是修饰其他实体的。然后,我们从参考节点vref开始,通过反转所有边的方向,在图G中对节点进行广度优先遍历,同时将访问过的节点推入一个初始为空的栈中。接下来,我们迭代地从栈中弹出一个节点并对弹出的节点进行推理。栈确定了节点的推理顺序,一个节点只有在其所有修饰节点都被处理后才能达到栈的顶部。这种推理顺序本质上将图G转化为有向无环图。不失一般性,假设节点vm在当前迭代中从栈中弹出,并且我们根据其与其他节点的连接进行节点vm上的推理。有两种不同的情况:1)如果vm的入度为零,则vm是一个叶节点,这意味着节点vm不被任何其他节点修饰。因此,节点vm应该关联0对于图像语义图G的节点,如果节点vm独立存在,则其关注图Vo的注意力图应该独立于其连接节点和它们之间的边的注意力图;否则,如果节点vm有从其他节点开始的入射边Em ∈E,则vm是一个中间节点,其关注图Vo的注意力图应该依赖于其连接节点和它们之间的边的注意力图。0叶节点。我们预先为语言场景图G的节点关联的单词学习嵌入。然后,对于节点vm,假设其关联短语由单词{wt}Tt =1组成,这些单词的嵌入特征向量为{ft}Tt =1。我们使用双向LSTM[7]计算该短语中每个单词的上下文,并将单词wt的正向和反向隐藏向量的连接定义为其上下文,表示为ht。同时,我们使用正向和反向的最后隐藏向量的连接来表示整个短语,表示为h。在一个指代表达式中,个体实体通常通过其外观和空间位置来描述。因此,我们从外观和空间位置学习节点vm的特征表示。具体来说,受[9, 23,26]中的自注意力的启发,我们首先学习每个单词的注意力,基于其上下文,然后通过聚合注意力加权的单词嵌入来获得节点vm的特征表示vlookm和vlocm,如下所示,0α look t,m = exp ( W T look h t ) / Σ T t=1 exp ( W T look h t ) , v look m =0T×0α loc t,m = exp ( W T loc h t ) / Σ T t=1 exp ( W T loc h t ) , v loc m =0T×0其中 W look 和 W loc 是可学习的参数,v look m 和 v locm 对应于节点 v m的外观和空间位置。然后,我们将这两个特征输入到AttendNode 神经模块中,计算图像语义图 G o上节点的注意力图 { λ look n,m } N n =1 和 { λ loc n,m }N n =1。最后,我们将这两个注意力图组合起来,得到节点 v m的最终注意力图。名词短语可以强调外观、空间位置或两者。我们通过为与外观和空间位置相关的注意力图学习一对权重来灵活适应名词短语的变化。节点 v m 的权重(即 βlook 和 β loc )以及节点 v m 的最终注意力图 { λ n,m } Nn =1 的计算如下所示:0λ n,m = β look λ look n,m + β loc λloc n,m ,{ λ n,m } N n =1 = Norm ( { λn,m } N n =1 ) ,0其中 W T 0 、 b 0 、 W T 1 和 b 1是可学习的参数,Norm 模块用于约束注意力图的尺度。t=1αrelt,kft(3)(4)λnewn=N�j=1γn,jλj.(7)99560中间节点。作为中间节点,v m与修改它的其他节点相连,这些连接实际上是 v m的子集,即 E m ∈ E 中与 v m相关的边。我们为该子集中的每条边在图像语义图 G o上计算一个注意力图,然后将所有这些注意力图转移和组合起来,得到节点 v m 的最终注意力图。对于 E m中的每条边 e k = ( v ks , r k , v ko ),我们首先通过连接与 v ks 、r k 和 v ko相关的单词或短语来形成与 e k相关联的句子。然后,我们按照叶节点的计算方式,获取该句子中单词 { w t } T t =1 的嵌入特征向量 { f t } T t =1和单词上下文 { h t } T t =1,以及整个句子的特征表示。接下来,我们从两个不同的角度计算节点 v ks的注意力图,即基于主体描述和基于关系的转移,因为 e k不仅直接描述了主体 v ks 本身,还描述了它与对象 v ko的关系。从主体描述的角度来看,与叶节点的计算方式相同,我们获取与 v ks相关的外观和空间位置对应的注意力图(即 { λ look n,k s }N n =1 和 { λ loc n,k s } N n =1 ),并计算权重(即 βlook k s 和 β loc k s)将它们组合起来。从基于关系的转移角度来看,我们首先计算边 e k 的关系特征表示,计算方式如下:0α rel t,k = exp ( W T rel h t ) / Σ Tt =1 exp ( W T rel h t ) , r k =0T×0其中 W rel 是可学习的参数。然后,我们将关系表示 r k输入 AttendRelation 神经模块,对图 G o 的边 E o ij上的关系 r k进行注意力计算,计算得到的注意力权重表示为 { γ ij,k } Ni,j =1 。此外,我们使用 Transfer 模块和 Norm模块,通过调节边上的注意力权重 { γ ij,k } N i,j =1来将对象节点 v k o 的注意力图 { λ n,k o } N n =1转移到节点 v m 上,转移后的注意力图表示为 { λ rel n,k s} N n =1 。值得注意的是,对象节点 v ko已经被访问过,并且计算了节点 v k o 的注意力图 { λ n,k o} N n =1 。接下来,我们估计边 e k上的关系权重,并将与主体描述和基于关系的转移相关的节点 v ks 的注意力图组合起来,得到节点 v ks 的注意力图 { λn,k s } N n =1 ,定义如下:0β rel k = sigmoid(W T 2 h + b 2)0λ n,k s = β look k s λ look n,k s + β loc k s λ loc n,k s +β rel n,k s λ rel n,k s { λ n,k s } N n =1 = Norm({ λ n,k s} N n =1),0其中W 2和b2是可学习参数。最后,我们使用Merge模块将节点v m 在Em 中所有边贡献的注意力图{{ λ n,k s } N n =1 }组合起来。0模块,然后通过Norm模块获得节点v m 的最终注意力图{ λn,m } N n =1。03.2.2神经模块0我们提出了一系列神经模块来执行特定的推理步骤,受[22]中的神经模块的启发。特别地,AttendNode和AttendRelation模块用于连接语言模式和视觉模式。它们接收来自语言场景图的语言内容的特征表示,并输出在图像语义图中定义的视觉内容上的注意力图。Merge、Norm和Transfer模块用于进一步整合和传递图像语义图中的节点和边上的注意力图。0AttendNode [appearance query, locationquery]模块旨在在给定外观查询和位置查询的情况下,在图像语义图G o的节点中找到相关节点。它将外观查询和位置查询的查询向量作为输入,并生成节点V o 上的注意力图{ λ look n } N n=1和{ λ loc n } N n =1,其中每个节点v o n ∈ V o都有两个注意力权重,即λ look n ∈ [-1, 1]和λ loc n ∈[-1, 1]。查询向量是语言场景图中节点的语言特征,表示为vlook和v loc。对于图G o 中的节点v o n,其注意力权重λlook n和λ loc n定义如下:0λ look n = �L2Norm(MLP0(v o n)), L2Norm(MLP1(v look))�,0λ loc n = �L2Norm(MLP2(p o n)), L2Norm(MLP3(vloc))�,(5)其中MLP0(),MLP1(),MLP2()和MLP3()是由几个线性和ReLU层组成的多层感知机,L2Norm()是L2归一化,v o n和p o n分别是图G o 中节点v on的视觉特征和空间特征,这些在第3.1.1节中提到。0AttendRelation [relationquery]模块旨在在给定关系查询的情况下,在图像语义图Go 中找到相关边。关系查询的目的是在图G o中建立节点之间的连接。给定查询向量e,边{ e o ij } N i,j=1上的注意力权重{ γ ij } N i,j =1定义如下:0γ ij = σ(�L2Norm(MLP5(e o ij)), L2Norm(MLP1(e))�)(6),其中MLP5(),MLP5()是多层感知机,ReLU激活函数σ确保注意力权重大于零。0Transfer模块旨在通过在经过注意力边{ γ ij } N i,j=1上修改那些新节点的节点上的注意力权重{ λ n } N n=1来找到新节点。更新后的注意力权重{ λ new n } N n=1计算如下:{λ′n}Nn=1∈Λλ′n.(8)N99570Merge模块旨在将来自同一节点的不同边生成的多个注意力图组合在一起,其中对边的注意力权重进行单独计算。给定节点的一组注意力图Λ,合并后的注意力图{ λ n } N n=1定义如下:0λ n = �0Norm模块的目标是将注意力图中的权重范围设置为[-1,1]。如果注意力图的最大绝对值大于1,则将注意力图除以最大绝对值。03.3.损失函数0一旦堆栈中的所有节点都被处理完毕,就可以得到语言场景图的参考节点的最终注意力图。这个注意力图被表示为{ λn,ref } N n=1。与以前的指代表达式定位方法[9]一样,在训练阶段,我们采用交叉熵损失,定义如下:0p i = exp(λ i,ref) /0n =1 exp(λ n,ref), loss = -log(p gt) (9)0其中pgt是真实对象的概率。在推理阶段,我们通过选择具有最高概率的对象来预测指代对象。04. 指代推理数据集0所提出的数据集是基于GQA数据集的场景构建的。我们使用多样的表达式模板根据图像场景图为每个图像自动生成指代表达式。04.1. 准备工作0场景图。我们根据真实图像场景图生成指代表达式。具体来说,我们采用VisualGenome数据集提供的场景图注释,并由GQA数据集进一步标准化。在图像的场景图注释中,每个节点表示一个具有1-3个属性的对象,每个边表示两个对象之间的关系(即语义关系、空间关系和比较关系)。为了使用场景图生成指代表达式,我们删除了一些不自然的边和类别,例如“鼻子在眼睛左边”。此外,我们添加了对象之间的边,以表示对象之间的相同属性关系,即“相同材料”、“相同颜色”和“相同形状”。在采用的场景图中,总共有1664个对象类别、308个关系类别和610个属性类别。0表达式模板。为了生成具有多样化推理布局的指代表达式,对于每个指定的节点数量,我们为每个推理布局设计了一族指代表达式模板。我们使用功能程序根据布局和模板生成表达式,每个模板的功能程序可以根据布局轻松获得。特别地,布局是有向无环图的子图,其中只有一个节点(即根节点)的出度为零,其他节点可以到达根节点。布局的功能程序为从叶节点(即入度为零的节点)通过遍历此布局中的所有节点和边逐步到达根节点的计划,并且模板是参数化的自然语言表达式,其中可以填充参数。此外,我们设置了模板中节点数量从一到五的约束。04.2. 生成过程0给定一张图像,我们从图像的场景图中生成数十个表达式,一个表达式的生成过程总结如下,0• 随机抽样参考节点,并随机决定节点数量,记为C。•随机抽样一个包含场景图中参考节点的C个节点的子图。•判断子图的布局,并从与布局对应的模板族中随机抽样一个指代表达式模板。•使用子图的内容填充模板中的参数,包括随机抽样属性的关系和对象。•使用填充参数执行功能程序,并在场景图中唯一引用对象时接受表达式。0请注意,在生成过程中我们执行了额外的操作:1)如果子图中存在具有相同属性关系的对象,我们避免选择这些对象中出现在此类关系中的属性。此限制旨在使修改后的节点由关系边而不是属性直接识别。2)为了平衡数据集,在随机抽样过程中,我们减少了最常出现在场景图中的节点和关系的机会。此外,我们增加了C = 3或C =4的多阶关系的机会,以合理增加推理的难度。3)我们为指代表达式定义了一个难度级别。我们找到可以在场景图中识别指代对象的最短子表达式,并将子表达式中的对象数量定义为难度级别。例如,如果图像中只有一个瓶子,则“桌子旁边的瓶子”的难度级别为1。99580对象数量 划分0一个 两个 三个 > = 四个 val test0CNN 10.57 13.11 14.21 11.32 12.36 12.150CNN+LSTM 75.29 51.85 46.26 32.45 42.38 42.430DGA 73.14 54.63 48.48 37.63 45.37 45.870CMRIN 79.20 56.87 50.07 35.29 45.43 45.870我们的SGMN 79.71 61.77 55.57 41.89 51.04 51.390表1. 在参考推理数据集上与基线模型和现有最先进方法的比较。最佳性能的方法用粗体标记。0即使描述了三个对象及其关系,“一个盘子”仍然是一个对象。然后,我们根据难度级别和它们所描述的节点数量随机抽样图像的表达式,得到平衡的数据集及其最终划分。05. 实验05.1. 数据集0我们在提出的参考推理数据集以及三个常用基准数据集(即RefCOCO [27]、RefCOCO+ [27]和RefCOCOg[19])上进行了大量实验。参考推理数据集包含了83,989张图像中的791,956个指代表达式。它在训练集、验证集和测试集中分别有721,164、36,183和34,609个表达式-指代对。参考推理包括描述对象、属性、直接关系和间接关系的语义丰富的表达式,具有不同的布局。RefCOCO和RefCOCO+数据集包含了从交互式游戏界面收集的短表达式。RefCOCOg从非交互式设置中收集,它具有更长的复杂表达式。05.2. 实现和评估0参考表达式的接地性能通过准确率进行评估,即正确预测指代物的比例。对于参考推理数据集,我们使用基于ResNet-101的Faster R-CNN [20,6]作为骨干网络,并采用一个特征提取器,在GQA的训练集上通过额外的属性损失进行训练,提取带注释对象的视觉特征。在三个常用基准数据集(即RefCOCO、RefCOCO+和RefCOCOg)中,我们遵循CMRIN[23]来提取图像中对象的视觉特征。为了使图像语义图稀疏并减少计算成本,我们根据它们的归一化中心坐标之间的距离,将图像语义图中的每个节点连接到其五个最近节点。我们将小批量大小设置为64。所有模型都使用Adam优化器[13]进行训练,学习率分别设置为0.0001和0.0005,用于参考推理数据集和其他基准数据集。05.3. 与现有技术的比较0我们在收集的参考推理数据集和三个常用基准数据集上,对提出的SGMN和现有最先进方法进行了实验比较。0参考推理数据集。我们在参考推理数据集上评估了两个基线模型(即CNN模型和CNN+LSTM模型),两个最先进的方法(即CMRIN [23]和DGA[24])以及提出的SGMN。CNN模型只能访问对象和图像。CNN+LSTM模型将对象和表达式嵌入到一个共同的特征空间中,并学习它们之间的匹配分数。对于CMRIN和DGA,我们在评估中采用了它们的默认设置[23,24]。为了公平比较,所有模型都使用相同的视觉对象特征和LSTM设置。表1显示了参考推理数据集上的评估结果。提出的SGMN在基线模型和现有最先进模型上显著优于它们,并且在测试集的所有划分中始终取得最佳性能,不同的划分需要不同数量的推理步骤。CNN模型的准确率只有12.15%,远低于Ref-COCOg数据集的图像模型的准确率(即41.1%[4]),这表明在参考推理中需要联合理解图像和文本。CNN+LSTM模型在直接描述指代物的划分上达到了75.29%的高准确率。这是因为在这个划分中不需要关系推理,LSTM可以很好地捕捉表达式的语义。与CNN+LSTM模型相比,DGA和CMRIN在两个、三个和四个节点的划分上表现更好,因为它们为对象学习了一个以语言为导向的上下文表示。0常见基准数据集。在RefCOCO、RefCOCO+和RefCOCOg数据集上的定量评估结果如表2所示。所提出的SGMN在所有数据集上始终优于现有的结构化方法,并且它在RefCOCO、RefCOCO+和RefCOCOg数据集上的测试集上的平均准确率分别比最佳现有结构化方法提高了0.92%、2.54%和2.96%。此外,它还超过了所有现有模型在99590RefCOCO RefCOCO+ RefCOCOg0testA testB testA testB test0整体模型 CMN [9] 75.94 79.57 59.29 59.34 -0ParallelAttn [29] 80.81 81.32 66.31 61.46 -0MAttNet* [26] 85.26 84.57 75.13 66.17 78.120CMRIN* [23] 87.63 84.73 80.93 68.99 80.660DGA* [24] 86.64 84.79 78.31 68.15 80.260结构化模型 MattNet* + parser [26] 79.71 81.22 68.30 62.94 73.720RvG-Tree* [8] 82.52 82.90 70.21 65.49 75.200DGA* + parser [24] 84.69 83.69 74.83 65.43 76.330NMTree* [15] 85.63 85.08 75.74 67.62 78.210MSGL* [16] 85.45 85.12 75.31 67.50 78.460我们的SGMN* 86.67 85.36 78.66 69.77 81.420表2.在RefCOCO、RefCOCO+和RefCOCOg上与最先进方法的比较。我们使用*表示该模型使用resnet101特征。无上标表示该模型使用vgg16特征。最佳性能的方法用粗体标记。0RefCOCOg数据集的表达式相对较长且复杂,平均长度为8.43,与其他两个常见基准数据集上表现最好的整体方法相当。请注意,整体模型通常比结构化模型在常见基准数据集上具有更高的性能,因为这些数据集包含许多描述指代物而没有关系的简单表达式,并且整体模型倾向于学习浅层的相关性而没有推理,并可能利用这种数据集偏差[4,17]。此外,整体方法的推理机制解释性较差。05.4. 定性评估0(a) 一位戴着粉色和黑色头发的女人遛狗0一位女人0走0粉色和黑色头发的一只狗0带有0(b) 在椅子的左边有一条毯子,上面有一盏落地灯0一盏落地灯0一把椅子上有一条毯子0上0在左边0上0图3. SGMN预测的语言场景图上的对象的注意力图0图3展示了两个示例的可视化结果,包括它们的语言场景图、以及在图像中每个语言场景图节点上的对象的注意力图。这些定性评估结果表明,所提出的SGMN可以生成推理过程中中间步骤的可解释的视觉证据。在图3(a)中,SGMN将表达式解析为树结构,并找到所指的“女人”,她正在遛狗,同时还有“粉色和黑色的头发”。0黑色头发”。图3(b)展示了一个更复杂的表达式,描述了四个对象及其关系。SGMN首先通过沿着边(即三元组(“一把椅子”,“在左边”,“落地灯”)和(“落地灯”,“上”,“一块地板”))进行关系推理,成功地从初始的注意力图(右下角)转换到最终的注意力图(右上角),然后在那把椅子上识别出目标“毯子”。05.5. 消融研究0对象数量分割0一个 两个 三个 > = 四个 val 测试0无传递 79.14 48.51 45.97 31.57 40.66 41.880无归一化 79.37 49.44 45.61 31.57 40.80 41.930最大合并 78.71 54.00 50.34 34.76 44.50 45.270最小合并 78.83 53.83 51.11 35.79 45.25 46.000我们的SGMN 79.71 61.77 55.57 41.89 51.04 51.390表3. 在Ref-Reasoning数据集上的消融研究.最佳表现方法以粗体标记.0为了证明根据推理表达中推断出的场景图的指导以及神经模块的设计的有效性,我们训练了四个额外的模型进行比较。结果如表3所示。所有模型在直接描述指示对象的分割上的表现相似。对于其他分割,没有传递模块的SGMN和没有归一化模块的SGMN的性能远低于原始的SGMN,因为前者将指示对象视为孤立节点而没有进行关系推理,而后者不公平地对待不同的关系边和它们连接的节点。接下来,我们探索合并模块中使用的函数(即最大、最小和求和)的不同选项。与使用求和合并的SGMN相比,使用最小合并和最大合并的性能下降,因为最大合并只捕捉每个中间节点的最重要关系,而最小合并对解析错误和识别错误非常敏感。06. 结论0在本文中,我们提出了一种基于场景图引导的模块化网络(SGMN),用于定位指示表达。它使用神经模块对输入图像和表达的构建图表示进行图结构推理。此外,我们提出了一个名为Ref-Reasoning的大规模真实世界结构化指称表达推理数据集。实验结果表明,SGMN不仅在新的Ref-Reasoning数据集上显著优于现有的最先进算法,而且在常用基准数据集上超过了最先进的结构化方法。此外,它可以通过图注意机制生成可解释的推理视觉证据。99600参考文献0[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功