没有合适的资源?快使用搜索试试~ 我知道了~
11960邻里守望:基于语义引导的图注意网络的指称表达式理解王鹏1吴琦1曹杰伟1沈春华1高连丽2Anton van denHengel11澳大利亚阿德莱德2电子科技大学摘要指称表达理解的任务是定位自然语言中指称表达所描述的意象中的对象实例。作为一个语言到视觉的匹配任务,这个问题的关键是学习一个能够适应所使用的表达的有为了避免歧义,表达式normally不仅倾向于描述引用本身的属性,而且还描述其与邻域的关系为了捕捉和利用这些重要信息,我们提出了一个基于图形的,语言引导的注意力机制。由节点注意力和边注意力组成的图注意力机制显式地表示了对象间的关系和属性,具有竞争方法无法实现的灵活性和强大功能.此外,所提出的图形注意机制使得理解决策是可视的和可解释的。在三个参考表达式理解数据集上的实验表明了该方法的优越性。1. 介绍指称表达是指图像中可见的特定对象的自然语言短语。因此,指称表达式理解需要识别语言表达式所指的唯一感兴趣的对象[29]。因此,关键的挑战是对文本和视觉领域的共同理解.指称表达理解可以表述为语言到区域的匹配问题,其中具有最高匹配分数的区域被选择作为预测。因此,学习能够适应语言表达的区分区域表示是至关重要的。主要的方法[7,15,16]倾向于通过堆叠各种类型的特征来表示区域,例如你 好 。 吴 的 参 与 得 到 了 中 国 国 家 科 学 院 的 部 分 支 持 。61876152)。图1. 在图像的对象实例上构建有向图,其中节点对应于对象区域,并且边缘(部分可视化)表示对象之间的关系(蓝色和红色边缘分别表示类内和类间关系)。图注意力基于表达式中存在的分解信息来预测节点和边缘摘要关注的对象和它的突出的邻居,使更多的区别特征。透明度越高,注意力值越低。CNN特征、空间特征或启发式上下文特征,并采用LSTM将表达式简单地处理为一系列单词。然而,这些方法都受到单一的向量表示的限制,忽略了复合语言表达以及图像中的复杂结构。这些方法以及更高级的模块化方案[5,27]的另一个潜在问题是,语言和区域特征是独立学习或设计的,而不相互通知,这使得两种模态的特征难以相互适应,特别是当表达复杂时。在[3,32]中采用了共同注意机制来从语言和图像中提取更多信息特征,以实现更好的匹配性能。然而,这些方法孤立地对待图像中的对象,因此无法对它们之间的关系进行建模。这些关系在识别所指对象时自然是重要的,尤其是当表达是复合的时候。例如图1、“一个女人抱着孩子坐在桌子旁边”这个表达引用表达式:被一个女人抱在桌子旁边的孩子语言自我注意被一个女人抱在桌子旁边的孩子引导图形注意力区域提案输入图像带注意掩码的有向关系图11961不仅是孩子,还有她与另一个人和桌子的关系。在这种情况下,只关注物体的属性不足以定位正确的参照物,但我们需要观察周围的环境以识别更多有用的线索。为了解决上述问题,我们建议在图像的对象区域上构建有向图来建模对象之间的关系。在这个图中,节点对应于对象,边表示发送对象之间的关系。在图的顶部,我们提出了一个语言引导的语法注意力网络(LGRAN),以突出表达所指的相关内容。图形注意力由两个主要组成部分组成:用于突出显示相关对象的节点关注组件和用于标识表达式中存在的对象关系的边关注组件。进一步将边缘注意力分为类内边缘注意力和类间边缘注意力,以区分同类和跨类对象之间的关系通常,这两种类型的关系在视觉上和语义上是不同的。这三种类型的注意力由三个相应的语言部分引导,这些语言部分通过自我注意机制在表达中被识别[5,27]。通过总结以潜在感兴趣对象为中心的被关注子图,我们可以动态地丰富该对象的表示,以便它可以更好地适应表达,如图2所示。1.一、所提出的图形注意机制的另一个好处是,它使指称表达决策既可视又可解释,因为它能够为指称和其他支持线索(即,它与其他对象的关系)到图上我们...在三个参考表达数据集(Ref-COCO、RefCOCO+和RefCOCOg)上进行导管实验实验结果表明,所提出的语言引导的图形注意力网络的优势在不同的设置下,我们在几乎所有的分割上都超过了以前的最佳结果。2. 相关工作引用表达式理解使用CNN/LSTM框架来处理常规的引用表达式理解[7,15,16,28]。LSTM在每个时间步将这些模型以可视化的方式整合了上下文信息,它们如何实现这一点是各种方法的主要区别之一。例如,[7]中的工作使用整个图像CNN特征作为区域上下文,[16]中的工作通过多实例学习来学习上下文区域,在[28]中,作者使用对象之间的视觉差异来表示视觉上下文。另一种工作将引用表达式兼容性视为度量学习问题[14,15,18,25],其中表达式特征和区域特征被嵌入到公共特征空间中以测量兼容性。这些方法的重点在于如何定义匹配损失函数,例如softmax loss [14,18] , max-marginloss[25] 或 MaximumMutualInformation(MMI)loss [15]。这些方法倾向于使用单个特征向量来表示表情和图像区域。然而,这些单一的特性忽略了语言中以及图像中的复杂结构。为了克服整体特征的这种限制,自注意机制已被用于将表达式分解为子组件,并为每个结果部分学习单独的上述方法的另一个潜在问题是,语言和区域特征是独立学习的,而不相互通知。为了学习可以更好地相互适应的表情特征和区域特征然而,这些方法孤立地处理对象,因此无法对对象依赖性进行建模,而对象依赖性对于识别引用对象至关重要。在我们的模型中,我们在图像的对象区域上构建一个有向图来模拟对象之间的关系。在此基础上,提出了一种语言引导的图形注意机制,以突出表达所指的相关内容。在[24]中,图形注意力应用于其他图形结构数据,包括文档引用网络和蛋白质相互作用。他们的图形注意力模式和我们的有三个方面的不同.首先,它们的图边仅反映节点之间的连接,而我们的图边还对对象之间的关系(具有自己的属性)进行了编码。第二,他们的注意力是通过自我注意或节点之间的相互作用获得的,而我们的注意力是由指称语句引导的。第三,它们将节点信息更新为相邻表示的加权和,但我们保留不同类型的特征来表示节点属性和节点关系。在构建图以捕获结构数据中的结构方面,我们的工作也与图神经网络有关我们在本文中的重点是识别表达相关的信息,更好的语言区域匹配的对象。3. 引导图形注意力网络(LGRAN)在这里,我们详细介绍了拟议的语言引导的图形注意力网络(LGRANs)的参考表达式理解。给定表达式r和一个图像I,指称表达式理解的目的是从对象中定位由r所指的对象o11962输入图像输入引用表达式被一个女人抱在桌子旁边的孩子语言自我注意女人Dbyai=1t=1{t}子一初始图表示图表示匹配评分图构建的在旁边引导图关注0.20.10.6图2.概述了建议的语言引导的图形注意力网络的参考表达理解。该网络由三个模块组成:语言自注意模块、语言引导图形注意模块和匹配模块。集合O={oi}N内燃给出了候选对象集被一个女人抱在桌子旁边的孩子组件作为地面实况或通过对象提案一般获得-方法,如区域建议网络[17],取决于实验设置。我们在SEC中评估了这两种情况。4.第一章如示于图2、LGRANs由三个模块组成:(1)语言自注意模块,它采用自注意方案将表达式r分解为描述主题、类内关系和类间关系的三部分,并学习相应的表达式ssub、sintra和sinter;(2)语言引导图注意模块,它在候选对象O上构建有向图,突出显示节点(对象)、类内边(相同类别的对象)和类间边缘(来自不同类别的对象之间的关系),它们在S子,S帧内和S帧间的指导下与R相关,权重组件表示持有被一个桌旁的女人表旁边的女人表一个女人抱着一个孩子,孩子的隐向量序列Bi-LSTM词嵌入序列单词序列图3.语言自我注意模块的图解。在本文中,我们采用自注意力计划,由于其更好的性能。图3显示了我们的语言注意力机制的高级概念。给定表达式r,最后得出三种表达相关的表征类型,T字r={wt}T我们先把单词不每个对象的语句;(3)匹配模块,其计算表情到对象的匹配分数。我们现在详细描述这些模块。热表示到连续空间{et}t=1使用非线性映射函数fe. 然后{et}被馈送到Bi-LSTM [20]中以获得一组隐藏状态表示hTt=1. 接下来,三个独立的全连接层如下:3.1. 语言自我注意模块将softmax层应用于{ht}以获得三个注意力值的类型,是主体注意力{asub}T,t t=1类内关系注意{aintra}T和类间语言是复合的和单一的向量表示-不关系注意力Tt=1表示(例如LSTM在最终状态的输出)忽略了语言中的丰富结构。 受将复合语言分解为各种视觉到语言任务中的子结构的想法的启发[2,5,6,27],我们也将表达式分解为子组件t t=1。由于所有三个分量的注意力值都是以相同的方式获得的,为了简单起见,我们仅示出了用于计算主题分量Rsub的细节。让为了实现指称的目的,指称表达往往会-asub=wa附属公司ht)、(1)不仅要记录所指对象的属性,还要记录其与附近物体的关系。因此,我们将表达式r分解为三个部分:主题r子,类内关系-tTi=1wa附属公司hi)内部关系和类间关系。主要有两种语言解析方法:现成的语言解析器[2]或自我注意[5,6,27]。其中,在图3中wsuba表示FC。 然后,将注意力值应用于嵌入向量{et}以导出三个表示:ssub、sintra和sinter。 这里匹配一张桌子孩子((11963我i=1我国际W我i=1我我我= tanh(A==′+)的字符串我们选择ssub进行说明:[21]第20段。将Conv5 3特征V∈R7×7×512在高度和宽度维度上合并,以获得重复。ΣTssub=asub·et.(二)v.怨恨∈R512。空间特征li是ob-不t=1受[27]的启发,我们应用另一个线性映射FCw如在[29]中得到的,它是一个5维向量,编码了左上、右下坐标和边界框相对于整个图像的大小,即,到池化嵌入向量,e=Te,去-l=[xtl,ytl,xbr,ybr,w·h]。 节点表示为t=1t�W�H �HW·H驱动三个权重[w_sub,w_intra,w_inter]。这些作为表达式到区域匹配中[rsub,rintra,rinter]3.3.我们再一次提出如何只获得wsub经验值wsub=subw,外观特征和空间fea的串联真实,即xobj=[vi,li]。已经表明,两个对象之间的相对空间特征是对它们的关系进行编码的强类似地,我们基于它们的相关空间信息来对v i和v j之间的边缘进行建模。假设中心坐标,宽度w子We)+exp(w)内部W e)+exp(we)和高度vi被表示为[xc,yc,wi,hi],并且(3)ii其中wsubw,wintraw,winterw表示线性映射。3.2. 语言引导图形注意力模块左上坐标、右下坐标、宽度和如果vj的高度被表示为[xtlj,ytlj,xbrj,ybrj,wj,hj],则边缘表示被表示为[xtlj−xci,ytlj−yci,xbrj−xci,ybrj−yci,wj·hj].语言引导的图形注意力模块是关键我爱你hiwi·hi的网络。它在图像的对象上构建一个图,以对对象依赖性进行建模,并识别与表达式相关的节点和边,以动态地学习适应语言表达式的对象表示3.2.1图构建3.2.2图形注意力图注意力的目的是突出与表达式r相关的节点和边,从而获得适应r的对象特征。 图形注意力由两部分组成:节点注意和边注意。此外,边缘注意力可以被划分为帧内-给定对象或区域集合O={oi}N图像的类边缘注意和类间边缘注意。数学上,这个过程可以表示为,I,我们在O上构建有向图G={V,E},其中V={vi}N是节点集,E ={eij}是边集。{Aobj,Aintra,Ainter}=f({xobj},{ei,j},ssub,sintra,sinter),每个节点vi对应于一个对象oi∈ {O},边eij表示oi和oj之间的关系。基于根据由边连接的两个节点是否属于同一类别,我们将边分为两组:类 内 边 缘 E帧 内 和 类 间 边 缘 E帧 间 。 也 就 是 说 ,E=Eintra_E_inter和Eintra_E_inter=E。假设c(vi)表示vi 的 范 畴 , 则 两 种 类 型 的 边 可 以 表 示 为 :Eintra={eij:c(vi)=c(vj)},(四)其中Aobj、Aintra和Ainter分别表示节点关注值、类内边缘关注值和类间边缘关注值这一系列的特征是语言部分所关注的. 函数f是一种由语言引导的图形注意机制,本文分三部分介绍。Einter= {eij:c(vi)c(vj)}。节点注意 节点注意机制在-考虑到对象通常只与当我们定义一个物体和它的邻居之间的边时。 具体来说,给定一个节点vi,我们对”[11]这是一种“自下而上”的注意力,在物体和其他突出物图像区域[23,33]。给定节点特征{xobj}N,i i=1相同类别的剩余对象e gor y,{vj:c(vj)=其中xobj=[vi,li],并且r的主题特征ssub在c(vi)},基于它们到vi的距离,并定义帧内vi的类邻域Nintra作为排名前k的intra,秒3.1,节点注意力计算为,ive=fv(v)类对象。同样,我们定义类间邻居-伊恩比伊i的前k个排序的对象,le=fl(l)伊伊恩布我到其他类别。对于一个节点vi,我们定义一条边是-在vi和vj之间当且仅当vj∈Nint ra或vj∈Ninter r。xe,obj= [ve,le]我我更大的k导致更密集的图,并且为了平衡效率和表示能力,我们设置k=5。我们为每个节点提取两种类型的节点特征Vi:外观特征Vi和空间特征Li。 为了-xa,objWais,subobj ′wxa,objia,obj 我exp(Aobj′)ssubWaxe,objg,obj我(11964(五)为了保留外观特征,我们首先调整相应的一个物体,iNexp(Aobj)将区域oi转换为224×224并将其馈送到VGG16网络j j11965EMBEMBg,obj我我我我我IJIJ我IJ我我IJIJ⊺伊贾恩布=f([J其中fv和flMLP是用于编码外观的3.2.3Attended Graph表示和vi的局部特征,WaWas,sub 地图节点和边的注意力在的编码节点特征xe,obj和主题特征ssubr转换为相同维数的向量,wa,obj计算{v}的注意力值{Aobj′},所有这些注意力在表达式R的指导下,下一步骤是通过聚集所关注的内容来获得对象的最终表示对应于表达式的分解我我′值{Aobj}N被馈送到softmax层以获得在这种情况下,我们为每个节点获得三种类型的特征:对象i i=1最终注意值,Aobj={Aobj}。类内边缘注意力我们得到了特征、类内关系特征和类间关系特征,关系特征。vi的节点表示将被更新为x∈obj,类内边缘的值E类内和类间边缘objobje目标以类似的方式。给定类内边ei,j∈xi=Ai(8)类内关系特征和其中Aobj表示v的节点关注值和表达式r,ei、j计算为,我我Xe,obj是等式(1)中的编码节点特征。五、eintra=fintra(eij)类内关系表示将是类内边缘表示的加权和,ea,intra= tanh( Wasintra+Waeintra)伊日,内部g,内部ijxxintra=Aintraeintra,(9)内部IJ=wa,内部ea,内部IJ(六)伊伊杰∈NintraiAintra=0exp(Aintra′)exp(Aintra′),其中,Nintra表示V,A intra表示类内边缘关注值,k∈Nintraik伊 伊季我其中,f_intra是对边缘特征进行编码的MLP,e_intra是等式2中的编码的类内边缘特征。六、类间关系表示x_n_t_er被obtain.EMBWas,内部g,内部映射编码的边缘特征和类内我表示为表示的类间边缘的加权和-将表达式r的关系特征s的intra分解为相同维度的向量wa,intra站,xx=ΣAintere inter,(10)注意力值为eij,这些注意力值也不是-伊伊杰j∈Ninter在vi的类内邻域Nintra通过softmax。其中,Ninter我表示的类间邻域类间边关注度在类间关系特征的表达式inter-of-expression的指导下,计算类间边eij∈Einter锡永河,其中,A_inter表示类间边缘关注值,并且e_inter是等式2中的编码类间边缘特征。7.第一次会议。3.3. 匹配模块和损失函数表达式r和ob之间的匹配分数eintereste伊贾恩布ij,xobj])对象Vi被计算为三个部分的加权和:对象、类内关系和类间关系,ea,inter= tanh(Wasinter+Waeinterest)pobj= tanh(Wmsobj)乌丹(Wm(bj)国际新闻社g,interij是,subjg,目标iAinter′=wea,interest(七)pintra= tanh(Wm(Wm)xintra)ija,interijis,内部g,内部i(十一)exp(Ainter')pinter=和一J和11966我EMBJtanh(Wmsinterer)阿斯塔纳(Wmxinter)国际新闻我感兴趣g,内部iAij=Σintern′,Pi=W_subj_p_obj+W_intra_p_intra+W_inter_p_inter,k∈Ninterexp(Aik)我我我其中f_inter是MLP。比较Eq 6和Eq。7、用于表示类内关系和类间关系的特征不同。 当主语vi和宾语vj来自同一个猫e gor y时,我们只用它们的相对空间特征eij来表示它们之间的关系。 然而,当vi和vj来自不同的类(例如,人骑着马),我们需要显式地对对象vj建模,因此我们设计了表示的关系。其中每个表情组件特征和对象com-分量特征在点产品之前由MLP(线性映射+非线性函数tanh(·))编码。这三个部分的重量是从r中获得的,如第二节中所介绍的。3.1. vi作为参考的概率为probi=softmaxx(pi),其中softmax应用于图像中的所有对象。我们选择交叉熵作为损失函数。也就是说,如果r的真值标签为l(r)∈[0,···,N−1],则损失函数为,tation是边特征eij和节点特征xobj的级联。ΣL= −log(probl(r)R)的情况。 (十二)11967我表1.MLP的结构线性和DP(dropout)之后的数字表示隐藏层的dim和dropout比率。MLPs图示结构fe在Python 3.1中线性(512)+ReLUfv,flEMBEMBf内部,f内部在等式(1)中编码节点的视觉和空间特征。5在等式(1)中编码类内和类间边缘特征。六、七线性(512)+BN+ReLU+DP(0.4)+线性(512)+BN+ReLU线性(512)+BN+ReLU+DP(0.4)+线性(512)+BN+ReLU4. 实验在本节中,我们将介绍一些关键的实现细节,然后是三个实验数据集。然后,我们提出了一些定量的比较,我们的方法和现有的作品。此外,消融研究显示了我们的方法的关键方面的有效性。最后,显示了LGRAN的可视化。4.1. 实现细节如第3.2.1,我们使用在ImageNet [19]上预训练的VGG16 [21]来提取图像中对象的视觉特征。在本文中,几个MLP采用编码的各种特征表示。这些MLP的详细信息如表1所示。1.语言表征最终表征的维度句子{sm}和对象表示{xm}都是512,其中{m}表示不同的分量。训练批大小为30,这意味着在每次训练迭代我们将30幅图像和与这些图像相关联的所有指称表达馈送到网络。 Adam [10]被用作训练优化器,初始学习率为0。001,其每6000次迭代衰减10倍。该网络基于PyTorch实现。4.2. 数据集我们在三个指称表达式理解数据集上进行实验:RefCOCO [9]、RefCOCO+ [9]和RefCOCOg [15],均基于MSCOCO [13]构建。RefCOCO和RefCOCO+是在一个迭代游戏中收集的,其中的指称表达往往是简短的短语。这两个数据集之间的区别在于RefCOCO+中的表达式不允许使用绝对位置词。RefCOCOg中的表达式是较长的陈述句。RefCOCO有142,210个表达式,用于19,994个图像中的50,000个对象; RefCOCO+有141,565个表达式,用于19,992个图像中的49,856个对象; RefCOCOg有104,560个表达式,用于26,711个图像中的54,822个对象。RefCOCO 和 RefCOCO 有 四 个 拆 分 , 包 括 虽 然“testA”有多个人,但“testB”有来自其他类别的多个对象。对于RefCOCOg,有两个数据分区版本。一个版本是通过将对象随机分为“训练”和“测试”来获得的。由于数据是按对象分割的,因此相同的图像可以出现在“训练”和“测试”中另一个分区在[16]中生成。在此拆分中,图像被拆分为我们采用这种分割进行评估。4.3. 实验结果在 这 一 部 分 中 , 我 们 给 出 了 Ref-COCO ,RefCOCO+和RefCOCOg的实验结果。准确度被用作评价指标。 给定表达式r和具有一组区域{oi}的测试图像I,我们使用等式11选择区域具有最高匹配分数,其中r作为预测Opred。假设r的所指对象是opred,我们计算opred和opred之间的交集(IOU),如果IOU > 0,则将预测视为正确。五、首先,我们展示了与地面实况MSCOCO区域上最先进方法也就是说,对于每个图像,给出对象区域{oi}。然后,我们进行消融研究,以评估两个注意成分及其组合的有效性。国家,即节点注意力、边注意力和图形注意力。最后,与现有的自动检测区域的方法进行了比较。总体结果选项卡。图2显示了我们的方法和最先进的方法在地面实况区域上的比较。可以看出,我们的方法在 几 乎 所 有 分 割 上 都 优 于 其 他 方 法 。 CMN [6] 和MattNet [27]与我们的方法相关,因为它们放弃了单一的语言表示,并使用自注意机制将语言分解为不同的部分。然而,他们的方法是有限的静态和启发式的对象表示,这是形成为堆栈的多个功能,而不被通知的表达式查询。我们使用图形注意机制来动态地识别与语言相关的内容AdelAttn [32]和AccumulateAttn [3]都专注于设计注意机制,以突出语言的信息内容以及图像,以实现更好的接地性能。然而,它们将对象视为孤立的,并且未能对它们之间的关系进行建模,这对于识别感兴趣的对象是重要的。消融研究接下来,我们进行消融研究以进一步研究LGRAN的关键成分具体而言,我们比较以下解决方案:• 节点表示(NodeRep):这个基线使用LSTM来编码表达式,并使用encod。11968我IJ表2.与MSCOCO地区地面实况最新方法的性能(Acc%)比较。“所有比较方法都使用VGG16特性。方法RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBval*Val测试MMI [15]-71.7271.09-58.4251.2362.14--[第28话]-67.5771.19-52.4447.5159.25--[28]第二十八话-73.9876.59-59.1755.6264.02--[第16话]76.9075.6078.00-----68.40中国移动[6]-75.9479.57-59.2959.3469.3--听众[29]77.4876.5878.9460.561.3958.1171.1269.9369.03[29]第二十九话78.1476.9180.161.3463.3458.4272.6371.6571.92[29]第二十九话78.3677.9779.8661.3363.158.1972.0271.3271.72[30]第三十话-78.9882.39-62.5662.9073.98--[32]第三十二话81.6780.8181.3264.1866.3161.4669.47--[3]第三章81.2781.1780.0165.5668.7660.6373.18--[27]第二十七话80.9479.9982.363.0765.0461.7773.0873.0472.79Ours-LGRANs82.081.284.066.667.665.5-75.474.7表3.LGRANs关键组分的消融研究方法RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBVal测试节点代表77.677.777.861.562.858.067.168.4GraphRep80.279.481.563.364.461.970.572.1节点地址81.480.482.865.866.264.272.473.2EdgeAttn81.980.883.365.966.764.973.974.5LGRANs82.081.284.066.667.665.575.474.7节点特征的集合来表示对象,即,xe,obj表4.性能(Acc%)与自动检测区域上最先进的方法进行比较所有比较方法都使用VGG16特性。由方程式五、• 图形表示(GraphRep):除了节点表示之外,图表示还使用了两个 其他的边缘表示的类型:类边缘特征x_p_l,intra=intraeintra,i j∈Niij其中,是类内边缘特征编码,直接. 它观察到一些改进相比,在Eq. 6、第二类边缘特征基线xpool,inter为j∈Nintereinter,其中einter是区域层面的关注,以突出潜在的对象去-iiij ij ij类间边缘特征编码在Eq. 7.第一次会议。• NodeAttn:在图形表示之上,NodeAttn应用节点注意力,如第2节所介绍的。3.2.3.• EdgeAttn:与直接聚合边缘特征的图形表示不同,EdgeAttn将边缘注意力应用于边缘,如第2节中所介绍的3.2.3.• LGRANs:这是我们的完整模型,它在图上同时应用节点注意力和边注意力。选项卡. 3显示消融研究结果。基线“节点表示“的局限性“图形表示“通过汇集边缘特征来考虑对象之间的由表达式来描述,并且这进一步提高了性能。与“NodeAttn”正交“可以看出,它始终优于上述其他不完整的解决方案。自动检测区域最后,我们使用Faster R-CNN自动检测的对象区域评估LGRAN的性能[17]。选项卡. 4显示了结果。与使用地面真实区域相比,所有方法的性能都有所下降,这是由于检测区域的质量。在这种情况下,LGRAN仍然比其他比较方法表现得更好这显示了LGRAN在全自动参照表达理解中的能力。方法RefCOCORefCOCO+参考COCOg种皮testB种皮testBval*MMI [15]64.954.5154.0342.8145.85[第16话]58.656.4--39.5中国移动[6]71.0365.7754.3247.7657.47听众[29]71.6361.4757.3347.2156.18[29]第二十九话69.1561.9655.9746.4557.03spe+lis+RL [29]72.6562.6958.6848.2358.32[30]第三十话73.3367.4458.4053.1862.30[32]第三十二话75.3165.5261.3450.8658.03LGRANs76.666.464.053.462.511969节点关注类内关系关注节点关注类间关系关注类内关系关注节点关注班级间关系关注班级内关系关注图4. LGRANS的可视化。显示了三个具有不同难度水平的示例。对于每个示例,原始图像(所指对象,其类内和类间邻域分别由黄色,蓝色和红色框标记)与指涉表达(主题,类内和类间关系由黄色,蓝色和红色标记),节点注意力图,类间和类内边缘注意力图从左到右给出。我们通过突出显示与所指对象交互的其他对象来可视化所指对象与其他对象之间的关系。例如,对于关系“女人撑伞”,我们突出“伞”。由于长颈鹿示例仅包含长颈鹿区域,因此不存在类间关系在每个区域内,注意力值通过2D高斯核进行平滑最好用颜色看。4.4. 可视化与传统的应用于孤立图像区域的注意力方案相比,CNN特征图的均匀网格[26]或对象建议[1],LGRANS同时预测对象和对象间关系的注意力分布。图4显示了三个不同难度等级的例子。在第一个例子中,节点注意力突出了所有三个长颈鹿,因此无法区分所指对象。为了识别最高的长颈鹿,它需要将一只长颈鹿与其他两只长颈鹿进行比较。如图所示,类内关系注意力突出了与其他两只长颈鹿的关系,并提供了进行正确定位的有用线索。在第二个例子中,图像中有四个女人。节点注意力把注意力放在人身上,而排除其他对象,例如。袋子瓶子雨伞然后,类间关系注意确定了所指对象和保护伞之间的相关关系。由于表达式中不存在类内关系,类内边缘注意值几乎均匀地分布在其他人身上。在最后一个例子中,类内注意力和类间注意力分别表示人和摩托车,分别对应于“在一个穿圣诞老人衣服人后面”和“在一辆摩托车上”。在这些例子中,表达式中存在的有用信息被突出显示,这解释了为什么对象被选为所指对象。5. 结论我们提出了一个基于图形的,语言引导的注意网络(LGRANs),以解决指称表达理解任务。LGRANs由两个关键成分组成:节点注意成分和边注意成分,它们都受语言注意的引导。节点注意力突出了所指候选者,缩小了用于定位所指对象的搜索空间,而边缘注意力则确定了所指对象与其邻域之间的相关关系。基于关注图,我们可以动态地丰富对象表示,以更好地适应指称表达式。LGRANs的另一个好处是,它使理解决策变得可视化和可解释。摩托车manona钽包层一个san背后乘客作骑服装圣诞老人中女性一的 长颈鹿即站最高一女人穿着米色 裙子 控股伞在 野餐11970引用[1] P. Anderson,X.他,C.Buehler、D.Teney,M.约翰逊先生,S. Gould和L.张某自下而上和自上而下的图像字幕和视觉问答注意。正在进行IEEE会议对比可见光帕特识别,2018年。[2] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩 神经元模块网络。正在进行IEEE会议对比可见光帕特识别,2016年。[3] C.登角,澳-地吴角,澳-地Wu,F. Hu,F. Lyu和M. Tan.通过积累注意力的视觉基础。正在进行IEEE会议对比可见光帕特识别,2018年。[4] D.迪弗诺D.麦克劳林,J. 阿吉莱拉-伊帕拉吉雷,R. 戈麦斯-邦巴雷利,T。Hirzel、A. Aspuru-Guzik和R.P. 亚当斯用于学习分子指纹的图上卷积网络。 在proc神经信息学进展过程。系统,2015年。[5] R. Hu,J. Andreas,M. Rohrbach,T. Darrell和K.萨恩科学习推理:用于可视问答的端到端模块网络。 Proc.IEEE国际Conf. Comp. 目视,2017年。[6] R. Hu,M. Rohrbach,J. Andreas,T. Darrell和K.萨恩科用组合模块网络建模指称表达式中的关系.正在进行IEEE会议对比可见光帕特识别,2017年。[7] R. Hu,H.Xu,M.Rohrbach,J.Feng,K.Saenko和T.达雷尔。自然语言对象检索。正在进行IEEE会议对比可见光帕特识别,2016年。[8] A. 贾恩A.R. Zamir,S.Savarese和A.萨克塞纳Structural-rnn:时空图的深度学习 在proc IEEE Conf. Comp.目视帕特识别,2016年。[9] S. Kazemzadeh,V. Ordonez M. Matten和T. L.伯格。推荐游戏:指自然景物照片中的物体。在Proc. Conf.Empirical Methods in Natural Language Processing ,2014。[10] D. P. Kingma和J. BA. Adam:一种随机优化的方法. 在proc Int. Conf. 学习. 代表,2014年。[11] R. Li,M.塔帕斯维河Liao,J. Jia,R. Urtasun和S. 菲德勒基于图神经网络的态势识别。正在进行IEEE国际配置文件目视,2017年。[12] Y. Li,D. Tarlow,M. Brockschmidt和R. S.泽梅尔门控图序列神经网络在Proc. Int. Conf.学习.代表,2016年。[13] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象 在proc EUR. Conf.Comp. 目视,2014年。[14] R. Luo和G.沙赫纳洛维奇理解引导的指称表达。 Proc.IEEE会议Comp. 目视帕特识别,2017年。[15] J. Mao,J. Huang,A.托舍夫岛Camburu,A.尤尔,还有K. 墨菲无歧义对象描述的生成和理解正在进行IEEE会议对比可见光帕特识别,2016年。[16] V. K.纳加拉贾河谷I. Morariu和L. S.戴维斯为引用表达式理解建立对象间的上下文模型欧洲药典配置文件可见,2016年。[17] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towards real-time object detection with region proposal networks.在Proc.神经信息进展。过程系统,2015年。11971[18] A. 罗尔巴赫 M. 罗尔巴赫 R. 胡 T. Darrell和B.席勒通过重构实现文本短语在图像中的扎根。欧洲药典配置文件可见,2016年。[19] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机Vision,2015.[20] M. Schuster和K.帕利瓦双向递归神经网络。IEEETransactions on Signal Processing,1997。[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR,abs/1409.1556,2014。[22] D.泰尼湖Liu和A.范登亨格尔。图形结构表示的可视化问题回答。 在proc IEEE Conf. Comp.目视帕特识别,2017年。[23] J. Uijlings,K. van de Sande,T. Gevers和A.史默德斯对象识别的选择性搜索。国际计算机Vi-sion,2013.[24] P. 韦利科维湾葫芦A.卡萨诺瓦A。罗梅罗山口Li和Y.本吉奥。图注意力网络。在Proc. Int. Conf.学习.代表,2018年。[25] L. Wang,Y. Li和S. Lazebnik学习深度结构保持图像-文本嵌入。正在进行IEEE会议对比可见光帕特识别,2016年。[26] P. 王湖,加-地Liu,C.沈,Z.Huang,黄背天蛾A.vanden Hengel,以及H.陶申。多注意力网络的一次学习。正在进行IEEE会议对比可见光帕特识别,2017年。[27] L. Yu , Z.Lin , X.Shen , J.Yang , X. 卢 ,M.Bansal和T.L.伯格。Mattnet:指涉表达理解的模块化注意网络。正在进行IEEE会议对比可见光帕特识别,2018年。[28] L. Yu,P.Poirson,S.Yang,杨树A.C. Berg和T.L.伯格。指称表达中的修饰语境.欧洲药典配置文件可见,2016年。[29] L. Yu,H.谭,M。Bansal和T. L.伯格。一种用于指称表达的说话人-发话人-发话人联合模型。正在进
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功