没有合适的资源?快使用搜索试试~ 我知道了~
4145接地参考表达式杨思蓓1李冠斌2李易洲余1,31香港大学2中山大学3Deepwise AI Labsbyang9@hku.hk,liguanbin@mail.sysu.edu.cn,网址:www.example.com,yizhouy@acm.org摘要接地指涉表达式是一个基本的,但具有挑战性的任务,促进人机通信的物理世界。它是在理解自然语言表达与图像之间的关系的基础上,一个可行的解决方案接地指表达式不仅需要提取所有必要的信息(即,对象以及它们之间的关系),而且还从所提取的信息中计算和表示多模态上下文。然而,现有的基于指称表达式的工作不能准确地从指称表达式中提取多阶关系,并且所获得的上下文与指称表达式所描述的上下文存在差异在本文中,我们提出了一个跨模态关系提取器(CMRE),自适应地突出对象和关系,有一个给定的表达式连接,跨模态注意机制,并表示提取的信息作为一个语言引导的视觉关系图。此外,我们提出了一个门控图卷积网络(GGCN)计算多模态语义上下文融合信息从不同的模式和传播多模态信息的结构化关系图。在各种常用基准数据集上的实验表明,由CMRE和GGCN组成的跨模态关系推理网络的性能优于现有的所有最先进的方法。1. 介绍理解自然语言及其与视觉信息的关系是人工智能在物理世界中连接人类和机器的基础这个问题涉及许多具有挑战性的任务,其中,接地通 讯 作 者 是 李 冠 斌 。 本 工 作 得 到 国 家 自 然 科 学 基 金 项 目(61702565)和中央大学基础研究基金项目(18lgpy63)的部分资助。图1.跨模态关系推理网络。给定一个表达式和图像,跨模态关系提取器构建语言引导的视觉关系图(建议和边缘类型的注意力分数门控图卷积网络捕获语义上下文,并计算每个建议的上下文与表达式的上下文之间的匹配分数(建议的匹配分数显示在蓝色虚线框中)。较暖的颜色表示较高的像素分数,较暗的蓝色表示较高的边缘类型分数引用表达式[9,23]是一个基本表达式。Grounding指称表达试图在理解指称自然语言表达之间的关系的基础上在图像中定位目标视觉对象(例如,“戴眼镜的人”、“汽车附近的狗”)和图像。接地指涉表达式通常被制定为一项任务,该任务从图像中的一组建议中识别出涉及表达式的建议[35]。最近的工作结合了卷积神经网络(CNN)[13]和长短期记忆神经网络(LSTM)[6]来处理图像和引用表达式中的多模态信息CNN用于提取单个对象的视觉特征,全局视觉上下文[23,28]和成对视觉差异[19,35,36,37],而LSTM编码全球语言语境[19,22,23,36,37]和语言分解短语的特征[7,35,41,33]。CNN与LSTM合作也可以捕获对象对的上下文[7,26,41]。然而,这种工作不能准确地从指称表达式中提取一阶关系或多阶关系,并且所捕获的上下文与指称表达式所描述的上下文也存在差异。4146一个可行的解决方案接地指表达式需要提取所有所需的信息(即)。对象和它们之间的关系在图像中,并引用(例如)对于任何给定的表达准确。然而,由于从图像中的场景生成的表达式通常是不可预测和灵活的[23],因此所提出的模型需要自适应地提取信息例如,如果目标是在具有两个或更多个男人的图像中定位“拿着气球的男人”,则来自自然语言表达的所需信息包括名词(“男人”和“气球”)和关于关系的词“拿着”;另一方面,“人”和“气球”的建议以及将它们联系在一起的视觉关系(“持有”)应在图像中确定。如果表达式更复杂,例如在这个例子中,我们需要通过另一个“人”来识别目标和“气球”之间的二阶关系。不幸的是,现有的工作要么不支持关系建模,要么只考虑对象之间的一阶关系[7,26,41]。理论上,视觉关系检测器[3,21,38]和自然语言解析器可以通过检测图像中的关系信息并解析语言模式中的表达式来帮助实现这一目标。然而,现有的视觉关系检测器不能为高度不受限制的场景组合提供令人满意的结果[41],并且现有的语言解析器由于其解析错误[35]而对地面引用表达式的性能产生不利影响。此外,准确一致地表示指称表达和目标对象建议的上下文信息至关重要,因为表达的上下文有助于将目标与其他对象区分开来[26,36,41]。然而,现有的上下文建模方法要么不能准确地表示上下文,要么不能实现上述两种类型的上下文之间的高度一致性,原因是低的。首先,关于全局语言上下文建模[19,22,23,36,37]和全局视觉上下文建模[23,28]的现有工作引入了噪声信息,并且难以匹配这两种类型的上下文。其次,现有工作中计算的成对视觉差异[19,35,36,37]只能表示同一类别对象之间的实例级视觉差异。第三,关于对象对的上下文建模的现有工作[7,26,41]仅考虑一阶关系而不是多阶关系(例如,他们直接提取目标“人”和“气球”之间的上下文,而不考虑另一个“人”“拿着气球”)。此外,多阶关系实际上是结构化的信息,并且现有工作所采用的上下文编码器在接地指涉表达式上根本无法对它们进行建模。为了克服上述困难,我们提 出 了 一 个 端 到 端 的 跨 模 态 关 系 推 理 网 络(CMRIN)。CMRIN由两个模块组成,即:跨模态关系提取器(CMRE)和门控图卷积网络(GGCN)。图1中示出了一个示例。CMRE自适应地提取所有需要的信息(即,来自表达的名词和关系词,以及来自图像的对象提议及其视觉关系),用于构建具有跨模态注意的语言引导的视觉关系图。首先,CMRE为图像构造空间关系图。其次,它学习将表达式中的单词分为四种类型,并进一步将单词分配给空间关系图中的顶点和边。最后,它构建了语言引导的视觉关系图的顶点和边缘的词的归一化注意力分布GGCN融合来自不同模式的信息,并在语言引导的视觉关系图中传播融合的信息,以获得表达式所指的语义上下文。我们已经在三个常见的基准数据集上测试了我们提出的CMRIN , 包 括 RefCOCO [36] , Ref- COCO+ [36] 和RefCOCOg [23]。实验结果表明,我们提出的网络优于所有其他国家的最先进的方法。综上所述,本文有以下贡献:• 跨模态关系提取器(CMRE)的目的是将输入的表情和图像转换为语言引导的视觉关系图。任何在给定表达的情况下,CMRE通过跨模态注意机制突出对象以及对象之间• 门控图卷积网络(GGCN)是用来捕获多模态语义上下文的,多阶关系。GGCN融合来自不同模式的信息,并在语言引导的视觉关系图中传播融合的信息。• CMRE 和 GGCN 集 成 为 跨 模 态 关 系 推 理 网 络(CMRIN),优于所有现有的最先进的方法接地指的表达式。2. 相关工作2.1. 接地参考表达式指称表达式的基础和指称表达式的生成[23]是双重任务。后者为图像中的目标对象生成无歧义的文本表达式,前者根据文本表达式所引用的图像中的上下文选择相应的对象。为了解决接地指涉表达式,一些复杂的工作[19,22,23,37,36]从CNN中提取视觉对象特征,并将表达式作为一个整体来处理,4147图2.我们的跨模态关系推理网络的概述,用于接地指涉表达(更好的彩色视图我们用颜色来表示语义,即。黄色表示“人”,绿色表示“绿色衬衫”,蓝色表示“雨伞”,紫色表示“白色T恤”,棕色表示“穿着”,深灰色表示“持有”。它包括一个跨模态关系提取器(CMRE)和一个门控图卷积网络(GGCN)。首先,CMRE从对象建议的视觉特征和建议之间的空间关系构造(a)空间关系图第二,CMRE突出显示要生成的顶点(红色边界框)和边(实线(b)语言引导的视觉关系图,其使用所述指称表达中的词与所述空间关系图的顶点和边之间的跨模态注意。第三,GGCN将每个单词的上下文融合到语言引导的视觉关系图中,以获得(c)多模态(语言,视觉和空间信息)关系图。第四,GGCN通过在关系图中执行门控图卷积操作来捕获(d)具有一阶关系的多模态语义上下文通过对多次迭代执行门控图卷积操作,(e)可以计算具有多阶关系的语义上下文。最后,CMRIN计算每个建议的语义上下文与引用表达式的全局上下文之间的匹配得分。通过LSTM编码语言特征。其中,一些方法[22,23,36]学习最大化给定表达式和图像的目标对象的后验概率,而其他方法[19,37]直接对目标对象和表达式的联合概率进行与上述方法不同的是,Ob-神经网络之间的上下文建模[26]将视觉对象表示,视觉上下文表示和单词嵌入的级联输入到LSTM模型中。最近的一些方法[7,35,41]学习将表达式分解为不同的组件,并计算每个模块对对象的语言-视觉我们的跨模态关系提取器还学习对表达式中的单词进行分类,但我们将分类的单词视为自动突出表达式中描述的所有对象及其关系的指导,以构建语言指导的视觉关系图,而无需额外的视觉关系检测[3,21,38]。2.2. 上下文建模上下文建模已经被用在许多视觉识别任务中,目标检测[2,31,39,14],显著性检测[16,17,15]和语义分割[25,40]。最近,结构推理网络[20]将上下文建模任务模拟为图结构推理问题[8,11,24]。先前关于指称表达的研究也试图捕捉语境。一些工作[23,28]将整个图像编码为视觉上下文,但全局上下文信息通常无法与表达式描述的局部上下文匹配。一些工作[19,35,36,37]捕获图像中属于同一类别的对象之间的视觉差异,但对象外观的视觉差异通常不足以将目标与其他对象区分开来。相反,包括外观和关系在内的上下文之间的视觉差异是必不可少的, 虽然有一些工作[7,26,41]试图从对象对的关系来建模上下文,但它们只考 虑 对 象 之 间 具 有 一 阶 关 系 的 上 下 文 。 受 GraphConvolutional Network [11]分类的启发,我们的GatedGraph Convolutional Network通过消息传递灵活地捕获涉及表达式的上下文,并且可以捕获具有多阶关系的上下文。4148i,j=1i=1i,j=1我i=1t=1我3. 跨模态关系推理网络我们提出的跨模态关系推理网络(CMRIN)依赖于多模态关系图中捕获的对象和上下文之间的跨模态关系来选择输入表达式所引用的目标对象建议(在输入图像中)。首先,CMRIN使用跨模态关系提取器构造语言引导的视觉关系图。其次,它使用门控图卷积网络从关系图中捕获多模态上下文最后,根据其多模态上下文和输入表达式的上下文我们的CMRIN接地参考环表达式的整体架构在本节的其余部分,我们将详细介绍该网络中的所有模块。3.1. 跨模态关系提取器跨模态关系提取器(CMRE)利用跨模态注意机制,根据任意给定的图像和表达式对自适应地我们的CMRE 将 表 达 式 中 的 单 词 柔 和 地 分 类 为 四 种 类 型(即,实体词、关系词、绝对位置词和不必要的词)。整个表达式的上下文可以从每个单词的上下文计算出来同时,通过将图像中的对象建议根据它们的大小和位置连接起来,构建图像的空间关系图。接下来,CMRE生成语言引导的视觉关系图在距离dij 处 ,相对角度θij(即,水平轴和向量(xi−x j , y i−y j ) 之 间 的 角 度 ) 和 它 们 之 间 的Intersection over Union u ij。 如果o i包括o j,则r ij设置为“inside”;如果o i被o j覆盖,则将r ij设置为“cover”;如果上述两种情况都不成立,且u ij大于0。5、将r ij设置为“重叠”;否则,当dij与图像的对角线长度之间的比率大于0时。5、将rij设置为“无关系”。在其余情况下,根据相对角度θ ij,将r ij分配给以下空间关系之一:“ 右” 、“ 右 上” 、“ 上” 、 “ 左 上” 、“ 左” 、“ 左下”、“下”和“右 下”。 细节如图3所示。图3.建议oi(绿框)和建议oj(蓝框)之间的所有类型的空间关系。关系后面的数字是标签索引。有向空间关系图Gs=(V,E,Xs)由对象提议集合O和成对关系集合R={rij}K构造,其中V={vi}K照亮空间关系图的顶点和边。突出显示被实现为计算跨模态,是顶点的集合,顶点vi对应于提议oi;E={eij}K是边的集合,eij是索引关系的标签rij;Xs={xs}K是特征集表达式中的词与空间关系图中的顶点和边之间的张力且xs∈RDxi i=1是提案3.1.1空间关系图探索图像中对象建议之间的相对空间关系对于建立引用体验是必要的。一方面,空间信息经常出现在指称表达中[35];另一方面,空间关系是图像中视觉关系的一个重要方面[3,38]。我们根据每对提案的大小和位置探索它们之间的空间关系,这与[34]中的方法相似。对于具有K个对象提议的给定图像I(绑定-o i,并且xs是使用预训练的CNN模型提取的。一E的有效索引标签的范围从1到Ne= 11(标签of “no relationship” is3.1.2语言上下文受[7,41,35]中不同模块上的词向量的注意力加权和的启发,我们的CMRE定义了词在空间关系图Gs的顶点和边上的注意力分布。此外,不同的词在指称表达中可能扮演不同的角色。就指称表达而言,词通常可分为四种类型,即实体、关系、绝对位置和不必要ing boxes),O={oi}K,每个建议的位置oi话通过对词语的分类和辨析,表示为loci=(xi,yi,wi,hi),其中(xi,yi)是建议的中心的归一化坐标oi,wi和hi分别是归一化的宽度和高度 的通过将它们分布在图Gs的顶点和边上,可以捕获每个顶点和边的语言上下文,从而得到全局语言上下文。空间特征pi被定义为pi=[xi,yi,wi,hi,wihi]。对于给定的表达式L={lt}T,CMRE使用双-对于任何一对建议oi和oj,空间关系它们之间的Rij定义如下。我们计算出相对-定向LSTM [30]来编码每个单词的上下文单词lt的上下文是它的前向4149J不不t=1我我我我λp=λ我和后向隐向量,记为ht∈RDh。每种类型的重量mt(即实体,关系,绝对位置,字L的字和不必要的字)定义如下。定义如下。we=softmax(We1σ(We0ht+be0)+be1)m(1),(5)tt tmt=softmax(Wl1σ(Wl0ht+bl0)+bl1), (1) 其中We0∈RDe0×Dh,be0∈RDe0×1,We1∈RNe×De0和be1∈RNe×1是可学习的参数,De0是其中Wl0∈RDl0×Dh,bl0∈RDl0×1,Wl1∈R4×Dl0ee和bl1∈R4×1是可学习参数,Dl0和Dh是超参数,σ是激活函数.实体、关系和绝对位置的权重是第一m的三个元素。 的全球语境超参数wt,j是wt的第j个元素,词lt指边类型的加权概率J.并且对于具有类型j∈ {1,2,.. N e}是所有加权概率之和,表达式中的词语指的是边缘类型j,图Gs计算为hg=T(m(0)+m(1)+m(2))ht.t=0t tpe=pwe.(六)接下来,基于词上下文H={ht}Tj t,j以及每个词的实体权重{m(0)}T,加权t=1t t=1图顶点上的归一化注意力分布语言引导的视觉关系图被定义为Gs定义如下。Gv=(V,E,X,Pv,Pe),其中Pv={pv}K,则Pe=s{pe}Ne.i i=1α t,i=Wn[tanh(Wvxi+Whht)],j j=1λ=m(0)exp(αt,i),(2)3.2. 多模态上下文建模t我不 α-Kexp(αt,i)我们提出的门控图卷积网络其中Wn ∈R1×Dn,Wv ∈RDn× Dx Wh ∈RDn× Dh 是变换矩阵,Dn是超-(GGCN)进一步将语言上下文融合到语言引导的视觉关系图中,以生成多个参数. λt我 是加权的标准化注意力,模态关系图Gm,并计算一个多模态se-指示字L1,t指代顶点Vi的概率。通过聚合所有注意力加权的单词上下文来计算顶点vi处的语言上下文ci不通过执行选通图来图Gm上的卷积运算。3.2.1视频-视觉功能ci=λt=1t我是的。(三)正如视觉关系检测[3,38]所建议的那样,物体的空间位置和外观特征是视觉关系的关键指标,并且物体的类别对关系具有高度预测性3.1.3视觉引导的视觉关系图不同的对象建议和建议之间的不同关系在解决指称表达的基础问题上所起的作用是不一样的。在指称表达中提到的建议和关系应给予更多的关注。我们的CMRE突出了空间关系图Gs的顶点和边,这些顶点和边与指称表达式有联系,以生成语言引导的视觉关系图Gv。高光操作是通过为图GS中的每个顶点和边设计一个门来实现的。GGCN将每个顶点的语言上下文融合到语言引导的视觉关系图Gv(Gv编码命题的空间关系和外观特征)中,生成多模态关系图Gm,从而为计算每个顶点的语义上下文奠定基础.我们定义G m中顶点vi处的特征xm为语言引导视觉关系图中顶点vi处的视觉特征xs与顶点e x v i,i处的语言引导视觉关系图中的语言引导视觉特征xtci的级联。e. xm=[xs,ci]。多峰图定义为Gm=(V,E,Xm,Pv,Pe),其中Xm={xm}K。顶点vi的门pi被定义为每个单词所表达的加权概率之和。Sion指顶点Vi,我i=13.2.2语义上下文建模指称表达中可能存在多序关系不vit=1t我(四)我们通过消息传递获得表示多阶关系的语义上下文。一方面,通过学习融合空间关系获得每条边都有自己的类型,边的门被公式化为边类型的门图Gs的边上的词的加权归一化分布是视觉特征和语言特征。另一方面,表示多阶关系的上下文通过在图Gm中传播成对上下文来计算。4150我我我我JJj=1我我i=1−→←− ×(D+D)˜我我受用于分类的图卷积网络(GCN)的启发[11,32],我们的GGCN采用多模态关系图Gm中的图卷积运算来计算语义上下文。 与GCN在无权图中的操作不同,GGCN在有向图中的操作是通过额外的门操作实现的.图Gm=(V,E,Xm,Pv,Pe)中顶点vi处的第n次门图卷积运算定义如下.4. 实验4.1. 数据集我 们 已 经 在 三 个 常 用 的 基 准 数 据 集 上 评 估 了CMRIN,以确定引用表达式的基础(即,RefCOCO[36]、RefCOCO+ [36]和Ref-COCOg [23])。在RefCOCO中,有50,000个目标对象,→−x(n)=<$pe−→(n)x<$(n−1)pv+b(n)),从19,994图像MSCOCO [18],和142,210参考-iei,j(W jei,j>0j ei,j环表达式。RefCOCO分为训练、验证、测试A和测试B,分别有120,624、10,834、5,657和<$x−(n)=<$pe<$−(n)x<$(n−1)pv+b(n)),5,095个表达-靶标对。测试A包括iej,i(W jej,i>0jej,i(七)多人图像,测试B包括图像x(n)=W(n)x(n−1)+b(n),与其他类别的多个对象。RefCOCO+收集了49,856个目标对象,x(n)=σ(→−x(n)+<$x−(n)+x(n)),MSCOCO中的19,992个图像和141,564个表达式col我其中x≠(0)我我我=xm,W(n),W(n),W(n)∈RDexh从交互式游戏界面中选择。与RefCOCO不同的是,RefCOCO+禁止绝对位置描述,{b(n)}Ne ,b(n)∈RDe×1是可学习的参数,并且De是r型参数r。→−x(n)和←x−(n)是fea编码的在表达式中。它分为训练、验证、测试A和测试B,分别为120,191、10,758、5,726和4,889我我内外关系都要互相尊重。 x(n)是其自身的更新特征。最终编码的特征x(n)是上述三个特征的和,σ是激活功能通过执行门控图卷积操作多次迭代(N),可以计算表示顶点之间的多阶关系的语义上下文这样的语义上下文被表示为Xc={xc}K。最后,对于每个顶点vi,我们将其编码空间特征pi及其语言引导的语义上下文xc,以获得多模态上下文xi=[Wppi,xc],其中Wp∈RDp×5。3.3.损失函数建议oi和表达式L定义如下,si=L2 Norm(Ws0xi)< $L2 Norm(Ws1hg),(8)表达-靶对。RefCOCOg包括来自MSCOCO中25,799个图像的49,822个目标对象,以及在非交互式设置中收集的95,010个长引用RefCOCOg [26]分别有80,512,4,896和9,602个表达-目标对用于训练,验证和测试。4.2. 评价和实施Precision@1度量(正确预测的分数)用于性能评估。如果最高预测建议是参考表达的基础事实,则预测被认为是真阳性对于给定的数据集,我们计算每个单词在训练集中出现的次数如果一个单词出现超过五次,我们就把它加入词汇表。表达式中的每个单词最初都是一个独热向量,然后再转换为512维嵌入。Anno-其中W为0∈RDs×(DP+Dx)和Ws0∈RDs× Dh 是对象实例的指定区域在RefCOCO中提供RefCOCO+和RefCOCOg。三个目标中的目标物体变换矩阵受[29]中用于人脸识别的深度度量学习算法的启发,我们采用三重丢失和在线硬负样本挖掘来训练我们的CMRIN模型。三重态损失定义为loss=max(sneg+−sgt,0),(9)其中Sgt和Sneg分别是基础事实建议和否定建议的匹配分数。 否定提议是从在线硬提议集合{ o}中随机选择的。|sj+−sgt>0},其中是裕度。在测试过程中,我们预测目标物体通过选择具有最高匹配分数的对象提议。4151数据集属于MSCOCO中的80个对象类别,但引用表达式可能提及80个类别之外的对象。为了使目标对象的范围与指称表达式相一致,有必要识别表达式中的对象,即使它们不在80类之内。受[1]中用于图像标题和视觉问题回答的自下而上注意力模型的启发,我们在Visual Genome数据集[12]中选定的1,460个对象类别上训练基于ResNet-101的Faster R-CNN [5,27],不包括RefCOCO,RefCOCO+和RefCOCOg的训练,验证和测试集中的图像。我们将检测到的对象与MSCOCO提供的地面实况对象相结合,以形成图像中的最终对象集4152RefCOCORefCOCO+参考COCOg特征Val种皮testBVal种皮testBVal测试1MMI [23]VGG16-63.1564.21-48.7342.13--2[26]第二十六话VGG1676.9075.6078.00----68.403CG [22]VGG16-74.0473.43-60.2655.03--4[19]第十九话VGG16-78.8578.07-61.4757.22--5中国移动[7]VGG16-75.9479.57-59.2959.34--6[第36话]VGG1676.1874.3977.3058.9461.2956.24--7[37]第三十七话VGG1677.4876.5878.9460.5061.3958.1169.9369.038[37]第三十七话:VGG1679.5678.9580.2262.2664.6059.6271.6571.929[41]第四十一话VGG16-78.9882.39-62.5662.90--10[4]第四话VGG1681.2781.1780.0165.5668.7660.63--11[42]第四十二话VGG1681.6780.8181.3264.1866.3161.46--12MAttNet [35]VGG1680.9479.9982.3063.0765.0461.7773.0472.7913我们的CMRINVGG1684.0284.5182.5971.4675.3864.7476.1676.2514MAttNet [35]ResNet10185.6585.2684.5771.0175.1366.1778.1078.1215我们的CMRINResNet10186.9987.6384.7375.5280.9368.9980.4580.66表1.与RefCOCO、RefCOCO+和RefCOCOg的最新方法进行比较使用VGG-16的两种性能最佳的方法用红色和蓝色标记。地面实况注意力分数匹配分数地面实况注意力分数匹配分数(a) 停车计时器后面的汽车前格栅(b)桌子后面的绿色植物(b)女士的头后面可见(C)右边的人(D)两头大象之间的大象图4.定性结果显示初始注意力得分(门)地图和最终匹配得分地图。我们计算像素的得分作为覆盖它的所有建议中的最高得分值,并将得分映射归一化为0到1。颜色越暖表示得分越高年龄我们从基于ResNet-101的Faster R-CNN模型的pool5层提取对象的视觉特征作为2,048维输出由于之前的一些方法使用VGG-16作为特征提取器,因此我们还从VGG-16的fc 7层中提取了4,096维输出以进行公平比较。我们将mini-batch大小设置为64。采用Adam优化器[10]来更新网络参数,初始学习率设置为0.0005。保证金设置为0。1在所有的实验中4.3. 与最新技术水平的比较我们将我们提出的CMRIN的性能与最先进的方法进行了比较,包括MMI [23],Neg Bag [26],CG [22],Attr [19],CMN [7],Speaker [36],[37],VariContext [41],AccumulateAttn [4],Paral[42][45][46][47]4.3.1定量评价表1显示了RefCOCO、RefCOCO+和RefCOCOg数据集的定量评价结果我们提出的CM-RIN在所有数据集上的性能都大大优于现有的方法。特别地,当以VGG-16为主 干 时 , CMRIN 在 RefCOCO 、 RefCOCO+ 和RefCOCOg数据集我们的CMRIN在人物类别上有了显著的改进(RefCOCO和RefCOCO+的测试A),这表明铸造外观属性(例如,衬衫、眼镜和鞋)作为人与外表属性之间的外部关系,可以有效地将目标人与其他人区分开。在我们切换到基于ResNet- 101的FasterR-CNN提取的视觉特征之后,我们的CMRIN4153RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBVal测试1全局langcxt+vis实例79.0581.4777.8663.8569.8257.8070.7871.262global langcxt+global viscxt(2)82.6183.2282.3667.7573.2163.0674.2975.233加权langcxt+引导viscxt(2)85.2986.0984.1273.7079.6067.5278.4779.394加权langcxt+引导viscxt(1)+融合85.8086.0983.9873.9578.4367.2179.3778.905加权langcxt+引导viscxt(3)+融合86.5587.5084.5375.2980.4668.7980.1180.456加权langcxt+引导viscxt(2)+融合86.9987.6384.7375.5280.9368.9980.4580.66表2.对RefCOCO、RefCOCO+和RefCOCOg上我们提出的CMRIN的方差进行消融研究。“viscxt”后面的数字进一步提高了3.61%。它将MAttNet [35]实现的验证集和测试集的平均精度@1分别三个数据集。请注意,我们的CMRIN仅使用来自pool5的2048维特征,但MattNet使用从第三和第四阶段的最后卷积层生成的多尺度特征映射。4.3.2定性评价一些样本的可视化以及它们的注意力分数和匹配分数如图4所示它们是使用基于ResNet-101的 Faster R-CNN功能从我们的CMRIN在没有关系建模的情况下,我们的CM-RIN可以识别出现在给定表达式(第二列)中的建议,并且它基于单个对象(例如,图4(a)中的停车计时器 在融合来自不同模式的信息并在结构化关系图中传播多模态信息之后,即使目标对象在开始时没有吸引最多的注意力,它也能够学习语义上下文并定位目标建议(第三列)。值得注意的是,我们的CMRIN学习了具有不同空间关系(图4(a)中“汽车”和“停车计时器”之间的“右下”;图4(b)中“绿色植物”和“女士的头”之间的“顶部”)的建议对的语义关系(此外,CMRIN通过一起考虑来自多个大象的关系,从“另外两个大象”学习目标“大象”的上下文(图4(d))。此外,通过CMRIN中的传播来学习多阶关系,例如,对象对之间的关系(4.4. 消融研究我们提出的CMRIN包括CMRE和GGCN模块。为了证明每个模块的有效性和必要性,并进一步将每个模块与其变体进行比较,我们使用基于ResNet-101的Faster R-CNN功能为组件训练了五个额外的模型。结果示于表2中。作为基线(第1行),我们使用对象的实例级视觉特征和位置特征的串联作为视觉特征,并使用表达式编码LSTM的最后隐藏状态作为语言特征,然后计算每个视觉特征和语言特征之间的匹配相比之下,依赖于全局视觉上下文的简单变体(行2)已经优于基线,所述全局视觉上下文通过将图形卷积运算应用于空间关系图来计算。这说明了视觉环境的重要性。具有在语言引导的视觉关系图中计算的视觉上下文的另一变体(行3)它通过考虑跨模态信息来捕获上下文。通过将每个单词的上下文融合到语言引导的视觉关系图中,可以通过应用门控图卷积操作来捕获语义上下文(第6行,CMRIN的最终版本)。最后,我们探讨了CMRIN中使用的门控图卷积层的数量。1层CMRIN(第4行)的性能比2层CMRIN差,因为它只捕获具有一阶关系的上下文. 3层CMRIN(第5行)没有进一步提高性能。一个可能的原因是三阶关系只发生在表达式中。5. 结论在本文中,我们提出了一个端到端的跨模态关系推理网络(CMRIN),计算和表示多模态上下文的任务接地在图像中的指涉表达式。它由一个跨模态关系提取器(CMRE)和一个门控图卷积网络(GGCN)组成。CMRE自适应地提取所有需要的信息,用于构造具有跨模态注意力的语言引导的视觉关系图。GGCN融合来自不同模式的信息,并在语言引导的关系图中传播融合的信息在三个常用的基准数据集上的实验结果表明,我们提出的方法优于所有现有的最先进的方法。4154引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。[2] Sean Bell,C Lawrence Zitnick,Kavita Bala,and RossGir- shick.内外网:用跳跃池和递归神经网络检测上下文中 的对 象。 在IEEE计算 机视 觉和模 式识 别会议(CVPR)的论文集中,第2874-2883页,2016年[3] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。IEEE计算机视觉与模式识别会议论文集(CVPR),第3298-3308页。IEEE,2017年。[4] Chaorui Deng,Qi Wu,Qingyao Wu,Fuyuan Hu,FanLyu,and Mingkui Tan.通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第7746-7755页,2018年。[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition(CVPR),第770-778页[6] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[7] Ronghang Hu , Marcus Rohrbach , Jacob Andreas ,Trevor Darrell,and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在IEEE计算机视觉和模式识别会议论文集,第4418-4427页。IEEE,2017年。[8] Ashesh Jain , Amir R Zamir , Silvio Savarese , andAshutosh Saxena.结构-rnn:时空图的深度学习。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第5308-5317页[9] Sahar Kazemzadeh , Vicente Ordonez , Mark Matten ,and Tamara Berg.推荐游戏:在自然景物的照相照片中提到物体的。在Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing(EMNLP),pages 787[10] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年学习表征国际会议[11] Thomas N Kipf和Max Welling图卷积网络的半监督分类。2017年学习表征国际会议[12] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision,123(1):32[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[14] Guanbin Li,Yukang Gan,Hejun Wu,Nong Xiao,andLiang Lin.rgb-d目标检测的跨通道注意情境学习。IEEETransactions on Image Processing,28(4):1591[15] 李冠斌、元燮、梁琳、益州余。实例级显著对象分割。在IEEE计算机视觉和模式识别会议(CVPR)的会议中,第2386-2395页[16] 李冠斌、余益州。基于多尺度深度cnn特征的视觉显著性检测。IEEE图像处理学报,25(11):5012[17] 李冠斌、余益州。用于显著对象检测的对比度导向深度神经网络。IEEE Transactions on Neural Networks andLearning Systems,29(12):6038[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[19] Jingyu Liu,Liang Wang,Ming-Hsuan Yang.引用-环表达式生成和通过属性的理解2017年10月在IEEE计算机视觉国际会议(ICCV)上发表[20] Yong Liu , Ruiping Wang ,Shiguang Shan ,and XilinChen.结构推理网:使用场景级上下文和实例级关系的对象检测。 法律程序中IEEE计算机视觉和模式识别会议(CVPR),第6985-6994页,2018年。[21] 卢策武,兰杰·克里希纳,迈克尔·伯恩斯坦,李菲菲.具有语言先验的视觉关系检测。欧洲计算机视觉会议,第852-869页。施普林格,2016年。[22] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在IEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功