没有合适的资源?快使用搜索试试~ 我知道了~
基于组合模块网络的指称表达式关系建模
1115基于组合模块网络的指称表达式关系建模胡荣航1马库斯·罗尔巴赫1雅各布·安德烈亚斯1特雷弗·达雷尔1凯特·萨恩科21加州大学伯克利分校2波士顿大学{ronhang,rohrbach,jda,trevor}@ eecs.berkeley.edu,saenko@bu.edu摘要人们经常根据实体与其他实体的关系来指代图像中的实体例如,坐在桌子下面的黑猫指的是黑猫实体及其与另一个桌子实体的关系。理解这些关系对于解释和建立这样的自然语言表达是必不可少的大多数先前的工作集中在将整个指称表达式整体地接地到一个区域,或者基于一组固定的类别来本地化关系。在本文中,我们提出了一个模块化的深度架构,能够将引用表达式分析为它们的组成部分,识别输入表达式中提到的实体和关系,并将它们全部置于场景中。我们称这种方法为组合模块化网络(CMN):一个新颖的架构,学习语言分析和视觉推理端到端。我们的方法是建立在两种类型的神经元模块,检查局部区域和区域之间的成对相互作用。我们在多个引用表达式数据集上评估CMN,在所有任务上都优于最先进的方法。1. 介绍在目标检测方面已经取得了很大的进展,定位属于预定义类别集合的视觉实体的任务[8,23,22,6,16]。但是,基于任意自然语言表达的实体本地化这一更普遍和更具挑战性的任务仍然远未解决。这个任务,有时被称为接地或参考表达理解,已经在计算机视觉和自然语言处理的最新工作中进行了探索[19,10,24]。给定图像和涉及视觉实体的自然语言表达,例如穿绿色衬衫和骑黑色自行车的年轻人,这些方法利用边界框来定位与表达所涉及的实体相对应的图像区域指称表达通常描述的关系是-图1.给定一个图像和一个表达式,我们学习将表达式解析为具有注意力的主题qsubj、关系qrel和对象qobj的向量表示,并使用两种类型的模块将这些文本分量与图像区域本地化模块在每个单独的区域上输出分数,而关系模块在区域对上产生分数。这些输出被整合到区域对的最终分数中,产生顶部区域对作为接地结果。(Best以颜色查看)。补间图像中的多个实体在图1中,表述持灰色伞的女人描述了参与与灰色伞实体的持有关系的女人由于图像中有多个女性,因此解决此参照表达需要找到包含人的边界框,并确保此边界框以正确的方式与场景中的其他对象相关。以前的工作接地指称表达要么(1)处理指称表达整体,从而无法建模明确的对应关系之间的文本成分和视觉实体的形象[19,10,24,32,20],否则(2)依赖于一个固定的一组输入图像候选区域...输入表达式那个拿着灰色雨伞的区域对(,)(,)(,)...QsubjQrelQobj输出顶区对主 题关 系对 象 得 分 ( 一 元 )( 成 对 ) ( 一 元 )区域对注意表达式分析主题:拿着一把灰色雨伞的女人举着一把灰色雨伞的女人目标:举着一把灰色雨伞的女人定位模块关系模块定位模块1116实体和关系类别是先验定义的[17]。在本文中,我们提出了一个联合的方法,显式建模的成分语言结构的指称表达和他们的接地,但仍然支持任意语言的解释。我们专注于涉及对象间的关系,可以表示为主体实体,关系和对象实体的引用表达式。我们提出了组合模块化网络(CMNs),这是一种端到端的训练模型,可以联合学习语言表示和图像区域定位,如图1所示。我们的模型通过三个软注意力地图将指称表达区分为主题、关系和对象,并使用模块化神经架构将提取的文本表示与图像区域对齐。在我们的模型中有两种类型的模块,一种用于通过输出该组件的区域上的一元分数来定位特定的文本组件,另一种用于通过输出区域-区域对上的成对分数来确定两对边界框之间的关系。我们在多个数据集上评估了我们的模型,并表明我们的模型优于自然基线和以前的工作。2. 相关工作参照表达式的基础。接地参考表达式的问题可以自然地被公式化为图像区域上的检索问题[19,10,24,7,32,20]。首先,提取一组候选区域(例如,通过对象建议方法,如[28,4,12,35])。接下来,每个候选区域由模型相对于查询表达式进行评分,返回最高评分的候选区域作为基础结果。在[19,10]中,每个区域基于其局部视觉特征和来自整个图像的一些全局上下文特征进行评分。然而,来自整个图像的局部视觉特征和全局上下文通常不足以确定区域是否匹配表情,因为还必须考虑与图像中的其他区域的关系最近的两种方法[32,20]超越了单个区域中的局部视觉特征,并同时考虑多个区域。[32]添加从图像中的其它区域提取的上下文特征,并且[20]提出了一种模型,将引用表达式接地到一对区域中。 所有这些方法都使用递归神经网络整体地表示语言:或者是一般地,通过预测参考表达式的分布[19,10,32,20],或者是区别地,通过将表达式编码为矢量表示[24,7]。这使得难以学习文本表达中的成分与图像中的实体之间的明确对应在这项工作中,我们学习将语言表达解析为文本组件,而不是将其作为一个整体,并将这些组件与图像区域端到端对齐。处理对象间关系。 最近工作由[17]基于RCNN [8]训练检测器,并使用语言学来检测视觉关系。然而,这项工作依赖于固定的,预定义的主题,关系和对象的类别,处理实体像我们的模型不是建立在固定的类清单上,而是处理由任意自然语言短语指定的关系,并联合学习表达式解析和视觉实体本地化。虽然[14]也学习语言解析和感知,但它直接基于逻辑(λ-演算),并需要为每个谓词类训练额外的分类器除了本地化关系表达式,[30]使用递归网络生成图像描述,并关注图像特征网格,[25,31]学习从图像中提取视觉关系知识。具有模块的组合结构。神经模块网络[3]解决视觉问题的答案,通过去-将问题组成文本成分,并基于文本成分从几个网络模块动态地组装用于问题的特定网络体系结构然而,这种方法依赖于外部语言解析器进行文本分析,而不是端到端的学习语言表示,并且不直接适用于将引用表达式接地到边界框中的任务,因为它不显式地输出边界框作为结果。最近,[2]通过学习重新排序来自外部解析器的解析输出来改进[3],但它仍然不是端到端学习的,因为解析器是固定的,并且没有针对任务进行优化。受[3]的启发,我们的模型也使用模块化结构,但从单词中学习端到端的语言表示。3. 我们的模型我们提出了组合模块化网络(CMNs)本地化的查询引用表达式描述的视觉实体。我们的模型是组合的,因为它通过将表达式中的组件接地并利用它们的相互作用来定位指称表达式,符合自然语言的组合性原则-复杂表达式的含义我们的模型适用于检索设置:给定图像I、作为查询的参考表达式Q和一组候选区域边界框对于图像I,B={bi}(例如,通过对象程序执行方法),我们的模型为每个边界输出一个分数-ingboxbi,并返回具有最高分数的边界框作为基础(定位)结果。与最先进的方法[24,7]不同,每个区域边界框bi∈B的分数不仅从bi的局部特征预测,而且还基于图像中的其他区域。在我们的模型中我们集中在可以表示为3分量三元组(主语,1117subj我输出一元分数输出成对得分关系(b)本地化模块(c)关系模块图2.我们的模型的详细说明(a)我们的模型学习将表达式解析为主题,关系和对象,并注意语言表示(第二节)。第3.1节)。(b)定位模块将主体或对象与每个图像区域进行匹配,并返回一元分数(Sec. 3.2)。(c)关系模块将关系与一对区域进行匹配,并返回成对分数(第二节)。3.3)。关系、对象),并学习注意将ex-task解析为这些组件。例如,一个穿着蓝色衬衫的年轻人可以被解析为三元组(一个年轻人,穿着蓝色衬衫)。区域的得分是通过同时查看它是否与主题实体的描述匹配以及它是否与表达式中提到的另一个交互对象实体的关系匹配来确定的。我们的模型通过查看区域对(bi,bj)来处理这种对象间的关系。对于像“the red apple on top of thebookshelf”这样的引用表达式,我们希望找到一个区域对(bi,bj),使得bi匹配主语实体“red apple”,bj匹配宾语实体“bookshelf“,并且(bi,bj)的配置匹配 为了实现这一目标,我们的模型基于组合模块结构,由两个模块组成,组装在管道中用于不同的子任务:一个局部化模块f10c(·,q10c;Θ10c),用于判定区域是否与表达式中的主语或宾语匹配,其中q10 c是主语成分“red apple”或宾语成分“book-shel f“的文本向量表示,以及一个关系模块f re l(·,·,q re l ; θ re l),用于判定一对区域是否与由q re l表示的表达式中描述的关系匹配,文本关系的向量表示“在…之上”。表示qsubj,qrel和qobj在我们的模型中共同学习第3.1条我 们 将 匹 配 输 入 参考表 达 式 Q 的 一 对 图 像 区 域(bi,bj)上的成对分数spair(bi,bj)定义为三个分量的和:spair(bi,bj)=floc(bi,qsubj;Θloc)客体、关系和客体。为了推断,我们定义了对应于主题的bi的边界的最终主题一元分数subj (bi)(例如,“the red apple” in“the red apple on top of the book-ssubj(bi),maxspair(bi,bj)。(二)bj∈B该主题最终被接地(本地化)到得分最高的区域,如b=argmaxb∈B(ssubj(bi)).3.1. 带注意力的表达式解析给定一个指称表达式Q,如the tall woman carrying ared bag,我们如何确定哪些子串对应于主语、关系和宾语,并提 取对应于这三个分量的 三个向 量表 示qsubj、qrel和qobj一种可能的方法是使用外部语言解析器将引用表达式解析为三元组格式(主语、关系、宾语),然后使用编码器(例如,递归神经网络)以提取qsubj、qrel和qobj。然而,由句法分析器产生的语言的形式表示并不总是与直观的视觉表示相对应。举一个简单的例子,the apple on top of the bookshelf被分析为[33]有一个主语短语the apple,一个relationshipon,和一个宾语短语top of the bookshelf,而实际上视觉上突出的对象只是苹果和书架,而top of的完整表达描述了它们之间的关系。+floc(bj,qobj;Θloc)+frel(bi,bj,qrel;Θrel),(一)因此,在这项工作中,我们学习分解输入将表达式Q转换为上述3个分量,并从Q通过a生成向量表示qsubj、qrel和qobj其中,qsubj、qobj和qrel是词序列上的亚软注意机制的向量表示,如图所示。字序列{wt}骑着黑色自行车字嵌入序列{et}连接状态{ht}完全连接层1层2层3 softmax softmaxsoftmax每个单词的三个注意力权重{at,subj},{a t,rel},{a t,obj}subject{at,subj}:the m an riding a black bicycle关系 {at , rel} : the m an riding a black bicycle 对 象{at,obj} : them anridingablackbicycleqsubjqrelqobj(a)语言表示加权平均2-层双向LSTM图像区域B当地地方视觉空间特征特征CNN主语或宾语q锁定语言表示全连接层按元素相乘l2归一化concatenate图像区域B1图像区域B2b1 局 部空间特征b2 局 部空间特征concatenate关系qrel语言表示全连接层按元素相乘l2归一化全连接层全连接层1118t=1t=1不不不βrel不不不不在图2(a)中。 对于一个引用表达式Q,它是一个语言表示。 在我们的实现中,xv,s首先是T字序列{wt}T,我们首先嵌入每个单词嵌入到具有相同维度的新矢量x∈v,s使用GloV e[21]将wt转换为向量et,然后通过线性变换扫描为qloc(其为qsubj或qobj)词嵌入序列{et}T一个2层的双-形式,然后逐元素乘以qloc以获得定向LSTM网络[26]。第一层是-放置序列{et}并输出前向隐藏状态h(1,fw)和后向隐藏状态h(1,bw向量zloc,其被L2归一化为zloc以获得更强大的代表性,如下所示:t t(一)xxv,s =Wv,sxv,s+bv,s(6)这些步骤被连接成ht. 第二层然后将第一层z位置=xv,sqloc(7)并在每个时间步输出前向和后向隐藏状态h(2,fw)和h(2,bw)。第一层和第二层中的所有隐藏状态都被串联成一个单独的zloc=zloc/zloc2(8)其中,乘法是两个向量之间的逐元素乘法。然后,根据z=lo c线性预测得分sloc,向量ht=(1,fw)不(1,体重)不(2,fw)不(2,体重)不s=wTz+B.(九)级联状态ht包含来自locloc locloc单词wt本身以及来自w t之前和之后的 单 词 的 上 下 文。然后,通过对ht的三个线性预测,然后是softmax,获得每个词wt上的主体、关系、客体的注意力权重at ,subj,at,rel和at,obj,如下所示:Θloc中的参数是(Wv,s,bv,s,wloc,bloc)。3.3.关系模块如图2(c)所示,关系模块frel.at,subj= expTΣsubjhtΣT/τ=1.expΣsubjhτ(三)输出表示一对区域边界框(b1,b2)与表达式中的关系表示q rel匹配的可能性的分数s re el = fr el(b1,b2,qreel;Θreel)。at,rel= exp .你好Σrelht/exprelhτ(四)在我们的实现中,我们使用空间特征xs1在同一时间内提取的两个区域b1和b2的xs 1和xs.at,obj= expTΣobjhtτ=1ΣT/τ=1.expΣ目标hτ(五)与本地化模块一样(我们根据经验发现,添加B1和B2的视觉特征不会导致明显的性能提升,同时会显着减慢训练)。然后xs1和xs2连接为xs1,s2=[xs1xs2],而主语qsubj、关系qrel和宾语qobj的语言表征是加权的,然后以类似于定位模式的方式进行处理,规则得到srel,如下所示:具有注意力权重的词嵌入向量{et}的年龄x~=Wx+b(十)为q=Tae和q=Tae和s1,s2s1,s2s1,s2s1,s2主题t=1t,subjtrelt=1t,reltz=xq(十一)qobj=好的,目标。rels1,s2relt=1zrel=zre l/zre l2(12)3.2.定位模块srel=wTzrel+bre l.(十三)如图2(b)所示,定位模块floc输出表示ho w的分数sloc=floc(b,qloc;Θloc)参数θrel (W)s1,s2,bs1,s2,wrel,brel)。区域边界框B可能匹配QLOC,QLOC是主体的外部矢量qsubj或客体的外部矢量qobj。该模块获取图像区域b的局部视觉特征xvis和空间特征xspatial。我们使用卷积神经网络[ 27 ]从图像区域b提取视觉特征x v,并使用相同的卷积神经网络[27]从b提取5维空间特征xs=[xmin,ymin,xmax,ymax,Sb]。HHHHβββββ.11193.4.端到端学习在训练过程中,对于图像I、参考表达式Q和从I提取的候选区域集合B,如果主体实体的地面真实区域bsubjgt和对象实体的地面真实区域bobjgt都可用,则我们可以优化等式n中的成对得分spair1、强监管我爱你HI SI使用softmax lossLossstrong。如[19]中的表示,其中[xmin,ymin,xmax,ymax]和Sb是边界框坐标和b的面积,WI,HI和SI是图像I的宽度、高度和面积。然后,xv和xs被级联成向量xv,s=[xvxs],损失强=− log.Σexp(spair(bsubjgt,bobjgt))Σ(bi,bj)∈B×Be×p(spair(bi,bj))区域B的代表性。由于元素乘法被证明是一种强大的方法来组合来自不同模态的表示[5],因此我们在这里采用它来获得联合视觉和语言。(十四)然而,通常很难获得主体实体和对象实体的对于像“桌子上的一个红色花瓶”这样的指称性表达1120subj方法精度基线(锁定模块)46.27%我们的完整模型百分之九十九点九九表1. 我们的模型的准确性和合成形状数据集的基线。参见第4.1详情表达式=4.1. 对合成数据集的分析受[3]的启发,我们首先在合成形状数据集上执行模拟实验。 该数据集由30000幅图像组成,这些图像在5× 5的网格上具有不同大小和颜色的简单圆形、正方形和三角形, 和使用模板基线-slocsubjsobj(a)图3. 对于(a)中的图像和表达式“红色圆圈右侧的绿色正方形”,(b)仅使用定位模块在5×5网格上的每个位置上的基线得分(越深越高),以及(c,d)使用我们的完整模型得分ssubj和sobj。ssubj在红色圆圈右边的绿色正方形上最高,而sobj在这个红色圆圈上最高对于表达式中的主体(vase),有一个真实边界框注释b1,但是对于对象(table),没有边界框注释b2,因此不能直接优化成对得分spair(b1,b2)。 为了解决这个问题,我们将对象区域b2视为潜在变量,并优化等式11中的一元分数ssubj( b1 )。二、由于ssubj(b1)是ob-通过在spair(b1,b2)中的所有可能区域b2∈B上最大化得到,这可以被称为类似于[20]的弱监督多实例学习(MIL)方法可 以 使 用 softmax lossLossweak 在 弱 监 督 下优 化 一 元 分 数ssubj。.Σexp(ssubj(bsubjgt))形 式 为 [subj][relationship][obj] , 其 中[subj] 和 [obj] 涉 及 形 状 类 和 属 性 ,[relationship]是一些空间关系,如我们的任务是把正确的地方化-由5乘5网格上的表达式描述的响应形状区域。图3(a)显示了该数据集中的一个示例,其中包含合成表达式“红色圆圈右侧的绿色正方形”。在合成过程中,我们要确保所指的形状区域不能简单地从[subj]中推断出来,因为会有多个匹配区域,并且必须考虑与[obj]描述的另一个区域的关系。在这个数据集上,我们用弱超-视觉Eqn 使用表达式中描述的对象形状的地面实况对象区域b_u_b_j_g_t,这里,候选区域集B是5 × 5网格上的25个可能位置,视觉特征是使用在ImageNet分类上预训练的VGG- 16网络从相应的裁剪图像区域作为比较,我们还仅使用本地化模块训练基线模型,其输出sloc在Eqn中具有softmax损失。9,以及通过使用单个LSTM网络扫描单词嵌入序列并在最后一个时间步获取隐藏状态而获得的语言表示qloc ,与[24,9]中相同。此基线方法类似于弱损失=−logΣbi∈B 经验 subj(b一))(十五)GroundeR [24],该基线与我们的模型之间的主要区别在于,基线仅查看区域整个系统都是端到端训练的,gation中的参数,以及定位模块、关系模块、语言表示和视觉特征提取(卷积神经网络)中的参数。我们的模型是使用TensorFlow [1]实现的,我们的代码可以在http://ronghanghu.com/cmn上找到。4. 实验我们首先在合成数据集上评估我们的模型,以验证其处理引用表达式中对象间关系的能力。接下来,我们将我们的方法应用于Visual Genome数据集[13]和Google-Ref数据集[19]中的真实图像和表达式。由于在视觉问答中回答指向问题的任务类似于接地参考表达,因此我们还在Visual-7 W数据集中评估了我们的模型。与其他地区的关系。我们评估预测的主题区域b_i是否与地面实况区域b_u_b_j_g_t匹配的准确性。表1显示了该数据集的结果,其中我们的模型在弱监督下训练(与基线的监督相同)达到了近乎完美的准确性-仅使用本地化模块显着优于基线图3显示了一个例子,其中基线可以定位绿色正方形,但无法区分红色圆圈右侧的确切绿色正方形,而我们的模型可以快速找到主体-对象对,尽管它在训练期间从未见过对象实体的地面实况位置。4.2. 视觉基因组我们还在Visual Genome数据集[13]上评估了我们的方法,该数据集包含对对象进行注释的关系表达式,例如1121表达式=表2. 我们的模型在Visual Genome数据集中的关系表达式上的性能。参见第4.2详情“穿衬衫的人在VisualGenome中的关系注释上,给定一个图像和一个像“戴帽子的人”这样的表达式,我们在两个测试场景中评估我们的方法:检索主题区域(“man”)并检索主题-对象对(“man”和“hat”)。在我们的实验中,我们在训练和测试时将每个图像中所有注释实体的边界框(每个图像约35个)作为候选区域集B,并从Faster-RCNN VGG-16网络的fc 7输出[23] 在MSCOCO检测数据集上进行预训练[15]。我们使用与[11]中相同的训练,验证和测试分割。由于该数据集中的主题区域和对象区域都有地面实况注释,因此我们使用两种训练监督设置进行实验:(1)通过仅在训练时间提供主体实体的地面实况区域(表2中的主体-GT)并利用等式(1)优化一元主体得分subj的弱监督。(2)通过在训练时间提供主体和对象实体两者的地面实况区域对(表2中的主体-对象-GT)并利用等式15优化成对得分s对来加强监督。十四岁类似于第二节中对合成数据集的实验4.1中,我们还训练了一个基线模型,该模型只关注局部外观和空间属性,但忽略了成对关系。对于检索主题区域的第一个评估场景,我们使用定位模块训练基线模型,仅通过针对具有softmax损失的地面真实主题区域优化其输出sloc(与主题GT相同的训练超视 对于检索主题-对象对的第二种情况,我们分别训练用主题地面实况和对象地面实况优化的两个这样的基线模型,以分别用每个模型定位主题区域和对象区域,并且在测试时将来自每个模型的预测主题区域和预测对象区域组合为主题-对象对(与主题-对象对相同的训练监督)。对象-GT)。我们使用top-1精度(P@1)进行评估,这是每个图像中最高评分预测与地面实况匹配的测试实例的百分比(在第一种情况下,预测的主题区域与主题地面实况匹配的P@1-subj,以及在第二种情况下,预测的主题和对象区域都与地面实况匹配的结果总结在表2中,从中可以看出,我们的完整模型优于基线expression=表达式=表达式=(a) 地面实况(b)我们的预测(c)注意力权重图4。可视化Visual Genome数据集中的接地关系表达式(a,b)分别是地面实况区域对和我们的预测区域对(红色实心框中的主体和绿色虚线框中的对象)。(c)在Eqn中的注意力权重3在两个评估场景中仅使用本地化模块。请注意,在检索主题-对象对的第二个评估场景中,我们的弱监督模型仍然优于用强监督训练的基线。图4显示了我们的模型的一些示例,这些模型在Eqn中使用弱监督(subject-GT)和注意力权重进行训练。3可以看出,即使在弱监督的情况下,我们的模型仍然为主题,关系和对象的单词生成合理的注意力权重。4.3. 图像中的接地指涉表达式我们将我们的模型应用于Google-Ref数据集[19],这是一个用于接地引用表达式的基准数据集。由于该数据集没有显式地包含用于引用表达式的主体-客体对注释,因此我们用弱监督训练我们的模型(等式10)。15)通过使用Eexpression-Level-region地面实况来优化主题得分 Ssubj训练和测试时的候选边界框集B都在Sec。4.2,MSCOCO预训练Faster-RCNN VGG-16网络的fc 7输出用于视觉特征提取。类似于Sec。4.1,我们还训练了一个地面-方法培训监管P@1-subjP@1对基线主题-GT41.20%-基线主-客体-GT-百分之二十三点三七我们的完整模型主题-GT43.81%26.56%1122方法精度Zhu等[34个]56.10%基线(锁定模块)71.61%我们的模型(w/外部解析器)61.66%我们的完整模型72.53%表3. 我们的模型和以前的方法在Google-Ref数据集上的前1精度。参见第4.3详情比如[24]带有本地化模块的基线模型,它只关注区域此外,而不是学习语言分析端到端的第二节。3.1,我们还尝试使用Stanford Parser解析表达式[33,18]。根据选区树,表达式被解析为主题,关系和对象成分,并且使用三个单独的LSTM编码器将成分编码为向量qsubj,qrel和qobj,类似于基线和[24]。在[19]之后,我们使用top-1精度(P@1)度量对该数据集进行评估,该度量是与表达式的地面实况匹配的最高得分主题区域的分数。表3显示了我们的模型,基线模型和以前的工作的性能。请注意,所有方法都是使用相同的弱监督(只有一个地面实况主题区域)进行训练的。可以看出,通过整合对象间关系,我们的完整模型仅使用本地化模块就比基线表现得更好,并且比以前最先进的方法工作得更好。此外,取代学习表达式解析和语言表示在第二节。3.1使用外部解析器(我们发现,这主要是因为现有的解析器没有专门针对引用表达式任务进行调整,如第2节所述3.1,像chair on the left of the table这样的表达式被解析为(chair,on,the left of the table),而不是想要的三元组(chair,on the left of,the table)。在我们的完整模型中,语言表示与其他部分进行了端到端优化,而很难联合优化外部语言解析器,如[33]这一任务。图5显示了该数据集的一些示例结果。可以看出,虽然监督较弱,但我们的模型不仅正确地将主题区域接地(实线框),而且还为对象实体找到合理的区域(虚线框)。4.4. 在Visual 7W最后,我们评估我们的方法对多项选择题(即。表4. 我们的模型和以前的方法在Visual-7 W数据集中的指向问题上的准确性。参见第4.4细节几个选择区域(本数据集中有4个选择)作为答案。由于这项任务与接地参考实验密切相关4.3使用受试者分数S S U B J对每个选择区域进行评分,并挑选得分最高的选择作为答案R。和以前一样,我们通过Eqn训练我们的模型,15并使用MSCOCO预训练的Faster-RCNN VGG-16网络进行视觉特征提取。在这里,我们使用主题区域(选择)和对象区域的两个不同的候选边界框集Bsubj和Bobj,其中Bsubj是4个选择边界框,Bobj是使用Faster-RCNN中的RPN提取的300个提议边界框的集合[23]。类似于Sec。4.3,我们还训练了一个基线模型,仅使用本地化模块,仅根据其本地外观和空间属性对每个选择进行评分,以及一个截断模型,使用Stan-ford解析器[33,18]进行表达式解析和语言表示。结果示于表4中。可以看出,我们的完整模型优于基线和带有外部解析器的截断模型,并且比以前的工作实现了更高的准确性[34]。图6显示了这个数据集上的一些问题回答示例。5. 结论我们提出了组合模块化网络,这是一种新的端到端可训练模型,用于处理引用表达式中的关系。我们的模型学习用软注意力来解析输入表达式,并结合了两种类型的模块,分别考虑区域的局部特征和区域之间的成对交互。该模型仅在弱监督下就能对指称表达进行直观的语言和视觉分析确认这项工作得到了DARPA,AFRL,DoD MURI奖N000141110688,NSF奖IIS-1427425的支持,IIS-1212798和IIS-1212928,NGA和Berkeley Ar-在Visual-7 W数据集上回答问题[34]。给定一幅图像和一个问题,比如人工智能研究实验室(BAIR)Jacob Andreas得到了Facebook研究生奖学金和华为的支持。/ Berkeley AI fellowship.方法P@1Mao等人[19个]百分之六十点七Yu等人[32个]64.0%Nagaraja等人[20个]百分之六十八点四1123地面实况我们的预测地面实况我们的预测地面实况我们的预测一只熊躺在另一只正确“戴墨镜的男人走向两个说话的正确表达式=正确“穿奶油色婚纱的正确一个男人走在一个拿着手机的正确pizza slice =不正确表达式=正确英文名:不正确表达式=正确图5.Google-Ref数据集中引用表达式的示例左列显示地面实况区域,右列显示地面实况区域。列在实线框中显示了固定主题区域(我们的预测),在虚线框中显示了固定对象区域。如果预测的主题区域与地面实况区域匹配,则预测被标记为正确的。地面实况我们的预测地面实况我们的预测地面实况我们的预测问题:“男人手里拿的是哪个酒杯?”正确问题:“谁戴了头盔?”正确question=“哪一个鼠标在电脑的垫子上?“正确问题:“哪个头是成年长颈鹿的头?”“正确问题:哪条裤子是最靠近火车的人的?正确问题:“床上最左边的是哪个白色枕头?”正确问题:“白色的大标牌上是哪个红色的形状?”正确问题=“哪一个不是一对活着的狗?“不正确问题:“从伞下可以看到哪只手?”正确图6. Visual-7 W数据集中的示例指向问题。左列显示了4个多项选择(黄色的真实答案),右列显示了实心框中的基础主题区域(预测答案)和虚线框中的基础对象区域如果预测的主题区域与地面实况区域匹配,则预测被标记为正确的。1124引用[1] M. Abadi、A.Agarwal,P.Barham,E.Brevdo,Z.陈先生,C. 西特罗湾S. Corrado,A.Davis,J.Dean,M.Devin,S.盖-马瓦特岛。Goodfellow,A.Harp,G.Irving,M.Isard,Y.贾,R. 约瑟夫·奥维茨湖Kaiser,M.Kudlur,J.L evenber g,D.妈妈,R. Monga、S.穆尔,D.默里角奥拉山舒斯特J. Shlens,B.施泰纳岛Sutskever,K. Talwar,P. Tucker,V. Vanhouc k e,V. Vasud ev an,F. Viegas,O. Vi nyals,P. 等等,M。Wattenberg,M.Wicke,Y.Yu和X.郑张量-流量:异构系统上的大规模机器学习。arXiv:1603.04467,2016。5[2] J. Andreas,M.Rohrbach,T.Darrell和D.克莱恩学习构建神经网络进行问答。在计算语言学协会(NAACL)北美分会会议上,2016年。2[3] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩神经模块网 络。 IEEE计算 机视 觉和模 式识 别会议 论文 集(CVPR),2016。二、五[4] P. Arbel a'ez,J. Pont-T uset,J. Barron,F. Marques和J.马力。多尺度组合分组在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2014年。2[5] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。国际学习表征会议(ICLR),2015年。4[6] J.戴,Y. Li,K. He和J. Sun. R-fcn:通过基于区域的全卷 积 网 络 的 目 标 检 测 。 神 经 信 息 处 理 系 统 进 展(NIPS),2016年。1[7] A. 福 井 D. H. 帕 克 D 。 Yang , 杨 树 A. Rohrbach , T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。在自然语言处理经验方法会议上,2016年。2[8] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2014年。一、二[9] R. Hu,M.Rohrbach和T.达雷尔。从自然语言表达中分割欧洲计算机视觉会议(ECCV),2016年。5[10] R. Hu,H.Xu,M.Rohrbach,J.Feng,K.Saenko和T.达雷尔。自然语言对象检索。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2016年。一、二[11] J. Johnson,A. Karpathy和L.飞飞Densecap:用于密集字幕的全卷积定位网络。IEEE计算机视觉和模式识别会议论文集(CVPR),2016。6[12] P. Kr aühenbuühl和V. 科尔顿测地线对象建议。在欧洲计算机视觉会议(ECCV)的会议记录中,2014年。2[13]R. Krishna,Y.Zhu,O.Groth,J.约翰逊,K。Hata,J.克拉维茨S. Chen,Y. 卡兰蒂迪斯湖J. Li,D. A. Shamma等人可视化基因组:使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv:1602.07332,2016。5[14] J. Krishnamurthy和T.科勒共同学习解析和感知:将自然语 言 与 物 理 世 界 联 系 起 来 。 Transactions of theAssociation for Computational Linguistics,1:193-206,2013. 2[15] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象欧洲计算机视觉会议(ECCV),2014年。6[16] W. Liu,L.安格洛夫,D。埃尔汉角Szegedy和S.里德Ssd : 单 发 多 盒 探 测 器 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2016年。1[17] C.卢河,巴西-地克里希纳,M。Bernstein和L.飞飞视觉关 系 检 测 与 语 言 先 验 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2016年。2[18] C. D. Manning,M. Surdeanu,J. Bauer,J. Finkel,S.Bethard和D.麦克洛斯基斯坦福CoreNLP自然语言处理工具包。计算语言学协会(ACL)系统演示,第55- 60页,2014年7[19] J. Mao,J. Huang,A.托舍夫岛Camburu,A.尤尔,还有K. 墨菲无歧义对象描述的生成和理解IEEE计算机视觉和模式识别会议论文集(CVPR),2016。一、二、四、五、六、七[20] 诉K. 纳加拉贾河谷I. Morariu和L.S. 戴维斯对象间的上下文建模,用于引用表达式理解. 欧洲计算机视觉会议,2016年。一、二、五、七[21] J. 彭宁顿河Socher和C。D. 曼宁Glove:单词表示的全局向量。在自然语言处理经验方法会议(EMNLP)上,2014年。4[22] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A.法哈迪。你只看一次:统一的实时物体检测。在IEEE计算机视觉和模式识别会议(CVPR)上,2015年。1[23] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-time object detection with region proposal networks.神经信息处理系统进展(NIPS),2015。一、六、七[24] A. 罗尔巴赫 M. 罗尔巴赫 R. 胡 T. Darrell和B.席勒通过重构实现文本短语在图像中的扎根。欧洲计算机视觉会议,2016年。一、二、五、七[25] F. Sadeghi,S. K. Kumar Divvala和A.法哈迪。Viske:通过关系短语的视觉验证进行视觉知识提取和问题回答。在IEEE计算机视觉和模式识别会议,2015年。2[26] M. Schuster和K. K.帕利瓦双向递归神经网络。IEEETransactions on Signal Processing
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功