语言驱动的动态视觉推理：图像中复杂指称表达的参照

156 浏览量更新于2023-10-12 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4644输入英文名：TheUmbrellaHolded由戴粉红色帽子的人静态注意力粉色帽人初始对象伞结构T=0戴粉红色帽子的T=1由T=2的人持有伞动态引注识别复合对象粉色帽子在戴粉红色帽子的人持有戴粉红色帽子的人拿着的雨伞参照表达式理解杨思蓓1李冠斌2李易洲余1，31香港大学2中山大学3Deepwise AI Labsbyang9@hku.hk，liguanbin@mail.sysu.edu.cn，网址：www.example.com，yizhouy@acm.org摘要指称表达理解的目的是在图像中定位自然语言指称表达所描述的对象实例。这个任务是合成的，本质上需要在图像中对象之间的关系之上进行视觉推理。同时，视觉推理过程受指称表达的语言结构的指导。然而，现有的方法孤立地对待对象，或者只探索对象之间的一阶关系，而不与表达式的潜在复杂性对齐。因此，他们很难适应复杂指称表达的基础。本文从语言驱动的视觉推理的角度探讨了表情理解的参照问题，提出了一种动态图注意网络，通过对图像中对象之间的关系和表情的语言结构进行建模来实现多步推理特别地，我们构造了一个图，图中的节点和边分别对应于对象及其关系，提出了一个差分分析器来预测语言引导的视觉推理过程，并在图的顶部执行逐步推理，以更新每个节点上的复合对象表示。实验结果表明，该方法不仅在三种常见的基准数据集上显著优于现有的所有最先进的算法，而且能够生成可解释的视觉证据，用于逐步定位复杂语言描述中的对象1. 介绍图1.基于动态图注意网络的复合物体识别视觉推理。给定一个表达式和图像，静态注意模块构造多模态关系图;语言结构分析器基于表达式规定视觉推理过程;动态图形注意模块通过遵循规定的视觉推理过程在图形之上执行视觉推理，以逐步识别复合对象。因此，理解需要根据给定的指称表达在图像中定位对象实例。实现人机交互是人工智能领域的核心任务之一。指称表达理解的核心在于对共现语言和视觉内容的高层语义的联合理解例如，指称表达“the umbrella heldby the person in the pink hat”的基础需要三步推理（如图1所示），首先在短语“the pink hat”的引导下定位图像中的粉红色帽子，接着识别“在粉红色帽子中”的人，最后定位“由”在粉红色帽子中”的人“持有”的伞。然而，几乎所有现有的指称表达式压缩方法都没有引入推理或只支持单次推理。指称表达是对图像中特定对象指称词语通讯作者是李冠斌。本工作得到了香港博士研究生奖学金、国家重点发展计划（项目编号：2016YFB1001004）、国家自然科学基金（项目编号：61976250）和中央高校基础研究基金（项目编号：18lgpy63）的部分支持。步推理。同时，用这些方法训练的模型具有较差的可解释性。其中，最经典的工作[13，16，21，25]使用LSTM模型[5]对表达式进行编码，使用CNN [24，20]提取图像中视觉对象的特征，并采用匹配损失函数来学习表达式和视觉对象的公共特征空间。也有工作4645[31，19，26，28]，其涉及额外的成对上下文特征或多阶上下文特征以改善对图像的理解。然而，他们通常把学习过程看作是一个没有明确推理的黑盒子，当给出复杂的指称表达式时，学习到的单体特征没有足够的竞争力。最近，单步推理[7，30]已经被提出，通过将表达式分解为不同的组件，并通过模块化网络将每个组件与相应的视觉区域进行匹配。[33]中的方法是唯一一个利用多步推理来理解引用表达式的方法。它的逐步推理是使用LSTM模型实现的，该模型递归地生成关注的视觉特征，同时将单词嵌入和关注的视觉特征的组合反馈给LSTM。然而，它的逐步推理没有考虑到表达的语言结构，也没有探索图像中对象之间的关系。为了克服上述困难，我们提出了一个动态图注意力网络（DGA），以实现高层次的理解的表情和图像，并使多步推理的表情和图像之间的相互作用。DGA的核心思想来自三个方面，包括基于语言结构的表达式分解、对象关系建模和从关系中识别复合对象的多步推理。首先，解析表达式的语言结构是至关重要的，因为它直接提供了寻找所指对象的视觉推理步骤。然而，由于指称表达的复杂性和灵活性，很难准确地获得指称表达的语言结构因此，我们求助于差分分析器模块来逐步预测输入表达式的组成表达式以捕获语言结构，并且输入表达式被表示为组成表达式的序列。其次，有必要考虑图像中对象之间的关系，因为无歧义指称通常不仅描述指称对象本身的属性，而且还描述其与图像中其他对象的关系[31，7，28]。因此，所提出的DGA在图像中的对象上构造有向图。图的节点和边分别对应于对象和对象之间的关系。最后但并非最不重要的是，DGA在组成表达式的指导下以逐步的方式对图执行推理，以捕获对象之间的高阶关系，并通过图传播更新对应于每个节点的复合对象综上所述，本文有以下贡献：• 这是第一个从语言驱动的视觉推理的角度来探讨现实世界中指称表达式理解问题的工作图像和表情。提出了一种差分分析器来预测多步语言引导的视觉推理过程。• 提出了一种动态图注意力网络，在多步视觉推理的基础上，模态关系图，并通过遵循预测推理过程来识别复合对象，该预测推理过程被指定为组成表达式的序列。• 实验结果表明，该方法不仅可以显著优于现有的所有状态，最先进的算法，而且还生成可可视化和可解释的结果，显示用于逐步定位复杂语言描述中提到的对象的视觉证据。2. 相关工作2.1. 指称表达理解参照表达式理解是在给定输入表达式的情况下在图像中定位对象。为了解决这种语言视觉多模态的挑战，有必要了解这两种模态之间的相关性。一些以前的工作[16，21，25]独立地对两个模态中的输入进行编码，并为它们学习一个共同的特征空间。为了学习公共特征空间，他们提出了不同的匹配损失函数来优化，例如，softmax损失[16，21]和三重损失[25]。另一项工作[18，31，19]学习最大化给定所指对象和图像的表达的可能性，并且该工作输入视觉对象特征，视觉上下文特征（例如，整个图像CNN特征[18]，图像中属于同一类别的对象之间的视觉差异[31]和上下文区域CNN特征[19]），对象位置特征和嵌入到LSTM的单词以参数化分布。与以前的工作不同，最近的工作[33，4]采用共同注意机制来建立表情与图像中对象之间的相互作用。这些方法忽视了意象中的对象与表达中的语言结构之间的关系，而这正是指称表达的关键。对于图像，它们将图像表示为一组独立的视觉对象[16，21，25，13，18]或仅包括直接关系的复合对象[19，31]。对于表达式，它们按顺序对表达式进行编码，并忽略表达式中的依赖关系。为了提高理解能力，一些工作[7，30]设计了固定的模板，通过自我注意将表达柔和地分解为不同的语义成分，并计算每对成分和视觉区域的语言-视觉匹配得分。然而，当前的工作不适用于不符合固定模板的表达式。此外，他们忽视了4646图2.用于指代表达理解的动态图形注意力网络（DGA）的整体架构。首先，DGA在图像中的对象上构建图，其中节点和边分别对应于对象和关系，然后将表达式的语言表示融合到图中;其次，分析者通过探索表达式的语言结构来学习推理的语言指导。接下来，DGA在预测的视觉推理过程的指导下，在图的顶部执行逐步动态推理，该视觉推理过程是一系列组成表达式。在每个步骤中，DGA通过关注节点和边上的组成表达式来突出显示图中的节点和边，并且通过考虑突出显示的节点与由突出显示的边连接的复合对象的关系来识别用于突出显示的节点的复合对象最后，DGA计算复合对象和引用表达式之间的匹配分数。更好的颜色视图，不同的颜色代表不同的步骤。视觉对象。最近，[14]探讨了合成域中指称表达理解的视觉推理。与他们不同的是，我们专注于真实世界的图像和表达式，但不求助于语言解析（语言程序[14]）的指导。为了克服上述限制，我们提出了一种方法来学习编码表达式和图像中的依赖关系，并建立它们之间的交互。我们考虑语言结构来理解表达，并在视觉对象上构建一个图来建模图像。然后，他们的互动是通过注意机制建立起来的。2.2. 可解释推理视觉推理在人工智能的发展中起着至关重要的作用，因此受到了广泛的关注。为了完成可视化推理任务，模型需要学习推理能力，提高对决策规则的解释能力。有一些现有的方法来实现这些要求。对于一步关系推理，关系网络[22]直接建模对象对于单步或多步推理，一些工作[29，27，15，8]通过使用注意力机制为每个步骤在图像上生成更新的注意力分布来解释推理步骤另一个工作[1，9，6，3]将推理过程分解为一系列子任务，并学习不同的模块网络来处理每个子任务。也有一些指称表达式理解方法试图引入可解释推理。模块化网络用于提高模型在指称表达式压缩方面的可解释性。hension [7，30]。[7]将表达分解为主体-关系-客体三元组，并使用定位模块或关系模块将文本表示与图像区域对齐;然而，指称表达具有比这种固定的主体-关系-客体模板丰富得多的形式MattNet [30]将表达式分解为三个短语，分别对应于主语、位置和关系模块;然而，它不能处理多步推理。另一项工作[33]使推理成为一个逐步的注意过程，跟随着表达的逐步表征;然而，它将表达视为单词序列，忽略了表达的语言结构。与现有的指称表达式理解工作不同，我们采用了一个差分分析器模块，动态地将表达式分解成其组成表达式一步一步地保持其语言结构，并实现多步和动态推理。3. 动态图形注意力网络我们介绍了一种网络，动态图 Atten- tion 网络（DGA），解决可解释性和多步推理的参考表达式理解。我们的方法进行推理，通过识别一个序列的复合对象对应的部分引用的ex-anxiety。我们的模型由四个主要模块组成：（1）语言驱动的差分分析器（如图2中绿色虚线框内所示），预测引用表达式的视觉推理过程，并将表达式分解为一系列组成表达式，每个表达式都指定为表达式中单词的软分布。(2)一个静态图注意模式-4647LLRy =rh。（3）lt=1l=1l=1l=1k=1k=1i，j=1L规则（在图2中的蓝色虚线框内示出），其在图像中的视觉对象上构造有向图，并且在表达式的指导下进一步构造多模态图。(3)动态图形注意模块（如图2中橙色虚线框内所示），可在多模态图上进行推理，并识别与组成表达式对应的复合对象在每个推理步骤中，当前组成表达式参与图中的节点和边，并且向上-其中W（t）和b（t）是时间步t处的可训练参数;y（t-1）是前一时间步t-1处的输出;u（t）包括前一时间步处的信息和表达式的全部信息，并且可训练参数y（0）在训练开始时随机初始化然后，DAG计算u（t）和u（t）之间的相似性，编码的单词H来预测在当前时间步期间每个单词在视觉推理软在时间步t处的词上的分布，R（t）={r（t）}L，确定视觉对象的表情相关特征的日期。(4)一个匹配模块，用于计算表达式与每个复合对象之间的匹配分数。拟议DGA的总体框架如图2所示。在本节的其余部分，我们将详细说明L计算如下：s（t）=relu（Wu u（t）+bu），a（t）=Ws2[tanh（Ws0s（t）+Ws1hl）]，l=1（二）这个网络r（t）=0exp（a（t））、3.1. 语言引导的视觉推理过程Ll=1 exp（a（t））指称表达是复杂的，包含了丰富的依赖关系和嵌套的语言结构，这进一步指导了视觉推理过程。理论上，自然语言解析器可以解析表达式中单词之间的语法关系，但由于高度不受限制的语言，现有的语言解析器对于引用表达式理解并不实用每个复杂表达式都由其组成表达式和用于组合它们的规则定义。我们把一个表达式建模为一个自-其中Wu、bu、Ws0、Ws1和Ws2是可训练参数。它们在不同的时间步长中共享最后，在时间步t的输出y（t）定义如下：L（t）（t）Ll=1y（t）是下一个时间步长t+1处的输入的一部分。一旦我们运行了这种语言引导的视觉推理过程的T步骤，软分布的序列，一系列的成分表达式，每个成分表达式，词，{R（t）}T，可以获得。软组分中的单词上的软分布表达式.给定具有L个词的表达式Q={ql}L，DGA网络预测组成表达式（即，一个由词R（t）上的软分布组成的元组=表达式（R（t），Q）提供了识别时间步长t的复合对象的指导。3.2. 静态图形注意DGA首先构造一个有向图GI，{r（t）}L和Q）对应于复合对象图像中的视觉对象图中的节点为-l l=1在每个推理步骤t.DGA分配的cess类似于[8]中的控制单元。 DGA首先学习单词的嵌入对视觉对象做出反应，边缘对应于物体之间的关系。接下来，DGA将表达式中的单词F ={fl}L，然后对字图GI，它建立表达式之间的连接，嵌入到向量序列H={hl}L使用然后建立一个多模态图双向LSTM [2]，其中hl是级联前向和后向LSTM在第l个字的输出同时，整个表达式用特征向量q表示，该特征向量q是前向和后向LSTM的最后隐藏状态接下来，DGA循环运行T个时间步，其中T是推理步骤的数量。在每个时间步t期间，DGA通过学习的线性变换将特征向量q变换为时间步相关向量q（t），并且将向量q（t）与来自DGA的输出连接GM。GI对图像中对象之间的依赖关系进行建模，而GM通过表示表情与图像之间的交互来增强GI3.2.1图构建给定具有K个对象提议O={ok}K（边界框）的图像I，DGA构建有向图GI=（V，E，XI），其中V={vk}K是节点的集合，并且vk对应于对象ok;E={eij}K是边的集合，并且eij对应于oi（t−1）（吨）和O j;X I={xI}K是一组特征，xI是前一时间步长y形成一个新的向量u、k k=1kOOk的视觉特征Xk和Ok的空间特征Xk特征pk（xI=[xo;pk]）。特别是xo被提取出来q（t）=W（t）q+b（t），u（t）=[q（t）;y（t−1）];（一）k k k从预训练的CNN模型[24，20]和空间特征pk定义为pk =Wp[x0k，x1k，wk，hk，wk hk]，其中L4648L45KKl=1t=1k=1exp（ak，l）KKkk=1（x0k，x1k）是对象ok的中心的归一化坐标，wk和hk是归一化的宽度和高度，Wp是可训练参数。vk.因此，通过聚集所有注意力加权的单词特征向量来计算节点v，k处的语言表示c，k，与[28]类似，我们根据它们的大小和位置探索每对对象提案之间的关系对于任意一对对象oi和oj，定义边eijck=αl=1k，lfl.（六）如下我们计算相对距离d ij，相对角度θij∈[0，360）（即，水平轴和向量（x0i−x0j，x1i−x1j））之间的角度，以及它们之间的交集mij如果oi包含oj ，则eij=1，表示同样地我们计算一个标准化分布的在图GI的边上的单词。每条边具有其自己关系类型（即，1、…11），并且边的权重被公式化为边表示mij大于0.5，eij=3，表示βl=z1lsoftmax（Wβ1σ（Wβ0fl+bβ0）+bβ1），（7）反之，当dij与对角线长度之比如果图像的分辨率大于0.5，则eij=0，这意味着其中Wβ0、Wβ1、bβ0和bβ1是可训练参数;σ是激活函数;定义softmax函数在案件的重置中，e i j = 4 +<$θ i j +2 2。五。在Ne=11种;βn，l是βl的第n个元素，e ij=[4，5，. 11]表示左总之，eij=0意味着节点vi和vj之间没有边，并且eij的范围是从1到Ne=11。其是第l个词引用边类型n∈ 1，2，.的加权概率，N e.然后，我们计算图中节点的特征G M，X M。在节点vk处的特征，xM，是图GI的节点特征xI和表示的语言的组合3.2.2静态注意力多模态图GM被定义为GM=（V，E，XM），其中V和E分别与图GI的节点和边相同，而节点的特征站ck，其中WmxM=Wm[xI;ck]+bm，（8）和bm是可训练参数。在表达式的指导下计算。在这里，我们使用3.1节中提到的嵌入F ={f l}L来表示表达式。指称表达中的词通常可以分为两种类型（即，实体与关系）。对于表示为ql的第l个词，我们计算每个类型的权重zl=[z0l，z1l]，如下所示，3.3. 动态图形注意力DGA在从参考表达式生成的预测视觉推理过程{R（t）}T的指导下在多模态图GM之上执行多步推理（第3.1节）。内务部执行步骤考虑了图像中对象之间的关系以及执行步骤中的依赖性z0l=sigmoid（Wz1（Wz0flz1l=1−z0l，+bz0）+bz1），（四）压力这样的推理步骤从图GM的节点V处的初始特征XM开始，并且这些初始特征表示对应于图G M的节点V的各个对象。其中Wz0，Wz1，bz0bz1是可训练参数;z0l结在实际推理过程中，DGA梯度-自动更新复合对象的表示，和z1l是词ql根据软分布（{R（t）}T），结构分别图GMt=1，单个视觉对象以及复合接下来，我们表示图之间的相互作用GI和表达式通过关注图的节点和边的表达式。在这个词的基础上-bedding，F={fl}L，以及词的实体权重，上一个时间步中的对象。在每个时间步t，DGA维护一组备忘录M（t）={m（t）}K，以保存单个对象（t=1）。{z}Ll=1或在时间步t中识别的复合对象（t >1），以及0升l=1，加权归一化注意力分布m（t）表示单个对象或复合对象在图GI的节点上，定义如下。K对应于节点vk;同时，它保持两个集合门的I，P（t）={p（t）}K，则{v（t）}Ne，以拯救ak，l=Wα2[tanh（Wα1xk+Wα0fl）]，kk=1nn=1exp（ak，l）αk，l=z0l<$K，（五）4649K节点的权重和边的权重以及之前的所有时间步长具体地，p（t）表示（吨）其中Wα0、Wα1和Wα2是可训练参数。αk，l是加权的标准化注意力，表明概率-节点的权vk，vn表示边的权打字机;打字机在时间步t的推理是由成分表达式（R（t）={r（t）}L ，Q={q l}L ）的情况。借出席─l l=1l =1表达式中的第l个词的能力，指的是将构成表达式的节点和边节点化，4650k，ln，lK˜˜Km（t）=k k k k k，Kej，kWj jbej，k−1）（t−1）图GM，我们可以获得时间步长t的节点和边的归一化权重。我们分两步计算这样的权重。首先，我们计算γ（t），它表示表示第l个词指向节点vk的概率，δ（t）表示第l个词指向边其中W c0和W c1是可训练参数;q是整个表达式的特征，在3.1节中定义。我们采用三重态损失与在线硬负挖掘[23]来训练DGA网络。三重态损失是罚款为类型n，作为在第二节中介绍的静态注意力权重αk，l和βn，l上加权的词分布R（t）loss= max（ scoreneg +△ −分数gt 、（0）、（14）步骤3.2.2，γ（t）=r（t）α，δ（t）=r（t）β.（九）其中，score_neg和score_gt分别是否定提议和地面实况提议的匹配分数。k，lL（吨）k，ln，l（吨）ln，l△是边际。在推理阶段，具有最高匹配分数的建议被选择作为预处理。其次，我们计算λ k （或μ n）代表重量节点vk（或边类型n）的时间被提及步骤t作为表示涉及节点vk（或边类型n）的组成表达式中的各个词的权重的总和，措辞4. 实验4.1. 数据集L L我们对以下三种进行了实验λ（t）= λγ（t），μ（t）= λδ（t）。（十）用于引用表达式com的通用基准数据集-Kl=1k，lnl=1n，l从MSCOCO [12]数据集收集的数据。接下来，我们更新每个节点的门，vk，对于每种类型的边，n，p（t）= λ（t）+p（t−1），ν（t）= μ（t）+ ν（t−1）。（十一）RefCOCO[31]包含19，994个图像中50，000个对象的142，210个引用表达式，这些图像是从交互式游戏界面中收集的它被分成火车，瓦尔-k kkn n nidation，testA和testB，分别有120，624，10，834，5，657然后，我们获得了与节点对应的对象特征对于时间步长t，m（t），当t=1时，m（t）被设置为fea。和5,095个表达-指称对。测试A包括多个人的图像，而测试B包括IM-K K多模态图GM，xM中节点vk处的真。否则，我们通过考虑连接到vk的节点以及在先前时间步中识别的复合对象来识别对应于节点vk的复合对象mk年龄与多个其他对象。RefCOCO+[31]在从交互式游戏界面收集的19，992个图像中有141，564个表达式，用于49，856个对象。RefCOCO+ does not contain describations of ab-←m−（t）=v（t）（<$−m（t−1）p（t−1）+<$−），ej，k>0表达式中的溶质位置。它被分成火车，瓦尔-idation、testA和testB分别有120，191，10，758，5，726和4，889个表达-指称对。（t）（t−1）mk=Wmk+b，λ（t）（W<$（<$m −（t）+m<$（t））+b<$）+p（tmRefCOCOg[18]包括95，010个长引用表达式，用于25，799个图像中的49，822个对象，这些图像是在一个非交互式设置。 RefCOCOg [19]有80，512，4，896K←−←−Ne（吨）K˜˜ˆ ˆ（十二）和9，602个表达式-指称对，分别用于训练、验证和测试。其中，Wi{b n}n=1，W、b、W和b是可训练参数，并p4651KK（吨）˜K且这些参数在所有时间步长上共享。←m−（t）是m（t）是来自关系的编码特征，m（t）是其更新版本，并且m（t）组合来自当前时间步和先前时间步的特征。当p（t）等于0时，m（t）被设置为m（t−1）。4.2. 评价和实施我们评估建议的DGA地面实况ob-bushion和检测到的对象。准确度用作评价指标。当使用地面实况对象时，如果顶部K K最后，我们使用对应于节点vk表示对象提议ok。3.4. 匹配建议ok和输入表达式之间的匹配分数定义如下，评分k=L2 Norm（Wc0m（T））< $L2 Norm（Wc1q），（13）顶部预测对象和地面实况对象更大当使用检测到的对象时，小于0.5。我们遵循[28]的类似结果来提取图像的视觉对象特征。具体来说，每个对象都表示为从基于ResNet-101的Faster R-CNN模型的pool 5层中提取的2，048维特征由于以前的一些方法使用VGG-16 [24]作为特征提取器，为了公平起见，我们还报告了4652RefCOCORefCOCO+参考COCOg特征Val种皮testBVal种皮testBVal测试MMI [18]VGG16-63.1564.21-48.7342.13--[19]第十九话VGG1676.9075.6078.00----68.40CG [16]VGG16-74.0473.43-60.2655.03--[第13话]VGG16-78.8578.07-61.4757.22--中国移动[7]VGG16-75.9479.57-59.2959.34--[第31话]VGG1676.1874.3977.3058.9461.2956.24--[32]第三十二话：VGG1678.3677.9779.8661.3363.1058.1971.3271.72[32]第三十二话VGG1679.5678.9580.2262.2664.6059.6271.6571.92[4]第四话VGG1681.2781.1780.0165.5668.7660.63--[33]第三十三话VGG1681.6780.8181.3264.1866.3161.46--MAttNet [30]VGG1680.9479.9982.3063.0765.0461.7773.0472.79我们的DGAVGG1683.7383.5682.5168.9972.7262.9875.7675.79MAttNet [30]ResNet10185.6585.2684.5771.0175.1366.1778.1078.12我们的DGAResNet10186.3486.6484.7973.5678.3168.1580.2180.26表1.当使用地面实况边界框时，与RefCOCO、RefCOCO+和RefCOCOg上的最新方法进行比较。表现最好的方法用粗体标记。使用VGG-16作为骨架的结果在训练过程中，小批量大小设置为64，我们采用亚当优化器[11]更新网络参数。学习率初始设置为0.0005。在我们所有的实验中，保证金都设置为0.1。4.3. 与最新技术水平的比较我们进行实验比较，我们提出的DGA和现有的国家的最先进的方法。地面实况对象表1示出了地面实况对象的定量评估结果。我们提出的DGA在所有数据集上都优于现有的方法。当使用VGG-16功能时，DGA在RefCOCO、RefCOCO+和RefCOCOg数据集上，将现有最佳方法的验证集和测试集的平均精度分别提高了2.00%、3.25%和2.86%一旦我们切换到使用基于ResNet-101的Faster R-CNN作为主干，所有拆分的平均准确度将进一步提高约4.03%。这些结果表明，指称表达的语言结构和图像中视觉对象之间的关系有助于指称表达的理解。检测到的对象我们还评估了DGA在三个数据集中自动检测到的对象上的性能。检测到的对象是使用FasterR-CNN [20]在MSCOCO的训练图像上进行了预训练，排除了RefCOCO，RefCOCO+和RefCOCOg的验证和测试集中的图像。由于大多数精确方法使用VGG-16特征报告其结果，RefCOCORefCOCO+参考COCOg种皮testB种皮testB测试MMI [18]64.9054.5154.0342.81-[19]第十九话58.6056.40--49.50CG [16]67.9455.1857.0543.33-[第13话]72.0857.2957.9746.20-中国移动[7]71.0365.7754.3247.76-[第31话]67.6455.1655.8143.43-S+L+R [32]72.9462.9858.6847.6859.63S+L+R [32]72.8863.4360.4348.7459.21[33]第三十三话75.3165.5261.3450.86-我们的DGA78.4265.5369.0751.9963.28表 2. 当使用检测对象时，与 Ref- COCO 、 RefCOCO+ 和RefCOCOg的最新方法进行比较。表现最好的方法用粗体标记。目标检测结果。4.4. 定性评价为了更好地探索DGA学习的推理过程，我们研究了DGA在迭代计算过程中产生的样本结果及其注意力分布在每一个时间步上，我们可视化了词上的软分布以揭示推理过程中关注的语言信息，并显示了图节点上的注意力分布以指示相关对象。如果在该时间步期间出现复合对象，则我们还通过高亮显示与变换为复合对象的对象交互的其他对象来可视化关系分布此外，还提供了最终的匹配分数。公平的比较，我们也采用VGG-16功能在这里。结果示于表2中。性能下降后，我们从地面实况对象切换到检测对象，这是由于检测错误。尽管如此，所提出的DGA仍然优于所有现有的最先进的模型，这证明了DGA的鲁棒性，图3所示的定性评估结果表明，所提出的DGA可以为决策规则生成可视化和可解释的证据。在图3（a）中，表达式被解析为树结构，其指示所指对象持续时间4653图像节点节点关系匹配T=1T=2T=3(a) 一位穿着紫色衬衫拿着生日蛋糕的女士图像节点节点关系节点关系匹配T=1T=2(b) 那个穿灰色衬衫的男人后面的大象T=3图3.定性结果显示了DGA预测的迭代推理过程，包括单词注意力权重，节点注意力图，关系注意力图和最终匹配得分。在前两个时间步中，DGA分别对“生日蛋糕”和“紫衫”给予了更多的关注。在第三步，它通过涉及两个相关的对象（即一个穿紫色衬衫的女士和一个生日蛋糕）来关注复合对象。“生日蛋糕”和“紫色衬衫”）。在图3（b）中，视觉推理过程形成了一个链式结构，DGA逐渐识别复合对象。在第一时间步，DGA关注其次，通过把“那个人”和“灰衬衫”联系起来，对复合宾语“那个穿灰衬衫的人”进行了重点分析然后，在最后一步中，通过将“大象”与复合对象“穿灰色衬衫的人”相关联，将焦点转移到复合对象“穿灰色衬衫的人后面的大象最后的复合对象与所指表达式的匹配得分最高。4.5. 消融研究为了证明表达式的语言结构和在引用表达式计算中对象之间的关系之上的多步推理的有效性，我们训练了四个额外的模型用于比较。结果示于表3中。静态DGA利用给定的引用表达式在多模态图中的节点的初始特征之间进行匹配静态DGA的性能比动态DGA差，因为静态DGA忽略了对象之间的关系，不进行推理。带有语言解析器的DGA与DGA（3）（具有三个时间步长的DGA）相比，具有语言解析器的DGA的性能下降证明了RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBVal测试静态DGA82.1082.1382.0870.5674.7165.3174.4576.52DGA*83.7384.6983.6971.3274.8365.4375.9876.33DGA（2）84.8485.5083.6972.8876.5866.6278.6479.09DGA（4）86.1186.7285.6573.3477.1066.9579.1779.90DGA（3）86.3486.6484.7973.5678.3168.1580.2180.26表 3. RefCOCO 、 RefCOCO+ 和 Ref-COCOg 的消融研究。“DGA”后面的数字表示模型中使用的推理步骤的数量。DGA* 表示带有语言解析器的DGA。所提出的用于获得语言结构的分析器。接下来，我们探索DGA中使用的推理步骤的数量。具有两个步骤的DGA（2）的性能比具有三个步骤的DGA（3）和具有四个步骤的DGA（4）差DGA（3）的性能优于DGA（4）的原因可能是三个推理步骤对于所使用的数据集是足够的，并且任何额外的步骤都会引入噪声。5. 结论本文提出了一种动态图注意网络（DGA）来解决指称表达式计算问题。DGA网络在图像中对象之间的关系之上执行多步这一过程是由伴随指称表达的习得语言结构指导的。在常用基准数据集上的实验结果表明，DGA不仅优于现有的所有最先进的方法，而且能够生成可视化和可解释的决策规则结果。4654引用[1] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第39-48页[2] Arthur W Burks，Don W Warren和Jesse B Wright。用无括号表示法分析逻辑机。Mathematical tables and otheraids to computation，8（46）：53[3] Qingxing Cao ， Xiaodan Liang ， Bailing Li ， GuanbinLi，and Liang Lin.基于一般依赖树的可视化问题推理在IEEE计算机视觉和模式识别会议论文集，第7249-7257页[4] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第7746-7755页，2018年。[5] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[6] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。在IEEE国际计算机视觉会议（ICCV）的论文集中，第804-813页，2017年[7] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在IEEE计算机视觉和模式识别会议论文集，第4418-4427页。IEEE，2017年。[8] Drew A Hudson和Christopher D Manning用于机器推理的组合注意力网络。2018年。[9] 贾斯汀·约翰逊、巴拉斯·哈里哈兰、劳伦斯·范德马滕、朱迪·霍夫曼、李飞飞、C·劳伦斯·齐特尼克和罗斯·格希克。推断和执行程序以进行可视化推理。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第2989-2998页[10] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing（EMNLP），pages 787[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年学习表征国际会议[12] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[13] Jingyu Liu，Liang Wang，Ming-Hsuan Yang.通过属性引用表达式生成和理解。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第4856-4864页[14] Runtao Liu，Chenxi Liu，Yutong Bai，and Alan L Yuille.参考参考 + ：诊断视觉推理与参考专家。在 IEEEConference on Com-计算机视觉和模式识别，第4185-4194页，2019年。[15] Jiasen Lu，Jianwei Yang，Dhruv Batra，and Devi Parikh.用于视觉问答的分层问题图像共注意。神经信息处理系统的进展，第289-297页[16] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第2卷，2017年。[17] Christopher Manning 、 Mihai Surdeanu 、 John Bauer 、Jenny Finkel、Steven Bethard和David McClosky。斯坦福自然语言处理工具包。在计算语言学协会第52届年会上：系统演示，第55-60页，2014年。[18] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan L Yuille，and Kevin Murphy.无歧义对象描述的生成和理解。在IEEE计算机视觉和模式识别会议论文集，第11-20页[19] Varun K Nagaraja，Vlad I Morariu，and Larry S Davis.在对象之间修改上下文，以便理解引用表达式.欧洲计算机视觉会议，第792-807页。施普林格，2016年。[20] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[21] Anna Rohrbach 、 Marcus Rohrbach 、 Ronghang Hu 、Trevor Darrell和Bernt Schiele。通过重构的文本短语在图像中的基础在欧洲计算机视觉会议上

下载后可阅读完整内容，剩余1页未读，立即下载