视觉基础：基于神经模块树网络的复合视觉推理

110 浏览量更新于2023-10-13 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4673学习组装用于视觉接地的刘大庆1张汉旺2 吴锋1查正军1张1中国科学技术大学2南洋理工大学liudq@mail.ustc.edu.cn，hanwangzhang@ntu.edu.sg，fengwu@ustc.edu.cn，zhazj@ustc.edu.cn摘要视觉基础，一个任务到地面（即，局部化）图像中的自然语言，本质上需要复合视觉推理。然而，现有的方法将语言的复合性质过度简化为单一的句子嵌入或主谓宾三元组的粗略组合。在本文中，我们建议地面自然语言在一个直观的，可解释的，和复合的时尚，因为它应该是。特别地，我们开发了一种称为神经模块树网络（NMT REE）的新型模块化网络，其沿着句子的依赖解析树来规则化视觉基础，其中每个节点是根据其语言特征计算视觉注意力的神经模块，并且基础分数根据需要在自下而上的方向上累积。NMTREE从复合推理中分离出视觉基础，允许前者只关注原始和易于概括的模式。为了减少解析错误的影响，我们使用Gumbel-Softmax近似及其（a）整体性(c)NMTREE(b)三重直通梯度估计器，考虑到模块组装的离散性质。总体而言，拟议的NMT REE在几个基准上始终优于最先进的技术。定性结果显示解释接地得分计算非常详细。1. 介绍视觉基础（又名涉及表达压缩）的目的是在图像中定位自然语言描述。它是测试机器对视觉场景和语言理解的核心AI任务之一[18]。也许最基本和最相关的单词基础系统是对象检测[32]（或分割[8]）：图像区域（或像素）被分类为对象类的相应单词。尽管它们的模型架构不同[22]，但它们的唯一目标是计算视觉区域和单词的基础分数，测量两种模态之间的语义关联*通讯作者。图1.现有的基础模型一般是（a）整体的，(b)粗糙的复合物。渐变颜色的单词表示单词级别的关注。(c)建议的NMTREE是基于依赖分析树，并提供了解释的基础非常详细。单词颜色对应于图像区域。由于深度视觉特征[9]和语言模型[27]的发展，我们可以将基础系统从固定大小的词汇库扩展到开放词汇表[12]，甚至描述性和关系性短语[41，31]。然而，接地复杂的语言句子，例如“一个穿粉红色靴子的女孩拿着的粉红色雨伞”与上述单词或短语的情况大不相同。例如，给定图1中的图像，对于我们人类，如何本地化“伞”？人们可能会有如下的推理过程：1）识别所指的“伞”，但有两个。2)使用上下文证据“由一个女孩携带”，但有两个女孩。3)通过使用更具体的evidence4)最后，通过上述证据的积累，对目标“保护伞”进行定位一一一穿粉色靴子的通过携带伞粉红色粉红色伞Carri被一个穿粉色靴子的依赖解析树pobjAmodACL剂pobj准备amod单根[ROOT]ADJNNVBADPNNADP粉色雨伞通过女孩在ADJNN粉红色靴子Sum[umbrella]Comp[carried]Single[pink]Sum[by]Sum[女孩]总计[靴子]单瓣[粉红色]4674不幸的是，现有的视觉基础方法通常依赖于1）整个句子的单一整体得分 [26 ， 38 ， 24 ， 39] （图 1（a）），或2）主语，谓语和宾语短语的复合得分[13，37]（图1（b））。尽管其中一些采用词级注意机制[25]来关注信息性语言部分，但与上述人类级别的推理相比，它们的推理仍然很粗糙。更严重的是，这种粗糙的基础分数很容易偏向于学习某些视觉语言模式，而不是视觉推理，如果数据集中的大多数“伞”是“由人携带的”，则得分可能不响应于诸如“伞摊下的人”的其他得分。毫不奇怪，这个问题在许多用于其他任务（如VQA [15]和图像字幕[23]）的端到端视觉语言嵌入框架中被反复发现。在本文中，我们建议利用依赖分析树（DPT）[3]，它已经为视觉基础中的复合推理提供了一个现成的模式。具体来说，为了通过DPT赋予视觉基础能力，我们提出了一种新的神经模块网络：神经模块树（NMTREE），提供非常详细的解释基础分数。如图1（c）所示，我们通过组装三个原始模块网络将DPT转换为NMT REE：叶节点和根节点为Single，内部节点为Sum和Comp（详见第3.3节）。每个模块计算一个基础分数，该分数以自下而上的方式累积，模拟迄今为止获得的视觉证据。例如，在图1（c）中，Comp[carried]接收由Sum[by]获得的分数，然后计算区域组成的新分数，这意味着由于固定的推理模式，NMTREE将视觉感知从复合推理中解脱出来，以减轻不必要的视觉-语言偏见[36]，因为原始模块接收具有相对简单的视觉模式和较短语言构成的连续训练信号。人们可能会担心DPT解析错误导致的潜在脆弱性，这些错误会影响模块组装的鲁棒性，正如在实践中应用的大多数神经模块网络中所发现的那样[11，2]。我们从三个方面解决这个问题：1）组装简单。除了对于叶和根固定的Single之外，只有Sum和Comp在运行时确定; 2）求和仅仅是不需要视觉基础的加法运算; 3）我们采用最近提出的Gumbel-Softmax（GS）近似[14]用于离散组装近似。在训练过程中，前向通道通过GS采样器以“硬”离散方式选择两个模块;反向通过将通过以“软”鲁棒的方式使用直通梯度估计器来更新所有可能的判决。通过使用GS策略，可以端到端地训练整个NMTREE，而不需要任何额外的训练。附加模块布局注释。我们验证了NMT REE在三个具有挑战性的视觉基础基准上的有效性：RefCOCO [38]、RefCOCO + [38]和RefCOCOg [26]。NMTREE在大多数测试分裂和接地任务上实现了最先进的性能定性结果和人工评价表明，NMTREE是透明和可解释的。2. 相关工作视觉基础是要求系统在给定自然语言表达的同时将图像中的区域本地化的任务。与目标检测不同[32]，视觉接地的关键是利用语言信息将目标与其他物体区分开来，特别是同类物体。为了解决这个问题，开创性的方法[26，38，24，39]使用CNN-LSTM结构来定位可以生成具有最大后验概率的表达的区域最近，联合嵌入模型[13，37，40]被广泛使用，它们对条件概率进行建模，然后在表达式上定位具有最大概率条件的区域。我们的模型属于第二类。然而，与以往的研究中忽略丰富的语言结构相比，我们更进一步地考虑了结构信息。与[5]中依赖于选区解析树的模型不同，我们的模型应用了具有大量解析细节的依赖解析树，并且模块组装是从头开始端到端学习的，而他们的是手工制作的。有一些关于在视觉基础任务中使用模块网络的工作[13，37然而，它们过于简化了语言结构，而且它们的模块与我们的相比过于粗糙。细粒度模块网络广泛用于VQA [1，2，11]。然而，他们依赖于附加的注释来学习句子到模块的布局解析器，这在一般领域中是不可用的。我们的模块布局是通过使用Gumbel-Softmax训练策略[14]从头开始训练的，该策略在最近的作品中显示出了经验上的有效性[4，35，29]。3. NMTREE模型在本节中，我们首先在3.1节中阐述视觉基础的问题。然后，通过使用图2所示的演练示例，我们将在第3.2节中介绍如何构建NMTREE，以及如何在第3.3节中使用NMTREE计算基础分数。最后，我们在第3.4节中详细介绍了Gumbel-Softmax训练策略。3.1. 问题公式化视觉接地任务可以简化为一个检索问题。形式上，给定图像I，我们通过一组感兴趣区域（RoI）特征I=4675区域提案单[头盔]Comp[with]单次[根]总和Sum[horse]Comp[riding]Single[brown]（;g，）戴头盔骑着棕色马隐向量[G↑; G↓]dobjDEP. label嵌入Sum[riding]？人骑prepnsubjpobjdobjAmod单词嵌入POS标签嵌入向前VB与NNADP神经网络VB调整NN骑Comp[riding]？落后人骑着头盔棕马[G↑;G↓]我特征提取依赖解析树双向树LSTMNMTREE模块装配工结果和损失图2.视觉接地NMTREE概述给定一个自然语言表达式作为输入，我们首先通过依赖解析树、双向树LSTM和模块汇编器将其转换为NMTREE（第3.2节）。然后我们沿着树以自下而上的方式接地（3.3节）.最终结果接地分数是根节点的输出分数我们应用Gumbel-Softmax策略来训练我们的模型（第3.4节）。{x1，x2，···，xK}，其中xi∈ Rdx，K是区域数。对于一个自然语言短语L，我们用一个词序列L ={w1，w2，···，wT}来表示它，其中T是句子的长度。然后，任务是通过最大化任何区域和语言之间的基础分数S（xi，L）来检索目标区域xix∈S（xi，L）.（一）因此，关键是定义一个合适的S（·），通过理解语言成分将目标区域与其他区域区分开创性的基础模型[26，38]通常基于整体的语义级语言表示（图1（a））：S（xi，L）：=Sh（xi，yh），其中yh是整个语言表达的特征表示，Sh（·）可以是两个向量之间的任意相似度函数。tors. 最近，一个粗糙的组成[13]是亲。将句子表示为（主语、关系、宾语）三元组（图1（b））。因此，可以将乐谱分解成更细粒度的组合：S（xi，L）：=Ss （ xi ， ys ） +Sr （ [xi ， xo] ， yr ） +So （ xo ，yo），其中，脚本S、R和O表示三种语言角色：主语，关系和对象;x0是估计的对象区域特征。然而，这些基础分数过于简化了语言的构成.例如，如图1（b）所示，将诸如“女孩携带的伞”的短句分解为三元组是有意义的，因为它对单个“女孩”、“伞”以及它们的关系具有明确的视觉-语言关联;但是对于更一般的带有从句的较长句，例如，即使为此，我们建议使用依赖分析树（DPT）作为细粒度的语言分解，这使得基础模型能够非常详细地执行视觉推理（图1（c））：S（xi，L）：=ΣtSt（xi，Lt），（2）其中t是树中的节点，St（·）是计算区域与节点特定语言部分Lt之间的相似性的节点特定得分函数。直观地，Eq.（2）更像人类：积累证据（例如，地面-在理解语言的同时。接下来，我们将介绍如何实现Eq。（二）、3.2. 判决为NMTREE如图2的底部三个块中所示，有三个步骤将句子转换成所提出的NMTREE。首先，我们将句子解析成一个DPT，其中每个单词都是一个树节点。然后，我们通过双向树LSTM将每个单词及其语言信息编码到隐藏向量中。最后，我们组装的神经模块的树，根据节点隐藏向量。依赖关系解析树。我们采用Spacy工具箱1中的依赖解析器。如图2所示，它将语言构建成一棵树，其中每个节点都是一个单词，其部分-语音（POS）标签和从它到另一个的有向边的依赖关系标签，例如，“riding” is VB (verb) and DPT提供了对句子的深入理解，其树结构提供了视觉基础的推理路径请注意，从自由格式的句子中解析出来的语法元素总是不必要的，比如限定词、符号和标点符号。我们删除这些节点和边，以减少计算开销，而不损害性能。1Spacy2：https://spacy.io/Gumbel SoftmaxFc层剪枝解析Concat4676不不不不不我不tt我tjtjtjtjtj双向树LSTM。一旦获得DPT，我们就通过双向树结构的LSTM将每个节点编码为隐藏向量[34]。这种双向（即，自底向上和自顶向下）传播使得每个节点都知道来自其子节点和父节点的信息对于每个节点t，我们将单词wt、POS标签pt和依赖关系标签dt嵌入到级联嵌入向量中，如下所示：(a) 求和模块节点(b) 补偿模块节点et=[EwΠwt，EpΠpt，EdΠdt]，（3）其中Ew、Ep和Ed是可训练嵌入矩阵，Πwt、Πpt和Πdt是独热编码，对于word、POS标签和依赖关系标签。我们的树LSTM实现2基于子和树LSTM [34]。以自下而上方向为例，节点t从其子节点集Ct接收LSTM状态，并将其嵌入向量et作为输入来更新状态：c↑，h↑=TreeLSTM（et，{c↑}，{h↑}），j∈ Ct，⑷其中c↑、h↑表示节点t的第j个孩子的单元和隐藏向量。通过在两个方向上应用TreeLSTM，我们可以获得最终的节点隐藏向量ht：ht=[h↑;h↓]，（5）↑ ↓dh图3.哪些节点可能是组合为总和或比较。我们可以发现Sum模块节点很可能是可见概念，而Comp模块节点很可能是关系概念。可能由每个模块组装我们可以发现Sum模块有更多的可见单词（例如，形容词和名词），并且Comp模块具有更多描述关系的词（例如，动词和介词）。这揭示了NMT稀土元素的解释潜力。最后，通过以上三个步骤，我们得到每个节点组装的NMTREE接下来，我们将详细介绍这三种类型的模块。3.3. NMTREE模块给定上述组装的NMTREE，我们可以实现等式中提出的树接地分数。（2）以自下而上的方式累积分数。NMTREE中使用的模块有三种类型，即，单个、总和和比较节点t处的每个模块更新接地分数其中ht，ht∈R表示编码对于图像I中的所有K个区域，st=[s1，...，sK]，以及t t分别是自下而上和自上而下我们初始化具有零隐藏和单元状态的所有叶节点自下而上和自上而下的树LSTM具有其独立的可训练参数。模块汇编程序。给定节点表示et和上面获得的节点隐藏向量ht，我们可以将它们馈送到模块汇编器中以确定哪个模块应该被组装到节点T。正如我们将在3.3节中详细介绍的那样，我们有三个模块，即：、Single、Sum和Comp.由于Single总是在叶子和根上组装，组装器只需要在Sum和Comp之间选择：输出到其父节点。在下文中，我们将首先介绍模块中使用的语言表示和常用函数，然后详细介绍每个模块。语言表征。对于节点t，我们有两种语言表示：ys用于与单个视觉特征相关联，而yp用于与成对视觉特征相关联。我们将节点t的节点集记为NT，它包含自身和所有以t为根的节点。因此，语言表示可以通过来自Nt的节点嵌入向量的加权和来计算：SumorComp←arg max softmax（ fc（[e，h]）），（6）y s =Σαsei，yp=αpei，（7）其中fc是将输入特征映射到2-d值的全连接层，分别指示Sum和Comp的相对分数。由于离散和其中α是从对应的节点隐藏向量计算的节点级注意力权重：αi=softmax（fc（hi））。注意，αs和αp具有独立的的不可微性质，我们使用Gumbel-iiSoftmax [14]训练策略（第3.4节）。值得注意的是，汇编程序不是纯粹的语言，即使方程。（6）基于DPT节点的特点。事实上，由于反向传播训练算法，视觉提示最终将被纳入方程的参数。（六）、图3说明了哪种类型的单词是[2]由于篇幅原因，我们将细节留在补充材料中。dent fc参数。值得注意的是，这些加权节点集的平均字嵌入减少了由DPT解析错误引起的负面影响[13]。分数函数。在我们的模块中使用了两种类型的评分函数，由单个评分函数Ss和成对评分函数Sp表示，其中Ss度量单个区域x和语言表示y之间的相似性，而Sp指示成对区域x和语言表示y之间的相似性。其它橙子食品天尼摩托车侧我不知道你在说什么长出了灰头夫碗板沙发马人婴儿球员左小雨伞眼镜棕色椅子总线斑马刷牙腿下sheends与的沿着为回来面向右侧左侧顶部槽从中间进食朝向最后棒球笔记本电脑列车大象木制它其牛两个世界紫色红袋一顶部权羊前长颈鹿女孩人绿大型深色送披萨的电脑座玻璃手旁边边缘没有靠附近控股就像是在说dsress蝙蝠对出来通过blUE磨损用后玩看裤子帽子下承盖有盖中骑i∈Nti∈Nt4677不ΣttTJtp it匹配关系。我们将它们正式定义为：Ss（x，y）=fc（ L2范数（fc（x）≠y）），（8）Sp（x1，x2，y）=fc（ L2norm（ fc（[x1;x2]）⊙y）），（9）其中[; ]是连接运算，⊙是元素乘法，L2 norm用于规范化向量。单模块。它聚集在叶子和根部。它的工作是：1）通过等式为每个区域和当前语言特征（8），2）将这个新分数添加到从孩子收集的分数中，然后3）将总和传递给它的父母：输入：{stj}， j∈Ct相机到最接近的马粉红色bandeau比基尼穿着骑和紫色是是女人根黄绿色她的骑在离镜头最近的那匹马上的女人，她穿着粉红色、紫色、绿色和黄色的带状比基尼。图4.一个很长的句子例子说明了NMTREE中神经模块的可解释性。黑字：单，蓝字：加总，红字：Comp.输出：si←Ss（xi，ys）+Σsi，i∈[1，K]（10）JNMTREE是透明的，因为分数可以被可视化为注意力地图以调查每个节点处的注意力。注意，对于叶子，Ct=φ，因为它们没有子节点。如图2所示，它的设计动机是启动由最基本的单词进行自底向上的基础处理，并通过将计算出的分数传递给ROOT来完成基础。求和模块。它在推理过程中起着过渡性的作用。它简单地将子节点传递的分数相加，然后将总和传递给父节点：输入：{stj}， j∈Ct接地过程图4展示了一个极端的例子，它有一个很长的表达式，有22个标记。然而，通过使用NMTREE中的神经模块，它仍然工作得很好，并且具有可解释的中间过程。接下来，我们将讨论如何训练NMTREE。3.4. NMTREE培训与以前的神经模块网络[1，11]相比，NMTREE不需要任何额外的注释，并且是端到端可训练的。假设xgt是地面实况，输出：st←stjJ（十一）gion，目标是最小化交叉熵损失：请注意，该模块没有参数，因此它显著降低了模型的复杂性。如图2所示，直观地，它将易于本地化的单词（参见图1）转换为易于本地化的单词（参见图2）。图3（a））如补偿模块这是复合视觉推理的核心模块。如图3（b）所示，它很可能是连接两种语言构成的关系。它首先计算一个以单个分数为基础：β=softma X。S（x，ys）+ΣsiΣ，x¯=Σβx. （十二）L（Θ;xgt，L）=−logsoftmax（S（xgt，L;Θ）），（14）其中Θ是可训练参数集，并且softmax跨图像中的所有K回想Eq.（6）是离散的并且阻碍端到端训练。因此，我们利用Gumbel-Softmax策略[7]，该策略在最近的架构搜索工作[4，35]中显示出有效性。欲知详情，请参阅他们的论文.在这里，我们只介绍如何将Gumbel-Softmax应用于NMTREE训练。性新我们将Gumbel分布作为噪声添加到相对分数（即fc（[et，ht]））。它介绍-i s itjtj我我我为模块组合探索引入随机性。具体地说，我们将汇编程序决策参数化为特别地，x¯可以被认为是连续的gion [42]，其支持目标区域分数，例如，在图2中“骑着马因此，该模块将目标区域分数输出到其父级：输入：{stj}， j∈Ct输出量：si←S（x，x¯，yp）.（十三）回想一下，yp是表示关系词的成对语言特征。通过以自下而上的方式沿着组装的NMTREE推理，我们可以获得等式（1）中的总体累积接地分数（2）在树根处。此外，由于4678˜˜2-d独热向量z，其中非零条目的索引指示决策：z=one hot（arg max（log（fc（[et，ht]））+G）），（15）其中G是从i.i.d. Gumbel（0，1）3. 注意，在推理短语中，G将被丢弃。向后。我们通过用softmax替换argmax来将z释放到z的连续近似，形式上：z=softmax（（log（fc（[et，ht]））+G）/τ），（16）Gumbel（0，1）分布的采样公式为G=−log（−log（U））其中U是Uniform（0，1）。4679其中G是在正向通过中抽取的相同样本（即，我们重新使用噪声样本）。τ是softmax函数接近argmax的温度参数，同时τ→0，当τ→ ∞时趋于一致。虽然是向前和向后传递之间的差异，我们凭经验观察到Gumbel-Softmax策略在我们的实验中表现良好。4. 实验4.1. 数据集我们对从MS-COCO [20]图像收集的三个数据集进行了实验RefCOCO[38]包含19，994个图像的142，210个引用表达式。在表达式收集期间使用交互式游戏[16所有表达式-所指对象对被分成train、validation、testA和testB。测试A包含多人图像，测试B包含多对象图像。RefCOCO+[38]包含19，992个图像中49，856个对象的141，564个引用表达式。它与RefCOCO相同的交互式游戏一起收集，并分别分为train，validation，testA和testB。与RefCOCO的不同之处在于RefCOCO+仅允许通过外观而非位置描述表达。RefCOCOg[26]包含25，799个图像中49，822个对象的95，010个引用表达式。它是以非交互方式收集的，包含由外观和位置描述的较长表达式。它有两种类型的数据隔板。第一个分区[26]将数据集分为训练集和验证集（val*）第二个分区[28]将图像划分为训练集，验证集（val）和测试集。4.2. 实施细节和指标语言设置。我们为这三个数据集构建了特定的词汇表，其中单词，POS标签和依赖标签在数据集中出现了不止一次请注意，为了获得准确的解析结果，我们没有修剪表达式的长度。我们使用预训练的GloVe [30]来初始化单词向量。对于依赖标签向量和POS标签向量，我们从头开始用随机初始化训练它们。我们将单词、POS标签和依赖标签的嵌入大小分别设置为300、50和50。视觉表现。为了表示图像的 RoI 特征，我们将从MAttNet [37]中提取的对象特征和位置特征连接起来，MAttNet [ 37 ]基于Faster RCNN [32]，ResNet-101 [9]作为骨干，并使用属性头进行训练。我们采用MaskRCNN [8]进行对象分割。视觉特征尺寸dx被设置为3，072。为了公平比较，我们还使用VGG- 16 [33]作为主干，并且dx被设置为5，120。参数设置。我们使用Adam优化器[17]优化了我们的模型，最多可达40个时期。学习率初始化为1 e-3，每10个时期缩小0.9。我们设定128张图片到小批量大小。LSTM隐藏大小dh被设置为1，024，语言表示中注意力的隐藏大小被设置为1，024。Gumbel-Softmax [14]的温度τ设定为1.0。评估指标。对于检测任务，我们计算了检测到的绑定框和地面实况框之间的交集（IoU）我们使用Top-1准确度作为度量，它是正确接地测试表达式的分数。对于分割任务，我们使用Pr@0.5（IoU至少为0.5的表达式的百分比）和总体IoU作为指标。4.3. 消融研究设置.我们进行了广泛的消融研究，以揭示NMTREE的内在机制。消融及其动机详述如下。链：它忽略了语言的结构信息。具体来说，我们将自然语言表达式表示为每个单词嵌入的加权平均值，其中权重通过对每个单词的bi-LSTM隐藏向量的软注意力来最终的基础得分是由每个区域和语言代表之间的单一得分函数计算的。 NMTREE w/oComp ：它是没有 Comp 模块的NMTREE，强制所有内部节点作为Sum模块。NMTREEw/oSum：它是没有Sum模块的NMTREE，强制所有内部节点作为Comp模块。NMTREE w/ Rule：它通过手工规则组装模块。我们设计了一个固定的语言规则来做出一个离散的、不可训练的决定，而不是通过计算相对得分来决定哪个模块应该被组装到每个节点规则是：设置依赖关系标签为'acl'的内部节点形容词从句）或介词修饰语）作为Comp模块，其他作为Sum模块。结果表1显示了三个基准上消融方法的接地精度。我们可以有以下的观察：1）在所有数据集上，即使我们删除了一个模块或使用了手工制作的规则，NMT REE的性能也优于Chain。这是因为树结构包含更多的语言信息，更适合推理。同时，它也证明了我们提出的细粒度组合优于整体链。2)当我们移除一个模块时，NMTREE w/oComp和NMTREE w/oSum，比全NMTREE差。论证了求和与比较的必要性。请注意，删除任何模块也会损害模型的可解释性。3)NMTREE w/oComp和NMTREE w/oSum相当，但NMTREE w/oSum略好。这是因为 Comp 模块更复杂，从而导致过拟合。4)NMTREE优于NMTREE w/ Rule。结果表明，NMTREE可以自动发现哪些节点需要复合原因-4680RefCOCORefCOCO+参考COCOgRefCOCO（det）RefCOCO+（检测）参比COCOg（det）Val种皮testBVal种皮testBVal测试Val种皮testBVal种皮testBVal测试链82.4382.2182.1668.2770.8362.4173.8474.1574.8179.1968.3463.0868.8453.5361.7261.95NMTREE（不含组分）83.6583.5983.0470.7673.0765.1975.9876.2075.1079.3868.6064.8570.4355.0063.0763.40NMTREE（不含总量）83.7983.8183.6770.8373.7265.8376.1176.0975.4979.8469.1165.2970.8555.9963.6064.06NMTREE，带规则84.4684.5984.2671.4874.7666.9577.8277.7075.5180.6169.2365.2370.9456.9664.6965.53NMTREE85.6585.6385.0872.8475.7467.6278.5778.2176.4181.2170.0966.4672.0257.5265.8766.44表1.三个数据集上消融模型的前1精度%RefCOCORefCOCO+参考COCOgRefCOCO（det）RefCOCO+（检测）参比COCOg（det）Val种皮testBVal种皮testBval*Val测试Val种皮testBVal种皮testBval*Val测试MMI [26]-63.1564.21-48.7342.1362.14---64.9054.51-54.0342.8145.85--属性[21]-78.8578.07-61.4757.2269.83---72.0857.29-57.9746.2052.35--[39]第三十九话78.3677.9779.8661.3363.1058.1972.0271.3271.7268.9572.9562.9854.8959.6148.4458.3259.3359.21[28]第二十八话76.9075.6078.80-----68.4057.3058.6056.40---39.50-49.50中国移动[13]-75.9479.57-59.2959.3469.30---71.0365.77-54.3247.7657.47--VC [42]-78.9882.39-62.5662.9073.98---73.3367.44-58.4053.1862.30--AccumAttn [6]81.2781.1780.0165.5668.7660.6373.18-----------[37]第三十七话85.6585.2684.5771.0175.1366.17-78.1078.1276.4080.4369.2864.9370.2656.00-66.6767.01GroundNet [5]------68.90-----------解析器+CMN [13]------53.50-----------parser+MAttN‡ [37]80.2079.1081.2266.0868.3062.94-73.8273.72---------NMTREE80.3978.8681.9063.3163.5963.0473.7173.3972.2971.6574.8167.3458.0061.0953.4561.2061.0161.46NMTREE‡85.6585.6385.0872.8475.7467.6278.0378.5778.2176.4181.2170.0966.4672.0257.5264.6265.8766.44表2.三个数据集上各种接地模型的前1精度%为了公平比较，我们使用†来表示该模型使用res101特征进行检测实验。实验表明，该模型使用res101特征进行地面实况和检测实验。无上标表示该模型使用vgg16特征。Parser+表示模型使用了外部解析器。RefCOCORefCOCO+参考COCOgVal种皮testBVal种皮testBVal测试Pr@0.5MAttNet [37]75.1679.5568.8764.1170.1254.8264.4865.60链73.3677.5567.3061.6067.1552.2459.6460.29NMTREE74.7179.7168.9365.0670.2456.1563.7764.63IOUMAttNet [37]56.5162.3751.7046.6752.3940.0847.6448.61链55.2960.9951.3644.7449.8338.5042.5543.99NMTREE56.5963.0252.0647.4053.0141.5646.5947.88表3.三个数据集的分割性能（%）与最新技术水平的比较。（作为比较）或不（作为总和）。此外，这也意味着我们的NMTREE更适合于视觉基础任务，因为我们的汇编器通过Gumbel-Softmax训练策略意识到视觉线索。4.4. 与艺术设置.我们比较了NMTREE与其他国家的最先进的视觉接地模型在最近几年出版。根据模型是否需要语言COM-三重组合模型大多优于整体模型。这是因为通过分解句子，即使是粗粒度的句子，利用语言学信息的优势有助于视觉基础。2)我们的模型优于大多数三重模型的帮助下，细粒度的复合推理。3）基于解析器的方法容易受到解析器错误的影响，导致性能下降。然而，我们的模型是更强大的，因为动态组装和端到端的列车策略。虽然一些性能增益是边际的，但应该注意到NMTREE似乎平衡了性能和可解释性之间众所周知的权衡[10]。正如我们将在下面讨论的那样，我们在不损害准确性的情况下实现了可解释性。4.5. 定性分析在本节中，我们将通过定性结果4来研究我们模型的内部推理步骤。在图5中，我们将树结构、模块组装位置，我们将这些方法分为：1）选择具有最大生成概率的区域的基于生成的方法：[26][27][29] 2)基于语言的整体方法：[28]第二十八话3)基于语言组合的方法：[ 13 ]，[14]，[15]，[16]，[17]，[19]。4) 使用外部解析器的组合方法：Ground- Net [5]，parser+CMN和parser+MAttN。NMTREE属于第四类，但其语言成分比其他的更精细。我们在三种不同的环境下与他们进行了比较：地面实况区域、检测到的区域和分割掩模。结果从表2和表3中，我们可以发现：（1）The每个中间步骤的注意力图，以及最终结果。在图6中，我们可视化了Comp模块中的推理过程通过这些定性可视化，我们可以得到以下观察结果：1）视觉概念词通常采用Sum模块组装，关系概念词通常采用Comp模块组装。2)非视觉叶节点的注意力图，例如5（d）中的“直接”，通常是分散的，而视觉的，例如，5（d）中的3) Comp模块知道关系，即，它可以移动-4.由于我们的工作重点是复杂的语言案例，所以我们主要在RefCOCOg上进行定性实验补充材料中提供了更多的定性结果4681女孩背后板凳根树后面，一根四长颈鹿直接绿背向摄像机下狗根对停SUV根香蕉黑色衬衫在人根到表侧黑色人在后面(a) 桌子旁边的狗(b) 黑色suv停在路边(c) 一名身穿黑色衬衫的男子站在拿着香蕉的男子身后他头上扎着公羊根战线下来(d) 女孩身后的绿色长椅(e) 四分之一的长颈鹿背对着镜头，躲在树后(f) 公羊在前面低着头图5. RefCOCOg的定性结果。不同颜色的单词表示相应的模块：黑色表示单次，红色表示比较，蓝色表示总和。右下角是原始图像，绿色边界框作为地面实况，红色边界框作为结果。我们进一步给出了两个失败的例子（e）和（f）进行比较，我们的模型始终提供可解释的推理过程。一个拿着蓝色冲浪板的骑着绿色自行车的彩色帽子的男人警察后面的蓝色巴士最右边斑马左边的斑马图6. Comp内部的组成推理。每个例子都包含原始图像（左），方程式中x的上下文注意力图。（12）（中）和输出注意力图（右）。我们用颜色表示部分树结构：红色表示当前节点，蓝色表示子项，绿色表示父项。50403020100不清楚（1）略清楚（2）大部分清晰（3）清晰（4）图7.每个选项的百分比。NMTREE和AccumAttn [6]的平均得分分别为2.96和2.28。结果表明，我们的模型是更好地解释人类。从支撑物体到目标物体的张力，如图6所示。4)沿着树，注意力图变得更加清晰，表明我们模型的可信度变得更强.所有上述观察表明，我们的NMTREE可以沿着树推理，并提供丰富的线索，以支持最终的结果。这些推理模式和支持线索意味着我们的模型是可解释的。因此，为了进一步研究我们的模型的可解释性，我们进行了一次人类评估，以衡量是否存在交互，最终推理过程是合理的。由于最先进的模型MAttNet[37]不包含内部推理过程，但仅总结了直接指向所需对象的三个预定义模块分数，因此我们与AccumAttn[6]进行了比较，因为它执行多步顺序推理，并且在每个时间步都具有图像/文本注意力我们首先向6名评估人员展示了60个示例，每个示例都有每个模型的内部步骤，并要求他们判断模型在每个步骤中的清晰度。然后，每位评价者对每个样本进行4分Likert量表[19]（不清楚、稍微清楚、大部分清楚、清楚）评分，对应评分为1、2、3和4。每种选择的百分比和平均得分如图 7 所示。我们可以发现，我们的模型优于AccumAttn [6]，并且经常被评为这表明，我们的模型的内部推理过程可以更清楚地理解人类。5. 结论在本文中，我们提出了神经模块树网络（NMTREE），一种新的端到端的模型，定位的目标区域，通过积累接地的信心得分沿依赖分析树的自然语言句子。NMTREE由三个简单的神经模块组成，其组装在没有额外的注释的情况下进行训练。与以前的视觉接地方法相比，我们的模型执行一个更细粒度和可解释的语言复合推理与优越的性能，通过广泛的实验证明了三个基准。鸣谢。本工作得到了国家重点研发计划项目2017YFB1300201的资助，国家自然科学基金（NSFC）项目补助金61622211和61620106009，补助金WK 2100100030下的中央大学基础研究基金，部分由NTU数据科学与人工智能研究中心（DSAIR）和Alibaba-NTU JRI提供。AccumAttnNMTree33.6133.3335.8328.6125.5621.9412.228.894682引用[1] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在CVPR，2016年。二、五[2] Qingxing Cao ， Xiaodan Liang ， Bailing Li ， GuanbinLi，and Liang Lin.基于一般依赖树的可视化问题推理在CVPR，2018年。2[3] Danqi Chen和Christopher Manning。使用神经网络的快速准确的依赖分析器在EMNLP，2014年。2[4] Jihun Choi，Kang Min Yoo，and Sang-goo Lee.学习构建特定任务的树结构。在AAAI，2018。二、五[5] Volkan Cirik 、 Taylor Berg-Kirkpatrick 和 Louis-PhilippeMorency。使用语法在自然图像中建立引用表达式。在AAAI，2018。二、七[6

下载后可阅读完整内容，剩余1页未读，立即下载