基于知识的可解释推理的查询和注意增强

115 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

基于知识

视觉问答

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15576基于知识的可解释推理的查询和注意增强张毅峰，姜明，赵琪明尼苏达大学{zhan6987，mjiang} @ umn.edu，qzhao@cs.umn.edu摘要可解释的视觉问答（VQA）模型已经开发了神经模块和基于查询的知识整合，以回答需要知识的问题。然而，大多数推理方法不能有效地生成查询或在推理过程中结合外部知识为了弥合这一研究差距，我们提出了查询和注意力增强，这是一种增强神经模块网络的通用方法，可以联合推理视觉和问：这个地方能有什么图像用于？回答运输视觉知识Tr总线外部知识停车总线路运输外部知识为了在推理过程中考虑这两个知识源，它将输入问题解析成一个函数程序，通过一种新的强化学习方法增强查询通过对多个VQA数据集的广泛实验，我们的方法在回答需要不同程度知识的问题时，表现出了比最先进的模型更高的性能、可解释性和可推广性。我们的源代码可在https://github.com/SuperJohnZhang/QAA获得。1. 介绍关于知识的推理对于一般智能行为是必不可少的[32]。人类具有从多个知识源中获取和整合概念的先天能力，但用机器智能来模拟这种机制并非易事。视觉问答是一种典型的同时需要知识获取和知识推理能力的任务。一个理想的VQA系统应该理解两个输入（即，图像和问题），并通过寻找支持逻辑和证据来执行跨模态推理，从而得出合理答案。大多数VQA方法学习基于多模态输入和答案之间的统计相关性来回答问题[5，10，11]。研究表明，这种隐式数据驱动的方法往往利用语言的优先级，知识增强型网络记忆增强注意力图1.基于神经模块网络和显式知识表示，我们开发了知识增强的查询和记忆增强的注意力，以联合推理视觉[V]和外部[E]知识。这些查询和注意力增强方法概括了可解释的视觉推理模型，以更好地回答需要知识的问题。或实现高性能，而不是基于逻辑和证据的推理[33]。为了执行多模态推理，最近的研究利用了神经模块网络（NMN）[1]，其显式地对多步推理过程进行建模[15，17，43]。他们将输入问题解析成一个功能程序，并动态地组装一个可解释的神经模块网络他们不仅在VQA中取得了显着的表现，而且还提供了一步一步的解释，以帮助理解预测答案背后的推理过程[17，33]。NMN通常是在综合和结构化问题的数据集上开发的，例如CLEVR [19]和GQA [16]，其泛化能力有限。为了回答更一般的VQA问题，同时保持可解释性，几项研究已经纳入了基于显式场景图建模[7，45]或隐式特征丰富[22，26，42]的外部知识。他们从知识库中查询外部概念，将获得的外部知识与观察到的视觉知识相结合，并最终在整合的知识空间上进行推理[7，41，45]。这种方法导致松散的整合，ee存储器步骤查询关注1地方总线2使用停车树总线步骤查询[V]查询[E]1总线路2驱动运输注意[V]注意[E]总线路总运输15577知识和推理之间的关系，在处理复杂的推理问题时可能是次优的。在这项工作中，我们提出了查询和注意力增强，这是一种基于NMN的可解释视觉推理方法，它通过对视觉知识（即，视觉特征）和外部知识（即，外部概念的语义嵌入）。与以往在推理过程之前引入知识的方法不同，它将知识引入与推理紧密结合，解决了两个主要的研究空白：首先，以往的方法只根据输入问题生成函数程序，没有考虑视觉或外部信息。如图1所示，为了回答问题“图像中的它们可以生成具有两个功能的程序：1）识别地点和2）找到其用途。两个输入令牌（例如，地点和使用）可以从问题中提取，并用作查询以引导模型的注意力和推理。由于它们仅从问题中提取，因此查询可能与上下文不太相关并且导致错误答案（例如，停车场）。在这项工作中，我们提议用视觉和外部知识来增强这些基于问题的查询，使它们更加具体和相关。例如，如图1所示，在增强之后，生成两组查询以引导视觉知识的推理（例如，总线和驱动器）和外部知识（例如，公路和交通）。与原始查询相比，它们更直接地引导NMN的注意力去寻找答案。第二，以前的方法通常在推理之前获取并结合外部知识作为支持特征[7，41，45]。然而，在多步视觉推理期间，推理上下文在整个过程中动态更新，其中可能需要沿途获取和理解额外的知识。为了实现这种能力，我们提出联合推理视觉和外部知识，并使用一种新的记忆增强注意力方法来整合它们的中间结果进行推理，因此知识在推理过程中被整合，而不是仅在开始时。总线）和外部知识（例如，道路，运输）可以帮助NMN更好地利用这两个知识源来找到正确的答案（例如，运输）。总之，通过解决这些挑战，我们提出的方法允许NMN准确地将注意力引导到视觉和外部知识中的重要特征，并回答需要知识的问题。这项工作的贡献总结如下：1. 据我们所知，这项工作是第一次尝试联合推理视觉知识和外部知识。基于神经模块网络的知识。2. 通过强化学习，我们生成知识增强的查询，将视觉和外部知识纳入功能程序。3.通过在具有记忆增强注意力的两个知识源之间共享中间结果，我们能够在整个推理过程中将外部知识并入。4. 我们在多个VQA数据集上的大量实验证明了所提出的方法的有效性、推广性和可2. 背景：神经模块网络一般来说，NMN以两个步骤执行可解释的视觉推理：它们通过组成一系列预定义函数从输入问题生成程序，并通过使用小神经网络（即，神经模块）。它们通常设计有以下组件：知识表示。将视觉和语义输入预处理为高级知识表示允许视觉推理模型专注于学习知识的推理，而不是输入特征和答案之间的直接相关性。NMN通常将视觉输入编码为基于像素的[14，15]，基于区域的[7，34]或基于图形的[17，33]特征。在这项工作中，我们从视觉输入和外部知识库中提取高级语义和关系，并显式地组织这些知识作为结构化表示（即，场景图和知识图）。我们使用VC树[36]生成场景图来表示对象及其关系。外部知识图是根据KI-Net方法[45]从ConceptNet [23]、Visual Genome [21]和WordNet [9程序生成。由于现实世界问题的可变性和缺乏显式程序监督，学习将自由形式的自然语言输入映射到结构化函数程序是一项具有挑战性的任务大多数网络管理器设计了一个程序生成器，遵循编码器-解码器结构，将一系列字嵌入转换成一系列参数化函数。例如，StackNMN [14]使用双向LSTM [12]来预测特定模块及其文本参数，而NSM [17]生成更一般的查询。当问题具有规则的语法结构并且只考虑来自训练数据的领域内知识时，这些对于涉及域外知识的自由问题，传统的端到端数据驱动方法可能无法正确理解问题，这导致视觉推理性能的下降。为了应对这一挑战，而不是依赖于问题本身，我们生成知识增强查询，通过采取视觉和外部知识，15578≈不图2.我们的方法概述首先，它将视觉输入表示为场景图，将外部信息表示为知识图。其次，程序生成器解析问题以预测函数程序及其对应的查询q。接下来，两个增强学习代理用视觉和外部知识来增强q，从而产生增强查询q_v和q_e，尊重iv ely。此外，它们被用作程序执行器分配注意力的参数（即， αv和αe）。基于记忆的中间结果Mv和Me，它计算增强注意向量αv和αe，它们联合考虑了两个kn个源，以更好地t t分配注意力。最后，它预测的基础上关注的功能的答案。考虑边缘（参见第第3.1节）。程序执行。NMN动态地将神经元模块组装成一个完整的网络，以执行生成的程序并输出输入问题的答案。这些模块在程序执行期间扮演不同的角色：通过将注意力分配或重新分配到输入特征来查询相关知识（例如，参加，重新参加），识别参加的特征（例如，描述），或者执行数字（例如，存在、计数、比较）或逻辑（例如，虽然以前的研究已经探索了在VQA任务中引入外部知识，但他们通常将知识编码为支持特征，以在推理过程之前丰富视觉特征[7，41，45]。与现有的NMN在程序执行过程中不显式查询外部知识3.2）。3. 方法这项工作的目标是开发一种可解释的NMN方法，该方法基于从视觉和外部知识获得的支持证据来回答问题。我们的方法的关键区别因素是它能够在程序的生成和执行过程中与两个知识源新颖性在于两个主要组成部分：1。它用来自视觉输入和外部知识库的知识来增强所生成的查询;以及2.联合地将注意力分配给视觉和外部知识，并基于由记忆的中间结果支持的信息共享来图2总结了这是如何实现的。在这3.1.基于知识的查询扩充基于NMN的方法通常采用编码器-解码器网络来生成推理函数序列及其对应的查询（即，参数）。基于由现有方法生成的查询（例如，NSM [17]），我们提出了一种强化学习方法，该方法为每个知识源生成知识增强查询（即，视觉或外部知识）。具体来说，在每个推理步骤中，我们学习查询增强代理从相关语义概念的词汇表中选择最合理的查询。与传统的查询扩展方法[13，31，40]不同，我们采用强化学习[27，30]来学习代理，这使我们能够有效地从大量（100K）语义概念中选择最佳查询，并优化端到端VQA训练中的网络参数。查询词汇表。NMN通常从语义概念的词汇表中选择查询，并使用它们的语义嵌入进行可解释的推理。例如，NSM [17]使用训练数据集中的三类语义构建词汇表：对象身份，属性和关系。在我们的方法中，为了包括来自外部数据库的域外知识（例如，ConceptNet[23]，Visual Genome [21]，WordNet [9]），我们从外部知识图中提取的相关概念的样本特定词汇表具体来说，我们将函数程序表示为具有查询q t（t=1，. . .，T），其由现有的NMN方法生成[33]。对于每一步t，我们创建一个词汇表Ct，它的条目在语义上与查询qt相关：第一节，我们描述了我们的方法的主要组成部分：ii基于知识的查询增强和基于记忆的注意力增强。详情请参阅补充资料。d（ct，qt）≤Ld，（1）其中，ci是从外部kn o图获得的语义概念，并且d（·，·）度量图距离15579不不|Et=1不||−||-Σ|E··（即，最短路径的长度）。我们将词汇表表示为按每个项目到qt的距离排序的有序列表最大距离Ld控制词汇表的大小。查询增强代理。我们不是从词汇表中寻找最相关的查询，而是将查询选择公式化为决策过程，并设计强化学习代理来优化选择。特别是，我们设计了一个视觉知识代理和外部知识代理，并奖励他们选择互补的查询，指导视觉和外部知识的推理，分别。具体地说，我们的目标是找到最优查询q=[q≠1，. -是的-是的不仅依赖于问题，而且依赖于视觉和外部知识。在每个步骤t，每个代理通过从词汇表中选择查询来预测下一个查询，即，q<$t+1∈C t+1。它观察当前状态图3.每个查询增强代理由一个策略网络和一个价值网络组成.策略网络从视觉特征hv 、语义向量hc和基本查询q预测经扩充的查询qc。价值网络评估策略并预测总回报r。hc，y。我们定义了视觉知识代理的奖励rv和外部知识代理的奖励re，以强制生成的查询专注于知识的复杂但相关的方面：st=[q≠1，. -是的-是的，q<$t-1]，由迄今为止预测的查询环境Et包括视觉特征V、rv=δ（gqv，gy）+ηv δ（gqv，gv），（2）词汇表C t，输入查询[q1，. - 是的- 是的，q t]。策略网络p π预测代理选择查询作为第n个输出的概率pπ（q<$tt，t）。如图3所示，遵循基本的编码器-解码器框架[24]，我们使用基于CNN的编码器来提取视觉信息。特征hv和基于LSTM的语言编码器，以将词汇Ct嵌入到语义向量hc中。特征h_v和h_c被级联并馈送到另一个LSTM编码器中，而基于LSTM的解码器将编码特征u与输入查询q1，. - 是的- 是的，q t来预测时间t处的策略。基于该策略，具有最高概率的查询被选择为输出qt，并且在下一步骤中作为qt+1被反馈回解码器。价值网络vθ近似于一个价值函数vp，它从观察到的状态st预测总回报r，假设决策过程遵循一个策略p。它是对国家的评价。如图 3，它对增强查询[q∈1，. -是的-是的，q=t]，并使用多层感知器（MLP）基于LSTM输出hs、视觉特征hv和语义特征hc来预测总奖励r奖励定义。对于查询增强的优化，定义良好的奖励是重要的。目标是使增强查询（即，例如，q∈v=[qv，. -是的-是的，q，v和re=δ（gqe，gy）+ηe δ（gqe，gc），（3）其中ηv和ηe平衡相应项的权重。这些超参数的值越高，鼓励两个代理生成更多不同的查询。这些奖励允许两个代理基于不同的知识源生成互补查询。对于每个代理，策略网络和价值网络被联合优化以近似总奖励。训练我们使用深度强化学习和我们提出的奖励来学习策略和价值网络。接下来[30]，我们分两步训练网络：首先，按照常见的做法[28，35，38]，我们使用监督学习来预训练政策网络和价值网络，以合理的我们用基本查询q和交叉查询y损失 Lp=不logpπ（q<$tst，t）。我们用相应的最终总报酬r和均方损失Lv=vθ（st）r2来监督价值网络。在预训练之后，我们用强化学习联合训练策略网络训练遵循演员-评论家的方法[20]。请注意，两个代理都是用不同的奖励来训练的，以最大化它们与视觉（r=rv）和前视觉（r = r v）的嵌入相关性ee e1T内部知识（r = r e）。用蒙特卡罗q=[q1，. -是的-是的，qT）相关的问题和他们的核心-响应知识（即，视觉知识和外部知识），我们为两个智能体中的每一个定义了特定的奖励函数。这些函数基于查询计算奖励（即，例如， qv或qe），视觉特征hv，语义特征h c=[h c，. - 是的- 是的 h c]，以及地面实况答案y。树搜索（MCTS）[6]中，两个代理可以输出将用于执行程序的增强查询qv，qe增强查询允许神经模块同时推理视觉和外部知识。1T3.2。基于记忆的注意力增强首先，我们使用预先训练的视觉语义嵌入模型[30]将这些特征投影到联合嵌入空间中。设δ（，）表示余弦相似性度量，gqv ，gqe ，gv ，gc ，gy表示q∈v ，q∈e，hv的嵌入，NMN采用注意机制来突出重要的知识进行推理。尽管不同的NMN（例如， NSM [17]和XNM [33]）实现其神经网络政策网络价值净值ℎ��u��ℎ��ℎ��ℎ��ConcatMLPLSTMLSTM解码器LSTM编码器ℎ15580不不不ttt ttαv=softmax（W vMt），（6）αe=softmax（W eMt），（7）其中，αv，αe是增强的注意力向量，W v，t t图4.提出的注意力增强方法将视觉和外部知识特征Kv和Ke与原始注意力向量αv和αe一起处理，以预测记忆增强的注意力向量αv和αe。W是可训练参数。通过用两种记忆增强注意力，我们的方法在分配注意力时联合考虑两种知识源，以在推理过程中更好地本地化相关特征。4. 实验和结果我们通过在OK- VQA [26]，FVQA [37]，GQA [16]和VQA v2 [3]数据集上的实验证明了我们的方法。t t它比最先进的视觉推理模型更好，这两种能力，都是知识的体现，模块以不同的方式，它们的中间注意力输出可以类似地表示为归一化权重向量的序列。我们调整现有的NMN方法，使每个模块处理两个查询，并产生两个注意向量。每个注意力向量由相应的查询引导，并通过记忆的中间结果进一步增强，这使得NMN能够在推理过程中准确地注意视觉知识和外部知识。独立的注意力分配。为了联合推理视觉和外部知识，每个神经模块都是适于处理一对输入查询qt=[qv，qe]con，要求问题和一般问题与解释推理。消融研究显示了这两种增强方法如何独立地和共同地促进推理性能的改善。定量和定性的结果表明，在程序生成和执行阶段的外部知识的纳入显着提高视觉推理性能。4.1. 实验设置数据集。我们进行了广泛的实验，以评估所提出的方法在四个不同的VQA数据集。的t t OK-VQA [26]和FVQA [37]是一般VQA数据集并计算相应的注意力向量αt=[αv，αe]，以从vi-专为需要常识的t t和事实知识来回答。特别是，直观场景图和外部知识图，分别用上标v和e内存更新。我们将注意力机制应用于特征Kv，Ke，得到每个神经模块的关注特征mv=αvKv，me=αeKe由于每个来源的目标特征可以作为一个证据来支持其对应的推理（见图1），使两个知识源之间的信息共享因此，受记忆网络[39]和相关研究[18]的启发，我们开发了两个独立的记忆体Mt=[Mv，Me]来存储和检索信息。提供可用于支持基于知识的VQA模型的训练和评估的真实事实知识GQA [16]数据集专注于170万个结构化问题的组合推理。VQA v2 [3]数据集是一个通用的VQA数据集，包含110万个问题，每个问题都注释了10个真实答案。通过这些互补的数据集，我们全面评估了我们的方法的有效性和推广性。培训和评价。我们在训练数据集上训练NMN，并在相应的验证集上对其进行评估。我们的方法的训练包括三个t t中间特征具体来说，就是要记住对于将来的查询，我们将它们附加到存储器的末尾，并进一步用线性层对存储器进行编码：阶段：首先，我们预训练基线模型（例如， NSM [17]或XNM [33]）在常规VQA设置下。接下来，我们使用预训练模型生成函数程序，并通过优化其总奖励来独立训练两个查询增强代理。最后，我们增加了Mv=tanh（Wv[Mv，mv]），（4）使用这些代理程序查询，执行增强t m t−1tMe=tanh（We[Me，me]），（5）t m t−1t其中Wv和We是可训练参数。用记忆增强的注意力编程，并微调整个网络。为了公平比较，我们采用XNM查找模块，使其输入类似于NSMM m注意力增强。给定记忆Mt，我们用记忆的特征来增强注意力向量15581由于很少有可比较的NMN执行基于知识的推理，我们将评估重点放在与15582不方法OK-VQAFVQAGQAVQA v2[37]第三十七话–64.65––[29]第二十九话–65.80––KVQA [46]29.03–––KAN [44]–66.39–67.42XNM [33]25.6163.7462.0464.72+ [26]25.9864.1162.1465.54+ KI-Net [45]26.4764.4262.3864.78+我们的26.5265.4663.0765.92NSM [17]26.7964.0863.1765.77+ [26]27.1464.7363.3966.83+ KI-Net [45]28.4565.1263.4865.93+我们的29.2468.7463.8267.69表1.与最先进的模型进行定量比较。基线方法AN [26]和现有技术的KI-Net [45]：前者通过外部概念的语言嵌入来丰富视觉特征，而后者通过向场景图添加外部节点来引入知识我们通过将其应用于两个基于NMN的推理模型：XNM [33]和NSM [17]来证明我们方法的通用性为了公平比较所有被比较的模型在相同的单模型设置下被训练和评估，而没有集成或语言预训练。实作详细数据。在我们的实验中，每个查询被表示为一个语义嵌入的维数dp=300。视觉特征hv、语义特征hc、值网络的隐藏状态以及记忆Mv、Me的维数也被设置为300。基于消融研究（参见补充材料），我们设置超参数η v=0。6，η e=0。8，且Ld=3。4.2. 绩效评价我们提出了我们的方法与最先进的基于知识的视觉推理方法的定量结果，包括非NMN方法[29，37，44，46]和应用于XNM [33]和NSM [17]模型的不同知识整合方法[26，45]与非NMN方法的比较。Tab的第一个面板。1表示性能（即，答案准确率百分比）的几个非NMN方法[29，37，44，46]。FVQA [37]通过基于特征的外部知识丰富来推广VQA模型。OutOfBox [29]利用图卷积网络对高级事实语义进行编码，并在FVQA数据集上实现更高的性能KVQA [46]和KAN [44]利用多模态注意力来更好地关注必要的视觉或事实特征。无论它们的注意力机制或特征集成方法如何，它们都专注于统计相关性的学习，并在单个特征丰富步骤中纳入外部知识。不同的是表2. 不同组成部分的结果（即， KQ和MA）。我们的方法在多步骤结构化推理的整个过程它不仅实现了更高的性能，但也提供了更好的解释能力，因为NMN方法的性质。与其他基于NMN的知识整合方法的。在第二个和第三个面板中，Tab。1还表明，我们的方法在两个基线模型（即，[33]和NSM [17]）。基于NSM，它在所有数据集上实现了最高的准确性，特别是对于只能用外部知识回答的问题（例如， OK-VQA和FVQA），表明该方法能更好地从外部知识中查询相关知识，并利用外部知识进行推理。虽然GQA和VQA v2中的问题不需要太多的外部知识，但我们的方法仍然优于AN [26]和KI-Net [45]。在GQA数据集上，我们对XNM的改进更为显著，因为XNMGQA数据集上的性能改进表明我们有效地利用了外部知识。查询和注意力增强的贡献。选项卡. 2比较了知识增强查询（KQ）和记忆增强注意力（MA）的贡献在每个基线之上，我们独立地应用KQ或MA，并将其结果与完整模型进行比较。具体地说，相应地，“+ KQ”模型生成两组知识感知查询，以独立地推理每个源而不需要MA。Tab中的结果。2建议KQ和MA可以独立地对VQA性能做出贡献。它们还帮助NMN更好地利用外部知识进行视觉推理，具有积极的联合效应。一个有趣的观察是，MA有助于方法OK-VQAFVQAGQAVQA v2XNM [33]25.6163.7462.0464.72+ MA26.2464.7862.2765.37+ KQ（仅V）26.1064.3362.3265.21+ KQ（仅限电子版）25.8764.2962.4865.07+ KQ26.3865.0962.7465.53+量化宽松25.8165.1862.8965.52+我们的26.5265.4663.0765.92NSM [17]26.7964.0863.1765.77+ MA27.9164.9263.2865.74+ KQ（仅V）28.2365.4763.2465.97+ KQ（仅限电子版）27.8665.2463.2365.89+ KQ28.4266.3963.3166.45+量化宽松28.3765.9463.0466.2815583方法VTBCPOMCSrCFGHLCPELPAStWC其他KVQA [46]27.5324.1721.5635.7228.2025.4425.3830.9724.3542.7625.76XNM [33]26.8421.8618.2233.0223.9323.8320.7924.8121.4342.6424.39+ [26]25.4121.3920.2433.5224.6823.1520.5925.0922.7943.5824.72+ KI-Net [45]25.7421.9320.7233.6924.8023.6119.8325.0622.5443.0824.12+我们的25.3122.0419.6733.4525.3725.1621.4225.2923.7344.8924.98NSM [17]27.1222.5419.0733.2226.7823.4720.5426.7321.5537.9223.13+ [26]27.1722.6920.0633.7627.2524.3621.6328.9121.9838.9624.06+ KI-Net [45]27.3622.9820.5134.3727.9424.8522.6930.7422.7940.8224.78+我们的27.4924.8421.7835.5028.3925.8725.1131.0624.5144.8625.36表3.OK-VQA验证集中特定问题主题的外部知识方法的评估结果方法OK-VQANMN [2] 24.63[43] 25.79NSM [17] 27.91[25]第二十五话NSM + KQ（我们的）29.24表4.比较KQ和最先进的程序生成器。MA适用于所有比较的方法。数据集Visual Genome ConceptNet WordNet全部OK-VQA28.73 28.59 28.2629.24表5.NSM + Ours的结果，具有不同的知识基础。这表明，我们的MA方法可以有效地改善XNM查询增强的有效性。为了证明我们的强化学习方法用于查询增强的有效性，我们将其与基于语义嵌入的余弦相似性的标准查询扩展（“+ QE”）方法进行了比较选项卡. 2表明我们的方法在NSM基线上显著优于查询扩展，特别是对于结构化程度较低的问题（例如，OK-VQA和VQA v2）。对于XNM基线，KQ的增强查询在引导更具体模块的注意力转移方面不太有效。为了评估KQ中每个代理的有效性，我们仅用一组查询（即，仅V或仅E）。通过比较这两种知识源，我们发现在查询增强过程中，视觉知识比外部知识更有效，两者的结合进一步提高了性能。这表明，这两个代理可以增强查询与互补的知识，共同提高reasoning性能。特定主题的结果。选项卡. 3给出了关于需要外部知识的OK-VQA数据集的11个问题主题的实验结果。较KVQA [46]和最先进的基于NMN的方法，我们的方法在大多数主题上都展示了其优势它显著提高了XNM和NSM在需要通过知识图谱进行更广泛搜索的主题上的性能，例如科学和技术（ST），植物和植物（PA），天气和气候（ WC ）。其性能增益在车辆和运输（VT）、运动材料和服装（OMC）、运动和娱乐（SR）以及人和日常生活（PEL）上不太显著，因为这些主题的知识领域相对狭窄。KQ与常用程序生成器的比较。我们进一步评估的性能KQ对几个常见的NMN的程序生成器vali-日期的必要性，查询增强与视觉和外部知识。由于现有的生成器都生成单个查询序列，因此我们复制该序列并将其传递给神经模块，以使用MA对两个知识源进行选项卡. 4比较了这些方法在OK-VQA数据集上的性能NSM [17]和NS- VQA [43]利用基于LSTM的模型并依赖于答案的信号来弱监督程序生成，而NMN [2]应用StandfordParser [8]来检索并将句子依赖性转换为程序布局和查询。显然，NS-CL [25]利用强化学习方法来训练生成器，但仍然只考虑问题信息。我们的知识增强查询优于所有比较程序生成器。知识库的比较。选项卡. 5比较了不同知识库的效果。我们的方法实现了显着的性能改善相结合时，可视化基因组，概念网，WordNet，这表明三个知识库的互补性。4.3. 定性结果图5进一步展示了我们的方法在NSM模型[17]和FVQA数据集[37]上的定性结果。它呈现图像、问题、答案、基本查询和增强查询，以及关注的视觉/外部知识（即，关系三胞胎与他们的注意力值高于平均水平）。它表明，我们的方法取代了基本查询15584图5. FVQA数据集上的定性结果。每个示例都显示了输入图像、问题、地面实况（GT）答案和模型预测、基本查询（B-Q）以及用视觉知识（V-Q）和外部知识（E-Q）增强的查询，然后是关注的视觉和外部知识。突出显示的知识表示FVQA支持问题的事实。对于视觉场景中的更具体的对象（例如，烤箱对物体，家具对东西），并补充外部知识，帮助神经模块正确回答。例如，在图5a中，炉子和烤箱都能够加热，但只有炉子可以加热锅。由于KI-Net和AN主要依靠视觉语义来选择相关的外部知识，而锅不在场景中，因此它们无法结合重要的外部知识来帮助区分两个相似的对象（烤箱和炉子）。我们的方法增加了查询，包括外部知识沸腾，这是有关热和锅和答案炉。它允许神经模块将记忆增强的注意力分配给炉子的关系： pot-topOf- stove ， stove-capableOf-heat 和 stove-capableOf-boil，以正确回答。类似地，在图在图5 b-d中，我们的方法包括答案（例如，灯、长笛和运输）及其相关的外部知识（例如，光、音乐和道路）。增强的查询精确地对应于支持事实（即，FVQA地面实况知识）和其他重要的外部关系。这些例子表明，由于更具体的查询和更准确的注意力分配，我们的方法提高了性能和可解释性。5. 结论我们提出了一种新的查询和注意力增强方法，可解释的视觉推理知识。它利用知识增强查询和记忆增强注意力，在推理过程中显式地结合视觉和它允许神经模块网络同时与vi交互客观和外部的知识，弥补了视觉推理中的显性和可解释的知识整合的研究空白。我们的方法在回答需要知识的问题和一般问题方面展示了最先进的性能。NMN模型的透明性使研究人员能够更有效地识别局限性和诊断错误。我们希望通过提出的查询和注意力增强方法，我们的工作将有利于未来更通用和可解释的推理模型的发展更广泛的影响。大多数深度学习方法基于在大规模数据集上训练的黑盒模型做出决策，这极大地限制了它们的可解释性或可推广性。通过利用外部知识库，这项工作开发了可视化推理模型，这些模型较少依赖于训练数据，从而释放了需要领域知识的数据注释的繁重工作量。它还利用神经模块网络来明确定义和执行推理操作，这提高了决策过程的透明度和深度学习模型的可信度。这项工作可能有利于未来的应用在许多领域，领域知识和系统的透明度是优先事项，如医疗保健，金融和立法。它将鼓励开发更具可解释性和可推广性的人工智能系统，并将解决当今数据驱动系统所引起的对道德和公平性的担忧确认这项工作得到了NSF资助1908711和1849107的支持。15585引用[1] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议论文集，第39-48页，2016年。1[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。7[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页5[4] Hiteshwar Kumar Azad和Akshay Deepak。信息检索的查询扩展技术综述。CoRR，abs/1708.00247，2017年。7[5] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。在IEEE国际计算机视觉会议论文集，第2612-2620页，2017年。1[6] CameronBBrowne 、 EdwardPowley 、 DanielWhitehouse、Simon M Lucas、Peter I Cowling、PhilippRohlfshagen、Stephen Tavener、Diego Perez、SpyridonSamothrakis和Simon Colton。蒙特卡洛树搜索方法综述IEEE Transactions on Computational Intelligence and AIin Games，4（1）：1-43，2012. 4[7] Qingxing Cao，Bailin Li，Xiaodan Liang，and Liang Lin.可解释的高阶视觉问题推理：一个新的基准和知识路由网络。arXiv预印本arXiv：1909.10128，2019。一、二、三[8] Danqi Chen和Christopher D Manning。一个快速准确的神经网络依存分析器。在 Proceedings of the 2014conference on empirical methods in natural languageprocessing（EMNLP），pages 740-750，2014中。7[9] 克里斯蒂安·费尔鲍姆Wordnet。本体论的理论和应用，第231-243页。施普林格，2010年。二、三[10] 甘闯，李延东，李浩祥，孙晨，龚伯庆. Vqs：将分割与问题和答案联系起来，以在vqa和以问题为中心的语义分割中进行监督注意在IEEE国际计算机视觉会议论文集，第1811-1820页，2017年。1[11] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使vqa中的v重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第6904-6913页，2017年。1[12] Al e xGr av es和J ür genSchmidhube r. 用双向lstm和其他神经网络结构进行帧式音素神经网络，18（5-6）：602-610，2005。2[13] Parth Gupta ， Kalika Bali ， Rafael E Banchs ， MonojitChoud- hury，and Paolo Rosso.混合脚本的查询扩展信息检索在2014年第37届国际ACM SIGIR信息检索研究开发会议的会议记录中，第677-686页。3[14] Ronghang Hu，Jacob Andreas，Trevor Darrell，and KateSaenko.通过堆栈神经模块网络进行可解释的神经计算。欧洲计算机视觉会议论文集（ECCV），第53-69页，2018年。2[15] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于视觉问答的端到端模块网络在IEEE计算机视觉国际会议论文集，第804-813页，2017年一、二[16] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第6700-6709页一、五[17] Drew A Hudson和Christopher D Manning 学习抽象：神经状态机。arXiv预印本arXiv：1907.03950，2019。一、二、三、四、五、六、七[18] 姜明，史辰，杨金辉，赵齐。梦幻般的答案和在哪里找到他们：沉浸式的问题导向的视觉注意力。在IEEE/CVF计算机视觉和模式识别会议论文集，第2980-2989页，2020年。5[19] 贾斯汀约翰逊先生，Bharath哈里哈兰LaurensVan Der Maaten，Li Fei-Fei，C Lawrence Zitnick，andRoss Girshick. Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议论文集，第2901-2910页，2017年。1[20] Vijay R Konda和John N Tsitsiklis。演员-评论家算法。神经信息处理系统进展，第1008-1014页。Citeseer，2000年。4[21] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalan-Kang，Li-Jia Li，David A Shamma，et al.Visual genome ： Connecting language and vision usingcrowdsourced dense image annotations.国际计算机视觉杂志，123（1）：32-73，2

下载后可阅读完整内容，剩余1页未读，立即下载