REX：多模态解释和推理性能的提升

35 浏览量更新于2023-10-25 收藏 14.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

HeartComb155860REX：具有推理意识和基础解释0Shi Chen QiZhao明尼苏达大学计算机科学与工程系0{ chen4595, qzhao } @umn.edu0摘要0效果和可解释性是可信任的人工智能系统的两个基本属性。最近的大多数视觉推理研究致力于提高预测答案的准确性，而较少关注解释决策背后的原理。因此，它们通常利用虚假偏见而不是实际上对视觉-文本数据进行推理，并且尚未开发出通过考虑两种模态的关键信息来解释其决策的能力。本文旨在从三个不同的角度弥合差距：首先，我们定义了一种新类型的多模态解释，通过逐步遍历推理过程并在图像中定位关键词来解释决策。我们开发了一个功能程序来顺序执行不同的推理步骤，并构建了一个包含1,040,830个多模态解释的新数据集。其次，我们确定了紧密耦合视觉和文本模态之间重要组件的关键需求，提出了一种新颖的解释生成方法，明确建模单词和感兴趣区域之间的成对对应关系。它显著提高了视觉定位能力，从而提高了可解释性和推理性能。最后，借助我们的新数据和方法，我们进行了广泛的分析，研究了我们的解释在不同设置下的有效性，包括多任务学习和迁移学习。我们的代码和数据可在https://github.com/szzexpoi/rex上获取。01. 引言0人工智能中的一个基本目标是开发能够根据复杂的现实世界数据进行推理和解释并做出决策的智能系统。虽然解释决策是人类沟通、理解和推理的一个组成部分，但现有的视觉推理模型通常在回答问题时没有解释其答案背后的原理。作为0问题：什么是梳子和心脏的共同之处？0梳子和心脏？0答案：颜色。0解释：因为两者都是0 和都是红色的。0常见（梳子，心脏）0选择（心脏）选择（梳子）0推理过程：0图1.我们的解释是从推理过程中派生出来的（不同推理步骤以颜色编码），并明确在图像中定位关键对象。0尽管强大的深度神经网络[2, 16, 21, 23, 26,35]取得了显著提高的准确性，但现有方法通常利用虚假数据偏见[27]，很难理解它们是否通过真正理解多模态输入和答案之间的因果关系来做出决策。解决这些问题的一个重要研究方向是改进具有多模态解释的视觉推理模型[7, 22, 28,31, 39, 40,43]的可解释性。虽然这些方法在突出重要的视觉区域和提供用户友好的文本描述方面显示出了有用性，但它们存在两个主要限制：(1)现有的解释通常以注意力图或自由形式的自然语言形式定义。注意力图捕捉生成答案的显著区域，但无法解释不同区域如何对决策过程做出贡献。另一方面，无约束的文本解释在解释相同决策时可能高度多样化且常常不一致。它们都缺乏说明决策背后的推理过程的能力。(2)不同模态的解释松散地连接并用单独的过程建模[22, 31,40]。这不仅削弱了解释模型使用多模态的原理的能力，还可能导致矛盾的解释[40]。155870例如，文本解释“The apple is above the pear”和“Thepear is above theapple”具有相反的含义，但可以共享相同的注意力图。我们从两个不同的角度（即数据和模型）解决了上述挑战，并提出了一个集成框架，该框架包括一种新类型的解释、一个功能程序和一种新的解释生成方法。0从数据角度来看，我们不再独立地建模单一模态的解释而不考虑推理过程，而是引入了一种新的基于推理感知和地面化的解释（REX），该解释通过遍历推理过程并紧密耦合视觉和文本模态的关键组件来得到。如图1所示，它是基于连续的推理步骤（例如选择、共同）构建的，用于决策，并明确地将关键对象（例如comb、heart）与视觉区域进行地面化，以详细说明它们对答案的贡献。结构化的推理过程也自然地减轻了自然语言的变异，并使模型能够专注于推理所需的重要信息，而不是语言结构。为了自动构建我们的解释，我们开发了一个功能程序，逐步执行推理步骤并从场景图[14,19]中查询关键信息，并收集了一个包含1,040,830个多模态解释的新数据集。0从模型角度来看，与现有的方法[7, 22, 28, 31,40]不同，我们提出了一种新的解释生成方法，明确地建模重要单词与感兴趣区域之间的对应关系。它考虑了两个模态之间特征的语义相似性，并引入了自适应门来对视觉场景中的单词进行地面化。我们的方法大大提高了视觉地面化的效果，提高了可解释性和推理性能。0总结一下，我们的贡献如下：0(1)我们提出了一种新型的推理感知和视觉地面化解释REX。我们开发了一个功能程序，自动构建了包含1,040,830个多模态解释的新数据集。0(2)我们提出了一种新的解释生成方法，超越了传统的独立建模多模态解释的范式[7, 28,40]，并利用了基于它们之间相关性的显式映射来对视觉区域中的单词进行地面化。0(3)我们通过不同的设置进行了大量实验证明了我们的数据和方法的有效性，包括多任务学习和迁移学习。我们还分析了不同的视觉技能及其与推理性能的相关性。02. 相关工作0本文与视觉问答（VQA）、用于视觉推理的多模态解释数据集以及解释生成模型的先前工作相关。视觉问答。视觉推理通常被构建为VQA任务。关于构建VQA数据集的研究有很多[3, 4, 9, 12, 13, 29, 32,43]，以及开发VQA模型的研究[2, 8, 10, 11, 16, 17, 21, 26,33, 35,42]。早期的VQA数据集通常通过众包收集人工注释的问题[3, 9, 43]。几项最近的研究[12,13]提出使用功能程序根据预定义规则自动生成问题，并实现更平衡的问题-答案对分布。还有越来越多的研究致力于研究不同类型的视觉推理，例如场景文本理解[4]、动态上下文推理[32]和基于知识的推理[29]。这些数据工作促进了改进VQA模型不同组成部分的计算方法，包括多模态融合[8,17, 42]、注意机制[2, 16]和推理过程[10, 11,33]。视觉和语言的预训练[21, 23, 26,35]在增强多模态理解方面也显示出了其有用性。我们的框架与现有的VQA工作相辅相成。它通过推理感知和视觉地面化的解释来增强现有的VQA数据集，并使得VQA模型具有更强的可解释性和推理性能。用于视觉推理的多模态解释。目前还缺乏为视觉推理构建多模态解释数据集的研究。开创性的工作[31]收集了41,817个由人类在VQA数据集[3,9]上注释的文本解释，并开发了一个视觉指向任务来突出重要区域。为了自动构建大规模的解释数据集，Li等人[22]提出将字幕注释[25]转换为文本解释。通过估计字幕和问题之间的相似性，它生成了269,786个合成解释。Zellers等人[43]提出了一个多选VQA数据集，包含264,720个问题，每个问题都有一个正确的解释。虽然该工作已经对问题的感兴趣区域进行了注释，但由于他们的数据集侧重于电影场景，约91%的区域与人物角色有关，超过40%的解释无法在这些区域上进行地面化。我们的解释与问题解决的推理过程以及不同模态之间的关键组件之间的明确耦合有着明显的区别。我们的数据集提供了1,040,830个结构化和视觉地面化的解释，这些解释意识到了决策过程并将图像中的各种关键词进行了地面化。生成多模态解释。我们的目标是开发能够解释的视觉推理模型。155880问题：盘子在桌子上既0脏又银色吗？0答案：否。0解释：0桌子0盘子0推理过程：0验证（银色，盘子）0关联（盘子，桌子）0选择（桌子）0验证（脏，盘子）0和0上是脏的0上不是银色0在0上是脏的而且不是银色。0因为0图2.顺序构建解释的过程示例。右侧显示了部分解释，左侧显示了不同步骤收集的信息，并用相应的颜色进行了突出显示。在推理过程结束时获得最终解释。0为了解释他们的答案，有几项工作提出了自动生成多模态解释的方法。Park等人[31]使用长短期记忆（LSTM）模型生成文本解释，并通过注意力图突出重要的视觉证据。随后，Wu等人[40]通过相关性来提高回答问题和生成解释的模型的性能。Li等人[22]提出了一种多任务学习范式，可以同时生成答案和解释。Zellers等人[43]不是从头开始预测解释，而是采用了一个多选任务设置，其目标是从四个候选项中选择正确的解释。Marasovi´c等人[28]开发了一种集成方法，将预训练语言模型与对象识别模型相结合。Dua等人[7]将VQA和解释生成都作为生成任务来构建，并按顺序生成答案和解释中的单词。还有一些研究[39,41]利用生成的或基于真实数据的多模态解释来提高推理性能。与独立建模视觉或文本解释的前述方法不同，我们提出的方法明确地将单词与其语义相似性基于的图像区域相联系。我们方法带来的增强的视觉定位能力不仅提高了可解释性和推理性能，而且在将解释中的知识提炼到问题回答中起到了关键作用。03. 考虑推理和基于实例的解释0回答视觉问题将受益于对多模态内容进行推理和解释答案的能力。本节提出了一种有原则的视觉推理框架，具有增强的可解释性和效果。它从数据和模型的角度推进了视觉推理的研究，具有以下特点：（1）一种新型的多模态解释，通过遍历推理过程来解释决策，同时具备自动构建解释的功能程序。0解释，并同时增强可解释性和推理性能。03.1. 数据0我们提出的数据的目标是提供一个解释基准，它编码了视觉-文本模态之间的推理过程和基础。与以前的视觉推理解释[22,31,43]相比，它具有两个关键优势：（1）基于推理过程，它详细说明了视觉和文本模态中不同组件如何对决策产生影响，并减少了文本描述中的差异或不一致性；（2）我们的解释不将文本和视觉解释建模为独立的组件，而是以一种整体的方式考虑两种模态的证据，并紧密地将单词与图像区域（即视觉对象的基础区域）联系起来。它通过同时考虑两种模态来增强视觉推理模型的解释能力，从而提高了可解释性和推理性能。图2说明了构建我们解释的范例。为了回答问题“盘子在桌子上既脏又银色吗？”，需要定位桌子，根据它们的关系找到上面的盘子，并调查盘子的清洁程度和颜色。我们用原子操作（例如选择和验证）表示每个推理步骤，并利用一个功能程序通过遍历推理步骤并累积重要信息（例如视觉定位的对象和属性）来顺序构建解释。完成遍历后，我们的最终解释不仅用具体的文本描述详细说明了决策过程（即盘子脏但不是银色，因此答案是否定的），而且用视觉证据支持了解释（即盘子和桌子的基础区域）。通过原子操作分解推理过程，Sni =eTi·VneTi·Vj(1)155890操作语义0选择选择特定类别的对象。0存在检查特定类型的对象是否存在。0过滤通过查找特定属性来选择目标对象。0查询从所选对象中检索属性的值。0验证检查目标对象是否具有给定属性。0共同查找一组对象中的共同属性。0相同检查两组对象是否具有相同的属性。0不同检查两组对象是否具有不同的属性。0比较比较多个对象之间的属性值。0关联使用它们的关系连接不同的对象。0与/或逻辑操作，将前面操作的结果组合起来。0表1. 表示推理过程的原子操作。0操作。我们通过对GQA数据集[12]中的问题生成进行特征化和抽象化，定义了原子操作的词汇表。给定GQA中的127种不同类型的操作，我们首先按照[5]的方法将每个操作表示为三元组，即<操作，属性，类别>，然后根据它们的语义含义对GQA程序中的原始操作进行分类。如表1所示，我们定义了12个原子操作，涵盖了回答各种类型视觉问题的基本步骤：一些需要定位特定类型的对象（select，exist）；一些需要对对象的属性进行推理（filter，query，verify，common，same，different，compare，relate）；其他需要逻辑推理（and，or）。通过功能程序遍历推理过程。根据定义的原子操作，我们开发了一个功能程序，通过执行相应的操作并根据收集到的信息顺序更新解释来遍历推理过程。受到[12,13]的启发，我们将推理过程表示为一个有向图，其中节点表示推理步骤，边表示它们的依赖关系。如图2所示，从初始推理步骤（即Select（table））开始，我们递归地构造当前节点的部分解释（在图2中的每个节点右侧显示），并将其传递给其依赖节点。我们的最终解释在最后的推理步骤（即And）获得。为了构造每个节点的部分解释，我们设计了一组基于原子操作的语义含义的模板（详见补充材料）。所提出的模板动态地组合了当前节点内提取的信息和从先前步骤的依赖节点传递过来的信息。例如，relate操作的模板根据其与在先前节点中选择的对象的关系定位一个新对象。上述范式可以有效地遍历推理过程并构建解释，详细说明了决策是如何基于视觉和文本模态进行的。它不仅能够实现构建0我们的新GQA-REX数据集包含1040830个多模态解释（数据统计和定性示例见补充材料），但它也在提高视觉推理模型的可解释性和准确性方面起着关键作用，详见下一小节。03.2. 解释生成模型0解释决策背后的原理需要对视觉和文本证据进行推理，并详细阐述它们之间的关系。现有的解释生成方法[22, 28, 31,40]使用单独的过程对文本和视觉解释进行建模，并且很少关注每种模态中的关键组件如何相互关联。因此，它们在生成同时考虑两种模态和图像中的词语的解释方面能力有限。为了改善视觉推理模型的可解释性和准确性，我们提出了一种新的解释生成模型，它将两种模态中的相关组件耦合起来，并根据它们之间的关系生成解释。图3说明了我们方法的概述。该方法的主要思想是明确衡量单词和视觉区域之间的语义相似性，并利用它生成具有增强视觉基础的多模态解释。具体而言，与传统方法[22, 28, 31, 40]仅基于文本特征Ti∈R1×D（例如，用于预测第i个单词的LSTM隐藏状态）生成解释不同，我们进一步衡量文本特征Ti与视觉特征V ∈RN×D之间的相似性，并计算将当前单词与不同区域Si ∈R1×N链接的概率：0N �0其中N表示图像区域的总数，D是特征的维度，n是图像区域的索引。T∙V是两个特征之间的点积，对应于它们的余弦相似度。为了将视觉定位与解释生成相结合，我们利用一个转换矩阵M ∈ RN×K将定位结果映射到下一个词的预测中：0y g i = S i ∙ M (2)0其中K是词汇表的数量，M是一个二进制矩阵，如果第j个标记表示第i个区域，则Mij =1（即，我们使用#i来表示在第i个区域中定位一个词）。为了将视觉定位与解释生成相结合，我们利用一个转换矩阵M ∈ RN×K将定位结果映射到下一个词的预测中：0区域）。由于解释中的每个词都可能无法在图像中定位，例如，“is”这样的词没有关联的区域，我们进一步开发了一个门控函数来确定当前词是否应该定位：0ˆ g i = σ ( W g ∙ T i ) (3)155900自适应门控0问题图像0线性0语言生成器定位0模块0图3.我们解释生成方法的概述。0其中ˆg i是定位第i个词的概率，W g ∈ R 1 ×D表示可训练的权重，σ是sigmoid激活函数。我们使用平衡的二元交叉熵损失来训练门控函数：0L g = - �0i0C g i log ˆ g i + C +0C (1 - g i ) log(1 - ˆ g i ) (4)0其中gi是二进制的真值，C+和C-分别表示当前解释中定位的单词数和未定位的单词数，C = C+ + C-。在获得定位概率ˆgi后，我们自适应地将定位结果y gi与从文本特征中得到的不同单词的概率y f i = softmax(W f∙ T i)相结合，以确定下一个词ˆy i：0ˆ y i = ˆ g i y g i + (1 - ˆ g i ) y f i (5)0其中W ∈ R K ×D表示可训练的权重。我们使用平衡的二元交叉熵损失Lg来训练门控函数，使用常规的交叉熵损失来训练问题回答Lans和解释生成L exp [22]：0L = L ans + L exp + L g (6)0通过将来自两种模态的关键组件耦合起来，我们显著提高了模型的视觉定位能力，从而提高了解释性和推理性能。04.实验0在本节中，我们介绍了实现细节（第4.1节），并进行实验分析了提出的框架。我们首先使用传统的多任务学习范式[22]进行实验（第4.2节）。它展示了我们的解释在同时提高模型准确性和可解释性方面的有效性，并突出了改进视觉定位能力的重要性。0我们还使用我们的模型进行视觉定位。我们还在迁移学习范式下进行实验，并分析推理模型的不同视觉技能，以回答以下研究问题：（1）从解释中学到的知识是否可转移到问题回答中？（第4.3节）（2）不同的视觉技能如何影响答案的正确性？（第4.4节）04.1. 实现0数据集。我们在我们提出的GQA-REX数据集上进行实验，该数据集是基于GQA[12]的平衡训练集和验证集构建的。我们在训练集上优化模型，并在验证集上评估其解释生成的性能。为了评估推理性能，我们采用GQA的平衡验证集和标准测试集。由于用于视觉定位的注释边界框可能与视觉输入不对齐（即UpDown区域特征[2]），我们通过找到与真实边界框具有最高交并比（IoU）的输入区域将定位注释转换为一组标记（即，#i表示边界框与第i个输入区域对齐）。我们还使用最近引入的GQA-OOD数据集[15]进行实验，其中包含了分布之外的数据（即“尾部”问题）。评估。我们从多个角度评估模型，包括推理性能、解释质量、视觉定位和属性识别。我们使用答案准确率来评估推理性能。对于解释质量，我们遵循[22,31, 40]，采用五个语言评估指标，包括BLEU-4[30]、METEOR [20]、ROUGE-L [24]、CIDEr [37]和SPICE[1]。与[12]类似，我们通过聚合预测解释中的定位区域并计算其与真实边界框的IoU来评估视觉定位（即定位）。我们评估八种独特类型的属性识别，包括颜色、材料、运动、形状、姿势、大小、活动和关系。我们只考虑属性在问题中不出现的样本，以避免平凡的解决方案，并计算解释中预测正确属性的召回率。模型规范。我们使用最先进的VisualBert[21]作为视觉推理的主干，使用UpDown区域特征[2]，用于视觉推理（更多细节请参见补充材料）。该模型在MSCOCO[25]数据集上进行了预训练，而不使用问题回答的注释。因此，它使我们能够研究从我们的解释中学到的知识的可转移性。对于解释生成，我们采用[40]中开发的语言生成器作为我们的基线，并结合我们在第3.2节中提出的方法来增强其定位能力。训练。我们使用Adam[18]优化器以批量大小128训练模型。对于多任务学习范式155910BLEU-4 METEOR ROUGE-L CIDEr SPICE Grounding GQA-val GQA-test OOD-val OOD-test0VisualBert [21] - - - - - - 64.14 56.41 48.70 47.03 VisualBert-VQAE [22] 42.56 34.51 73.59 358.20 40.39 31.29 65.19 57.24 49.20 46.28VisualBert-EXP [40] 42.45 34.46 73.51 357.10 40.35 33.52 65.17 56.92 49.43 47.69 VisualBert-REX 54.59 39.22 78.56 464.20 46.80 67.9566.16 57.77 50.26 48.260表2. 解释生成和问题回答的比较结果。GQA和OOD分别表示GQA和GQA-OOD上的结果。最佳结果以粗体显示。0[22]，我们将模型训练为同时预测答案和解释，共进行8个时期。学习率初始化为10^-4，并在最后一个时期降低0.25倍。对于迁移学习范式（第4.3节），我们首先在解释生成上对模型进行8个时期的训练，然后在多任务学习范式下进行15个时期的微调。学习率分别在第8个和第12个时期进行衰减。04.2. 结果0我们首先在多任务学习范式下验证了我们框架的有效性[22]。我们将我们的模型（即VisualBert-REX）与具有相同骨干的三种方法进行了比较，包括VQA基线（即VisualBert[21]）以及两种解释生成方法（即VisualBert-VQAE[22]和VisualBert-EXP[40]）。如表2所示，学习答案和解释（即VisualBert-VQAE和VisualBert-EXP）相较于仅使用答案（即VisualBert），可以合理地提高性能，并能进一步说明决策过程。这表明我们提出的解释可以补充答案注释，并同时提高视觉推理模型的准确性和可解释性。然而，需要注意的是，现有方法缺乏将单词与其对应的感兴趣区域相关联的能力，因此视觉定位得分较低。不同的是，通过明确建模视觉和文本模态之间的关键组件的对应关系，我们的VisualBert-REX方法显著提高了视觉定位得分，进一步提高了生成解释和推理性能的质量。这些观察结果验证了我们解释的有用性，并突出了我们的解释生成方法在增强具有增强视觉定位能力的视觉推理模型方面的优势。除了定量评估外，我们还对预测的答案和解释进行了定性分析。如图4所示，我们的VisualBert-REX通过高质量的解释解释了决策的原因，从而得到更准确的答案。与VisualBert-VQAE和VisualBert-EXP不同，它能够准确地捕捉到重要区域（例如第一个示例中的马和汽车），而不会出现困难。它还通过研究对象之间的关系（例如草地上的马车）来避免困难的负面对象（例如第二个示例中的大马车）。此外，传统方法在实际推理视觉观察时生成答案时（例如第三个示例中不关注关键对象），我们的方法通过对所有感兴趣区域进行推理来忠实地回答问题。0增强的视觉定位能力并将其属性与正确答案进行比较。它还通过研究对象之间的关系（例如草地上的马车）来避免困难的负面对象（例如第二个示例中的大马车）。此外，传统方法在实际推理视觉观察时生成答案时（例如第三个示例中不关注关键对象），我们的方法通过对所有感兴趣区域进行推理来忠实地回答问题。04.3. 知识从解释中学习是否可转移到问题回答中？0以前的方法要么同时回答问题和生成解释[22]，要么为固定答案生成解释[31, 39,40]，并且很少关注从解释中学习的知识的可转移性。受最近的研究[36]的启发，该研究表明从文本语料库中学习的知识可以实现少样本视觉问答，在本节中，我们评估了所提出的基于推理和基于视觉定位的解释的可转移性，并分析了它在将推理过程中的知识蒸馏到问题回答中的有用性。具体而言，我们考虑了一种迁移学习范式：首先在完整的训练集上训练模型进行解释生成，然后在仅使用训练数据的1％、5％和10％的子集上进行微调，同时进行解释生成和问题回答。子集是通过从每种推理类型中随机抽样特定比例的问题创建的，以便保留有关不同推理任务的整体统计信息。我们在完整的验证集上评估模型，不考虑训练数据的数量。为了证明从我们的解释中学到的知识的可转移性，我们将上述方法与三种替代方法进行比较：首先考虑（1）仅VQA和（2）多任务学习基线。它们与第4.2节中讨论的方法相同，但仅在相应的子集上进行训练，因此不会从解释中转移知识。（3）为了验证通过迁移学习实现的改进是否来自解释而不是额外问题的访问，我们进一步与一种自监督学习方法进行比较，该方法在BERT[6]范式下对所有训练问题进行预训练，然后在子集上进行问题回答的微调。两个目标是避免困难的负面对象（例如第二个示例中的大马车）。此外，传统方法在实际推理视觉观察时生成答案时（例如第三个示例中不关注关键对象），我们的方法通过对所有感兴趣区域进行推理来忠实地回答问题。VisualBert-EXPVisualBert-REXVisualBert-VQAE #1 #2 #1 #1 #2 #1 #2 #1 #2 #1 #2 #1 #2 #1 #1 #2 1%5%10%GQAOODGQAOODGQAOODbalanced155920问题：车和马是相同颜色的吗？0预测答案：不是的。0答案：是的。0解释：因为 #1 和 #20解释：因为 #1 是黑色的0是白色的。0预测答案：是的。0解释：因为 #1 和 #20都是黑色的。0问题：草地上的马车看起来是黑色和小吗？0答案：是的。0预测答案：不是的。0解释：因为有一个黑色且不小的 #1在 #2 上。0预测答案：是的。0解释：因为有一个 #10在 #2 上是黑色且小的。0问题：你认为长颈鹿右边的气球是什么颜色？0答案：白色的。0预测答案：白色的。0解释：因为 #1 在0在 #1 的右边是白色的。0预测答案：白色的。0解释：因为 #1 在0#2 的右边是白色的。0预测答案：不是的。0解释：因为有一个黑色且不小的 #1在 #2 上。0预测答案：白色的。0解释：因为 #1 在0在 #2 的右边是白色的。0预测答案：是的。0解释：因为 #1 是黑色的0并且 #2 是白色的。0图4. 解释模型决策过程的定性结果。视觉 grounding 用标记 # 表示。0仅 VQA VisualBert 41.41 27.11 48.53 33.78 51.79 37.830多任务学习 VisualBert-EXP 41.70 27.09 49.36 34.50 52.83 38.33 VisualBert-REX 40.42 23.9550.30 35.69 53.90 40.080自监督学习 VisualBert 45.06 30.62 52.12 38.68 54.74 40.120迁移学习 VisualBert-EXP 51.32 35.26 56.34 41.20 57.65 43.15 VisualBert-REX 57.07 40.0361.28 45.02 61.90 45.980表3. 使用不同比例答案注释训练的模型的比较结果。结果报告在 GQA 的平衡验证集和 GQA-OOD 的验证集上。最佳结果以粗体突出显示。0可以从表3的结果中得出以下观察结果：0从解释中转移的知识在问题回答中起着关键作用。通过整合我们的解释，即使数据稀缺，采用多任务学习范式训练的模型也优于仅采用 VQA基线模型。此外，通过从解释中转移更丰富的知识，迁移学习方法大幅提高了性能，并且无论答案注释的数量如何，都取得了最佳结果。值得注意的是，仅使用 10%的答案，VisualBert-REX 的性能与完整训练集上训练的VisualBert 相当。相反，自监督学习也增加了推理能力。0性能方面，自监督学习并不如迁移学习有效。这些观察结果证明了从我们的解释中学到的知识的可转移性，并突出了它在建立对视觉推理更高效学习的推理过程理解中的作用。0视觉 grounding 对于知识传递非常重要。与VisualBert-EXP 相比，具有增强视觉 grounding 能力的VisualBert-REX在迁移学习范式下取得了更好的结果，展示了我们方法在不同训练范式下的优势。更重要的是，它突出了视觉grounding在开发更好的推理过程理解和知识传递中的重要性。155930召回率皮尔逊相关系数0颜色 56.01 0.7420材料 49.27 0.7080运动 72.77 0.5750形状 40.64 0.5480姿势 74.80 0.4170大小 65.31 0.5740活动 46.58 0.6660关系 29.00 0.1820表4.捕捉与不同视觉技能相关的关键概念的召回率，以及它们与推理性能的相关性。0从解释到问题回答的边缘。04.4. 不同的视觉技能如何影响答案的正确性？0回答视觉问题涉及执行各种视觉技能[38]，例如识别物体的属性，如颜色和位置关系。现有研究通过将问题分类到不同的组别并分别进行分析[3，9，12，38]来评估这些技能。虽然这些研究在研究模型处理不同类型问题的能力方面具有用处，但它们未能解释成功执行技能与正确回答问题之间的关系。在本文中，我们使用更明确的方法分析各种技能如何影响答案的正确性。具体而言，我们通过模型在解释中推导相应概念的能力来评估对八种常见属性的识别，例如，成功识别颜色需要模型用关键颜色解释其决策，并利用捕捉概念的召回率进行定量分析。在表4中，我们报告了不同技能的评估分数及其与正确答案预测概率的皮尔逊相关系数。我们对结果进行了两点观察：属性的识别对于正确回答很重要。我们的结果显示，所有属性的召回率与推理性能有合理的相关性，这验证了在回答视觉问题时捕捉关键属性在图像中的重要性。属性对答案的正确性贡献不均等。值得注意的是，模型在识别不同属性方面的性能各异，技能与答案正确性之间的差异也很显著（例如，识别颜色与识别关系）。结果表明，虽然对于人类来说，捕捉不同的关键属性以正确回答问题很重要，但这些属性的贡献程度不相同。0计算模型的决策制定对视觉推理模型的决策制定具有同等重要性。我们的结果揭示了视觉推理模型决策制定的潜在机制，并揭示了各种视觉技能对答案正确性的影响。05. 讨论0我们引入了REX，这是一个有原则的框架，具有一种新型的具有推理意识和基于基础的解释，一个用于自动构建解释的功能程序，以及一种明确地将不同模态的关键组件耦合在一起的新颖解释生成方法。实验结果证明了我们的框架在解释模型的决策过程和改善视觉推理性能方面的有用性。它们还强调了增加模型的视觉基础能力以理解推理过程的重要性。局限性。尽管我们的数据和模型具有上述优势，但我们认为解释性视觉推理仍有很大的空间。虽然所提出的数据提供了从各种图像和词汇中派生的多模态解释，但仍可能无法涵盖所有类型的现实世界问题。例如，有些问题可能需要在给定的视觉-文本数据中无法获得的外部知识[29]。解决这些挑战的一个可能的方向是将解释与外部知识库的视觉和语言预训练相结合（例如，[34]），因为我们的实验证明了解释与知识转移的有效性。06. 更广泛的影响0赋予AI系统以高质量的多模态解释能力是迈向可信AI的重要一步. 它可以从根本上解决AI算法黑盒的关键需求. 因此,我们预见这项工作将为许多领域提供新的机会,特别是那些将可解释性和透明性视为高优先级的领域,如医疗保健, 金融和立法.强调多模态理解的新范式和具有多样化高质量解释的大规模数据集可能会在这些领域中推动创新和发展.解释生成模型阐明了推理过程和决策制定中的关键组成部分,缓解了决策关键应用中的安全或公平风险.我们希望这项工作能成为一个有用的资源,为社区开发可解释和透明的AI系统开辟新的道路.0致谢0本工作得到NSF Grants 1908711和1849107的支持.155940参考文献0[1] Peter Anderson, Basura Fernando, MarkJohnson和Stephen Gould. SPICE: 语义命题图像描述评估.在ECCV中, 第382-398页, 2016年. 50[2] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould和Lei Zhang.自底向上和自顶向下的注意力用于图像字幕和视觉问答.在CVPR中, 第6077-6086页, 2018年. 1, 2, 50[3] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick和Devi Parikh.VQA: 视觉问答. 在ICCV中, 第2425-2433页, 2015年. 2, 80[4] Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez,Marcal Rusinol, Ernest Valveny, C.V. Jawahar和DimosthenisKaratzas. 场景文本视觉问答. 在ICCV中, 第4290-4300页,2019年. 20[5] Shi Chen, Ming Jiang, Jinhui Yang和Qi Zhao. AIR:具备推理能力的注意力. 在ECCV中, 第91-107页, 2020年. 40[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee和KristinaToutanova. BERT: 深度双向转换器的预训练用于语言理解.在NAACL中, 第4171-4186页, 2019年. 60[7] Radhika Dua, Sai Srinivas Kancheti和Vineeth NBalasubramanian. 超越VQA: 生成多词答案和视觉问题的解释.在CVPR Workshop中, 第1623-1632页, 2021年. 1, 2, 30[8] Akira Fukui, Dong Huk Park, Daylen Yang, AnnaRohrbach, Trevor Darrell和Marcus Rohrbach.多模态紧凑双线性池化用于视觉问答和视觉定位. 在EMNLP中,第457-468页, 2016年. 20[9] Yash Goyal, Tejas Khot, Douglas Summers-Stay, DhruvBatra和Devi Parikh. 让V在VQA中有意义:提升图像理解在视觉问答中的作用. 在CVPR中, 第6325-6334页,2017年. 2, 80[10] Ronghang Hu, Jacob Andreas, Trevor Darrell和KateSaenko. 通过堆叠神经模块网络实现可解释的神经计算. 在ECCV中,第55-71页, 2018年. 20[11] Drew Hudson和Christopher D Manning. 通过抽象学习:神经状态机. 在NeurIPS中, 第32卷, 2019年. 20[12] Drew A. Hudson和Christopher D. Manning. GQA:一个用于现实世界视觉推理和组合问题回答的新数据集. 在CVPR中,第6693-6702页, 2019年. 2, 4, 5, 80[13] Justin Johnson, Bharath Hariharan, Laurens van derMaaten, Li Fei-Fei, C. Lawrence Zitnick, and Ross Girshick.CLEVR: 一个用于组合语言和基础视觉推理的诊断数据集.在CVPR中, 第1988-1997页, 2017年. 2, 40[14] Justin Johnson, Ranjay Krishna, Michael Stark, Li-Jia Li,David A. Shamma, Michael S. Bernstein和Li Fei-Fei.使用场景图进行图像检索. 在CVPR中, 第3668-3678页, 2015年. 20[15] Corentin Kervadec, Grigory Antipov, Moez Baccouche, and ChristianWolf.玫瑰是红色的，紫罗兰是蓝色的...但是VQA应该期望它们吗？在CVPR中，第2776-0[16] Jin-Hwa Kim, Jaehyun Jun, and Byoung-Tak Zhang.双线性注意网络。在NeurIPS中，第1571-1581页，2018年。1，20[17] Jin-Hwa Kim, Kyoung Woon On, Woosang Lim, JeongheeKim, Jung-Woo Ha, and Byoung-Tak Zhang.用于低秩双线性汇聚的Hadamard乘积。在ICLR中，2017年。20[18] Diederik P. Kingma and Jimmy Ba.Adam：一种随机优化方法。在ICLR中，2015年。50[19] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson,Kenji Hata, Joshua Kravitz

下载后可阅读完整内容，剩余1页未读，立即下载