多模态知识的可视化问答：从视觉到文字的多模态知识积累与利用

135 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5089（一）知识图Tell ittimetowerr多模态知识时钟Q：你能猜出这张照片中的A：伦敦罗马数字对表问：这种摩托车叫什么名字答：川崎MuKEA：面向基于知识的可视化问答的多模态知识提取与积累杨丁1，2，于晶1，2，刘邦3，4†，胡跃1，2，崔明新1，2，吴琦51中国科学院信息工程研究所，北京，中国2中国科学院大学网络安全学院，北京，中国3Universite′deMontre′ al，Canada4Mila-QuebecAIInstitute，Canada5阿德莱德大学，澳大利亚{丁阳，于静02，胡跃，崔明欣}@ iie.ac.cn，刘邦@ umontreal.caadelaide.edu.au摘要基于知识的可视化问答需要关联外部知识的能力，以实现开放式的跨模态场景理解。现有解决方案的一个局限性是，它们从纯文本知识库中捕获相关知识，纯文本知识库仅包含由一阶谓词或语言描述表达的事实，而缺乏用于视觉理解的复杂但不可或缺的多模态知识。如何构建视觉相关的和可解释的多模态知识的VQA的情况下，研究较少。在本文中，我们提出MuKEA表示多模态知识的一个显式的三元组，以关联视觉对象和事实答案的隐式关系。为了弥合异质性的鸿沟，我们提出了从互补视图学习三元组表示的三个客观损失：嵌入结构、拓扑关系和语义空间。通过采用预训练和微调学习策略，基本和特定领域的多模态知识都逐步积累的答案预测。我们在两个具有挑战性的知识需求数据集：OK-VQA和KRVQA上的表现分别超过了3.35%和6.08%实验结果证明了多模态知识与现有知识库的互补优势，以及我们的端到端框架相对于现有管道方法的优势该代码可在https://github.com/AndersonStra/MuKEA 上获得。1. 介绍基于外部知识库（KB-VQA）[37]的可视化问题查询需要AI代理来回答*通讯作者。†加拿大CIFAR AI主席。知识图多模态知识道路照明摩托车川崎摩托车轮驱动时钟伦敦（b）第（1）款图1.这是我们动机的一个例证。与知识图中的刚性事实相比，描述复杂和不可表达的事实的多模态知识在开放式对象理解（a）和场景理解（b）中都不可或缺通过将关于世界的知识结合到问题和图像所包含的内容中来提出问题。尽管在VQA任务中取得了巨大的成功[11，40]，但KB-VQA更需要模型实现与外部知识相关联的开放式跨模态场景理解的类似人类的能力。因此，如何在这种跨模态的场景中适当地表示和利用知识成为KB-VQA的核心问题。最近的大部分工作[9，23，46]专注于从结构化知识图（如ConceptNet [18]和DBpedia [4]）或非结构化/半结构化知识（如Wikipedia [1]和Visual Genome [15]）中捕获相关知识。虽然这些知识库通过大规模的人工注释提供因此，这种知识基础很难代表高阶预测。5090这是人类处理复杂问题所必需的知识。考虑到图1（a）中的问题，智能体需要每个品牌中摩托车外观的视觉知识来识别给定的摩托车，但知识图缺乏这种即时信息。当人类被要求进行简单的场景辨别时，除了物体理解外，大脑中的内隐视觉知识大多支配着刚性事实，比如“你能猜出这个地方吗？”在图1（b）中。如何在保持传统知识图在可解释推理方面的优势的同时，表示和积累VQA场景中复杂的多模态知识，是一个重要但研究较少的问题。新兴的多模态知识图的当前进展[17，30，33典型的解决方案可以分为两类：将图像和文本解析为结构化表示并跨模态接地事件/实体[13，17，39]，或者简单地将现有知识图中的实体与相关图像对齐[30，33]。然而，这种多模态知识图本质上仍然通过一阶谓词表示知识，这无法对高阶复杂关系（例如图1（b）中的“时钟”和“伦敦”之间的关系）进行建模在本文中，我们提出了一种新的多模态知识抽取和累积框架（MuKEA）的KB-VQA任务。独立于现有的知识库，MuKEA的核心机制是通过对VQA样本的观察积累具有复杂关系的多模态知识，并基于自积累的知识进行可解释的推理。为此，我们首先提出了一种新的模式，通过显式三元组来表示多模态知识单元，其中问题所涉及的视觉对象嵌入在头实体中，事实答案的嵌入保持在尾实体中，而头和尾之间的隐式关系由关系来表示。我们提出了三个目标损失函数，通过对比正负三元组，对齐地面真值三元组和细化实体表示来从粗到细学习三元组的表示。预训练和微调学习策略逐步积累多模态知识，从域内外VQA样本的可解释推理。本工作的主要贡献如下：(1) 提出了一个端到端的多模态知识表示学习框架，该框架首先通过显式三元组对不可表达的多模态事实进行建模，并利用现有的知识图和非结构化知识库提供补充知识。(2) 我们利用预训练和微调策略来积累域外和域内知识，以形成神经多模态知识库。它支持自动知识关联和答案预测，消除了现有“知识检索和读取”管道中的级联错误(3) 我们的模型具有很强的泛化能力，在两个具有挑战性的KB-VQA数据集：OK- VQA [24]和KRVQA [7]上分别比最先进的模型高出3.35%和6.08%。通过可视化相关多模态，可以很好地解释知识三元组明确。2. 相关工作基于知识的可视化问答。目前的工作大多基于基于结构化知识的方法（如[9]）基于ConceptNet [18]，以一阶预测的三元组形式引入知识。基于非结构化知识的方法[24]从维基百科[1]中检索知识，并在记忆网络中对相关文本进行编码以进行进一步推理。然而，自然语言描述的知识缺乏视觉信息来辅助跨模态理解。对于上述挑战，[44]使用相关图像增强知识图YAGO [31]然而，这种图在本质上仍然通过一阶谓词表示知识。为了更进一步，我们提取多模态信息来表示高阶复杂关系，并通过显式三元组来表示多模态知识以进行可解释推理。从模型框架的角度来看，最近的大多数工作都是基于这些方法都依赖于对象标签来获取外部知识，不可避免地引入了无关知识，导致级联错误。还有基于隐式知识的端到端方法，如预训练模型[20，23，34]。然而，这种内隐知识主要捕获的是图像-问题-答案三元组的共现，而不是可解释的和精炼的知识。在本文中，我们提出了一个端到端的多模态知识提取和积累框架，解释三元组知识。多模态知识图新兴的多模态知识图谱工作[17，30]旨在将视觉内容与文本事实相关联以形成增强的知识图谱。一种典型的解决方案首先将图像和文本解析为结构化表示，并跨模态将事件/实体接地。关键问题在于模态内关系提取和跨模态实体链接，5091i=1∈∈i=1i=1∈OO{}O∈联系我们图2.我们的模型概述。该模型包含两个模块：多模态知识三元组抽取模块，用于从样本中抽取多模态知识三元组;知识三元组表示学习模块，用于统一学习三元组表示。ing.具体来说，[17，26]从结构化的文本和视觉数据中学习知识，并维护用于实体对齐的三元组结构。[13]利用RDF [22]知识图来表示基于图对齐的多模态信息，并且缺乏多模态相关性。另一种解决方案直接将现有知识图中的实体与相关图像相关联。[30]添加图像以扩展YAGO中的实体表示[31]。然而，这些方法本质上仍然是通过自然语言描述的一阶谓词来表示知识，无法对高阶复杂关系进行建模。3. 方法给定图像I和问题Q，KB-VQA任务旨在预测由给定视觉和文本内容之外的外部知识支持的答案A 我们累积三元组形式的多模态知识作为外部知识，并以端到端的模式直接推断答案。图2给出了我们模型的详细说明。首先，我们介绍了一种新的模式，提取多模态知识三元组从非结构化的图像问题的答案样本的基础上预先训练的视觉语言模型。然后，我们提出了三个客观损失来学习三重嵌入，这些嵌入准确地描述了问题参与的视觉内容（头部嵌入），问题期望的事实答案（尾部嵌入）以及两者之间的隐式关系（关系嵌入）。通过使用域外和域内数据进行训练，我们的模型积累了广泛的多模态知识，并将最佳事实与答案预测相关联。3.1. 多模态知识三元组抽取在VQA场景中，我们将复杂和不可表达的事实定义为多模态知识，其形式为三元组，即（h，r，t），其中h包含由问题聚焦的图像中的视觉内容，t是给定问题-图像对的答案的表示，并且r描绘了包含多模态信息的h和t之间的三联体施工工艺主要由以下四部分组成：图像和问题编码。由于预训练的视觉语言模型在建模模态内和跨模态隐式相关性方面很强，因此我们首先利用预训练模型LXMERT [34]对问题和图像进行编码，以进一步提取多模态知识三元组。我们应用FasterR-CNN [32]来检测一组对象i =oiK（K= 36），并且通过视觉特征向量fi 来Rdf （df=2048）和空间特征向量biRdb（d b= 4）。我们使用WordPiece [38]标记问题Q并获得D标记的序列。我们输入视觉特征fiK和biK，和问题标记到预先训练的LXMERT中，获得表示为VRK×dv（dv= 768）和标记嵌入表示为QRD×dv。头部实体提取。我们将头部实体定义为与问题最相关的视觉对象及其在图像中的上下文。为此，我们首先通过计算问题引导的对象-问题相关性亲和矩阵A来评估图像中的每个对象与问题中的每个令牌的相关性：A=（W1Q）T（W2V）（1）其中W1和W2是学习参数。在关联亲和矩阵的指导下，然后选择一个对象作为与问题最相关的视觉内容。由于LXMERT对所有对象之间的隐式相关性进行建模，因此值得注意的是，所选择的以问题为中心的对象已经包含其上下文信息，这为输入对象区域图像嵌入相关性亲和矩阵多模态知识三元组抽取一热分配图像嵌入图像FasterR-CNN×逐行Max-Pooling.·FFN........Gumbel-Softmax什么，是，...，那个，蝙蝠？问题Tokenize那是什么…？·点积多模态知识主管实体关系尾部实体你好，我是来找你的问题嵌入（，，（Swing+[CLS]FFN多模态嵌入111213交叉熵212223313233查找表摆动否定回答均方误差秋千架秋千架发挥×矩阵乘积知识三元组表示学习+那个人拿着球棒干什么+L X M E R T=5092i=1∈ AΣ····我i=1JJ一v−q一--+回答涉及多个物体的问题。具体地，我们计算A上的行最大池化，以评估每个对象与问题的相关性，如下所示：av−q= maxAi，j（2）3.2. 知识三元组表示学习由于三元组中的每个分量都包含模态不同和语义特定的信息，因此我们提出了三个损失函数来统一地学习三元组，为了弥合异质性差距，然后用硬注意代替软注意，选择最相关的对象作为基于头部实体的对象在{a}K。与温柔的关注相比，严厉的关注-语义鸿沟这三个损失从互补的角度限制了三重表示：三重transE损失通过对比位置来保留嵌入结构，正和负三元组。三重一致性损失tion提供了更稳定和可解释的视觉内容，多模态知识表示，也更容易通过实体链接与现有知识图结合在这里，我们进行Gumbel-Softmax [12]以获得近似的one-hot分类分布。对象oi的注意力权重计算为：exp（（log（av−q）+gi）/τ）进一步迫使三元组内的三个嵌入保持严格的拓扑关系，并且语义一致性损失将嵌入映射到公共语义空间中以用于多模态内容之间的直接比较。三重峰TransE丢失。受传统知识图领域的知识嵌入方法TransE [6]的启发，我们采用类TransE的客观损失作为一种结构，α=i（三）在我们的多模态场景中保留约束给定iΣKexp（（log（av−q）+g）/τ）一个图像-问题对，让+和-表示的集合其中g iK是i.i.d.。从Gumbel（0，1）1中抽取的样本，τ是softmax温度。最后，我们收集以问题为中心的对象信息，并获得头部实体表示h为：K正确的（肯定的）和不正确的（否定的）答案。令h和r表示对应的提取的头部和尾部实体表示。我们把距离拉近-在h+r和每个重复的尾t+之间+比h+r和每个负尾t−∈ A−之间的距离小一定的余量γ：h= FFN（αivi）（4）i=1LtransE=100[γ+d（h+r，t+）−d（h+r，t−）]+其中vi∈V，FFN表示前馈网络哪里t+∈A+t−∈A−（五）包含两个完全连接的层。关系提取。与传统知识图中描述独立于具体视觉场景的一阶预测的关系不同，多模态知识图中的关系定义为观察到的实例化对象与对应事实答案之间的复杂隐式关系。由于LXMERT通过分层变换器中的自注意机制捕获图像和问题之间的隐式相关性，因此我们从[CLS]令牌中提取跨模态表示，并将其馈送到FFN层以获得关系嵌入，表示为r。尾部实体提取。我们将尾部实体定义为图像-问题-答案样本中的答案，它揭示了关于问题所指视觉对象的事实的特定方面。在训练阶段，我们将地面实况答案设置为尾部实体，以从头开始学习其表示t（详情见第3.2节）。在推理阶段，我们将KB-VQA任务定义为多模态知识图完成问题，并在我们的神经多模态知识库中全局评估知识，以预测最佳尾部实体作为答案（详见第3.3节）。1Gumbel（0，1）分布可以通过绘制u=Uniform（0，1）并计算g=[]+max（0，）和d（，）表示遵循[ 21 ]中设置的余弦距离。三重一致性丢失。上述TransE损失的问题是，一旦在训练期间正对之间的距离比负对之间的距离小了裕量γ，模型将停止从三元组学习为了进一步推动嵌入以满足严格的拓扑关系，我们应用均方误差（MSE）标准来约束每个正三元组顶部的表示为：LTri=MSE（h+r，t）（6）语义一致性丢失。我们随机初始化尾部实体的查找表，并与头部和关系一起学习它们的表示。查找表T中的每个尾部实体对应于训练VQA样本中的唯一答案。为了在尾部表示中引入答案的语义，同时缩小文本形式的尾部实体与多模态形式的头部实体和关系之间的异质差距，我们对尾部词汇上的三元组进行分类，并迫使模型通过负对数似然损失来选择P（t+）=soft max（（T）T（h+r））j=15093（7）+- log（−log（u）LSem=−log（P（t））（8）5094方法知识资源精度ArticleNet（AN）[24]维基百科5.28仅限Q [24]-14.93BAN [14]-25.17+AN [24]维基百科25.61+ KG-AUG [16]维基百科+概念网26.71MUTAN [5]-26.41+ [24]维基百科27.84[46]第四十六话ConceptNet29.20GRUC [41]ConceptNet29.87[44]第四十四话来自OK-VQA的31.32[20]第二十话-31.35LXMERT [34]-32.04KRISP（无mm预处理）[23日]DBpedia + ConceptNet + VisualGenome + haspartKB32.31KRISP（w/ mm预处理）[23日]DBpedia + ConceptNet + VisualGenome + haspartKB38.90ConceptBert [9]ConceptNet33.66知识就是力量[45]YAGO339.24MuKEA来自VQA 2.0和OK-VQA的42.59表1. OK-VQA数据集的最新技术水平比较。中间列列出了每个VQA系统中使用的外部知识来源（如有）。中间部分中的行列出了基于预训练模型的方法。其中P（t+）是地面真实尾部t+ 的预测概率。总之，我们的最终损失定义为：L=LtransE+L Tri+L Sem（9）3.3. 知识积累与预测我们采用两阶段训练策略来逐步积累多模态知识：（1）在VQA 2.0数据集[10]上进行预训练以积累基本的视觉主导知识，然后（2）对下游KB-VQA任务的训练数据进行微调以积累更复杂的特定领域的多模态知识。VQA 2.0中的所有问题分为三类：是/否、数量和其他。由于前两类问题的答案不能作为事实知识，我们只保留了其他类型的问题用于预训练。在推理阶段，我们把答案预测看作是一个多模态知识图的补全问题。给定一个图像和一个问题，我们将它们输入网络，并获得头部实体hinf和关系rinf的嵌入。我们计算hinf+rinf之间的距离和查找表T中的每个尾部实体ti，并选择最小距离的尾部图元为：tinf= arg min d（hinf+rinf，ti）（10）ti∈T选择对应于最优尾部实体t_inf的答案作为预测答案。4. 实验数据集和评估指标。我们在两个数据集上进行了广泛的实验：外部知识VQA[ 24 ][25][26][27][28][29] OK-VQA包含超过14，000个问题，涵盖10个知识类别。它是多样的和具有挑战性的，因为所有的问题都是人工注释的，没有固定的问题模板或知识库，这需要探索广泛的开放式知识资源。我们通过标准VQA评估度量[3]评估性能。KRVQA [7]是迄今为止最大的基于知识的VQA数据集。基于外部知识评价模型的多步推理能力。我们使用[7]中的top-1准确度进行公平比较。实施详情。对于所有实验，我们使用PyTorch训练我们的模型[27]。等式中的softmax温度τ3设置为1.0。我们使用训练集中所有带注释的答案来构建知识三元组。对于三重排序损失，我们将一批中与阳性样本答案不同的所有样本视为阴性样本。保证金设置为1.0。我们的模型由AdamW[19]优化器训练，具有200个epoch，其中批量大小为256，学习率在预训练和微调阶段分别设置为1 × 10−5和1 × 10−44.1. 与最新方法的OK-VQA的比较：表1显示了与最先进模型的比较结果，包括基于知识图的方法[9，41，45，46]、基于非结构化知识的方法[24]、基于多源知识的混合方法[16，23]、基于隐式知识的预训练方法[20，34]和基于多模态知识的方法[44]。同时，我们还与传统的VQA方法[5，14]进行了比较。我们的模型MuKEA始终优于所有5095LLLLLL方法KB无关KB相关整体一步两步一步两步0 1 23 4 5 623 4 5 6Q型[7]36.19 2.788.2135.97 3.66八点零六分0.090.00 0.18 0.06 0.338.12LSTM [7]45.98 2.792.7540.67 2.62一点七二0.430.00 0.52 1.65 0.748.81电影[29]52.42 21.35 18.5045.23 42.36 21.326.275.48 4.37 4.41 7.1916.89MFH [43]43.74 28.2838.71 36.48 20.7712.975.10 6.05 5.02 14.3819.55UpDn [2]56.42 29.89 28.6349.69 43.87 24.7111.078.16 7.09 5.37 13.9721.85MCAN [42]49.60 27.67 25.7639.69 37.92 21.22 18.6312.289.35 9.22 5.2320.52+ 知识检索[7]51.32 27.1441.23 38.86 23.2513.599.849.24 5.5121.30MuKEA59.12 44.8852.47 48.08 35.6317.626.149.85 6.22 18.2827.38表2.KRVQA数据集的最新比较第三行的数字表示不同类型的问题。现有的方法，并优于国家的最先进的模型[45]显着的3.35%。与大多数遵循“知识检索和阅读”管道并参考固定知识库的模型相比，我们的端到端模型有效地避免了级联错误，同时受益于以人为中心的多样化多模态知识。此外，我们的模型大大优于预训练模型10%，因为我们的模型捕获了以问题为中心和信息抽象的多模态知识，而不是预训练框架中的简单视觉和语言共现“知识”。尽管KM4通过将图像与现有知识图中的实体相关联来利用多模态知识，但它仍然缺乏具有高阶复杂关系的知识，并且比MuKEA低11.27%。KRVQA比较：在表2中，我们将MuKEA与传统VQA模型[2，29，42，43]和基于知识的模型[7]进行了比较。我们的模型始终优于现有模型，并在最佳模型的整体指标上实现了6.08%的显着提升[2]。值得注意的是MuKEA在两步推理3问题上不如某些模型，因为这些问题的答案大多是关系，而MuKEA的累积和预测尾实体在大多数情况下是事实实体4.2. 消融研究在表3中，我们在OK-VQA数据集上评估了MuKEA中知识学习损失、知识提取模式和知识积累策略的贡献。(1)在模型“2- 5”中性能损失函数去除LTri和LSem的准确度分别降低1.24%和1.24%。表3.在OK-VQA上消融MuKEA中的关键组件0.53%，而去除TransE导致模型“5”显著降低。因为TransE在我们的多模态知识库中保留了整个三元组的嵌入结构，这比Tri和Sem具有更大的影响。与“2”和“3”相比，模型“4”导致进一步降低，这表明Tri和Sem的互补效益。（2）在模型“6- 8”中，我们评估了三重态提取方法的影响。对于头部实体提取，我们在'6'中用软注意替换Gumbel-Softmax，性能下降了1.92%。这是因为，从LXMERT派生的头部实体已经包含了复杂问题的以对象为中心的上下文语义，而直接将对象特征融合在一起会引入意外的噪声。同样，我们在LXMERT的所有输出标记上应用自我注意来表示'7'中的关系，与使用 [ C L S ] 标记相比，准确率降低了 1 . 8 0 % ，这得益于预训练分类任务包含高度相关的多模态方法精度1.MuKEA（全模型）42.59功能丧失的消融2.不含LTri3.不含LSem4.不带LTriLSem5.不含LTransE41.3542.0640.8424.50三重态表象6.头实体w/软注意7.自我关注/self-attention8.带手套的40.6740.7941.42三重态结构9.w/oh10. 无/无39.8339.40知识源11. 不具备VQA 2.0知识12. 无OK-VQA知识36.3527.20消除培训前知识13. 无LXMERT预培训33.525096方法故障子集MUTAN + ANMuckoKRISPMuKEA40.0940.0640.46（一）方法故障子集MuKEAMUTAN + AN26.45Mucko27.68KRISP27.68（b）第（1）款表4.基于KB的模型的故障子集上的MuKEA准确性（a），反之亦然（b）。* 表示模型已重新实现。信息.此外，我们利用GloVe [28]来表示'8'中的尾部实体(3)在模型“9- 10”中我们分别移除头部实体和尾部实体。绩效分别下降了2.76%和3.19%，证明了基于三元组的知识组织结构的有效性。(4)在模型“11- 12”中很明显，如果没有这两个过程中的任何一个，性能会显着下降。虽然VQA2.0与OK-VQA中的特定领域知识相比，OK-VQA中的特定领域知识的影响较小，两者一起工作可以实现最佳性能。(5)在模型“13”中LXMERT。在没有预训练的情况下，准确率下降了9.07%4.3. 知识互补分析为了证明我们的多模态知识与现有知识库的互补优势，我们在OK-VQA数据集上进行了两个实验：（1）MuKEA和现有模型在相互故障情况下的性能，以及(2)对MuKEA和Ex-KEA集合模式的性能进行了比较。在这里，我们测试了三个典型的基于知识库的模型：非结构化维基百科上的MUTAN + AN [24]，结构化ConceptNet上的Mucko [46]和多个知识库上的KRISP[23]。我们重新实现了这些模型，以便在同一子集上进行公平比较。表4显示了MuKEA在上述三种模型的失效OK-VQA测试子集上的性能，反之亦然。MuKEA在基于知识库的模型的所有故障情况下始终达到40%以上的准确度（表4（a））。同时，基于知识库的模型在MuKEA难以解决的问题上获得了超过 26% 的准确率（表 4（b））。证明表5.模型集成在OK-VQA上的性能。方法精度m精度KRISP32.3126.91MuKEA42.5935.42表6. OK-VQA数据集上的长尾分析。多模态知识和现有知识库知识分别处理不同类型的开放式问题。我们进一步组装MuKEA分别与三个模型：如果由方程预测的前2个最小距离的差异10大于阈值m（m=0.07）时，选择MuKEA的预测结果，否则，选择另一个在表5中，在模型集成之后，基线模型分别改进了9.96%、8.80%和5.73%我们还提出了oracle设置，需要从任何一个模型的准确预测作为答案。oracle性能得到显著提高，这进一步证明了多模态知识和现有知识库的互补优势。4.4. 长尾分析为了证明该模型受场景图生成中的无偏度量的启发[8，35]，mAccuracy分别计算每个唯一答案的通过对MuKEA和KRISP的比较，说明了MuKEA对多个知识源具有很强的泛化能力.在表6 中，我们的模型在mAccuracy上大大优于 KRISP 8.51%，这证明了多模态知识对长尾知识的强大泛化能力，而不会牺牲频繁引用知识的准确性。4.5. 定性分析从图3中的案例研究，我们得出结论，我们的模型是可解释的，通过可视化预测的多模态知识三元组：（1）MuKEA捕获实例化的知识，有利于对象理解。的方法精度MuKEA42.59MUTAN + AN25.43Mukea +（MUTAN +AN）35.39MuKEA +（MUTAN + AN）oracle43.64Mucko27.17Mukea + Mucko35.97MuKEA + Mucko Mucko44.84KRISP32.02MuKEA + KRISP37.75MuKEA + KRISP数据库47.155097问：这张照片中的电子设备是什么？问：这些建筑中展示的是什么类型的建筑？Q：在堆栈中的橙子是什么风格？问：这是一架什么样的飞机？问：为什么这很危险？问：所示物种的孩子叫什么名字？图3. KRISP（绿色）和MuKEA（粉色）的预测答案和支持知识的可视化。对于MuKEA，图像中的红框显示头部实体（方程式中的αi）。（3）第三章。底部VQA训练样本与测试样本具有最接近的关系嵌入，显示了积累支持当前推理的关系知识的场景。答案就在尾部。第一行中的示例指示MuKEA捕获对象外观和以对象为中心的事实之间的复杂知识支持知识的形式是一个完整的三元组（左例）或只是不可表达的关系（右例）。(2)MuKEA包含了有利于场景理解的多目标复杂知识. 在第二排，MuKEA能够将建筑群的视觉内容与城市风格(3) MuKEA通过直接推理知识嵌入避免了级联错误。现有模型通常首先检测对象标签以检索相关知识，这会引入意想不到的噪声，QN我的M a t er i aled使这个汽车座椅显示？问：这是哪一行的徽章？图4. OK-VQA上MuKEA的代表性失效案例5. 结论虚假标签MuKEA的优势在于采用语义丰富的嵌入，以端到端的模式表示关于答案的知识和原因。4.6. 局限性分析MuKEA主要在以下情况下失败（图4）：(1) MuKEA缺乏足够的多模态知识，例如区分尼龙和帆布的知识，这是由于训练阶段的VQA场景有限。(2)MuKEA在提取一些三胞胎时失败。由于头部实体和关系是在无监督模式下提取的，视觉相似的内容导致注意偏离，例如背心被错误地视为徽章。上述问题有待于进一步研究，积累更全面的知识，评价三重态提取的质量。我们还测试了MuKEA在VQA 2.0上的一些作品较差的结果，因为在VQA 2.0中的问题主要依赖于视觉外观线索，而不是外部知识。在本文中，我们提出了一个新的框架，基于知识的视觉问答，它侧重于多模态知识的提取和积累，而不是使用外部知识库。我们提出了一种新的模式来表示多模态知识的显式三元组和三个损失函数学习的表示从粗到细。我们采用预训练和微调策略来逐步积累多模态知识。我们的模型在KB-VQA数据集上的表现优于最先进的技术，并从多模态知识的角度推进了最近的研究。我们证明了对现有知识图的补充。如何有效地将MuKEA与知识库结合起来将是未来的工作。确认本工作得到了国家自然科学基金（批准号：2000000000）的资助。62006222）。KRISP：笔记本电脑MuKEA：远程控制知识图多模态知识（screen，is on，laptop）（laptop，has，screen）（按钮，（远程）问地面实况：远程KRISP：维多利亚女王MuKEA：Gothic知识图多模态知识（victoria，is a，comic）（城市，哥特式）问这张照片？Ground Truth：GothicKRISP：bipelaneMuKEA：prop plane知识图多模态知识（biplane，is a，airplane）（螺旋桨，、螺旋桨飞机）问Ground Truth：JETKRISP：GrannySmithMuKEA：navel知识图多模态知识（苹果，能干，史密斯奶奶）（橙色，肚脐）Q地面真相：肚脐KRISP：dangerMuKEA：drown知识图多模态知识（danger，has property，bad）（水，，淹死）问有记录的事件吗地面实况：100英尺KRISP：牧群MuKEA：小牛知识图多模态知识（sheep，is in，herd）（羊群，有部分，羔羊）（牛，，小牛）问地面实况：小牛MuKEA：CanvasGround Truth：nylon知识图多模态知识（nylon，is a，material）（座位，、帆布）问：这是两个月的工资吗？Ground Truth：CanvasMuKEA：联合包裹服务公司地面实况：科威特航空公司知识图多模态知识-(vest、，联合包裹服务）Q：这是哪条线地面实况：transat5098引用[1] 维基百科：自由的百科全书 https ： //www.wikipedia.org/. 一、二[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。6[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页5[4] SohenAuer ， ChristianBizer ， GeorgiKobilarov ，JensLehmann ， Richard Cyganiak 和 Zachary Ives 。Dbpedia：开放数据网络的核心。在语义网中，第722-735页。Springer，2007. 1[5] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。在IEEE国际计算机视觉会议论文集，第2612-2620页，2017年。5[6] Antoine Bordes 、 Nicolas Usunier 、 Alberto Garcia-Duran、Ja- son Weston和Oksana Yakhnenko。为多关系数据建模转换嵌入神经信息处理系统进展，26，2013。4[7] Qingxing Cao，Bailin Li，Xiaodan Liang，Keze Wang，and Liang Lin.知识路由视觉问题推理：深度表征嵌入的IEEE Trans- actions on Neural Networks and LearningSystems，2021。二、五、六[8] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在IEEE/CVF计算机视觉和模式识别会议论文集，第6163- 6171页，2019年。7[9] 弗朗索瓦·加代尔，玛丽·米·兹·艾法德，巴蒂斯特·阿贝卢斯和弗雷迪·勒库。Conceptbert：视觉问答的概念感知表示。在2020年自然语言处理经验方法会议论文集：结果，第489-498页，2020年。一二 5[10] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使vqa中的v重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第6904-6913页，2017年。5[11] 韩宇东，郭阳阳，尹建华，刘猛，胡玉鹏，聂立强.焦点和合成视觉-视觉问答的语义建模。在第29届ACM多媒体国际会议上，第4528-4536页，2021年。1[12] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新参数化。在2017年的国际学习代表大会上。4[13] Amar Viswanathan Kannan 、 Dmitriy Fradkin 、 IoannisAkrotirianakis 、 TugbaKulahcioglu 、 ArquimedesCanedo、Aditi Roy、Shih-Yuan Yu、Malawade Arnav和Moham-mad Abdullah Al Faruque。深度学习的多模态知识图谱第29届ACM信息知识管理国际会议集，第3417-3420页，2020年。二、三[14] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。第32届神经信息处理系统国际会议论文集，2018年。5[15] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis ， Li-Jia Li ， David A Shamma ，Michael S Bernstein ， and Li Fei-Fei. Visual genome ：Connecting language and vision using crowdsourced denseimage annotations. 国际计算机视觉杂志，123（1）：32-73，2017。1[16] 李国浩，王欣，朱文武。用上下文感知的知识聚合来提升视觉问答。第28届ACM国际多媒体会议论文集，第1227-1235页，2020年。二、五[17] Manling Li，Alireza Zareian，Ying Lin，Xiaoman Pan，Spencer Whitehead ， Brian Chen ， Bo Wu ， Heng Ji ，Shih-Fu Chang，Clare Voss，et al. Gaia：A fine-grainedmultimedia knowledge extraction system.在计算语言学协会第58届年会的会议记录：系统演示，第77-86页，2020年。二、三[18] Hugo Liu和Push Singh一个实用的常识推理工具包。BT技术杂志，22（4）：211-226，2004。一、二[19] 伊利亚·罗希洛夫和弗兰克·哈特。修正亚当中的权重衰减正则化。2018年学习表征国际会议。5[20] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.vil-bert：视觉和语言任务的预训练任务不可知视觉语言在第33届神经信息处理系统集，第13-23页，2019年。二、五[21] Hao Luo，Wei Jiang，Youzhi Gu，Fuxu Liu，XingyuLiao

下载后可阅读完整内容，剩余1页未读，立即下载