弱监督多跳推理的知识可视化问题生成

13 浏览量更新于2023-12-01 收藏 2.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文Hypergraph Transformer：弱监督多跳推理的知识可视化问题生成Yu-Jung Heo1，4，Eun-Sol Kim2，Woo Suk Choi1，and Beth-Tak Zhang1，31首尔大学2汉阳大学3首尔国立大学人工智能研究所（AIIS）4Surromindyjheo@bi.snu.ac.kr，eunsolkim@hanyang.ac.kr， {wschoi，btzhang}@bi.snu.ac.kr摘要基于知识的视觉问答（QA）旨在回答一个问题，这个问题需要图像内容本身之外的视觉基础的外部知识。在弱监督下解决需要多跳推理的复杂问题被认为是这是一个具有挑战性的问题，因为i）没有对推理过程进行监督，以及ii）需要捕获多跳知识事实的高阶语义。本文引入超图的概念来编码问题和知识库的高级语义，并学习它们之间的高阶该模型 Hyper- graphTransformer构造了一个问题超图和一个查询感知知识超图，并通过编码两个超图之间的关联和超图自身的内部关联来推断答案. 在两个基于知识的视觉问答和两个基于知识的文本问答上的实验我们的源代码可以在https://github.com/yujungheo/kbvqa-public上找到。1介绍视觉问答（VQA）是一种语义推理任务，旨在回答有关图像中描述的视觉内容的问题（ Antol et al. ， 2015; Zhu et al. ， 2016 年 ;Hudson和Manning，2019年），并已成为自然语言处理和计算机视觉方面最活跃的研究领域之一。最近，对于VQA的研究已经从推断给定图像中的实体的视觉属性发展到推断关于这些实体的常识或世界知识（Wanget al. ，2017，2018; Marino et al. ，2019; Shah et al. ，2019;Zellers et al. ，2019）。在本文中，我们专注于任务，这是所谓的基于知识的视觉问答，图1：基于知识的视觉问题回答的示例矩形和矩形之间的箭头表示KB中的实体和关系。为了回答给定的问题，需要多个推理证据（标记为橙色）。其中来自通用知识库（KB）的大量知识事实与图像-问题对一起给出。为了回答如图1所示的给定问题，模型应该理解给定问题的语义，将出现在给定图像中的视觉实体链接到知识库，从知识库中提取许多证据，并通过聚合问题和提取的证据的语义来预测答案除此之外，这项任务还面临两个基本挑战i）为了回答一个复杂的问题，需要在多个知识证据上进行多跳ii）学习复杂的推理过程是困难的，特别是在仅提供QA而没有关于如何从KB捕获任何证据并基于它们进行推断的额外监督也就是说，模型应该学习要关注哪些知识事实，以及如何将它们组合起来，以自行推断正确答案。继以前的工作（周等。，2018），我们称之为弱监管的设置。在较弱的监督下，先前的研究提出了基于记忆的方法（Narasimhan和Schwing，2018; Shah等人，2018年）。，2019年）和基于图形的arXiv：2204.10448v1 [cs.CV] 2022年4月+v：mala2277获取更多论文方法（Narasimhan et al. ，2018; Zhu et al. ，2020）学会有选择地专注于必要的知识。基于记忆的方法以记忆的形式表示知识事实，并计算关于问题的每个记忆的软注意力分数。然后，它通过关注具有高注意力分数的知识证据来推断答案另一方面，为了明确地考虑知识事实之间的关系结构，基于图的方法通过从知识库中检索事实来构造查询感知的知识图，并对问题进行图推理这些方法主要采用迭代的消息传递过程来在图中的相邻节点之间传播信息。然而，由于众所周知的过度平滑问题，难以从图中捕获包含长距离节点的多跳关系，其中跨长距离传播信息的重复消息传递过程使得连接节点的特征太相似并且不一致（Li et al. ，2018; Wang et al. ，2020）。为了解决上述问题，我们提出了一种新的方法Hypergraph Transformer，它利用超图结构来编码多跳关系，并利用基于transformer的注意机制来学习注意问题的重要知识证据我们构造了一个问题超图和一个知识超图来显式地编码问题和每个知识事实中存在的高阶语义，并有效地捕获多跳关系知识事实。然后，我们利用基于transformer的注意力机制在两个超图之间进行超边匹配我们认为，引入超图的概念是强大的多跳推理问题，它可以编码高阶语义没有长度的约束，并学习跨模态的高阶关联。本文的主要贡献可概括如下。i）我们提出了Hypergraph Transformer，它通过以超图的形式编码高阶语义并使用注意力机制学习超图中的高阶关联和ii）我们在两个基于知识的VQA数据集（KVQA和FVQA）和两个基于知识的文本QA数据集（PQ和PQL）上进行了广泛的实验，并在所有数据集上显示出优越的性能，特别是多跳推理问题。iii）我们定性地观察到Hypergraph Transformer在以下方面表现稳健：通过在弱监督下专注于正确推理证据的推理2相关工作基于知识的视觉问答（Wang et al. ，2017，2018; Shah et al. ，2019; Marinoet al. ，2019;Sampat et al. ，2020）提出了用于基于知识的视觉问题回答的基准数据集，其需要基于来自大规模知识库（KB）（诸如Freebase）的事实对图像进行推理（Bollacker et al. ，2008）或DBPedia（Auer et al. ，2007）。为了解决这个问题，两个开创性的研究（王等。，2017，2018）提出了基于逻辑解析的方法，其使用预定义的查询模板将问题转换为KB逻辑查询，并在KB上执行所生成的此后，基于信息检索的方法被引入，检索与问题相关联的知识事实，并在事实和问题之间进行语义匹配。（ Narasimhan 和 Schwing ， 2018 年 ; Shah etal. ，2019）提出了基于记忆的方法，以记忆的形式表示知识事实（Narasimhan et al. ，2018; Zhu et al. ，2020）将检索到的事实表示为图形，并通过利用图形卷积的消息传递方案来执行图形推理。然而，这些方法是复杂的编码固有的高阶语义和多跳关系中存在的知识图。因此，我们引入超图的概念，并提出超图上基于转换器的注意机制。多跳知识图推理是基于知识图的多个证据的顺序推理过程，并且已经广泛地用于各种下游任务，诸如问题回答（Lin et al. ，2019; Saxena等人。，2020; Han等人，2020b，a; Yadati etal. ，2021），或知识增强的文本生成（Liu etal. ， 2019; Moon et al. ， 2019; Ji et al. ，2020）。最近的研究已经引入了用于多跳图推理的超图的概念（Kim et al. ，2020; Han等人，2020b，a; Yadati et al. ，2019，2021; Sunet al. ， 2020 ）。这些模型与本文提出的Hypergraph Transformer具有相似的动机，但核心操作有很大的不同。这些模型主要通过利用图卷积操作的消息传递过程来更新超图中的节点表示。上+v：mala2277获取更多论文HHE{}∈VEH {V E}≤图2：Hypergraph Transformer概述。（a）实体链接模块将来自查询（给定图像和问题）的概念(b)通过多跳图行走构造了查询感知的知识超图k和问题超图q（c）将两个超边缘集馈送到引导注意和自注意块中以学习其中的内部关联和内部关联。联合表示用于预测答案。相反，我们的方法通过超图的超边匹配而不是消息传递方案来更新节点表示。我们认为，这个更新过程有效地学习高阶语义的内在每个超图和两个超图之间的高阶关联。3方法3.1符号方法中固有的高阶语义知识源，我们采用超图的概念。形式上，有向超图H ={V，E}由节点V={v1，.， v| V|}和一组超边=h1，.，H| E| . 每个节点表示为w维嵌入，丁矢量，即，viRw.每个超边连接任意数量的节点，并具有部分命令本身，即， hi={v1J≤... 其中，Vj={V1J，.，vlJ}是V的子集，≤是一个二元关系，它表示当v i J时，一个元素（v iJ）在排序中位于另一个元素（v jJ）之前，vjJ. 一超边缘是灵活的编码不同种类的在没有长度约束的基础图中的语义3.2实体链接如图2（a）所示，实体链接模块首先将来自查询（给定的图像-问题对）的概念链接到知识库。我们检测视觉概念（例如，对象、属性、人名）以及给定问题中的命名实体然后，视觉概念或命名实体的语义标签与使用精确关键字匹配的知识库3.3超图构造知识库是大量的一般知识事实，它不仅包含回答给定问题所需的知识事实，还包含不必要的知识事实。因此，我们构造了一个查询感知的知识超图k=k，k来提取回答给定问题的相关信息。它由一个节点集k和一个超边集k组成，分别表示知识事实中的一组实体和一组超边。每个超边连接顶点的子集VJk <$Vk。我们认为大量的知识事实将知识库中的知识表示为一个巨大的知识图，并通过遍历知识图来构造一个超图。这种遍历称为图遍历，从上一个模块链接的节点开始（见3.2节），并考虑与开始节点相关联的所有实体节点。我们定义了一个三元组作为图行走的基本单元，以保留知识图中固有的高阶语义，即，每个单独的图遍历包含三个节点{头，谓词，尾}，而不是仅具有这三个节点中的一个除了基于三元组的图行走之外，还提出了多跳图行走来对互连的多个关系事实进行编码。多跳图游走通过将前一次游走的到达节点（尾部）设置为下一次游走的开始（头部）节点来连接多个事实，因此，n跳图游走将n个事实组合为超边。+v：mala2277获取更多论文VE∈∈›→|一|∈K∈我们把一个问题Q计算使用查询、键和值的注意力Qk KTQ一个问题超图H，asAttention（Qk，Kq，Vq）= softmax（）Vq一个节点集q和一个超边集q。我们假设每个单词单位（单词或命名实体）其中dDvv是查询的维度和键该问题被定义为节点，并且具有到相邻节点的边。对于问题超图，每个词单元被用作图行走的开始节点。多跳图行走以与知识超图相同的方式进行一个n-gram短语在问题超图中被认为是一个超边（见图2（b））.3.4注意推理为了考虑知识和问题之间的高阶关联，我们设计了查询感知知识超图和问题超图之间的我们引入了一个基于引导注意力的两个超图的注意力机制（ Tsai et al. ， 2019 ）和自我注意（Vaswani et al. ，2017年）。如图2（c）所示，引入引导注意力块，通过相互注意机制学习知识超边和问题超边之间的相关性，然后使用以下自注意力块训练知识或问题超边下面描述两个模块的细节，引导注意块和自我注意块请注意，我们使用Q、K和V表示查询，使用键、值，使用q、k作为下标分别表示问题和知识。为了学习两个超图之间的关联，我们首先嵌入一个知识，其中h[·]是E [·]中的超边. 这里，f[·]是a超边嵌入函数，φ[·]是线性的投影功能设计和实施-f[·]的约束不受约束（例如， N y池化操作或任何可学习的神经网络），但是我们使用H超边缘中的节点表示的简单级联操作作为f[·]。超边在同一超图中的表示（例如，ek，eq）一起打包成矩阵Ek和Eq。我们将知识超边Ek和问题超边Eq分别定义为查询和键值对。我们设置一个查询Qk=EkWQ ，一个键 Kq=Eq WK ，和一个值 Vq=EqWV，vector. 此外，使用的引导注意力以类似的方式执行作为查询的问题超边和作为键值对的知识超边： Attention （ Qq ， Kk ，Vk）。自我注意力引导注意力和自我注意力之间的唯一区别是，在自我注意力中，查询和键值使用相同的例如，我们基于知识超边Ek设置查询、键和值，知识超边的自注意由Attention（Qk，Kk，Vk）来实现.对于问题超边Eq，自我注意以类似的方式执行：Attention（Qq，Kq，Vq）。根据变换器的标准结构，我们建立了引导注意块和自注意块，每个块由具有层规范化、残差连接和单个前馈层的每个注意操作通过依次传递引导注意块和自注意块，知识超边和问题超边的表示被更新并且最终分别聚合为单个向量表示zkRdv和zqRdv。3.5回答预测器为了预测答案，我们首先将从注意力块获得的表示zk和zqR2dvRw）进行联合表示z. 然后，我们考虑两种类型的答案预测：多层感知器和基于相似性的答案预测。多层感知器作为答案分类器p=n（z）是视觉问答问题的一种流行方法。对于基于相似性的答案，我们计算z和答案候选集CR之间的点积相似性p=zCT|一|×w其中是候选答案的数量，并且w是每个答案的表示的维度。在答案候选中选择与联合表示最相似的答案对于训练，我们只使用来自QA对的监督，而不使用用于地面实况推理路径的注释为此，交叉熵Q Q其中所有投影矩阵W[·]Rd×dv是可学习的参数。然后，在-预测p和地面实况t被用作损失函数。+v：mala2277获取更多论文†原始模型（ORG）释义（PRP）平均值1跳2跳3跳1跳2跳3跳BLSTM--51.0MemNN（Sukhbaatar et al. ，2015） --59.2GCN（Kipf和Welling，2017）65.7 67.4 66.9 65.8 67.5 67.0 66.7GGNN（Li et al. （2016年）72.974.574.072.974.674.173.8MemNN （Sukhbaatar et al. （2015年）78.177.876.178.078.176.077.3HAN（Kim et al. （2020年）77.577.577.277.177.476.977.3BAN（Kim et al. ，2018年）83.584.083.783.784.383.883.8我们的88.1 90.2 91.0 87.8 90.5 90.7 89.7表1：在弱监督下KVQA中Oracle设置的QA准确性ORG和PRP是一种问题类型，1-hop、2-hop和3-hop是构建知识超图的图遍历的数量的性能BLSTM和MemNN报道于（Shahet al. ，2019年），我们重新实现了MemNN†进行fair比较。4实验设置4.1数据集在本文中，我们在各种基准数据集上评估了我们的模型：知识感知VQA（KVQA）（Shah etal. ，2019），基于事实的 VQA（FVQA）（Wang et al. ，2018）、PathQuestion（PQ）和PathQuestion-Large（PQL）（Zhou et al. ，2018）。KVQA是复杂VQA的大规模基准数据集，包含来自维基百科的24，602张图像和相应的标题的183，007对，并基于维基数据为39，414个唯一命名实体提供174，006个知识事实（Vrandec i candKrötzsch，2014），因为它需要视觉内容之外的世界知识。KVQA包括两种类型的问题：原始问题（ORG）和通过在线释义工具从原始问题生成的释义问题（PRP）。FVQA是常识支持的VQA的代表性数据集，它考虑了给定图像中描述的关于常见名词的外部知识，并包含2，190个图像的5，826个QA对和来自DBPedia的4，216个独特知识事实（ Auer et al. ， 2007 ）、 ConceptNet（Liu和Singh，2004）和WebChild（Tandon etal. ，2014）。最后两个数据集，PQ和PQL，侧重于评估基于知识的文本问答任务中的多跳推理能力 PQ和PQL包含来自Freebase子集的4，050和9，844个知识事实的7，106和2，625个QA对（Bollacker et al. ，2008）。数据集的详细统计数据见附录A。4.2实现细节知识超图和问题超图中的每个节点被表示为300维矢量（即，w=300）初始化，使用GloVe（Pennington et al. ，2014）。当GloVe的词汇表中不存在节点的单词时，应用随机初始化当节点由多个单词组成时，应用均值池对于KVQA的实体链接，我们应用众所周知的预训练模型进行面部识别：RetinaFace（Deng etal. ，2020）用于面部检测和ArcFace（Deng etal. ，2019）用于面部特征提取。对于所有的数据集，我们遵循的experi- mental设置在以前的作品。我们使用基于相似性的答案预测KVQA ，和 MLP 的其他。我们采用 Adam（Kingma andBa，2015）来优化模型中的所有可学习参数。我们在附录D中描述了每个数据集的实验设置和调优超参数的细节。5定量结果5.1知识感知可视问答我们比较所提出的模型，超图Transformer，与其他比较国家的最先进的方法。我们报告性能的原始（ORG）和改述（PRP）的问题，根据图行走的数量。对于比较模型，我们考虑了三种方法：基于图的方法、基于记忆的方法和基于注意力网络的方法。比较模型的详细描述见附录E。为了评估模型的纯推理能力，而不管实体链接的性能如何，我们首先在给定图像中的地面实况命名实体的oral- cle设置如表1所示，我们的模型优于比较模型，+v：mala2277获取更多论文††PathQuestionPQ-2H PQ-3H PQ-M大PathophyllPQL-2H PQL-3H PQL-MSeq2Seq（Sutskever et al. ，2014年）89.977.0-71.964.7-MemNN（Sukhbaatar et al. ，2015年）89.579.286.861.253.655.8KV-MemNN（Miller et al.（2016年）91.579.485.270.563.468.6IRN（Zhou et al. ，2018年）96.087.7-72.571.0-Embed（Bordes et al. ，2014年b）78.748.3-42.522.5-子图（Bordes et al. ，2014年a）74.450.6-50.021.3-MINERVA（Das et al. ，2018年）75.971.273.171.865.766.9IRN-弱（Zhou et al. ，2018年）91.983.385.863.061.862.4SRN（Qiu et al. ，2020年）96.389.289.378.677.578.3我们96.490.389.590.577.9（*）94.5（*）对于PQL-3 H-更多数据（与PQL-3 H相同的KB上的2xQA对），我们的模型显示95.4%的准确性。表2：PathQuestion（PQ）和PathQuestion-Large（PQL）的准确度。2H和3H表示地面实况推理路径中回答给定问题的多跳数，M表示2H和3H的混合第一块中的模型采用地面实况推理路径作为额外的监督（即，完全监督），而第二块中的模型（包括我们的模型）处于弱监督之下。所有设置。结果表明，问题与知识之间的注意机制是复杂问答系统的关键自GCN（Kipf和Welling，2017）和GGNN（Li et al. ，2016）分别编码问题和知识图，它们不学习问题和知识之间的交互因此，GCN和GGNN在74%的平均精度下表现出相当低的性能。另一方面，MemNN（Weston et al. ，2015）、HAN（Kimet al. ，2020）和BAN（Kim et al. ，2018年）实现了相对较高的性能，因为MemNN在知识记忆上采用了问题引导的软注意。HAN和BAN利用问题和知识之间的多头共同注意。实体链接设置我们还提出了实体链接设置的实验结果，其中命名实体不作为oracle设置提供，但由模块检测，如第3.2节所述。如附录E的表7所示，我们的模型显示了原始问题和释义对于所有的比较模型，我们使用相同的知识超图提取的3跳图行走。在实体链接设置中，由于未检测到的实体或错误分类的实体标签，所构造的知识超图可能是不完整的并且相当嘈杂然而，Hypergraph Transformer在噪声输入上显示出强大的推理能力在这里，我们注意到，由于实体链接模块的错误率，QA性能的上限为72.8%我们预计业绩将有所改善当实体链接模块被增强时。5.2基于事实的可视化问答我们进行基于事实的视觉问题检索（FVQA）作为基于知识的VQA的额外基准数据集的与专注于命名实体的世界知识的KVQA不同，FVQA考虑给定图像中关于常见名词的常识知识在这里，我们假设实体链接的性能是完美的，并评估我们的模型的纯推理能力。如附录D的表8所示，Hypergraph Transformer在top-1和top-3准确度方面的性能与最先进的我们证实，我们的模型有效地工作作为一个一般的推理框架，而不考虑不同的知识源的特点（即，KVQA 、 DBpedia 、 ConceptNet 、 FVQA 的WebChild的Wikidata）。5.3PathQuestion和Pathquestion-大型为了验证模型的多跳推理能力，我们在PathQuestion （ PQ ）和 Pathquestion-Large（PQL）上进行了实验PQ和PQL数据集具有用于回答给定问题的地面实况推理路径的注释。具体地，{PQ，PQL}-{2 H，3 H}表示PQ和PQL相对于地面实况推理路径中的跳数的拆分（即，2跳或3跳）。{PQ，PQL}- M是两个数据集中的2跳和3跳问题的混合，用于评估推理路径+v：mala2277获取更多论文→→→模型输入知识问答原件（ORG）1跳2跳3跳Parap1跳分段的2-跳（PRP）三跳是说(a) SA(b) SA+GA(c) SA+GA(d) SA+GA词字字超边缘词字超边缘字79.480.982.187.079.682.384.289.977.681.582.888.977.180.781.187.377.782.283.589.777.781.882.389.278.281.682.788.7(e)SA+GA（我们的）HyperedgeHyperedge88.190.291.087.890.590.789.7(f) 我们的-SA(g) 我们的-GAHyperedgeHyperedgeHyperedgeHyperedge85.282.688.883.688.385.085.082.788.383.688.484.987.183.7表3：（a-e）验证使用超图的有效性。在这里，我们将结果与不同类型的输入格式（即，单个单词或超边缘），用于表示输入注意力机制的知识和问题。(e-g)Hypergraph Transformer注意障碍的消融研究GA和SA分别是引导注意和自我注意的缩写。回答一个给定问题所需的时间是未知的。PQ和PQL数据集不同分割的实验结果见表2。表中的第一部分包括需要地面实况路径注释作为额外监督的完全监督模型第二部分包含弱监督模型学习，以推断多跳推理路径，而无需地面实况路径注释。 HypergraphTransformer是弱监督模型中的一种，因为它只利用一个答案作为监督。我们的模型在PQ-{2 H，3 H，M}上显示出与最先进的弱监督模型SRN相当的性能。特别是Hypergraph Transformer在PQL的基础上有显著的性能改进（PQL-2 H为78.6%~ 90.5%，PQL-M为78.3%~ 94.5%）。我们强调PQL是比PQ更具挑战性的数据集，因为PQL不仅覆盖更多的知识事实，而且具有更少的QA实例。我们观察到，PQL-3 H上的精度相对低于其他分裂。这是由于PQL-3 H中的训练QA对数量不足。当我们使用PQL时-3 H-More在与PQL-3 H相同的知识库上具有两倍多的QA对（1031 2062），我们的模型达到95.4%的准确率。6Hypergraph Transformer的验证验证了Hypergraph Transformer中各个模块的有效性。为了分析模型中变量的性能，我们使用KVQA，这是一个代表性的和大规模的数据集，基于知识的VQA。本文主要从两个方面进行研究：（1）超图的作用;注意机制。为了评估模型的纯推理能力，我们在预言机环境中进行了实验。6.1超图效应为了分析基于超图的输入表示的有效性，我们对Transformer体系结构的不同类型的输入格式进行了比较实验。在这里，我们考虑两种类型的输入格式，这是单字单元和基于超边的表示。与基于超边的输入相比，单词单元将多个关系事实作为输入标记，将每个实体和关系标记作为单独的输入标记。我们注意到，对知识和问题都使用基于单个单词单元的输入格式是Transformer网络的标准设置，对两者都使用基于超边的输入格式是所提出的模型HypergraphTransformer。我们将Transformer（SA+GA）设置为骨干模型，并在表3（b-e）中呈现结果当将基于超图的表示用于知识和问题时，结果显示在所有设置中对问题类型（ORG和PRP）和多个图行走（1-hop，2-hop和3-hop）的最佳性能。如表3所示，当两者都使用超边编码时，QA的平均准确度达到89.7%特别是当我们将两种超边缘级表示转换为基于单个词单元的表示时，QA的平均准确率分别为82.7%和88.7%。这些结果验证了不仅将知识也将问题看作超图是有意义的。+v：mala2277获取更多论文→→联系我们图3：使用超图作为Transformer架构的输入格式的有效性的定性分析。在这里，我们可视化HypergraphTransformer和Transformer（SA+GA）的注意力地图所有的注意力分数都是在多头和多层上平均的。每个x和y轴表示Hypergraph Transformer中的问题和知识超边的索引，以及Transformer（SA+GA）中的问题和知识词的索引在注意力地图中，深色代表高值。具有高注意力分数的超边被可视化。多跳图行走的影响我们比较了用于构建知识超图的不同数量的图行走的性能（即，1跳、2跳和3跳）。除了我们的模型外，所有模型在3跳图上的性能都略低于我们观察到，当图行走的数量增加时，提取的知识事实的数量增加，并且通常包括用于回答给定问题的不必要的事实尽管如此，我们的模型显示鲁棒推理性能时，一个大的和嘈杂的知识事实。6.2注意力机制为了调查每个注意力块的影响（即，GA和SA），消融研究如表3（e-g）所示。当GA或SA被删除时，所有设置的分数都会下降。特别是，QA的平均准确性降低了6.0%（89.7%83.7%），2.6%（89.7% 87.1%），分别削减了GA和SA块。基于这两个实验，我们发现，不仅引导注意，捕捉问题和知识之间的相互关系，而且自我注意，学习它们之间的内在关系是至关重要的复杂问答。总之，Hyper- graphTransformer采用图形级输入，即，hyperedge，并通过注意机制进行超边之间的语义匹配由于这两个特点，该模型表现出更好的推理性能集中在推理所需的证据在弱监督。7定性分析图3提供了对使用超图作为Transformer架构的输入的有效性的定性分析。我们提出的注意力地图从引导注意力块，并可视化top-k出席的知识事实或实体的注意力分数。在第一个示例中， Hypergraph Transformer 和 Transformer（SA+GA）这两个模型都推断出正确答案Q5075293。我们的模型通过关注第二个从左86个知识超边中存在左关系的4个事实。相比之下，转换算法（SA+GA）更关注知识事实中出现重复的知识实体.特别是，该模型注意到Q3476753，Q290666和爱尔兰的高注意力得分为0.237，0.221和0.202。在第二个例子中，我们的模型考虑到给定图像中显示的人的出生地的多跳事实，并推断出正确的知识超边。+v：mala2277获取更多论文正确答案另一方面，Transformer（SA+GA）强烈关注图像中呈现的人（Q2439789）的知识实体，不期望的关注分数为0.788。第二个和第三个参加的知识实体是另一个人（ Q7141361 ）和伊朗。 Transformer（SA+GA）未能专注于回答给定问题所需的多跳事实，并在最后用错误的数字预测8讨论和结论本文提出了一种基于Hypergraph Transformer的弱监督知识图多跳推理Hypergraph Transformer采用基于超图的表示方法对知识和问题的高阶语义进行编码，并考虑知识超图和问题超图之间的关联。这里，超图中的每个节点表示通过两个超图中的内部和内部注意机制来更新，而不是通过迭代消息传递方案。因此，Hypergraph Transformer可以在以前的基于图的方法中利用消息传递方案来解决众所周知的过平滑问题。在各种数据集KVQA、FVQA、PQ和 PQL 上的大量实验验证了 HypergraphTransformer通过关注来自大型知识图的问题所需的知识证据来进行准确的推理。虽然本文没有涉及，但一个有趣的未来工作是构建包含更多不同知识源（例如Web上的文档）的异构知识图确认我们要感谢Woo Young Kang、Kyoung- WoonOn 、 Seonil Son 、 Gi-Cheon Kang 、 ChristinaBaek、Junseok Park、Min Whoo Lee、HwiyeolJo和Sang-Woo Lee，感谢他们的有益评论和讨论。这项工作得到了IITP的部分支持（2015-0-00310-SW.StarLab/20%，2017-0-01772-VTT/20%，2019-0-01371-BabyMind/10%，2021-0-02068-AIHub/10% ，2021-0-01343-GSAI/10%，2020-0-01373/10%）赠款，KIAT（P0006720-ILIAS/10%）由韩国政府和汉阳大学（HY-202100000003160/10%）资助。引用Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Mar-Martt Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克2015. VQA：视觉问题回答。在2015年IEEE计算机视觉国际会议上，ICCV 2015，智利圣地亚哥，December 7-13，2015，第2425-2433页。IEEE计算机协会.Sören Auer 、 Christian Bizer 、 Georgi Kobilarov 、Jens Lehmann 、 Richard Cyganiak 和 ZacharyIves。2007. Dbpedia：开放数据网络的核心。语义网，第722-735页。斯普林格。库尔特·博拉克，科林·埃文斯，普拉文·帕里托什，蒂姆·斯特奇和杰米·泰勒。2008. Freebase：一个协作创建的图形数据库，用于构建人类知识。在2008年ACM SIGMOD数据管理国际会议论文集，第1247安托万·博德斯，苏米特·乔普拉，杰森·韦斯顿。2014年a. 子图嵌入式问答系统。在2014年自然语言处理经验方法会议（EMNLP）的会议中，第615计算语言学协会。安托万·博德斯，杰森·韦斯顿，尼古拉斯·科尼尔。2014年b.基于弱监督嵌入模型的开放式问答系统。在 Joint European conference on machinelearning and knowledge discovery in databases ，第165-180页。斯普林格。Kyunghyun Cho ， Bart van Merriënboer ， CaglarGul- cehre，Dzmitry Bahdanau，Fethi Bougares，Holger Schwenk，and Yoonne Bengio. 2014. 使用RNN编码器-解码器学习在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1724- 1734页，卡塔尔多哈。计算语言学协会。RajarshiDas ， ShehzaadDhuliawala ， ManzilZaheer ，Luke Vilnis ， Ishan Durugkar ，AkshayKrishna- murthy ， Alex Smola ， and AndrewMcCallum. 2018. 去散步，得出答案：原因-使用强化学习来遍历知识库中的路径。在第六届国际会议上学习表示，ICLR 2018，温哥华，不列颠哥伦比亚省，加拿大，2018年4月30日至5月3日，会议跟踪程序。OpenReview.net.Jiankang Deng ， Jia Guo ， Evangelos Ververas ，Irene Kotsia ， andStefanosZafeiriou. 2020.Retinaface：在野外进行单次拍摄多层次面部定位。2020年IEEE/CVF计算机视觉和模式识别会议，CVPR 2020，美国华盛顿州西雅图，2020年6月13日至19日，第5202-5211页。美国电气与电子工程师协会。Jiankang Deng ， Jia Guo ， Niannan Xue ， andStefanos Zafeiriou. 2019. Arcface：用于深度人脸识别的附加角边缘损失。在IEEE计算机视觉和模式识别会议上，+v：mala2277获取更多论文tion ， CVPR 2019 ， Long Beach ， CA ， USA ，2019年日，第4690计算机视觉基金会/IEEE。韩佳乐，博城，王旭。2020年a。基于超边缘注入的文本增强知识图的开放领域问答。计算语言学协会的发现：EMNLP 2020，第1475计算语言学协会。韩佳乐，博城，王旭。2020年b。基于两阶段超图的多跳KBQA动态关系推理。在第二十九届国际人工智能联合会议的会议记录中，第3615-3621页。ijcai.org.德鲁·A Hudson和Christopher D.曼宁2019. GQA：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE计算机视觉和模式识别会议上，CVPR 2019，美国加利福尼亚州长滩，2019年6月16日至20日，第6700-6709页。计算机视觉基金会/IEEE。Haozhe Ji，Pei Ke，Shaohan Huang，Furu Wei，Xiaoyan Zhu，and Minlie Huang.2020. 基于常识知识图语言生成。在2020年自然语言处理经验方法会议（EMNLP）的会议中，第725-736页。计算语言学协会。Eun-Sol Kim，Woo-Young Kang，King-Woon On，Yu-Jung Heo，and Bing-Tak Zhang. 2020. 用于多模态学习的 Hy-pergraph 注意网络。 2020 年IEEE/CVF计算机视觉和模式识别会议，CVPR2020，美国华盛顿州西雅图，2020年6月13日至19日，第14569-14578页。美国电气与电子工程师协会。Jin-Hwa Kim，Jaehyun Jun，and Beng-Tak Zhang.2018. 双线性注意力网络。在神经信息处理系统的进展31：神经信息处理系统2018年年度会议，NeurIPS 2018年12月3日至8日，加拿大蒙特利尔，第1571Diederik P. Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在2015年5月7日至9日在美

下载后可阅读完整内容，剩余1页未读，立即下载