超图Transformer：弱监督多跳推理在知识可视化问题生成中的应用

109 浏览量更新于2024-06-19 收藏 2.88MB PDF 举报

“HypergraphTransformer：弱监督多跳推理的知识可视化问题生成” 在当前的计算机视觉和自然语言处理领域，基于知识的视觉问答（KB-VQA）是一个重要的研究方向，它要求模型不仅能理解图像内容，还需要利用外部知识库来解答涉及复杂推理的问题。弱监督多跳推理在此类任务中尤为关键，因为它涉及到对多个相互关联的知识点进行推理，但这种推理过程往往缺乏直接的监督信号。论文提出的Hypergraph Transformer模型创新地运用了超图的概念来处理这个问题。超图能够有效地捕捉问题和知识库之间的高阶语义联系，这对于理解多跳知识事实至关重要。模型首先构建一个问题超图，反映了问题的语义结构，然后创建一个查询感知的知识超图，这个超图考虑了知识库中与问题相关的实体和关系。通过编码这两个超图之间的交互以及各自内部的结构，模型能够进行复杂的推理以找出答案。在具体实现中，Hypergraph Transformer利用Transformer架构的优势，对超图节点和边进行自注意力机制的计算，从而捕捉到不同节点间的关系。这种设计允许模型在缺乏直接监督的情况下，学习到如何进行有效的多跳推理。实验部分，论文在两个基于知识的视觉问答数据集和两个基于知识的文本问答数据集上验证了模型的效果，证明了Hypergraph Transformer在处理这类问题时的优越性能。此外，作者提供了源代码，使得其他研究者可以复现结果或进一步扩展该工作。这篇论文解决了基于知识的视觉问答中的一个重要挑战，即在弱监督条件下进行多跳推理，为后续的研究提供了新的思路和方法。通过引入超图和Transformer的结合，该模型有望推动KB-VQA领域的进步，增强模型理解和应用外部知识的能力。

+v：mala2277获取更多论

文

∈

›→

一

∈

我们把一个问题

计算使用查询、键和值的注意力

一个问题超图

，

asAttention

（

，

）

= softmax

（）

一个节点集

和一个超边集

。我们假设每个单

词单位（单词或命名实体）

其中

是查询的维度和键

该问题被定义为节点，并且具有到相邻节点的

边。对于问题超图，每个词单元被用作图行走

的开始节点。多跳图行走以与知识超图相同的

方式进行一个

n-gram

短语在问题超图中被认

为是一个超边（见图2（b））.

3.4

注意推理

为了考虑知识和问题之间的高阶关联

，我们设

计了查询感知知识超图和问题超图之间的我们

引入了一个基于引导注意力的两个超图的注意

力机制（ Tsai et al. ， 2019 ）和自我注意

（Vaswani et al. ，2017年）。如图2（c）所

示，引入引导注意力块，通过相互注意机制学

习知识超边和问题超边之间的相关性，然后使

用以下自注意力块训练知识或问题超边下面描

述两个模块的细节，引导注意块和自我注意块

请注意，我们使用Q、K和V表示查询，使用

键、值，使用q、k作为下标分别表示问题和

知识。

为了学习两个超图之间的关联，我们首先嵌入

一个知识，

其中

[

]

是

[

]

中的超边

这里，

[

]

是

超边嵌入函数，φ

[·]

是线性的

投影功能设计和实施-

[

]

的约束不

受约束（例如，

N y

池化

操作或任何

可学习的神经网络），但是我们使用H超边缘

中的节点表示的简单级联操作

作为

[

]

。

超边

在同一超图中的表示（例如，e

，

）一起打

包成矩阵E

和E

。

我们将知识超边E

和问题超边E

分别定义

为查询和键值对。我们设置一个查询Q

，一个键 K

，和一个值 V

，

vector. 此外，使用的引导注意力

以类似的方式执行作为查询的问题超边和作为

键值对的知识超边： Attention （

，

）。

自我注意力引导注意力和自我注意力之间的唯

一区别是，在自我注意力中，查询和键值使用

相同的例如，我们基于知识超边

设置查询、

键和值，知识超边的自注意由

Attention

（

，

）来实现.对于问题超边E

，自我注意以

类似的方式执行：

Attention

（

，

）。

根据变换器的标准结构，我们建立了引导注

意块和自注意块，每个块由具有层规范化、残

差连接和单个前馈层的每个注意操作通过依次

传递引导注意块和自注意块，知识超边和问题

超边的表示被更新并且最终分别聚合为单个向

量表示

和

。

3.5

回答预测器

为了预测答案，我们首先将从注意力块获得的

表示z

和z

）进行联合表示

z. 然后，我们考虑两种类型的答案预测：多层

感知器和基于相似性的答案预测。多层感知器

作为答案分类器p

n（z）是视觉问答问题的

一种流行方法。对于基于相似性的答案，我们

计算 z 和答案候选集 CR 之间的点积相似性

zCT

|一|×w

其中是候选答案的数量，并且

w是每个答案的表示的维度。在答案候选中选

择与联合表示最相似的答案对于训练，我们只

使用来自QA对的监督，而不使用用于地面实

况推理路径的注释为此，交叉熵

Q Q

其中所有投影矩阵

[

]

是

可学习的参数。然后，在

预测p和地面实况t被用作损失函数。

剩余17页未读，继续阅读

cpongm

粉丝: 5

超图Transformer：弱监督多跳推理在知识可视化问题生成中的应用

8份AI知识图谱技能树.rar

利用AI技术生成的langchain框架介绍，带演讲备注

实体增强知识注入提升可视化问答系统性能与诊断策略

知识自动化智能引擎KAE：大数据与AI驱动的知识结构化工具

MATLAB R2020a中回归模糊推理系统的应用研究

无监督学习可视化：数据说话的艺术

【LS-PrePost数据可视化秘术】：提升数据报告质量的专业技巧

【YOLOv8弱监督学习】：如何利用有限标签数据优化训练

【VAE在PyTorch中的实现】：理论与实践，打造个性化图像生成系统

YOLO无监督目标检测故障排除：常见问题与解决方案

最新资源