知识驱动的VQA模型：读取场景文本并进行推理

PDF格式 | 1.38MB | 更新于2024-06-20 | 125 浏览量 | 举报

"本文介绍了一种新型的知识驱动的VQA模型，该模型能够读取图像中的场景文本，并在知识图上进行推理以提供准确答案。文章提出了三个关键模块：建议模块、融合模块和推理模块，分别负责提取图像和文本信息、融合信息与知识库以及在图上执行推理。作者们创建了名为‘文本-KVQA’的新数据集来评估模型性能，证明了这种方法在处理需要结合文本识别和知识图推理的任务中优于传统VQA和基于知识库的问答方法。" 在这个研究中，作者们关注的是视觉问答（Visual Question Answering, VQA）领域的一个重要挑战，即如何充分利用图像中的文本信息。传统的VQA模型通常只关注视觉内容，但忽略了图像中的文字，而这部分信息对于理解图像的上下文和回答某些问题至关重要。因此，他们提出了一个知识驱动的VQA模型，该模型能够读取并理解图像中的场景文本，结合视觉信息和外部知识进行推理。首先，模型的建议模块使用先进的技术来识别图像中的单词和视觉元素，提供初步的信息输入。接着，融合模块整合这些信息，连同问题内容和来自知识库的事实，构建一个多关系图。这个图结构允许模型捕捉到不同信息源之间的复杂关联。最后，推理模块采用门控图神经网络（Gated Graph Neural Network, GGNN）在图上执行推理，从而得出最终答案。为了验证模型的有效性，研究者创建了一个新的数据集——文本-KVQA，它是第一个专门针对结合文本识别与知识图推理需求设计的数据集。通过在文本-KVQA上进行大量实验，研究发现所提出的模型在处理文本相关的VQA任务上表现优越，不仅超越了仅依赖视觉线索的传统VQA模型，也优于那些基于知识库的问答方法。这种知识驱动的VQA模型的应用前景广泛，尤其适用于需要综合理解和推理的场景，例如智能助手、自动驾驶车辆和图像分析等领域。通过结合视觉信息和文本信息，模型能更好地理解真实世界的复杂问题，提供更为准确的回答。这一研究为视觉问答领域开辟了新的方向，强调了文本信息在深度学习模型中的重要性，并推动了视觉和语言理解的交叉发展。

4604

（一）

Q.这是哪家手机

A. Airtel

SF：Airtel是一

个电信

行业。

（b）第（1）款

Q.我可以在这里给

汽车

A. 是的

SF：惠普是一个石

油工业。

（c）第（1）款

Q.这个展示厅卖

汽车吗？

A. 是的

SF：现代生产汽

车。

（d）其他事项

Q.这是美国品牌吗？

A. 没有

阿迪达斯是德国的

品牌。

（e）

Q.这本书是用什么

语言写的？

A. 西班牙语

SF：

Medicina

墨西哥语是用西班

牙语写的。

（f）第（1）款

Q.这部电影的导演

是谁

A. 乔·约翰斯顿

SF：Jumanji导演：

Joe Johnston

图2.样本图像，问题-地面真相答案对和来自我们新引入的文本KVQA数据集的相关支持事实请注意，在我们的方法的训练和推

理过程中，没有明确提供支持事实。相反，它是从大规模的知识库中挖掘出来的.更多示例请参考补充材料。

例如，在一个实施例中，使用场景上下文改进场景文

本识别[58]，使用场景文本改进图像分类[23]等。最近

的作品[8，32，42]强调了将视觉和文本提示结合起来

进行视觉问题回答的必要性。然而，尽管知识使能的

VQA模型的早期进展和场景文本识别文献的显着进

展，结合这两个研究方向的重要和急需的任务尚未探

索到目前为止。我们的工作旨在成为填补这一空白的

第一次尝试。

数据集

传统的VQA模型缺乏读取图像中文字的能力。最

近，为了开发可以读取的VQA模型，引入了三个数据

集[8，32，42]。然而，这些数据集不允许提出知识型

问题。我们确定需要知识驱动的VQA模型，可以在知

识，视觉和文本空间中阅读和推理。为了实现这一目

标，一个新的大规模数据集，即文本KVQA，包含

1.3在这项工作中，已经引入了百万个问题-答案对、

257 K图像和关联的网络规模的知识库。我们在补充材

料中提供了文本KVQA与文献中相关数据集的比较

表。

商业品牌，电影海报和书籍封面的图像被收集作为

我们数据集的一部分。其中，电影海报和书籍封面图

像分别来自[2]和[18]。此外，我们明确地收集了商业

品牌的场景图像。为此，我们首先准备了1000个商业

品牌的列表，并使用Google图像搜索，通过应用过滤

器仅检索无许可证的图像，每个品牌获得约50张图

像。我们

使用后缀，如随后，我们将这个图像集合交给人工注

释者，人工注释者删除所有不包含任何品牌名称文本

的图像（例如，餐厅内部）。这些修剪阶段最终保留

了500个品牌和超过10K的场景图像。在我们的数据集

中，包括商业品牌，电影海报和书籍封面的场景的图

像总数为257K。根据图像的内容，我们将数据集分为

以下三类： text-KVQA （ scene ）、 text-KVQA

（movie）和text-KVQA（book）。

为了让知识使能的问题被问到，我们构建了三个特

定领域的知识库，商业品牌，电影和书籍，即KB-

业

务

，KB-

电影

和KB-

书

分别。为了构建这三个知识库，

我们抓取开源世界知识库，例如，维基数据[3]，IMDb

[1]和图书目录由[18]围绕锚实体提供。

[1]

每个知识事实

都是一个三元组，用一个关系连接两个实体。这些三

元组的一个例子是：肯德基

，

1930

年开始

。

我们使用知识事实和地面真相场景文本的话，以产

生不同的复杂性为每个图像的问题-答案对。我们的问

题具有不同的性质，例如事实问题（例如，

这是哪个

加油泵？这家店卖什么？

这部电影

是哪一年上映

的？

）和二元问题（例如，

我能在这吃个三明治吗？

这

是荷兰品牌吗？

这

是一部浪漫的电影吗？

）.在这

里，我们想强调的是，与其他最近引入的数据集不

同，我们数据集中

我们将企业品牌名称、电影和书籍名称作为锚定实体。

剩余14页未读，继续阅读

cpongm

粉丝: 6

知识驱动的VQA模型：读取场景文本并进行推理

K-VQA：一种知识图谱辅助下的视觉问答方法.docx

Python-MURELCVPR2019视觉问答VQA的多模态关系推理

VLE：视觉-语言多模态预训练模型一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等

往vqa加transformer

vqa-counting复现

在视觉问答（VQA）系统中，如何通过决策树及其集成方法如Bagging和Boosting优化模型并防止过度拟合？

在构建视觉问答（VQA）系统时，如何利用决策树及其集成方法有效防止模型的过度拟合？

如何增强VQA模型的可解释性

我要测试vqa的代码，最终的实现效果是，我问一个关于图像的问题，模型告诉我答案

基于大模型的视觉问答VQA

最新资源