从视觉问答到阅读理解：转化VQA的新策略

PDF格式 | 741KB | 更新于2025-01-16 | 92 浏览量 | 举报

"这篇论文探讨了视觉问答（Visual Question Answering, VQA）与阅读理解之间的联系，并提出了一种将VQA问题转化为机器阅读理解问题的新方法。这种方法通过自然语言统一输入信息，使得模型能够处理基于观察的问题以及需要外部知识库的基于知识的VQA问题。论文介绍了两种类型的模型，分别用于开放式和多项选择式的VQA任务，并在多个VQA基准数据集上进行了评估，验证了其有效性。" 在VQA领域，算法需要理解图像内容和自然语言问题，这涉及到视觉信息和文本特征的联合嵌入。然而，两种不同模态之间的复杂交互是个挑战。传统的VQA方法通常使用CNN来处理图像，RNN来处理文本，然后将这两种模态的特征融合。但论文指出，这种融合并不容易模拟复杂的相互作用。为了克服这一难题，论文提出了将VQA问题转化为机器阅读理解问题的策略。通过自然语言统一所有输入信息，问题和答案可以从大规模的文本知识库中获取，这扩展了VQA处理能力，使其能够应对需要外部知识的问题。这种转化意味着VQA不再仅依赖于图像内容，而是可以利用丰富的文本信息和自然语言处理技术。论文提出了两种模型，分别针对开放式VQA（开放性的答案）和多项选择VQA（从预定义选项中选择答案）。在三个VQA基准数据集上的实验结果证明了这种方法的有效性，与现有的先进模型相比，性能有所提升。 VQA与文本问题回答（TQA，或机器阅读理解）有相似之处，但VQA的挑战在于图像的高维度和无结构特性，以及需要同时处理视觉和文本信息。相比之下，TQA只涉及文本，因此VQA更具挑战性。论文通过对比分析，进一步阐述了VQA的复杂性和独特性。这篇论文为VQA研究提供了一个新的视角，即利用阅读理解的技术来增强VQA模型，从而更好地理解和回答涉及视觉和语言的复杂问题。这种方法的提出，对于推动VQA技术的发展和应用具有重要意义。

6321

图2-QANet中使用的编码器

块的结构，由嵌入式编码器

和模型编码器共享。卷积层

的数量根据设计而变化。各

层之间采用层间归一化和残

差连接，以提高性能。

事实元组到自然语言空间中，并使用NLP中的阅读理

解技术来解决它。

2.3.

语篇提问

语篇提问（也称为阅读理解）旨在回答基于给定段

落的问题。它是NLP领域的一个典型基石，评估算法

理解人类语言的能力。在过去的几年里，由于使用端

到端神经网络模型和注意力机制，例如DMN [16]，r-

net [30] ， DrQA [6] ， QANet [36] 以及最近的 BERT

[7]，已经取得了重大进展。许多问答技术在解决VQA

问题中得到了广泛的应用，如注意力机制、DMN

等

。

在这项工作中，我们试图解决 VQA 问题建立在

QANet。

VQA模型

我们的方法是建立在新提出的QANet [36]的TQA问

题。在本节中，我们首先概述了QANet及其将用于

VQA模型的模块然后，我们提出了两种类型的模型，

分别解决开放式VQA和多项选择VQA

3.1.

QANet

QANet是一个快速准确的TQA端到端模型。它由嵌

入模块、嵌入编码器、上下文查询注意模块、模型编

码器和输出层组成。它的编码器完全由卷积和自注意

组成，而不是使用RNN来处理顺序文本。接着是上下

文问题注意层，以学习它们之间的交互。得到的特征

被再次编码，并最终解码到上下文中答案的位置。详

情可参考[36]。

输入嵌入块：该模块用于将上下文中的每个单词和

问题嵌入到向量中。对于每个单词，表示是单词嵌入

和字符嵌入的串联。一个两层的公路网络被应用到获

得嵌入特征。

嵌入编码器块：它是卷积层、自注意层、前馈层和

归一化层的堆栈，如图2所示。这里采用深度可分离卷

积，以获得更好的记忆和泛化能力。采用多头注意机

制，对全局交互进行建模。

情境问题注意力模块：它的目的是提取上下文和问

题词之间最相关的特征。该模型包括语境-问题将

和

表示为编码的上下文和问题fea。

其中

{

，

. . .

，

}

，其中n

字，并且

Q =

，

. . .

，

}

，具有

个单词。

问题注意力

定义

为

，

其中S∈

是每对

问题注意力和问题注意力之间的相似矩阵

，

是通

过

对每个问题注意力

应用

softmax

对

的归一化。

“

·“

是

一种商品。问题到上下文的注意力被定义

为

，其中

是

通过在每列上应用

softmax

对

进行的归一化。相似函数

定义为

（

，

）

，

q<$c]

，其中

是每个

和

的逐元素乘法，

是要学习的权重。

型号编码器模块：该块将[c

，

c <$a

，

c<$b]作

为输入，其中a和b分别是注意力矩阵A和B的一行。

它与嵌入式编码器块共享参数

输出层：输出层基于模型编码器的3次重复的输出

来预测上下文中的每个位置是答案的开始或结束位置

的概率。

3.2.

开放式VQA模型

问题和答案通常以文本的形式出现人们普遍认为，

VQA的主要关注点之一是评估人工智能系统的语义级

视觉理解能力。考虑到自然语言可以描述多种语义视

觉信息，本文尝试将图像整体转换为描述性段落，以

便为语义问题保留尽可能多的语义信息。由于所有的

输入都统一在文本域中，我们的方法避免了隐藏空间

中的多模态特征融合的挑战性任务我们提出的模型的

架构如图3所示除了QANet中使用的基本模块外，我们

还增加了另一个输入预处理模块，并修改了开放式

VQA的输出模块。

取决于任务，输入预处理块可以包括图像描述模块

或/和外部知识检索模块图像描述模块的目的是用文本

段表示图像信息，

前馈层层规范化

自注意层归一化

位置编码

重复卷

积

层规范化

剩余10页未读，继续阅读

cpongm

粉丝: 6

从视觉问答到阅读理解：转化VQA的新策略

VISUM15:视觉理解与机器智能

数字图像处理与机器视觉：VISUAL_C++与MATLAB实现(附带CD)

[数字图像处理与机器视觉：Visual.C.与Matlab实现].张铮.扫描

机器视觉基础

docprint: 将API-Blueprint文件高效转化为静态HTML文档

Zomoji-Web-Library：一个将文本代码转化为表情符号的完整库

手语生成技术综述：机器视觉与深度学习应用

机器阅读理解技术详解：理解与应用指南

reportlib-2021报表数据可视化进阶：视觉表达，将数据转化为信息

NI_Vision视觉软件安装与配置：新手也能一步步轻松入门

最新资源