Y. Bai,J. Fu,T. Zhao和T. 梅
被 限 制 为 低 等 级 。 之 后 , Hedi
等 人
提 出 了 多 模 态 Tucker 融 合
(MUTAN)[6],其也是基于模态之间的双线性相互作用但依赖于基
于低秩Tucker张量的分解来显式地约束相互作用秩的多模态融合方案
基于图像-问题-答案三元组的推理。与基于分类的方法不同,
已有一些相关的工作尝试将答案表征引入到视觉问题答案的推理
Shih等人[25]将问题和答案组合作为模型的输入,以确定问题-答案
对是否是来自图像的给定证据的良好匹配Allan等人[12]连接图像特
征向量、问题特征向量和答案嵌入作为输入变量,并预测图像-问
题-答案三元组是否正确。[27]中的工作尝试将图像-问题联合表示
投影到从文本语料库学习的答案嵌入空间Allan
et al
的工作。[12]和
Teney
et al
.[27]使用了从文本语料库中学习到的答案嵌入,这已被证
明是
表示视觉信息的能力有限[5]。此外,
图像-问题-答案三元组之间
的关系推理应该是非常复杂的,应该是很难被建模,通过使用简单
的连接特征向量或元素的产品。
在这项工作中,我们介绍了DA-NTN,一个基于深度注意的神经张
量网络推理图像-问题-答案三元组之间的复杂关系在这项工作中使用
的答案嵌入是从头开始学习的VQA任务的监督。DA-NTN可以很容易
地应用于传统的基于分类的VQA模型,并显着提高这些方法的性能。
3
方法
图1提供了我们的开放式视觉问答框架的架构的概述VQA任务的目标
是在给定图像
I
∈
I
和相应问题
q
∈ Q的情况下提供答案。以前的大多数
工作都将开放式VQA视为分类任务:
argmax
p
θ
(
a
i
|
q
,
I
) (1)
a
i
∈A
其中
θ
表示模型的整个参数集,A是候选答案集。然而,在我们提出
的模型中,我们将开放式VQA视为回归任务,我们提出的方法的目标
是测量图像
I
,问题
a
和答案
a
i
之间的相关性得分
s
θ
(
q
,
I
,
ai
),然后
预测图像-问题-答案三元组是否正确。
我们模型的输入包含一个问题以及相应的图像和候选答案。分别
采用卷积神经网络和GRU递归网络提取图像和问题的特征向量然后通
过使用双线性池化模块(如MLB [14],MUTAN [6])将图像和问题的
表示集成为多模态最后,应用DA-NTN模块来度量问题-图像对的集成
特征向量
vqI
与输入答案表示之间的相关度