深度注意神经张量网络提升视觉问答性能 - CSDN文库

118 浏览量更新于2024-06-20 收藏 913KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

4

Y. Bai，J. Fu，T. Zhao和T. 梅

被限制为低等级。之后， Hedi

等人

提出了多模态 Tucker 融合

（MUTAN）[6]，其也是基于模态之间的双线性相互作用但依赖于基

于低秩Tucker张量的分解来显式地约束相互作用秩的多模态融合方案

基于图像-问题-答案三元组的推理。与基于分类的方法不同，

已有一些相关的工作尝试将答案表征引入到视觉问题答案的推理

Shih等人[25]将问题和答案组合作为模型的输入，以确定问题-答案

对是否是来自图像的给定证据的良好匹配Allan等人[12]连接图像特

征向量、问题特征向量和答案嵌入作为输入变量，并预测图像-问

题-答案三元组是否正确。[27]中的工作尝试将图像-问题联合表示

投影到从文本语料库学习的答案嵌入空间Allan

et al

的工作。[12]和

Teney

et al

.[27]使用了从文本语料库中学习到的答案嵌入，这已被证

明是

表示视觉信息的能力有限[5]。此外，

图像-问题-答案三元组之间

的关系推理应该是非常复杂的，应该是很难被建模，通过使用简单

的连接特征向量或元素的产品。

在这项工作中，我们介绍了DA-NTN，一个基于深度注意的神经张

量网络推理图像-问题-答案三元组之间的复杂关系在这项工作中使用

的答案嵌入是从头开始学习的VQA任务的监督。DA-NTN可以很容易

地应用于传统的基于分类的VQA模型，并显着提高这些方法的性能。

3

方法

图1提供了我们的开放式视觉问答框架的架构的概述VQA任务的目标

是在给定图像

I

∈

I

和相应问题

q

∈ Q的情况下提供答案。以前的大多数

工作都将开放式VQA视为分类任务：

argmax

p

θ

（

a

i

|

q

，

I

）（1）

a

i

∈A

其中

θ

表示模型的整个参数集，A是候选答案集。然而，在我们提出

的模型中，我们将开放式VQA视为回归任务，我们提出的方法的目标

是测量图像

I

，问题

a

和答案

a

i

之间的相关性得分

s

θ

（

q

，

I

，

ai

），然后

预测图像-问题-答案三元组是否正确。

我们模型的输入包含一个问题以及相应的图像和候选答案。分别

采用卷积神经网络和GRU递归网络提取图像和问题的特征向量然后通

过使用双线性池化模块（如MLB [14]，MUTAN [6]）将图像和问题的

表示集成为多模态最后，应用DA-NTN模块来度量问题-图像对的集成

特征向量

vqI

与输入答案表示之间的相关度

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈