ICLR 2017论文总结：多模态特征融合方法（MUTAN）在VQA视觉问答中的应用

需积分: 0 200 浏览量更新于2024-06-16 收藏 919KB PDF 举报

在"多模态特征融合的方法总结：应用于VQA视觉问答"这篇会议上发表的文章中，作者Zimo Li深入探讨了视觉问答（Visual Question Answering, VQA）任务中关键的特征融合技术，特别是以双线性池化为基础的方法。双线性池化作为一种先进的融合策略，其变体在提升VQA系统的性能上扮演着重要角色。文章的核心焦点在于MUTAN方法，这是一种专门设计用于解决视觉和语言模态融合问题的模型，它在ICLR 2017年会议上被提出。首先，视觉问答任务要求系统能理解图像和自然语言问题，然后生成准确的回答。这个任务涉及将来自视觉和文本输入的信息高效地整合，以便模型能够准确识别出图像中的关键信息并结合问题进行推理。VQA系统的典型结构包括图像编码器、文本编码器和一个用于融合两种模态特征的模块。 VQAv2数据集是研究者们普遍使用的基准，它包含了丰富的图像、问题和答案对，用于评估模型在实际场景下的表现。该数据集的特点是每张图片对应多个问题，每个问题有多个可能的答案，这增加了任务的复杂性和挑战性。作者提供的GitHub链接提供了MUTAN模型的实现代码，以便其他研究者进行学习和进一步的研究。 MUTAN方法通过设计独特的双线性交互层，允许不同模态特征之间的交互，并捕获它们之间的潜在关系。这种方法通过学习权重矩阵来调整模态特征的融合，从而提高了对问题相关视觉信息的理解。双线性池化的优势在于它能够捕捉模态间复杂的非线性依赖，有助于提高VQA模型的准确性和泛化能力。这篇总结旨在为研究者提供关于特征融合在VQA任务中的实践指导，特别是在MUTAN方法的应用上。它不仅概述了理论原理，还包含了具体的实施步骤和可用资源，有助于推动视觉问答领域的进一步发展。对于那些寻求优化VQA系统性能或探索新型融合策略的开发者来说，这是一个有价值的参考材料。

Published as a conference paper at ICLR 2017

其中

∈ R

n×m

，z

，比较 Eq2 和 Eq5，我个人猜想，这就是为什么说双线性池化等

价于双线性模型的原因。

然后双线性模型的 z 可以写成：

z =







...







= x

W y ∈ R

(6)

后续的 Low-Rank Bilinear Pooling 和 Factorized Bilinear Pooling 本质上都是用的

双线性模型而非双线性池化。但有一点要特别注意：

W ∈ R

c×n×m

是一个三维张量，

而 W ∈ R

c×nm

是一个二维张量 (或者叫矩阵)，如果后面不特别说明的话，我们默认

W ∈ R

c×n×m

来代替

W 。

3 Low-rank Bilinear Pooling

LBM 是改进 BM，之前不是说 BP 的问题在于参数量太大不好训练嘛，那从 BM 的角

度出发，参数量的本质在 W 上，因为 W 是一个三维张量。

现在我们考虑 z

= x

y, W

∈ R

m∗n

，如果能把 W

的维度搞下来，那 W 的维数

也就下来了。在这里我们考虑矩阵分解，W

= U

, U

∈ R

m∗d

, V

∈ R

n∗d

，其中 d

是远小于 mn 的，也就是说 Rank(U

) << Rank(W

)，即 R ank(U

) << Rank(W

)，

那么基于这种思想

= x

y = x

y = 1

x o V

y), 1 ∈ R

(7)

是一个

维的列向量，其元素全是数字

。

是哈德马积，也就是按元素乘。

3.1 LBM 角度看 LBP

那么好了，我们有了上面的推导我们可以把 y 求出来

z = P

x o V

y), P ∈ R

d∗c

, U ∈ R

m∗d

, V ∈ R

n∗d

(8)

通过引入了 P，使得 U 和 V 可以是二维张量。而比较有意思的事情是 MFBP 这篇论

文恰恰是从 U,V 入手，直接按照三维张量处理，但是去掉了 P，有了比 MLBP 更好的

效果。

请注意：实际上 Eq8 也可以理解为：先对两个输入向量做映射，然后做元素相乘，得

到一个融合后的向量，然后再做一次分类映射。

然后在 MLBP 这篇论文提到：为了不丢失视觉和文本的特征信息，采用了一种类似于

残差连接的方法，如下公式：

z = P

x o V

y + U

′T

x + V

′T

y) (9)

剩余15页未读，继续阅读

zimoli-nuist

粉丝: 96
资源: 2

ICLR 2017论文总结：多模态特征融合方法（MUTAN）在VQA视觉问答中的应用

VQA项目：深入理解视觉问答技术

多模态综述：从VQA到Transformer的演进

"深入探讨VQA2020：图表问答和视频问答领域新算法与数据集综述

Python-MURELCVPR2019视觉问答VQA的多模态关系推理

K-VQA：一种知识图谱辅助下的视觉问答方法.docx

从VQA到多模态综述 Survey v21

VQA:VQA项目

Python-基于Tensorflow的视觉问答系统VQA

多模态视觉语言表征学习研究综述

个人总结的大模型、自然语言处理NLP、多模态、计算机视觉CV等方向paper的阅读笔记

最新资源