空间注意力推理机制在视觉问答算法中的应用研究

需积分: 50 3 浏览量更新于2024-08-13 收藏 1018KB PDF 举报

"基于空间注意力推理机制的视觉问答算法研究" 本文主要探讨了在视觉问答领域如何通过改进注意力机制来提升多模态学习的效果。视觉问答任务涉及理解图像内容并与问题相结合，以生成准确的回答。现有的注意力机制在处理文本上下文和图像目标区域的关系时存在一定的局限性。为了解决这一问题，作者提出了结合自注意力模块（Self-Attention, SA）和空间推理注意力模块（Spatial Reasoning Attention, SRA）的新方法。首先，自注意力机制（SA）是Transformer架构中的关键组成部分，它允许模型对输入序列中的每个元素与所有其他元素进行交互，从而捕获到更丰富的上下文信息。在视觉问答中，SA被用来处理文本信息，强化了不同单词之间的相互关系，提高了理解问题的能力。其次，空间推理注意力模块（SRA）则专注于处理图像的目标区域，考虑了它们的空间位置关系。SRA通过计算图像特征与问题之间的关联，能够更精确地定位到图像中与问题相关的关键区域，从而辅助模型理解图像内容。这两者结合的创新之处在于，SA和SRA的联合使用可以更好地匹配文本信息和图像目标，提高了模型的定位和理解能力。在VQAv2数据集上进行的实验表明，采用这种新的注意力机制的模型取得了64.01%的准确率，这是一个显著的提升，证明了该方法的有效性。此外，文章还介绍了研究背景，指出目前基于注意力机制的多模态学习中存在对文字上下文和图像空间位置关系处理不足的问题。作者通过对现有注意力网络的分析，设计出新的模块来增强这些关系的表示。文章由南昌航空大学信息工程学院的研究团队完成，其中李智涛、周之平和叶琴分别作为主要研究人员，他们的专业领域涵盖了视觉问答、目标检测和计算机视觉。这篇文章提出的基于空间注意力推理机制的视觉问答算法是一种新颖的解决方案，它通过增强文本和图像的交互，特别是在理解空间位置关系方面的提升，对提高视觉问答系统的性能有着重要的贡献。这种方法有望在未来被应用于更广泛的多模态学习任务，如图像描述生成、图像检索等。

收稿日期：２０１９１２１６；修回日期：２０２００２０２　　基金项目：国家自然科学基金资助项目（７１７６１０２８）

作者简介：李智涛（１９９３），男，安徽芜湖人，硕士，主要研究方向为视觉问答、目标检测（ｌｉ１０２１９５０６２３＠１６３．ｃｏｍ）；周之平（１９７５），男，江西南

昌人，讲师，硕导，博士，主要研究方向为目标检测等；叶琴（１９９５），女，江西南昌人，硕士研究生，主要研究方向为计算机视觉等．

基于空间注意力推理机制的视觉问答算法研究



李智涛，周之平，叶　琴

（南昌航空大学信息工程学院，南昌３３００６３）

摘　要：针对现有基于注意力机制的多模态学习，对文字上下文之间的自我联系和图像目标区域的空间位置关

系进行了深入研究。在分析现有注意力网络的基础上，提出使用自注意力模块（ｓｅｌｆａｔｔｅｎｔｉｏｎ，ＳＡ）和空间推理注

意力模块（ｓｐａｔｉａｌｒｅａｓｏｎｉｎｇａｔｔｅｎｔｉｏｎ，ＳＲＡ）对文本信息和图像目标进行映射，最终得到融合特征输出。相较于其

他注意力机制，ＳＡ和ＳＲＡ可以更好地将文本信息匹配图像目标区域。模型在ＶＱＡｖ２数据集上进行训练和验

证，并在ＶＱＡｖ２数据集上达到了６４．０１％的准确率。

关键词：视觉问答；注意力机制；多模态学习；自注意力；空间推理注意力

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２１）０３０６１０９５２０４

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．１２．０６６３

Ａｌｇｏｒｉｔｈｍｏｆｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇｂａｓｅｄｏｎｓｐａｔｉａｌａｔｔｅｎｔｉｏｎｒｅａｓｏｎｉｎｇｍｅｃｈａｎｉｓｍ

ＬｉＺｈｉｔａｏ，ＺｈｏｕＺｈｉｐｉｎｇ，ＹｅＱｉｎ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＮａｎｃｈａｎｇＨａｎｇｋｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｃｈａｎｇ３３００６３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｉｍｉｎｇａｔｔｈｅｅｘｉｓｔｉｎｇｍｕｌｔｉｍｏｄａｌｌｅａｒｎｉｎｇｗｈｉｃｈｂａｓｅｄｏｎａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ，ｔｈｉｓｐａｐｅｒｓｔｕｄｉｅｄｔｈｅｓｅｌｆａｓｓｏｃｉ

ａｔｉｏｎｂｅｔｗｅｅｎｔｈｅｃｏｎｔｅｘｔｏｆｔｈｅｔｅｘｔａｎｄｔｈｅｓｐａｔｉａｌｐｏｓｉｔｉｏｎａｌｒｅｌａｔｉｏｎｓｈｉｐｏｆｔｈｅｏｂｊｅｃｔａｒｅａｏｆｔｈｅｉｍａｇｅ．Ｂａｓｅｄｏｎｔｈｅａｎａｌｙｓｉｓ

ｏｆｅｘｉｓｔｉｎｇａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋｓ

，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄｔｏｕｓｅＳＡａｎｄＳＲＡｔｏｍａｐｔｈｅｔｅｘｔｉｎｆｏｒｍａｔｉｏｎｔｏｔｈｅｉｍａｇｅｏｂｊｅｃｔ，ａｎｄｆｉｎａｌ

ｌｙｏｂｔａｉｎｅｄｔｈｅｆｕｓｉｏｎｆｅａｔｕｒｅｏｕｔｐｕｔ．Ｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｓ，ＳＡａｎｄＳＲＡｃａｎｂｅｔｔｅｒｍａｔｃｈｔｅｘｔｉｎｆｏｒｍａｔｉｏｎ

ｔｏｔｈｅｉｍａｇｅｏｂｊｅｃｔａｒｅａ．ＴｈｅｍｏｄｅｌｉｓｔｒａｉｎｅｄａｎｄｖｅｒｉｆｉｅｄｏｎｔｈｅＶＱＡｖ２ｄａｔａｓｅｔａｎｄａｃｈｉｅｖｅｓａｎａｃｃｕｒａｃｙｏｆ６４．０１％ｏｎｔｈｅ

ＶＱＡｖ２ｄａｔａｓｅｔ．

Ｋｅｙｗｏｒｄｓ：ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ（ＶＱＡ）；ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ；ｍｕｌｔｉｍｏｄａｌｌｅａｒｎｉｎｇ；ｓｅｌｆａｔｔｅｎｔｉｏｎ；ｓｐａｔｉａｌｒｅａｓｏｎｉｎｇ

ａｔｔｅｎｔｉｏｎ

　　视觉问答（ＶＱＡ）

［１］

是人工智能领域一个极具挑战性的新

兴研究领域，是一种同时涉及计算机视觉（

ＣＶ）和自然语言处

理（ＮＬＰ）的多模态学习任务。视觉问答系统以一幅图片和关

于这幅图片的一个形式自由、开放式的自然语言问题作为输

入，以生成一条自然语言答案作为输出。不同于图像字幕

（

ｉｍａｇｅｃａｐｔｉｏｎｉｎｇ），ＶＱＡ需要同时对图像和文字进行理解，并

对图像和文字信息进行融合。早在２０１４年，Ｍａｌｉｎｏｗｓｋｉ等

人

［２］

就开始对视觉问答任务进行研究，通过对图片和问题进

行关联，最终预测答案。之后，

Ａｎｔｏｌ等人

［３］

融合图片和问题特

征，预测问题的答案。受到注意力机制的启发，Ｌｕ等人

［４］

提出

协同注意力机制，将整幅图像的特征和问题文本特征进行融

合，对融合后的特征预测对应问题的答案。

Ｋｉｍ等人

［５］

使用双

线性注意力模块对图片特征和问题特征进行融合，以增强图片

全局信息和问题文本的匹配程度。Ｙｕ等人

［６］

在双线性注意力

基础上对融合后的特征进行高阶分解池化，获得表达能力更加

优秀的融合特征并进行答案预测。

Ｃａｄｅｎｅ等人

［７］

提出的多模

态关系推理网络和Ｙｕ等人

［８］

提出的深层协同注意力模型，通

过增加模型深度来提升多模态特征之间的匹配能力，但在训练

阶段会产生大量的计算开销。文献［

９］通过修改ＧＲＵ和注意

力机制，将情感分析和词性标注用于视觉问答任务。

Ａｎｄｅｒｓｏｎ等人

［１０］

提出的自顶向下—自底向上注意力网络

（ｂｏｔｔｏｍｕｐａｎｄｔｏｐｄｏｗｎａｔｔｅｎｔｉｏｎ）是一个解决视觉问答任务中

图像目标和问题文本对应匹配的神经网络模型。网络使用

ＦａｓｔｅｒＲＣＮＮ

［１１］

提取图片中目标特征，使用注意力网络将图像

目标和问题文本输入注意力融合网络，得到融合特征最终预测

答案，从而获得最先进的结果。

文献［

１０］的网络模型虽然将图像中目标特征作为图像信

息的输入，但却忽视了图像中大量冗余目标与问题文本进行匹

配时出现的干扰，以及使用简单的注意力网络对图像目标和问

题文本进行融合时出现的匹配性能不足。针对上述不足，本文

在文献［１０］模型的基础上进行改进：ａ）对图像目标和问题文

本分别使用自注意力模块提取特征，减少图像目标和问题文本

中冗余信息的干扰；ｂ）提出空间推理注意力模块，对目标信息

和文本信息进行融合获得联合特征，增强多模态特征的匹配能

力。实验结果表明：相比于现有的方法，本文算法能凭借较低

的模型复杂度获得相媲美的计算性能。

１　相关工作

１１　视觉问答中的注意力机制

注意力机制早期被用于自然语言处理中，它能表达自然语

言中的上下文关系，有效地解决自然语言处理过程中的分心问

题。研究人员发现，在视觉问答任务中注意力机制可以有效地

建立不同模态特征（图像特征和问题特征）之间的匹配关系。

因此，基于注意力机制的多模态学习任务逐步成为了视觉问答

研究中的主流方法之一。通用注意力机制采用了ｅｎｃｏｄｅｒｄｅ

ｃｏｄｅｒ的网络结构，如图１所示。将输入序列Ｘ送入ｅｎｃｏｄｅｒ模

块中学习到抽象表达Ｃ，再通过ｄｅｃｏｄｅｒ模块从抽象表达Ｃ中

生成输出序列

Ｙ。

第３８卷第３期

２０２１年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３８Ｎｏ３

Ｍａｒ．２０２１

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38724363

粉丝: 5
资源: 972

空间注意力推理机制在视觉问答算法中的应用研究

基于视觉和语言的跨媒体问答与推理研究综述

基于python注意力机制的三维点云车辆目标检测算法研究p源码+项目说明+示例图片.zip

免费yolo算法的改进的各个注意力机制

堆叠式注意力网络实现视觉问答-VQA模型

CVPR2018:融合上下文的注意力机制提升图像描述与视觉问答性能

机器视觉领域视觉问答数据集与方法研究综述

基于注意力机制的问答模型设计

解锁注意力机制的威力：视觉问答模型的革命性应用

【解决注意力机制模型推理过程中的计算效率问题】： 研究解决注意力机制模型推理过程中计算效率问题的方法

【自注意力机制在计算机视觉领域的创新应用】： 探索自注意力机制在计算机视觉领域的创新应用

最新资源

【解决注意力机制模型推理过程中的计算效率问题】：研究解决注意力机制模型推理过程中计算效率问题的方法

【自注意力机制在计算机视觉领域的创新应用】：探索自注意力机制在计算机视觉领域的创新应用