融合上下文与视觉刺激的图像字幕注意力模型

146 浏览量更新于2024-06-20 收藏 2MB PDF 举报

本文主要探讨了如何提升图像字幕中的人类视觉与任务相关的注意力。随着图像字幕技术的发展，它已逐渐借鉴了人类视觉系统的原理，试图通过视觉注意力机制让模型更有效地聚焦于图像的关键区域，从而生成更准确和流畅的描述。传统的图像字幕模型通常依赖于自上而下的语言信息，通过优化字幕目标间接学习注意力。这种方式虽然在一定程度上提高了模型的性能，但它可能会忽视直接监督注意力的重要性，导致模型关注错误或不相关的区域。自上而下的注意力，如[32]中所述，是基于输入图像和部分生成的自然语言描述来计算单词级别的视觉注意力，旨在将文本与视觉内容关联起来。然而，这种机制可能会因为缺乏对显著区域的先验知识而无法精准聚焦，例如，仅依靠自上而下的注意力，模型可能如图1所示，过于关注图像背景而非显著对象（如斗牛犬和泰迪熊）。为了克服这一问题，作者受到人类视觉系统多维度注意力启发，提出了一种融合自上而下和基于刺激的注意力的新方法。人类的注意力并非仅由任务特定的自上而下的信号驱动，还受到视觉刺激的直接影响。因此，他们开发了一个名为“提升注意力”的模型，旨在整合这两种类型的注意力，以提高模型对图像关键区域的识别能力。通过将视觉刺激信息与文本上下文相结合，该模型有望更好地捕捉图像中的显著特征，并生成更符合人类注意力模式的字幕。实验结果表明，提出的提升注意力模型在各种评估指标上达到了国家最先进的性能，证明了这种方法的有效性和实用性。关键词包括图像字幕、视觉注意、人类注意，这些关键词突出了文章的核心研究内容和贡献。通过改进的注意力机制，图像字幕技术朝着更加真实、精确和自然的方向迈进，为增强人机交互体验提供了新的可能。

S. Chen和Q. 赵

在这项工作中，我们提出了一个提升注意力的方法，将刺激为基

础的人类注意力与现有的自上而下的视觉注意力。在使用人类注意力

的同时，我们的方法在以下方面与上述工作不同：1）不同于[29]仅依

赖于基于刺激的注意力，我们强调有必要将基于刺激的注意力与自上

而下的注意力相结合。2）与[3，28]不同，[3，28]利用基于刺激的注

意力来分割自上而下的注意力，并从由两种注意力（凝视）或不受基

于刺激的注意力（非凝视）关注的区域提取特征，我们的方法从由任

一注意力关注的区域提取特征，因此两者都直接以平等的角色做出贡

献，自然地使两种类型的注意力能够相互补充实验结果验证了它们的

互补性，这有助于显着提高字幕性能。3)而不是使用空间图来编码基

于刺激的注意力，如[3，28，29]，我们通过注意力CNN特征整合注意

力。与空间映射相比，我们的特征编码了更丰富的信息，并且除了空

间注意之外还引入了通道注意。

基于刺激的注意在图像字幕中的作用

虽然人类生成的字幕是相对自由的形式，并且在描述中具有可考虑的

主体间差异，但人们描述的内容存在很大程度的一致性（

即，

，在字

幕中提到的单词）和人们看起来（

即。

具有基于刺激的注意力的固定

对象）。在这一节中，我们将探讨基于刺激的注意在图像字幕中的作

用。特别地，我们通过在不同评估指标下在SALICON [11]数据集上比

较基于刺激的注意和字幕注意之间的相关性请注意，为了深入了解基

于刺激的注意力如何有助于字幕任务，我们在这里使用的字幕注意力

是从来自MSCOCO的地面实况标签导出的，并且被视为用于生成字幕

的地面实况注意。

类似于[29]，我们使用视觉对象类别

生成字幕注意到

场景的N（V 〇

S）映射（作为对细节的补充数据的补充）

。在比较中使用的评估度量包

括系数

C或

融合上下文与视觉刺激的图像字幕注意力模型

带有视觉注意的图像字幕：我的学士学位论文的代码

image_captioning:Udacity计算机视觉纳米级图像字幕项目

image_captioning：关注图像字幕的神经网络

remote-sensing-image-captioning:遥感图像字幕论文的体系结构

Python-自下而上和自上而下关注图像字幕和视觉问答

图像字幕启动

基于残差注意力的 LSTM 视频字幕识别.zip

PyTorch注意力机制：提升模型性能的核心技术

计算机视觉中的注意力机制：从CNN到ViT的发展历程

多模态文本生成技术：图像与文本的交互生成

最新资源