融合上下文与视觉刺激的图像字幕注意力模型

0 下载量 146 浏览量 更新于2024-06-20 收藏 2MB PDF 举报
本文主要探讨了如何提升图像字幕中的人类视觉与任务相关的注意力。随着图像字幕技术的发展,它已逐渐借鉴了人类视觉系统的原理,试图通过视觉注意力机制让模型更有效地聚焦于图像的关键区域,从而生成更准确和流畅的描述。传统的图像字幕模型通常依赖于自上而下的语言信息,通过优化字幕目标间接学习注意力。这种方式虽然在一定程度上提高了模型的性能,但它可能会忽视直接监督注意力的重要性,导致模型关注错误或不相关的区域。 自上而下的注意力,如[32]中所述,是基于输入图像和部分生成的自然语言描述来计算单词级别的视觉注意力,旨在将文本与视觉内容关联起来。然而,这种机制可能会因为缺乏对显著区域的先验知识而无法精准聚焦,例如,仅依靠自上而下的注意力,模型可能如图1所示,过于关注图像背景而非显著对象(如斗牛犬和泰迪熊)。 为了克服这一问题,作者受到人类视觉系统多维度注意力启发,提出了一种融合自上而下和基于刺激的注意力的新方法。人类的注意力并非仅由任务特定的自上而下的信号驱动,还受到视觉刺激的直接影响。因此,他们开发了一个名为“提升注意力”的模型,旨在整合这两种类型的注意力,以提高模型对图像关键区域的识别能力。通过将视觉刺激信息与文本上下文相结合,该模型有望更好地捕捉图像中的显著特征,并生成更符合人类注意力模式的字幕。 实验结果表明,提出的提升注意力模型在各种评估指标上达到了国家最先进的性能,证明了这种方法的有效性和实用性。关键词包括图像字幕、视觉注意、人类注意,这些关键词突出了文章的核心研究内容和贡献。通过改进的注意力机制,图像字幕技术朝着更加真实、精确和自然的方向迈进,为增强人机交互体验提供了新的可能。