提升注意力：图像字幕中的人类视觉与任务相关的注意力

187 浏览量更新于2023-10-13 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

提升注意力：利用人类注意力进行图像字幕史晨【0000−0002−3749−4767】、齐钊【0000−0003−3054−8934】明尼苏达大学计算机科学与工程系{chen4595，qzhao}@ umn.edu抽象。视觉注意力已经在图像字幕中显示出有用性，其目标是使得字幕模型能够选择性地聚焦于感兴趣的区域现有的模型通常依赖于自上而下的语言信息，并通过优化字幕目标来隐式地学习注意力。虽然有些有效，但学习的自上而下的注意力在没有直接监督注意力的情况下可能无法集中在正确的感兴趣区域。受人类视觉系统的启发，它不仅是由特定于任务的自上而下的信号，但也是视觉刺激，我们在这项工作中建议使用这两种类型的注意图像字幕。特别是，我们强调了这两种类型的注意力的互补性，并开发了一个模型（提升注意力），将它们整合为图像字幕。我们验证了所提出的方法与国家的最先进的性能在各种评估指标。关键词：图像字幕，视觉注意，人类注意1介绍图像字幕的目的是对给定的图像生成流畅的语言描述。受人类视觉系统的启发，在过去的几年中，视觉注意力已经被并入各种图像字幕模型中[21，26，32，33]。注意力机制鼓励模型选择性地关注特定区域，同时生成字幕，而不是扫描整个图像，避免信息溢出以及突出显示与任务相关的视觉区域。在[32]中取得成功之后，大多数传统图像字幕模型中的视觉注意力是以单词为基础以自上而下的方式开发的。也就是说，基于来自图像和部分生成的自然语言描述的视觉信息来计算每个生成的单词的视觉注意力。虽然这种机制（即自上而下的注意力）旨在连接自然语言和视觉内容，而不需要关于视觉内容的关于显著区域（即，自上而下的注意力）的先验知识。基于刺激的注意力），则计算的视觉注意力可能无法集中在感兴趣的对象上并且不能注意到不相关的区域。如图1所示，仅具有自上而下注意力的模型聚焦于背景中的非显著区域（图1（c）），并且不捕获图像中的显著对象，即，斗牛犬和泰迪熊根据人工生成的字幕。2S. Chen和Q. 赵Fig. 1.自上而下的注意力可能无法集中在感兴趣的对象上。(a)：具有人工生成的字幕的原始图像，（b-c）两个自上而下的注意力图及其相应的模型生成的字幕，以及（d）图像的基于刺激的注意力图。与自上而下的注意力地图相关的单词用红色表示。人类的注意力是由任务特定的自上而下的信号和任务无关的视觉刺激驱动的。对于视觉任务，如图像字幕，人类自然会部署他们的目光在探索过程中基于自上而下和基于刺激的信息。因此，不同的人在同一张图像中提到的对象在很大程度上是一致的，并且与基于刺激的注意力突出显示的对象相关因此，我们建议，视觉刺激可以是一个合理的来源，用于定位图像字幕中的显着区域，这也可以补充自上而下的注意，涉及到特定的任务。在图1（d）中，我们看到基于刺激的注意力成功地完全注意到了与人类生成的标题中提到的感兴趣对象相对应的区域。在这项工作中，我们进行定性分析，以了解人类刺激为基础的注意在图像字幕的作用。然后，我们提出了一个提升注意力的方法，利用基于刺激的注意力的图像字幕。更具体地说，我们结合了基于刺激的注意力与自上而下的字幕注意力，构建了一种新的注意力机制，鼓励模型注意基于任务特定的自上而下的信号从自然语言的视觉特征，而在同一时间专注于突出的区域突出的任务无关的Microsoft COCO [19]（MSCOCO）和Flickr30K [24]数据集的定量结果表明，结合基于刺激的注意力能够显著提高各种评估指标的模型性能。我们还可视化的结果定性地说明了两种类型的注意力在图像字幕的互补作用。我们的方法是通用的，并与各种图像字幕模型。增强注意力字幕32相关作品图像字幕。近年来，基于静止图像生成自然语言描述获得了越来越多的关注。为了生成字幕，[4，14，17]首先提取与图像中的元素相关的一组属性，然后基于检测到的属性生成语言描述。几个作品[6，9，22]将图像字幕视为排名描述问题，并通过进行查询以检索接近嵌入空间上的图像的描述来解决该问题。随着深度神经网络（DNN）的成功，许多作品[2，5，12，20，25，31，32]已经开发了基于神经通常，这些方法使用卷积神经网络（CNN）作为视觉编码器来提取视觉特征，并使用诸如长短期记忆（LSTM）的递归神经网络（RNN）生成字幕[8]。自上而下的注意力在字幕。自上而下的视觉注意力已被广泛用于各种图像字幕模型，以便允许模型选择性地集中在感兴趣的对象上。Xu等人[32]将LSTM的记忆向量与来自CNN的视觉特征相结合，并将融合的特征馈送到注意力网络，以计算不同空间位置的特征的权重。Yang等人[33]提出了一个审阅者模块，该模块在生成下一个单词期间多次应用视觉注意机制。在[21]中，提出了一种自适应机制，该机制不仅将权重分配给视觉特征，而且还将权重分配给基于LSTM的记忆状态获得的特征向量，因为不需要关注用于生成特定单词（诸如“the e”和“a”）的视觉特征。除了在空间上应用ATT TINME CHan之外，Chen et al. [2]引入了在卷积层内的不同滤波器上操作的逐信道注意力。这些模型中的大多数使用来自部分生成的字幕的原始视觉特征和自上而下的语言信息以自上而下的方式生成视觉注意。然而，在没有来自图像的具有基于刺激的注意力的直接监督或先验知识的情况下，所计算的自上而下的注意力可能无法集中在正确的感兴趣对象上并且关注不相关的背景。标题中基于刺激的注意力。为了提高图像字幕模型的性能，一些作品尝试使用基于人类刺激的注意力。 Sugano等人[28]利用地面实况人类注视来将自上而下的注意力划分为注视区域和非注视区域。Cornia等人[3]在类似于[28]的字幕模型中整合人类注意力，但用预测的显着性图代替人类凝视。在[29]中，Tavakoli et al. 用基于刺激的注意代替自上而下的注意，分析字幕对基于刺激的注意的影响。虽然这些模型表明人类注意力可以对图像字幕具有积极的影响，但是它们要么仅包含基于刺激的注意力，要么使用基于刺激的注意力来分离不同位置处的自上而下的注意力，从而导致相对于相应基线的相对边际的改善4S. Chen和Q. 赵在这项工作中，我们提出了一个提升注意力的方法，将刺激为基础的人类注意力与现有的自上而下的视觉注意力。在使用人类注意力的同时，我们的方法在以下方面与上述工作不同：1）不同于[29]仅依赖于基于刺激的注意力，我们强调有必要将基于刺激的注意力与自上而下的注意力相结合。2）与[3，28]不同，[3，28]利用基于刺激的注意力来分割自上而下的注意力，并从由两种注意力（凝视）或不受基于刺激的注意力（非凝视）关注的区域提取特征，我们的方法从由任一注意力关注的区域提取特征，因此两者都直接以平等的角色做出贡献，自然地使两种类型的注意力能够相互补充实验结果验证了它们的互补性，这有助于显着提高字幕性能。3)而不是使用空间图来编码基于刺激的注意力，如[3，28，29]，我们通过注意力CNN特征整合注意力。与空间映射相比，我们的特征编码了更丰富的信息，并且除了空间注意之外还引入了通道注意。3基于刺激的注意在图像字幕中的作用虽然人类生成的字幕是相对自由的形式，并且在描述中具有可考虑的主体间差异，但人们描述的内容存在很大程度的一致性（即，，在字幕中提到的单词）和人们看起来（即。具有基于刺激的注意力的固定对象）。在这一节中，我们将探讨基于刺激的注意在图像字幕中的作用。特别地，我们通过在不同评估指标下在SALICON [11]数据集上比较基于刺激的注意和字幕注意之间的相关性请注意，为了深入了解基于刺激的注意力如何有助于字幕任务，我们在这里使用的字幕注意力是从来自MSCOCO的地面实况标签导出的，并且被视为用于生成字幕的地面实况注意。类似于[29]，我们使用视觉对象类别生成字幕注意到场景的N（V 〇S）映射（作为对细节的补充数据的补充）。在比较中使用的评估度量包括系数C或相关性（CC）、参数R和C或相关性（S参数）和相似性（SIM）[16]。此外，我们还计算对象在给定的时间段内被分解的概率，即。e. ，P（d|f）的方法。为了计算该概率，我们首先设置小阈值（即，、0. 1）滤除在地图重新缩放期间引入的假阳性，然后遍历字幕注意力地图内的所有显著性注视。对于每个注视，如果注意力值高于预定义阈值，则我们认为在该注视处对应的对象在字幕中被提及。定量评估表明，标题中描述的对象可以根据具有概率P（d）的时间间隔来确定|f）=0的情况。465. 根据[29]，给定以下条件，对象被提及的概率增强注意力字幕5图二.图像字幕注意和基于刺激的注意的可视化。从左至右：原始图像、地面实况图像字幕注意力图、基于刺激的注意力图。标题显示在图像的底部，多个标题中提到的感兴趣的对象用红色突出显示。它存在（即P（d|e））大约为0.2，因此基于刺激的注意力将选择感兴趣对象的概率增加了2以上，为图像字幕提供了感兴趣对象的合理良好的先验知识。然而，注意，由于基于刺激的注意力通常仅关注显著对象的部分而不是覆盖对象中的所有或有时甚至大部分像素，因此基于刺激的注意力和字幕注意力之间的相关性不高，其中CC = 0。222，SIM = 0。353和斯皮尔曼= 0。324.因此，即使基于刺激的注意力能够部分地捕获用于图像字幕的感兴趣对象，仅仅依赖于基于刺激的注意力对于图像字幕模型可能是不够的。图2示出了字幕注意力和对应的基于刺激的注意力的示例。我们看到，基于刺激的注意力，同时正确定位感兴趣的对象（即，蛋糕、警车、男人、遥控器和男孩），它通常覆盖字幕注意力图中显示的显著区域的一部分4注意力提升法如第3节所述，一方面，基于刺激的注意中的感兴趣对象与图像字幕中的感兴趣对象是合理一致的，这表明基于刺激的注意可以用来提供先验知识6S. Chen和Q. 赵用于图像字幕。然而，另一方面，在位置和覆盖两者中具有一定程度的差异的情况下，单独的基于刺激的注意可能导致视觉信息的丢失，并且因此降低所生成的字幕的质量因此，我们提出了一个提升注意力的方法，将基于刺激的注意力到传统的自上而下的注意力框架的字幕模型的图像字幕。基于刺激的注意与自上而下的注意相结合，构建了一种新的注意机制，称为Boosted Attention，该机制鼓励模型基于自上而下的语言信号关注某些视觉特征在我们所有的实验中，基于刺激的注意力都是从预先训练的显著性预测中获得的网络和有关网络的详细信息可以在第5节中找到。图3.第三章。一个架构设计的说明，提出了提升注意力的方法。自上而下的注意力图及其对应的单词以紫色、蓝色、绿色突出显示，而基于刺激的注意力图显示在红色框中。图3说明了我们的方法的高级架构该模型首先将单个原始图像作为输入，并使用CNN视觉编码器对其进行编码以获得视觉特征。然后，编码的特征并行地通过自上而下的注意力模块和我们的基于刺激的注意力模块，计算自上而下的注意力并整合基于刺激的注意力。所提出的基于刺激的注意力模块主要由三个部分组成：卷积层Wsal，其在显著性预测上进行预训练以产生基于刺激的注意力特征（注意力CNN特征，第4.1节）;卷积层Wv，其进一步编码视觉特征;以及整合模块Wv，其组合基于刺激的注意力和视觉特征。经过自上而下的注意力模块和基于刺激的注意力模块的处理后，结合两种注意力的视觉特征被送入语言生成器以顺序地产生字幕。注意，所提出的方法是通用的，并且与不同的自上而下的注意力和语言生成算法（即，图3中的自顶向下注意模块和语言生成器有关模块的详细信息取决于选定的基线模型，本工作中使用的模型在第5节中描述。增强注意力字幕74.1关注CNN功能代替使用显著性预测网络的最终输出（即，，显着性图），我们建议利用的功能，从中间层的网络，可以编码更丰富的信息刺激为基础的注意。在本节中，我们将使用注意力CNN特征来编码基于刺激的注意力，并提供直观的说明。考虑全卷积显著性预测网络，我们将其表示为以下等式（为了简单起见，我们仅考虑最后两层）：S=softmax（Wmδ（WsalI））（1）其中，I是具有ReLU激活的先前层的输出，Wsal和Wm 分别表示用于产生注意力CNN特征和输出显著性图的层中的权重参数，δ表示ReLU激活，并且S是显著性图。两个卷积层的内核大小都是1，这使得模型能够更好地捕获交叉滤波器相关性，如[10]中所讨论的。如等式1中所示，Wsal在此构造通道式注意力和空间注意力两者。具体地，通过使用ReLU激活确保非负性，为了突出显着性图中的显着区域， Wsal需要构建过滤器和基于刺激的注意力之间的相关性（即，抑制具有负相关性的过滤器并强调具有正相关性的过滤器）。这些相关性（通道式注意力）由W，m中的权重的符号和幅度确定，例如，负权重导致S中激活的减少，因此指示负相关，较大的权重强调更显著的贡献。此外，由于空间softmax激活的使用，Wsal还考虑了空间域上特征与基于刺激的注意之间的相关性，从而产生空间注意。因此，在这项工作中，我们使用Wsal来产生注意力CNN特征，用于编码基于刺激的注意力，不仅构建了广泛用于各种字幕模型的空间注意力，还构建了最近发现对图像字幕有益的通道（过滤器）注意力[2]在图4中，我们可视化了使用CNN特征计算的注意力图，结果表明，我们的模型所利用的注意力CNN特征能够突出显示各种感兴趣的区域。4.2整合基于刺激的注意力本节讨论我们的集成方法，引入基于刺激的注意。我们首先使用如下的不对称函数将基于刺激的注意力与视觉特征整合：′I=WvI◦log（WsalI+）（2）′其中I和I是整合基于刺激之前和之后的视觉特征注意，Wv表示附加卷积层中的权重，该附加卷积层进一步8S. Chen和Q. 赵对视觉特征进行编码，并且Wsal与等式1中相同，◦表示哈达玛乘积，并且是超参数。注意，图3中的⊙表示等式2的整个积分过程。这种集成方法背后的直觉有三个方面：首先，Wv进一步编码视觉特征，允许它们适应存储在W sal中的具有基于刺激的注意的交叉过滤器相关性。第二，通过引入对数，我们的目的是减轻Wv，Wsal之间的共适应效应，并平滑基于刺激的注意特征的贡献。第三，通过超参数估计，我们形成了一种残留机制，保留了视觉特征中的原始信息，从而防止了应用基于刺激的注意所导致的潜在信息丢失。这种机制在所提出的整合方法中是至关重要的，因为单独的基于刺激的注意力可能无法关注所有感兴趣的区域，并且允许模型提取由注意力（基于刺激的或自上而下的）中的任一个关注的特征是合理的。在我们的实验中，我们将定义为数学常数e，以保留原始视觉特征的身份。在补充材料中提供了关于选择超参数的附加讨论。在获得基于刺激的注意所′（即： I），我们通过Hadamard产品对它们施加自上而下的关注，两个注意相辅相成。也就是说，当基于刺激的注意力未能注意到某些感兴趣的区域时，自上而下的注意力可以通过分配更大的权重来注意这些区域，反之亦然。我们将在5.3节中进一步研究这两种类型的注意之间的关系。5实验数据集和评价。我们在两个流行的数据集上评估我们的方法1)Microsoft COCO [19]，其中大多数图像包含复杂自然场景中的多个对象，具有丰富的上下文信息。该数据集包括用于训练、验证和在线评估的82783、40504、40775个图像，每个图像具有5个c或respondingaptions。我们使用该工具对训练和离线评估都是有效的2)Flickr30K [24]，其中大多数图像描绘了人类进行各种活动。它总共有31000张来自Flickr的图片，每张图片有5个相应的标题。由于缺乏官方的分裂，为了与其他作品进行比较，我们从[12]开始分裂。四个自动指标用于评估，包括BLEU[23]，ROUGEL [18]，METEOR [15]和CIDER [30]。显着性预测网络为了整合基于刺激的注意力，我们构建了一个具有2个卷积层的显着性预测网络（请注意，ResNet-101的最后一个卷积层的特征被视为输入）。第一卷积层具有2048个滤波器，而第二层使用单个滤波器将CNN特征投影到空间显著性图。两个层的内核大小都设置为1，整个显着性网络可以表示为等式1。我们在SALICON数据集上用交叉熵对模型进行了优化增强注意力字幕9损失和SGD优化器使用学习率2。5× 10−4。批量大小设置为1。来自显著性预测网络的第一层的权重被用于初始化所提出的方法中的基于刺激的注意力模块（即，等式2中的Wsal基线模型。为了证明我们的方法的有效性和整合基于刺激的注意力的优势，我们将所提出的方法应用于基于软注意力[32]和几个最近的提示[2，26]构建的基线模型以提高性能：我们用更强大的ResNet-101 [7]替代基于VGG[27]的视觉编码器。我们不对在提取特征时，不对原始图像进行裁剪或重新缩放，而是利用自适应空间平均池化层来产生具有2048× 14× 14的固定大小的特征与[32]仅在交叉熵损失上训练模型不同，我们使用[26]中提出的在我们的基线中，LSTM的隐藏大小、单词和注意力维度被设置为512其他设置与原始“软注意力”模型保持相同训练我们按照[26]中的相同设置训练我们的模型：我们使用ADAM [13]优化器来训练所有模型，批量大小设置为50。首先在监督学习框架下对模型进行交叉熵损失训练-工作，初始学习率为5× 10−4，定时采样[1]反馈概率为0。在监督学习期间，学习率衰减0倍。8，反馈概率增加0。05每5个epoch。经过25个阶段的监督学习后，我们在CIDEr度量上进一步如[26]。强化学习的初始学习率被设置为5× 10- 5，并且也被0衰减。每3个时期8个。在监督学习中，我们固定基于刺激的注意力的权重（等式2中的Wsal）以建立并行层内的滤波器之间的相关性（等式2中的Wsal和Wv），而稍后在强化学习中，我们微调基于刺激的注意力，因为已经建立了滤波器相关性。5.1定量结果在本节中，我们报告的定量结果，以证明所提出的方法的有效性。我们对所提出的方法和8种最先进的模型进行了模型间比较，包括SoftAttention [32]，ATT [34]，SCA-CNN [2]，SCN-LSTM [5]，RLE [25]，AdaATT [21]，Att 2all [26]和PG-1。BCMR [20]。我们还对采用和不采用所提出的方法的结果进行了模型内比较（即，整合基于刺激的注意）以及是否使用预先训练的刺激-注意进行整合。在评估期间，波束搜索用于生成字幕，并且波束大小被设置为10S. Chen和Q. 赵3.表1和表2示出了Flickr30K和MSC0C0上的结果比较（Karpathys t e s t sp l i t [ 12] and d on i n e t e s t i n g p l at f orm）。根据比较结果，所提出的提升注意力的方法导致显着的性能提高，在所有的评价指标相比，没有刺激为基础的注意力的原始基线。在Flickr 30 K上，BLEU-4、ROUGE-L、METEOR和CIDER的性能分别提高了2.6%、5.6%、2.3%和12%，而在MSCOCO上，相应的性能分别提高了5.7%、2.0%、2.7%和5.6%。此外，在基于刺激的注意力的推动下，我们的模型能够在两个数据集上实现最先进的性能。模型Flickr30KMSCOCOB@4 MT RG CDB@4 MT RG CD[32]第三十二话 0.191 0.185--0.243 0.239--[34]第三十四话 0.230 0.189--0.304 0.243--SCA-CNN [2]0.223 0.195 0.449 0.447 0.311 0.250 0.531SCN-LSTM [5]0.265 0.218--0.330 0.257 - 1.012RLE [25]- -0.304 0.251 0.525 0.937AdaATT [21]0.251 0.204 0.4672019年12月31日[26]第二十六话- -0.342 0.267 0.557 1.140我们的基线0.471 0.5230.335 0.258 0.551我们的BAM*0.270 0.204 0.4770.350 0.262 0.559 1.111我们的BAM0.274 0.208 0.4820.354 0.265 0.562改善（%）2.6% 5.6% 2.3% 12.0%5.7% 2.7% 2.0% 5.6%表1.与Flickr30K上最先进的性能比较MSCOCO（[12]中的测试分割）。Baseline是我们的增强基线模型，没有基于刺激的注意力，BAM表示提出的Boosted Attention模型，BAM*表示没有使用预先训练的基于刺激的注意力但具有与BAM相同的架构的模型。报告的评分为BLEU-4（B@4）、METEOR（MT）、ROUGE-L（RG）和CIDER（CD）。通过使用所提出的方法相对于其基线的相对改进以百分比示出。BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGEL流星苹果酒[34]第三十四话0.7310.5650.4240.3160.5350.2500.953SCA-CNN [2]0.7120.5420.4040.3020.5240.2440.912SCN-LSTM† [5]0.7400.5750.4360.3310.5430.2571.003PG-BCMR [20]0.7540.5910.4450.3320.5500.2571.013AdaATT† [21]0.7480.5840.4440.3360.5500.2641.042[26]第二十六话0.7810.6190.4700.3520.5630.2701.147我们的BAM†0.7940.6220.4700.3490.5600.2641.083表2. MSCOCO评估平台上的在线结果（C5），†表示模型的集合。我们的结果是从4个模型的集合中获得的，这些模型在随机种子增强注意力字幕11为了进一步研究基于刺激的注意力的贡献，我们使用与所提出的模型具有相同架构的模型进行实验，但没有对基于刺激的注意力的预训练权重进行初始化。在这种情况下，基于刺激的注意力Wsal被端到端地训练，并且在监督学习期间不固定。如表1所示，具有预先训练的基于刺激的注意力（BAM）的模型能够始终优于没有基于刺激的注意力（BAM*）的模型，表明基于刺激的注意力在提高性能方面起着重要作用，并且我们的方法的改进不仅仅是由于架构上的修改的优点。5.2定性结果除了定量评估之外，在本节中，我们还通过比较使用和不使用我们的方法的模型计算的定性结果来进一步证明所提出的方法的有效性图4示出了基于两个模型生成的字幕，以及由模型使用提升注意力方法计算的相应的基于刺激的注意力图基于刺激的注意力图通过在不同空间位置处归一化CNN特征内的平均激活来生成。见图4。使用和不使用提升注意力方法的模型的定性结果。从左到右：原始图像，基于刺激的注意力图，以及与图像对应的字幕。使用和不使用提升注意力方法的模型生成的字幕分别用红色和黑色着色，而地面真实人类生成的字幕用蓝色着色。12S. Chen和Q. 赵根据实验结果，引入基于刺激的注意有助于模型有效地定位视觉场景中的感兴趣对象，并生成更好的字幕。例如，在上面的两张图片中，使用提升注意力的模型成功地聚焦在街道标志上，就像人类一样（如注意力地图和红色标题所示），而没有引入基于刺激的注意力的模型则会迷失在背景物体中，如棕榈树和公共汽车（见黑色标题）。此外，结果还表明，该模型与所提出的提升注意力方法是能够捕捉图像中的多个显着对象例如，对于底部的三个图像，通过结合基于刺激的注意力，模型能够专注于包括鸟、山和笔记本电脑在内的对象（参见注意力地图和红色标题）。这些对象在模型生成的字幕中没有使用Boosted Attention（黑色字幕），但在多个人工生成的字幕中提到（蓝色字幕）。5.3图像字幕探讨两种类型的注意，即基于刺激的注意和自上而下的模型注意在字幕生成过程中相互结合，我们首先评估来自两种类型的注意的注意图之间的相关性。基于刺激的注意力图是使用方法与第5.2节所述相同。由于自上而下的注意力地图生成的标题内的每个相应的词，我们计算的平均相关性刺激为基础的注意力地图和自上而下的注意力地图不同的话。我们计算了5000个来自Karp的图像的相关信息[12]。两个评估度量通常用于估计spatialmaps之间的相关性，i。e. 将有效C或相关性（CC）和Spearman的R和C或相关性（Spearman）用于分析。根据实验结果，CC和Spearman得分为负（CC=-0。256，斯皮尔曼=-0。369），表明基于刺激的注意倾向于关注不同于自上而下的注意的区域，因此两者可以潜在地互补。接下来，我们展示了定性的结果，以证明两个注意语料库以互补的方式。图5比较了自上而下的注意力及其对应的基于刺激的注意力，注意力之间的协作的三种典型场景总结如下：场景I：基于刺激的注意力已经成功地捕获了与所生成的字幕相对应的所有感兴趣的对象。在这种情况下，自上而下的注意力往往在区分与任务相关的显著区域上发挥次要作用。如前两幅图像所示，由于基于刺激的注意力已经集中在标题中提到的感兴趣的对象上（即，注意力集中在目标对象上）。第一图像中的马和教堂，第二图像中的人和长颈鹿），当生成与对象相对应的词时，自上而下的注意力不具有清晰的聚焦区域（第一图像）或者关注类似的区域增强注意力字幕13图五、定性结果表明，这两种类型的注意在各种情况下相辅相成从左到右：原始图像与生成的字幕，基于刺激的注意力地图，自上而下的模型注意力地图的不同的话在字幕。与特定的自上而下的注意力地图相关联的单词以红色突出显示。14S. Chen和Q. 赵作为基于刺激的注意力（第二幅图像）。情景二：基于刺激的注意力只集中在对象的一部分，而不是覆盖整个对象（例如，注意力集中在对象的一部分上）。第三图像），或者它覆盖一些但不是所有的感兴趣对象（例如，第四个图像）。在这些情况下，自上而下的注意力将集中在缺失的区域，以加强感兴趣的对象和补充刺激为基础的注意。在第三幅图像中，基于刺激的注意力突出了猫，但仅突出了填充动物的底部，因此，为了在生成单词“动物”时收集足够的视觉信息，自上而下的此外，在第四幅图像中，我们可以看到，由于基于刺激的注意力并不完全集中在女人身上，因此在生成单词“女人”期间，情景三：基于刺激的注意不能区分具有不相关背景的显著物体。在这种情况下，自上而下的注意力将在提取与感兴趣的对象相对应的区域中起主要作用。如第五幅图像所示，由于视觉场景的复杂性，基于刺激的注意力将感兴趣的对象（即，根据标题的女人和猫）与背景对象（诸如床和毯子）混淆。因此，该模型依赖于自上而下的注意力来过滤掉不相关的信息，并专注于与正在生成的单词相关的区域。6结论在这项工作中，我们提出了一个提升注意力的方法，利用人类刺激为基础的注意力，以提高图像字幕模型的性能。基于刺激的注意力提供了视觉场景中显著区域的先验知识在MSCOCO和Flickr30K数据集上的实验结果表明，该方法在不同的评价指标上均显著提高了字幕效果所提出的方法也是通用的，并与各种图像字幕模型使用自上而下的视觉注意兼容。确认这项工作得到了NSF Grant 1763761和明尼苏达大学计算机科学与工程系启动基金（QZ）的支持。增强注意力字幕15引用1. Bengio，S.，Vinyals，O.，Jaitly，N.，Shazeer，N.：用递归神经网络进行序列预测的定时采样。在：第28届神经信息处理系统国际会议论文集-第1卷。pp.1171- 1179.NIPS' 15，M I T P re ss，C a m b ri d g e，MA，U S A（2015），http://dl.acm.org/citation.cfm? 2019 - 09 - 29 01：00：002. Chen，L.，中国地质大学，张洪，肖，J.，涅湖，加-地邵，J.，刘伟，Chua，T.S.：Sca-cnn：图像字幕卷积网络中的空间和通道注意力2017年IEEE 计算机视觉和模式识别会议（ CVPR ）。 pp. 6298http ：//doi.org/10。1109/CVPR. 2017年6673. Cornia，M.，巴拉尔迪湖塞拉湾 Cucchiara，R.：新多媒体服务中图像字幕的视觉显著性。在：2017IEEEInternationalConferenceonMultimediaExpoWorkshops （ ICMEW ）。 pp.309-314（2017）。https://doi.org/10.1109/ICMEW.2017.80262774. Farhadi，A.，Hejrati，M.，Sadeghi，硕士，扬，P.，Rashtchian，C.Hocken-maier，J.，Forsyth，D.：每张照片都在讲述一个故事：从图像生成句子。In：Proceedings of the 11th European Conference on ComputerVi-sion：ParrtIV. pp. 15-29 ECCV’10，Sprin g e r-V e rlag，B e rlin，H ei d e l b e rg（2010），http://dl.acm.org/citation.cfm? 1888089.18880925. 甘Z Gan，C.，他，X.，Pu，Y.，Tran，K.，高，J.，卡林湖Deng，L.：用于视觉字幕的语义合成网络。在： 2017 IEEEConventiononC 〇mputerVis isinandPatter nRecognitin （ CVPR ）中。 pp.1141- 1150（2017）。https://doi.org/10.1109/CVPR.2017.1276. Gong，Y.，Wang，L.，美国，Hodosh，M.，Hockenmaier，J.，Lazebnik，S.：使用大型弱注释照片集改进图像-句子嵌入。In：ECCV（2014）7. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习CoRRabs/1512.03385（2015）8. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算机9（8）、1735（1997年）。http：//doi. org/10。1162/neco。一九九七年。9 .第九条。8. 1735，http://dx.doi.org/10.1162/neco.1997.9.8.17359. Hodosh，M.，扬，P.，Hockenmaier，J.：帧图像描述作为排名测试：数据、模型和评估。J. 一个RT如果。Int. Res. 47（ 1），853 - 899（2013），wwwhttp://dl.acm.org/citation.cfm? 2019 - 05 - 22 01：01：0010. 胡J.，沈先生，L.，孙先生，G.：挤压激振网络.Corrabs/1709.01507（2017），http://arxiv.org/abs/1709.0150711. Jiang，M.，Huang，S.，（1996年），中国科学院，Duan，J.，Zhao，Q.：Salicon：语境中的显著性。在：2015年IEEECo nfere nceo nComuterVisionandPaternRecognition（CVPR）。pp.1072https://doi.org/10.1109/CVPR.2015.729871012. Karpathy，A.，李菲菲：用于生成图像解压缩的深度视觉语义对齐2015年IEEE计算机视觉和模式识别会议（CVPR）。pp. 3128- 3137（2015）。http：//doi. org/10。1109/CVPR. 2015年。729893213. 金玛，D.P.， Ba，J.： Adam：随机最佳化的方法。Corrabs/1412.6980（2014），http://arxiv.org/abs/1412.698014. Kulkarni，G.，Premraj，V.，Dhar，S.，Li，S.，崔，Y.，Berg，A.C.，Berg，T.L.：婴儿谈话：理解和生成图像描述。In：Proceedings of the24th CVPR（2011）15. Lavie，A.，Agarwal，A.：Meteor：一种与人类判断高度相关的在：会议记录16S. Chen和Q. 赵Sec on dWorkshoponStatist icalMachineTranslati on 。 pp.228-231StatMT'07，A ss o ci a t i o n for C o m u t a t i o n a l L i n g u i s t ic s，S t ro ud sbur g，PA，U S A（2007），http://dl.acm.org/citation.cfm? 1626355.162638916. 李杰，夏角，中国-地Song，Y.，Fang，S.，Chen，X.：显着性模型综合评价的数据驱动度量在：2015年IEEE国际计算机会议（ICCV）中。pp. 190http：//doi. org/10。1109/ICC2015年。3017. Li，S.，Kulkarni，G.，Berg，T.L.，Berg，A.C.，Choi，Y.：组成简单的im-使用网络规模的 n 元语法的年龄描述。 In ： Proceedings of theFifteenthCon-Fe-nceonComputta nalNaturraLanguageLeaning. pp.220-228C 〇NLL’11，A ss 〇 ci a t io n for C 〇 m puta t io n a l L i n g u i s t ic s，S troud s bu rg ， PA ， U S A （ 2011 ）， http://dl.acm.org/citation.cfm?2018936.201896218. Lin，C.Y.：Rouge：一个自动评估摘要的软件包In：Proceedings of theWorkshop on Text Summarization Branches Out（WAS 2004）（2004）19. Lin ， T.Y. ， Maire ， M. ， Belongie ， S. ， Hays ， J. ， Perona ， P. ，Ramanan，D. Doll，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象在：欧洲会议上ComputerVisio n（ECCV）.02TheDog（2014）20. Liu，S.，Zhu，Z.，Ye，N.，Guadarrama，S.，Murphy，K.：通过蜘蛛的策略梯度优化改进图像字幕。 In ： 2017IEEEInt-ternationalConferenceonComputerVision（ICCV）. pp.873- 881（2017）。https://doi.org/10.1109/ICCV.2017.10021. 卢，J，Xiong，C.，Parikh，D.Socher，R.：知道什么时候看：通过图像字幕的视觉哨兵的自适应IEEE计算机视觉与模式识别会议（CVPR）（2017）22. Ordonez，V.，Kulkarni，G.，Berg，T.L.：Im2text：使用100万张带字幕的照片描述图像神经信息处理系统（NIPS）（2011）23. 帕皮内尼K.，鲁科斯美国，沃德T.，朱W.J.：蓝色：一方法自动评价的机翻译.于：诉讼计算语言学协会第40届年会的报告。pp.311-318ACLAssociation福尔ComeonputtationaalLinguistics ， Stroudsburg ， PA ， USA

下载后可阅读完整内容，剩余1页未读，立即下载