基于视觉哨兵的自适应注意力机制在图像字幕生成中的应用

182 浏览量更新于2023-10-15 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1知道什么时候看：基于视觉哨兵的图像字幕自适应注意卢佳森2、熊彩明1、Devi Parikh3、Richard Socher1、 SalesforceResearch、弗吉尼亚理工大学2、佐治亚理工学院jiasenlu@vt.edu，parikh@gatech.edu，{cxiong，rsocher}@ salesforce.com摘要基于注意力的神经编码器-解码器框架已被广泛采用用于图像字幕。大多数方法强制视觉注意力对每个生成的单词都是活跃的。然而，解码器可能需要很少到不需要来自图像的视觉信息来预测诸如“the”和“of”的非视觉词可能看起来视觉的其他单词通常可以仅从语言模型可靠地预测本文提出了一种新的具有视觉哨兵的适应性注意模型.在每一个时间步，我们的模型决定是否参加图像（如果是，哪些区域）或视觉哨兵。该模型决定是否参加的图像和在哪里，为了提取有意义的信息，连续的单词生成。我们在COCO图像字幕上测试了我们的方法图1：我们的模型学习了一个自适应注意力模型，该模型自动确定何时查看（哨兵门）和在哪里查看（空间注意力）以生成单词，这将在第2.2节，第2.3节和第5.4节中解释。[31、29、17]。然而，并不是所有的文字都有标题-2015年挑战数据集和Flickr 30K。我们的方法集先进技术的一个显著的优势。1. 介绍自动生成图像字幕已经成为学术界和工业界的一个突出的跨学科研究问题。[8、11、18、23、27、30]。它可以帮助视力受损的用户，并使用户能够轻松地组织和浏览大量典型的为了生成高质量的字幕，该模型需要从图像中合并细粒度最近，已经探索了基于视觉注意力的神经编码器-解码器模型[30，11，32]，其中注意力机制通常产生突出显示与每个生成的单词相关的图像区域的空间图。大多数用于图像字幕和视觉问答的注意力模型在每个时间步都关注图像，而不管下一个词会被发出本文的主要工作是在J. Lu是Salesforce Research的实习生。†同等贡献响应视觉信号。考虑图中的示例。图1显示了图像及其生成的标题“一只白色的鸟栖息在红色停车标志顶部”。单词“a”和“of”没有相应的规范视觉信号。此外，语言相关性使得在生成像“perched”之后的“on”和“top”以及“a red stop”之后的“sign”这样的词时，视觉信号是不必要的事实上，来自非视觉词的梯度可能误导和削弱视觉信号在引导字幕生成过程中的整体有效性在本文中，我们介绍了一个自适应注意编码器-解码器框架，它可以自动决定什么时候依赖于视觉信号，什么时候只依赖于语言模型。当然，当依赖于视觉信号时，模型还决定了它应该关注的位置我们首先提出了一种新的空间注意模型来提取空间图像特征。然后，作为我们提出的适应性注意力机制，我们引入了一个新的长短期记忆（LSTM）扩展，它产生一个广告的 “ 视觉哨兵 ” ，解码器的记忆的附加潜在的represententation，灰，提供了一个回退选项的解码器我们进一步设计了一个新的哨兵门，375CNN0.90.70.50.3…………………目视接地概率空间注意力哨兵门RNN自适应注意力模型376决定解码器希望从图像中获得多少新信息例如，如图所示。1，我们的模型在生成单词“白色”，“鸟”，“红色”和“停止”时学会更多地关注图像图像Iht是RNN在时间t的隐藏状态。在本文中，我们采用长短期记忆（LSTM）代替香草RNN。前者在各种序列建模任务中表现出了最先进的性能。ht被建模为：在生成单词“top”、“of”和“sign”时，更多地依赖于视觉标记ht= LSTM（xt，ht−1，mt−1）（4）总体而言，本文的主要贡献是：• 我们引入了一个自适应的编码器-解码器框架，它可以自动决定什么时候看图像，什么时候依靠语言模型生成下一个词。• 我们首先提出了一个新的空间注意模型，然后在此基础上设计了一个新的自适应注意模型与• 我们的模型在COCO和Flickr30k上的表现明显优于其他最先进的方法。• 我们对我们的自适应注意力模型进行了广泛的分析，包括单词的视觉基础概率和生成注意力地图。2. 方法我们首先描述了通用的神经编码器-解码器框架的图像字幕。2.1，然后介绍我们提出的基于注意力的图像字幕模型。2.22.3.2.1. 图像字幕编码解码器我们首先简要描述编码器-解码器图像字幕框架[27，30]。给定图像和对应的字幕，编码器-解码器模型直接最大化以下目标： Σ其中xt是输入向量。mt-1是在时间t-1的存储单元向量。通常，上下文向量，ct是一个重要因素在神经编码器-解码器框架中，它为字幕生成提供了视觉证据[18，27，30，34]。对上下文向量进行建模的这些不同方式分为两类：vanilla编码器-解码器和基于注意力的编码器-解码器框架：• 首先，在vanilla框架中，ct仅依赖于编码器，即卷积神经网络（CNN）。输入图像I被馈送到CNN中，CNN提取最后一个全连接层作为全局图像特征[18，27]。在生成的单词中，上下文向量ct保持恒定，并且不依赖于解码器的隐藏状态。• 第二，在基于注意力的框架中，CT依赖于编码器和解码器。在时间t，基于在隐藏状态下，解码器将关注图像的特定区域，并使用来自CNN的卷积层的空间图像特征来计算Ct在[30，34]中，他们表明注意力模型可以显着提高图像captioning的性能。为了计算上下文向量ct，我们首先在Sec中提出了我们的空间注意力模型2.2，然后扩展模型到一个自适应注意力模型。2.32.2. 空间注意力模型θ*= argmaxθ（I，y）logp（y|I; θ）（1）首先，我们提出了一个空间注意力模型，用于计算上下文向量ct，其定义为：其中θ是模型的参数，I是图像，并且y={y1，. . .，yt}是相应的标题。使用链式规则，联合概率分布的对数似然可以分解为有序条件：ct=g（V，ht）（5）其中g是注意力函数，V=[v1，. . .其中，v k]，vi∈Rd是空间图像特征，每一个空间图像特征都是对应于图像一部分的三维表示。ΣTlogp（y）=logp（yt|y1，. . . ，yt−1，I）（2）ht是RNN在时间t的隐藏状态。给定空间图像特征V∈ Rd×k 和隐藏t=1状态ht ∈ Rd的LSTM，我们通过一个在这里，我们放弃了对模型参数的依赖，压力抛之脑后在编码器-解码器框架中，利用递归神经网络（RNN），每个条件概率被建模为：层神经网络，然后是softmax函数，以生成图像的k个z=wTtanh（W V+（W h）T）（6）377thv g tlogp（yt|y1，. . . ，yt−1，I）= f（ht，c t）（3）其中f是输出yt的概率的非线性函数。ct是在时间t提取的视觉上下文向量αt=softmax（zt）（7）其中 ∈ Rk是所有元素都设为1的向量。W v，W g ∈Rk×d和wh∈Rk是要被378VCththt1htXtLSTMAttenMLPVt1CtAttenhtLSTMMLPHYTYTHHtXt(a)（b）第（1）款图2：[30]（a）和我们提出的空间注意力模型（b）的软注意力模型的说明学会了 α∈ Rk是特征上的注意力权重，V.基于注意力分布，可以通过下式获得上下文向量ctΣkct=αti vti（8）图3：在给定图像的情况下，生成第t个目标词yt的在它的记忆细胞中。因此，我们通过以下方式扩展LSTM以获得g t =σ（Wx xt+Wh ht−1）（9）s t =克土丹（米吨）（10）i=1其中ct和ht被组合以预测下一个单词yt+1，如等式3所示。与[30]不同，图中显示。2，我们使用当前隐藏状态h t来分析在哪里查看（即，生成上下文向量c（t），然后组合两个信息源以预测下一个单词。我们的动机源于残差网络的优越性能[10]。生成的上下文向量ct可以被认为是当前隐藏状态ht的残余视觉信息，其减小了不确定性或补充了当前隐藏状态的信息量以我们还根据经验发现我们的空间注意力模型表现更好，如表1所示。2.3. 自适应注意力模型虽然基于空间注意的解码器已被证明是有效的图像字幕，他们不能确定何时依赖于视觉信号，何时依赖于语言模型。在本节中，动机来自Merityet al. [19]，我们引入了一个新的概念-“视觉哨兵”，这是解码器已经知道的东西的潜在表示。利用什么是Visual Sentinel？解码器的记忆存储长期和短期的视觉和语言信息。我们的模型学习从中提取一个新的组件，当模型选择不关注时，它可以依靠这个组件形象这个新的组件被称为视觉哨兵。而决定是关注图像还是关注视觉哨兵的门就是哨兵门。当解码器RNN是LSTM时，我们认为这些信息被保留其中，Wx和Wh是要学习的权重参数，xt是在时间步长t时LSTM的输入，gt是应用于存储单元mt的门。σ表示元素乘积，σ是对数S型激活。基于视觉标记，提出了一种自适应注意力模型来计算上下文向量.在我们提出的架构（见图。3），我们的新的自适应上下文向量被定义为ct，它被建模为空间关注的图像特征（即，空间注意力模型的上下文向量）和视觉哨兵向量。这权衡了网络从图像中考虑多少新信息与它在解码器存储器中已经知道的信息（即，视觉哨兵）。混合模型定义如下：ct=βtst+（1−βt）ct（11）其中βt是时间t处的新哨兵门。在我们的混合模型中，βt产生范围[0，1]内的标量。值为1意味着在生成下一个单词时仅使用视觉哨兵信息，0意味着仅使用空间图像信息。为了计算新的哨兵门βt，我们修改了空间注意力分量。特别地，我们将附加元素添加到z，该向量包含如等式6中定义的注意力分数。该元素表示网络对哨兵（相对于图像特征）的“关注”程度通过将等式7转换为：αt=softmax（[zt;wTtanh（Wsst+（Wght））]）（十二）其中[·;·]表示连接。Ws和Wg是权重参数。值得注意的是，Wg是与等式6中相同的权重参数。α∈Rk+1是R上的张力分布cty不+at1 一一阿勒特t2TLVctAttenStLSTMhtVHt1H不v1 v2vLStXtht…MLP379空间图像特征以及视觉哨兵向量两者我们将这个向量的最后一个元素解释为门值：βt=α t[k+1]。概率在一个词汇表的可能的话，时间t可以计算为：pt=softmax （ Wp （ ct+ht ））（ 13）其中W p是要学习的权重参数。该公式鼓励模型自适应地关注图像与生成下一个单词时的视觉哨兵哨兵向量在每个时间步更新。有了这个自适应注意力模型，我们称我们的框架为自适应编码器-解码器图像字幕框架。3. 实现细节在本节中，我们将描述模型的实现细节以及如何训练网络。CNN编码器。编码器使用CNN来获得图像的表示。具体来说，使用ResNet [10]最后一个卷积层的空间特征输出，其维度为2048×7×7。我们使用A={a1，. . .，ak}，ai∈ R2048来表示空间在k个网格位置中的每一个位置处的CNN特征以下[10]，全局图像特征可以通过以下方式获得：1Σk我们的模型可以在单个Titan X GPU上在30小时内完成训练。我们在对COCO和Flickr30k数据集的字幕进行采样时使用的波束大小为3。4. 相关工作图像字幕有许多重要的应用，从帮助视力受损的用户到人机交互。因此，许多不同的模型已被开发用于图像字幕。一般来说，这些方法可分为两类：基于模板[9，13，14，20]和基于神经[12，18，6，3，27，7，11，30、8、34、32、33]。基于模板的方法生成字幕模板，其槽基于对象检测、属性分类和场景识别的输出来填充Far- Hadi等。[9]推断场景元素的三元组，其使用模板被Kulkarni等人[13]采用条件随机场（CRF）在填充插槽之前联合推理对象，属性和介词。[14，20]使用更强大的语言模板，如语法结构良好的树，并从属性检测的输出中添加描述性信息。基于神经元的方法的灵感来自于MA中序列到序列编码器-解码器框架的成功，chine translation [4，24，2]认为图像字幕类似于将图像翻译为文本。 Kiros等人[12]提出了一种前馈神经网络，ag= Ki=1ai（14）单峰对数双线性模型来预测下一个给定的单词图像和前一个词。其他方法被取代其中，g是全局图像特征。为了建模方便，我们使用具有整流器激活功能的单层感知器将图像特征向量转换为维度为d的新向量：vi= ReLU（Wa ai）（15）vg= ReLU（Wb ag）（16）其中Wa和Wg是权重参数。变换后的空间图像特征形式V =[v1，. . . ，v k]。解码器-RNN。我们把嵌入向量wt和全局图像特征向量vg，以得到输入向量xt=[wt;vg]。我们使用单层神经网络将视觉哨兵向量st和LSTM输出向量ht转换为维度为d的新向量。培训详情。在我们的实验中，我们使用了隐藏大小为512的单层LSTM。我们使用Adam优化器，语言模型的基本学习率为5e-4，CNN为1 e-5。动量和重量衰减分别为0.8和0.999我们在20个时代后微调我们将批量大小设置为80，如果验证CIDEr [26]分数在过去6个epoch中没有提高，则提前停止训练多达50个epoch前馈神经网络与递归神经网络[18，3]。Vinyals等人[27]使用LSTM而不是vanilla RNN作为解码器。然而，所有这些方法都用CNN的最后一个全连接层来表示图像。Karpathy等人[11]采用来自R-CNN的对象检测结果和双向RNN的输出来学习用于字幕排名和生成的联合嵌入空间。最近，注意力机制已被引入到图像字幕的编码器-解码器神经框架中。Xu等[30]在生成相应的单词时，结合注意力机制来从头开始学习潜在的[28，34]利用高级概念或属性并将其注入基于神经的方法作为语义注意力来增强图像字幕。Yang等[32]使用回顾网络扩展当前注意编码器-解码器框架Yao等人[33]提出了用于从图像中增加高级属性以补充用于句子生成的图像表示的体系结构的变体。据我们所知，我们的工作是第一个工作，以理由时，一个模型应该参加一个图像时，380Flickr30k MS-COCO方法B-1B-2B-3B-4流星苹果酒B-1B-2B-3B-4流星苹果酒DeepVS [11]0.5730.3690.2400.1570.1530.2470.6250.4500.3210.2300.1950.660[30]第三十话0.6690.4390.2960.1990.185-0.7180.5040.3570.2500.230-[34]第三十四话0.6470.4600.3240.2300.189-0.7090.5370.4020.3040.243-ERD [32]---------0.2980.2400.895[33]第三十三话------0.7300.5650.4290.3250.2510.986我们的空间0.6440.4620.3270.2310.2020.4930.7340.5660.4180.3040.2571.029我们的自适应0.6770.4940.3540.2510.2040.5310.7420.5800.4390.3320.2661.085表1：Flickr30k和COCO测试分割的性能。†表示总体模型。B-n是BLEU分数，最多使用n个语法。在所有列中越高越好。对于未来的比较，我们的ROUGE-L/SPICE Flickr 30 k得分为0.467/0.145，COCO得分为0.549/0.194。B-1B-2B-3B-4流星ROUGE-L苹果酒方法C5C40C5C40C5C40C5C40C5C40C5C40C5C40谷歌NIC [27]0.7130.8950.5420.8020.4070.6940.3090.5870.2540.3460.5300.6820.9430.946MS Captivator [8]0.7150.9070.5430.8190.4070.7100.3080.6010.2480.3390.5260.6800.9310.937m-RNN [18]0.7160.8900.5450.7980.4040.6870.2990.5750.2420.3250.5210.6660.9170.935LRCN [7]0.7180.8950.5480.8040.4090.6950.3060.5850.2470.3350.5280.6780.9210.934[30]第三十话0.7050.8810.5280.7790.3830.6580.2770.5370.2410.3220.5160.6540.8650.893ATT-FCN [34]0.7310.9000.5650.8150.4240.7090.3160.5990.2500.3350.5350.6820.9430.958ERD [32]0.7200.9000.5500.8120.4140.7050.3130.5970.2560.3470.5330.6860.9650.969男男性接触者[33]0.7390.9190.5750.8420.4360.7400.3300.6320.2560.3500.5420.7000.9841.003我们的自适应0.7480.9200.5840.8450.4440.7440.3360.6370.2640.3590.5500.7051.0421.059表2：在线COCO测试服务器上发布的最先进的图像字幕模型排行榜。我们提交的是5个模型的集合，这些模型使用不同的初始化进行训练。生成一个单词序列。5. 结果5.1. 实验设置我们使用两个数据集进行实验：Flickr30k [35]和COCO [16]。Flickr 30k包含了31，783张来自Flickr的图片。这些图像中的大多数描绘了人类进行各种活动。每张图片都配有5个众包的帽子。我们使用包含1，000张图像的公开可用的splits1进行验证和测试。COCO是最大的图像字幕数据集，分别包含82，783、40，504和40，775张图像用于训练、验证和测试。这个数据集更具挑战性，因为大多数图像在复杂场景的背景下包含多个对象每个图像有5个人类注释的标题。对于离线评估，我们使用与[32，33，34]中相同的数据分割，其中包含5000张图像用于验证和测试。对于COCO评估服务器上的在线评估，我们保留了2000张验证图像用于开发，其余用于培训。预处理。对于COCO，我们截短超过18个单词的标题，对于Flickr 30k，截短超过22个单词的标题然后我们建立一个1https://github.com/karpathy/neuraltalk在训练集中至少出现5次和3次的单词的词汇表，分别为COCO和Flickr 30k产生9567和7649个单词。比较方法：对于Flickr 30 k和COCO的离线评估，我们首先将我们的完整模型（Ours-Adaptive）与仅执行空间注意力的消融版本（Ours-Spatial）进行比较。这种比较的目的是验证我们的改进不是正交贡献的结果（例如，更好的CNN功能或更好的优化）。我们进一步比较我们的方法与 DeepVS[11] ， Hard-Attention[30] 和最近提出的ATT[34]，ERD[32]和MSM的最佳执行方法（LSTM-A5）[33]。对于在线评估，我们将我们的方法与Google NIC[27] ， MS Captivator[8] ， m-RNN[18] ，LRCN[7]，Hard-Attention[30]，ATT-[34 ]第33话：[ 34]第34话：[35]第36话：[36]第37话：[37]5.2. 定量分析我们使用COCO字幕评估工具[16]报告结果，该工具报告以下指标：[ 21 ]，[22]，[23]，[24]，[25]，[26]。我们还报告了使用新指标SPICE [1]的结果，发现该指标与人类判断更好地相关。表1显示了Flickr30k和COCO数据集的结果。比较无视觉哨兵的全模型与消融版本，验证了pro-381一个小女孩坐在长凳上，手里拿着一把伞。一个黄色的盘子，上面放着肉和花椰菜。一群羊在郁郁葱葱的山坡上吃草。一匹斑马站在一匹斑马旁边，在一片泥泞的田野里。人行道上的消防栓的特写一个不锈钢烤箱在一个厨房与木橱柜。两只鸟坐在树枝上。一只大象站在岩壁旁。一个男人骑着自行车沿着一条路，水体。图4：COCO数据集上生成的标题和图像注意力图的可视化。不同的颜色显示了关注区域和下划线单词之间前两行是成功案例，最后一行是失败案例。最好用彩色观看。构成框架。我们的自适应注意力模型显著优于空间注意力模型，在Flickr 30 k和COCO上的CIDEr得分分别从0.493/1.029提高到0.531/1.085。当与以前的方法相比，我们可以看到，我们的单一模型显着优于所有以前的方法在所有metrics。在COCO上，我们的方法将BLEU-4的最先进水平从0.325（MSM）提高到0.332，METEOR从0.251 （ MSM† ）至 0.266 ，以及 CIDEr 从 0.986（MSM†）至1.085。同样，在Flickr30k上，我们的模型以很大的幅度提高了最先进的水平。我们将我们的模型与表2中COCO评估服务器上最先进的系统进行了比较。我们可以看到，我们的方法实现了最好的性能在所有的指标在已公布的系统。值得注意的是，Google NIC、ERD和MSM使用Inception-v3[25]作为编码器，与ResNet相比，它具有类似或更好的分类性能[10]（这是我们的模型所使用的）。5.3. 定性分析为了更好地理解我们的模型，我们首先将gen中不同单词的空间注意力权重α加标题我们简单地使用双线性插值将注意力权重上采样到图像大小（224×224）。图4示出了所生成的字幕和针对字幕中的特定词的空间注意力图。前两列是成功示例，最后一列显示失败-举几个例子。我们看到，我们的模型学习的对齐方式与人类的直觉强烈请注意，即使在模型产生不准确字幕的情况下，我们也会看到我们的模型确实会查看图像中的合理区域- 它似乎无法计数或识别纹理和细粒度类别。我们在补充材料中提供了更广泛的可视化列表。我们进一步将哨兵门可视化为生成的标题。对于每个单词，我们使用1−β作为其视觉基础概率。在图5中，我们可视化了生成的字幕、视觉基础概率和由我们的模型为每个单词生成的空间注意力图。我们模型成功地学会了在生成非视觉单词（如“of”和“a”）时较少关注图像。对于像“红色”，“玫瑰”，“甜甜圈”，“女人”和“滑雪板”这样的视觉词请注意，同一个词可能是382金属0.9390.9090.8350.8660.8130.7940.6930.5310.589桌上花瓶里的红玫瑰0.8780.9760.7930.7940.6520.5900.4300.4760.5100.940.9480.8440.9560.8080.8820.7950.7810.589一女人坐坐在沙发上一只猫0.8940.910.8850.8150.8160.6910.6630.5790.663图5：生成的标题的可视化，每个生成的单词的视觉基础概率，以及我们的模型生成的相应的空间注意力图。1.00.90.80.70.60.50.40.3菜人猫长颈鹿船three表试剂盒e穿越签署电池在横的UNK他从的电话它到边缘越过0 200 400 600 800 1000 12001400按视觉基础1.00.90.80.70.60.50.40.3巨头总线Foo特鲍尔黄色人伞UNK湖球的对起说的形式上行充分每个杂货战争0 100 200 300 400 500600按视觉基础图6：COCO（左）和Flickr30k（右）上的等级概率图，表明当一个词在标题中生成时，它在视觉上有多大可能当在不同的上下文中生成时，分配不同的视觉基础概率例如，单词“a”通常在句子的开头具有高的视觉基础概率，因为在没有任何语言上下文的情况下另一方面，短语“在桌子上”中的“a”的视觉基础概率要低得多。因为一个东西不太可能在一张以上的桌子上。5.4. 自适应注意力分析在本节中，我们分析了由我们的方法产生的自适应注意。我们将哨兵门可视化，以了解我们还使用生成的注意力地图对COCO类别进行弱监督定位。这可以帮助我们直观地了解5.4.1学习为了评估我们的模型是否学会将字幕中的视觉词与非视觉词分开，我们可视化了视觉接地概率。对于词汇表中的每个单词，我们对包含该单词的所有生成的标题的视觉基础图6显示了COCO和Flickr30k上的秩概率图。我们发现我们的模型在生成像“菜”、“人”、“猫”、“船”这样的对象词时更关注图像;属性词如“巨人”、“金属”、“黄色”和数字词如“三”。当单词是非视觉的时，我们的模型学习不关注图像，例如“对于更抽象的概念，如我们的模型倾向于比视觉词更少地关注，而比非视觉词更多地关注请注意，我们的模型不依赖于任何语法特征或外部知识。它会自动发现这些趋势。为了量化相同的视觉接地概率，目视接地概率目视接地概率3830.70.60.50.40.30.20.10图7：针对前45个最常见的COCO对象类别生成的标题的本地化准确性。“空间注意”和“适应性注意”分别是我们提出的空间注意模型和适应性注意模型。COCO类别的排名基于我们的自适应注意的对齐结果，其中覆盖93.8%和94.0%的总匹配区域的空间注意和自适应注意，分别。COCO和Flickr30数据集上的常用词，我们根据它们在两个数据集上的视觉基础概率对两个数据集之间的所有常用词进行等级相关性为0.483.像“羊”和“栏杆”这样的词除了存在于数据集中的视觉实体的不同分布之外，一些差异可能是训练数据量不同的结果。我们的模型无法区分真正非视觉的单词和技术上视觉但与其他单词高度相关的单词，因此选择不依赖视觉信号。例如，在我们的模型中，诸如“电话”之类的词获得相对较低的视觉基础概率。这是因为它与“细胞”这个词有很大的语言相关性5.4.2学习我们现在评估我们的模型是否注意到正确的空间图像区域。我们使用生成的注意力地图执行弱监督定位[22，36据我们所知，没有以前的作品使用弱监督定位来评估图像字幕的空间注意力。给定单词wt和注意力地图αt，我们首先分割图像中注意力值大于th的区域（在地图被归一化为最大值为1之后），其中th是使用COCO验证分割估计的每类阈值。然后，我们取覆盖分割图中最大连通分量的边界框。我们使用生成的和地面实况边界框的交集（IOU）作为定位精度。对于每个COCO对象类别，我们进行逐词匹配，以将生成的单词与地面实况边界框对齐。对于有多个词的对象类别，如IOU评分超过多个单词作为其本地化准确性。我们能够对齐5981和5924区域的空间和自适应注意力模型产生的帽- tions分别。我们的空间注意力模型的平均定位精度为0.362，我们的适应性注意力模型的平均定位精度为0.373。这表明，作为一个副产品，知道什么时候参加也有助于在哪里参加。图图7示出了针对前45个最常见的COCO对象类别生成的字幕的定位准确度我们可以看到，我们的空间注意力模型和自适应注意力模型具有相似的趋势。我们观察到，这两个模型都表现良好的类别，如“猫”，“床”，“巴士”和“卡车”。对于较小的物体，如“水槽”、“冲浪板”、“时钟”和“飞盘”，两种模型的表现都相对较差。这是因为我们的空间注意力地图直接从粗略的7×7特征图重新缩放，这会丢失大量的空间分辨率和细节。使用更大特征图可以提高性能。6. 结论在本文中，我们提出了一种新的自适应注意力编码器-解码器框架，它提供了一个回退选项的解码器。我们进一步引入了一个新的LSTM扩展，它产生了一个额外的“视觉哨兵”。我们的模型在图像字幕的标准基准测试我们进行广泛的注意力评估来分析我们的适应性注意力。虽然我们的模型是在图像字幕上进行评估的，但它在其他领域也可以有有用的应用。鸣谢本工作部分由美国国家科学基金会职业奖、ONRYIP奖、斯隆奖学金、ARO YIP奖、艾伦杰出调查员奖资助。G.艾伦家庭基金会，谷歌教师研究奖，亚马逊学术研究奖DP空间注意自适应注意384引用[1] P. 安德森湾费尔南多M.Johnson和S.古尔德。Spice：语义命题图像字幕评价。在ECCV，2016年。5[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器arXiv预印本arXiv：1409.0473，2014。4[3] X. Chen和C.劳伦斯·齐尼克。MindCVPR，2015。4[4] K. 乔湾，巴西-地 VanMerr ieenboer，C. Gulcehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。4[5] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。在EACL 2014统计机器翻译研讨会上，2014年。5[6] J. Devlin，S.古普塔河，巴西-地格尔希克M Mitchell和C.L.小痘痘。探索最邻近方法的图像captioning。arXiv预印本arXiv：1505.04467，2015。4[7] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。四、五[8] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。米切尔，J。C. Platt，etal.从标题到视觉概念再到后面。CVPR，2015。一、四、五[9] A. Farhadi，M. Hejrati、M. A. Sadeghi，P. Young，C.Rasht- chian，J. Hockenmaier和D.福赛斯Every picturetells a story：Generating sentences from images. ECCV，2010年。4[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。三、四、六[11] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。CVPR，2015。一、四、五[12] R.基罗斯河Salakhutdinov和R. S.泽梅尔多模态神经语言模型。InICML，2014. 4[13] G. 库尔卡尔尼河谷 Premraj 河谷 Ordonez ， S.Dhar ，S.Li，Y.崔A. C. Berg和T. L.伯格。Babytalk：理解和生成简单的图像描述。CVPR，2011。4[14] P. 库兹涅佐娃河谷Ordonez，A.C. 伯格，T.L. Berg和Y. 崔自然图像描述的集体生成在ACL，2012年。4[15] C.- Y.是林书Rouge：一个用于自动评估摘要的软件包。ACL2004研讨会，2004年。5[16] T.- Y. 林 M. 梅尔 S. 贝隆吉 J. Hays，P. Perona，D. 拉马南山口 Doll a'r和C. L. 齐特尼克微软coco：上下文中的公用对象。 2014年，在ECCV。5[17] J. Lu，J. Yang，D. Batra和D. 帕里克用于视觉问答的分层问题图像共注意在NIPS，2016年。1[18] J. Mao，W. Xu，Y. Yang，J. Wang，Z. Huang和A.尤尔。使用多模态递归神经网络（m-rnn）的深度字幕。2015年，国际会议。一、二、四、五385[19] S.梅雷蒂角Xiong，J. Bradbury，and R.索彻指针哨兵混合模型。arXiv预印本arXiv：1609.07843，2016。3[20]M. Mitchell，X. Han，J. Dodge，A. Mensch、A. 戈亚尔A.伯格K. 山口T. 伯格K. Stratos，以及H.道姆三世。Midge：从计算机视觉检测生成图像描述。InEACL，2012. 4[21] K. Papineni，S. Roukos，T. Ward和W J. Zhu. Bleu：一种机器翻译的自动评测方法。在ACL，2002年。5[22] R.R.Selvaraju，A.达斯R.韦丹坦M. 科格斯韦尔D. Parikh和D.巴特拉你为什么这么说？通过基于梯度的定位从深度网络获得视觉解释。 arXiv ：1611.01646，2016年。8[23] R. Socher，A.Karpathy，Q.诉勒角，澳-地D. Manning和A.Y. Ng.用于用句子寻找和描述图像的扎根组合语义。2014. 1[24] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到序列在NIPS，2014。4[25] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。arXiv预印本arXiv：1512.00567，2015。6[26] R.韦丹坦角Lawrence Zitnick和D.帕里克Cider：基于共识的图像描述评估。CVPR，2015。四、五[27] O. Vinyals，A. Toshev，S. Bengio和D.二汉展示和讲述：神经图像字幕生成器。CVPR，2015。一、二、四、五[28] Q.吴角，加-地申湖，澳-地Liu，中国粘蝇A. Dick和A.v. d.亨格尔明确的高级概念在解决语言问题方面有什么价值？arXiv预印本arXiv：1506.01144，2015。 4[29] C. Xiong，S. Merity和R.索彻用于视觉和文本问题回答的动态记忆网络。InICML，2016. 1[30] K.许、J.巴R.基罗斯K.小周，A. 库维尔R.萨拉胡季诺夫河Zemel和Y.本吉奥。显示、出席和讲述：神经图像字幕生成与视觉注意。ICML，2015。一、二、三、四、五[31] Z. Yang，X. He，J. Gao，L. Deng和A.斯莫拉用于图像问答的堆叠注意力网络。在CVPR，2016年。1[32] Z. Yang，Y.Yuan，Y.武河，巴西-地Salakhutdinov和W.W. 同-母鸡。编码、审查和解码：用于生成cap-tion的Reviewer模块。在NIPS，2016年。一、四、五[33] T. Yao，Y.潘湾，澳-地Li，Z. Qiu和T.美.使用属性增强图像字幕arXiv预印本arXiv：1611.01646，2015。四、五[34] Q.你H金，Z. Wang，C. Fang和J.罗语义注意的图像加帽。在CVPR，2016年。二、四、五[35] P. Young，A.赖，M。Hodosh和J.霍肯迈尔从图像描述到视觉表示：基于事件描述的语义推理的新相似性度量。在ACL，2014年。5[36] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴用于区分定位的深度特征学习arXiv预印本arXiv：1512.04150，2015年。8

下载后可阅读完整内容，剩余1页未读，立即下载