SCA-CNN：图像字幕中的空间和通道注意力机制

26 浏览量更新于2023-10-15 收藏 3.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5659conv5_3蛋糕LSTMconv5_3 conv5_4CNN（VGG19）一一个女人坐在一张桌子与conv5_4SCA-CNN：卷积网络中用于图像字幕的空间和通道注意力陈龙1张汉旺2肖军1聂立强 3邵建1刘伟4蔡达生51浙江大学2哥伦比亚大学3山东大学4腾讯AI Lab5新加坡国立大学摘要视觉注意已经成功地应用于结构预测任务，如视觉字幕和问题回答。现有的视觉注意力模型通常是空间的，即，注意力被建模为对编码输入图像的CNN的最后一个卷积层特征图进行重新加权的空间概率。然而，我们认为，这种空间注意力不一定符合注意力机制-一个动态特征提取器，随着时间的推移结合上下文固定，CNN功能是自然的空间，通道和多层。在本文中，我们介绍了一种名为SCA-CNN的新型卷积神经网络，它在CNN中集成了空间和通道注意力。在图像字幕的任务中，SCA-CNN动态地调制多层特征图中的句子生成上下文，编码其中（即，在多个层上的注意空间位置）和什么（即，注意的渠道）的视觉注意力。我们在三个基准图像字幕数据集上评估了所提出的SCA-CNN架构：Flickr 8 K、Flickr 30 K和MSCOCO。一致地观察到SCA-CNN显著优于最先进的基于视觉注意力的图像加帽方法。1. 介绍视觉注意力已被证明在各种结构预测任务中有效，如图像/视频字幕[34，36]和视觉问答[4，35，33]。它的成功主要是由于合理的假设，即人类视觉不倾向于一次处理整个图像;相反，人们只关注整个视觉空间的选择性部分[5]。具体地说，不是将图像编码成静态矢量，图1. 在两个卷积层（VGG19中的conv5 3和conv5 4）中的通道视觉注意力的图示，当从一个女人坐在桌子上吃蛋糕的字幕中预测蛋糕时。在每一层，通过在对应的特征图中示出5个最具反应性的感受野来可视化前3个注意通道[40]。句子上下文在手，导致更丰富和更长的解压缩混乱的图像。通过这种方式，视觉注意力可以被认为是一种动态特征提取机制，它结合了随时间变化的上下文注视[19，26]。最先进的图像特征通常由深度卷积神经网络（CNN）提取[8，25，32]。从尺寸为W×H×3的输入彩色图像开始，由C通道滤波器组成的卷积层扫描输入图像并输出W′×H′×C特征图，该特征图将作为下一个卷积层1的输入。3D特征图的每个2D切片都对空间视觉进行编码注意力允许图像特征从1每个卷积层可选地后跟一个池化，向下，向下，*通讯作者采样、归一化或全连接层。输入图像5660由过滤器通道引起的所有响应，其中过滤器作为模式检测器执行-较低层的过滤器检测低级别的视觉线索，如边缘和角落，而较高级别的过滤器检测高级别的语义模式，如部件和对象[40]。通过堆叠层，CNN通过视觉抽象的层次结构提取图像因此，CNN图像特征本质上是空间的、通道的和多层的。然而，大多数现有的基于注意力的图像字幕模型只考虑了空间特性[34]，即，这些注意力模型仅仅通过空间注意力权重将句子上下文调制到最后的卷积层特征图中。在本文中，我们将充分利用CNN的三个特征的视觉注意为基础的图像字幕。特别是，我们提出了一种新的基于空间和逐层注意力的卷积神经网络，称为SCA-CNN，它学会关注多层3D特征映射中的每个特征条目。图1示出了在多层特征图中引入通道注意力的动机。首先，由于通道式特征图本质上是相应滤波器的检测器响应图，因此通道式注意力可以被视为根据句子上下文的需求对于前-例如，当我们想要预测蛋糕时，我们的通道式注意力（例如，在Conv53/Conv54特征图中）将根据像蛋糕、火、光和蜡烛状形状的语义，对由滤波器生成的按通道的特征图分配更多权重其次，由于特征图依赖于其低层特征图，因此自然会应用注意力在多个层次中，以便获得对多个语义抽象的视觉关注。例如，有利的是，在对应于组成饼的更多元素形状（如阵列和圆柱体）的较低层通道上进行聚焦。我们验证了所建议的SCA-CNN的有效性三个众所周知的图像字幕基准：Flick- r8K、Flickr30K和MSCOCO。SCA-CNN可以显著地超越空间注意力模型[34] 4。8%的BLEU4。总之，我们提出了一个统一的SCA-CNN框架，以有效地整合空间，通道和多层视觉注意力在CNN功能的图像字幕。在特别地，提出了一种新的空间和通道方式的注意力该模型是通用的，因此可以应用于任何CNN架构中的任何层，例如流行的VG- G [25]和ResNet [8]。SCA-CNN帮助我们更好地理解CNN特征在句子生成过程中如何演变。2. 相关工作我们感兴趣的是用于神经图像/视频捕捉（NIC）和视觉问答（VQA）的编码器-解码器框架中的视觉注意模型，这些模型属于最近将计算机视觉和自然语言[14，41，24，23，42，12]。创举在NIC [31，13，6，30，29]和VQA [1，17，7，21]上使用C-NN将图像或视频编码为静态视觉特征向量，然后将其输入RNN [9]以解码语言序列，如标题或答案。然而，静态向量不允许图像特征适应手头的句子上下文。启发通过在机器翻译[2]中引入的注意力机制（其中解码器动态地选择有用的源语言单词或子序列用于翻译成目标语言），视觉注意力模型已经广泛地用于NIC和VQA中。我们将这些基于注意力的模型分为以下三个领域，这些领域激励了我们的SCA-CNN：• 空间注意力Xu等[34]提出了图像字幕中的第一个视觉注意模型。一般来说，他们使用有效区域或至于VQA，Zhuet al. [43]采用“软”注意合并图像区域特征。为了进一步完善空间注意力，Yanget al. [35]和Xuet al. [33]应用了堆叠空间注意力模型，其中第二注意力基于由第一注意力调制的注意力特征图。与他们不同的是，我们的多层注意力应用于CNN的多个层上述空间模型的一个共同缺陷是，它们通常在这样，空间信息将不可避免地丢失更严重的是，他们的注意力只应用在最后一个对流层，那里的感受野的大小将是相当大的，每个感受野区域之间的差异是相当有限的，从而导致不显著的空间注意力。• 语义注意。除了空间信息，Youet al.[37]建议选择语义概念，NIC，其中图像特征是属性分类器的置信度的向量。Jia等人[11]利用图像及其标题之间的相关性作为全局语义信息来指导LSTM生成句子。然而，这些模型需要外部资源来训练这些语义属性。在SCA-CNN中，卷积层的每个滤波器内核都作为语义检测器[40]。因此，SCA-CNN的通道注意力类似于语义注意力。• 多层次的关注。根据CN-N架构的性质，各个字段的大小对应于-映射到不同的特征地图层是不同的。为了克服最后一个对流层注意力中各自的大字段大小的弱点，Seo等人。[22]提出了一种多层注意力网络。与它们相比，SCA-CNN还在多个层次上引入了通道注意力5661雪LSTM多层特征地图− 1 + 1…LLL一个女人站在滑雪板上，词嵌入初始特征图β通道注意力权重空间注意权重Φc一Φs第j个通道通道式注意第i个位置空间注意加权特征映射图2.我们提出的SCA-CNN的概述对于第l层，初始特征图Vl是第（l-1）conv-layer的输出我们首先使用通道级注意力函数Φc来获得通道级注意力权重βl，其在特征图的通道级中相乘。然后，我们使用空间注意力函数Φs来获得空间注意力权重αl，其在每个空间区域中相乘，从而产生注意力特征图Xl。在3.3节中讨论了两种注意机制的不同顺序。3. 空间和通道注意力CNN3.1. 概述我们采用流行的编码器-解码器框架，重量。与现有的基于注意力权重总结所有视觉特征的流行调制策略[34]不同，函数f（·）应用元素乘法。到目前为止，我们已经准备好通过以下方式生成第t个图像字幕生成，其中CNN首先对ht=LSTM .ht−1，XΣ，yt−1，输入图像转换为向量，然后LSTM解码向量为一系列单词。如图所示- 图2，SCA-CNN通过多个层的通道注意和空间注意使原始CNN多层特征映射自适应于句子上下文形式上，假设我们想要生成图像标题的第t现在，我们将最后一个句子的上下文编码在LSTM内存ht−1∈Rd中，其中d是隐藏状态维数。在第l层，空间和通道方向的注意力权重γl是下式的函数：ht−1和当前CNN特征Vl。因此，SCA-CNN以递归和多层方式使用注意力权重γ1调制V1，如下：y t p t= softmax（ht，y t−1）。（二）其中L是conv层的总数;p t∈R| D|是概率向量，D是包括所有字幕词的预定义词典。注意，γl与Vl或Xl的大小相同，即Wl×Hl×Cl.它需要O（Wl Hl Cl k）空间来进行注意力计算，其中k是CNN 特征Vl和隐藏状态ht−1的公共映射空间维度。这是昂贵的GPU内存时，有限元-真的地图太大了因此，我们提出了一种分别学习空间注意力权重αl和通道注意力权重βl的近似：Vl=CNN .Xl−1，αl=Φs.Σht−1，V，（三）γl=Φ.Σht−1，V，（一）βl=Φc.Σht−1，V.（四）Xl=f. Vl，γl，其中，Φc和Φs分别表示通道方向和空间这将大大降低成本--其中X1是调制特征，Φ（·）是将在第3.2节和第3.3节中详细描述的空间和通道注意力函数，V1是从先前的对流层输出的特征图，例如，卷积，然后是池化，down采样或卷积[25，8]，并且f（·）是调制CNN特征和atten的线性加权函数。空间注意的理论代价为O（Wl Hl k），空间注意的理论代价为O（Cl k）对于通道明智的注意，分别。3.2. 空间注意L5662通常，字幕词仅涉及图像的部分区域。例如，在图1中，当我们想要5663预测蛋糕，只有包含蛋糕的图像区域是有用的。因此，应用全局图像特征向量来生成字幕可能由于不相关区域而导致次优结果。空间注意机制试图对语义相关的区域给予更多的注意，而不是对每个图像区域进行同等的不失一般性，我们丢弃逐层上标l。我们整形V=[v1，v2，.，vm]，其中vi∈RC，m=W·H.我们可以把vi看作是第i个地点的视觉特征-第给定前一个时间步长LSTM隐藏状态ht−1，我们使用一个单层神经网络和一个softmax函数来生成图像区域上的注意力分布α。以下是空间张力模型Φs的定义：a= tanh（（ Ws V+bs）<$ Whsht−1），α= softmax（Wia+ b i）。（五）其中Wc∈Rk，Whc∈Rk×d，W′i∈Rk是变换矩阵，λ表示向量的外积bc∈Rk，b′i∈R1是偏置项.根据渠道的不同实施顺序智能注意和空间注意，存在两种同时包含这两种注意机制的模型我们区分这两种类型如下：通道-空间。第一种类型被称为空间-空间（C-S），在空间注意之前应用通道注意。C-S型流程图如图2所示。首先，给定初始特征图V，我们采用通道注意力Φc来获得通道注意力权重β。通过β和V的线性组合，我们得到通道加权特征图。然后，我们将按通道加权的特征映射馈送到空间注意力模型Φs，并获得空间注意力权重α。在获得两个注意力权重α和β之后，我们可以将V、β、α馈送到调制函数f以计算调制特征图X。所有过程总结如下：其中Ws∈Rk×C，Whs∈Rk×d，Wi∈Rk是映射图像视觉特征和隐藏的变换矩阵β=Φc （ht−1，V），到同一个维度。我们将表示为矩阵和向量的加法矩阵和向量的加法是通过将矩阵的每一列相加来实现的α= Φs（ht−1，fc（V，β）），X= f（V，α，β）.（八）的向量。bs∈Rk，bi∈R1是模型偏差。3.3. 渠道智能注意力注意，等式（3）中的空间注意力函数仍然需要视觉特征V来计算空间注意力权重，但是在空间注意力中使用的视觉特征V实际上不是基于注意力的。因此，我们引入了一种通道式注意机制来关注特征V.值得注意的是，每个CNN滤波器都作为模式检测器执行，并且C中的特征图的每个通道都是如此其中fc（·）是特征图的通道乘法信道和相应的信道权重。空间通道。第二种类型表示为空间通道（S-C），是首先实现空间注意的模型。对于S-C类型，给定初始特征图V，我们首先利用空间注意力Φs来获得空间注意力。权重α。基于α，线性函数fs（·），以及通道式注意力模型Φc，我们可以按照C-S类型的配方计算调制特征Xα= Φs（ht−1，V），NN是对应卷积的响应激活，常规滤波器因此，以通道方式应用注意力机制可以被视为选择的过程，β=Φc（ht−1，fs（V，α）），X= f（V，α，β）.（九）ing语义属性。对于通道式注意，我们首先将V整形为U，并且U=[u1，u2，.，其中，ui∈RW×H表示特征图V的第i个通道，并且C是总数的渠道。然后，我们对每个通道应用均值池以获得通道特征v：v=[v1，v2，.， v C]，v ∈ RC，（6）其中标量v i是向量u i的平均值，其表示第i个通道特征。遵循空间注意力模型的定义，按通道注意力模型Φc可以定义如下：b= tanh（（ Wc v+bc）<$ Whc ht−1），β= softmax（W′ib+ b′i）。（七）5664其中fs（·）是每个特征图通道的区域及其对应的区域注意力权重的逐元素乘法4. 实验我们将通过回答以下问题来验证所提出的SCA-CNN图像字幕框架的有效性：Q1渠道方面的注意力是否有效？它能提高空间注意力吗？Q2多层次注意力有效吗？Q3与其他最先进的视觉注意力模型相比，SCA-CNN的表现如何？4.1. 数据集和度量我们在三个众所周知的基准点上进行了实验：1）Flickr 8 k [10]：它包含8,000张图片。Ac-5665根据官方的划分，它选择了6,000张图片用于训练，1,000张图片用于验证，1,000张图片用于测试; 2）Flickr 30 k[38]：它包含31,000张图片。由于缺乏官方分裂，为了与非正式作品进行公平比较，我们报告了在以前的工作中使用的公开可用的分裂结果[13]。在这个分割中，29，000张图像用于训练，1，000张图像用于验证，1，000张图像用于测试; 3）MSCOCO [16]：训练集包含82，783幅图像，验证集包含40，504幅图像，测试集包含40，775幅图像。由于MSCOCO测试集的真实值不可用，验证集被进一步划分为用于模型选择的验证子集和用于局部实验的测试子集。这一点也是[13]。它利用整个82，783个训练集图像进行训练，并从官方验证集中选择5，000个图像用于验证，5，000个图像用于测试。至于句子预处理，我们遵循公开可用的代码1。我们使用BLEU（B@1，B@2，B@3 ， B@4 ） [20] 、 METEOR （ MT ） [3] 、 CIDEr（CD）[28]和ROUGE-L（RG）[15]作为评价指标对于所有四个指标，简而言之，它们测量生成的句子和地面真理句子中的n-gram出现之间的一致性，其中这种一致性由n-gram显着性和稀有性加权。同时，所有四个度量可以通过MSCOCO字幕评估工具2直接计算。我们的源代码已经公开3。4.2. 设置在我们的字幕系统中，对于图像编码部分，我们采用了两种广泛使用的 CNN 架构： VGG-19 [25] 和ResNet-152 [8]作为SCA-CNN的基本CNN。对于字幕解码部分，我们使用LSTM [9]来生成字幕词。单词嵌入维度和LST-M隐藏状态维度分别设置为100和1000。对于两种类型的注意力，用于计算注意力权重的公共空间维度被设置为512。对于Flickr 8 k，mini-batch大小设置为16，对于Flickr 30 k和MSCOCO，mini-batch大小设置为64。我们使用dropout和early stopping来避免过度拟合。我们的整个框架是用Adadelta [39]以端到端的方式训练的，Adadelta是一种使用自适应学习率算法的随机梯度下降方法字幕生成过程将暂停，直到预测到特殊的END标记或达到预定义的我们在测试期间遵循BeamSearch [31]的策略，从一些候选中选择最佳字幕，并将波束大小设置为5。我们注意到一个将波束搜索与长度归一化结合在一起的技巧[11]，这可以在一定程度上帮助提高但为了公平比较，所有报告的结果都没有长度归一化。1https://github.com/karpathy/neuraltalk2https://github.com/tylin/coco-caption网站3https://github.com/zjuchenlong/sca-cnn网站4.3. 通道注意力评估（Q1）比较方法。我们首先比较了空间注意力和通道注意力。1)S：这是一个纯粹的空间注意力模型。在基于最后一个卷积层获得空间注意力权重后，我们使用逐元素乘法来产生空间加权特征。对于VGG-19和ResNet-152，最后一个conv-layer分别表示conv5 4layer- er和res5c我们没有将对于VGG-19，有两个全连接层- s跟随conv5 4层，对于ResNet-152，res5c层跟随均值池层。2）C：它是一个纯粹的通道-明智的注意力模型。C型模型的整个策略与S型相同唯一的区别是将空间注意力替换为通道注意力，如等式（四）、3)C-S：这是第一种类型的模型，包括两个atten- tion机制作为方程。（八）、4)S-C：在等式中引入的另一个合并模型。（九）、5)SAT：这是[ 34 ]中介绍的我们之所以报告“硬”注意力而不是“软”注意力的结果SAT也是一个纯空间注意力模型。但有两个主要区别。第一种是利用注意力权重调节视觉特征的策略。第二个问题是是否将参与特征馈送到其后续层中。表1中报告的所有VGG结果都来自原始论文，ResNet结果是我们自己的实现。结果从表1中，我们得到以下观察结果：1）对于VGG-19，S的性能优于SAT;但对于ResNet-152，结果相反。这是因为VGG-19网络具有完全连接的层，这可以保留空间信息。相反，在ResNet-152中，最后一个conv-layer最初后面是一个平均池化层，这可能会破坏空间信息。2)与S的性能相比，C的性能在ResNet-152中比在VGG-19中有显著提高。它表明，更多的通道数可以帮助提高通道注意力性能，因为ResNet-152具有更多的通道数（即，2048）比VGG-19（即，512）。3)在ResNet-152中，C-S和S-C都可以实现比S更好的性能。这表明，只要通道数很大，我们就可以通过增加通道注意力来显著提高性能4)在两种网络中，S-C和C-S的性能相当接近。一般来说，C-S比S-C稍好，所以在下面的实验中，我们使用C-S来表示合并模型。4.4. 多层次注意力评价（Q2）比较方法我们将研究我们是否可以提高空间注意或通道注意5666模型Flickr8kFlickr30kMS CocoB@1B@2B@3B@4MtB@1B@2B@3B@4MtB@1B@2B@3B@4Mt[13]第十三话57.938.324.516.0–57.336.924.015.7–62.545.032.123.019.5谷歌NIC [31]†63.041.027.0––66.342.327.718.3–66.646.132.924.6–m-RNN [18]–––––60.041.028.019.0–67.049.035.025.0–[34]第三十四话67.044.829.919.518.966.743.428.819.118.570.749.234.424.323.9[34]第三十四话67.045.731.421.320.366.943.929.619.918.571.850.435.725.023.0emb-gLSTM [11]64.745.931.821.220.664.644.630.520.617.967.049.135.826.422.7ATT [37]†–––––64.746.032.423.018.970.953.740.230.424.3SCA-CNN-VGG65.546.632.622.821.664.645.331.721.818.870.553.339.729.824.2SCA-CNN-ResNet68.249.635.925.822.466.246.832.522.319.571.954.841.131.125.0表4. 与Flickr8k，Flickr30k和MSCOCO数据集的最新性能进行比较。SCA-CNN-VGG是基于VGG-19网络的C-S 2层模型，SCA-CNN-ResNet是基于ResNet-152网络的C-S 2层模型t表示系综模型结果。（模型B@1B@2B@3B@4流星ROUGE-L苹果酒C5C40C5C40C5C40C5C40C5C40C5C40C5C40SCA-CNN71.289.454.280.240.469.130.257.924.433.152.467.491.292.1注意力集中70.588.152.877.938.365.827.753.724.132.251.665.486.589.3ATT†73.190.056.581.542.470.931.659.925.033.553.568.295.395.8Google NIC†71.389.554.280.240.769.430.958.725.434.653.068.294.394.6表5.在MSCOCO在线测试服务器上对所提出的注意力模型进行了性能测试t表示系综模型结果。通过添加更多的关注层来提高性能。在S模型和C-S模型中进行了不同注意层数的烧蚀实验。特别地，我们分别将1层、2层、3层表示为配备注意力的层的数量。对于VGG-19，第1层、第2层、第3层分别表示conv54、conv5 3、conv5 2conv-layer。对于ResNet-152，它表示res5c，res5c分支2b，res5c分支2a对流层。具体来说，我们训练更多注意层模型的策略是利用以前训练的注意层权重作为初始化，这可以显着减少训练时间，并取得比随机初始化更好的结果。结果从表2和表3中，我们观察到以下结果：1）在大多数实验中，增加更多的注意力放在-在两种模型中，ERS能取得更好的效果。这是因为在多层次语义提取中应用注意机制有助于获得视觉注意2）太多的层也容易导致严重的过拟合。例如，当增加更多的 attentive 层时， Flickr8k6 ， 000 ）远小于MSCOCO（即，82，783）。4.5. 与最新技术水平的比较（Q3）比较方法我们将所提出的SCA-CNN与最先进的图像字幕模型进行了比较。1)Deep VS[13]，m-RNN[18]和Google NIC[31]都是 l端到端多模式网络，结合CNN用于图像编码，RNN用于序列建模。2)软注意[34]和硬注意[34]都是纯空间注意模型。“软”注意权加权求和视觉特征作为关注特征，而“硬”注意权3)emb-gLSTM[11]和ATT[37]都是语义注意力模型。对于emb-gLSTM，它利用图像与其描述之间的相关性作为全局语义信息，而对于ATT，它利用视觉概念对应的词作为语义信息。表4中报告的结果来自VGG-19和ResNet-152网络的2层C-S模型，因为这种类型的模型在先前的实验中总是获得最佳性能除了这三个基准测试之外，我们还通过将结果上传到官方测试服务器，在MSCOCOImage Challenge set c5和c40上对我们的结果见表5。从表4和表5中，我们可以看到，在大多数情况下，SCA-CNN优于其他模型。这是由于SCA-CNN利用了空间、通道和多层注意力，而大多数其他注意力模型只考虑一种注意力类型。我们不能超越ATT和GoogleNIC的原因有两个方面：1）ATT和Google NIC都是集成模型，而SCA-CNN是单一模型;集成模型总是能获得比单一模型更好的结果。2）采用更先进的CNN结构;由于Google NIC采用了Inception-v3 [27]，它具有更好的分类性能，5667数据集网络方法B@4MtRGCD1层23.021.049.160.6VGG2层22.821.249.060.4Flickr8k3层21.620.948.454.51层20.519.647.449.9ResNet2层22.921.248.858.83层23.921.349.761.71层21.118.443.139.5VGG2层21.918.544.339.5Flickr30k3层20.818.043.038.51层20.517.442.835.3ResNet2层20.618.643.239.73层21.019.243.443.51层28.223.351.085.7VGG2层29.023.651.487.4MS Coco3层27.422.950.480.81层28.323.151.284.0ResNet2层29.724.152.291.13层29.624.252.190.3表1. VGG-19和ResNet-152中的S、C、C-S、S-C、SAT（具有一个attentive层）的性能。比我们采用的 ResNet 更好。在本地实验中，在MSCOCO数据集上，ATT仅超过SCA-CNN 0。BLEU4和0. METEOR中分别为1%。对于MSCOCO服务器结果，Google NIC仅超过SCA-CNN 0。BLEU 4中为7%，METEOR中为1%，回收率。4.6. 空间和通道方向张力的可视化为了更好地理解我们的模型，我们在图3中提供了一些定性的示例。为了简单起见，我们只在一个单词预测步骤中可视化结果。例如，在第一个样本中，当SCA-CNN模型试图预测单词伞时，我们的通道注意力将根据伞、棍和圆形等语义在过滤器生成的特征映射通道上分配更多权重。每层中的直方图指示所有通道的概率分布图上方的地图是空间注意力地图，白色表示模型大致关注的空间区域为每个表2.VGG-19网络和ResNet-152网络中S的多层性能数据集网络方法B@4MtRGCD1层23.521.149.260.3VGG2层22.821.649.562.1Flickr8k3层22.721.349.362.31层25.722.150.966.5ResNet2层25.822.451.367.13层25.322.951.267.51层21.018.043.338.5VGG2层21.818.843.741.4Flickr30k3层20.718.343.639.21层22.119.044.642.5ResNet2层22.319.544.944.73层22.019.244.742.81层28.123.550.984.7VGG2层29.824.251.989.7MS Coco3层29.424.051.788.41层30.424.552.591.7ResNet2层31.125.053.195.23层30.924.853.094.7表3. VGG-19网络和ResNet-152网络在第二层中，我们选择了具有最高通道注意概率的两个通道。为了显示相应CNN滤波器的语义信息，我们使用了与[40]相同的方法。红框表示各自的领域。5. 结论在本文中，我们提出了一种新的深度注意力模型SCA-CNN用于图像字幕。SCA-CNN充分利用CNN的特性来产生关注的图像特征：空间、信道方式和多层，因此数据集网络方法B@4MtRGCDS23.021.049.160.6坐21.320.3--VGGC22.620.348.758.7S-C22.620.948.760.6Flickr8kC-S23.521.149.260.3S20.519.647.449.9坐21.720.148.455.5ResNetC24.421.550.065.5S-C24.822.250.565.1C-S25.722.150.966.5S21.118.443.139.5坐19.918.5--VGGC20.118.042.738.0S-C20.817.842.938.2Flickr30kC-S21.018.043.338.5S20.517.442.835.3坐20.117.842.936.3ResNetC21.518.443.842.2S-C21.918.544.043.1C-S22.119.044.642.5S28.223.351.085.7坐25.023.0--VGGC27.322.750.183.4S-C28.023.050.684.9MS CocoC-S28.123.550.984.7S28.323.151.284.0坐28.423.251.284.9ResNetC29.523.751.891.0S-C29.823.952.091.2C-S30.424.552.591.75668层-1237498层-1369416层-13854347层-2207层-112259198层-229我们的：一个女人撑着伞SAT：一群人站在一起GT：两个女人在雨中打着伞我们的：一个钟楼在城市的中心SAT：在一座建筑物的侧面有一座钟楼GT：在钟楼的顶部有一座古老的钟486184我们的：建筑物前柱子上的路标SAT：建筑物GT：一个停车标志上贴满了贴纸和涂鸦46127我们的：城市街道中间的红绿灯SAT：一群人走在街上GT：小镇十字路口的路灯496432层-2378层-274我们的：一架飞机在天空中飞行在多云的天空SAT：一架飞机在天空中飞行通过天空GT：几架直升机在空中我们的：一个人骑着滑雪板滑下一个被雪覆盖的斜坡SAT：一个人骑着滑雪板滑下一个多雪的小山GT：一个人骑着滑雪板滑下一条多雪的小路图3. 空间注意力和通道注意力的可视化结果示例。每个示例包含三个标题。我们的（SCA-CNN），SAT（硬注意力）和GT（地面实况）。第三列中的数字是具有最高通道注意力权重的VGG-19网络的通道编号，并且从相应通道中具有高激活的MSCOCO训练集中选择接下来的五个图像。红色框是其对应图层在流行的基准上实现最先进的性能。SCA-CNN的贡献不仅是更强大的注意力模型，而且更好地理解了在哪里（即，空间）和什么（即，通道方面）注意力看起来像在句子生成期间演变的CNN中在未来的工作中，我们打算在SCA-CNN中引入时间注意力，以便参加不同视频用于视频字幕的帧我们还将研究如何在不过度拟合的情况下增加注意层的数量致谢本工作得到了国家自然科学基金（批准号：61572431 ）、浙江省自然科学基金（批准号：LZ17F020001）的资助。层-15242315层-228层-1层-25669引用[1] S. Antol ， A. Agrawal ， J. Lu ， M. 米切尔， D 。巴特拉角Lawrence Z-itnick和D.帕里克Vqa：可视化问答。在ICCV，2015年。2[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译见ICLR，2014年。2[3] S. Banerjee和A.拉维Meteor：一种自动的评估金属价值的指标，它与人类判断的相关性得到了改善在ACL，2005年。5[4] K. Chen，J. Wang，L.- C. Chen，H.高，W. Xu和R.奈瓦提亚Abc-cnn：一个基于注意力的卷积神经网络，用于视觉问答。在CVPR，2016年。1[5] M. Corbetta和G. L.舒尔曼控制大脑中目标导向和刺激驱动的注意力。自然评论神经科学，2002。1[6] 多纳休湖 Anne Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。2[7] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？用于多语言图像问题的数据集和方法。2015年，在NIPS中。2[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016. 一、二、三、五[9] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。二、五[10] M. Hodosh，P. Young，and J.霍肯迈尔将图像描述框定为一项排名任务：数据、模型和评估指标。JAIR，2013. 4[11] X. Jia、E.加夫韦斯湾Fernando和T.Tuytelaars 引导图像字幕生成的长短期记忆模型。在ICCV，2015年。二、五、六[12] X. Jiang，F.Wu，X.Li，Z.Zhao，W.Lu，S.Tang和Y.庄。深度组合跨模态学习，通过局部-全局对齐进行排名。在ACMMM，第69-78页，2015年。2[13] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。CVPR，2015。二、五、六[14] R. Krishna，Y. Zhu，O. Groth，J. Johnson，K. Hata，J. 克拉维茨S. Chen ， Y. 卡兰蒂迪斯湖 J. Li ， D.A. Shamma 等人 Visualgenome ： Connecting language and vision using crowdsourceddense image annotations.IJCV，2016年。2[15] C.- Y. 是林书Rouge：一个用于自动评估摘要的软件包在ACL，2004年。5[16] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.拉玛南P. Doll a'r和C. L. 齐特尼克MicrosoftCoco：上下文中的常见对象2014年，在ECCV。5[17] M.马林诺夫斯基，M。Rohrbach和M.弗里茨问问你的神经元：基于神经的方法来回答有关图像的问题。在IC中-简历，2015年。2[18] J. Mao，W. Xu，Y. Yang，J. Wang，Z. Huang和A.尤尔。使用多模态递归神经网络（m-rnn）的深度字幕。2015年，国际会议。6[19] V.Mnih，N. Heess，A. Graves等人视觉注意的循环模型。在NIPS，2014。1[20] K. Papineni，S.Roukos，T.Ward和WJ. 竹Bleu：一种机器翻译的自动评测方法在ACL，2002年。5[21] M.伦河，巴西-地Kiros，和R.泽梅尔探索图像问答的模型和数据。2015年，在NIPS中。2[22] P. H. Seo，Z. Lin，S. Cohen，X. Shen和B.韩层次注意力网络。arXiv预印本arXiv：1606.02393，2016年。2[23] F.申角沈，W。Liu和H.陶申。监督离散散列。在CVPR，第37-45页，2015年。2[24] F. 申角申角，澳-地Shi，中国山核桃A.Van Den Hengel和Z.唐流形上的归纳散列。在CVPR中，第1562-1569页，2013年。2[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。一、二、三、五[26] M. F. Stoleya，J. Masci，F. Gomez和J.施密特胡博深层网络-通过反馈连接与内部选择性注意一起在NIPS，2014。1[27] C. Szegedy，V. Vanhoucke，S. Ioffe、J. Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。在CVPR，第2818-2826页，2016年。6[28] R. 韦丹坦 C. 劳伦斯齐特尼克和 D. 帕里克苹果酒：基于共识的图像描述评价。CVPR，2015。5[29] S. Venugopalan、M. Rohrbach，J.多纳韦河Mooney，T. Darrell和K.萨恩科序列到序列-视频到文本。在ICCV，2015年。2[30] S. Venugopalan、H. Xu，J. Donahue，M.罗尔巴赫河穆尼，K.萨恩科使用深度递归神经网络将视频翻译为自然语言。在

下载后可阅读完整内容，剩余1页未读，立即下载