图像字幕中的注意机制及其应用

189 浏览量更新于2023-10-13 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4634图像字幕黄伦1王文敏1，3*陈杰1，2魏晓勇21北京大学电子与计算机工程学院2程鹏实验室3澳门科技大学huanglun@pku.edu.cn，{wangwm@ece.pku.edu.cn，wmwang@must.edu.mo}，{chenj，weixy}@ pcl.ac.cn摘要注意机制广泛用于当前图像字幕的编码器/解码器框架中，其中在每个时间步长处生成编码向量的加权平均值以指导字幕解码过程。然而，解码器不知道关注向量和给定关注查询是否相关或相关程度如何，这可能使解码器给出误导的结果。在本文中，我们提出了一个出席结果……注意门信息参加者信息和查询。AoA首先使用注意结果和当前上下文生成“信息向量”和“注意门”，然后通过对它们应用逐元素乘法来添加另一个注意，最后获得“关注信息”，即期望的有用知识。我们将AoA应用于我们的图像字幕模型的编码器和解码器，我们将其命名为 AoA 网络（AoANet）。实验表明，AoANet优于所有以前公布的方法，并实现了新的最先进的性能，在 MSCOCO“Karpathy”离线测试分裂 129.8 CIDEr-D得分代码可在https://github.com/husthuaan/AoANet 上获得。1. 介绍图像字幕是计算机视觉的主要目标之一，其目的是自动生成对图像的自然描述。它不仅需要识别图像中的突出对象，理解它们的交互，还需要使用自然语言将它们描述出来，这使得它本身非常具有挑战性[25，45，28，12]。受神经机器翻译发展的启发，注意机制已被广泛应用于当前的视觉字幕*通讯作者注意力集中（Attention on Attention，AoA）AoA使用注意力结果和注意力查询来生成信息向量和注意力门，并且通过将门应用于信息来添加另一注意力并且获得被关注信息。[42，27，47，2，7，16，15]并取得了令人印象深刻的结果。在这种用于图像字幕的框架中，图像首先经由基于CNN的网络被编码为一组特征向量，然后经由基于RNN的网络被解码为单词，其中注意力机制通过针对每个时间步长在所提取的特征向量上生成加权平均来注意机制在这样一个系统中起着至关重要的作用，它必须捕获全局依赖关系，例如用于序列到序列学习任务的模型，如图像/视频字幕，因为输出直接取决于注意力结果。然而，解码器几乎不知道注意力结果是否与查询相关或相关程度如何。存在注意结果不是解码器所期望的并且解码器可能被错误引导以给出错误结果的一些情况，这可能在注意模块前一种情况是不可避免的，因为错误总是会发生的。至于后者，当…………查询…………键/值…………………………4635在特定查询的要求的情况下，注意力模块仍然返回作为候选向量的加权平均的向量，并且因此与查询完全无关。为了解决这个问题，我们提出了注意力集中（AoA），它通过增加另一个注意力来扩展传统的注意力首先，AoA利用两个线性变换生成的信息向量是从当前上下文导出的（即，查询）和关注结果，并且将来自关注结果的新获得的信息与来自当前上下文的信息一起存储。注意力门也是经由另一线性变换从查询和注意力结果导出的，随后是S形激活，并且每个通道的值指示信息向量中的对应通道上随后，AoA通过使用逐元素乘法将注意力门应用于信息向量来添加另一个注意力，并最终获得AoA可以应用于各种注意力机制。对于传统的单头注意，AoA有助于确定注意结果与查询之间的相关性。特别是，对于最近提出的多头注意力[35]，AoA有助于在不同的注意力头之间建立关系，过滤所有的注意力结果，只保留有用的结果。我们将AoA应用于我们的图像字幕模型AoANet的图像编码器和对于编码器，它提取图像中对象的特征向量，对向量应用自注意力[35]以建模对象之间的关系，然后应用AoA来确定它们如何彼此相关。对于解码器，它应用AoA过滤掉不相关/误导性的注意结果，只保留有用的注意结果。我们分别评估将AoA应用于编码器和解码器的影响。定量和定性的结果都表明了AoA模块的有效性。所提出的AoANet优于所有先前公开的图像加帽模型：AoANet的单个模型在MS COCO数据集离线测试分割上获得129.8 CIDEr-D得分;并且4个模型的集合在在线测试服务器上达到129.6 CIDEr-D（C40）分数。本文的主要贡献包括：我们提出了注意力的注意力（AoA）模块，传统的注意力机制的扩展，以确定注意力结果的相关性。我们将AoA应用于编码器和解码器两者以构成AoANet：在编码器中，AoA有助于更好地对图像中不同对象之间的关系建模;在解码器中，AoA过滤掉无关的注意力结果并仅保留有用的注意力结果。我们的方法在MS COCO数据集上实现了新的最先进的性能。2. 相关工作2.1. 图像字幕早期的图像字幕方法是基于规则/模板的[48，34]，其生成开槽字幕模板并使用对象检测[30，39，38]，属性预测和场景识别的输出来填充槽。最近的方法是基于神经的，特别是利用深度编码器解码器框架，其灵感来自神经机器翻译的发展[8]。例如，端到端框架提出了CNN将图像编码为特征向量，并将其LSTM解码为字幕[37]。在[42]中，CNN特征图上的空间注意力机制被用来结合视觉上下文。在[6]中，提出了一种空间和通道方式的注意力模型在[27]中，引入了最近，更复杂的信息，如对象，属性和关系被集成，以生成更好的描述[50，2，49，44]。2.2. 注意机制源自人类直觉的注意力机制[32，9]已被广泛应用，并对各种序列学习任务产生了重大改进。它首先计算每个候选向量的重要性分数，然后使用软最大值函数将分数归一化为权重，最后将这些权重应用于候选向量以生成注意力结果，即加权平均向量[42]。还有其他注意机制，例如：空间和通道注意[6]、适应性注意[27]、堆叠注意[46]、多级注意[51]、多头注意和自我注意[35]。最近，Vaswani et al.[35]表明，单独使用自我注意力可以实现机器翻译的最新结果。一些作品将自我注意力扩展到计算机视觉中的一些任务[40，19]，这启发我们将自我注意力应用于图像标题，以建模图像中对象之间的关系。2.3. 其他工作AoA通过两个线性变换生成注意力门和信息向量，并将门应用于向量以添加第二注意力，其中技术类似于一些其他工作：GLU [10]，它取代了RNN和CNN，以捕获语言建模的长期依赖关系;多模态融合[43，14，22，4，17]，其对不同模态（例如，文本和图像），并将来自它们的信息组合起来;···4636V关注Concat繁殖G乙状我线性线性日⊙QvQvI^V上的平均向量，其可以被公式化为：ai，jVai，j=fsim（qi，kj），αi，j=ΣΣjeai，j（一）vi=αi，j vj（2）J其中qi∈Q是第i个查询，kj∈K和vj∈V是QK V(a) 关注QK V(b) 注意力第j个键/值对; f sim是计算每个kj和qi的相似性得分的函数;并且vi是查询q i的参与向量。注意力模块输出针对以下各项的加权平均值：每个查询，无论Q和K/V是否相关或如何相关。即使当不存在相关向量时，注意力模块仍然生成加权平均向量，其可以图2：注意力和(a) 注意力模块生成一些加权平均值-不相关甚至是误导性的信息。因此，我们提出了AoA模块（如图所示年龄V基于Q和K之间的相似性得分;2（b））来测量注意力结果(b) AoA生成和查询。AoA模块经由两个单独的线性变换生成“信息向量”i和“注意门”g，这两个线性变换都以注意结果和当前上下文（即，注意门）为查询）q：i=W iq+W iv+bi（3）LSTM/GRU，它使用门和存储器来建模其q v按顺序输入。g=σ（W gq+W gv+bg）（4）Q v2.4. 总结其中Wi，Wi，Wg，Wg∈RD×D，bi，bg∈RD，且D我们总结了我们的方法和上文讨论的工作如下：本文将注意力对注意力（Attention on Attention，AoA）应用到图像字幕中，AoA是注意力机制的一般扩展，可以应用于任何一种注意力机制; AoA决定了注意结果与查询之间的相关性，而多模态融合则融合了来自不同模态的信息; AoA只需要一个“注意力门”，但没有隐藏状态。相比之下，LSTM/GRU需要隐藏状态和更多的门，并且仅适用于序列建模。3. 方法是q和v的维数;v=fat t（Q，K，V）是注意结果，fatt是注意模，σ表示S形激活函数。然后，AoA通过使用逐元素乘法将注意力门应用于信息向量来添加另一个注意力，并获得注意力信息{i=g⊙i（5）}其中表示逐元素乘法。AoA的贯穿流水线公式化为：AoA（fatt，Q，K，V）=σ（Wg Q+Wg fatt（Q，K，V）+bg）Q v我我我我们首先介绍了注意力的注意力（AoA）模块，然后显示我们如何获得AoANet的图像captioning通过应用AoA的图像编码器和captiondecoder。3.1. 注意力在图2（a）中，注意力模块fatt（Q，K，V）对一些查询、键和值进行操作，并且生成一些加权平均向量（分别由Q，K，V和V（表示）它首先测量Q和K之间的相似性，然后使用相似性得分来计算加权⊙（WqQ+Wvfatt（Q，K，V）+b）（6）3.2. 用于图像字幕的AoANet我们基于编码器/解码器框架（图3）构建了用于图像字幕的模型AoANet，其中编码器和解码器都与AoA模块相结合。3.2.1带AoA的编码器对于图像，我们首先提取一组特征向量A={a1，a2，...，使用基于CNN或R-CNN的网络，马特·穆尔权重SoftMax评分相似性4637SoftmaxSoftmaxSoftmax线性线性线性C0AOAa0 一C...1AOA1AC不AOAaaa关注h0LSTMH1LSTM关注...关注htLSTM一词嵌入c0 +a词嵌入ct1 +a词嵌入图层规范添加AOA线性←∈阿皮恩图3：图1的编码器/解码器框架的概述;注意力函数[35]，其中Q、K和V是特征向量A的三个独立线性投影。AoA模块之后是残余连接[18]和层归一化[3]：A′=层范数（A+AoAE（fmh−att，WQeA，WKeA，WVeA））（7）AoANet.在编码器中添加细化模块以对图像中的对象的关系建模。Q其中WQe，WKe，WVe∈ RD×D是三个线性变换矩阵. fmh−att是多头注意力函数，它将每个Q、K、V沿着通道维度划分为H=8个切片，并对每个切片Q i、Ki、Vi采用缩放的点积注意力函数f dot−att，然后将每个切片的结果连接起来以形成最终的注意力向量。一个KVA'V图4：图像编码器中的细化模块，其中f mh−att（Q，K，V）= Concat（head1，.，头H）（8）headi=fdot−att（Qi，Ki，Vi）（9）Q KTAoA和自我关注的多头注意力细化了通过建模关系表示特征向量（1）Qi，Ki，Vi）=softmax（i）Vi（10）D其中。年0年1% w% 0%w% 1在这个提炼模块中，自我注意的多头注意模块寻求对象之间的相互作用，yt图像，并且应用AoA来测量它们相关的程度。在细化之后，我们更新特征向量AA′。精化模块注意，细化模块采用与原始Transformer编码器[35]不同的结构，因为前馈层被丢弃，这是可选的，并且出于以下两个原因进行改变：1）添加前馈层以提供非线性表示，这也通过应用AoA来实现; 2）丢弃前馈层不会改变AoANet的感知性能，但会简化。3.2.2具有AoA的不解码器（图5）生成一个标题序列y图5：AoANet的字幕解码器，包含LSTM，AoA模块和单词预测模块。其中aiRD，k是A中的向量的数量，并且D是每个向量的维度。我们不是直接将这些向量馈送到解码器，而是构建一个包含AoA模块的细化网络来细化它们的编码器中的AoA模块，记作AoAE，采用多头用（细化的）特征向量A.我们对上下文向量ct进行建模，以计算词汇表上的p（yt|y1：t−1，I）= softmax（W p c t）（11）其中W p∈ RD×| Σ|是要学习的权重参数，|Σ|词汇量。上下文向量c_t保存解码状态，并且- 新获取的信息，其是利用LSTM的目标特征向量at和输呼玛荷尔精炼解码C编码器解码器...多头注意...线性线性我√W4638出ht生成的4639E ×|Σ|1：T一表1：我们的模型和其他现有技术方法在MS-COCO“Karpathy”测试分割上的性能所有值均报告为百分比（%）。Σ表示系综或融合。模型交叉熵损失CIDEr-D评分优化度量B@1B@4MRCSB@1B@4MRCS单个模型LSTM [37]-29.625.252.694.0--31.925.554.3106.3-SCST [31]-30.025.953.499.4--34.226.755.7114.0-LSTM-A [50]75.435.226.955.8108.820.078.635.527.356.8118.320.8上下[2]77.236.227.056.4113.520.379.836.327.756.9120.121.4RFNet [20]76.435.827.456.8112.520.579.136.527.757.3121.921.2GCN-LSTM [49]77.336.827.957.0116.320.980.538.228.558.3127.622.0SGAE [44]------80.838.428.458.6127.822.1AoANet（我们的）77.437.228.457.5119.821.380.238.929.258.8129.822.4包绕/融合SCST [31]Σ-32.826.755.1106.5--35.427.156.6117.5-RFNet [20]Σ77.437.027.957.3116.320.880.437.928.358.3125.721.7GCN-LSTM [49]Σ77.437.128.157.2117.121.180.938.328.658.5128.722.1SGAE [44]Σ------81.039.028.458.9129.122.2AoANet（Ours）Σ78.738.128.558.2122.721.781.640.229.359.4132.022.8表2：在线MS-COCO测试服务器上的各种方法的排行榜度量C5C40C5C40C5C40C5C40C5C40C5C40C5C40SCST [31]78.193.761.986.047.075.935.264.527.035.556.370.7114.7116.0LSTM-A [50]78.793.762.786.747.676.535.665.227.035.456.470.5116.0118.0上下[2]80.295.264.188.849.179.436.968.527.636.757.172.4117.9120.5RFNet [20]80.495.064.989.350.180.138.069.228.237.258.273.1122.9125.1GCN-LSTM [49]--65.589.350.880.338.769.728.537.658.573.4125.3126.5SGAE [44]81.095.365.689.550.780.438.569.728.237.258.673.6123.8126.5AoANet（我们的）81.095.065.889.651.481.339.471.229.138.558.974.5126.9129.6其中at是来自注意力模块的关注结果，该注意力模块可以具有单个头或多个头。解码器中的LSTM对字幕解码进行从AoA模块获取，表示为AoAD：ct=AoAD（fmh−att，WQd[ht]，WKdA，WVdA）（14）过程它的输入由输入的嵌入组成word at currentΣtime step，and a visualv ect or（a¯+ct−1），其中W Qe，W Ke，W Ve ∈RD×D;ht，mt∈RD隐藏-其中a1基伊表示A的平均合并，并且LSTM的den状态和ht用作注意查询。ct-1表示前一时间步（c-1）在开始步骤初始化为零）：xt=[Wet，a<$+ct−1]（12）ht，mt=LSTM（xt，ht−1，mt−1）（13）3.3. 培训和目标交叉熵损失（Cross Entropy Loss）我们首先通过优化交叉熵（XE）损失LXE来训练AoANet：ΣT∗ ∗L XE（θ）= − log（p θ（y|（15）其中We∈R是一个vo的词嵌入矩阵，t=1t1：t−1cabulary Σ，Πt是输入字其中y*表示目标地面实况序列。wt在时间步长t处。如图5中所示，对于AoA解码器，模型BLEU-1BLEU-2BLEU-3BLEU-4Meteor Rouge-LCIDEr-D=4640CIDEr-D评分优化。然后直接用自临界序列4641·1：T表3：由AoANet和基线模型生成的字幕以及对应的地面实况的示例。4. 实验4.1. 数据集我们在流行的MS COCO数据集上评估了我们提出的方法[26]。MS COCO数据集包含123，287张图像，每张图像标记有5个标题，其中包括82，783张训练图像和40，504张验证图像。MS COCO还提供了40，775张图像作为在线评估的测试集。离线我们将所有句子转换为小写，并删除出现少于5次的单词，最终得到10，369个单词的词汇。我们使用不同的指标，包括BLEU [29]，METEOR [33]，ROUGE-L [13]，CIDER-D [36]和SPICE [1]的方法，对所提出的方法进行了评价，并与其他方法进行了比较。所有指标都是使用公开发布的代码1计算的。培训[31]（SCST）：LRL（θ）=−Ey1：Tθ[r（y1：T）]（16）4.2. 定量分析离线评估。我们在表1中报告了我们的模型以及比较模型的离线测试分割这些模型包括：LSTM [37]，使用CNN对图像进行编码，并使用LSTM对其进行解码;SCST [31]，采用修改的视觉注意力，并且是第一个使用SCST直接优化评估指标的人; Up-Down [2]，采用两个LSTM其中奖励r（）使用某个度量的得分（例如，CIDEr-D[36]）。梯度可以近似为：θLRL（θ）≈−（r（ys1：T）−r（y（1：T）））的方式y s表示它是从概率分布采样的结果，而y（表示贪婪解码的结果。3.4.实现细节我们在ImageNet [11]和Visual Genome [24]上采用预训练的Faster-RCNN [30]模型来提取图像的自下而上特征向量[2]。原始向量的维度是2048，并且我们将它们投影到维度为D=1024的新空间，这也是解码器中LSTM的隐藏大小。至于训练过程，我们在XE损失下训练AoANet 30个epoch，最小批量为10，使用ADAM[23]优化器，学习率初始化为2 e-4，每3个epoch退火0.8我们将计划抽样概率增加0.05 每5个时期[5]。我们用SCST优化了另外15个时期的CIDEr-D评分，初始学习率为2 e-5，当验证分割的评分没有改善某些训练步骤时，退火0.5。具有从Faster-RCNN提取的自底向上特征的层模型;RFNet [20]，它融合了来自多个CNN网络的编码特征;GCN-LSTM [49]，它预测图像中每两个实体之间的视觉关系，并将关系信息编码到特征向量中;和SGAE[44]，其将自动编码场景图引入其模型中。为了公平比较，所有模型首先在XE损失下训练，然后针对CIDEr-D评分进行优化。对于表1中的XE损失训练阶段，可以看出，我们的单模型在所有度量方面在所有比较的方法中达到最高分数，甚至与它们的模型的集合相比至于CIDEr-D得分优化阶段，具有AoANet的不同参数初始化的4个模型的集合优于所有其他模型，并设定了132.0 CIDEr-D得分的新的最先进性能在线评价。我们还在表2中的在线COCO测试服务器2 上评估了我们的模型。 AoANet 的结果通过在“Karpathy”训练分割上训练的4个模型的集合来评估除了BLEU-1（C40）的稍低的一个之外，AoANet在大多数指标上都达到了1https://github.com/tylin/coco-caption2https://competitions.codalab.org/competitions/3221#results网站图像字幕AoANet：两只鸟坐在长颈鹿的头顶上。基线：一只鸟坐在树顶上。GT1两只鸟爬上长颈鹿的背。GT2一只大长颈鹿正在树旁散步。GT3两只鸟停在灌木丛附近的墙上。AoANet：两只猫躺在床上。基线：一只黑白相间的猫躺在床上。GT1一对猫躺在床上。 GT2两只猫躺在一张大床上，看着镜头。GT3 几只猫躺在床垫上。AoANet：一只猫看着镜子里的自己。基线：一只猫正在向窗外看。GT1一只猫看着镜子里的自己。GT2一只猫正在照镜子。GT3 一只猫看着镜子里的自己。AoANet：一个年轻的男孩打一个网球与网球拍.底线：一个年轻人在球场上拿着一个网球。GT1一个穿栗色衬衫的家伙正拿着网球拍打网球。GT2 网球场上有球拍的人。GT3一个男孩在网球场上打网球。（十七）4642添加规范AOA添加规范自我注意前馈添加规范自我注意A A'(a) 精炼-无AoAAA'(b) 精炼-使用AoA表4：消融研究的设置和结果结果在XE训练阶段后报告。图6：精炼模块w/o和w/AoA。CtCtat(a) 基地(b) LSTM(c) AOAdoesn’t have a refining module in its encoder and adopts图7：用于解码器建模的不同方案。4.3. 定性分析表3显示了一些由我们的AoANet生成的图像和标题的例子我们通过使用AoANet的设置重新实现Up-Down[2]模型来导出基线模型从这些例子中，我们发现，基线模型生成的字幕符合语言的逻辑，但不准确的图像内容，而AoANet生成高质量的准确字幕。更具体地说，我们的AoANet在以下两个方面具有优势：1）AoANet更准确地计算同类对象。在第一个/第二个示例的图像中有两只鸟/猫。然而，基线模型只找到一个，而我们的AoANet计数正确; 2）AoANet计算出图像中对象的相互作用。例如，在第一个示例中，AoANet知道鸟在长颈鹿的顶部而不是树的顶部;在第四个例子中，男孩正在用球拍击打网球，但没有握住。AoANet具有这些优点，因为它可以弄清楚对象之间的连接，也知道它们是如何连接的：在编码器中，细化模块使用自注意力来寻求对象之间的交互，并使用AoA来衡量它们的相关程度;在解码器中，AoA有助于过滤掉不具有所需交互的不相关对象，并且仅保留相关对象。而基线模型生成的字幕在逻辑上是正确的，但可能与图像内容不匹配。4.4. 消融分析为了量化所提出的AoA模块的影响，我们将AoANet与一组具有各种设置的其他消融模型进行我们首先设计了“base”AoA对编码器的影响。为了评估将AoA应用于编码器的效果，我们在图6（a）中设计了没有AoA的细化模块，其包含自注意模块和随后的前馈过渡。从表4中我们观察到，细化特征表示带来了积极的效果，并且添加没有AoA的细化模块将“基础”的CIDEr-D分数然后，我们将AoA应用于精炼模块中的注意力机制，并删除前馈层。结果表明，我们的AoA进一步将CIDEr-D评分提高了2.0。AoA对解码器的影响。我们比较了使用不同方案来经由线性变换对上下文向量Ct：“base”（图7（a））进行建模的性能;“LSTM”（图7（b）），经由LSTM;AoA（图7（c））。我们进行实验，单-角注意和多头注意（MH-Attt）。从表4中，我们观察到用多头注意力代替单注意力使用LSTM提高了基本模型的性能，AoA进一步优于LSTM。与使用一些存储器（隐藏状态）和门以顺序方式对注意力结果进行建模的LSTM或GRU相比，AoA的权重更轻，因为它只涉及两个线性变换并且需要很少的计算。即便如此，AoA仍然优于LSTM。我们还发现，“LSTM + AoA”（在LSTM上构建AoA）的训练过程为了定性地示出AoA的效果，我们将图8中的字幕生成过程可视化，其中每个解码时间步长具有关注的图像区域。比较了两种模型：ReLU线性连续htLSTMConcathtH不模型B@1B@4RC基地75.734.956.0109.5+ Enc：优化（无AoA）77.035.656.4112.5+ Enc：优化（w/AoA）76.736.156.7114.5+ 12月：LSTM76.835.956.6113.5+ 12月：AoA76.635.856.6113.8+ 12月：LSTM + AoA不稳定的训练过程+ Dec：MH-属性75.834.856.0109.6C不+ Dec：MH-Att，LSTM76.635.856.7113.8+ 12月：MH-属性，AoA76.936.156.6114.3atAOAat完整：AoANet77.437.257.5119.84643一只泰迪熊坐在书上的书。(a) 一只泰迪熊坐在一本一只泰迪熊坐在椅子上有一本书。(b) AoA – A teddy bear sitting图8：针对“基础”模型和“具有AoA的解码器”的字幕生成过程中的注意区域的可视化“基础”模型可以容易地被不相关的AoA模块和观察图8中的关注图像区域，我们发现注意模块对于字幕解码器生成单词并不总是可靠的，并且直接使用注意结果可能导致错误的在该示例中，当生成标题片段“A teddy bear sitting on a ...”时，书由基础模型参与。.结果，基础模型输出相比之下，4.5. 人工评价我们遵循[44]中的实践，邀请了30名评估人员对100张随机选择的图像进行评估。对于每一个图像，我们显示的评估两个标题所产生的“具有AoA的解码器”、“基础”和比较的百分比4.6. 泛化为了显示AoA的一般适用性，我们在视频字幕数据集MSR-VTT [41]上进行实验：我们使用ResNet-101 [18]从每个视频的采样的20帧中提取特征向量我们发现，58.32，这表明AoA也对涉及注意机制的其他任务有希望。5. 结论在本文中，我们提出了注意力的注意力（AoA）模块，传统的注意力机制的扩展，以解决不相关的注意力问题。Fur-此外，我们提出了AoANet的图像字幕应用AoA的编码器和解码器。更值得注意的是，我们实现了一个新的国家的最先进的性能与AoANet。在MSCOCO数据集上进行的大量实验证明了我们提出的AoA模块和AoANet的优越性和普遍适用性。确认本项目得到了深圳市智能多媒体与虚拟现实重点实验室（ZDSYS 201703031405467）、国家自然科学基金项目（ NSFC ， No.U1613209 ， 61872256 ，61972217）和视频技术国家工程实验室-深圳分部的我们还要感谢Qian Wu、Yaxian Xia和Qixiang Ye，以及匿名评论者的深刻评论。4644引用[1] PeterAnderson ， BasuraFernando ， MarkJohnson，and Stephen Gould.Spice：语义命题图像字幕评价。在ECCV，2016年。[2] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像标题和视觉问题回答。在CVPR，2018年。[3] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。arXiv预印本arXiv：1607.06450，2016。[4] Hedi Ben-younes，Remi Cadene，Matthieu Cord，and Nicolas Thome. Mutan：用于视觉问答的多模态折叠融合。InICCV，2017.[5] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和Noam Shazeer。用递归神经网络进行序列预测的定时采样InNeurIPS，2015.[6] Long Chen ， Hanwang Zhang ， Jun Xiao ， LigenNie，Jian Shao，Wei Liu，and Tat-Seng Chua.Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。[7] Yangyu Chen ，Shuhui Wang，Weigang Zhang ，and Qingming Huang.少即是多：为视频字幕挑选信息帧。在ECCV，2018。[8] KyunghyunCho，BartVanMerrieünboer ，CaglarGul-cehre ， DzmitryBahdanau ， FethiBougares，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习统计机器翻译的短语表示。arXiv预印本arXiv：1406.1078，2014。[9] Maurizio Corbetta和Gordon L Shulman。控制大脑中目标导向和刺激驱动的注意力。Nature ReviewsNeuroscience，3（3）：201-215，2002.[10] Yann N Dauphin，Angela Fan，Michael Auli，andDavid Grangier.用门控卷积网络进行语言建模。ICLR，2016年。[11] 邓佳，董文杰，理查德·索彻，李丽佳，李可慧，李菲菲.Imagenet：一个大规模的分层图像数据库。CVPR，2009。[12] Hao Fang ， Saurabh Gupta ， Forrest Iandola ，Rupesh K Sr iv ast av a ，LiDeng ，PiotrDol la´r，JianfengGao，Xi-aodong He，Margaret Mitchell，John C Platt，et al.从标题到视觉概念再到后面。CVPR，2015。[13] 卡洛斯·弗里克。Rouge：一个自动评估摘要的软件包.在2004年的文本汇总分支研讨会[14] Akira Fukui 、 Huk Park Dong 、 Daylen Yang 、Anna Rohrbach和Marcus Rohrbach。多模态紧凑双线性池的视觉问题回答和视觉接地。在EMNLP，2016。[15] Chuang Gan，Zhe Gan，Xiaodong He，JianfengGao，and Li Deng. Stylenet：使用样式生成有吸引力的视觉标题。在CVPR，2017年7月。[16] Zhe Gan，Chuang Gan，Xiaodong He，YunchenPu ， Kenneth Tran ， Jianfeng Gao ， LawrenceCarin，and Li Deng.视觉字幕的语义合成网络。在CVPR，2017年。[17] 高鹏，蒋正凯，游浩轩，潘璐， Steven C. H.Hoi，Xiaogang Wang，and Hongsheng Li.动态融合与内部和跨模态注意流的视觉问答。在CVPR，2019年6月。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun. 用于图像识别的深度残差学习。在CVPR，2016年。[19] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，and Yichen Wei.用于对象检测的关系网络。在CVPR，2018年。[20] Wenhao Jiang ， Lin Ma ， Yu-Gang Jiang ， WeiLiu，and Tong Zhang.递归融合网络在图像加帽中的应用。在ECCV，2018。[21] Andrej Karpathy和Fei Fei Li。用于生成图像描述的深度CVPR，2015。[22] Jin Hwa Kim、Kyoung Woon On、Jeonghee Kim、Jung Woo Ha和Byoung Tak Zhang。低秩双线性池的Hadamard乘积。在ICLR，2017。[23] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[24] RanjayKrishna，Yuke Zhu，Oliver Groth，JustinJohn son，Kenji Hata，Joshua Kravitz，StephanieChen ， Yannis Kalantidis ， Li-Jia Li ， David AShamma，et al.视觉基因组：使用众包密集图像注释连接语言和视觉。IJCV，2017年。[25] GirishKulkarni 、 VisruthPremraj 、 VicenteOrdonez、Sagnik Dhar、Siming Li、Yejin Choi、Alexander C Berg和Tamara L Berg。Babytalk：理解并生成简单的图像描述。IEEE Transactions onPattern Analysis and Machine Intelligence ， 35（12）：2891[26] Tsung Yi Lin，Michael Maire，Serge Belongie，JamesHays ， PietroPerona ， DevaRamanan ，PiotrDolla'r，andC.劳伦斯·齐尼克。微软coco：上下文中的常见对象。2014年，在ECCV4645[27] Jiasen Lu，Caiming Xiong，Devi Parikh，andRichard Socher.知道什么时候看：适应性注意4646通过一个视觉标记来为图像加字幕。在CVPR，2017年。[28] Margaret Mitchell 、 Xufeng Han 、 Jesse Dodge 、Alyssa Mensch 、 Amit Goyal 、 Alex Berg 、 KotaYamaguchi 、 Tamara Berg 、 Karl Stratos 和 HalDaume III。Midge：从计算机视觉检测生成图像描述。计算语言学协会欧洲分会，2012年。[29] Kishore Papineni ， Salim Roukos ， Todd Ward ，and Weijing Zhu. Bleu：一种机器翻译的自动评价方法。在ACL，2002年。[30] 任少卿，何开明，Ross B Girshick，孙健。更快的r-cnn：利用区域建议网络实现实时目标检测。IEEE Transactions on Pattern Analysis and MachineIntelligence，39（6）：1137[31] Steven J Rennie 、 Etienne Marcheret 、 YoussefMroueh、Jarret Ross和Vaibhava Goel。图像字幕的自我批判在CVPR，2017年。[32] 罗纳德·伦辛克场景的动态表示。视觉认知，7：17[33] 班纳吉·萨坦吉夫Meteor：一种用于mt评估的自动度量，具有与人类判断的改进相关性。在ACL，2005年。[34] 理查德·索彻和李飞飞。连接方式：使用未对齐文本语料库的图像半监督分割和注释。

下载后可阅读完整内容，剩余1页未读，立即下载