增强图像字幕的学习能力：基于LSTM和对象学习的新架构

195 浏览量更新于2023-10-19 收藏 12.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yehao Li †§, Ting Yao ‡, Yingwei Pan ‡, Hongyang Chao †§, and Tao Mei ‡{yehaoli.sysu, tingyao.ustc, panyw.ustc}@gmail.com, isschhy@mail.sysu.edu.cn, tmei@live.coma Convolutional Neural Network (CNN) is employed to en-code an image into a feature vector, and a caption is thendecoded from this vector using a Long Short-Term Memo-ry (LSTM) Network, which is one typical Recurrent Neu-ral Network (RNN). Such models have indeed demonstratedpromising results on image captioning task. However, oneof the most critical limitations is that the existing models areoften built on a number of image-caption pairs, which con-tain only a shallow view of in-domain objects. That hindersthe generalization of these models in real-world scenarios todescribe novel scenes or objects in out-of-domain images.The difﬁculty of novel objects prediction in captioningmainly originates from two aspects: 1) how to facilitateword vocabulary expansion? 2) how to learn a hybrid net-work that can nicely integrate the recognized objects (word-s) into the output captions?We propose to mitigate theﬁrst problem through leveraging the knowledge from visualrecognition datasets, which are freely available and easierto be scalable for developing object learners. Next, point-ing mechanism is devised to balance the word generationfrom decoder and the word taken directly from the learntobjects. In other words, such mechanism controls when todirectly put the learnt objects at proper places in the out-put sentence, i.e., when to point. Moreover, despite havinghigh quantitative scores, qualitative analysis shows that au-tomatically generated captions by deep captioning modelsare often limited to describing very generic information ofobjects, or rely on prior information and correlations fromtraining examples, and resulting frequently in undesired ef-fects such as object hallucination [14]. As a result, we fur-ther take the coverage of objects into account to cover moreobjects in the sentence and thus improve the captions.By consolidating the idea of pointing mechanism and thecoverage of objects into image captioning, we present a newLong Short-Term Memory with Pointing (LSTM-P) archi-tecture for novel object captioning. Given an image, a CNNis utilized to extract visual features, which are fed into LST-M at the initial time step as a trigger of sentence generation.The output of LSTM is probability distribution over all the124970在图像字幕中指向新对象 �0† 中山大学数据与计算机科学学院，中国广州0‡ 京东AI研究，中国北京0§ 机器智能与先进计算重点实验室（中山大学），教育部0摘要0图像字幕在最近的研究中受到了广泛关注，并取得了显著的改进。然而，在野外的图像中蕴含着丰富的知识，仅仅依靠包含领域内对象的图像-字幕对模型无法充分描述。在本文中，我们提出通过增加标准深度字幕架构与对象学习器相结合来解决这个问题。具体而言，我们提出了一种新的架构——带有指向机制的长短期记忆（LSTM-P），它有助于扩展词汇并通过指向机制生成新的对象。技术上，对象学习器首先在可用的对象识别数据上进行预训练。在LSTM-P中的指向机制在解码器阶段的每个时间步骤中平衡通过LSTM生成一个词和从识别的对象中复制一个词的概率。此外，我们的字幕鼓励句子中对象的全局覆盖。我们在保留的COCO图像字幕和ImageNet数据集上进行了大量实验，用于描述新对象，并与最先进的方法进行了比较，取得了优越的结果。更为重要的是，我们在保留的COCO数据集上获得了平均60.9%的F1得分。01. 引言0自动生成字幕是生成描述图像内容的自然语言表达（通常是一个句子）的任务。自动生成字幕的实际应用包括利用描述进行图像索引或检索，并通过将视觉信号转化为可以通过文本转语技术进行传达的信息来帮助视觉障碍者。最近，最先进的图像字幕方法往往是基于“编码器-解码器”风格的整体深度模型[13, 28,36]。一般来说，使用卷积神经网络（CNN）将图像编码为特征向量，然后使用长短期记忆（LSTM）网络从该向量解码出字幕，这是一种典型的循环神经网络（RNN）。这样的模型在图像字幕任务上确实展示了有希望的结果。然而，最关键的限制之一是现有模型通常是建立在一些图像-字幕对上的，这些对只包含领域内对象的浅层视图。这阻碍了这些模型在描述新场景或领域外图像中的新对象时的泛化能力。字幕中的新对象预测的困难主要源于两个方面：1）如何促进词汇扩展？2）如何学习一个混合网络，可以将识别的对象（词）很好地整合到输出字幕中？我们提出通过利用视觉识别数据集中的知识来缓解第一个问题，这些数据集是免费提供的，并且更容易扩展以开发对象学习器。接下来，我们设计了指向机制来平衡解码器生成的词和直接从学习的对象中获取的词。换句话说，这种机制控制何时将学习的对象直接放置在输出句子中的适当位置，即何时进行指向。此外，尽管具有较高的定量分数，定性分析显示，深度字幕模型自动生成的字幕通常仅限于描述对象的非常通用的信息，或者依赖于来自训练示例的先验信息和相关性，并且经常导致不希望的效果，如对象幻觉[14]。因此，我们进一步考虑了对象的覆盖范围，以覆盖句子中更多的对象，从而改进字幕。通过将指向机制和对象的覆盖范围融合到图像字幕中，我们提出了一种用于新对象字幕的新的带有指向机制的长短期记忆（LSTM-P）架构。给定一张图像，使用CNN提取视觉特征，将其作为触发句子生成的初始时间步骤输入到LSTM中。LSTM的输出是所有词的概率分布。0� 这项工作是在京东AI研究中进行的。124980词汇表中的单词。预训练的对象识别器与输入图像并行使用以检测图像中的对象。然后，一个复制层将对象的预测分数和LSTM的当前隐藏状态作为输入。它输出在所有识别对象上复制的概率分布。为了通过LSTM动态地生成单词并从学习到的对象中复制单词，利用多层感知机的指向机制在每个时间步骤上平衡LSTM和复制层的输出概率分布。此外，鼓励对对象的覆盖范围进行讨论，该覆盖范围独立于句子中的位置。因此，覆盖度的度量是在句子级别的对象集上进行的。整个LSTM-P通过同时最小化在生成的句子上广泛采用的顺序损失和句子级覆盖损失来进行训练。这项工作的主要贡献是提出了LSTM-P架构，用于解决图像字幕生成中的新颖对象预测问题。这个问题还导致了如何扩展词汇表以及如何在句子中优雅地指向复制新颖对象的位置和时刻的问题，这些问题在文献中尚未完全理解。02. 相关工作0图像字幕生成。受到计算机视觉中深度学习[10]和自然语言处理中的序列建模[24]的启发，现代图像字幕方法[6, 21,28, 31, 34, 35,36]主要利用序列学习模型生成具有灵活句法结构的句子。例如，[28]提出了一种端到端的CNN加RNN架构，利用LSTM逐词生成句子。[31]进一步扩展了[28]，通过整合软/硬注意机制，在生成相应单词时自动关注图像中显著的区域。此外，[13]在编码器-解码器架构中设计了自适应注意机制，以决定何时依赖于视觉信号或语言模型，而不是在解码阶段的每个时间步计算图像区域的视觉注意力。最近，[29,35]验证了将语义属性注入CNN加RNN模型对图像字幕生成的有效性。此外，[36]利用在属性上测量的语义注意力来提升图像字幕生成。最近，[3]提出了一种新颖的基于注意力的字幕生成模型，通过自下而上和自上而下的注意力机制利用对象级别的注意力来增强句子生成。新颖对象字幕生成。最近，新颖对象字幕生成任务受到了越来越多的关注，它利用额外的图像-句子配对数据[15]或非配对的图像/文本数据[8,26]来描述新颖对象。现有的工作主要通过改进基于RNN的0图像字幕生成框架针对新颖对象字幕生成场景进行了改进，通过额外利用图像标记器/对象检测器来注入新颖对象进行描述。具体来说，[15]是早期的尝试之一，通过扩大仅基于少量配对的图像-句子数据的原始有限词汇表来描述新颖对象。特别设计了一种转置权重共享策略，以避免大量的重新训练。相比之下，[8]提出了深度组合字幕生成器（DCC），它利用广泛可用的非配对的图像和文本数据（例如ImageNet和Wikipedia）来促进新颖对象字幕生成。DCC明确利用语义相关对象的知识来组成包含新颖对象的句子。Venu-gopalan等人进一步扩展了DCC，通过同时优化视觉识别网络、语言模型和图像字幕网络来进行端到端的优化。最近，[33]将常规的基于RNN的解码器与复制机制相结合，可以同时将检测到的新颖对象复制到输出句子中。[17]提出了一个两阶段系统，首先构建一个多实体标签图像识别模型来预测抽象概念，然后利用这些概念作为外部语义注意力和约束推理来生成句子。此外，Anderson等人设计了约束束搜索，以强制RNN-based解码器的输出中包含选定的标签词，从而在无需重新训练的情况下扩展词汇表以包含新颖对象。最近，[14]首先生成一个混合模板，其中包含与图像区域明确关联的单词和槽位，然后使用对象检测器在区域中识别的视觉概念填充槽位。总结。简而言之，我们的方法侧重于利用对象识别数据进行新颖对象字幕生成的后一种情景。与之前的方法[17,33]类似，LSTM-P通过在对象识别数据上预训练的对象学习器增强了标准的基于RNN的语言模型。创新之处在于利用指向机制动态地容纳通过RNN-based语言模型生成单词和从学习到的对象中复制单词。特别地，我们利用指向机制来优雅地指示何时将新颖对象复制到目标句子中，以平衡在上下文条件下复制机制和标准逐词句子生成之间的影响。此外，采用句子级覆盖度度量作为额外的训练目标，以鼓励句子中对象的全局覆盖。03. 方法0我们设计了长短期记忆与指向（LSTM-P）架构，通过指向机制动态地将识别到的新对象整合到输出句子中，以促进新颖对象字幕。x (1-pt)x pt+............E(I, S) = Ed(I, S) + λ × Ec(I, O),(1)124990LSTM0Wt0对象学习器CNN0复制层0t = -10t0t = 10t = 20t = 30t = 40t = T0顺序损失0句子级覆盖损失0狗：1.00沙发：0.21床：0.13毯子：0.120指向机制0一只大狗躺在沙发上的毯子上0输入句子0联合学习0Wt+10图1.我们的长短期记忆与指向（LSTM-P）架构的概述，用于新颖对象字幕（在彩色中查看效果更好）。首先，CNN提取的图像表示首先注入到LSTM中的初始时间，以触发标准逐字生成句子。LSTM的输出是每个解码时间词汇表中所有单词的概率分布。同时，预先在对象识别数据上训练的对象学习器用于检测输入图像中的对象。这些预测的对象得分分布进一步与LSTM的当前隐藏状态一起注入到复制层中，产生被复制到识别对象上的概率分布。为了通过LSTM生成单词和从学习对象中复制单词，特别设计了指向机制，以优雅地指示何时根据上下文信息（即当前输入单词和LSTM隐藏状态）复制对象。整个LSTM-P通过最小化两个目标进行端到端训练：（1）广泛采用的顺序损失，强制输出句子的句法连贯性，（2）句子级覆盖损失，鼓励图像中所有对象的最大覆盖，与句子中的位置无关。0LSTM-P首先利用常规CNN加上RNN语言模型来利用生成的单词之间的上下文关系。同时，利用在对象识别数据上训练的对象学习器来检测输入图像中的对象，并进一步采用复制层直接从识别的对象中复制一个单词。接下来，通过指向机制动态适应生成目标单词的两个路径，即标准逐字生成句子和直接从识别的对象中复制，该机制可以根据上下文指示何时将新对象复制到目标句子中。LSTM-P的整体训练是通过同时最小化顺序损失和句子级覆盖损失来执行的，顺序损失强制输出句子的句法连贯性，句子级覆盖损失鼓励图像中所有对象的最大覆盖。我们的框架概述如图1所示。03.1. 符号表示0对于小说对象字幕任务，我们的目标是用一个文本句子S = {w1，w2，...，wNs}来描述输入图像I，其中包含Ns个单词。请注意，我们将每个图像I表示为Dv维视觉特征I∈RDv。此外，wt∈RDw表示句子S中第t个单词的Dw维文本特征。让Wd表示配对图像-句子的词汇表0数据。此外，我们利用免费提供的视觉识别数据集开发对象学习器，将其整合到标准深度字幕架构中，用于新颖对象字幕。我们将对象识别数据集的对象词汇表表示为Wc，Ic∈RDc表示图像I通过对象学习器在Wc中所有Dc个对象上的概率分布。因此，我们系统的整个词汇表表示为W =Wd∪Wc。此外，为了方便句子中对象覆盖的额外度量，我们将文本句子S中的所有对象提取为另一个训练目标，表示为对象包O ={wo1，wo2，...，woK}，其中K是对象单词的数量。03.2. 问题形式化0在新对象字幕问题中，一方面，句子中的词应该在语言上有条理，另一方面，生成的描述性句子必须能够涵盖图像中的所有对象。因此，我们可以通过最小化以下能量损失函数来形式化新对象字幕问题：0其中λ是权衡参数，E d ( I, S )和E c ( I, O)分别是顺序损失和句子级覆盖损失。前者衡量了句子中生成的顺序词之间的上下文依赖性：Ed(I, S) = − log Pr (S|I, Ic).(2)log Pr (S|I, Ic) =Ns�t=1log Prt (wt| I, Ic, w0, . . . , wt−1). (3)Prtd (wt+1) = w⊤t+1Mdht,(4)Prtc (wt+1) = w⊤t+1M1c Ic ⊙ σ M2cht,(5)pt = σ(Gswt + Ghht + bp),(6)Prt (wt+1) =tttttt125000通过CNN加RNN语言模型来生成句子，下面介绍了后者。后者估计图像中所有对象对于输出句子的覆盖程度，详见第3.4节。具体来说，受到图像/视频字幕中的序列学习模型[6,11, 18, 19, 28, 31,32]和复制机制[33]的启发，我们为常规的CNN加RNN语言模型配备了复制层，通过复制层预测每个目标词，不仅通过基于LSTM的解码器逐字生成，还通过复制层直接从识别出的对象复制。因此，顺序损失E d ( I, S)可以衡量给定图像和识别出的对象的正确文本句子的负对数概率：0由于整个字幕模型逐字生成句子，我们直接应用链式法则来建模顺序词的联合概率。因此，句子的对数概率计算为目标词的对数概率之和：0这里每个目标词的概率Pr t ( w t)取决于基于LSTM解码器对整个词汇表的概率分布和基于复制层对识别对象的概率分布。为了动态地整合这两个不同概率分布的影响，我们设计了一个指向机制，在每个时间步骤自适应地决定要关注哪个分数分布，详细说明见第3.3节。03.3. 指向机制0当人类对于如何称呼感兴趣的对象的信息有限时，人类（以及一些灵长类动物）往往会通过引起注意来有效地行为机制，即指向行为[16]。这种指向行为在信息传递中起着重要作用，并且可以自然地将上下文与特定对象关联起来，而不知道如何称呼它，即从未见过的新对象。受到指向行为和指针网络[27]的启发，我们设计了一种指向机制来处理图像字幕中的新对象。更确切地说，指向机制是基于常规LSTM语言模型加上一个复制层和一个指向行为的混合。它直接复制识别出的对象，集中处理新对象，同时通过语言模型保持生成连贯词汇的能力。LSTM加上复制层和指向机制之间的交互如下所示：0复制层和指向机制在图1的左侧部分描述。具体来说，在解码阶段，给定第t个时间步的当前LSTM单元输出ht，首先根据LSTM中的常规序列建模和复制层中的对象直接复制，分别计算整个词汇表W和对象词汇表W c的两个概率分布。对于LSTM的整个词汇表的概率分布，生成任何目标词w t +1 ∈ W的相应概率如下所示：0其中，Dh是LSTM输出的维度，Md ∈RDw×Dh是单词的文本特征的转换矩阵。对于被复制到对象词汇表上的概率分布，我们直接获得在当前LSTM单元输出ht和对象学习器的输出Ic条件下复制任何对象wt+1 ∈Wc的概率：0其中，M1c ∈ R Dw×Dc和M2c ∈ RDc×Dh是转换矩阵，σ是sigmoid函数，⊙是逐元素乘积函数。接下来，指向机制将动态上下文信息（当前输入单词和LSTM单元输出）进行特征转换，生成一个权重值，并通过sigmoid函数将权重值压缩到[0,1]的范围内。指向机制中的输出权重值pt的计算方式为：0其中，Gs ∈ R Dw，Gh ∈ RDh是单词的文本特征和LSTM的单元输出的转换矩阵，bp是偏置。这里权重值pt被采用作为一个软开关，用于选择通过LSTM生成单词，还是直接从识别的对象中复制单词。因此，每个目标单词wt+1在整个词汇表W上的最终概率由动态融合Eq.(4)和Eq.(5)中的两个概率分布以权重值pt计算得到：0ptd = 1 − pt , ptc = pt , (7)0其中，ptd和ptc分别表示通过LSTM生成单词或从识别的对象中复制单词的权重。φ表示softmax函数。03.4. 对象的覆盖度0尽管基于RNN的图像字幕系统在编码器-解码器范式中取得了高量化分数，但越来越多的证据[5,14]表明，这种范式仍然缺乏视觉基础（即，不将提到的概念与图像的像素相关联）。因此，生成的字幕更容易描述对象的通用信息，甚至复制训练数据中最常见的短语/字幕，导致不良效果，如对象幻觉。因此，我们进一步将对象的覆盖度作为额外的训练目标来全面覆盖句子中的更多对象，以强调提到的对象的正确性，而不考虑语法结构，从而改善字幕。具体而言，衡量对象的覆盖度被制定为多标签分类问题。首先，在解码阶段生成的对象词汇表上累积所有被复制的概率分布。通过将所有被复制的概率分布按照指向机制中的权重值pt加权聚合，然后进行sigmoid归一化，从而获得归一化的句子级别概率分布用于复制：Prs (woi) = σ� Ns�t=1ptPrtc (woi)�.(8)Ec(I, O) = −K�i=1log Prs (woi).(9)L = −Ns�t=1log Prt (wt) − λK�i=1log Prs (woi),(10)125010尽管基于RNN的图像字幕系统在编码器-解码器范式中取得了高量化分数，但越来越多的证据[5,14]表明，这种范式仍然缺乏视觉基础（即，不将提到的概念与图像的像素相关联）。因此，生成的字幕更容易描述对象的通用信息，甚至复制训练数据中最常见的短语/字幕，导致不良效果，如对象幻觉。因此，我们进一步将对象的覆盖度作为额外的训练目标来全面覆盖句子中的更多对象，以强调提到的对象的正确性，而不考虑语法结构，从而改善字幕。具体而言，衡量对象的覆盖度被制定为多标签分类问题。首先，在解码阶段生成的对象词汇表上累积所有被复制的概率分布。通过将所有被复制的概率分布按照指向机制中的权重值pt加权聚合，然后进行sigmoid归一化，从而获得归一化的句子级别概率分布用于复制：0这里，每个对象w o i ∈ W c的句子级别概率表示生成的句子中直接复制该对象的可能性，而不考虑在句子中的位置。因此，句子级别的覆盖损失被计算为多标签分类中的交叉熵损失：0通过最小化句子级别的覆盖损失，鼓励字幕系统谈论图像中发现的更多对象。03.5. 优化0训练。我们LSTM-P的整体训练目标将Eq.(2)中广泛采用的顺序损失和Eq.(9)中的句子级覆盖损失进行了整合。因此，我们得到以下优化问题：0其中λ是权衡参数。通过这个整体损失目标，优化的关键目标是鼓励生成的句子在语言上连贯，并同时涵盖图像中的所有对象。推理。在推理阶段，我们在整个词汇表W中选择具有最大概率的输出词作为每个时间步的输出，并在指向机制的指导下将嵌入的文本特征设置为下一个时间步的LSTM输入。这个过程一直持续到发出结束符号词或达到预定义的最大句子长度为止。04. 实验0我们对我们提出的LSTM-P在两个图像数据集上进行了广泛的评估，包括保留的COCO图像字幕数据集（保留的COCO）[8]，即图像字幕基准数据集COCO[12]的一个子集，以及大规模物体识别数据集ImageNet[22]。04.1. 数据集和实验设置0数据集。保留的COCO数据集是通过从COCO中排除包含以下八个特定对象之一的图像-句子对来得到的：“瓶子”，“公共汽车”，“沙发”，“微波炉”，“披萨”，“球拍”，“手提箱”和“斑马”。在该数据集中，每个图像都由人类提供的五个描述进行注释。由于官方测试集的注释不公开，我们遵循[8]中的划分，将COCO验证集的一半作为验证集，将另一半作为测试集。在实验中，我们首先使用包括八个新对象在内的COCO训练集中的所有图像来训练对象学习器，并且LSTM使用来自COCO训练集的所有句子进行预训练。接下来，利用保留的COCO训练集中的所有配对的图像-句子数据来优化我们的新颖对象字幕系统。最后，我们在保留的COCO的测试集上评估我们的LSTM-P模型，以验证描述八个新对象的能力。ImageNet是大规模物体识别数据集，我们采用包含634个不在COCO中的物体的ImageNet子集进行评估，如[26]所述。具体而言，我们将每个类别的大约75％的图像用于训练，其余用于测试。因此，训练集和测试集总共包括493,519和164,820张图像。在实验中，我们首先使用整个ImageNet训练集来训练对象学习器，并且LSTM使用来自COCO训练集的所有句子进行预训练。然后，我们的新颖对象字幕系统使用来自COCO训练集的所有配对的图像-句子数据进行优化。在推理过程中，我们直接为ImageNet中的测试图像生成句子，并评估我们的LSTM-P描述634个新对象的能力。实现细节。为了与其他最先进的方法进行公平比较，我们将在ImageNet上预训练的16层VGG[23]的4,096维fc7输出作为图像表示。句子中的每个单词都表示为Glove嵌入[20]。对于COCO上的对象学习器，我们仅选择COCO中最常见的1,000个单词，并利用MIL模型[7]在整个COCO的训练数据上训练对象学习器。对于ImageNet上的对象学习器，我们直接微调在ImageNet上预训练的16层VGG以获得634个对象学习器。LSTM中的隐藏层大小设置为1,024。用于平衡顺序损失和句子级覆盖损失的权衡参数λ根据经验设置为125020表1.我们提出的模型和其他最先进方法在保留的COCO数据集上进行新颖物体字幕的每个对象的F1、平均F1、SPICE、METEOR和CIDEr得分。所有值均以百分比（%）报告。0模型 F1 瓶子 F1 公共汽车 F1 沙发 F1 微波炉 F1 比萨饼 F1 球拍 F1 手提箱 F1 斑马 F1 平均 F1 SPICE METEOR CIDEr0LRCN [6] 0 0 0 0 0 0 0 0 0 - 19.3 -0DCC [8] 4.6 29.8 45.9 28.1 64.6 52.2 13.2 79.9 39.8 13.4 21.0 59.1 NOC [26] 14.9 69.0 43.8 37.9 66.5 65.9 28.188.7 51.8 - 20.7 - NBT [14] 7.1 73.7 34.4 61.9 59.9 20.2 42.3 88.5 48.5 15.7 22.8 77.0 Base+T4 [2] 16.3 67.8 48.229.7 77.2 57.1 49.9 85.7 54 15.9 23.3 77.9 KGA-CGM [17] 26.4 54.2 42.1 50.9 70.8 75.3 25.6 90.7 54.5 14.6 22.2 -LSTM-C [33] 29.7 74.4 38.8 27.8 68.2 70.3 44.8 91.4 55.7 - 23.0 - DNOC [30] 33.0 76.9 54.0 46.6 75.8 33.0 59.584.6 57.9 - 21.6 -0LSTM-P − 26.7 74.5 46.2 50.5 81.7 47.2 61.1 91.9 60.0 16.5 23.2 88.0 LSTM-P 28.7 75.5 47.1 51.5 81.9 47.1 62.693.0 60.9 16.6 23.4 88.30为了保持模型在句子之间的能力以处理新颖对象和指向机制的学习，我们将整体能量损失与外部句子数据上的文本特定损失和二进制分类损失隐式集成在一起。我们的新颖物体字幕模型主要在Caffe[9]上实现，这是一种广泛采用的深度学习框架之一。具体来说，我们将初始学习率设置为0.0005，小批量大小设置为512。对于所有实验，最大训练迭代次数设置为50个epoch。评估指标。为了定量评估我们的LSTM-P在保留的COCO数据集上，我们使用了图像字幕任务中最常用的指标，即METEOR [4]，CIDEr [25]和SPICE[1]，来评估生成描述的质量。此外，我们采用F1-score[8]进一步评估描述新颖对象的能力。请注意，F1-score指标表示生成的句子中是否提到了给定图像中包含的新颖对象。在我们的实验中，为了公平比较，METEOR和F1-score指标都是使用[8]发布的代码1计算的。对于不包含地面真实句子的ImageNet的评估，我们遵循[26]并采用另外两个指标：描述新颖对象（Novel）和准确性得分（Accuracy）。这里的Novel得分计算了在生成的句子中提到的所有634个新颖对象的百分比。换句话说，对于每个新颖对象，模型应该在至少一个描述中提到它。每个新颖对象的准确性得分表示包含该新颖对象的图像中是否可以通过提到该新颖对象来正确描述。我们通过对634个新颖对象的所有准确性得分进行平均来获得最终的准确性得分。04.2.比较方法0我们将我们的LSTM-P模型与以下最先进的方法进行比较，其中包括常规的im-01 https://github.com/LisaAnne/DCC0年龄字幕方法和新颖物体字幕模型- s：（1）LRCN[6]是一种基于LSTM的基本字幕模型，通过在每个时间步骤将输入图像和前一个单词注入到LSTM中触发句子生成。我们直接在配对的图像-句子数据上训练LRCN，而不涉及任何新颖对象。（2）DCC[8]利用外部非配对数据预训练词汇分类器和语言模型。接下来，使用配对的图像-句子数据训练整个字幕框架。（3）NOC[26]提出了一种由视觉识别网络、基于LSTM的语言模型和图像字幕网络组成的新颖物体字幕系统。这三个组件同时进行端到端优化。（4）NBT[14]首先生成一个混合模板，其中包含与图像区域相关的词和插槽的组合，然后用检测到的视觉概念填充插槽。（5）Base+T4[2]设计了约束束搜索，以强制将预测的标签词包含在基于RNN的解码器的输出中，而无需重新训练。（6）KGA-CGM[17]将预测的概念作为外部语义注意力和受限推理，用于句子生成。（7）LSTM-C[33]将标准的基于RNN的解码器与复制机制集成在一起，可以直接将预测的对象复制到输出句子中。（8）D-NOC[30]使用占位符生成字幕模板，然后通过键值对象存储器将检测到的对象填充到占位符中。（9）LSTM-P是本文提出的方法。此外，本次运行的一个稍微不同的版本被命名为LSTM-P-，它在训练时没有使用句子级覆盖损失。04.3. 性能比较0在保留的COCO上的评估。表1显示了在保留的COCO数据集上比较的十个模型的性能。总体而言，所有四个常规评估指标的结果一致地表明，我们提出的LSTM-P表现出比包括常规图像字幕模型（LRCN）和七个新颖对象字幕系统在内的所有最先进技术更好的性能。特别是，我们的LSTM-P的F1平均分可以达到60.9%，相对于最佳结果的改进幅度为125030GT: 一名女子在网球场上拿着网球拍LRCN: 一个年轻男孩在球场上拿着棒球棒LSTM-P: 一名网球选手在球场上拿着球拍0公共汽车 : 0.93人们 : 0.77 城市: 0.49 建筑物 :0.38 街道 : 0.350狗 : 1.00 沙发 :0.21 床 : 0.13毯子 : 0.12 头 :0.110网球 : 1.00球场 : 0.92球拍 : 0.78女人 : 0.71球员 : 0.690GT: 一小群站在公共汽车前面的人 LRCN:一个女人站在卡车前面 LSTM-P:一群人站在公共汽车周围0GT: 一只大狗躺在沙发上的毯子上 LRCN:一只狗躺在床上 LSTM-P:一只狗躺在沙发上，上面有一条毯子0图2.在保留的COCO上的对象和句子生成结果。检测到的对象由[7]中的MIL模型预测，输出的句子由1）GroundTruth（GT）：一个真实的句子，2）LRCN和3）我们的LSTM-P生成。0通过5.2%的改进，这通常被认为是在该数据集上的显著进展。正如预期的那样，通过额外利用外部对象识别数据进行训练，所有后面的九个新颖对象字幕模型在描述质量和新颖性方面都优于常规图像字幕模型LRCN。通过将标准的基于RNN的语言模型与对象/概念学习器相结合，LSTM-C相对于完全依赖于LSTM中生成机制的生成新颖对象的NOC而言，性能得到了提升。结果基本上表明了通过复制机制将预测的对象/概念直接“复制”到输出句子中的优势。然而，LSTM-C的性能仍然低于我们的LSTM-P−，后者利用指向机制来平衡复制机制和基于上下文生成的标准逐字逐句生成的句子之间的影响。这证实了在生成新颖对象字幕时，优雅地指向何时将新颖对象复制到目标句子中的有效性。此外，通过将句子级覆盖损失进一步整合到整体训练目标中，LSTM-P表现出比LSTM-P−更好的性能，这证明了鼓励生成的句子在语言上连贯并同时涵盖图像中的所有对象的优点。在ImageNet上的评估。为了进一步验证我们提出的LSTM-P的可扩展性，我们还在ImageNet上进行了实验，描述了数百个不属于配对图像-句子数据的新颖对象。表2显示了ImageNet上的性能比较。与在保留的COCO上的观察结果类似，我们的LSTM-P表现出比其他运行更好的性能。特别是，LSTM-P的新颖性、F1和准确性得分都可以达到0GT: 割草机 LRCN:一个男人走在一条路旁边的卡车旁边LSTM-P:一个男人坐在草地上的割草机上0猩猩 : 1.00 草 :0.95 地面 : 0.21动物 : 0.20 脸 :0.190算盘 : 1.00 孩子: 0.53 男孩 :0.39 小孩 : 0.15婴儿 : 0.140割草机 : 0.97 人 :0.81 草 : 0.78 树木 :0.49 人物 : 0.270GT: 猩猩 LRCN: 一只棕熊在草地上LSTM-P: 一只棕色的猩猩躺在草地上0GT: 算盘 LRCN: 一个小男孩坐在桌子前LSTM-P:一个年轻的孩子手里拿着一个算盘0图3.在ImageNet上的对象和句子生成结果。GT表示真实对象。检测到的对象由标准CNN架构[23]预测，输出的句子由1）LRCN和2）我们的LSTM-P生成。0表2.我们提出的模型和其他最先进方法在ImageNet数据集上的新颖性、F1和准确率得分。所有值均以百分比（%）报告。0模型新颖性 F1 准确率0NOC [26]0-COCO 69.08 15.63 10.04 -BNC&Wiki 87.6931.23 21.96 LSTM-C [33]0-COCO 72.08 16.39 11.83 -BNC&Wiki89.11 33.64 31.110LSTM-P0-COCO 90.06 17.67 11.91 -BNC&Wiki91.17 52.07 44.630达到了90.06%、17.67%和11.91%的结果，相对于LSTM-C的改进分别为24.9%、7.8%和0.7%，这基本上表明了利用指向机制平衡解码器生成的词和从学习到的对象中复制的词以及在输出句子中全局覆盖对象的优势，对于新颖对象的字幕生成，即使在包含数百个新颖对象的ImageNet图像中也是如此。此外，我们遵循[26,33]，在训练我们的LSTM-P时包括外部的非配对文本数据（即英国国家语料库和维基百科）。进一步提高了性能。04.4. 实验分析0在本节中，我们进一步分析了在保留的COCO数据集上进行新颖对象字幕生成任务时的定性结果、指向机制中的权重可视化以及权衡参数λ的影响。定性分析。图2和图3展示了不同方法生成的一些句子示例，以及在保留的COCO数据集上检测到的对象和人工注释的真实结果。00.20.40.60.8100.20.40.60.815959.56060.56100.10.20.30.40.50.60.70.80.9123.223.323.423.500.10.20.30.40.50.60.70.80.91125040网球 : 1.00球场 : 0.93 球: 0.92 球员 :0.72 球拍 :0.720卡车 : 0.59道路 :

下载后可阅读完整内容，剩余1页未读，立即下载