图像字幕生成：提高标题多样性和质量的视觉释义方法

164 浏览量更新于2023-10-12 收藏 775KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4240利用视觉释义刘立新1，2，3唐家军1万晓军1，2，3郭宗明1，21北京大学2北京大学3北京大学{liulixin，jiajun.tang，wanxiaojun，guozongming}@ pku.edu.cn摘要最近，在深度学习的帮助下，图像字幕取得了重大进展。然而，尽管在诸如BLEU和CIDER的常规度量方面得分很高，但是由当前最先进的模型生成的上限仍然远远不能令人满意人类书写的标题是多样的，信息丰富和精确的，但机器生成的标题似乎是简单的，模糊的和沉闷的。为了提高图像字幕的多样性和通过设计不同的评分函数，我们探索了不同的策略来选择有用的视觉释义对进行训练。我们的模型由两个解码阶段组成，在第一阶段生成初步的字幕，然后在第二阶段将其解释为更多样化和描述性的字幕在MSCOCO基准数据集上进行了大量实验，自动评估和人工评估结果验证了模型的有效性。1. 介绍图像字幕是用自然语言描述图像的任务。随着深度学习方法的出现，近年来有了显着的发展[18，38，47]。然而，现有的字幕生成方法仍需改进.图1显示了一个例子，在这个例子中，机器生成的字幕的缺陷可以很容易地识别出来。我们认为，一个好的标题，类似于一个人写的标题应该有几个属性。(1)英文名：TheFluency标题应该是一个流畅的句子。（2）相关性：字幕应正确描述视觉内容，并与图像密切相关。(3)多样性：语言是一个丰富多彩的系统。好的文字说明应该是用词多样，表达丰富（4）描述性：机器生成的标题：一个男人站在一辆白色汽车人类文字说明：描述1：一辆白色的小型车停在一条沙质的土路描述2：一辆汽车撞上了两个白色的扁平物体描述3：一名男子进入一辆车顶描述4：一名男子站在沙漠公路描述5：一名男子在沙漠图1.由最先进的基于注意力的图像字幕模型[34]和来自MSCOCO数据集[24]的五个人类书写的字幕生成的机器字幕。一个好的标题通过引用图像的重要，具体和详细的方面来描述图像，这是精确的，信息丰富的和描述性的[28]。如图1所示，机器生成的标题是对图像的流畅和正确的描述。然而，它非常简单和模糊。计算机更喜欢相反，人类更喜欢通过使用更多样的措辞来书写具有更多多样性的标题（如沙地土路和站在敞开的门中等）。并且通过描述更重要的细节（如在沙漠中和使用冲浪板等）而具有更多的描述性释义是用不同的表达方式表达大致相同意思的句子或短语[4]。在图像字幕的任务中，不同的人可以从不同的角度描述同一图像。即使他们聚焦在同一个场景的图像，他们的表情可以4241几乎不相同。例如，图1中的五个人类书写的帽子彼此明显不同描述同一图像的不同句子可以看作是一组释义，这就是视觉释义。在本文中，我们希望通过利用字幕数据集的视觉释义来生成多样化和描述性的图像字幕。一幅图像通常用一组由不同标题组成的视觉释义来注释。典型的方法简单地忽略了这些释义之间的关系，并把它们作为独立的样本。我们探索了它们之间的关系，并选择了几个具有特定评分函数（见3.1节和3.3节）的视觉释义对（Ci，Cj）进行训练。考虑到直接编写一个多样化的描述性标题是具有挑战性的，我们提出了一个两阶段解码的字幕模型，该模型首先生成一个初步的标题（较少的多样化和描述性）给定的视觉输入，然后释义成一个更多样化和描述性的标题使用这些视觉释义对。我们的模型不仅从视觉语义信息中学习，而且还从视觉的不同措辞中利用文本关系。释义我们的主要贡献概述如下：• 我们探讨的作用，图像字幕生成的视觉释义。我们研究了不同的评分功能，以选择有用的视觉释义对来自字幕训练数据。• 我们提出一个字幕模型，融合视觉和文本信息，两步解码，首先产生一个初步的字幕，然后意译，把它变成一个更加多样化和描述性的标题。• 各种自动度量和人工评估的结果表明，我们的模型可以在保持流畅性和相关性的同时生成更多样化和描述性的字幕。2. 相关工作图像字幕从图像生成文本[38，17，26，20]是计算机视觉和自然语言处理交叉的问题。图像字幕旨在为图像生成自然语言描述，通常由CNN作为图像编码器和RNN作为解码器组成，以生成句子[38，10，18，48]。注意力机制[47，27，30，2]，显式属性去-检测[12，52，44，50]，强化学习（RL）方法[32，34]和视觉关系检测[49]被提出用于改进。多样性和区别性的字幕有些作品关注图像字幕的多样性或区别性，其目标与我们相似。 Dai et al.[7]采用con-传统的生成对抗网络（GAN）可以生成多样化和自然的字幕。其他工作地址区别性或可辨别性，其通过强调图像的区别于其他图像的不同方面而与我们所指的可辨别性密切相关。内省说话者（IS）模型[35]作为波束搜索的改进，使用干扰项图像生成有区别的图像字幕。Dai等人。[8]采用对比损失来推动字幕的概率对于匹配的图像更高，对于不匹配的图像更低。Luo等人。[28]将额外的可辨别性奖励添加到CIDER奖励中，用于生成辨别性字幕的策略梯度一些先前的工作[7，9，39，42，37，40]专注于提高字幕的多样性。然而，当涉及到多样性时，他们指的是使用波束搜索等方法为每个图像生成多个相互不同的字幕，而我们指的是用多样和丰富的表达而不是简单和常见的措辞来产生单个其他一些文本生成的著作[22，46，53]中对多样性的解释与我们的相似。释义释义是用不同的措辞表达同一意思的替代方法。我们的工作受到了一些工作的启发，解决与其他模态和释义生成任务相关的释义。Chu等人[6]提出了一种聚类方法，用于从图像标题中提取描述相同视觉概念的短语表达Chen等人。[5]通过众包和基于检索的方法构建了一个具有视觉定位释义对的图像字幕数据集。Lin等人[25]解决称为视觉释义的任务，即通过视觉想象来验证两个文本描述是否对于释义生成，主流方法是基于注意力的序列到序列模型[3，31]。一些改进，如使用强化学习[23]和变分自动编码器[14]被提出。实验中利用COCO数据集中的大写字母对构建了一个然而，他们随机地选择字幕对，而不解决字幕的不同特性和利用视觉信息。两阶段文本生成当前用于文本生成的编码器-解码器框架的一个问题是，当生成单词时，只能利用先前生成的单词，而忽略未来的单词[45]。因此，提出了两阶段解码的方法。在审议网络[45]对于机器翻译，使用两个解码器，第一解码器生成序列，第二解码器用于细化。Stack-Cap [13]由一个粗解码器和一系列用于图像字幕的精细解码器组成它们来自第一解码器的中间输出被随机采样，但在训练期间没有被良好定义。如果没有明确的目标来训练第一个RNN解码器，它们很容易积累错误，因此很难训练。相反，我们的模型使用了两个不同的句子4242...StSt--1St-2-2v1v2v3v4v...vvv1234......htht-1ht-2...HhtHht--1Hht-22不不不m=1一不2训练集用来训练两步译码器，易于优化。预览网络[54]使用一个流水线，使用两个视觉编码器和两个语言解码器进行两个解码阶段。在训练过程中，他们两阶段解码的句子是相同的，这与我们的不同。Skeleton Key[41]首先生成骨架句子和at-tribute，然后将它们重写为完整的句子。POS [9]是一个基于VAE的网络，使用词性作为语言先验。这些方法为字幕生成定义了一个中间序列。在本文中，两步生成的句子都是具有不同性质的完整正确的字幕。3. 我们的方法在本节中，我们将详细讨论我们的方法。我们的模型依赖于使用各种评分从图像字幕数据集中选择视觉释义对（第3.1节）3.2.字幕出现在训练期间，我们的图像字幕模型学习首先产生“更简单”（更少多样性和描述性）的字幕C1，然后考虑图像内容I重写字幕，以获得可以更好地描述图像的更“复杂”（更多样性和描述性）的如图2所示，我们的模型采用两阶段解码过程，它由两部分组成：标准的基于注意力的字幕模块，用于生成初步字幕;以及具有多模态融合的视觉释义生成模块，用于将初步字幕释义为最终字幕。图像I首先由图像编码器编码以得到空间视觉特征集合V ={v1，v2，…v| V|其中每个特征表示图像的子区域。然后我们使用第一个LSTM解码器LSTM1来生成prelim。i={x（i）} |Ci|通过关注t t=1ing函数（第3.3节）。然后这些视觉释义对用于训练我们的字幕模型，具有两个解码阶段（第3.2节），如图2所示。视觉输入我们采用Att2in[34]模型。这是对vanillaLSTM[16]注意力机制[3，47]。ht= LSTM1.Σx（i），ht−1，c（1）（二）c（1）= Σ|V|n=1t tαnvn（三）αn=α exp（a（ht−1，vn））|V|exp（a（ht−1，vm））（四）视觉特征LSTM1LSTM2a（ht−1，vn）=u tanh（Whht−1+ Wvvn）（5）图2.我们的模型框架。其中c（1）是LSTMt13.1.视觉释义对选择图像字幕数据集D由N个图像和M个字幕组成。每个图像I具有d个注释的帽C ={C1，… C d}。这d个字幕构成了一组对应于图像I的视觉释义。每一对字幕是对应于I的视觉释义对。我们选择视觉释义对P的一部分：表示空间图像特征的加权和vn∈V，隐状态ht作为查询。 ua、Wh和Wv是模型参数。为了简洁起见，我们使用c（1）=Attn（ht-1，V）来表示通过等式3、4和5使用ht-1作为查询从V上的注意力获得的上下文向量。在已经生成初步字幕Ci之后，LSTM1和原始图像特征的隐藏状态可以是：V被馈送到另一解码器LSTM2。隐状态P={（Ci，Ci）|S（Ci，Cj）>0，Ci，Cj∈C，Ci/=Cj}（一）的LSTM1H={h1，h2，…H|Ci|}由初始句子Ci的信息组成。我们汇总了其中，S（Ci，Cj）是测量视觉释义对内关于特定特征（例如：多样性），而阈值是阈值。通过这种方式，图像的d个字幕被重新组织成一系列选定的视觉释义对（Ci，Cj）∈ P。在我们的实验中，从评分函数的角度来看，C j比Ci更“复杂”，因此th。不同种类的数量，选择的释义对最多为d。这些选定的视觉来自这些隐藏状态句子Ci的文本信息和来自用于重写到Ci的Vk的图像区域的视觉信息。与语篇释义生成不同，vi-自动释义生成需要来自两种模态的信息来改写句子。当生成每个单词时，来自第一个句子Ci的文本信息和关注的视觉我们采用注意机制来获取语境信息，来自用于重新措辞的字幕Cj的视觉内容的信息：释义对被用于训练。得分功能-用于选择的选项在第3.3节中详细说明。文本注意视觉注意合并ctx（i）x（j）t+1t+1c（1不（一）Xc^tC（2不不（j）X不x（it-1x（j）t-1...v4v3v2v1st-2st-1St...ht-2ht-1ht...编码器我4243c~t=UvAttn（st−1，V）（6）4244不电话+1t t=12其中，是第二解码器LSTM2的隐藏状态。来自文本内容的上下文信息是通过对H的关注来计算的，其中st作为查询：ct=UcAttn（st−1，H）（7）注意，两个原始上下文向量Attn（st，V）和Attn（st，H），分别由线性层Uv和Uc映射，以在共享的多模态嵌入空间中得到变换后的多模态向量c_t和c_t，因为H和V中的特征表示不同的模态，因此处于不同的特征空间中为了融合两种模态的信息，我们使用一个合并门gt来融合多模态特征。句子句法树中的分支数Yngve评分函数被定义为Yngve （ Cj ） −Yngve （Ci ）。我们在等式1 中设置C≥0，因此Cj通常在句法上比Ci更复杂。3.3.3TF-IDF多样性我们设计使用n-gram的TF-IDF分数的总和来对句子C进行评分。TF-IDF反映了n-gram的重要性。训练语料中频率较低的N元语法具有较高的IDF。TF-IDF多样性（Tdiv）度量和评分函数定义为：Σgt=σ（Wcc t+Wcct+Wsst−1）（8）ΣNTdiv（C）=n-gram∈C TF-IDF（ n-gram）（十二）c（2）=gt拉克什特+（1−gt）ct（九）Vn=1STdiv（Ci，Cj）=Tdiv（Cj）− Tdiv（Ci）（13）哪里 σ 表示乙状功能，和这表明，逐元素向量乘法。Wc~、Wc和Ws是其中Vn1ΣMC∈D Σn-gram∈C TF-IDF（ n-gram）是模型参数当生成释义句子Cj={x（j ）}时，|CJ|，LSTM通过视觉注意力关注图像的不同子区域，并且通过文本注意力关注句子Ci的不同单词，以生成下一个词两种模态的信息融合由合并状态控制，用于自适应地确定两侧的不同权重。概率分布-通过LSTM 2 的输出上的 softmax 激活函数来计算wordx（j）生成的n e xt的值。第n个gram的归一化项，M是数字D中的字幕。在计算TF-IDF分数的文档频率时，每个标题都被视为一个文档。在我们的实验中，我们将等式12参考Tdiv度量我们选择N=3，以便使用大写字母的一元、二元和三元来进行计算。 Tdiv度量表示前-一个句子的多种表达的帐篷。当一个句子包含大多数常用的单词和短语时，它的Tdiv分数较低，反之亦然。在一个视觉上的释义中，由Tdiv评分函数选择的对（Ci，Cj）（C i≥0），Cjst =LSTM2.Σx（j），st−1，c（2）（十）一般比Ci有更丰富的表达式。t t（j）电话+1 中国（11）3.3.4图像检索排名3.3. 评分函数我们采用多种评分策略来选择P中的一系列释义对（等式1）。评分函数定义了特定特征的程度（例如：多样性）。视觉释义对中的句子彼此不同。3.3.1句子长度如果一个句子较长，它更有可能提供信息描述或使用不同的表达。我们定义评分函数Slen（Ci，Cj）=length（Cj）-length（Ci）。我们在等式1中设置≥0，因此字幕Cj比Ci长在选定的视觉释义对。3.3.2句法复杂性以前的工作[8，28]通过图像检索关注字幕的清晰度或可辨别性方面，旨在检索给定其对应字幕的原始图像它是基于视觉语义检索系统。我们采用了一个类似的网络架构，罗等人。[28]第10段。图像I和其对应的字幕C∈ C分别由CNN和LSTM编码以得到对应的特征向量。tors. 将特征向量映射到同一个嵌入空间，得到图像嵌入f（I）和字幕嵌入g（C）。I和C的相似性由嵌入的余弦相似性计算f（ I）sim（I，C）=（14）（I）A（C）B（D=xn4245双向排名损失定义如下：ΣΣ如果一个句子包含更复杂的句法结构，它可以包含更多的修饰语来给出详细的描述，Le=我max（0，β−sim（I，C）+ sim（I，C−））C−第丰富多样的词语也会增加句子的句法复杂度.Yngve评分[51]ΣΣ+ max（0，β−sim（I，C）+sim（I−，C））（15）CI-4246其中β∈R用作边缘参数。每个（I，C）都是训练数据中的地面实况图像-字幕对，C−表示图像I的未配对字幕，反之亦然。因此，检索系统可以检索相关的图像给定的标题作为查询，反之亦然。给定字幕C作为查询，我们使用COCO训练集上的预训练检索系统来对训练集中的大量图像（包括原始图像I）进行排名。理想情况下，可以使用具有高清晰度的正确、详细的标题来检索相应的图像作为最佳匹配。因此检索性能可以用来反映标题的正确性和描述性。等级（I|C）是使用C作为查询的对应图像I的排名。较大的秩值（I|C）表示描述不正确或不够详细，因此检索系统在给定查询C的情况下，无法找到正确的图像I。我们将图像检索（IR）评分函数定义为4. 实验4.1. 数据集我们在Microsoft COCO数据集上进行实验[24]。它具有123，287个图像，每个图像具有五个不同的人类注释的标题1。我们采用标准的4.2. 实验细节对于我们的图像字幕模型，我们利用Faster R-CNN[33]提取的自下而上的空间特征[2]，结合由VisualGenome Dataset [21]中的对象和属性注释训练的Resnet-101 [15我们将单词嵌入大小和LSTM隐藏大小设置为512。词汇量为9，488。在训练过程中，使用学习率为5×10−4的Adam [19]进行优化。批量大小设置为16，光束大小设置为3。的S（C，C）=秩（I|Ci）（十六）最大句子长度为16。 Equa的检索等级IRijrank（I）|Cj）图16使用图16中的20，000个候选图像来计算。由S1R和等式1选择的字幕对（C1，Cj）中的字幕都是人类注释的字幕，因此它们是正确的字幕。但是字幕Cj可以提供比C1更详细和信息量更大的图像描述。图像检索等级反映了标题的相关性和描述性。人类书写的字幕通常是相关的和信息丰富的。此外，检索系统是在相同的训练集上训练的，因此字幕将具有小的检索等级。但是，不描述高度不同部分的一些人类书写的字幕也可以是用于描述训练集中的另一图像的正确字幕。因此，当我们使用训练集中的大量图像作为检索候选时，它们将具有比其他字幕更大的排名。3.4. 训练和推理我们的模型可以通过最小化生成Ci和Cj的负对数似然来联合训练：ΣΣL=−logp（Ci|I）−logp（Cj|（：1，1）（17）I∈D（Ci，Ci）∈P由于第一和第二解码阶段的字幕在训练期间可用，因此我们使用标准教师强制[43]通过将地面实况字幕的单词作为输入来训练RNN的策略。在测试过程中，我们采用了波束搜索策略。当第一阶段中的候选字幕通过波束搜索完全解码时，选择具有最高概率的候选字幕作为初步字幕。对应于它的隐藏状态被收集用于tex.COCO训练套装。4.3. 评估指标我们考虑了各种评价指标，旨在从不同的角度更好地评价字幕质量。我们采用广泛采用的传统方法，包括BLEU-4 [29]、CIDEr [36]和SPICE [1]。这些指标将生成的句子与引用进行比较，因此它们主要关注标题的相关性方面。BLEU和CIDEr是基于n-gram的度量，而SPICE衡量字幕如何有效地恢复对象，属性以及它们之间的关系，这被证明与人类判断更相关[1]。然而，这些常规的度量不是完美的，特别是不足以评估多样性和描述性，这也是高质量图像描述的关键方面。特别地，像BLEU和CIDEr这样的度量是n-gram重叠的主要原因，因此具有非常常见的n-gram但缺乏多样性和描述性的句子，这被证明与人类对字幕细节的判断呈负相关[1]。因此，我们还报告了一些其他的统计数据和指标，反映了字幕的一些重要方面。这些指标在以前的作品中大多被忽略。除了第3.3节中定义的平均长度（长度）、Yngve评分（Yngve）和Tdiv（公式12）外，我们还报告了Dist-2、Dist- 3和Dist-S[46]结果。它们分别是生成的字幕中不同的二元组、三元组和句子的数量。更高的Dist分数表明更多样化的字幕，所以Dist指标是句子多样性的测量。标题的描述性是模糊的第二阶段解码的实际注意力然后另一应用波束搜索来解码经抛光的最终字幕。1很少有（327）张图片有6或7个注释说明。4247并且难以评估。我们遵循先前的工作[28，8]，采用自检索策略。我们尝试检索原始图像，年龄给定生成的字幕作为查询。回收性能通过R@K（K=1，5，10）测量，即，在K2的回忆。为了防止在使用图像检索评分函数进行训练期间过度拟合检索模型，我们使用预训练的VSE++ [11]进行自检索评估，这是一种利用不同网络架构和图像特征的强大视觉语义检索模型（微调ResNet-152 [15]）。更好的自检索性能表明该模型生成相关的、信息丰富的和描述性的标题。我们还与20名志愿者一起对亚马逊机械土耳其人进行了人体评估。我们比较了100个图像随机抽样测试集的方法。每种帽子都由4个不同的人评级。志愿者根据以下四个标准从1-5级（越高越好）对字幕进行评分：流畅性、相关性、多样性和连贯性。定义见补充材料。4.4. 基线方法我们采用多种基准方法，包括：注意力[34]：基于注意力的字幕模型（Att 2 in）使用Faster R-CNN（ResNet-101）的自下而上图像特征。我们的模型就是基于此。GAN[7]：条件生成对抗网络，用于多样化和自然的图像字幕。IS[35]：用于区分图像字幕的内省扬声器方法CL[8]：对比学习方法，侧重于字幕的独特性方面我们使用Attention、GAN和IS的基线方法，这些方法具有与我们相同的图像特征和基于注意力的架构，以进行公平的比较。而CL [8]还利用强自适应注意力[27]作为具有微调ResNet-152 [15]编码器的基础模型。我们还报告了使用CIDEr作为优化目标的强化学习的结果，包括：CIDEr-RL[34]：具有CIDEr奖励的自我批判序列训练。DiscCap[28]：CIDER和歧视性客观奖励混合目标的自我批评培训（论文中的模型ATTN+CIDER+DISC-1）。Stack-Cap[13]：使用具有CIDER优化的两步解码器的粗到精策略。4.5. 自动评估结果表1示出了自动评估结果。为了进一步了解人类书写字幕的属性，我们还在表中报告了MS COCO测试集中字幕的度量分数。人类书写的BLEU/CIDER/SPICE评分2在共享嵌入空间中，在最接近K点的查询字幕中检索到正确图像的生成字幕的比例标题是根据以前的工作3[7]计算的与注意力基线相比，除BLEU和CIDER外，人类具有更高的度量它进一步表明，人类比机器编写更多样化和信息量更大的标题。但是，在这些人类书写的视觉释义中，并没有太多重叠的我们首先将我们的模型与注意力基线进行比较，以评估评分函数的选择对不同的影响。我们的（len）显著提高了字幕的多样性和描述性，增加了Tdiv、Dist和检索性能（R@K）。但它会产生过长的句子，严重损害整体质量， BLEU 和 CIDER 大幅下降。我们的（Yngve）只稍微提高了标题的多样性和重复性。与具有简单评分函数的这两个模型相比，我们的（IR）和我们的（Tdiv）显示出更好的性能。共振峰我们的（IR）显著提高了检索性能-在常规度量SPICE、BLEU和CIDER中略有增益我们的（Tdiv）表现出更好的结果，多样性和检索性能比其他评分功能。毫无疑问，许多基于n-gram的指标，如BLEU和CIDER下降，而多样性增加。此外，我们还观察到SPICE方法有明显的改进.较高的SPICE分数表明Ours（Tdiv）正确地描述了对象，属性及其关系。比较表明，句子长度和句法复杂性（Yngve分数）可能不是标题的多样性和连续性的准确指标。我们观察到，我们的检索性能（Tdiv）甚至优于我们的（IR），它利用了一个检索模型explanatory。这可能是由于用于训练和评估的检索模型的差异。然后我们将我们的（Tdiv）和我们的（IR）与其他专注于与我们相似目标的MLE基线进行比较。GAN在生成高度多样化的字幕方面很突出，但它对字幕的正确性有负面影响，在SPICE、BLEU和CIDEr中得分较低，并且检索性能没有太大提高。第4.6节中的人体评价结果进一步证明了这一点。相比之下，我们的（Tdiv）在多样性（Tdiv和Dist得分）方面取得了相当的结果，在检索性能和SPICE等传统指标方面优于GAN。IS和CL专注于生成区分性字幕，主要通过检索性能来评估。它们在R@K中实现高结果，但具有较低的常规度量3对于每幅图像，从注释中随机抽取一个句子作为候选，其他句子作为参考。我们注意到，在这种方法中，我们只有4个参考，所以我们进一步计算模型的BLEU/CIDEr/SPICE，随机选择4个带注释的帽子作为参考。BLEU和CIDEr结果显示了类似的趋势。一些结果：注意力30.7/108.5/21.1;我们的（Tdiv，0.1）27.8/104.8/22.2;我们的（Tdiv，0.3）24.1/86.7/22.3;我们的（IR，2）30.6/108.7/21.5。4我们发现我们的（IR，2）比我们的（Tdiv，0.1）和我们的（Tdiv，0.3）具有更高的R@K，使用与用于训练的架构相同的检索模型进行评估。4248长度YngveTdiv距离-2距离-3Dist-SR@1R@5R@10BLEU-4苹果酒香料注意（基地）9.112.51.7825114972322819.247.861.535.0109.819.9GAN10.615.12.3844189321436521.448.862.423.186.018.7是9.413.42.0447729016424824.854.968.831.9101.819.7CL9.312.71.8631036130349924.152.567.533.6106.519.7CIDEr-RL9.412.81.7918433694290919.447.061.336.0115.520.9DiscCap9.312.31.7417433512309321.650.365.436.1114.221.0Stack-Cap9.412.71.7419303999326821.949.763.736.1120.420.9Ours（len，0）15.428.73.1039168683456526.256.570.824.669.721.0我们的（Yngve，0）10.617.72.1229045895363422.650.865.632.3106.420.8Ours（IR，2）9.313.01.8834396726388425.355.569.135.0109.820.3我们的（Tdiv，0.1）10.816.32.2638737810419625.055.569.731.5105.421.0我们的（Tdiv，0.3）12.921.72.78479010053457626.357.270.827.186.921.1人类10.515.92.901538125309499230.359.472.419.485.821.3表1.COCO测试集上的自动评估结果括号中的文字和数字分别表示评分函数和评分函数的选择。(e.g.（IR，2）表示使用图像检索（IR）评分函数，并且R@K、BLEU-4、CIDEr和SPICE值报告为百分比。成绩. 我们的（IR，2）不仅在以下方面优于IS和CLR@K，但也显示出传统度量的优势毫无疑问，基于强化学习（RL）的方法（CIDEr-RL，DiscCap和Stack-Cap）生成的字幕获得了很高的BLEU和CIDEr分数，因为它们直接使用CIDEr作为优化目标。然而，它们的Dist分数甚至低于Attention基线，表明CIDER优化损害了帽的多样性。此外，这些方法的检索性能结果与之前的工作一致，发现BLEU和CIDER等基于n-gram的指标与图像标题的细节[1]和多样性[40]呈负相关。总之，自动评估结果表明，我们的模型与IR和Tdiv评分功能有效地生成多样化和描述性的字幕。我们的（IR）在检索性能方面具有优势，BLEU和CIDER分数与MLE基线相当。我们的（Tdiv）在根据Tdiv，Dist和R@K得分产生多样化和描述性字幕方面表现突出，同时保持较高的SPICE和R@K得分所反映的正确性，尽管与引用重叠的n元语法较少。4.6. 人体评价结果表2显示了我们的模型和几种基线方法的人类评估结果。注意力和堆栈帽是MLE和RL训练的基线方法。其他基线关注的目标与我们在标题的多样性或连续性方面的目标相似与Attention和Stack-Cap相比，我们的三个模型在多样性和描述性方面表现得更好，同时基本保持了流畅性。IS和GAN损害了流畅性和相关性，同时获得了多样性和描述性。CL略微增加多样性和相关性流利多样性描述性关注3.483.882.902.88Stack-Cap3.473.972.912.89是3.413.653.16*3.11*GAN3.323.583.51*3.19*CL3.433.923.06*2.98DiscCap3.67*3.952.872.97Ours（IR，2）3.64*3.933.15*3.14*我们的（Tdiv，0.1）3.79美元 *3.873.54*3.44**我们的（Tdiv，0.3）3.69*3.814.06**3.94美元 **表2.人的评价结果。*和** 分别表示模型的评分在统计学上显著高于注意力基线和所有基线（t检验，p ≤0.05）。Tdiv 距离-3R@1Bleu苹果酒香料W/O第一2.15695724.131.0102.620.0先预训练w/o2.17698523.630.9102.920.3我们的（Tdiv，0.1）2.26781025.031.5105.421.0表3.结果验证了两步法的有效性。描述性。DiscCap提高了相关性分数，与我们的分数相当，但在描述性方面只有很小的提高。与这些相关基线相比，我们的模型在所有四个指标上都取得了令人满意的性能。特别是，我们的（Tdiv）在相关性，多样性和描述性方面取得了比所有基线更好的结果。结果也与他们在SPICE、Tdiv、Dist和R@K等自动指标中的较高得分一致。当句子更长、更多样化时，流感4249第一个输出更高。同时，我们的最终输出句子更加多样化，并获得了更高的SPICE评分。表4.第一步输出（第一解码）和最终输出（第二解码）的比较（Tdiv，= 0. ①的人。4.7. 模型分析参数的影响：超参数控制在一个选定的释义对（Ci，Cj）中Ci和Cj在评分函数方面有多大的差异这也影响了P中释义对的数量。表1中的自动结果表明，随着Tdiv评分的增加，功能将导致更高的多样性和连续性，注意：一个人骑着摩托车在路上Ours（IR）：一个人骑着摩托车参加比赛我们的（Tdiv）：一个人骑着摩托车在一堆干草旁边的路上行驶人类：一个人骑着摩托车在干草堆注意：一张飞机的黑白照片我们的（IR）：一架飞机坐在一个跑道和地面上的人我们的（Tdiv）：一张黑白照片，一架飞机停在机场，周围站着很多人较低的BLEU和CIDEr分数，因为Ci和人类：一架机翼下有人的飞机多样性中的Cj在增加。之间存在折衷多样性和n-gram精度。改变超参数是控制权衡的一种方式。更高的 BLEU 鼓励多样性（具有更高的Dist/R@K ），导致更少的 n-gram 重叠（更低的BLEU/CIDER）。除了在R@K和Dist中得分较高外，我们的（Tdiv）在SPICE中与Δ的变化一致。表2表明，我们的（Tdiv，0.3）在多样性和描述性方面的得分比我们的（Tdiv，0.1）高得多，在相关性和流畅性方面的得分略低。两步解码过程的有效性：考虑到在保持正确性的同时直接生成更多样化和描述性的字幕是困难的，我们的模型采用了两步解码策略。我们通过表3所示的实验评估了两步法的有效性。我们以我们的（Tdiv，0.1）为例，并将其与仅使用一步解码的两个基线进行比较。基线（w/o first）仅使用具有较高Tdiv分数的选定对（Ci，Cj）中选定的第二阶段字幕Cj进行训练，因此它使用与我们模型中LSTM2另一个基线（预训练，首先w/o）首先在全训练集上预训练基于注意力的字幕模型，然后仅使用具有较高Tdiv分数的第二阶段字幕表3中的实验结果表明，基线模型生成的句子多样性和描述性较低，Tdiv、Dist-3和R@1得分低于我们的模型。此外，在没有两步过程的情况下，字幕的正确性也受到影响，导致传统指标和R@1中的所有较低分数。两个解码步骤的输出比较：表4比较了来自我们的两阶段解码模型的第一步输出（第一解码）和最终输出（第二解码）的结果（Tdiv，Tdiv=0. ①的人。由第一阶段生成的初步字幕但是BLEU和CIDER的得分图3.由不同模型生成的字幕示例和COCO测试集的人工编写字幕。4.8. 示例图3显示了带有由Attentionbaseline模型生成的标题的示例图像，Ours（IR，2）和Ours（Tdiv，0.3）。不同颜色的标题元素表示图像的不同详细描述。我们的模型描述了更多样化的表达使用短语，如停在机场和更详细的描述，如一堆干草的重要部分的图像。由注意基线生成的字幕正确，但缺乏多样性和连贯性。更多的例子可以在补充材料中找到。5. 结论在这项研究中，我们专注于提高图像字幕的多样性和连贯性，提出了一个字幕模型，探索视觉释义的作用，以及各种评分功能，以选择有用的段落短语对。我们的模型首先生成一个初步的标题，然后将其释义成一个抛光的标题。我们的模型可以生成更好的字幕与多样性和重复性相比，一些国家的最先进的模型，同时保持正确性。我们将在未来探索更好的评分功能和网络架构。确认本课题得到了国家自然科学基金（61772036）和出版业科技与标准重点实验室（智能出版媒体技术重点实验室）的资助。我们感谢杨鹏程和匿名评论者的有益评论。万晓军为通讯作者。Tdiv距离-3R@1Bleu苹果酒香料关注1.78497219.235.0109.819.9第一次解码1.72446819.635.4110.719.9二解码2.26781025.031.5105.421.04250引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. SPICE：语义命题图像帽评价。欧洲计算机视觉会议。施普林格，2016年。五、七[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE国际计算机视觉会议上，2018年。二、五[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2014年国际学习代表会议上。二、三[4] Rahul Bhagat 和 Eduard Hovy 。什么是释义？Computational Linguistics，39（3）：463-472，2013.一、二[5] Jianfu Chen ， Polina Kuznetsova ， David Warren ， andYejin Choi. De´ jaimage-captions：一个重复表达描述的语料库在计算语言学协会北美分会2015年会议记录中：人类语言技术，第504-514页，2015年。2[6] ChenhuiChu，MayuOtani，andYutaNakashima.iParaphras- ing：通过图像提取视觉上接地释义。在2018年国际计算语言学会议上。2[7] Bo Dai，Sanja Fidler，Raquel Urtasun，and Dahua Lin.通过有条件的GAN实现多样化和自然的图像描述。IEEEInternational Conference on Computer Vision ，2017。二、六[8] 戴波和林大华。图像加帽的对比学习。神经信息处理系统的进展，第898-907页，2017年。二、四、六[9] Aditya Deshpande ， Jyoti Aneja ， Liwei Wang ，Alexander G. Schwing，and David A.福赛斯多样化和可控制的图像字幕与词性指导。arXiv预印本arXiv：1805.12589，abs/1805.12589，2018。二、三[10] Jeff Donahue，Lisa Anne Hendricks，Marcus Rohrbach，Sub- hashini Venugopalan ， Sergio Guadarrama ， KateSaenko，and Trevor Darrell.用于视觉识别和描述的长期递归卷积IEEE计算机视觉和模式识别会议，2015。2[11] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。英国机器视觉会议（BMVC），2018年

下载后可阅读完整内容，剩余1页未读，立即下载