基于引导对象的图像字幕生成方法的研究及其在MSCOCO数据集上的实验

145 浏览量更新于2023-10-18 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8395具有引导对象的清华大学zhengy17@mails.tsinghua.edu.cn，{liyali13，wgsgj}@tsinghua.edu.cn摘要虽然现有的图像字幕模型可以使用递归神经网络（RNN）产生有希望的结果，但很难保证我们关心的对象例如，在对象在图像中不显眼的情况下，当这些目标在训练阶段没有出现时，问题变得更加困难。本文提出了一种新的基于引导对象的图像字幕生成方法（CGO）.当对象在图像中时，CGO约束模型以涉及CGO确保对象在生成的描述中，同时保持流畅性。我们不是从左到右生成序列，而是从一个选定的对象开始描述，然后基于这个对象生成序列的其他部分。为了实现这一目标，我们设计了一个新的框架，结合两个LSTM在相反的方向。我们在MSCOCO上展示了我们方法的特点，在MSCOCO上我们为图像中的每个检测到的对象生成描述通过CGO，我们可以将描述的能力扩展到图像标题标签中被忽略的对象，为图像提供一组更全面、更多样的描述。CGO在描述新物体时显示出优势我们展示了MSCOCO和ImageNet数据集上的实验结果。评估表明，我们的方法优于国家的最先进的模型在任务中的平均F1 75.8，导致更好的描述内容的准确性和流畅性。1. 介绍生成图像的描述，即图像captioning，是计算机视觉中具有挑战性的任务。它可以用于许多实际应用，如机器人场景理解和视障用户的辅助系统。在过去的几年里，深度神经网络被广泛用于图像字幕[25，12，40，17，3]，通常实现流畅和准确的描述。图1.现有的图像字幕模型从左到右生成的去重。我们的CGO方法开始生成一个选定的对象。CGO使我们能够将所选择的对象精确地纳入描述中，并为图像生成一组多样而全面的描述。使用的数据集，例如，MSCOCO [21].然而，它们在生成过程的控制方面受到限制。例如，一幅图片可能包含许多对象，但一个描述句通常只包含一个或少量对象，如图所示。1.虽然我们可以用现有的方法准确地分类或检测图像中的对象[13，36，32]，但我们不能强迫语言模型描述我们关心的对象。这在实践中可能很重要，因为可以针对特定对象查询模型。在训练数据中没有看到对象的情况下，在描述中包含新对象甚至更难最近的几部著作研究了描述新奇物体的任务，但这仍然是一个悬而未决的问题。在本文中，我们提出了一种新的方法，产生图像字幕与指导对象（CGO）。CGO可以确保用户选择的引导对象包含在流畅的描述中所选对象可以是从图像中检测到的任何对象，即使它在图像字幕训练数据中不可见。在当前的图像字幕工作中，编码器-解码器结构被最广泛地使用，并且经常使用递归神经网络（RNN）作为语言模型来生成8396的双曲正切值。在当前方法中，描述通常从左到右逐个地生成为词序列。CGO是建立在编码器-解码器结构上的，但CGO不是从左到右生成序列，而是基于所选对象生成句子。我们称它们为引导对象，因为它们在生成过程中引导序列的内容引导对象是我们想要包含在描述中的对象。它可以出现在序列中的任何位置。我们设计了一个新的框架，结合两个LSTM [14]来生成对象周围序列的左部分和在这个过程中，重要的是两个序列的内容是连贯的。在CGO中，每个LSTM对序列的另一部分的信息进行编码，然后根据编码序列和图像的视觉特征生成序列。这有助于两个序列与引导对象流畅地连接。它还使我们能够通过向LSTM提供不同的信息序列来为每个选定的对象生成多个不同的描述。一些关于图像标题任务的早期工作是基于模板的方法[20，11]。这些方法从图像中检测视觉概念并直接填充到模板中。虽然这使我们能够控制描述中所选对象的存在在CGO方法中，引导对象不经历编码-解码过程，因此它的行为类似于基于模板的方法。同时，由于两边的序列都是由LSTM生成的，所以与模板方法相比，句子可以更加流畅和这使得CGO更好地处理新对象字幕任务。在本文中，我们首先展示了我们的方法的特点MSCOCO生成的描述，每个检测到的对象在图像中。通常，在图像标题标签中仅提及每个图像中的对象的一小部分。然而，使用CGO，我们可以将描述的能力扩展到被忽略的对象，从而为图像提供一组更全面和多样化的描述（如图1所示然后，我们将CGO应用于新的我们在MSCOCO数据集上测试了我们提出的方法，并展示了为ImageNet [34]对象生成的描述实验表明，我们的方法在多个评估指标上优于最先进的模型，如METEOR [8]，CIDEr [37]，SPICE [2]和新对象F1分数。生成的描述在内容准确性和流畅性方面都2. 相关工作图像字幕。在早期的图像字幕研究中，基于模板的模型[20，11]或基于检索的模型[10]被普遍使用。基于模板的模型从给定图像中检测视觉概念，并将其填充到模板来组成句子。因此，各代人通常缺乏多样性。基于检索的模型从现有的句子中找到最一致的句子，并且不能生成新的描述。在最近的工作中，具有深度神经网络的编码器-解码器的结构被广泛使用[40，17]。在[43，12，23]中，注意机制被用来使语言模型在每个时间步关注图像的不同区域。在[31，33，22，45]中，强化学习算法被应用于训练语言模型，使不可微的度量能够用作训练目标。各种描述。生成过程的可控性和描述的多样性是近年来研究的基于GAN的方法[6，35]和基于VAE的方法[15，41]用于改进潜水员。描述的真实性和准确性。在[26]中，生成的句子可以包含不同主题的单词。[9]提出了一种约束生成句子中词的词性的方法。与CGO不同的是，这些方法不能精确地控制对象在描述中的包含[7，6]研究了为图像生成描述性段落[16]为图像中的每个语义信息区域生成描述。这些方法需要在数据集中附加标签，例如。[19]第十九话CGO方法不需要额外的标签。利用CGO技术对图像进行整体描述，使对象之间的关系更加丰富。描述新奇的事物。新的对象字幕任务首先由Hendricks等人提出。[5]的文件。所提出的模型DCC是需要描述对象看不见的过程中，训练在NOC [38]中，联合目标用于一起训练对象分类器和语言模型。 LSTM-C [44]在NLP中应用复制机制，将新单词合并到一代中。NBT和DNOC [24，42]使用语言模型来生成具有插槽或占位符的模板，然后用从图像中识别的对象填充它们。与[5，38，44，24，42]不同，CGO中的语言模型不会预测新对象，因此可以在句子中精确地包含新单词。CBS [1]通过在波束搜索过程中添加约束条件来约束生成句子中包含的对象。与CBS不同，CGO在解码时，新词语不参与概率的计算。NLP研究中的一些作品[29]也使用了用约束词生成句子的方法3. 方法给定图像，CGO能够将所选择的引导对象合并到生成的句子中。在该过程中，两个LSTM被组合以生成引导对象两侧的部分序列。我们使用LSTM-L来表示生成序列左半部分的LSTM，使用LSTM-R来表示生成序列的另一个LSTM。8397权图2.我们的CGO方法。我们根据对象分类器的输出选择引导对象和对象序列。对象序列用作LSTM-L的输入，提供关于假定的右侧序列的信息。LSTM-L根据视觉特征和输入对象序列生成左侧序列。然后将生成的左侧序列用作LSTM-R的输入以生成右侧序列。然后将两个部分序列与引导对象连接起来，得到完整的描述。正确方向CGO可以灵活地应用于其他现有的RNN语言模型。3.1. 问题公式化在常用的编码器-解码器模型中，卷积神经网络（CNN）[36，13]通常用作编码器。然后将表示来自CNN的图像信息的视觉特征像LSTM这样的RNN通常被用作解码过程中的语言模型。给定图像I，我们的目标是生成序列y =（y1，y2，.，y T）用于描述，其中T表示序列的长度，y i是一个字ft=fat（4）其中，t表示在时间步长t处的注意力权重映射，并且m表示逐元素乘法。计算注意力权重的函数ATT的形式随时间变化。不同的注意力机制。如果我们希望生成的序列包含一个特定的单词，序列成为y=（y1，…y k−1，y k，y k+1，.，yT），其中y k是特定的词。此时，模型输出取决于图像I和单词yk。模型参数被训练为在模型词汇表中。词汇量的大小是V。表示编码器-解码器模型中的参数θθ= argmax p（y）左|I, yk,θ)p(y∗|I, yk, θ)(5)学习过程的目标是找到最佳θ其中，y1∈t=（y1，...， yk−1）和yright=（yk+1，.，yT）。使得∗左∗权是真实的部分序列。θ= argmax p（y）|I，θ）（1）其中，θe表示优化的模型参数，γe表示地面真值序列。当LSTM被用作语言模型时，在每个时间步t，它预测概率。根据图像特征ft，该时间步的输入wordxt和时间t-1的LSTM的隐藏状态ht-1，序列中下一个单词的能力。xt属于模型词汇表。p（yt|y1，...，yt−1）=LST M（ft，xt，ht−1）（2）在不同的模型设置下，图像特征是不同的。在某些模型中，例如， NIC [40]中，图像特征f仅在时间步长t= 0时提供给语言模型。使用注意力机制的模型将在每个时间步长t使用关注图像特征，at=ATT（xt，ht−1）（3）y和y8398右侧部分序列yright可以是任意的长度我们以相反的方向组合两个LSTM，完成yk两边的序列。3.2. LSTM L对于给定的图像I 和单词yk ，我们首先使用LSTM-L 生成左侧部分序列。在每个时间步t，LSTM-L预测以图像特征ft为条件的前一个单词、输入单词xt和隐藏状态ht+1。p（yt|yt+1，.，yk）=LST ML（ft，xt，ht+1）（6）然而，在这一过程中存在问题。一个图像通常包含多个对象。这些对象可以在描述中以不同的顺序排列。例如，“桌子上有一个苹果和一根香蕉”和“桌子上有一根香蕉和一个苹果”都是正确的描述。这两句话可能出现在地面实况中8399不不不权R一张图片与此同时当LSTM-L只提供yk时，它将不知道右侧部分序列（图3（a））。在实验中，我们发现该模型会倾向于输出一个一般的和保守的结果，如“香蕉”在这样的过程中。它通常语法正确，但缺乏变化。相反，在人类生成的描述中，各种对象会出现在左侧部分序列中。要描述的对象通常在我们说话之前就决定好了。同样，在图像字幕中，我们可以在生成描述之前获得关于图像中对象的足够信息。因此，我们首先假设一组对象将出现在描述中，并设置这些对象的排列顺序。然后我们可以得到一个对象标签序列，假设它出现在右侧序列中。我们表示对象标签序列当S={对象1，...，对象m}，其中m是S中对象的数量，可以任意选择。 S中的对象不会出现在LSTM-L生成的序列中，但它们会影响序列中的内容（图1）。第3（b）段）。硒图3. (a)在引导对象(b)对象标签序列用作LSTM-L的输入，提供有关右侧序列的信息。当输入序列不同时，LSTM-L生成不同的左侧序列。简单地遵循训练从左到右生成句子的正常LSTM的过程。给定图像和选定yk的训练损失在这两个过程ΣT序列S被用作LSTM-L的输入，并在是的。LSTM-L现在根据图像I、假定序列S和yk生成序列。p（yt|yt+1，.，yk，S）=LST ML（ft，xt，ht+1）（7）正常损耗=−LSTM损失−R=−t=0ΣTlogp（y*|y0，.， yt−1）（10）logp（y*|y0，.， yt−1）（11）类似于正常的生成过程，当预测词是结束标签END>时，左侧序列完成，句子到达开始。在训练时，我们从地面实况字幕标签中随机选择一个对象作为yk，然后从yk右侧的部分句子中提取S。句子的左部分被提供给LSTM-L作为地面真值序列。对于给定的图像，我们最小化模型的交叉熵损失。k−1损失= −logp（y）|yt+1，.，（八）t=0注意，损失仅针对所生成的左侧部分序列计算，即在早于t=k的时间步处的输出。3.3. LSTM RLSTM-R从LSTM-L得到句子的左半部分序列后，将该序列作为输入，完成句子的另一部分。该模型现在被训练成t=k+1其中Lossnormal和LossLSTM-R表示两个过程中的损失请注意，Lossnormal比LossLSTM-R有更严格的限制。生成一个完整句子的过程可以看作是一个特殊的情况，输入序列的长度为零。另一方面，使用完整序列训练的LSTM允许我们更灵活地使用模型。当在图像中没有检测到对象时（例如，一张蓝天的图片），或者当描述中没有要求包含对象时，我们可以使用LSTM-R作为正常的语言模型，并从时间步长t=0开始。在这种情况下，该过程被简化为正常过程，并从左到右生成句子。我们的方法可以应用于所有类型的RNN语言模型的图像字幕。在推理过程中，可以使用各种解码方法，包括贪婪采样和波束搜索方法。3.4. 小说词语嵌入在编码过程中，输入词x t被表示为独热向量xt，然后嵌入学习参数Wx。嵌入向量Wxxt被用作时间步t处的语言模型的输入。在训练过程中看不到的单词将不会由局域网生成= argmax p（y|I, yleft, yk, θ)(9)在进行推理时使用语言模型。在CGO方法中，当一个新的对象被选为实际上，我们不需要将表单中的标题标签作为右侧部分序列处理。相反，我们可以引导对象，我们可以简单地使用来自另一个与此对象相似的可见对象一θ8400图4.所选对象的说明示例显示在左列中。CGO结果中每行开头的对象表示用于该描述的指导词。地面实况标签中包含的对象为蓝色，其他为绿色。右栏显示了固定引导对象的各种描述示例。可以根据WordNet [28]或word2vec中单词嵌入向量之间的[27]或GloVe [30]。在正常的从左到右生成过程中，使用来自相似对象的嵌入向量不能强制语言模型生成新单词。然而，使用CGO，由于新单词直接包含在生成的句子中，而不需要经过编码-解码过程，因此我们不需要语言模型来预测新单词。相反，新单词仅在编码过程中使用，并且来自相似对象的嵌入结果在该过程中是足够的。3.5. 模型细节标题模型。在我们的实验中，我们使用自下而上和自上而下的注意力模型（Up-Down）[3]作为我们的基础模型。LSTM-L和LSTM-R都是Up-Down模型。在我们的实验中，我们使用[4]中的预训练模型特征。它是从基于ResNet-101 [13]构建的Faster R-CNN模型中提取的，并在MSCOCO和Visual Genome上进行了预训练。对象分类器。给定图像中的对象可以用现有的对象检测模型或对象分类器来识别。在我们的实验中，我们遵循以前的工作[5，1]，使用多标签分类器来确定对象是否出现在图像中我们对MSCOCO目标检测数据集中的80个目标类别进行了我们在分类器中使用与语言模型中相同的功能。4. 实验和结果在本节中，我们将展示CGO将选定对象合并到描述中的能力在4.1和4.2小节中，我们通过为图像中的每个选定对象生成描述来款所4.2我们展示了所生成的描述的多样性。在4.3和4.4小节中，我们将CGO方法应用于新对象字幕任务。数据集。在包含123287幅图像的MSCOCO数据集上对模型进行了训练和评估。有80个对象类别标记为对象检测和每个图像标记有5个人类生成的描述图像字幕。我们遵循之前的工作[12]来预处理标题标签，所有标签都转换为小写并标记化。出现少于5次的单词被过滤掉，其余的形成大小为9487的词汇表。我们在4.1和4.2小节中使用了广泛用于图像标题研究的Karpathy分裂[17]。在训练集中使用了113287张图像，在验证集中使用了5000张图像，在测试集中使用了5000张图像。在第4.3小节中，我们使用以下的拆分[5]。详情见第4.3小节。在4.4小节中，我们在ILSVRC 2012验证集上测试了模型，该验证集包含1000个类，每个图像都标有其类别。培训详情。在我们的实验中，对象分类器优化与随机梯度下降（SGD）。学习率设置为1 e-4，每10个epoch衰减0.1。分类器被训练了20个时期。兰-8401选择了2个对象3个对象检测标记1.4824.72.62二十三点五表2.从字幕标签和对象检测标签中选择引导对象的结果。M表示METEOR评分。唯一表示每个固定引导对象的唯一描述的平均数量。表1. 'Base'表示用作基线的基础模型。B指示使用顶部B波束搜索生成。对于CGO，我们使用由对象分类器预测的前k个对象作为指导对象。 Base（caption GT）显示包含至少一个出现在地面实况字幕标签中的对象的CGO（caption GT）显示其指导对象出现在地面实况字幕标签中的描述的得分。CGO（det GT）显示了我们为图像中的每个对象生成描述时的结果（使用对象检测地面真实标签）。平均值表示图像描述中对象类别的平均数量。Average.R表示平均召回率。图5.单个对象类别的召回示例T1和T10表示具有不同数量的选定对象的CGO结果。GT表示地面实况字幕标签的统计结果。B表示基础模型的结果。使用Adam [18]优化量规模型学习率设置为1 e-4，每20个epoch衰减10LSTM-L训练80个epoch，LSTM-R训练40个epoch。4.1. 描述每个选定对象为了证明我们的方法的特点，我们生成一个描述图像中选择的每个对象，得到一组句子描述不同的对象在每个图像。根据目标分类器的输出，选择概率最高的k个目标作为引导目标。我们分别对k=1，3，5，10的模型进行了检验。我们计算了每个图像的描述集中涉及的不同对象类别的平均数量我们还计算了每个对象类别的召回率。也就是说，出现在图像中的对象是否在描述集合中被提及。应当注意，根据对象检测标签来决定对象是否出现在图像中，因为字幕标签通常仅包含出现在图像中的对象的一小部分。基础模型和CGO都是在MSCOCO Karpathy的分裂上训练和测试的[17]。图左栏中显示了示例。4.在表1中，我们显示了使用波束搜索（波束大小=b）作为基线的基础模型生成的结果，以及使用CGO生成的结果。平均回忆是对所有80个对象类别的回忆的宏观平均值。当b=10时，基线模型的平均对象类别数和召回率分别为1.98和0.66。使用CGO，平均数和召回率提高到2.92和0.75（k=10）。我们还计算了地面真实标题标签的平均数量和召回率。当k=5（每幅图像有5个字幕标签）时，CGO的对象召回率为0.73，高于字幕标签的对象召回率（0.61），说明CGO能够描述字幕标签中请注意，尽管基础模型可以用更大的光束尺寸描述更多的对象类别，但它无法控制在过程中描述哪些对象CGO 的 METEOR 得分约为 24.2 ，低于基础模型（26.7）。评估方法仅将结果与地面实况字幕标签进行比较。即使图像中出现的物体被正确描述，如果物体没有出现在地面实况字幕中，分数也会很低。虽然不能用这个分数来精确地评估一代人的流利程度，但这为我们提供了一个粗略的参考。我们还评估了其指导对象出现在地面真值标签中并且METEOR得分为28.0的数据集。这表明，当引导对象在字幕标签的域中时，生成的句子是流畅的图5显示了7个对象的调用示例。与基本模型和地面真实标题标签相比，CGO可以显著提高不显眼物体如“杯子”（从0.15到0.69）和“碗”（从0.21到0.65）的模型流星Avg.Num平均R碱（b=1）26.61.500.55碱（b=3）27.31.680.59碱（b=5）27.11.820.62碱（b=10）26.71.980.66底座（标题GT）27.3--CGO（k=1）24.41.620.50CGO（k=3）24.42.430.67CGO（k=5）24.22.770.73CGO（k=10）24.22.920.75标题GT标签-2.010.61CGO（标题GT）28.0--CGO（det GT）24.23.061.00物体标签唯一M唯一M标题标签1.4726.12.0825.78402模型瓶总线沙发微波披萨球拍行李箱斑马Avg. F1DCC [5]4.629.845.928.164.652.213.279.939.8国家奥委会[38]17.868.825.624.769.368.139.989.049.1LSTM-C [44]29.774.438.827.868.270.344.891.455.7CBS+T4 [1]16.367.848.229.777.257.149.985.754.0NBT + G [24]14.074.842.863.774.419.044.592.053.2DNOC [42]33.076.954.046.675.833.059.584.657.9CGO（我们的）45.079.069.264.687.389.775.895.075.8表3.F1分数的新的对象上的测试分裂。域外分数域内分数模型香料流星苹果酒Avg. F1香料流星苹果酒DCC [5]13.421.059.139.815.923.077.2国家奥委会[38]-21.4-49.1---LSTM-C [44]-23.0-55.7---CBS + T4 [1]15.923.377.954.018.024.586.3NBT + G [24]16.623.984.053.218.425.394.0CGO（po= 0.5）17.723.989.175.818.025.194.7CGO（po= 0.7）17.723.988.275.818.425.395.8CGO（po= 0.9）18.124.290.075.819.626.3103.3表4.使用图像标题度量来评估为域内和域外图像生成的描述 P0是用于选择域内引导对象的阈值。当由对象分类器预测的对象的出现概率超过po时，将其用作引导对象。当多个对象满足要求时，我们选择概率最高的对象4.2. 对每个对象的不同描述在这一部分中，我们展示了CGO的能力，产生不同的描述与一个固定的指导对象。我们从图像中随机选择一个对象作为引导对象，并选择n=1或2个其他对象来形成LSTM-L输入序列。当n=1时，输入序列可以是Guiding object>或Guiding object，Object 1>，“Object1”表示为LSTM-L输入序列选择的对象。在n=2的情况下，我们使用长度为1、2和3的3个不同输入序列进行测试。结果示于表2中。当我们使用从对象检测标签中选择的对象时，2个不同输入的唯一描述的平均数量为1.48，3个不同输入的唯一描述的平均数量为2.62。这表明，即使有一个固定的引导对象，CGO也可以生成不同的描述。图中右栏显示了示例。4.第一章4.3. 新颖的对象字幕在这一部分中，我们证明了CGO的有效性时，应用到新的对象字幕任务。在[5]的基础上，选取了“公共汽车、瓶子、比萨饼、微波炉、沙发、行李箱、球拍、斑马”8个对象类别在训练时，如果图像的标题标签包含新对象，则将图像从MSCOCO 训练集中排除。MSCOCO验证集的一半用作验证集另一半作为测试集。F1评分用于评价包含新对象的准确性。对于每个新的对象类别，如果生成的描述和地面真值标签同时包含对象，则将其视为真阳性。平均F1分数是8个类别的宏观平均值。图像字幕评价指标用于评价生成句子的质量，包括SPICE [2]、METEOR [8]和CIDER [37]。分别对域外图像（包含新对象）和域内图像的描述进行评估与以前的工作类似[5，1]，对象分类器的标签是从标题标签中获得的。在训练分类器时使用完整的训练集，包括包含新对象的图像。如果新对象出现在图像中，则将其用作引导对象。我们根据对象分类器的结果来确定图像中是否出现了新的对象选择使用对象作为引导对象的概率阈值以最大化验证集上的F1得分对于新的单词，我们简单地将它们的单词嵌入向量替换为相同超类别下的其他域内对象，例如。tle结果示于表3和表4中。描述的示例如图所示。6.与现有模型相比，CGO显著提高了新对象的F1得分，平均F1得分为75.8。事实上，输出的F1得分直接降低了-8403图6.为域外对象生成的描述示例（蓝色）。O1→O2表示我们使用O1作为引导对象，该引导对象使用域内对象O 2的词嵌入向量进行编码。错误加下划线。依赖于分类结果的准确性，就像基于模板的模型一样。请注意，在语言模型中使用不同的RNN模型或不同的CNN特征不会影响F1结果。另一方面，CGO利用LSTM语言模型并生成流畅的描述。METEOR分数提高到24.2域外图像和26.3域内图像。我们测试CGO与不同的概率阈值p0为indo-main对象。当对象分类器预测的概率超过阈值时，使用域内对象作为当分类器不能确定图像中包含的对象时，生成过程被简化为通常的从左到右生成过程由于对象分类器与语言模型无关，因此使用更高级的模型（如对象检测模型）可能会在CGO方法中，我们只保证一个选定的对象被提及，但这并不影响其实用性。在许多场景中，新颖的词语并不密集出现，我们图7.为ImageNet对象生成的标题示例（蓝色）。使用CGO，即使对象没有出现在模型词汇表中，它也可以包含在描述在实践中，允许对一个图像使用多个描述。此外，CGO可以与CBS [1]等其他方法结合使用，以在输出中包含更多对象，同时确保在描述中包含指导对象。4.4. ImageNet对象的描述与以前的工作类似 [44 ， 38]，我们展示了描述ImageNet [34]对象的方法的从MSCOCO标题标签中挖掘的词汇表中没有出现的对象对于在MSCOCO上训练的模型来说是新颖的我们使用在Karpathy的训练分割上训练的模型来生成描述。示例如图所示。7和更多的结果的例子可以在Ap-pennis中找到。与第4.3节中的过程类似，单词em-用所看到的对象的嵌入向量来替换新对象的嵌入向量。e.G. “帆船”→“船”。5. 结论我们提出了一种新的图像字幕的方法，句子生成过程从一个选定的指导对象开始。我们的CGO允许我们在生成的句子中包含特定的对象，并以一种丰富多样的方式描述图像。确认本工作得到了国家自然科学基金项目的资助。61701277、61771288和国家“十三五”重点发展项目批准号：2016YFB0801301。8404引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould.带约束波束搜索的引导式开放词汇图像加帽。arXiv预印本arXiv：1612.00576，2016年。[2] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在European Conference on Computer Vi-sion，第382-398页中。施普林格，2016年。[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页[4] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[5] Lisa Anne Hendricks、Subhashini Venugopalan、MarcusRohrbach 、 Raymond Mooney 、 Kate Saenko 和 TrevorDarrell。深度合成字幕：在没有配对训练数据的情况下描述新的对象类别。在IEEE计算机视觉和模式识别会议论文集，第1-10页[6] 戴波，桑雅菲德勒，拉奎尔乌塔孙，林大华。通过有条件的组来实现多样化和自然的图像描述。IEEEInternational Conference on Computer Vision ，2017。[7] Moitreya Chatterjee和Alexander G Schwing。从图像生成多样在欧洲计算机视觉会议（ECCV）的会议记录中，第729-744页[8] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估第九届统计机器翻译集，第376-380页，2014年[9] Aditya Deshpande ， Jyoti Aneja ， Liwei Wang ，Alexander Schwing，and David A Forsyth.多样化和可控的图像字幕与词性指导。 arXiv 预印本 arXiv ：1805.12589，2018。[10] Jacob Devlin，Cheng Hao，Fang Hao，Saurabh Gupta，Deng Li，Xiaodong He，Geoffrey Zweig，and MargaretMitchell.图像字幕的语言模型：怪癖和什么工作。计算机科学，2015年。[11] 德斯蒙德·埃利奥特和阿扬·德·弗里斯。使用推断的视觉依赖表示来描述图像。在第53届计算语言学协会年会和第 7届自然语言处理国际联合会议（第 1 卷：LongPapers），第1卷，第42-52页，2015年。[12] Hao Fang，Saurabh Gupta，Forrest Iandola，Rupesh KSri-vast av a ， LiDeng ， PiotrDoll a´r ， JianfengGao ，XiaodongHe，Margaret Mitchell，John C Platt，et al.从标题到视觉概念再到后面。在Proceedings of the IEEEconference on computer vision and pattern recognition，第1473-1482页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[15] Unnat Jain，Ziyu Zhang，and Alexander G Schwing.相关性：使用变分自动编码器生成不同的问题。在CVPR中，第5415-5424页[16] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap：用于密集字幕的全卷积定位网络在IEEE计算机视觉和模式识别会议论文集，第4565-4574页[17] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition，pages 3128[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32[20] Girish Kulkarni ， Visruth Premraj ， Vicente Ordonez ，Sag-nik Dhar ， Siming Li ， Yejin Choi ， Alexander CBerg，and Tamara L Berg. Babytalk：理解和生成简单的图像描述。IEEE Transactions on Pattern Analysis andMachine Intelligence，35（12）：2891-2903，2013.[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[22] Siqi Liu，Zhenhai Zhu，Ning Ye，Sergio Guadarrama，and Kevin Murphy.通过蜘蛛的策略梯度优化改进图像字幕正在进行IEEE国际配置文件Vis，第3卷，第3页，2017年。[23] Jiasen Lu ，Caiming Xiong，Devi Parikh，and RichardSocher. 知道什么时候看：自适应注意力通过视觉sentinel图像字幕。在IEEE计算机视觉和模式识别会议论文集（CVPR），第6卷，第2页，2017年。[24] Jiasen Lu，Jianwei Yang，Dhruv Batra，and Devi Parikh.神经宝宝的谈话。在IEEE计算机视觉和模式识别会议论文集，第7219- 7228页[25] Junhua Mao，Wei Xu，Yi Yang，Jiang Wang，ZhihengHuang，and Alan Yuille.使用多模态递归神经网络（m-rnn）的深度字幕arXiv预印本arXiv：1412.6632，2014。[26] 毛宇钊，周昌，王晓杰，李瑞凡。显示和告诉更多：面向主题的多句子图像字幕。在IJCAI，第4258-4264页8405[27] Tomas Mikolov，Kai Chen，Greg Corrado，and JeffreyDean.向量空间中词表示的有效估计。arXiv预印本arXiv：1301.3781，2013。[28] 乔治·米勒。WordNet：一个电子词汇数据库。麻省理工学院出版社，1998年。[29] Lili Mou，Yiping Song，Rui Yan，Ge Li，Lu Zhang，and Zhi Jin.序列到向后和向前序列：生成式短文会话的内容导入法。arXiv预印本arXiv：1607.00970，2016年。[30] 杰弗里·潘宁顿，理查德·索彻，克里斯托弗·曼宁.Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1532-1543页，2014年。[31] Marc'Aurelio Ranzato ， Sumit Chopra ， Michael Auli ，and Wojciech Zaremba.递归神经网络序列级训练。arXiv预印本arXiv：1511.06732，2015。[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[33] Steven J Rennie、Etienne Marcheret、Youssef Mroueh、Jarret Ross和Vaibhava Goel。图像字幕的自我批判序列训练CVPR，第1卷，第3页，2017。[34] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ，

下载后可阅读完整内容，剩余1页未读，立即下载