图像描述基于标注数据集：这类方法使用与图像相关的大型标注数据集，如MSCOCO[23]，来训练语言模型，以学习生成图像描述的能力[2，5，8，9]

113 浏览量更新于2023-10-16 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1万能钥匙：基于小波-属性分解的图像字幕王宇飞1林哲2沈晓辉2斯科特科恩2加里森W。科特雷尔11加州大学圣地亚哥分校{yuw176，gary}@ ucsd.edu2Adobe研究{zlin，xshen，scohen}@adobe.com摘要最近，人们对自动生成图像的描述产生了很大的兴趣。大多数现有的语言模型为基础的方法，这项任务学习生成一个图像描述的词，在其原始的词序逐字。然而，对于人类来说，首先定位对象及其关系，然后详细说明每个对象，描述显着的属性是更自然的。提出了一种由粗到精的方法，将原始图像描述分解为骨架句及其属性，并分别生成骨架句和属性短语。通过这种分解，我们的方法可以生成比以前的最先进的更准确和新颖的描述。在MS-COCO和更大规模的Stock 3M数据集上的实验结果表明，该算法在不同的评价指标上都得到了一致的改进，特别是在SPICE指标上，该指标与人类评分的相关性比传统指标高得多。此外，我们的算法可以生成不同长度的描述，受益于骨架和属性的单独控制。这使图像描述生成更好地适应用户的喜好。1. 介绍自动生成图像描述或图像字幕的任务在计算机视觉界引起了极大的关注。这个问题是具有挑战性的，因为描述生成过程需要理解超出简单对象或场景识别的高级图像语义，以及生成语义和句法正确的句子来描述重要对象、它们的属性和关系的能力图像字幕方法通常分为三类。第一类基于检索来解决这个问题：给定一个查询图像，系统在数据库中搜索视觉上相似的图像，从最近邻帽中找到并传输查询图像描述的最佳描述[11，20，26，34]。图1：我们的粗到细字幕算法的推理阶段与属性分解的插图首先，生成描述对象和关系的骨架句子。然后重新访问对象并生成每个对象的属性。第二类通常使用基于模板的方法来生成遵循预定义语法规则的描述[17，25，28，14，46，32]。最近的工作属于第三类：基于语言模型的方法[16，42，45，12，31，23]。受机器翻译任务[37，3，7]的启发，要描述的图像被视为源语言中的与机器翻译不同，源因此，自然编码器是卷积神经网络（CNN）而不是递归神经网络（RNN）。从CNN编码器-RNN解码器的基本形式开始，已经有许多尝试来改进系统。受机器翻译成功的启发，长短期记忆（LSTM）网络被用作[42，12]中的解码器。Xu等[45]添加一个注意力机制，学习注意图像的部分以进行单词预测。还发现，提供高级属性而不是CNN特征会产生改进[47，44]。尽管方法不同，但大多数现有的基于LSTM的方法都存在两个问题：1）它们倾向于从训练语料库中鹦鹉学舌地重复句子，并且在生成的标题中缺乏变化[10];2）由于句子生成中的逐词预测过程，在它们所指的对象之前生成了致敬。在一个完整的句子中，属性、主题和关系的混合会在训练样本中产生很大的变化，这会影响训练的有效性。72727273为了克服这些问题，在本文中，我们提出了一种由粗到精的算法，以两阶段的方式生成图像描述：首先，生成图像描述的骨架句，包含图像中涉及的主要对象以及它们之间的关系。然后，在第二阶段中使用注意力重新访问对象，并且如果每个对象的属性值得提及，流程如图1所示。通过分别处理骨架和属性，系统能够生成更准确的图像字幕。我们的工作也受到一系列认知神经科学研究的启发。在视觉处理（如物体识别）过程中，两种类型的机制起着重要作用：首先，投射到额叶的快速皮层下通路对图像进行粗略分析，对物体进行分类[5，15，18]，这为腹侧颞叶[40，6]中较慢的皮层通路提供了自上而下的反馈，该通路从低水平区域到高水平区域进行，认出一个物体。自上而下机制的确切方式尚未完全理解，但Bar [4]提出了一个假设，即低空间频率特征触发了对物体的快速类似于该对象识别过程，我们的图像字幕处理也包括两个阶段：1）图像中主要对象及其关系的快速全局预测，以及2）对象式属性描述。由第一阶段预测的对象被反馈，以帮助自底向上的属性生成过程。同时，这一思想也得到了基于对象的注意力理论的支持。基于对象的注意力提出，视觉输入的感知分析首先将视觉场分割成单独的对象，然后在焦点注意阶段，更详细地分析特定对象[33，13]。本文的主要贡献如下：第一，我们是第一个划分的图像字幕任务，这样的骨架和属性分别预测。其次，我们的模型提高了性能一贯对一个非常强大的基线，优于发表的国家的最先进的结果。对最近提出的SPICE [1]评价指标的改进是显著的。第三，我们还提出了一种机制，使用一个单一的模型生成可变长度的图像描述。从粗到细的系统自然受益于这种机制，具有分别改变标题的骨架/属性部分的能力。这使我们能够根据用户偏好调整图像描述生成，其中描述包含不同数量的对象/属性信息。2. 相关工作现有的图像字幕方法基于检索的方法搜索视觉上类似的图像输入im。年龄，并从检索到的图像标题中找到最佳标题例如，Devlinet al.在[11]中提出了一种K-最近邻方法，该方法找到最能代表从相邻图像中收集的候选字幕集的字幕该方法存在一个明显的问题，即生成的字幕总是来自现有的字幕集，因此无法生成新的字幕。基于模板的方法从预定义的模板生成图像字幕，并使用检测到的对象、场景和属性填充模板。Farhadi等人[17]使用单个对象、动作、场景三元组来表示字幕，并分别学习从图像和句子到三元组意义空间的映射。Kulkarni等人[25]检测图像中的对象和属性以及它们的介词关系，并使用CRF来预测包含这些对象、修饰语和关系的最佳结构在[27]中，Lebretet al.从图像中预测短语，并将它们与简单的语言模型相结合以生成描述。这些方法严重依赖于模板或简单的语法，因此生成刚性标题。基于语言模型的方法通常学习图像和字幕的公共嵌入空间，并生成新颖的字幕，而没有许多严格的语法约束。Kiros和Zemel [22]提出了以图像特征为条件的多模态对数双线性模型。毛等al. [31]提出了一种多模态递归神经网络（MRNN），它使用RNN来学习文本嵌入，并使用CNN来学习图像表示。Vinyals等人[42]使用LSTM作为解码器来生成句子，并将图像特征作为输入直接提供给LSTMXu等[45]进一步介绍了一个基于注意力的模型，可以学习在生成相应单词的同时看哪里。You等人[47]使用预先生成的语义概念建议来指导字幕生成，并学习在不同的时间步长选择性地关注那些概念。类似地，Wuet al. [44]还表明，更高级别语义特征可以提高字幕生成性能。我们的工作也是基于语言模型的方法。不像基于LSTM的方法，试图提供一个更好的图像表示的语言模型，我们专注于标题本身，并显示如何打破原来的词序在一个自然的方式可以产生更好的性能。分析句子的图像字幕句子的分析是根据一组语法规则分析句子并生成表示句子句法结构的有根解析树的过程[24]。有一些基于语言模型的工作可以解析标题以获得更好的句子编码。例如，Socheret al.[36]提出了依赖树-RNN，它使用依赖树将句子嵌入到向量空间中，然后使用嵌入的向量执行字幕检索。不幸的是，该模型无法生成新颖的句子。7274图2：所提出的算法的总体框架。在训练阶段，对训练图像字幕进行分解和相应的属性。训练一个Attr-LSTM来基于图像中的主要对象及其关系生成骨架，然后Attr-LSTM为每个骨架词生成属性。最接近我们自己的工作是Tan和Chan提出的分层LSTM模型[39]。他们将标题视为名词短语和其他单词的组合在推理阶段，首先用较低级别的LSTM生成K个图像相关短语。然后，上层LSTM生成包含“名词短语”token和其他单词的句子当生成名词短语时，从短语池中选择合适的这项工作与我们的工作有关，因为它也试图打破标题的原始语序。然而，它在上层LSTM中直接用一个单词“短语令牌”替换短语，此外，图像中的短语是在句子生成之前生成的，而不知道句子结构或要注意的位置。图像字幕生成的评估与任务本身一样具有挑战性Bleu [35]、CIDEr [41]、METEOR [9]和ROUGE [29]是用于评估大多数图像字幕基准（如MS-COCO和Flickr30 K）的常用标准。然而，这些度量对n-gram重叠非常敏感，这可能不一定是测量图像描述的质量的好方法。最近，Andersonet al. [2]介绍了一种称为SPICE的新评估度量，克服了这个问题。SPICE使用基于图的语义表示来编码图像中的对象、属性和关系他们表明，SPICE有一个更高的相关性与人类的判断比传统的评价指标。在我们的工作中，我们评估我们的结果使用传统的度量和新的SPICE度量。我们还展示了像“a”这样不重要的词如何3. 该模型我们的模型的整体框架如图2所示。在训练阶段，地面实况字幕被分解为骨架句子和属性，用于两个单独的网络的训练。在测试阶段，生成给定图像的骨架语句，然后生成以骨架语句为条件的属性。然后将它们合并以形成最终生成的帽。3.1. 标题的骨架属性分解为了从训练图像标题中提取骨架句子和属性，我们使用斯坦福选区解析器[24，30]。如图2所示，解析器从原始标题中构造一个选区树，而节点按层次结构形成不同类型的短语。常见的短语类型有名词短语（NP）、动词短语（VP）、介词短语（PP）和形容词短语（AP）。为了提取骨架句中的宾语，我们找到最低级别的NP，并保留短语中的最后一个词作为骨架宾语词。在同一个名词短语中，它前面的词是描述这个骨架对象的属性。其他类型的最低层次短语保留在骨架句中。有时，很难判断名词短语中除了最后一个词之外的所有词是否例如，短语我们应该保留本文不区分名名复合词我们的经验是，粗到细网络可以学习对应关系，尽管严格来说它们不是属性-对象对。7275不不3.2. 从粗到细的LSTM我们使用从CNN中提取的高级图像特征作为语言模型的输入。对于解码器部分，我们的粗到精模型由两个LSTM子模型组成：一个用于生成骨架句子，另一个用于生成属性。我们将这两个子模型分别表示为Attr-LSTM和Attr-LSTM。EST-LSTMEST-LSTM在给定图像特征的情况下预测骨架句子。我们在[45]中采用基于软注意力的LSTM来实现EST-LSTM。CNN图像特征中保留了空间信息，并且在每个时间步都学习了注意力图，以将注意力集中到而不是只关注当前的单个骨架词。我们尝试将来自不同时间步的骨架隐藏激活馈送到Attr-LSTM中，包括前一个时间步，当前时间步和最终时间步，并发现当前时间步隐藏激活产生最佳结果。此外，正如在EST-LSTM中提到的，我们使用基于注意力的图像特征来鼓励属性预测器关注当前的骨架词，而不是使用全局图像特征作为输入。我们在第一时间将Attr-LSTM的输入公式化为一个多层网络，该网络融合了不同的信息嵌入空间：x−1=MLP（WIzT+Wtsskel+Whhskel）（5）T T预测当前的单词。我们表示位置（i，j）∈L×L处的图像特征为v∈RD。表示时间步t其中T是当前骨架词的时间步长，zT∈RD是图像特征的注意力加权平均，ijsskel∈Rms是骨架词在时间作为归一化权重αij，t，由多层per计算不斯凯尔;ceptron以前一个隐藏状态ht-1为条件。αij，t=Softmax（ MLP（vij，ht-1））（1）然后，时间t处的上下文向量zt被计算为：Σzt=αij，tvij（2）i、j然后将上下文向量馈送到当前时间步长LSTM单元以预测即将到来的单词。T，hT∈Rs 是LSTM中的隐藏状态，维数ns ms和ns是Skel的维数，LSTM字嵌入和LSTM单元。W1、Wt、Wh是学习参数。Attr-LSTM的其余输入与公式4相同。Attr-LSTM框架如图2所示。在训练阶段，地面真值骨架句子被输入到EST-LSTM中，sskel是地面真值骨架单词嵌入。在测试阶段，sskel是嵌入-与[45]不同，在我们的模型中，注意力地图αij，t不是仅用于预测当前的骨架词，还可以指导属性预测：对应于骨架词的属性描述了相同的骨架对象，我们从ATTR-LSTM中获得的注意力信息可以在ATTR-LSTM中重用，以指导我们去哪里看。在生成骨架句子之后，Attr-LSTM预测每个骨架单词的属性序列Attr-LSTM不是为一个对象单独预测多个属性词，而是可以从整体上预测属性序列，自然地照顾属性的顺序。Attr-LSTM类似于[42]中的模型，但有几处修改。[42]中LSTM的原始输入序列是：x−1=CNN（I）（3）x= W y，t = 0，1，.， N − 1（4）预测骨架词的丁。属性预测的注意力细化选项-此外，我们可以细化Skel-LSTM中获得的注意力图，以更好地定位骨架词，从而改善属性预测。注意力图α是在预测单词之前生成的前词α。它可以覆盖多个对象，甚至可以位于与预测单词不同的位置。因此，在预测当前词之后对注意力图进行细化可以为属性预测提供更准确的指导LSTM 单元在时间步长 T 处输出单词概率预测P_attent=（p1，p2，.，pQ），其中Q是EST-LSTM中的词汇量。除了单个加权和特征向量zT之外，我们还可以使用每个位置中的特征向量vij作为到EST-LSTM的输入。因此，对于每个L2位置，我们可以得到概率-t e t其中I是图像，CNN（I）是CNN图像特征作为没有空间信息的向量，We是学习的单词预测能力Pij。我们可以用空间词优化注意力地图α的概率：词嵌入，yt是编码为独热向量的地面实况词。y0是一个特殊的起始词标记。α=1PT·Ppost（ij） Zattendij（六）在我们的粗到细的框架中，属性生成是以它所描述的骨架词为因此，除了图像特征之外，Attr-LSTM还应该由当前的骨架词来提供信息。另一方面，骨架句子的上下文对于Attr-LSTM全局理解标题也很重要，7276其中Z是归一化因子，因此αpost（ij）和一个精化后字α与Pattent和Pij之间的相似度成正比。在图3中，我们展示了注意力细化过程。骨架词属性的融合在为所有骨架词预测属性之后，7277图3：注意力细化过程的图示。由于篇幅所限，预测字幕“戴帽子的人骑马”只显示了三个宾语词。对于每个单词，显示了注意力图、每个位置的预测单词和细化的注意力图。我们在补充材料中提供了更多的例子。在对应的骨架词之前插入骨架句，并形成最终的标题。3.3. 可变长度字幕生成由于我们使用的当前解析器方法的不完善性，在某些情况下解析结果是嘈杂的。大多数情况下，噪音来自不正确的名词短语识别，以及缺少一个或多个对象的简短骨架句子。这导致了在EST-LSTM中平均更短的骨架预测，从而最终导致对整个句子的预测更短。为了克服这个问题，我们设计了一个简单而有效的技巧来改变生成句子的长度。在不修改训练好的网络的情况下，在EST-LSTM或Attr-LSTM的推理阶段，我们用长度因子修改句子概率：log（P ）=log（P）+γ·l（7）其中P是生成句子的概率，P是修改句子的概率。l是生成句子的长度。γ是鼓励或不鼓励较长刑期的长度因素。注意，修改是在每个单词的生成期间执行的，而不是在整个句子生成之后执行的。当从单词概率分布中对下一个单词进行采样时，它相当于将γ添加到每个单词的对数概率中，除了句尾标记EOS这种句子概率修改的技巧与波束搜索一起工作得很好。我们的粗到精算法特别受益于这种机制，因为它可以应用于EST-LSTM或Attr-LSTM，从而在对象或这些对象的描述中产生不同的信息。这使我们能够根据用户对字幕的复杂性和字幕中的信息量的偏好来生成字幕。4. 实验在本节中，我们描述了我们在两个数据集上的实验，以测试我们提出的方法。4.1. 数据集我们在两个数据集上进行实验：流行的基准MS-COCO和Stock 3 M，这是一个新的数据集，具有更大的规模和更自然的字幕。MS-COCO有123，287张图片。每幅图像用5个人工生成的标题进行标注，平均长度为10.36个单词。我们使用其他工作常用的标准训练/测试/验证分割[47，44]，并使用5000张图像进行测试，5000张图像进行验证。MS-COCO是图像字幕任务的常用基准。然而，该数据集存在一些问题：图像有限且偏向于某些内容类别，并且图像集相对较小。此外，AMT工作人员生成的字幕并不是特别自然。因此，我们收集了一个新的数据集：Stock3M。Storck3M包含3，217，654个用户上传的图像，内容种类繁多。每个图像都与照片上传者在股票网站上提供的一个标题相关联。照片上传者给出的标题比MS-COCO中的标题更自然，数据集的图像数量是MS-COCO的26倍。标题比MS-COCO短得多，平均长度为5.25单词，但它们更具挑战性，因为词汇量更大，图像内容也更多样。我们使用2000张图像进行验证，8000张图像进行测试。4.2. 实验细节标题的预处理我们遵循[21]中的标题预处理过程，删除标点符号并将所有字符转换为小写。对于MS-COCO，我们丢弃在骨架句子中出现少于5次的单词这得到7896个骨架和5199个属性词。总共有9535个独特的单词。对于处理完整句子的基线出现少于5次的词被丢弃，从而产生9567个唯一词。对于Stock3M，由于词汇量较大，我们将单词出现阈值分别设置为骨架30和属性5。这导致了11047个骨架词和12385个属性词，总共有14290个唯一词。在处理完整句子的基线方法中，出现阈值为30，导致13788个唯一词。MS-COCO的图像特征和训练细节有人认为，属性等高级特征更适合作为标题生成LSTM的输入[47，44]。7278我们的经验发现是，通过简单地采用更好的网络架构，提供更好的图像特征，并在标题数据集中微调CNN，提取的特征已经是LSTM的优秀输入。我们使用ResNet-200作为编码器模型。图像大小调整为256×256，随机裁剪为224×224。平均池化层和分类层之前的层它输出的特征尺寸为2048×7×7，保持了空间信息。我们的系统在Torch中实现[8]。我们对CNN功能进行了如下微调：首先，固定CNN特征，并训练LSTM以生成完整的句子。在LSTM获得合理的结果后，我们开始微调CNN，学习率为1 e-5。然后，微调后的CNN被用于EST-LSTM和Attr-LSTM。解码器网络的参数如下：单词嵌入是从头开始训练的，维度为512。对于LSTM，我们设置学习率为0.0001，隐藏层维度为1800。对于Attr-LSTM，学习率为0.0004，隐藏层为1024维。Adagrad用于训练。学习率减半一旦验证丢失停止下降。Stock3M的图像功能和培训详细信息我们使用GoogleNet [38] 在 Stock 3 M 上微调作为CNN 编码器，并在GoogleNet池5/7×7s1层的1024维输出Stock 3 M与MS-COCO的不同之处在于图像大多包含单个对象，并且标题比MS-COCO更简洁。Stock 3M字幕的平均长度大约是MS-COCO的一半。因此，我们没有观察到注意力机制的改善，因为需要关注的事情较少。为了简单起见，我们使用[ 42 ]中的LSTM来进行EST-LSTM。因此，对于Attr-LSTM，在-1时间步长中没有注意力输入。我们将证明，即使没有注意，粗到精算法大大提高了基线。测试阶段中的参数对于EST-LSTM和Attr-LSTM，我们使用波束搜索策略，并采用长度因子γ，如第3.3节所述。使用验证集选择射束尺寸和γ值，并在补充材料中提供。4.3. 结果除了常用的传统评估指标外：Bleu [35]，CIDEr[41]，METEOR[9]和ROUGE [29]，我们使用最近提出的SPICE度量[2]，其对n元语法不敏感，并从字幕构建场景图以对图像中的对象，属性和关系进行编码。我们强调我们在这个指标上的表现，因为它与人类评分的相关性比其他传统指标高得多，并且它显示了特定的性能不同类型的信息，例如不同类型的属性、对象和对象之间的关系。基线为了证明我们的方法的有效性，我们还提出了一个基线结果。基线方法在完整的标题句子上进行了训练和测试，没有子属性分解。对于每个数据集，我们使用与EST-LSTM架构相同的网络架构，并使用与我们提出的粗到细方法相同的超参数和相同的定量结果我们在表1中报告了SPICE，在表2中报告了常规评估指标。首先，值得注意的是，我们的基线方法是一个非常强大的基线。在表2中，我们将我们的方法与已发表的最先进的方法进行了比较。我们的基线方法已经优于国家的最先进的一个相当大的保证金，表明一个强大的图像特征提取器的重要性。通过使用简单的基线算法对CNN进行微调，我们的表现优于增强高级属性的方法[47，44]。基线已经在MS-COCO CodaLab排行榜上排名第3 - 4位1。请注意，我们没有使用增强技巧，如集成或计划采样[43]，这可以进一步提高性能。我们在补充材料中提供我们对排行榜的提交。SPICE是预测场景图和参考场景图中匹配元组的F分数。它可以被分成有意义的子类别。在表1中，我们报告了SPICE评分以及对象、关系和属性的子类评分。特别地，报告大小、颜色和计数属性。表1显示了两个数据集相对于基线的一致改进此处未报告Stock3M的基数F分数，因为具有此类属性的图像太少，无法进行有意义的评估：在8000个测试图像中只有78个基数属性。在表2中，我们还显示了所提出的方法和基线方法对传统评估指标的比较。如图所示，在MS-COCO的这是由于传统度量的固有问题：它们过度依赖于n-gram匹配。所提出的由粗到细的算法打破了训练字幕的原始词序，从而削弱了如训练字幕中那样预测精确n-gram的目标。MS-COCO上的BLEU-3和BLEU- 4与基线相比甚至有小幅下降为了调查这两种方法是否确实具有与这些传统指标所反映的相似的性能，我们对结果进行了进一步的分析。我们预处理地面实况和预测字幕，1https://competitions.codalab.org/competitions/32217279表1：对于两个数据集，我们提出的方法和基线方法在SPICE测量上的性能。我们还包括不同的语义概念子类别的结果。模型香料精度召回对象关系属性大小颜色基数MS-Coco基线0.1880.5080.1170.3500.0480.0980.0450.1320.039我们0.1960.5290.1230.3630.0500.1100.0730.1700.064Stock3M基线0.1570.1730.1660.2500.0490.0770.1290.135-我们0.1720.1900.1850.2760.0610.0810.1440.151-表2：我们提出的方法和其他现有技术方法对MS-COCO和Stock 3 M的性能。这里只显示论文中报道的分数数据集模型B-1B-2B-3B-4流星ROUGE-L苹果酒[42]第四十二话---0.2770.237-0.855LRCN [12]0.6690.4890.3490.249---多伦多[45]0.7180.5040.3570.2500.230--[第四十七话]0.7090.5370.4020.3040.243--MS-CocoACVT [44]0.740.560.420.310.26-0.94基线0.7420.5770.4420.3400.2680.5521.069我们0.7420.5770.4400.3360.2680.5521.073基线（w/oa）0.6640.4810.3510.2580.2450.4850.949Ours（w/oa）0.6730.4890.3550.2590.2470.4890.966基线0.2360.1330.0790.0500.1080.2330.720Stock3M我们0.2450.1380.0830.0520.1100.2390.724基线（w/oa）0.2330.1340.0820.0530.1080.2350.737Ours（w/oa）0.2460.1400.0860.0550.1110.2410.738把标题中的a这是由于观察到MS-COCO标题中15%的单词是a。这个功能词对n-gram匹配有很大的影响，尽管它在MS-COCO类标题中传达的信息很少。因此，通过去除帽中的a在表2中显示了对相同数据集的性能评价，并将其删除为“基线/我们的可以看出，通过我们的粗到细方法实现了一致的改进。在表2中，我们还展示了我们的粗到细方法的性能以及在传统指标上评估的Stock3M上的基线方法。在Stock3M中，a的出现频率仅为2.5%，因此对两种方法的相对性能没有太大影响。我们可以看到所有指标的持续改善。4.4. 分析生成的描述生成可变长度字幕。在粗到细算法中，长度因子分别应用于Skel-LSTM和Attr-LSTM，以鼓励更长的骨架/属性生成，以便生成具有与训练字幕相似长度的字幕。然而，我们可以进一步手动调整长度因子值来控制生成的字幕的骨架/属性的长度。在图4中，我们展示了来自Stock 3 M和MS-COCO的一些测试示例。对于每个图像，四个帽-使用四对（骨架、属性）长度因子值生成片段：（-1，-1），（1.5，-1），（-1，1.5），（1.5，1.5）.这四个值对表示骨架/属性中包含较少/较多信息的所有组合属性在生成的标题中标记为红色。我们可以看到长度因子如何与波束搜索一起工作，以获得语法和语义正确的字幕。对象/属性信息的量自然随骨架/属性的长度而变化我们当然可以使用不同的长度因子值在基线方法上应用相同的技巧。为了进行比较，在图4（红框）中，我们显示了使用四种不同长度因子值从基线方法生成的四个字幕：γ∈ {−1，−0. 5，0。五一5}。如图所示，尽管由基线模型生成的字幕也可以具有不同的长度，但它们比由我们的粗到细模型生成的字幕这是因为从粗到精的模型可以将字幕分解为骨架和属性，并且根据用户的偏好对对象和属性具有单独的要求：用户可能更喜欢只描述主要对象但更详细的描述;或者他/她可能更喜欢包含图像中的所有对象的解压缩，但是不太关心对象属性。我们在表1和表2中显示的结果表明，所提出的粗到细模型在MS-COCO上的Attr-LSTM中采用注意力细化进行属性预测。在这里，我们进一步7280图4：来自Stock 3 M和MS-COCO的图像示例的预测标题示例四个标题分别从我们的粗到精模型（中间，绿色框中）和基线模型（右侧，红色框中）生成对于由粗到细的模型，骨架标题和属性的四对长度因子值γ分别为（-1，-1）、（1.5，-1）、（-1，1.5）、（1.5，1.5）为基线法的γ表3：我们提出的方法在MS-COCO上有和没有单词后α注意力的比较。模型属性颜色大小基数前字α0.1070.1670.0690.063后字α0.1100.1700.0730.064通过比较无注意力细化的结果（前词α）和有注意力细化的结果（后词α），验证表3中后词α细化方法的有效性后置词α只细化了属性预测的关注区域，因此我们只显示了属性子类别的SPICE得分的提高其他类别的表现没有变化。我们看到不同类型的产品都有持续的改进这表明，一个好的注意力地图可以提高属性预测。能够生成独特和新颖的字幕它已经指出，当前基于LSTM的方法在生成训练集中没有见过的句子时存在问题，并且会为不同的测试图像生成相同的句子[10]。这意味着LSTM动力学陷入了重复其在视觉上相似的测试图像上训练的序列的常规中，并且不太能够为具有在训练集中看不到的对象/属性组成的新图像生成独特的句子通过对字幕-属性的分解，我们可以得到更加独特的字幕，并且即使在属性-对象模式是新的情况下，也可以给出更加准确的属性。如表4所示，我们的粗到细模型将生成的独特字幕的百分比增加了3%，并将新颖字幕的百分比增加了8%。表4：基线方法和我们的粗到细方法在训练字幕中看到的生成的独特句子和字幕的百分比统计数据是从包含5000幅图像的MS-COCO测试集收集的。模型独特的标题在培训基线63.96%56.06%由粗到细66.96%47.76%生成字幕的定性结果在补充材料中，我们展示了从我们的粗到细模型和基线模型生成字幕的更多定性示例5. 结论在本文中，我们提出了一个由粗到精的图像字幕生成模型。该模型将原始图像字幕分解为骨架语句和相应的属性，并以自然的方式描述字幕生成我们在两个具有挑战性的数据集上进行了实验，结果表明，粗到细模型可以生成比强基线方法更好，更独特的字幕我们提出的模型还可以分别为骨架句和属性生成可变长度的描述性字幕，这允许根据用户偏好生成字幕。在未来的工作中，我们计划研究更复杂的骨架/属性分解方法，并允许属性出现在骨架对象之后。设计一个模型，根据图像的视觉复杂度自动决定生成的字幕的长度也是有意义的。7281引用[1] P. 安德森湾费尔南多M.Johnson和S.古尔德。Spice：语义命题图像字幕评价。在ECCV，2016年。2[2] P. 安德森湾费尔南多M.Johnson和S.古尔德。Spice：语义命题图像字幕评价。在ECCV，2016年。三、六[3] D.巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译。CoRR，abs/1409.0473，2014。1[4] M.酒吧视觉物体识别中触发自上而下兴奋的皮层机制。Journal of Cognitive Neuroscience，2003. 2[5] J·布利耶视觉加工的整合模型。脑研究评论，2001年。2[6] J. Bulliera和L. G.诺瓦克布并行与串行处理：视觉系统分布式组织的新前景。《神经生物学新观点》，1995年。2[7] K. 乔湾，巴西-地 vanMerrienboe r，C. Gu？l cehre，F. 布加雷斯，H. Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语表示用于统计机器翻译。CoRR，abs/1406.1078，2014。1[8] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，2011年。6[9] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。在2014年第九届统计机器翻译研讨会的会议记录中。三、六[10] J. Devlin，H. Cheng，H. Fang，S.古普塔湖Deng，X.他，G. Zweig和M.米切尔图像字幕的语言模型：怪癖和什么工作。CoRR，abs/1505.01809，2015年。1、8[11] J. Devlin，S.古普塔河，巴西-地B.格尔希克M Mitchell和C. L.齐特尼克探索图像字幕的最近邻方法。CoRR，2015年。一、二[12] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR，2015。1、7[13] J·邓肯选择性注意和视觉信息的组织。实验心理学杂志，1984年。2[14] D. Elliott和F.凯勒图像描述使用视觉依赖表示法。在Proceedings of the 2013 Conference on Empirical Methodsin Natural Language Processing，EMNLP 2013，2013年10 月 18-21 日， Grand Hyatt Seattle ， Seattle ，Washington ， USA ， A meeting of SIGDAT ， a SpecialInterest Group of the ACL，第1292-1302页，2013年。1[15] A. K. Engel，P. Fries，and W.歌手.动态预测：自上而下处理中的振荡与同步。Nature Reviews Neuroscience，2001. 2[16] H. Fang，S.古普塔F. N.扬多拉河斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。 M i tagh，J. C. 普拉特角L. Zit-nick和G.茨威格从标题到视觉概念再到后面。在计算机视觉和模式识别（CVPR），2015。1[17] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨，C. Rashtchian，J. Hockenmaier和D.福赛斯每一张照片都讲述了一个故事：从图像生成句子。在第11届欧洲计算机视觉会议的开幕式上：第IV部分，ECCV史普林格出版社一、二[18] C. D.吉尔伯特M. Sigman和R. E.克里斯特知觉学习的神经基础。Neuron，31（5），2001. 2[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在arXiv prepring arXiv：1506.01497，2015中。6[20] M. Hodosh，P. Young，and J.霍肯迈尔将图像描述成帧作为排名任务：数据、模型和评估指标。J. Artif.国际Res. ，47（1）：853-899，2013年5月。1[21] A. Karpathy和F.李用于生成图像描述的深度视觉语义对齐。在IEEE计算机视觉和模式识别会议上，CVPR2015，波士顿，MA，USA，2015年6月7-12日，第3128-3137页，2015年。5[22] R.基罗斯河Salakhutdinov和R.泽梅尔多模态神经语言模型。于T. Jebara和E. P. Xing，编辑，Proceedings of the31 st International Conference on Machine Learning（ ICML-14 ），第 595-603 页。 JMLR Work-shop andConference Proceedings，2014. 2[23] R.基罗斯河Salakhutdinov和R. S.泽梅尔统一视觉语义嵌入与多模态神经语言模型。CoRR，abs/1411.2539，2014。1[24] D. Klein 和 C. D. 曼宁准确的非语言化分析。在Proceedings of the 41st Annual Meeting on Association forComputational Linguistics - Volume 1 ， ACL'03 ， pages423-430，Stroudsburg，PA，USA，2003中。计算语言学协会。二、三[25] G. 库尔卡尔尼河谷Premraj河谷Ordonez，S.Dhar，S.Li，Y.崔A. C. Berg和T. L.伯格。Babytalk：理解和生成简单的图像描述。 Pattern Analysis and Machine Intelligence ，IEEE Transactions on，35（12）：2891 一、二[26] P. 库兹涅佐娃河谷Ordonez，T.L. Berg和Y.崔Treetalk：用于图像描述的树的合成和压缩。1[27] R. Lebret，P. H. O. Pinheiro和R.科洛伯特基于短语的图像字幕。CoRR，abs/1502.03671，2015年。2[28] S. Li，G.Kulkarni，T.L. Berg，A.C. Berg和Y.崔使用网络规模的n-gram组成简单的图像描述。在Proceedings ofthe Fifteenth Conference on Computa- tional NaturalLanguage Learning，CoNLL计算机语言学协会。1[29] C.- Y.是林书Rouge：一个用于自动评估摘要的软件包。在Proc.ACL关于文本摘要分支的研讨会上，第10页，2004年。三、六[30] C. D. Manning，M. Surdeanu，J. Bauer，J. Finkel，S.Bethard和D.麦克洛斯基斯坦福CoreNLP自然语言处理工具包。计算语言学协会（ACL）系统演示，第55- 60页，2014年3[31] J. Mao，W. Xu，Y. Yang，J. Wang，Z.

下载后可阅读完整内容，剩余1页未读，立即下载