分层生成：描述性图像段落的分层生成方法

168 浏览量更新于2023-10-15 收藏 1016KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

317一种描述性图像段落的分层生成方法Jonathan Krause Justin Johnson Ranjay Krishna李飞飞斯坦福大学{jkrause，jcjohns，ranjaykrishna，feifeili}@ cs.stanford.edu摘要图像字幕的最新进展使得用自然语言生成描述图像的新句子成为可能，但是将图像压缩成单个句子只能粗略地描述视觉内容虽然一种新的字幕方法，密集字幕，可以通过在图像中的许多区域添加字幕来潜在地以更精细的细节水平描述图像，但它反过来无法为图像产生连贯的故事在本文中，我们通过生成描述图像的整个段落来克服这些限制，这些段落可以讲述详细，统一的故事。我们开发了一个模型，将图像和段落分解为它们的组成部分，检测图像中的语义区域，并使用分层递归神经网络来推理语言。语言分析证实了段落生成任务的复杂性，并在一个新的图像和段落对数据集上进行了彻底的实验，证明了我们的方法的有效性。1. 介绍视觉是人类感知的主要感觉形式因此，构建能够同时理解视觉刺激并用自然语言描述它们随着大型数据集的出现，将图像与自然语言解译配对[20，34，10，16]，最近已经可以生成描述图像的新句子[4，6，12，22，30]。虽然这些方法的成功令人鼓舞，但它们都有一个共同的关键限制：详细通过仅用单个高级语句描述图像，存在关于方法可以产生的信息的数量和质量的基本上限。最近的一种替代方案是密集字幕任务[11]，它通过检测图像中的许多感兴趣区域并用简短的短语描述每个区域来克服这一限制。通过将对象检测的任务扩展到包括自然语言描述，图1. 段落更长，信息量更大，语言上比字幕更复杂在这里，我们展示了一张带有MS COCO [20]字幕的图片（顶部）和本作品中使用的段落（底部）。密集字幕比标准图像字幕更详细地描述图像然而，这是有代价的：为密集字幕生成的描述是不连贯的，即。它们没有形成描述整个图像的内聚整体。在本文中，我们解决的缺点都是transmarticular图像字幕和最近提出的密集句子1) 一个女孩和一个男孩在餐馆里吃甜甜圈2) 一个男孩和一个女孩坐在一张桌子上吃甜甜圈。3) 两个孩子坐在咖啡店吃着甜甜圈4) 两个孩子坐在桌子旁吃甜甜圈。5) 两个孩子在餐厅的桌子上吃甜甜圈段两个孩子坐在一家餐馆的桌子旁。的孩子是一个小女孩和一个小男孩。小女孩正在吃一个粉红色的糖霜甜甜圈，上面有白色的糖霜线。女孩有一头金发，穿着一件绿色夹克，里面是一件黑色长袖衬衫。这个小男孩穿着一件黑色拉链夹克，把手指放在嘴唇上，不吃东西一个金属餐巾纸分配器在他们之间，桌子旁边的墙是白色的。两个成年人在矮白砖墙的另一边。房间的天花板上有白色的圆形灯，餐厅前面有一扇大窗户。外面是日光。318图像字幕通过引入的任务，产生段落，丰富的描述图像（图。①的人。段落生成结合了这些任务的优点，但不受其弱点的影响-为图像生成段落具有挑战性，需要细粒度的图像理解和长期的语言推理。为了克服这些挑战，我们提出了一个模型，将图像和段落分解为它们的组成部分：我们通过检测对象和其他感兴趣的区域，将图像分解为语义上有意义的片段，并使用分层递归神经网络对语言进行推理，将段落分解为相应的句子。此外，我们还首次展示了从大规模区域字幕中转移视觉和语言知识的能力[16]，我们证明了它有能力提高段落生成。为了验证我们的方法，我们收集了一个图像和段落对的数据集，它补充了MS COCO [20]和Visual Genome[16]的整个图像和区域级注释。为了验证段落生成任务的复杂性，我们对收集的段落进行了语言分析，并将其与字幕级图像字幕进行了比较。我们将我们的方法与许多基线进行比较，展示了分层建模生成描述性段落的好处。本文其余部分的组织结构如下：秒2概述了图像字幕和分层RNN的相关工作3介绍了段落生成任务，描述了我们新收集的数据集，并对其进行了简单的语言分析，Sec。4详细介绍了我们的模型paragraph生成，第二节。5包含实验，和SEC。6、讨论结束2. 相关工作在视觉和文本数据之间建立联系一直是计算机视觉的一个长期目标。一种工作将问题视为排名任务，使用图像从数据库中检索相关标题，反之亦然[8，10，13]。由于语言的合成性质，任何数据库都不可能包含所有可能的图像标题;因此，另一种工作集中于直接生成字幕。早期的工作使用手写模板来生成语言[17]，而最近的方法则以图像特征为条件训练递归神经网络语言模型[4，6，12，22，30，33]，并从中采样以生成文本。类似的方法也被应用于生成视频的字幕[6，32，35]。少数图像字幕的方法不仅考虑整个图像，而且考虑图像区域。 Xu等[31]使用递归网络生成字幕，注意力，使得模型为每个单词产生图像区域上的分布与他们使用粗网格作为图像区域的工作相反，我们使用语义上有意义的感兴趣区域。Karpathy和Fei-Fei [12]使用排名损失将图像区域与句子片段对齐Johnson等人[11]介绍了密集字幕的任务，它检测和描述感兴趣的区域，但这些描述是独立的，不形成一个连贯的整体。也有一些开创性的工作，视频字幕与多个句子[27]。虽然视频是多句子描述生成的自然候选者，但图像字幕不能利用强时间依赖性，从而增加了额外的挑战。层次递归网络为了生成段落描述，模型必须对跨越多个句子的长期语言结构进行推理。由于梯度消失，使用随机梯度下降训练的递归神经网络通常难以学习长期依赖性。替代的循环架构，如长短期记忆（LSTM）[9]，通过改善梯度流的门控机制另一种解决方案是分层递归网络，其架构设计为模型的不同部分在不同的时间尺度上运行。早期的工作将分层递归网络应用于简单的算法问题[7]。Clockwork RNN [15]使用相关技术进行音频信号生成，口语分类和手写识别;在[ 2 ]中也使用了类似的分级体系结构用于语音识别。在这些方法中，每个经常性单元都按照固定的时间表更新：某些单元在每个时间步上更新，而其它单元可以每隔一个或每第四个时间步更新。这种层次结构有助于减少消失梯度问题，但模型的层次结构与我们的工作更相关的是直接反映语言层次的层次结构。Li等[18]介绍了一个分层自动编码器，林等人。[19]使用不同的循环单元来模拟句子和单词。与我们的工作最相似的是Yuet al。[35]，他们使用不同的分层模型为烹饪视频生成多句描述。由于我们的工作中约束较少的非时间设置，我们的方法必须在一种更通用的方式，因此变得更简单，更多地依赖于学习句子之间的相互作用。此外，我们的方法对图像中的语义区域进行了推理，这既可以从这些区域传输信息，又可以在生成时产生更多的319句子段落COCO [20]我们描述长度11.3067.50句子长度11.3011.91多样性19.0170.49名词33.45%25.81%形容词27.23%27.64%动词百分之十点七二百分之十五点二一代词百分之一点二三2.45%表1.段落描述的统计数据，与先前工作中使用的段落级标题进行比较描述和句子长度由存在的标记的数量表示，多样性是同一图像的句子之间的平均CIDEr分数的倒数，并且从Penn Treebank [23]部分语音标签聚合3. 段落不同用段落描述图像与字幕级字幕有什么不同？为了回答这个问题，我们收集了一个新的段落注释数据集，比较了19，551个MS COCO [20]和Visual Genome [16]图像，其中每个图像都有段落描述。注释在AmazonMechanical Turk上收集，使用美国工人至少有5，000个合格的HIT，合格率为98%或更高1，并额外接受自动和人工质量抽查。图1展示了一个例子，将我们收集的段落与MS COCO的五个虽然很明显，段落比任何一个句子都更长，更具描述性，但我们进一步注意到，一个段落可以比所有五个句子标题更详细，即使组合在一起。这是因为句子级字幕中的冗余-我们将这些观察结果与其他各种语言统计数据一起量化。1.一、例如，我们发现，每个段落的长度大约是句子标题平均长度的六倍，每个段落中的单个句子的长度与字幕级标题相当。为了研究句子多样性的问题，我们计算每个图像的COCO句子之间以及每个收集段落中的单个句子之间的平均CIDEr [29]相似度，将最终多样性得分定义为100减去平均CIDEr相似度。通过这个衡量标准，多样性的差异是惊人的1见http://cs.stanford.edu/people/ranjaykrishna/im2p/index.html段落内的标题比句子标题更加多样化，多样性得分为70.49，而句子标题仅为19.01。这一可量化的证据表明，段落中的句子提供了更多关于图像的信息。深入研究后，我们对COCO句子和我们收集的段落进行了简单的语言分析，包括通过Stanford CoreNLP[21]使用Penn Treebank的词性标签注释每个单词，并将词性聚合到更高级别的语言类别中。一些常见的词性在表中给出。1.一、作为一个比例，段落有更多的动词和原名词，一个类似的频率形容词，和更少的名词。考虑到段落的性质，这是有意义的我们也注意到，但没有量化的paragraphs表现出更高的频率更复杂的语言现象，例如。图中出现的共指。1，其中句子指的是“两个孩子”，“一个小女孩和一个小男孩”，“女孩”或“男孩”。我们相信，这些类型的长程现象是描述性段落的基本属性与人类一样的语言，不能充分利用字幕级字幕。4. 方法概述我们的模型以图像作为输入，生成一个描述它的自然语言段落，旨在利用图像和段落的组成结构。图2提供了概览。我们首先通过检测对象和其他感兴趣的区域来分解输入图像，然后聚合这些区域的特征以产生丰富表达图像语义的池化表示该特征向量被一个分层递归神经网络作为输入，该网络由两个层次组成：句子RNN和单词RNN。句子RNN接收图像特征，决定在结果段落中生成多少句子给定这个主题向量，单词RNN生成单个句子的单词。我们还展示了如何将知识从密集图像字幕[11]任务转移到我们的段落生成模型。4.1. 区域检测器区域检测器接收尺寸为3×H×W的输入图像，检测感兴趣区域，并为每个区域产生维度D=4096我们的区域检测器遵循[26，11];我们在这里提供了一个总结，完整性：调整图像的大小，使其最长的边缘为720像素，然后通过从16层VGG网络初始化的卷积网络[28]。由此产生的特征图由区域建议网络[26]处理，该网络从一组锚点回归到亲320i=1图像：3xHxW区域检测器具有特征区域：MxD合并载体：1xP递阶递归网络生成的句子一个棒球运动员正在挥动球棒。他戴着红色的头盔，穿着白色的衬衫。接球手的投影，合并米特在击球手后面。图2. 我们的模型概述。给定图像（左），区域检测器（包括卷积网络和区域建议网络）检测感兴趣的区域并为每个区域生成特征。区域特征被投影到RP，汇集以给出紧凑的图像表示，并传递到包括句子RNN和单词RNN的分层递归神经网络语言模型。句子RNN基于停顿分布pi确定要生成的句子的数量，并且还生成句子主题向量，每个单词RNN消耗这些向量以生成句子。构成感兴趣的区域。这些区域被投影到卷积特征图上，并且特征图的相应区域使用双线性插值被重塑为固定大小，并由两个完全连接的层处理，以给出每个区域的维度D给定图像和感兴趣的地面实况区域的数据集，区域检测器可以以端到端的方式进行训练，如[26]中的对象检测和[11]中的密集覆盖。由于段落描述没有对感兴趣区域的注释基础，因此我们使用在Visual Genome数据集上训练用于密集图像字幕的区域检测器[16]，使用[11]的公开实现这产生M=50个检测到的区域。一个值得注意的替代方法是使用区域检测器训练严格的对象检测，而不是密集的字幕。虽然这种方法可以捕捉到图像中的许多显著对象，但其段落会受到影响：一个理想的段落不仅描述对象，而且还描述风景和关系，这可以通过捕捉场景中所有值得注意的元素的密集字幕任务来更好地捕捉。4.2. 区域池化区域检测器产生一设置的向量v1，. . .，vM∈RD，每个描述输入图像中的不同区域。我们希望将这些向量聚合成单个池化向量vp∈RP，该单个池化向量完整地描述图像的内容。为此，我们学习投影矩阵Wpool∈RP×D和偏差bpool∈RP;通过使用Wpool投影每个区域向量并取元素最大值来计算池向量vp4.3. 递阶递归网络给出池化区域向量vp∈RP作为输入一个由两个模块组成的分层神经语言模型：一个句子RNN和一个单词RNN。句子RNN负责决定应该在生成的段落中的句子S的数量，并为这些句子中的每一个产生P维主题向量给定一个句子的主题向量，单词RNN生成该句子的单词。我们采用标准的LSTM架构[9]用于单词RNN和句子RNN。作为这种分层方法的替代方案，可以使用非分层语言模型来直接生成段落的单词，将句子结束标记视为词汇表中的另一个单词我们的递归模型是有利的，因为它减少了循环网络必须推理的时间长度我们的段落平均包含67.5个单词（Tab。1），所以一个非层次的方法必须在几十个时间步长，这是非常困难的语言模型的原因。然而，由于我们的段落平均包含5.7句子，每个句子平均有11.9个单词，段落和句子RNN只需要在更短的时间尺度上推理，使学习更容易处理。句子RNN句子RNN 是一个单层LSTM ，隐藏大小H=512，初始隐藏和细胞状态设置为零。在每个时间步，句子RNN接收池化区域向量vp作为输入，并进而产生隐藏状态序列h1，. . . ，hS∈ RH，每个所以vp=maxM（W池vi+b池）。而备选案文段中的句子每个隐藏状态hi用于表示区域集合的方法，例如空间注意力[31]，也可能是可能的，我们认为这些是对本文提出的模型的补充;此外，我们注意到最近的工作[25]，它已经证明了最大池足以表示任何连续集函数，给出了最大池原则上不会牺牲表达能力的动机。两种方法：第一，从hi和logis的线性投影tic分类器在两个状态上产生分布pi{CONTINUE=0，STOP = 1}，确定第i个句子是否是段落中的最后一个句子。第二，隐藏状态hi通过一个两层全连接网络被馈送，以产生段落的第i个句子的主题向量ti∈ RP，这是单词RNN的输入。句子主题向量：SxP词RNN句子RNN词RNNpi词RNNCNNRPN321单词RNN单词RNN是一个隐藏大小为H=512的双层LSTM，给定来自句子RNN的主题向量ti∈RP，它负责生成一个句子的单词。我们遵循[30]的输入公式：RNN的第一个和第二个输入是主题向量和一个特殊的START标记，后续输入是学习的句子单词的嵌入向量在每个时间步，最后一个LSTM层的隐藏状态用于预测词汇表中单词的分布，并且一个特殊的END标记表示句子的结束在每个Word RNN生成其各自句子的单词之后，这些句子最终被连接以形成生成的段落。4.4. 培训和抽样训练数据由对（x，y）组成，其中x是图像，y是该图像的真实段落描述，其中y具有S个句子，第i个句子具有Ni个单词，并且yij是第i个句子的第j个在计算图像的池化区域向量vp之后，我们将句子RNN展开S个时间步，给出每个句子在{CONTINUE，STOP}状态上的分布pi我们将句子主题向量馈送到单词RNN的S个副本，将第i个副本展开Ni个时间步，在每个句子的每个单词上产生分布pij我们对于例子（x，y）的训练损失（x，y）是两个交叉熵项的加权和：在停止分布pi上发送的句子丢失率，以及在单词分布p ij上发送的单词丢失率，ΣS从大型分类数据集转移，并且对有限大小的数据集特别有效迁移学习对段落生成也有用吗我们建议以两种方式利用迁移学习首先，我们从为密集图像字幕训练的模型初始化我们的区域检测网络[11];虽然我们的模型是端到端可微的，但我们在训练期间保持这个子网络固定，以提高效率并防止过度拟合。其次，我们初始化单词嵌入向量，递归网络权重，并从已经在区域级别字幕上训练的语言模型输出单词RNN的线性投影[11]，在训练期间微调这些参数以更好地适应段落生成任务。区域模型中不存在的标记的参数从UNK的参数初始化为- ken。这种初始化策略允许我们的模型利用在大规模区域标题数据集上学习的语言知识[16]来产生更好的段落描述，我们在实验中验证了这种策略的有效性5. 实验在本节中，我们描述了我们的段落生成实验上收集的数据在第二节中描述。3，我们将其分为14，575个训练，2，487个验证和2，489个测试图像。5.1. 基线句子-连接：为了展示段落级和段落标题之间的差异，该基线从模型中抽取并连接了五个句子标题[12]。（x，y）=λ发送+λ字i=1ΣSinti（i，I[i=S]）ΣNi中文（简体）在MS COCO字幕上训练[20]。第一个句子使用波束搜索（波束大小=2），其余句子进行采样。这样做的动机如下：图像字幕模型首先产生最好地描述图像的句子，i=1j =1为了生成图像的段落，我们向前运行句子RNN，直到停止概率pi（STOP）超过阈值TSTOP或在SMAX句子之后，以先到者为准。然后，我们从单词RNN中抽取句子，在每个时间步选择最可能的单词，并在选择STOP标记或NMAX个单词后停止。我们设置参数TSTOP=0。5、SMAX=6和NMAX=50。4.5.迁移学习迁移学习在计算机视觉中已经变得普遍。对于目标检测[26]和图像捕捉[6，12，30，31]等任务，标准做法不仅是使用卷积神经网络处理图像，而且还从已针对图像分类调整的权重初始化这些网络的权重，例如16层VGG网络[28]。从预先训练的卷积网络初始化允许一种形式的知识一个整体和随后的句子使用采样，以便生成不同范围的句子，因为替代方案是重复来自波束搜索的相同句子。我们已经验证了这种方法比仅使用波束搜索或仅使用采样更好，因为其目的是在任务级别与标准图像字幕进行最强可能的比较我们还注意到，虽然Sentence-Concat是在MS COCO上训练的，但我们数据集中的所有图像也都是在MS COCO中，我们的描述也是由Amazon Mechanical Turk上的用户编写的。Image-Flat：该模型使用图像和语言的平面表示，相当于标准图像字幕模型NeuralTalk [12]。它将整个图像作为输入，并逐个符号地解码成一个段落。我们使用了[12]的可用实现，它使用16层VGG网络[28]来提取CNN特征，并将其作为LSTM [9]的输入，端到端地联合训练整个模型。322流星苹果酒BLEU-1BLEU-2BLEU-3BLEU-4句子连接12.056.8231.1115.107.563.98模板14.3112.1537.4721.0212.307.38DenseCap-Concat12.6612.5133.1816.928.544.54图像平面（[12]）12.8211.0634.0419.9512.207.71区域-平面-划痕13.5411.1437.3021.7013.078.07区域-平面-预训练14.2312.1338.3222.9014.178.97区域-分级（我们的）15.9513.5241.9024.1114.238.69人类19.2228.5542.8825.6815.559.66表2. 生成段落的主要结果。我们的区域分层方法与六个基线模型和人类的表现相比，沿着六个语言指标。模板：这个方法代表了一种非常不同的生成段落的方法，在风格上类似于更经典方法的开放世界版本，如BabyTalk [17]，5.2. 实现细节所有基线神经语言模型都使用两层具有512个维度的LSTM [9]单元。特征池它将图像的结构化表示转换为文本通过一些手动指定的模板。第一维数P是1024，我们设λ发送=5。0和λ 字=我们基于模板的基线的步骤是使用预先训练的密集字幕模型[11]检测和区域描述被解析为一组子对象、动词、对象和各种修饰符，语音标记和少数TokensRegex [3]规则，我们发现这些规则足以解析绝大多数（≥99%）相当简单和简短的区域级描述。每个解析的单词通过其检测分数和原始区域描述中生成的标记的对数概率之和进行评分。然后，单词被合并到表示场景的连贯图中，其中每个节点将所有单词与相同的文本和重叠的边界框相结合。最后，使用得分最高的N=25个节点生成文本，在生成中首先优先考虑主语-动词-宾语三元组，并使用重复的“thereis/are”语句表示所有其他节点DenseCap-Concat：该基线类似于Sentence- Concat，但将DenseCap [11]预测作为单独的句子连接起来，以形成一个段落。分析此方法的目的是解开模板方法的两个关键部分：字幕和检测（即，Dense-Cap）和启发式重组到段落中。我们结合了DenseCap的前n=14个输出，以形成基于验证CIDER+METEOR的DenseCap-Concat其他基线：“区域-平面-刮擦”使用平面语言模型进行解码，并从头开始对其进行重新编码。语言模型输入是投影和合并的区域级图像特征。 “Regions-Flat-Pretrained”使用预先训练的语言模型。包含这些基线是为了显示将图像分解为区域和预训练语言模型的好处。1 .一、0基于验证集性能。培训通过随机梯度下降与亚当[14]，实现在火炬。值得注意的是，模型检查点的选择是基于验证集上最佳的METEOR和CIDER分数组合的5.3. 主要结果我们提出了我们的主要成果在生成段落在选项卡中。2，通过六个语言指标进行评估：[29]，[29]。的Sentence-Concat方法表现不佳，实现了低-所有指标的est分数。其乏善可陈的表现进一步证明了单句字幕和段落生成之间的明显差异令人惊讶的是，硬编码的基于模板的方法表现得相当好，特别是在CIDER，METEOR和BLEU-1上，它与一些神经方法竞争。这是有道理的：模板方法提供了关于图像内容的强先验，因为它接收区域级标题[11]作为输入，并且它做出的许多咒骂的“there is/are”陈述虽然不有趣，但是安全的，从而得到不错的分数。然而，它对BLEU-3和BLEU-4的相对较差的理解突出了孤立地推理区域的局限性-DenseCap-Concat在除了CIDER之外的所有指标上的得分都比Tem- plate差，说明了Template的标题解析和重组的必要性在段落生成任务上训练的Image-Flat优于Sentence-Concat，并且Regions-Flat-Scratch的基于区域的预培训的结果在所有满足的改善323句子-连接模板区域-分层一辆红色的双层巴士停在田野里。一辆停在路边的双层巴士。一辆蓝色的巴士停在大房子中间。一个新的相机包括一个细条纹男孩和红色，白色和蓝色的外面。一辆大的蓝色双层公共汽车，前面有一张乘客在车上的照片一个人骑着一辆马拉的马车在街上走。波斯特带着两个人骑在一辆有大大象的马车后面。一个人骑在一匹马的背上，走在一条木制的跑道上。一个人坐在长凳上，有两匹马在街上。这匹马坐在车库里，看起来像是在旅行。两只长颈鹿站在围栏里。一只大长颈鹿正在读一棵树。长颈鹿用头嗅着地面。一对长颈鹿站在一起。两只长颈鹿被显示在一个栅栏和一个栅栏后面。一个小女孩正在玩飞盘。一个拿着橙色飞盘的男人。一个阳光明媚的日子里，一个女人在长凳上拿着飞盘。一个年轻的女孩拿着一个绿色的飞盘。一个女孩在公园里扔飞盘。有一辆黄白相间的公共汽车，还有一辆公共汽车的前轮。有一个明确的和蓝色的天空，和一辆公共汽车的前轮。有一辆公共汽车和窗户。火车上有一个号码，还有一个白色和红色的标志。有一个卡车的轮胎。人们骑着马，一个穿白衬衫的男人坐在长凳上。人们坐在长凳上，那里有一个自行车的轮子。有一个带窗户的建筑有停着的轮子，还有一个轮子。有一块砖头。长颈鹿站在田野里，那里有一只站着的长颈鹿。篱笆后面是高大的绿树，篱笆后面有一只长颈鹿的脖子。有一片绿草，还有一只长颈鹿。有一棵树的树干，和一个棕色的篱笆。有一个树干和白色的字母。一个女孩拿着网球拍，有一片绿色和棕色的草地。有一个粉红色的衬衫上的一个女人，和背景。有头发的女人穿着蓝色的短裤，还有红色的花。有树，和一个蓝色的飞盘在空中。有两辆公共汽车在路上行驶路上有一辆涂着白线的黄色公共汽车。它停在公共汽车站，一个人经过它。公共汽车前面有一辆黑白相间的公共汽车。一个男人在街上骑着马车。两个人坐在马背上。马车是木头做的。马车是黑色的。这辆马车侧面有一道白色条纹。背景中的建筑物是棕褐色的。一只长颈鹿站在一棵树旁边。右边有一根篱笆后面有一座黑白相间的砖房。还有很多树和灌木丛。一个穿着红色衬衫和黑色短袖红色短裤的女人拿着一个黄色的飞盘。她穿着一件绿色的衬衫和白色的裤子。她穿着一件粉红色的衬衫和短袖裙子。她手里拿着一个白色的飞盘，从中可以看到一只手。她身后是两张白色的椅子。背景是一座绿色和白色的建筑。图3.我们的模型（区域层次）和句子连接和模板基线的段落生成结果示例前三行是阳性结果，最后一行是失败案例。rics，我们的完整模型，区域层次，在所有方法中，除了BLEU-4，在每个指标上都取得了最高的分数。关于区域平坦预训练在BLEU-4上的轻微优势的一个假设是，由于其非层次结构，它能够更好地在句子的结尾和开头处更准确地立即再现单词，从而略微提高BLEU分数。为了使这些指标更易于解释，我们通过收集500张随机选择的图像的额外段落进行了人工评估，结果在Tab的最后一行。二、正如预期的那样，人类产生了比任何自动方法更好的识别能力，在所有考虑的语言指标上都表现得更好。特别值得注意的是，人类与CIDER和METEOR的最佳模型之间存在巨大差距，这两个模型都旨在与人类判断良好相关[29，5]。最后，我们注意到，我们还尝试了SPICE评估度量[1]，该度量已被证明与人类对字幕级图像字幕的判断很不幸的是，SPICE似乎不太适合评估长段落描述这些对于句子级的字幕来说是合理的设计决策，但对于段落就不那么适用了事实上，人工段落的SPICE得分比自动方法低得多。5.4. 定性结果我们从我们的模型和图中的句子连接和模板基线中呈现定性结果。3.第三章。我们的模型预测的一些有趣的特性“总线”）及其捕获第二示例中的对象之间的关系的能力。同样值得注意的是我们的模型选择描述图像的顺序：第一句往往是相当高的级别，中间的句子给出了关于描述中前面提到的场景元素的一些细节，而最后一句通常描述了背景中的某些东西，这是其他方法无法捕捉的。有趣的是，我们观察到，这遵循了大多数人类倾向于描述图像的相同顺序。最后一行的失败案例突出了另一个有趣的现象：尽管我们的模型在图像的语义上是错误的，称女孩为“女人”，但它已经了解到“女人”始终与女性代词（“她”、“她”、“她的手”、“她身后”）相关联。同样值得注意的是两个基线的一般行为。Sentence-Concat中的段落在句子结构上往往是重复的，并且由于生成多个句子所需的采样另一方面，模板基线在很大程度上是准确的，但具有无趣的语言，并且缺乏确定哪些事情最重要的描述的能力。相比之下，区域层次保持相关性，并进一步-更多地展示了更有趣的语言模式。5.5. 段落语言分析为了对产生的语言现象进行定量研究，表1。3我们显示的统计数据的语言所产生的代表性传播的方法。我们的分层方法生成与人类描述相似的平均长度和方差的文本，句子连接和模板方法在长度上更短，变化更小句子-Concat也是324平均STD.Dev.多样性名词动词代词词汇表3.测试集预测的语言统计词性统计以百分比形式给出，多样性的计算方法见第3节。“Vocab请注意，人类的多样性得分与表1中的得分略有不同1，这是在整个数据集上计算的一个年轻的女孩坐在一家餐馆的桌子旁。她手里拿着一个夹在面包上的热狗。这个女孩穿着一件粉红色的衬衫，留着短发。一个小女孩坐在桌子上。在一个阳光明媚的日子里，两个男人站在斜坡上的滑板上。一个男人穿着黑裤子，白衬衫和黑裤子。滑板上的那个人穿着牛仔裤。男人的手臂在他面前伸展。那个男人穿着白衬衫和黑裤子。另一个人穿着白衬衫和黑裤子。这是一场棒球比赛的图像。击球手穿着一件带有黑色字母的白色制服和一顶红色头盔。击球手穿着一件带有黑色字母的白色制服和一顶红色头盔。接球手戴着红色头盔，穿着红色衬衫和黑色裤子。接球手穿着红色衬衫和灰色裤子。田野是棕色的泥土，草是绿色的。这是一个阴天的深褐色色调的图像。天空中有几朵白云。塔上有一个钟，上面有黑色的数字和数字。塔是白色与黑色装饰和黑色装饰。蓝天白云。图4.仅从几个区域生成段落的示例由于只使用了少量的区域，因此该数据对于模型来说非常不符合样本，但它仍然能够专注于感兴趣的区域，而忽略图像的其余部分最不多样化的方法，尽管所有的自动方法仍然远不如人类句子多样化，这表明有足够的改进机会。根据该多样性度量，模板方法实际上是最多样的自动化方法，这可以归因于该方法如何被硬编码以依次顺序地描述场景中的每个区域，而不管这样的输出的重要性或有趣程度如何（参见图2）。（3）第三章。虽然我们的语法方法和模板方法都能生成具有与人类paragraphs相似的名词和动词部分的文本，但只有我们的方法能够生成合理数量的代词。与模板方法相比，我们的分层方法也有更广泛的词汇表，尽管在数十万MS COCO[20]标题上训练的Sentence-Concat有点大。5.6. 从更少的区域生成段落作为一个探索性的实验，为了突出我们的模型的可解释性，我们研究了从比本工作其余部分中使用的M=50更少的区域生成相反，我们只让我们的方法访问前几个检测到的区域作为输入，希望生成的段落只关注那些特定的区域，而不描述图像的其他部分少数图像的结果如图所示。4.第一章虽然输入是非常出样本com-通过对训练数据的检验，结果还是比较合理的- 该以右上角的图像为例，尽管存在一些语言错误，但我们的模型生成的段落提到了击球手，接球手，污垢和草，它们都出现在顶部检测到的区域中，但没有注意到背景中的投手或裁判。6. 结论在本文中，我们介绍了用长的描述性段落描述图像的任务，并提出了一种利用图像和语言的组成结构的分层生成方法我们已经表明，段落生成不同于传统的图像字幕，并定制了我们的模型，以适应这些差异。实验上，我们已经证明了我们的方法的优势，传统的图像字幕方法，并显示如何区域级的知识可以有效地转移到段落字幕。我们还展示了我们的模型在可解释性方面的优势，仅使用图像区域的子集生成描述性段落我们预计，在视觉和语言的交叉点，知识转移的进一步机会，并预计视觉和语言的组合将继续躺在有效的段落生成的核心。长度长度大小句子连接56.184.7434.2332.539.740.952993模板60.817.0145.4223.2311.830.00422区域-分层70.4717.6740.9524.7713.532.131989人类67.5125.9569.9225.9114.572.424137325引用[1] P. Anderson ， B. 费尔南多 M. Johnson 和 S. 古尔德。Spice：语义命题图像字幕评价。在欧洲计算机视觉会议上，第382-398页。施普林格，2016年。[2] W. Chan，N. Jaitly，Q. V.Le和O. Vinyals听，听，拼：一种用于大词汇量会话语音识别的神经网络。InICASSP，2016.[3] A. X. Chang和C. D.曼宁代币规则：定义标记上的级联正则表达式。技术报告，CSTR 2014-02，计算机科学系，斯坦福大学，2014年。[4] X. Chen和C.劳伦斯·齐尼克。MindCVPR，2015。[5] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。EACL统计机器翻译研讨会，2014年。[6] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。[7] S. El Hihi和Y.本吉奥。分层递归神经网络-用于长期依赖性。NIPS，1995年。[8] A.法哈迪M.海杰拉提M.A.沙代吉P. 年轻的，C. Rashtchian，J.Hockenmaier和D.福赛斯每张照片都在讲述一个故事：从图像生成句子。ECCV，2010年。[9] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[10] M. Hodosh，P. Young，and J.霍肯迈尔将图像描述成帧作为排名任务：数据、模型和评估指标。Journal ofArtificial Intelligence Research，47：853[11] J. Johnson，A. Karpathy和L.飞飞DenseCap：用于密集字幕的完全卷积定位网络。在CVPR，2016年。[12] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐CVPR，2015。[13] A.卡帕西A. Joulin和L.飞飞用于双向图像句子映射的深度片段嵌入在NIPS，2014。[14] D. Kingma和J. BA. Adam：一种随机优化方法。2015年，国际会议[15] J. Koutnik，K. Greff，F. Gomez和J.施密特胡博发条式RNN InICML，2014.[16] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen ， Y. 卡兰蒂迪斯湖 J. Li ， D.A. Shamma ，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv：1602.07332，2016。[17] G. 库尔卡尔尼河谷Premraj，S.Dhar，S.Li，Y.Choi，A.C. Berg和T. L.伯格。婴儿谈话：理解和生成图像描述。CVPR，2011。[18] J. Li，M.- T. Luong和D.朱拉夫斯基用于段落和文档的分层神经自动编码器。在ACL，2015年。[19] R. Lin，S. Liu，M.杨，M. Li，M. Zhou和S.李用于文档建模的递阶递归神经网络。在EMNLP，2015年。[20] T.- Y.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D. Ra-manan，P. Dol la'r和C. L. 齐特尼克Microsoftcoco：上下文中的公共2014年，在ECCV[21] C. D. 曼宁 M. 苏尔代亚努， J·鲍尔 J. R. 芬克尔S. Bethard和D.麦克洛斯基斯坦福CoreNLP自然语言处理工具包。ACL（系统演示），第55-60页，2014年[22] J. Mao，W. Xu，Y. Yang，J. Wang，Z. Huang和A.尤尔。使用多模态递归神经网络（m-RNN）进行深度字幕。ICLR，2015年。[23] M. P. Marcus，M.A. Marcinkiewicz和B.圣托里尼建立一个大型的英语注释语料库：宾州树岸。计算语言学，19（2）：313[24] K. Papineni，S. Roukos，T. Ward和W J. Zhu. Bleu：一种机器翻译的自动评测方法。在ACL中，第311计算语言学协会，2002年。[25] C. R. Qi，H. Su，K. Mo和L.吉巴斯Pointnet：对点集进行深度学习，用于3D分类和分割。arXiv预印本arXiv：1612.00593，2016。[26] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年，在NIPS[27] A.Rohrbach ， M.Rohrbach ， W.Qiu ，秋海棠A.Friedrich，M.Pinkal和B.席勒具有可变细节级别的德国模式识别会议，第184-195页。Springer，2014.[28] K

下载后可阅读完整内容，剩余1页未读，立即下载