图像风格化字幕生成模型与自适应学习的研究

92 浏览量更新于2023-10-13 收藏 1.38MB PDF 举报

自适应学习

注意力模型

身份认证购VIP最低享 7 折!

30元优惠券

“陈天朗1[0000 - 0002 - 6355 - 6474]、张中平1、游全增3、陈芳2、王兆文2、金海林2、罗杰波11罗切斯特大学，{tchen 45，jluo}@ cs.rochester.edu，{zzhang76}@ ur.rochester.edu2Adobe Research，{cfang，zhawang，hljin}@ adobe.com3Microsoft Research，{quyou}@ microsoft.com抽象。为图像生成风格化的字幕是图像字幕领域的给定图像作为输入，它要求系统生成具有特定样式（例如，幽默的、浪漫的、积极的和消极的），同时在语义上准确地描述图像内容。在本文中，我们提出了一种新的风格化的图像字幕模型，有效地考虑到这两个要求为此，我们首先设计了一个新的LSTM变体，名为style-factual LSTM，作为我们模型的构建块它使用两组矩阵分别捕获事实知识和程式化知识，并根据先前的上下文自动学习两组的词级权重此外，当我们训练模型捕捉风格化元素时，我们提出了一种基于参考事实模型的自适应学习方法，当模型从风格化的字幕标签学习时，它向模型提供事实知识，并且可以自适应地计算在每个时间步提供多少信息我们评估我们的模型上的两个程式化的图像字幕数据集，其中包含幽默/浪漫的字幕和积极/消极的字幕，分别。实验表明，我们提出的模型优于国家的最先进的方法，而不使用额外的地面实况监督。关键词：程式化图像字幕，适应性学习，注意力模型1介绍自动生成连贯的图像字幕因其强大的适用性而引起了人们的关注，例如图片自动评论[23]和帮助盲人看到[11]。这项任务通常被称为图像字幕，它结合了计算机视觉，自然语言处理和人工智能。目前的图像字幕系统主要致力于生成客观、中性、指示性的字幕，而不需要任何风格特征，这种字幕被称为事实字幕。然而，语言的艺术性促使研究人员生成不同风格的字幕，这些字幕可以给人不同的感受2T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.Luo其中在空间上进行计算。这种“结构化”可以实现多个IP地址。例如，如图1中所示，就字幕的样式而言，字幕式可以是“罗马”或“幽默”。除此之外，在要执行操作的部分元素中，捕获类型可以是“pos i t ve”或“nega i t v e”。在没有字幕的情况下，生成具有不同风格的字幕将大大丰富字幕的表现力，使其更具吸引力。理想情况下，高性能的风格化图像字幕模型应该满足两个要求：1）它在字幕的适当位置生成适当的风格化单词/短语，2）它仍然准确地描述图像内容。专注于风格化的字幕生成，现有的最先进的工作[28][9]分别基于两个数据集训练他们的字幕模型，一个是带有成对图像和地面真实事实字幕的大型数据集，另一个是带有成对图像和风格化地面真实字幕的小型数据集根据大的事实数据集，学习模型以生成可以正确描述图像的事实字幕;根据小的程式化数据集，学习模型以通过在字幕的正确位置处并入合适的非事实单词/短语来在训练和预测过程中，如何有效地兼顾这两个方面，对于模型生成高质量的风格化字幕至关重要为了组合和保存从事实和样式化数据集两者中学习的知识，Gan etal.[9]提出了一种因子化的LSTM，它将矩阵 Wx·i分解为hreematrices（Ux·，Sx·，Vx·）。 Ux·和Vx·由具有空间性的Grundtruthhcatins支持，而Sx·由Grundtruthcatins支持。在这种情况下，Ux·、Sx·和Vx·可用于生成结构化的存储容量。由于Ux和Vx保留了在i处的公式化形式，并且Sx保留了风格化信息，因此模型可以生成对应于输入图像的风格化字幕。然而，对于训练和预测过程，因子化的LSTM无法区分是否更多地关注事实部分（即。 e.Ux· 和 Vx· ）或结构化的相对部分（即， e.SX·）。很自然，当模型专注于预测风格化单词时，它应该更多地关注风格相关部分，反之亦然。马修斯等人[28]考虑到这个问题，提出了Senticap，它由两个并行的LSTM- 一个由事实说明更新，一个由情感说明更新。当预测单词时，Senticap通过对两个LSTM的预测单词概率分布进行加权来获得结果。然而，直接使用高级别的生产能力数据库可能会导致“混乱”，因为它无法识别低级别的数据库和要素的影响。此外，Senticap通过预测当前词的情感强度来获得两个分布的权重。在该步骤中，它使用额外的地面实况词情感强度标签，这对于其他数据集不可用。在本文中，我们提出了一种新的风格化图像字幕模型。特别地，我们首先设计了一种新的风格-事实LSTM作为我们模型的核心构建块。与因子化LSTM相比，它以不同的方式组合了LSTM的事实相关和风格相关部分，并为这两个部分引入了自我注意力。更具体地，对于输入词嵌入特征和输入具有自适应学习和注意力的风格化图像字幕3事实一个男人在海滩上拿着冲浪板幽默一个男人拿着冲浪板站在沙滩上，希望没有螃蟹。浪漫一个人在沙滩上拿着他的滑雪板，希望每一粒都是雪花。积极1. 一个伟大的建筑物在一个小镇上的一张令人敬畏的照片2. 一个很好的照片霓虹灯招牌挂在商店前面。负1. 一张黑白照片，上面是一座丑陋的建筑，前面有一个愚蠢的标志2. 看到前面的建筑和霓虹灯的画面很可怕Fig. 1.程式化图像标题的示例。除了事实性字幕外，还可以有四种风格化字幕，分别对应于幽默、浪漫、积极和消极风格。LSTM的隐藏状态，我们分配两组独立的矩阵来分别捕获事实知识和程式化知识。在每个时间步，它提供一个有效的注意力机制，加权的两组参数的重要性的基础上先前的上下文信息，并结合两组参数的此外，为了帮助模型在从程式化字幕学习的同时保留事实信息，我们开发了一种自适应学习方法，该方法提供参考事实模型作为指导。在每个时间步长，模型可以基于真实风格化字幕模型和参考事实模型的输出之间的相似性，自适应地学习是更多地总的来说，这两个改进都有助于模型以更好的方式捕获和组合事实知识和程式化知识。综上所述，本文的主要贡献在于：• 我们提出了一个新的风格化图像字幕模型，其核心构建块名为风格-事实LSTM。风格-事实LSTM将两组具有动态注意力权重的参数合并到LSTM中，以自适应地调整事实和风格相关部分之间的相对注意力权重。• 我们开发了一种新的学习方法来训练程式化字幕的模型其添加参考模型的实际输出作为指导。该模型可以自动调整的基础上地面实况程式化字幕和参考模型输出的指导强度，而不使用额外的信息。• 我们的模型在图像风格字幕和图像情感字幕任务上的表现优于最先进的方法，无论是在相关性方面形象和风格的恰当性。• 我们可视化了风格-事实LSTM和自适应学习方法的相应注意力权重，并在结果中显示了可解释的2相关工作风格化图像字幕主要涉及两个研究主题：图像加帽和风格转移。在这一节中，我们提供了背景的图像字幕，注意力模型和风格转移，分别。4T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.Luo图像字幕。近年来，由于计算机视觉和自然语言处理的发展，图像字幕得到了广泛的关注。早期的图像字幕方法[8][7][18][22][19][21][6]通过组合从相应图像中提取的单词来生成这些方法的缺点是它们的性能受到经验语言模型的限制。为了缓解这个问题，开发了基于检索的框架[20][31][14][19]。首先从数据库中检索输入图像的相似性图像，然后通过使用检索到的图像的标题来生成查询图像的新描述。然而，这种方法严重依赖于图像数据库。现代方法[17][5][26][4][27][42][44][40]将图像字幕视为机器翻译问题。Vinyals等人[42]提出一种编码器-解码器框架。许多改进的方法[17][5][26][29][44][40]是基于这种编码器-解码器框架开发的。这些方法之间的差异往往在于递归神经网络的架构。注意力模型。最近注意力模型的成功[38][33][13][32][2]激励许多研究人员将视觉或语言注意力模型[44][29] [24][37][45][1]应用于图像字幕任务。自上而下的视觉注意力模型首先被广泛使用[29][43][44][39]。注意力模型通过将不同的注意力权重分配给不同的图像区域来实现更深的图像理解自下而上和自上而下的组合注意力模型[45][1]也被提出来更进一步。在[24]中，作者提出了一种新的具有视觉哨兵的自适应注意力模型。该模型不仅可以确定在图像中的哪个位置进行关注，而且可以根据不同的单词自适应地决定是否需要关注图像或LSTM解码器。在此基础上，我们提出了一种新的联合风格-事实注意体系结构，使模型能够自适应地从事实部分和风格化部分中学习。样式转移。大多数风格转移作品[10][16][30][41]都集中在图像风格转移上。这些作品利用隐藏层的Gram矩阵来测量不同风格之间的距离。与此同时，随着自然语言处理技术的发展，纯文本风格迁移也取得了突破性进展例如，Shen et al.[35]提出了一种交叉对齐方法，通过生成共享的潜在内容空间将文本转换为不同的样式。Hu等人。[15]提出了一种神经生成模型，该模型结合了变分自动编码器（VAE）和整体属性判别器，以在控制属性的同时生成句子。结合上述主题，近年来，研究者开始关注程式化图像字幕。Gan等人和Mathews等人提出StyleNet [9]和SentiCap [28]分别生成具有特定风格和情感的图像标题。沿着相同的方向，我们提出了一种新的风格化图像字幕模型，在这两项任务上都取得了很好的性能。3方法在本节中，我们正式提出了我们的风格化图像字幕模型。具体地，我们在第3.1节中介绍基本的编码器-解码器图像字幕模型。在第3.2节中，我们将风格-事实LSTM作为核心构建具有自适应学习和注意力的风格化图像字幕5不˜我们框架的一部分在第3.3节中，我们介绍了风格-事实LSTM的整体学习策略，在第3.4节中，我们描述了一种自适应学习方法，以帮助模型生成风格化的字幕，而不偏离相关的图像内容。3.1编码器-解码器图像字幕模型我们首先描述用于图像字幕生成的基本编码器-解码器模型[42]。给出图像I及其对应的字幕y ={yi，…，编码器-解码器模型最小化以下最大似然估计（MLE）损失函数：θ*= arg min Σlog p（y|I; θ）θI，y（一）其中θ表示模型的参数。通过应用链式法则，联合概率分布的对数似然可以表示如下：logp（y）=Σlogp（yt|y1，...，yt−1，I）（2）t=1其中为了方便起见，我们放弃了对θ对于编码器-解码器图像字幕模型，通常使用LSTM来对elp（yt）进行建模。|y1，...， yt−1，I）. 具体地，它可以被描述为：p（yt+1|y1，...，yt，I）=f（ht）ht=LSTM（xt，ht−1）（三）当t是LSTMatim e t的hidden e s t at e时，f（·）是将t映射成词概率分布的非线性子网络k。当t >0时，xt是词yt的词嵌入特征;当t= 0时，x0是I的图像特征。3.2风格-事实LSTM为了使我们的模型能够生成与图像内容一致的风格化标题，我们设计了风格-事实LSTM，它提供两组新的matricesSx·anddSh·作为Wx·anddWh·的对应部分，以使标题风格化。此外，在时间步长t处，自适应权重gxt和ght被同步地调整，以将判决结果调整为Wx·和Sx·以及Wh·和Sh·。结构化的线性LSTM的结构如图2所示。具体来说，风格-事实LSTM定义如下：it=σ（（gxtSxi+（1−gxt）Wxi）xt+（ghtShi+（1−ght）Whi）ht−1+bi）ft=σ（（gxtSxf+（1−gxt）Wxf）xt+（ghtShf+（1−ght）Whf）ht−1+bf）ot=σ（（gxtSxo+（1−gxt）Wxo）xt+（ghtSho+（1−ght）Who）ht−1+bo）ct=φ（（gxtSxc+（1−gxt）Wxc）xt+（ghtShc+（1−ght）Whc）ht−1+bc）ct=ft⊙ct−1+it⊙ctht=ot⊙φ（ct）（四）˜6T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.Luoct-1风格注意ht-11-ght1-gxtHTgxtGXtLSTM存储器块风格事实图二、style-factual LSTM块的说明四个权重，1−ght，1−gxt，ght和gxt被设计为控制Whi、Wxi、Shi和Sxi矩阵的比例分别其中W x和Wh是基于图像的要素内容的可选内容，而Sx和S h是基于将特定内容添加到标题中的可选内容的可选内容。在时间步t，风格-事实LSTM将ht−1馈送到两个具有一个输出节点的独立子网络中，最终在使用sigmoid单元将输出映射到（0，1）范围后计算出gxt和ght。直觉上，当模型旨在预测事实词时，gxt和ght应该接近于0，其中，该过程使得该模型基于Wx·和Wh· 来执行 w 或 d。在另一方面，当模型用于预测单词d时，gxt和ght应该接近1，这鼓励模型基于Sx和Sh来预测单词。3.3整体学习策略与[9][25]类似，我们采用两阶段学习策略来训练我们的模型。对于每个时期，我们的模型由两个独立的阶段依次训练。在第一阶段中，我们手动地将gxt和ght固定为0，从而冻结样式相关的m处Sx·和Sh·。我们将使用现代化的图像和真实的事实说明进行对比。根据[42]，对于图像-字幕对，我们首先使用预训练的CNN提取图像的深层特征，然后通过线性变换矩阵将其映射到适当的空间。对于每个单词，我们通过单词嵌入层嵌入其对应的独热向量，使得每个单词嵌入特征具有与变换后的图像特征相同的维度。在训练期间，图像特征仅在第一时间步作为输入馈送到LSTM中。在此阶段中，对于样式-事实LSTM，仅Wx和Wh被添加有任何其他用户的参数，因此集中于生成没有样式的如第3.1节所述，MLE损失用于训练模型。在第二阶段中，gxt和ght由在步骤3.2中定义的两个注意力子网络学习，因为它们是活跃的Sx和Sh，以在风格化字幕中进行区分。在这个阶段，我们使用成对的图像和地面真实风格化的标题来训练我们的模型。特别地，与第一级不同，对于静态的LSTM，在Sx和Sh处增加，其中Wx和W h固定。也就是说具有自适应学习和注意力的风格化图像字幕7log p0（S0）log p1（S1）A“女孩”...SN-1图3.第三章。我们的风格化图像字幕模型的框架在自适应学习块中，参考模型（黄色）中的样式相关矩阵被冻结。它旨在引导真正的风格-事实LSTM（蓝色）选择性地从事实信息中学习两个注意力子网络的参数与整个网络同时更新。在3.4节中，我们将提出一种新的方法来训练我们的模型，而不是只使用MLE损失。对于测试阶段，为了基于图像生成风格化的字幕，我们仍然通过子任务k s来计算gxt和ght，其中Sx·和Sh· 是有效的。经典的波束搜索方法被用来预测字幕。3.4参考事实模型的自适应学习我们的目标是生成风格化的字幕，可以准确地描述图像在同一时间。考虑到我们的风格-事实LSTM，如果我们直接使用MLElos来像在Sect3.3上那样在Sx和Shb处更新，它将只会在一些地面真实风格化的标题中更新，而不会从更大规模的地面真实事实标题中学习任何东西。这可能导致生成的风格化字幕不能很好地描述图像的情况直观地说，在特定的时间步长中，当生成的单词与风格无关时，我们鼓励模型从真实的事实字幕中学习更多，而不仅仅是少量的真实风格化字幕。出于这种考虑，我们提出了一种自适应学习方法，该模型同时学习来自地面实况风格化字幕和参考事实模型的信息，并自适应地调整其相对学习强度。在训练过程的第二阶段中，给出图像和相应的地面实况风格化字幕，除了如第3.3节通过真实模型预测风格化字幕之外，框架还给出了在参考模型上的预测的“事实版本”输出。具体而言，对于恢复模型，我们将x和gtt设置为0，其中将Sx·和Sh·作为第一个恢复存储，因此，恢复模型将在Wx·和Wh· 上输出其他数据。不包括Wx和Wh，它们是由基础设施功能实现的。CNN线性自适应学习块S0We S01-gipα*gipGIP参考模型We St风格-事实LSTM（冷冻）风格-事实LSTMKLMLE(1-gip）*MLE+α*gip *KL自适应学习块“EOS”log pn（Sn）自适应学习块WeS n-18T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.LuoSRtsRIPIPIPIPSIPRΣ在时间步t，将真实模型预测的单词概率分布表示为Pt，将参考模型预测的单词概率分布表示为Pt，我们首先计算它们的KullbackLeibler散度（KL散度）如下所示D（P t||Pt）=Pt（w）P（w）log（五）S R Sw∈WPt（w）其中W是单词vocabulary。直观地说，如果模型专注于生成一个事实的话，我们的目标是减少D（P t||P t），这使得P t类似于P t。s r s r相比之下，如果模型专注于生成程式化单词，则我们基于对应的地面实况程式化单词通过MLE损失来更新模型。为了判断当前预测词是否与风格相关，我们计算Pt和Pt的内积作为预测的实际强度S R字，我们将其表示为gt，并使用它来调整MLE和KL-发散损失。从本质上讲，gt表示单词概率分布Pt和Pt。当gt接近0时，Pt具有较高的s r ip s可能性对应于一个程式化的词，因为参考模型不有能力生成程式化的单词，这最终使gt小了在这种情况下，应给予MLE损失更高的关注权重对另一方面，当g t 如果P t大，则Pt对应于a的事实的话，我们然后给KL散度损失更高的意义。所提出的自适应学习方法的完整框架如图3所示。最后，对新的损失函数进行二次训练阶段表示如下：T T损失= −（1− g t）logP t（y t）+ α·g tD（P t||P t）（6）t=1IPsip s rt=1其中α是控制两者的相对重要性的超参数损失条款在训练过程中，g t和Pt不参与后面的请继续。Still，对于结构化的实际LSTM，仅Sx·，Sh·和S的参数更新两个注意力子网络4实验我们进行了大量的实验，以评估所提出的模型。通过标准图像字幕测量-我们将首先讨论实验中使用的数据集和模型设置。然后，我们比较和分析所提出的模型与国家的最先进的风格化的图像字幕模型的结果。4.1数据集和模型设置目前，有两个数据集与风格化图像字幕相关。首先，Gan等人[9]收集包含10K Flickr图像的FlickrStyle10K数据集具有自适应学习和注意力的风格化图像字幕9加上程式化的字幕应该注意的是，只有7K训练集是公开的。特别地，对于7K图像，每个图像被标记有5个事实说明、1个幽默说明和1个浪漫说明。我们随机选择其中的6000个作为训练集，1000个作为测试集。对于训练集，我们随机分割其中的10%作为验证集以调整超参数。第二，Mathews等人[28]提供了一个基于MSCOCO图像的图像情感字幕数据集，其中包含由正面和负面情感字幕标记的图像。POS子集包含2，873个正字幕和998个用于训练的图像，以及673个用于测试的图像中的另外2，019个字幕NEG子集包含2，468个负面字幕和997个用于训练的图像，以及另外1，509个字幕和503个用于测试的图像每个测试图像具有三个正和/或三个负字幕。在[28]之后，在训练过程中，这个情感数据集可以与82K+图像上的413K+事实句子的MSCOCO训练集[3]一起使用，作为事实训练集。我们通过CNN提取图像特征。为了进行公平的比较，对于图像情感字幕，我们通过VGG-16的倒数第二个全连接层提取4096维图像特征[36]。对于风格化图像字幕，我们通过ResNet152的最后一个池化层提取2048维图像特征这些设置与相应的作品一致与[28]相同，我们将单词嵌入特征和LSTM隐藏状态的维度设置为512（此设置适用于我们实验中的所有建议模型和基线模型对于风格字幕和情感字幕，我们使用亚当算法的模型更新的小批量大小为64的两个阶段。学习率设置为0.001。对于风格字幕，第3.4节中提到的超参数α被设置为1.1，对于情感字幕，α被设置为0.9，对于正面和负面字幕，α被设置为1.5，这导致验证集中的最佳性能。此外，对于样式字幕，我们直接将图像输入ResNet而没有归一化，这实现了更好的性能。4.2程式化图像字幕数据集实验设置我们首先评估我们提出的模型上的风格captioning数据集。与[9]一致，使用以下基线进行比较：• CaptionBot [40]：Microsoft发布的商业图像字幕系统，该系统是在大规模事实图像-字幕对数据上训练的。• 神经图像字幕（NIC）[42]：图像字幕的标准编码器-解码器模型它由训练数据集的事实图像-字幕对训练，并且可以生成事实字幕。• 微调：我们首先训练一个NIC，然后使用额外的风格化图像-标题对来更新LSTM语言模型的参数。• [9]：我们将StyleNet训练为[9]。为了进行公平的比较，与原始模型不同，原始模型仅使用程式化的标题来更新参数，第二阶段，我们用完整的风格化图像-字幕对来训练模型。它有两个并行的模型StyleNet（H）和StyleNet（R），分别生成幽默和浪漫的字幕。10T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.Luo我们的目标是生成既适当的风格化和一致的图像标题。没有明确的方法来分别衡量这两个方面。为了全面衡量它们，对于由不同模型生成的风格化字幕，我们基于地面真实风格化字幕和地面真实事实字幕计算BLEU-1，2，3，4，ROUGE，CIDEr，METEOR分数在这两种情况下的高性能将证明风格化图像字幕模型对这两种要求的有效性。因为我们以不同的方式分割数据集，所以我们重新实现所有模型并计算分数，而不是直接引用[9]。表1. BLEU-1、2、3、4、ROUGE、CIDER、METEOR评分以及基于圆形和圆形截面的模型的状态。“S F - L S T M”和“A d a p”代表结构简单的L S T M和A da p t i v e a rn g a p ro a c h。模型BLEU-1 BLEU-2 BLEU-3 BLEU-4胭脂苹果酒流星幽默/事实世代+幽默引用CaptionBot19.79.55.12.822.828.18.9NIC25.413.37.44.224.334.110.4微调（H）26.513.67.64.324.435.410.6StyleNet（H）24.111.76.53.922.330.79.4SF-LSTM（H）（我们的）26.814.28.24.924.839.811.0SF-LSTM + Adap（H）（我们的）27.414.68.55.125.339.511.0浪漫/事实世代+浪漫参考CaptionBot18.48.74.52.422.325.08.7NIC24.312.87.44.424.133.710.2微调（R）26.813.67.74.624.836.611.0StyleNet（R）25.411.76.13.523.227.910.0SF-LSTM（R）（我们的）27.414.28.14.925.037.411.1SF-LSTM + Adap（R）（我们的）27.814.48.24.825.537.511.2幽默世代+事实参考微调（H）48.031.119.912.639.526.218.1StyleNet（H）45.828.517.611.336.322.716.3SF-LSTM（H）（我们的）47.831.720.613.139.828.218.7SF-LSTM + Adap（H）（我们的）51.534.623.115.441.734.219.3浪漫世代+事实参考微调（R）46.430.420.213.538.524.018.2StyleNet（R）44.226.816.310.435.415.816.3SF-LSTM（R）（我们的）47.130.519.812.838.823.518.4SF-LSTM + Adap（R）（我们的）48.231.520.613.540.226.718.7实验结果表1示出了基于不同类型的地面实况字幕的不同模型的定量结果。考虑到对于测试集的每个图像，我们只有一个地面实况程式化标题除CIDER外，其他基于地面实况程式化字幕的测量的总体性能合理地低于[9]，因为这些测量对每个图像的地面实况字幕的数量敏感。从结果中，我们可以看到，我们提出的模型达到了最佳的性能，几乎所有的措施，无论测试程式化或事实参考。这证明了我们提出的模型的有效性此外，我们还可以看到具有自适应学习和注意力的风格化图像字幕11在我们的模型中加入自适应学习方法可以显著提高基于事实参考的分数，无论是幽默的还是浪漫的。这一点表明，该图像的预处理对图像的亲和力很强与使用MLE损失直接通过风格化指称训练模型相比，自适应学习可以引导模型以更好的方式保留事实信息，当它专注于生成非风格化单词时。图4.第一章gxt，ght和1−gip在几个例子上的可视化第二、第三和第四行对应于gxt、ght。和1-gip。第一行是输入图像。X轴示出了地面实况输出字，并且Y轴是权重。得分最高的前4个单词为红色。为了证明所提出的模型是有效的，我们在几个例子上可视化了第3节中提到的gxt，ght和1−gip的注意力权重。具体来说，我们直接将地面实况程式化字幕逐步输入到训练好的模型中，这样在每个时间步，模型都会给出一个预测的基于当前输入单词和先前的隐藏状态生成单词。此设置模拟训练过程。对于每个时间步长，图4显示了地面实况输出单词和相应的注意力权重。从第一个示例中，我们可以看到，当模型旨在预测风格化单词时，“seeing”、“the i r”、“favour i t e”、“player”、g x t（re d li ne）和d g h t（gree n li ne）明显地被预测，这表明当模型预测这些单词时，它更多地关注S x和S h i m，而能够适应风格化的形式。其他方面，它将更多地关注Wx·和Wh·，其特征是需要考虑到实际情况。另一方面，从第四行开始，当其旨在生成单词“air”、“when”、“thehir”、“favourite”时，该预识别的单词的识别能力是非常低的，但是真实模型和参考模型之间的相似性非常低，这鼓励模型通过MLE损失直接学习生成这些单词。否则它将相当注意参考模型的输出，其中包含从地面实况事实说明中学到的知识。对于其他三个示例，仍然，当生成风格化短语（即，“looking for a me”、“cel le br at the fun of chil dhood”和“thi n k sice cre am hel p”），更确切地说，结构式LS T M可以有效地为S x和S h提供更多的信息，例如12T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.Luo紫色征服蝙蝠企鹅蚊大解码格式不同像受试儿童人的这位音乐家到液体表结果天Gremlin宠物小精灵火鸡笑脸猴子似的试试开始就罢工演习保持需要通过艺术杯滑板导向器数百名游泳者胜利拥挤的十字路口爱人勇气温暖司机离开关于Border儿童人齿轮从早于一半链接代替勇气美女爱好者完美相遇挑战从齿轮约通过推孩子人边界七饲料工作者图五、不同单词的1−gip和ght的平均值左：幽默的话。右：浪漫的话语。上一篇：幽默下一篇：浪漫一个人骑着自行车做特技，试图到达外太空。一个人正骑着自行车在土路上行驶，速度快到终点线。两匹马在跑道上赛跑，要赢得比赛.两只灰狗在跑道上比赛，以最快的速度跑完终点线。一只黑白相间的狗在草地上跑来跑去抓骨头。一只黑狗跑过田野去见他的爱人。一个人像蜥蜴一样在岩壁上攀岩。一个人正在攀登一块大岩石，以征服高处。一群孩子在喷泉中嬉戏，充满了欢乐。一群孩子在喷泉边玩耍，享受着童年的快乐图六、我们的模型为不同图像生成的风格化标题的示例它将主要由相应的地面实况字来训练当生成非风格化的词时，模型在训练和预测过程中将更多地关注事实部分应该注意的是，第一个单词总是获得相对较高的gxt值。这是合理的，因为它通常是同一个词（即“a”），因此，模型不能在这一开始就学会更多地关注与事实相关的矩阵。此外，一些冠词和介词，如“a”，“of”，即使它们属于程式化短语，也具有低1−gip。这也是合理和可接受的，因为真实模型和参考模型都可以预测它，不需要将所有注意力都集中在相应的地面实况程式化单词上。为了进一步证实我们的模型成功地区分了程式化单词和事实单词，在可视化过程之后，我们计算了程式化数据集中每个单词的1-gip和ght的平均值。如图5所示，经常出现在程式化部分但很少出现在事实部分的单词被认为是最高的。例如，“gremlin”、“pokeman”、“smiley”在视频内容中，“courage”、“beauty”、“lover”在视频内容中。出现在程式化部分和事实部分中的频率相似的词类似于自然值，如“w i th”、“go”、“o f”、“a b ou t”。单词如“sw i mm e r“、“p e r s on“、“s k at e“、“c up“等，其语法成分主要集中在事实部分，而不是程式化部分，这些单词的语法得分往往较低。由于ght表示风格-事实LSTM中的风格化权重，因此ght的结果证实了风格-事实LSTM能够区分风格化和事实词。当谈到1−gip时，我们上面提到的第一类词，具有自适应学习和注意力的风格化图像字幕13仍然获得高分。然而，我们并没有观察到任何明确的边界之间的第二和第三类词的ght显示。不过，我们还是把它归因于这样一个事实：预测一个事实名词总体上比预测一个冠词或介词更困难，这使得它相应的内积更低，因此使得1−gip更高。为了使我们的讨论更直观，我们在图6中显示了由我们的模型生成的几个程式化标题。如图6所示，我们的模型可以生成准确描述相应图像的风格化标题。对于不同的图像，所生成的字幕包含适当的幽默短语，如4.3图像情感字幕数据集上的性能表2.BLEU-1，2，3，4，ROUGE，CIDER，METEOR分数的建议模型和国家的最先进的方法的情感字幕。模型BLEU-1 BLEU-2 BLEU-3 BLEU-4胭脂苹果酒流星POS测试集NIC48.728.117.010.736.655.615.3ANP-替换48.227.816.410.136.655.216.5ANP评分48.327.916.610.136.555.416.6LSTM传输49.329.517.910.937.254.117.0SentiCap49.129.117.510.836.554.416.8SF-LSTM + Adap（我们的）50.530.819.112.138.060.016.6NEG测试集NIC47.627.516.39.836.154.615.0ANP-替换48.128.817.710.936.356.516.0ANP评分47.928.717.711.136.257.116.0LSTM传输47.829.018.712.136.755.916.2SentiCap50.031.220.313.137.961.816.8SF-LSTM + Adap（我们的）50.331.020.113.338.059.716.2我们还在[28]收集的图像情感标题数据集上评估了我们的在[28]之后，我们将所提出的模型与几个基线进行了比较。ANP-Replace是基于NIC的。对于NIC生成的每个标题以类似的方式，ANP评分使用多类逻辑回归来为所选名词选择最可能的形容词LSTM-Transfer通过额外的正则化从情感数据集获得微调的LSTM [34]。Senticap实现了一个具有单词级正则化的切换LSTM，以生成风格化的字幕。应该提到的是相比之下，我们的模型只需要地面实况图像-字幕对，而不需要额外的信息。表2显示了不同模型在情感字幕数据集上的性能。所有基线的性能评分直接引用自[28]。14T.Chen，Z.Zhang，Q.You，C.Fang，Z.Wang，H.Jin，J.Luo积极负一个漂亮的客厅，有沙发和休闲椅。一群人坐在一座丑陋的建筑物前的长凳上。一只脏猫坐在马桶边上。一个漂亮的女人用网球拍打网球。一个有沙发和破窗户的客厅的糟糕景色。一盘美味的食物配上一杯好咖啡。见图7。基于我们模型的情感字幕生成示例。积极和消极的单词以红色和蓝色突出显示。我们可以看到，对于正面字幕生成，我们提出的模型的性能显着优于其他基线，几乎所有指标的得分最高对于负面字幕生成，我们的模型的性能是有竞争力的，同时优于所有其他的Senticap。总的来说，在不使用额外的地面实况信息的情况下，我们的模型在生成具有情感的图像标题方面实现了最佳性能图. 7说明了我们的模型生成的几个情感字幕，因为它可以有效地生成指定情感元素的字幕5结论在本文中，我们提出了一个新的风格化图像字幕模型。我们设计了一个风格-事实LSTM作为模型的核心构建块，它将两组矩阵馈送到LSTM中以捕获事实和风格化信息。为了让模型以更好的方式保留事实信息，我们利用参考模型，并开发了一种自适应学习方法，根据真实模型和参考模型之间的预测相似性，自适应地将事实信息添加到模型中两个程式化图像字幕数据集上的实验证明了我们提出的方法的有效性。它优于国家的最先进的模式，风格化的图像字幕，而不使用额外的地面实况信息。此外，不同的注意力权重的可视化表明，我们的模型确实可以区分的事实部分和风格化的部分的字幕自动，并调整注意力权重自适应更好的学习和预测。6确认我们要感谢纽约州通过Goergen Insti- tute for Data Science提供的支持，我们的企业赞助商Adobe和NSF Award#1704309。具有自适应学习和注意力的风格化图像字幕15引用1. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，Zhang，L. ：自下而上和自上而下关注图像字幕和 vqa 。 arXiv 预印本arXiv ：1707.07998（2017）2. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473（2014）3. C hen，X.， Fang，H.，林，T. 是的，我也是，去吧S 做吧，P Zitnick，C. L. ：Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325（2015）4. C hen，X.， Law re nceZitni ck，C. 图像字幕：再现视频代表图像字幕生成。在：Proceedings of the IEEE conference on computervisionandpat ter nregni t iti on中。pp. 24225. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在： Proceedings of the IEEE conference on computervisionandpat ter nregni t ition中。pp. 26256. 艾略特D.凯勒，F.：使用视觉依赖表示的图像描述。2013年自然语言处理经验方法会议论文集。pp. 12927. F a ng，H.，去吧S 我和我的女儿， Sriv a stav a，R. 登湖 Doll'ar，P.，乔，嗨，X.，Mitchell，M.Platt，J.，等：从字幕到视觉概念再回来

下载后可阅读完整内容，剩余1页未读，立即下载