T.Chen,Z.Zhang,Q.You,C.Fang,Z.Wang,
H.Jin,J.Luo
图像字幕。
近年来,由于计算机视觉和自然语言处理的发展,图
像 字 幕 得 到 了 广 泛 的 关 注 。 早 期 的 图 像 字 幕 方 法
[8][7][18][22][19][21][6]通过组合从相应图像中提取的单词来生成这些
方法的缺点是它们的性能受到经验语言模型的限制。为了缓解这个问
题,开发了基于检索的框架[20][31][14][19]。首先从数据库中检索输
入图像的相似性图像,然后通过使用检索到的图像的标题来生成查询
图像的新描述。然而,这种方法严重依赖
于图像数据库。 现代方法
[17][5][26][4][27][42][44][40]将
图像字幕视为机器翻译问题。Vinyals等人
[42]提出
一种编码器-解码器框架。 许多改进的方法[17][5][26][29][44][40]
是基于这种编码器-解码器框架开发的。这些方法之间的差异往往在
于递归神经网络的架构。
注意力模型。
最近注意力模型的成功[38][33][13][32][2]激励
许多研究
人员将视觉或语言注意力模型[44][29] [24][37][45][1]应用于图像字幕
任务。自上而下的视觉注意力模型首先被广泛使用[29][43][44][39]。
注意力模型通过将不同的注意力权重分配给不同的图像区域来实现更
深的图像理解自下而上和自上而下的组合注意力模型[45][1]也被提出
来更进一步。在[24]中,作者提出了一种新的具有视觉哨兵的自适应
注意力模型。该模型不仅可以确定在图像中的哪个位置进行关注,而
且可以根据不同的单词自适应地决定是否需要关注图像或LSTM解码
器。在此基础上,我们提出了一种新的联合风格-事实注意体系结
构,使模型能够自适应地从事实部分和风格化部分中学习。
样式转移。大多
数风格转移作品[10][16][30][41]都集中在图像风格
转
移上。这些作品利用隐藏层的Gram矩阵来测量不同风格之间的距
离。与此同时,随着自然语言处理技术的发展,纯文本风格迁移也取
得了突破性进展 例如,Shen et al.[35]提出了一种交叉对齐方法,通过
生成共享的潜在内容空间将文本转换为不同的样式。Hu等人。[15]提
出了一种神经生成模型,该模型结合了变分自动编码器(VAE)和整
体属性判别器,以在控制属性的同时生成句子。结合上述主题,近年
来,研究者开始关注程式化图像字幕。Gan等人和Mathews等人提出
StyleNet [9]和SentiCap [28]分别生成具有特定风格和情感的图像标题。
沿着相同的方向,我们提出了一种新的风格化图像字幕模型,在这两
项任务上都取得了很好的性能。
3
方法
在本节中,我们正式提出了我们的风格化图像字幕模型。具体地,我们
在第3.1节中介绍基本的编码器-解码器图像字幕模型。在第3.2节中,我
们将风格-事实LSTM作为核心构建