StyleNet:生成有吸引力的不同风格图像和视频字幕

190 浏览量更新于2023-10-16 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1StyleNet：使用样式甘闯1甘哲2何晓东3高建峰3邓立31清华大学国际信息学院2杜克大学，美国3微软研究院美国摘要我们提出了一个新的框架命名为StyleNet的AD-Dress的任务，产生有吸引力的标题，不同风格的图像和视频。为此，我们设计了一个新的模型组件，称为因子化LSTM，它自动提取单语文本语料库中的风格因子。然后在运行时，我们可以显式地控制字幕生成过程中的样式，从而生成具有所需样式的吸引人的视觉字幕。我们的方法通过利用两组数据来实现这一目标：1）事实图像/视频-字幕配对数据，以及2）程式化的单语言文本数据（例如，浪漫和幽默的句子）。我们的实验表明，StyleNet优于现有的方法生成不同风格的视觉字幕，在自动和人工评估指标的新收集的FlickrStyle10K图像caption数据集，其中包含10K Flickr图像与相应的幽默和浪漫的字幕。1. 介绍生成图像的自然语言描述是在计算机视觉、自然语言处理和人工智能的交叉处出现的跨学科问题。这个任务通常被称为图像字幕。它是许多重要应用的基础，例如语义图像搜索，聊天机器人中的视觉智能，社交媒体上的照片和视频共享，以及帮助人们感知周围的世界。然而，我们观察到，大多数现有的最先进的图像字幕系统生成的字幕[50，32，22，5，10，9，52，54，55，2，46]通常提供图像内容的事实描述，而风格是字幕生成过程中经常被忽视的元素。这些系统通常使用将风格与语言生成的其他语言模式混合的语言生成模型，从而缺乏明确控制风格的机制。另一方面，一个程式化的（例如，，浪漫或幽默-描述：一个人站在岩石山坡上，旁边是一堵石墙。浪漫：一个男人用攀岩来征服高处。幽默：一个人像蜥蜴一样爬上岩石。一只狗在草地上奔跑。浪漫：一只狗穿过草地去见他的爱人。幽默：一只狗在草地上奔跑，寻找丢失的骨头。图1.我们用样式来解决视觉字幕的问题给定一个图像，我们的StyleNet可以生成具有不同风格的有吸引力的图像标题。这些描写将极大地丰富字幕的表现力，使其更具吸引力。一个有吸引力的图像标题将增加更多的视觉兴趣的图像，甚至可以成为一个系统的区别商标这对于某些应用程序特别有价值，例如增加聊天机器人中的用户参与度，或启发社交媒体的照片字幕用户。图1给出了两个示例来说明问题的设置。对于顶部的图像，微软的CaptionBot [46]产生了一个标题，上面写着与此事实的标题相比，建议的StyleNet能够生成特定样式的标题。例如，如果需要浪漫风格，则将图像描述为同样，对于底部的图像，Microsoft CaptionBot会生成类似“一只狗在草地上跑”的标题相比之下，StyleNet可以用浪漫的风格来描述这一形象，例如31373138遇见他的爱人相对于目前大多数字幕系统的平面描述，风格化的字幕不仅更具表现力和吸引力，而且使图像变得更受欢迎和更容易记住。带有样式的图像字幕的任务也将促进许多现实世界的应用。例如，人们喜欢在诸如Facebook、Flickr等社交媒体上分享他们的照片。然而，用户在上传时总是很难想出一个有吸引力的标题。因此，如果机器能够根据图像的内容自动推荐有吸引力的字幕，这是有价值的。在我们的工作之前，Alexander等人。 [34]已经研究了生成具有积极或消极情绪的图像标题，其中情绪可以被视为一种风格。为了将情感融入字幕中，他们提出了一种切换递归神经网络（RNN）。训练切换RNN不仅需要成对的图像-情感标题数据，而且需要单词级监督来强调情感单词（例如，情感标题中每个词的情感强度），这使得该方法非常昂贵并且难以按比例放大。为了解决这些问题，本文提出了一个新的框架StyleNet，它能够仅使用单语风格化语言语料库（即没有配对图像）和标准的事实图像/视频字幕对来生成具有吸引力的视觉字幕。StyleNet是建立在最近开发的方法，结合卷积神经网络（CNN）与递归神经网络（RNN）的图像captioning。我们的工作也受到多任务序列到序列训练精神的激励[31]。特别地，我们引入了一种新的因子化LSTM模型，该模型可用于通过多任务训练从句子中分离事实和风格因素。然后在运行时，可以显式地合并样式因素以生成图像的不同风格化标题。我们评估一个新收集的Flickr风格化的图像标题数据集上的我们的研究结果表明，拟议的StyleNet显着优于以前的国家的最先进的图像captioning方法，通过一组自动度量和人类评估。总之，我们的工作作出了以下贡献：• 据我们所知，我们是第一个调查的问题，产生有吸引力的图像字幕的风格，而不使用监督的风格特定的图像字幕配对数据。• 我们提出了一个端到端的可训练的StyleNet框架，它可以自动从单语文本语料库中提取风格因子。在字幕生成中，可以显式地引入风格因素以生成具有所需风格的有吸引力的字幕。• 我们收集了一个新的Flickr风格化图像标题数据集。我们希望这个数据集可以帮助推进与风格的图像字幕的研究。• 我们证明，我们的StyleNet框架和Flickr风格化的图像标题数据集也可以用来产生有吸引力的视频字幕。本文的其余部分组织如下。在第二节中，我们回顾了图像字幕的相关工作。第3节介绍了分解的LSTM，这是拟议的StyleNet框架的关键构建块。我们展示了如何将因子化的LSTM应用于生成具有不同风格的有吸引力的图像我们将在第4节中介绍新收集的Flickr风格化图像标题数据集，称为FlickrStyle10K。实验设置和评价结果见第5节。第六节是论文的总结。2. 相关工作我们的论文主要涉及两个研究主题：图像字幕和无监督/半监督字幕，这将在本节中简要回顾。2.1. 图像字幕早期的图像字幕方法可以大致分为两大类。第一种是基于模板匹配[11，27，53，29，35]。这些方法从检测图像中的对象、动作、场景和属性开始，然后将它们填充到手工设计的刚性句子模板中。这些方法生成的字幕并不总是流畅和富有表现力的第二种是基于检索的方法。这些方法首先从大型数据库中检索视觉相似性图像，然后将检索到的图像的标题转换为适合查询图像[28，36，20，41]。基于查询图像的内容修改单词的灵活性很小，因为它们直接依赖于训练图像的标题，并且不能生成新的标题。最近在图像分类[26，43，40，17]，对象检测[16，15，39]和属性学习[12]中使用神经网络的成功激发了人们对使用神经网络进行图像字幕的强烈兴趣[50，32，22，5，21，10、9、52、54、55、2、46]。主要的基于神经网络的自动图像字幕方法分为两大类。第一个是基于神经机器翻译的编码器-解码器框架[42]。例如，[50]使用CNN的隐藏激活来提取全局图像特征[52]通过引入注意机制更进一步，该机制在逐个生成单词时有选择地关注图像的不同区域。[55]通过选择性地关注从图像中提取的一组语义概念以生成图像字幕，进一步改进了图像字幕结果。[54]引入了一个审阅者模块3139实现注意力机制。[51，25]已经研究了为图像中的各个区域生成密集的图像字幕。另一类工作是基于一个compo- sitional方法[10，46]。例如，[10]采用CNN检测一组语义标签，然后使用最大熵语言模型生成一组字幕候选，最后采用深度多模态相似性模型对候选进行重新排序以生成最终字幕。最近，Gan等人 [13]提出了一种新的语义组合网络，将LSTM的每个权重矩阵扩展为标签相关权重矩阵的集合，并在图像字幕上取得了最先进的结果。然而，尽管在生成流畅和准确的字幕方面取得了令人鼓舞的进展，但大多数图像字幕系统仅产生对图像的事实描述，包括人、对象、活动及其关系。使图像标题吸引人和引人注目的风格大多被忽视了。[34]提出用切换RNN模型生成积极和消极的情感字幕[14]研究为视障人士生成描述性字幕。然而，我们的工作在两个方面与他们不同首先，我们的研究集中在生成幽默和浪漫的字幕，帮助使图像字幕的吸引力和compelling在社会媒体上的应用程序。其次，我们提出的StyleNet只需要外部语言语料库作为监督，而不需要配对图像，这比切换RNN模型中使用的单词级监督便宜得多，因此更适合规模化。2.2. 半监督/无监督字幕我们的工作也与半监督和非监督视觉字幕有关。[48]研究了使用分布式语义嵌入和基于LSTM的语言模型在外部文本语料库上训练，以改善视觉字幕。[38]建议使用变分自动编码器来改进字幕。[31]提出了一种多任务序列到序列学习框架，以通过使用外部文本数据进行其他任务的联合训练来改进图像字幕。然而，他们还没有探索如何提取从外部文本数据中学习到的风格因素，以生成具有风格的有吸引力的图像标题。在最近的工作中，Mao等人。 [33]和Hendricks等人。[18]提出通过学习从看到的对象转移知识来生成对成对训练数据中看不到的对象的描述。与传递可见和不可见对象类别之间的关系不同，我们提出StyleNet将字幕生成中的风格因素从通用语言模式中分离出来，从而将从单语文本数据中学习到的风格传递给有吸引力的视觉字幕。3. 方法在本节中，我们描述了生成具有风格的吸引人的图像字幕的方法我们首先简要回顾LSTM模型以及它如何应用于图像标题[50]。然后，我们介绍了分解的LSTM模块，它作为StyleNet的构建块。最后，我们将描述StyleNet，它是通过利用图像-标题配对数据和具有特定风格的附加单语言语料库我们的StyleNet框架如图2所示。3.1. 使用LSTM长短期记忆（LSTM）[19]模型一种特殊类型的RNN，解决了传统RNN架构的消失和扩展梯度问题。LSTM架构的核心是存储单元，它在每个观察到的时间步对输入的知识进行编码，具体来说，有三个门：输入门it用于控制当前输入xt，遗忘门ft用于遗忘先前的存储器ct-1，输出门ot用于控制将存储器的多少转移到隐藏状态ht。它们共同使LSTM能够对序列数据中的长期依赖关系进行LSTM块中时间t上的门和单元更新规则定义如下：it=sigmoid（Wixxt+Wihht−1）（1）ft= sigmoid（Wfxxt+Wfhht−1）（2）ot=sigmoid（Woxxt+Wohht−1）（ 3 ） ct=tanh （ Wcxxt+Wchht−1 ）（4）ct=ft<$ct−1+it<$ct（ 5）ht=ot⊙ct（ 6）pt+1=Softmax（Cht）（7）其中⊙表示逐元素乘积。然后将隐藏状态ht馈送到Softmax中，以产生词汇表中所有单词的概率分布变量xt是输入序列在时间步t的元素，W表示要学习的LSTM参数具体地，Wix、Wfx、Wox和Wcx是应用于输入变量xt的权重矩阵，Wih、Wfh、Woh和Wch是应用于递归地更新隐藏状态的值的权重矩阵。CNN和RNN模型的字幕生成方法遵循神经机器翻译中最初使用的编码器-解码器框架[42，6，1]，其中编码器用于将源语言中的单词序列映射到固定长度的向量中，解码器一旦由该向量初始化，则用于逐个生成目标语言中的单词。在训练中，目标是3140一个男人跳入水中。CNN12N输入图像事实字幕LSTM美国0LSTM美国1LSTM美国N−1因子化LSTM12N浪漫句子一对夫妇正在庆祝他们的爱情。LSTMUSR VLSTMUSR VLSTMUSR V分解LSTM01N−112N幽默句子一个男孩像猴子一样站在树上LSTM美国LSTM美国LSTM美国因子化LSTM01N−1图2. StyleNet的框架。我们说明学习的StyleNet使用图像和事实说明配对数据，加上单语浪漫风格和幽默风格的文本语料库。在训练期间，除了样式特定因子矩阵（例如，，SF为事实风格，SR为浪漫风格，SH为幽默风格），通过多任务学习在这些数据上进行训练。以最小化给定源-目标句子对的总交叉熵损失。将该框架应用于图像字幕生成时，可以将其看作是图像到目标语言的翻译。文献[50，52，32]中常用的策略是采用预先训练的CNN模型作为编码器，将图像映射到固定维度的特征向量，然后使用LSTM模型作为解码器，基于图像向量生成字幕3.2. 因子化LSTM模块在本节中，我们描述了LSTM模型的一个变体用于图像字幕的传统LSTM主要捕获句子中单词之间的长期顺序依赖关系，但未能从语言中的其他语言模式中考虑风格为了解决这个问题，我们提出了一个分解的LSTM模块，它将传统LSTM模型中的参数Wx分解为三个矩阵Ux，Sx，Vx，如下所示：（8）设Wx∈RM×N，则Ux∈RM×E，Sx∈RE×E且Vx∈RE×N。我们将这个分解模块应用于输入权重矩阵，包括Wix、Wfx、Wox和Wcx，用于转换输入变量xt，它为标题的内容提供动力并直接影响风格我们保留递归权重矩阵，包括Wih，Wfh，Woh和Wch，它们主要捕获语言的长跨度语法依赖性，不变。因此，所提出的因子化LSTM中的存储单元和门定义如下：it=sigmoid（UixSixVixxt+Wihht−1）（ 9 ） ft=sigmoid （ UfxSfxVfxxt+Wfhhht−1）（10）ot=sigmoid（ UoxSoxVoxxt+Wohht−1 ）（ 11 ） ct=tanh（UcxScxVcxxt+Wchht−1）（ 12）ct=ftct−1+itct（ 13）ht=otct（14）pt+1=Softmax（Cht）（15）在分解的LSTM模型中，矩阵集{U}、{V}和{W}在不同的样式之间共享，这些样式被设计为对所有文本数据中的通用事实描述进行建模。然而，矩阵集合{S}是风格专用的，因此要提取文本数据中的底层风格因子。具体地，我们将SF表示为标准语言描述中的事实3141风格的因子矩阵的集合，SR表示为浪漫风格的因子矩阵的集合，并且SH表示为3142幽默风格的因素矩阵集3.3. 培训StyleNet为了学习从文本语料库中理清风格因素，我们使用了一种类似于多任务序列的方法来进行序列训练[31]。分解的LSTM模型需要优化两种任务。在第一个任务中，因子化的LSTM被训练为在给定成对图像的情况下生成事实字幕。在第二个任务中，分解的LSTM被训练为语言模型。请注意，除了特定于样式的因子矩阵之外，这两个任务的因子化LSTM的参数是共享的。因此，根据这种设计，共享参数模型的通用语言生成过程中，而风格特定的因素矩阵捕捉每个风格化的语言语料库的独特风格。跨不同任务的损失函数是词xt在每个时间步长t处的负对数似然。如图2所示，在训练过程中，LSTM将从一个初始状态开始，当使用配对图像进行训练时，该初始状态是从视觉向量转换而来的，否则将从随机噪声向量开始更具体地说，对于需要使用图像和事实字幕配对数据训练因子化LSTM模型的第一个任务，我们首先将图像编码为固定长度的向量，即，通过提取预训练CNN的激活获得的单个特征向量，然后我们通过线性变换矩阵A将其映射到用于初始化LSTM的嵌入空间对于语言端，每个词首先被表示为一个独热向量，然后通过词嵌入矩阵B被映射到一个连续空间。在训练过程中，我们只将视觉输入提供给LSTM 的第一步，遵循[50]。在训练中要更新的LSTM的参数包括用于变换图像特征的线性变换矩阵A、词嵌入矩阵B以及因子化LSTM的参数，包括共享矩阵集合{U}、{V}、{{W}，以及事实式特定矩阵集合SF。然后，我们还需要训练因子化的LSTM来捕获风格化的语言模式。在我们的多任务训练中，在第二个任务中，因子化的LSTM被训练为浪漫句子或幽默句子的语言模型。词嵌入矩阵B和参数{U}、{V}、{W}也跨具有不同样式的数据共享然而，当分别在浪漫或幽默句子上训练时，我们将仅更新浪漫风格特定矩阵集合SR或幽默风格特定矩阵集合SH由于矩阵集{S}是风格特定的，而LSTM的所有其他参数在所有任务中共享，因此模型被强制使用{S}来提取每个语言语料库中包含的独特风格因子，并使用其他参数来建模一般语言生成过程。在运行时，我们使用特定于样式的因子矩阵S加上其他共享参数集以根据等式（9）-（15）形成因子化LSTM。然后，我们提取并转换给定图像的特征向量，并将其馈送到基于factored-LSTM的解码器中，以生成具有所需风格的字幕。4. 创建Flickr风格化标题数据集为了便于对风格化图像标题的研究，我们收集了一个名为FlickrStyle10K的新数据集，该数据集是在Flickr30K图像标题数据集的基础上构建的[20]。我们将在本节的其余部分介绍此数据集的详细信息。4.1. 数据收集受以前工作的启发[4，56，20]，我们使用AmazonsMechanical Turk来收集标题注释。然而，收集具有样式的准确且有吸引力的图像它花了相当多的迭代来测试和评估用户界面和收集程式化标题的说明例如，我们首先指示注释者直接给一幅图像写一个幽默的和一个浪漫的标题。然而，我们发现很难控制在此指令下编写的字幕的质量注释者经常写一些与图像内容无关的短语或这样的数据是很难有用的，以促进建模的视觉字幕风格因素的研究。因此，我们将任务切换为编辑图像标题，而不是要求注释者直接编写新标题。我们为一个图像展示了一个标准的事实说明，然后让注释者修改说明，使其变得浪漫或幽默。我们也给出了一些事实性的字幕和相应的幽默或浪漫的修改的例子。在实践中，我们已经观察到，这些指令下的标题既与图像内容相关，又充分捕捉了所需的风格。4.2. 质量控制为了确保所收集的风格化图像caption数据集的质量我们还包括一些额外的审阅者，以通过AmazonMechanical Turk检查生成的标题的质量。每个风格化的图像标题分配三个工人，每个工人被要求对它是否具有所需的风格进行排名。而且我们只保留有两个以上点击的图片标题。我们的Flickr风格化图像标题数据集FlickrStyle10K总共包含10K个图像。我们将数据分为7K用于训练，2K用于验证，1K用于测试。对于训练集和验证集，我们为每个图像收集一个幽默标题和一个浪漫标题。作为测试集，我们收集了五个幽默和浪漫的3143浪漫参考模型BLEU-1BLEU-2BLEU-3BLEU-4胭脂苹果酒流星CaptionBot [46]NIC [50]40.442.020.221.412.712.57.67.80.360.360.260.280.1330.134微调多任务[31]43.244.121.623.712.714.37.69.50.340.360.240.290.1390.145StyleNet（女）StyleNet（R）41.246.121.424.812.115.27.710.40.360.380.240.310.1350.154幽默引用模型BLEU-1BLEU-2BLEU-3BLEU-4胭脂苹果酒流星CaptionBot [46]NIC [50]43.443.121.422.812.213.27.17.90.350.360.210.230.1340.136微调多任务[31]43.047.120.723.912.913.97.88.80.340.370.190.250.1280.148StyleNet（女）StyleNet（H）42.948.722.325.412.914.67.710.10.360.380.230.270.1350.152表1.将图像标题结果与FlickrStyle10K数据集上的基线方法进行了标题由五名独立的AMT工作人员编写，用于评估。除了新收集的风格化标题外，该数据集中的每张图像还具有5个事实标题，如Flikcr 30K数据集所提供的那样[20]。5. 实验为了验证StyleNet的有效性，我们对图像和视频字幕进行了实验。5.1. 图像字幕实验5.1.1实验装置数据集我们首先在新收集的FlickrStyle10K数据集上评估StyleNet，该数据集包含一万张带有风格化标题的Flickr图像。我们使用带有事实字幕的7K图像对于额外的文本语料库，我们使用7K风格化的标题，没有配对的图像来训练风格化的语言模型。图像和字幕预处理我们从ResNet 152模型[17]的最后一个池化层中提取2,048维特征向量，该模型在ImageNet数据集[7]上进行了预训练，然后将其转换为300维向量作为字幕的视觉输入对于字幕，我们首先构造一个单词词汇表，该词汇表由在事实字幕中出现2次以上的单词组成，并保持所有在风格化字幕中出现的单词句子中的每个单词都表示为一个独热向量，该向量仅在与单词索引对应的元素中具有值1然后，我们通过词嵌入矩阵将这个独热词向量转换为300维向量。评估指标为了评估StyleNet生成的字幕，我们使用了四个常用的图像字幕指标，包括BLEU [37]，METEOR[8]，ROUGE [30]和CIDER [47]。对于所有四个指标，更大的分数意味着更好的性能。我们通过AmazonsMechanical Turk进一步进行人体评估。我们要求评委在社交媒体上分享图片的潜在场景中选择最具吸引力的图片说明。为了评估所提出的StyleNet在生成具有样式的有吸引力的图像标题方面的性能，我们比较了四种强基线方法，即：• 神经图像标题（NIC）[50]：我们使用标准LSTM和编码器-解码器图像标题管道实现NIC。我们通过使用FlickrStyle 10 K数据集的事实图像-标题对来训练它• CaptionBot[46]：微软发布的商业图像字幕系统，它是在大规模的事实图像-字幕对数据上训练的。• 多任务[31]：我们在[31]中提出的多任务序列学习框架中实现了传统的LSTM。• 微调：我们首先使用FlickrStyle 10 K中的实际图像-标题配对数据训练图像标题模型，然后使用额外的风格化文本数据来更新LSTM语言模型的参数。实现细节我们使用Theano实现StyleNet [44]。标题和语言模型都是使用Adam [24]算法训练的。我们将图像字幕模型和风格化语言模型的批量大小分别设置为64和96;学习速率被设置为0.00023144F：一个人在土路上骑着一辆越野自行车。一个人在跑道上骑自行车，加速跑完终点线。一个男人为了避免约会迟到，在跑道上骑自行车。F：一群人站在沙滩上。一群人站在沙滩上，欣赏着大自然的美景。H：一群人站在一个湖前寻找口袋妖怪。F：空中的滑雪板运动员。一个人在滑板上表演特技来显示他的勇气。H：一个人正跳上滑雪板去外太空。一个穿红色制服的足球运动员正在踢球。R：一个穿着红色球衣的足球运动员正在努力赢得比赛。一个足球运动员跑向球，但没有理会他的队友。一个男孩跳进了游泳池。一个男孩跳进游泳池，享受着童年的快乐。H：一个男孩跳进游泳池去驱赶蚊子。一只棕色的狗和一只黑色的狗在雪地里玩耍。两只相爱的狗在雪地里玩耍。一只棕色的狗和一只黑色的狗在为一块骨头打架.图3. 由StyleNet生成的不同样式标题的示例。NICCaptionBotStyleNet（R）StyleNet（H）百分之六点四百分之七点八百分之四十五点二40.6%表2.生成的图像标题的吸引力的人类投票结果。和0.0005。我们将LSTM单元和分解矩阵的单位所有参数的初始值都是均匀分布的。对于多任务训练，我们采用交替训练方法，每个任务在一个时期内进行优化，然后切换到下一个任务。我们从图像字幕任务开始，然后转移到风格化语言建模任务。我们尝试在训练中将浪漫和幽默的风格结合起来，但没有观察到进一步的改进。训练将在30个时期内收敛。给定测试图像，我们通过使用波束大小为5的波束搜索来生成字幕。为了进行比较，我们使用了与ResNet 152相同的视觉功能，用于StyleNet和所有其他基线（CaptionBot除外）。我们通过将批处理大小设置为64来训练NIC模型，并根据验证集上的性能在20个epoch后终止训练。对于CaptionBot基线，我们直接使用由Microsoft计算机视觉API生成的标题，该API为CaptionBot提供动力[46]。我们使用与StyleNet中相同的视觉特性和词汇表来进行微调和多任务基线。对于微调模型，我们首先通过将学习率设置为0.0002来训练图像字幕模型20个epoch，然后通过将学习率设置为0.0005来训练风格化语言模型25个epoch。对于表1中报告的多任务基线，它使用与StyleNet相同的设置来实现，但将分解的LSTM模型替换为传统的LSTM模型。除了图像特征变换矩阵A之外的所有参数都在不同的任务。我们观察到，性能在30个epoch后开始5.1.2实验结果我们在表 1 中总结了实验结果。 StyleNet （ F ）、StyleNet （ R ）和 StyleNet （ H ）的符号表示使用StyleNet的标准事实字幕、浪漫风格字幕和幽默风格字幕。表1中其他基线的名称是自行解释的。在评估中，我们报告的结果使用浪漫的参考和幽默的参考。从表1中，我们观察到，（1）给定一个期望的风格，为该风格定制的StyleNet在多个自动评估指标上实现了比基线方法更好的结果;（2）StyleNet能够有效地模拟字幕生成中的风格因素，表现为相对性能方差。例如，配备了正确的风格因子矩阵的StyleNet提供了卓越的性能，而其他StyleNet变体的性能与基线相当，当标题的质量与相应的风格化参考（浪漫和幽默）作为地面真理进行测量时;（3）提出的因子化LSTM在不同指标上优于基于传统LSTM的模型，显示了因子化LSTM从语言语料库中提取风格的有效性。我们还在表2中报告了人体评价结果。对于每一张图片，我们将由 NIC 、 CaptionBot 、浪漫风格的StyleNet和幽默风格的StyleNet生成的四个标题以随机顺序呈现给评委，并要求他们选择最吸引人的标题，考虑到在社交媒体上分享带有标题的图片的场景。表2中的结果表明，近85%的评委认为StyleNet生成的标题，无论是罗马文，3145......视频StyleNet（H）StyleNet（R）百分之十七点二百分之三十九点一百分之四十三点七表3.人类投票结果的吸引力的视频字幕。一个男人正在弹吉他。浪漫：一个男人练习吉他，梦想成为摇滚明星。幽默：一个男人在弹吉他，但却跑了。图4. 由StyleNet生成的不同风格的视频字幕示例。动画风格或幽默风格比来自传统字幕系统的事实字幕更有吸引力我们进一步研究了StyleNet的输出，并在图3中展示了一些典型的示例。我们可以看到，标准事实风格的字幕只是用平淡的语言描述了图像中的事实，而浪漫风格和幽默风格的字幕不仅描述了图像的内容，而且通过生成带有浪漫色彩的短语（如恋爱中，童年的幸福，自然的美丽，赢得比赛，等）或幽默（例如摆脱蚊子，到达外太空，口袋妖怪去，骨头等）的感觉。更有趣的是，除了幽默或浪漫之外，StyleNet生成的短语与图像的视觉内容相一致，使标题具有视觉相关性和吸引力。5.2. 视频字幕为了进一步评估所提出的StyleNet框架的多功能性，我们通过使用FlickrStyle 10 K数据集和Youtube 2text数据集中的视频-字幕配对数据将StyleNet扩展到视频字幕任务[3]。5.2.1实验装置Youtube2Text是一个用于视频字幕研究的常用数据集，它包含1，970个Youtube剪辑，每个剪辑都有大约40个字幕。我们遵循[49]定义的标准分割，即，1,200个用于培训的视频我们使用在Sport 1M数据集[23]上预训练的3D CNN（C3D）[45]从空间和时间维度构建视频剪辑特征。然后，我们使用平均池化来获得视频级表示，这是一个固定维度的向量。我们使用视频级特征向量作为StyleNet的视觉输入。在语言方面，我们对描述进行预处理的方式与图像字幕任务相同。通过两种不同的变换矩阵，将视频特征向量和文本独热向量进一步变换到300维因子化LSTM的超参数和训练机制与图像字幕任务中的相同。训练在30个时期后收敛。我们将StyleNet与称为Video的基线进行了比较，Video是一种使用视频字幕配对数据的标准视频字幕模型。5.2.2实验结果我们在表3中报告了实验结果，它显示了人类对基线和StyleNet生成的视频字幕的偏好。对于每个视频片段，我们分别使用Video baseline和StyleNet的幽默和浪漫风格的字幕生成三个字幕。然后，我们将视频片段和字幕以随机顺序显示给AMT评委与图片字幕实验中的观察结果相似，我们发现超过80%的评委倾向于StyleNet生成的图片字幕，无论是浪漫风格还是幽默风格。与在视频数据上训练的基线相比，StyleNet可以从风格化的单语文本语料库中学习风格因子，并从视频字幕数据中学习，以捕获视频字幕生成过程中的事实部分我们在图4中展示了来自StyleNet的几个标题示例。我们观察到，StyleNet可以有效地控制风格，为视频生成视觉相关和吸引人的字幕。6. 结论在本文中，我们的目标是生成具有不同风格的吸引人的视觉字幕。为此，我们开发了一个端到端的可训练框架，命名为StyleNet。通过使用专门的因子化LSTM模块和多任务学习，StyleNet能够从单语文本语料库中学习风格。在运行时，可以通过分解的LSTM模块将样式因子合并到视觉字幕生成过程中。我们的定量和定性的结果表明，建议的StyleNet确实可以生成视觉相关和吸引人的标题与不同的风格。为了方便将来对这个新兴话题的重新搜索，我们收集了一个新的Flickr风格化标题数据集，将向社区发布谢谢。庄淦博士的研究得到了国家基础研究计划基金2011CBA 00300、2011CBA 00301、国家自然科学基金61033001、61361136003的部分资助。3146引用[1] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器ICLR，2015年。3[2] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔用递归神经网络进行序列预测的定时采样。在NIPS，第1171-1179页，2015年。一、二[3] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在ACL，第190-200页，2011中。8[4] X. Chen，H. 方，T.- Y. 林河，巴西-地 Vedantam、S.古普塔P. Doll a'r和C. L. 齐特尼克Microsoftcococaptions：数据收集和评估服务器。 arXiv 预印本 arXiv ：1504.00325，2015。5[5] X. Chen和C.劳伦斯·齐尼克。Mind在CVPR，第2422-2431页一、二[6] K. 乔湾，巴西-地 V. Merrienboer，C. Gulcehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。EMNLP，2014年。3[7] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，第248-255页，2009。6[8] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。在ACL，2014年。6[9] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在CVPR，第2625-2634页一、二[10] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。米切尔，J。C. Platt，etal.从标题到视觉概念再到后面。在CVPR，第1473一、二、三[11] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨，C. Rashtchian，J. Hockenmaier和D.福赛斯每一张照片都讲述了一个故事：从图像生成句子。见ECCV，第15-29页，2010年。2[12] C. Gan，T. Yang和B.龚学习属性等于多源域泛化。在CVPR，第872[13] Z.甘角，澳-地甘，X.他，Y. Pu，K. Tran，J. Gao，L.Carin和L.邓小平更视觉字幕的语义合成网络。CVPR，2017年。3[14] S. Gella和M.米切尔视觉受损图像描述的剩余多实例学习。 NIPS Women in Machine Learning Workshop ，2016。3[15] R.娘娘腔。快速R-CNN。在ICCV，第1440-1448页，2015中。2[16] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。计算机科学，第580-587页，2014年。2[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2016年。二、六[18]L. A. Hendricks，S.Venugopalan、M.罗尔巴赫河穆尼K. Saenko和T.达雷尔。深度合成字幕：3147在没有配对训练数据的情况下描述新的对象类别。CVPR，2016年。3[19] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation，9（8）：1735-1780，1997. 3[20] M. Hodosh，P. Young，and J.霍肯迈尔将图像描述成帧作为排名任务：数据、模型和评估指标。Journal ofArtificial Intelligence Research，47：853二、五、六[21] X. Jia、E.加夫韦斯湾Fernando和T. Tuytelaars引导图像字幕生成的长短时记忆模型。在ICCV，第2407-2415页，2015年。2[22] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在CVPR，第3128-3137页，2015年。一、二[23] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在Proceedings of the IEEE conference on ComputerVision and Pattern Recognition，第17258[24] D. Kingma 和 J. BA. Adam ：一种随机优化方法。ICLR，2015年。6[25] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma等人可视化基因组：使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv：1602.07332，2016。3[26] A. 克里热夫斯基岛Sutskever和G.E. 辛顿使用深度卷积神经网络进行图像网NIPS，2012年。2[27] G. 库尔卡尔尼河谷 Premraj 河谷 Ordonez ， S.Dhar ，S.Li，Y.崔A. C. Berg和T. L. 伯格。 Babytalk：理解和生成简单的图像描述。在CVPR，第1601-1608页，2011年。2[28] P. Kuznetsova ， V. Ordonez ， T. L. Berg 和 Y. 崔TREETALK ：用于图像描述的树的合成和压缩。TACL，2：351-362，2014。2[29] S. Li，G.Kulkarni，T.L. Berg，A.C. Berg和Y.崔使用网络规模的n-gram组成简单的图像描述。在ACL，2011年。2[30] C.- Y.是林书Rouge：一个用于自动评估摘要的软件包。在文本中，摘要分支如下：ACL-04研讨会论文集，第8卷，2004年。6[31] M.- T. 阿良 Q. V. Le， I. 萨茨科弗 O. Vinyals和L.皇帝多任务序列到序列学习。ICLR，2015年。二三五六[32] J. Mao，W. Xu，Y. Yang，J. Wang，Z. Huang和A.尤尔。

下载后可阅读完整内容，剩余1页未读，立即下载