多风格图像字幕生成网络

155 浏览量更新于2023-10-18 收藏 853KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4204MSCap：具有不成对风格化文本的郭龙腾1、4刘静1姚鹏2李江伟3韩青路11中国科学院自动化研究所模式识别国家重点实验室2北京科技大学3华为设备多媒体部4中国科学{longteng.guo，jliu，luhq}@ nlpr.ia.ac.cn，S20180598@xs.ustb.edu.cn，lijiangwei1@huawei.com摘要在本文中，我们提出了一个对抗学习网络的任务，多风格的图像字幕（MSCap）与标准的事实图像字幕数据集和多风格的语言语料库没有配对的图像。如何学习一个单一的模型来处理不成对数据的多风格图像字幕是一个具有挑战性和必要的任务，而在以前的工作中很少研究。提出的框架主要包括四个贡献模块，遵循典型的图像编码器。第一，样式相关字幕生成器，用于输出以编码图像和指定样式为条件的句子。其次，提出了一个字幕以对抗的方式训练字幕生成器和生成器，以实现更自然和更人性化的字幕。第三，使用风格分类器对输入句子的具体风格进行区分。此外，本文还设计了一个回译模块，利用事实字幕和风格化字幕之间的周期一致性，使生成的风格化字幕具有视觉上的最后，我们在一个包含四种字幕风格的组合数据集上进行了综合1. 介绍自动生成图像的类人字幕，即图像字幕，已经成为计算机视觉和自然语言处理交叉点的一个突出的跨学科研究问题[36，33，40]。它有许多重要的工业应用，*通讯作者风格字幕事实：一只棕色的狗在饮水。幽默：一只狗把腿伸进池塘，但害怕水。浪漫：一只棕色的狗走进浑浊的水里，小心翼翼地游回主人身边。阳性：一只可爱的狗正在一片平静的水中喝水阴性：一只又黑又丑的狗喝着一滩脏水。图1.我们的多风格图像字幕模型的示例结果。给定一个图像，我们的模型学习生成具有各种风格的有吸引力的图像标题，这些标题可以通过分配样式标签来控制。每个颜色的单词下面的句子，即。样式名称是对应于该样式的生成的标题。例如聊天机器人的视觉智能，社交媒体上的照片共享，以及视障人士的辅助设施为了生成真正的类人图像字幕，图像字幕系统需要理解视觉内容并编写具有适当语言属性的字幕然而，大多数现有的图像字幕系统集中在视觉方面，以客观、中立的方式描述视觉内容（事实字幕），而语言方面，例如，语言风格往往被忽视。事实上，语言风格[4]是人类语言中反映个性、情感和情感的一个重要因素-t. 风格通常是指语言方面，而不是4205消息内容。图1显示了给定图像的不同风格的标题，包括事实，幽默，浪漫，积极和消极。将适当的样式添加到图像标题中将极大地丰富其清晰度和吸引力，从而促进用户参与和社会互动。在风格化图像字幕方面已经做出了一些努力，包括显式地对情感词建模[25]，转换词嵌入矩阵[10]，并将问题分解为两个独立的子过程[24]等人然而，所有这些模型都是为了将图像转换为单一标题样式的标题而构建的。到目前为止，还没有一种有效的方法来同时处理多种风格。它们的低效率是因为为了学习图像和k种字幕风格之间的映射，必须训练k个不同的模型。同时，该模型只能从k中的一个特定风格中学习，而不能充分利用整个训练数据，即使存在可以从整个k风格数据中学习到的共同知识，例如。文字和图像内容之间的对应关系。为了解决这个问题，需要一种用于多风格图像字幕的单模型解决方案（MSCap）来为给定图像生成视觉上接地的和任何期望的风格化字幕，而包括图像和多风格字幕的多风格字幕资源被联合探索用于单模型训练。通常，训练这样的模型需要针对每个样式的对齐的图像样式化的标题对（配对数据）的完全注释的集合。然而，收集这种成对的多风格字幕集合是相当昂贵的，特别是当图像和风格的数量增加时。与为每个图像注释风格化的标题相比，收集没有对齐图像的风格化句子的语料库更容易和更便宜。因此，设计具有挑战性但有价值的通过除了方便可用的事实图像-字幕配对数据（例如，MS COCO [22]数据集），这激发了我们的工作。在本文中，我们提出了一个对抗学习网络来处理多风格的图像字幕生成问题，同时与事实图像字幕对，和不成对的风格化字幕。给定一幅图像及其所需的字幕风格作为输入，该模型生成相应的风格化字幕。具体来说，提出的对抗性学习框架由五个模块组成，其中第一个模块是一个典型的图像编码器，以下四个模块是本文的主要重点。首先，我们设计了一个风格相关的字幕生成器，以输出一个以编码图像和指定风格为条件的句子其次，本文提出了一个字幕识别器，用于区分输入句子的真实性。在训练过程中，判别器与生成器以对抗的方式执行，从而引导生成器生成更自然和更人性化的字幕。第三，引入风格分类器来区分输入句子的特定风格。我们还引入了一个回译模块，以确保生成的风格化的字幕是视觉接地。基本的直觉是，在描述同一图像的程式化字幕和事实字幕之间存在内容一致性给出一对图像和事实说明，如果我们生成，例如，从图像中提取幽默的文字说明，再将其翻译成事实性的文字说明，就应该得到真正的事实性文字说明。我们将此过程命名为回译，并通过多语言神经机器翻译（NMT）实现它。[14] 以多风格字幕为源语言，以事实字幕为目标语言的模式。该框架的概述如图2所示。我们使用可微分softmax近似[13]实现了w孔模型的端到端优化，该近似平滑地退火到离散情况。最后，我们使用包含五种字幕风格的组合数据集进行了综合实验：幽默、浪漫、积极、消极和事实风格。据我们所知，我们的工作是第一个成功地执行多风格的图像字幕与不成对的风格化数据。总之，本文的主要贡献是：• 我们提出了MSCap，一个统一的多风格的图像字幕模型，学习映射图像到多种风格的吸引人的字幕。该模型是端到端-在不使用受监督的样式特定的图像-字幕配对数据的情况下可训练。• 我们设计了一种新的风格相关的字幕生成器，它可以利用未配对的风格化字幕进行模型预训练。我们引入一个背面-翻译模块，用于确保生成的字幕与图像内容一致。• 我们提供了定性和定量的结果多风格和单一风格的图像字幕任务，显示了我们提出的模型的优越性。2. 相关工作2.1. 图像字幕深度学习的最新进展和大规模数据集的发布，例如。MS COCO [22]和Flickr30k [27]已经导致了端到端的可训练图像字幕模型。大多数现代图像字幕系统采用编码器-解码器框架[36，40，38，41]，其中卷积神经网络（CNN）将图像编码为视觉特征，RNN将图像特征作为输入将其解码为句子，通常通过最大似然估计进行端到端训练。已经表明，注意力机制[40，23，1]和高级属性/概念4206[42 48]可以帮助图像字幕。最近，强化学习被引入到图像字幕模型中，以直接优化特定于任务的指标[28，46]。有些作品采用GAN来生成类似人类的[29]或不同的字幕[21]。2.2. 风格化图像字幕风格化图像字幕的目标是生成风格化的、准确描述图像内容的字幕。已经提出了一些工作来解决这个任务，可以分为两类：使用并行风格化图像标题数据的模型（监督模式）[25，7，31，43]和使用非并行风格的模型化语料库（半监督模式）[10，24]。SentiCap [25]处理积极/消极风格，并提出用两个并行的长短期记忆网络（LSTM）和单词级监督来模拟单词变化。StyleNet[10]通过将输入权重矩阵分解为包含风格特定因子矩阵来处理幽默/浪漫风格。SF-LSTM [7]对上述四种字幕风格进行了实验，并提出学习两组矩阵来分别捕获事实和风格化的知识。然而，所有这些作品都是为了将图像转换为单一标题样式的标题而构建的与我们的工作更相似的是，Youet al。[43]提出了两种简单的方法来将情感注入到图像标题中，并且可以通过提供不同的情感标签来控制情感。然而，这个模型是在监督模式下训练的，而我们的模型工作在一个更硬的半监督模式下，不需要并行的风格化数据。2.3. 生成对抗网络生成对抗网络（GANs）[11]框架学习生成模型，而无需明确定义目标分布的损失函数。GAN在计算机视觉领域显示出有希望的结果，包括图像超分辨率[20]，照片编辑[6，30]，域自适应[35，5]，图像到图像的转换[26，15，9]和文本到图像翻译[45]。虽然甘-尽管在计算机视觉应用方面取得了巨大的成功，但由于离散词的不可微性使得生成器的优化变得困难，因此将其应用于序列生成任务最近，已经提出了一些技术来解决不可微的挑战[19，44，13]。在我们的工作中，我们采用了[13]中提出的方法，该方法使用连续松弛来近似离散采样过程，从而可以通过反向传播有效地优化训练过程。3. 用于多风格图像字幕的MSCap我们首先介绍我们的 MSCap 框架的概述（第二节）。3.1），然后描述了每个模块，并介绍了培训的目标和策略。3.1. 框架概述拟议的MSCap的总体框架如图2所示。它由五个基本子网组成图像编码器E、字幕生成器G、字幕生成器D、风格分类器C和回译器网络工作 T. 我们给出 f 个实际数据集 P={ （ x ，y∈f）}，其中配对图像x连同其对应的实际数据集P={（x，y ∈ f）}。标题yf，以及不成对的程式化句子的集合Pu={（ys，s）}，s∈{s1. sk}，包含k个不同的ive样式的标题，其中ys表示具有样式的风格化标题S. 我们将f个实际字幕y*f视为具有“factu- al”风格，表示为s 0，这将有助于模型训练，因为可以将大的事实字幕数据训练数据。我们将扩展的风格化语料集表示为P′={（y∈s，s）}，s∈{s0，.， sk}。给定图像x和风格标签s，我们的目标是生成句子y，使得：1）y是自然句子，2）y是风格s，并且3)（x，y）形成相关对。字幕生成器G根据编码图像特征E（x）和目标样式标签s来生成句子y，即，y=G（E（x），s）. 这句话被送入D、C和T，用于执行它，以分别满足三个要求。具体地，通过区分伪生成的字幕y和伪生成的字幕y，所有人类书写的字幕（y∈s，s∈{s0，..， sk}）。风格分类器C产生y所属的概率分布-从而计算出用于强制Y处于给定样式S中的样式分类损失。反向翻译模块T确保y在视觉上基于x。这是通过将y“翻译”回y f（i）实现的。e. T（y，s）→y（f）在c-相容性意义整个系统是端到端的训练，通过使用可微softmax近似在帽，离子发生器3.2. 图像编码器给定一个图像x，我们首先使用深度CNN对其进行编码以获得图像特征。图像特征可以是图像的静态全局池化表示[37]或空间视觉特征[40]。基于这些特征，通过直接使用静态特征或使用软注意机制自适应地从视觉特征计算[40]，获得每个时间步长的视觉上下文向量。本文利用静态特征与前人的研究成果保持一致，从而使上下文向量cv=E（x）。4207图像编码器CaptionGenerator风格化标题风格指示器事实说明文本编码器文本解码器鉴别器分类器不不不不不真/假？设计标签样式回译图2.我们的MSCap的总体框架。多风格字幕生成器将编码图像特征和风格指示符作为输入，以生成具有目标风格的字幕。然后，分别基于该分类器、分类器和反向翻译网络来计算对抗损失、风格分类损失和反向翻译损失。红色箭头表示通过可微近似实现的梯度传播。3.3. Caption Generatorcv和cl的不同权重：gt=σ（wT tanh（Wg[cl;ht]+bg）），（1）我们设计了一个依赖于风格的字幕生成器G，完全捕捉每种风格的语言属性，通过启用直接训练G与不成对的风格化字幕。ct=gt cl+（1−gt）cv，（2）其中[;]表示连接，ct是混合上下文向量，ht是LSTM的隐藏状态，σ是S形激活。c l由l t=σ（W l[w t;c v;ht]+b l）计算，c l=t t样式标签上的条件G。为了有效地注入风格在G中，我们使用（k+1）维的one-hot向量来表示k+1个不同的样式，其中每个元素表示对应的样式。我们首先将s输入到样式嵌入层，然后在每一步将得到的样式嵌入向量与输入单词嵌入向量连接起来作为LSTM的输入向量（wt）。其中，lt是门向量，mt是LSTM的记忆单元状态，wt是输入向量，σ是sigmoid激活和sigmoid表示元素级生产，t. 更高的gt意味着更多地关注语言环境。最后，将混合上下文向量ct与隐藏状态ht连接，然后将其馈送到单词分类器中，以产生可能单词的词汇表上的概率：启用未配对语料库的训练。对于不成对的风格-pt=softmax.ΣWo[ct;ht]τ、（3）化的语料库，其句法和语法规则，与成对的事实字幕不同因此，对非成对语料库的语言属性进行显式建模是有益的。然而，当前的模型通常采用这种模式无法捕捉不成对语料库的语言属性，因为没有图像的存在，模型无法训练。其中τ∈（0，1）是温度参数。当使用非成对的风格化语料库进行训练时，很自然地只将风格门转向语言上下文向量，即。gt=1，ct=cl. 在这种情况下，该模型完全依赖于语言上下文的单词预测，成为一个纯语言模型。我们通过最大化地面实况字幕的对数似然来用配对的事实数据P和未配对的风格化语料库Puθθ=argmaxE（x，yθ）∈Plogp（yθf|x，s0;θ）+为了解决这个问题，我们将G基于模式[34]和样式门（如图3（b）所示）。我们首先将视觉上下文移出LSTM，FθE（y≠s，s）∈Pulogp（y≠s|s;θ），（四）LSTM仅对语言信息进行建模。然后，我们引入了一个额外的多模态融合模块来合并视觉上下文cv和语言上下文cl以预测单词。样式门为单词预测器提供了一个回退选项，以便在图像不可用时仅依赖于cl受[23]的启发，我们设计了风格门，其中θ是G的参数，s0表示实际的样式的3.4. 对抗性损失为了使生成的字幕与真实字幕无法区分，我们采用了对抗训练，4208T（y，s）→y∈f。T是作为一个多语言的神经网络来实现的视觉上下文LSTM风格词嵌入(a) 注入模式（b）合并模式人工机器翻译（NMT）网络，其中多个程式化字幕被视为源语言，而事实字幕被视为目标语言。具体地，T包括文本编码器，其将y和目标样式标签s作为输入，以及随后的文本解码器，其将文本编码器的输出作为输入以生成句子。然后，我们将回译损失公式化为最小化事实字幕的负对数似然：图3.注入方式与合并方式的比较。我们的生成器将合并模式与风格门（（b）中的gt）合作，这使得能够直接使用未配对的语料库进行训练。Ltranss=E（x，y∈f），s[−logp（yf|G（x，s），s;T）]。（七）生成器D，其中G生成假字幕G（x，s），并且D试图将其与真实字幕区分开。对抗性损失[11]的计算公式为：Ladv=Ey[logD（y）]+Ex，s[1−logD（G（x，s））]，（5）其中y是来自P ′的真实标题，x是来自P的图像，并且s是从{s0，...， s k}。G试图最小化这个目标，而D试图最大化了另一种可能的强制循环一致性的方法是直接将y转换回图像x（或图像特征E（x））[45，47]。然而，文本到图像的合成本身就是一个艰巨的任务，到目前为止，性能还远不能令人满意。而两句之间的翻译则更为成熟和实用。3.7.完整目标最后，G、D、C和T的目标函数分别写为：LG= −λadv Ladv+λcls Lcls+λtranss Ltranss，3.5. 风格分类损失给定图像x和目标样式标签s，LD=LAdv，LC=Lcls ，LT=L反式（八）、生成的标题应该正确地拥有目标样式。为了满足这个条件，我们使用一个风格分类器C来约束生成的字幕y拥有所需的风格，即。C（G（x，s））→s. C和G的风格分类损失公式如下：L cls=Ey[−logC（s0|y）]+Ex，s[−logC（s|G（x，s））]。（六）3.6. 反向平移损失通过最小化对抗损失和分类损失（等式10），5和6），G被训练来生成类似人类的标题，并被分类为正确的目标风格。然而，最小化这两个损失并不能保证生成的字幕准确地描述其输入图像的内容，即。视觉接地。为了解决这个问题，我们引入了回译模T，对y，y∈f和x之间的关系施加了一个条件。我们从观察开始，事实的形象-字幕对（x，y）共享相同的内容信息。从这一点，生成的字幕y和图像x之间的相关性可以通过y和“地面实况”f实际字幕y f之间的相关性来近似。因此，我们限制y在句子内容的意义上与yf一致。这是通过使用将y“翻译”回yf的回翻译模块T来实现的，即，多式融合视觉上下文LSTM风格词嵌入4209其中λadv、λcls和λtranss是bal的超参数。弥补损失。3.8. 培训战略对G生成的离散样本进行对抗性训练会阻碍梯度传播。虽然可以采用基于采样的梯度估计器，如REINFORCE [39，44]，但我们发现，由于梯度的高方差，使用这些方法进行训练可能不稳定，并且由于经常需要蒙特卡洛推出，因此效率也很低。相反，我们采用胡等人提出的连续近似技术。[13]以实现整个模型的端到端优化。具体地，代替从pt（等式1）采样单个硬字（独热向量），3），我们把峰值分布向量pt本身看作是一个软字，它是G在第t步的输出，在第t+1步作为输入在第（t+1）步，我们计算单词embed-其中pt∈RN，et+1∈Rd，We∈Rd×N是词嵌入矩阵.et+1然后被馈送到LSTM中温度τ逐渐升高，随着训练的进行接近0（离散情况）。实验结果表明，该方法简单有效，具有方差小、收敛速度快的特点.在实践中，我们采用Wasserstein GAN [2]来优化对抗损失Ladv.42104. 实验装置4.1. 数据集我们对两个公开可用的风格化图像标题数据集FlickrStyle10K [10]和SentiCap [25]以及大型事实图像标题数据集MS COCO [22]进行了实验。COCO是一个大型图像字幕数据集，包含82783、40504和40775张图像，分别用于训练、验证和测试，每张图像有5个事实字幕。FlickrStyle10K包含10K带有风格化标题的Flickr图像。然而，只有7K训练集是公开的，其中每个图像分别标记有5个，1个和1个事实，幽默和浪漫风格的标题。在[7]之后，我们分别随机选择6，000和1，000个作为训练集和测试集。SentiCap是一个基于COCO图像的图像情感字幕数据集，其中包含由3个阳性和3个阴性情感字幕标记的图像。阳性和阴性子集分别包含998/673和997/503个用于训练/测试的图像。我们从每个训练分割中随机抽取100个图像进行评估。为了方便起见，我们将幽默、浪漫、积极、消极和事实风格分别称为幽默、浪漫、积极、消极和事实对于程式化数据，在训练期间，在-4.3.实现细节我们从ResNet-101的最后一个池化层中提取了2048维图像特征[12]。对于本文讨论的所有模型，字幕生成器的LSTM隐藏状态和单词嵌入的维度- s 样式嵌入的尺寸设置为20. CNOD和分类器C被实现为具有高速公路连接的CNN [16][17]。反向翻译网络T建立在两个门控递归单元（GRU）[8]网络上，它们分别用作文本编码器在解码器中采用全局注意机制[3]来决定关注源句子的哪一部分所有子网络共享相同的词嵌入和样式嵌入。我们首先使用成对的事实图像和字幕数据和未配对的风格化语料库（Eqn. 4），初始学习率为5 ×10−4。之后，我们训练整个网络，包括G，D，C和T，所有这些都根据Eqn。8.我们对所有子网络使用ADAM[18]优化器，并对G，D，C使用5×10−5的固定学习率，对T使用5×10−4的固定学习率。我们训练D比G多5倍。我们用迷你-批量为80。测试时使用波束大小为3的波束搜索我们使用固定的温度τ0。1.一、我们设定使用来自训练分割的字幕，而当在测试中，来自测试分割的图像和标题都用于对模型进行基准测试。CO的训练集λadv ，λcls和λ反式至0分别为2、1和5CO被用作配对的事实数据集P，而来自所有五种风格的字幕被用作未配对的风格化语料P′。4.2. 比较方法只有很少的作品，解决风格化的图像字幕问题与非配对数据（半监督学习），因为我们做的。我们也将自己的行为模式进行比较，EL与使用成对训练数据的模型，即，在全监督模式下学习。我们将我们的方法与以下方法进行比较：• NIC [36]：标准编码器-解码器模型。我们使用COCO的事实图像-标题对来训练它，并将其视为事实基线。• NIC-FT：我们分别使用四种风格中每一种风格的配对风格化数据对训练的NIC模型进行微调。• SF-LSTM [7]：目前的国家的最先进的监督模型的单一风格的图像字幕。• StyleNet [10]：单一风格半监督模型对输入权重矩阵进行因子分解以包含风格特定因子矩阵。我们采用这种方式--el首先用成对的事实数据对其进行预训练，然后为每种风格分别训练四个模型。5. 实验结果5.1. 生成的标题的质量我们根据与输入图像的相关性、流畅性和风格的准确性来评估生成的字幕的质量相关性对于五种风格中的每一种，测试分割中的图像风格化标题对可用于对模型进行基准标记[25，7]。我们报告了广泛使用的自动评估指标BLEU-1、BLEU-3、METE- OR和CIDER [22]。这些度量主要基于n-gram重叠，这不是用于评估风格化字幕的完美度量，因为风格化图像字幕允许更灵活地选择用于描述图像的单词和短语表1和表2分别总结了阳性/阴性和罗马/幽默风格的结果与半监督模型相比，StyleNet，我们的多风格模型在所有风格上实现了最佳性能，包括Pos，Neg，Roman和Humor.与全监督模型相比，我们的模型在Pos/Neg风格上更接近这些而在较难的罗马/幽默风格上，得分较低，因为幽默/罗马字幕通常更长，更灵活。具体而言，我们的模型在BLEU-1上获得了相当的分数，而其BLEU-3分数较低。这与我们的直觉相对应：因为BLEU-n衡量的是4211表1. Pos和Neg风格测试拆分的性能比较。未配对意味着模型使用未配对的风格化文本进行训练，即，半监督学习B@n，M，C，ppl.，cls是BLEU-n、METEOR、CIDER、困惑、风格分类的准确度（%）。对于ppl。越小越好，其他的越大越好。NIC没有没有47.616.314.955.125.622.446.916.114.854.025.423.2NIC-FT没有没有48.217.316.654.320.491.347.317.816.155.421.589.5SF-LSTM没有没有50.519.116.660.0––50.320.116.259.7––StyleNet是的没有45.312.112.136.324.845.243.710.610.936.625.056.6MSCap是的是的46.916.216.855.319.692.545.515.416.251.619.293.4表2.罗马风格和幽默风格的测试分裂的性能比较模型Un-配对多-风格浪漫幽默B@1 B@3MCppl.clsB@1 B@3MC ppl.clsNIC没有没有25.17.010.633.061.624.325.57.29.733.557.125.5NIC-FT没有没有26.97.511.035.427.782.626.37.410.235.131.880.1SF-LSTM没有没有27.88.211.237.5––27.48.511.039.5––StyleNet是的没有13.31.54.57.252.937.813.40.94.311.348.141.9MSCap是的是的17.02.05.410.120.488.716.31.95.315.222.791.3对于n-grams，半监督模型很难实现长短语的精确匹配，例如，3克表3.消融研究结果。每个指标的得分是其在四种风格上的平均得分（例如，正、负、幽默、罗马）。流畅性我们根据目标样式来评估生成的标题- s的流畅性。我们使用语言建模工具SRILM [32]来测试生成句子的流畅性。SRILM使用在相应语料库上训练的三元语言模型计算生成的句子的困惑度。我们在每个风格化的语料库上训练这样的语言模型，并计算困惑度分数（表示为ppl。），以查看每种样式的生成字幕每个模型。标题索引的较低困惑分数-cates它是更流畅和适当的风格化。再-结果如表1和表2所示（见第2页）。列）。正如我们所看到的，我们的方法在所有风格中保持了最低的困惑特别是，我们的模型保持了比StyleNet更好的流畅性。风格准确性我们根据预先训练的风格分类器来衡量生成的字幕具有正确目标风格的频率。为此，我们使用TextCNN [16]作为一个时尚评判者。它在P ′数据集上训练，达到了97的近乎完美的准确率。百分之八样式分类准确性的结果（表示为cls. ）见表1和表2（见cls.列）。可以看出，在所有风格中，我们的模型在所有方法中达到了最高的风格分类精度，包括oracle方法，NIC-FT。模型Un-配对多-风格积极B@1 B@3M负C ppl.clsB@1 B@3 M C ppl.cls模型苹果酒困惑↓样式符合%NIC43.942.423.9NIC-FT45.125.485.9StyleNet22.937.745.4MSCap33.120.591.5MSCap w/o adv.14.657.166.7MSCap w/o cls.20.549.630.0MSCap w/o trans.7.7213.696.0MSCap w/o XE。30.322.288.74212人工评价自动评价指标不能完全反映用户心目中风格化字幕的质量。因此，我们在流畅性，相关性和风格适当性方面对生成的字幕进行人工评价。我们从测试集中随机选择了50个图像，并为每个图像，总共产生50×4的图像-字幕对进行评估。我们请了10名志愿者给这些字幕打分。志愿者们被要求对生成的字幕进行流畅性、相关性和风格恰当性的排名。流畅度从0（不可读）到3（完美）。相关性评级为0（无关）至3（非常相关）。风格适当性是指标题是否适当地拥有所需的风格，评级从0（差）到3（完美）。每种风格的得分及其平均值见表4。正如我们所看到的，我们的MSCap率在1。92磅2。624213事实罗马幽默POSNeg图4.由MSCap生成的程式化标题的示例。每一列显示一个图像及其对应的标题，而每行的标题对应于一种标题样式：事实的、浪漫的、幽默的、积极的和消极的。表4.根据流畅性、相关性和风格适当性对生成的字幕进行人工评估。风格POSNeg罗马幽默Avg.流利2.622.432.122.042.30相关性2.462.372.021.922.19风格2.332.282.122.062.20在所有风格中的所有项目上，最高分为3分，可视为满意。5.2. 消融研究我们进行消融研究，以显示有多少的MSCap的每个组成部分对字幕质量的贡献具体-从逻辑上讲，我们从生成器的目标函数（等式中的LG）中去除了对抗损失（Ladv）、分类损失（Lcls）和反向平移损失（Ltranss）8），denot- ed as w/o adv. ，w/o。 cls ，W/O。译分别表示为了显示我们设计的生成器的效果，它可以直接使用未配对的文本进行训练（Eqn. 4），我们训练了另一个MSCap模型，该模型在XE训练期间仅使用配对数据，表示为w/o XE。. 结果是summa-在表3中列出。正如我们所看到的，没有Ladv，模型在几乎所有指标上的表现都很差。我们发现其输出的句子大多是不流利的，其中包含许多重复的单词，如“nice nice day”，“a a boy”。如果没有Lcls，该模型的风格分类准确率非常低，表明它无法生成风格化的所需样式的标题在没有L反式的情况下，虽然模型的困惑度最低，风格准确度最高，但CIDER得分显著下降。这是因为虽然每个句子都很流利，然而，程式化的标题不是与图像相关的事件。同时，我们发现大量的字幕是相同的. 实验结果验证了回译模块在增强字幕与图像相关性方面的重要性和有效性没有预先训练的不成对的风格化文本（w/o XE。），模型的性能在所有指标上都下降。我们推断，对未配对的风格化文本进行预训练有助于生成器更好地捕获风格化数据的语言属性。5.3. 示例结果在图4中，我们展示了由MSCap生成的四个示例标题我们可以看到，标题是流畅的，相关的图像，也正确的风格化与目标风格。例如，第一图像的标题包含与期望的风格（分别为事实、浪漫、幽默、积极和消极风格）很好地匹配的词（6. 结论我们提出了MSCap，一个多风格的图像captioning模型训练使用不成对的风格化语料库。M-SCap可以生成人性化、适当风格化、视觉接地和风格可控的字幕。此外，MSCap是一个单一的统一模型，可以轻松地扩展到更多的标题样式。大量的实验证明了MSCap的有效性。确认本研究得到了国家自然科学基金（ 61872366 和61472422）和北京市自然科学基金（4192059）的资助。一名男子在室内滑滑板时对着人们微笑。两只长颈鹿正站在室外一座建筑物附近。一个人骑着滑雪板滑下积雪覆盖的斜坡。一只大象在草地和树林里。布朗一个男人在房间里跳滑板，为自己的成就感到自豪。两只长颈鹿在田野里散步，探索森林。一个穿着黑色夹克的人正跳过一座被雪覆盖的山去体验生活的刺激。一头小象正穿过草地去见他的爱人。一人并技巧滑板炫耀。对他两只饥饿的长颈鹿站在地里找东西吃。一个孤独的滑雪者走下一座雪山，想着可爱的女士滑雪者。一头大象在草地上保持平衡。一个年轻人在他的滑板上做特技的伟大形象。在一个令人愉快的公园里，两只长颈鹿靠在美丽的树上。一个令人惊奇的人站在他的滑雪板在一个多雪的小山上。一只大象站在草地上享受美好的一天。一个贫穷的男孩在拥挤的房间里玩滑板。在的两只长颈鹿靠着一棵断树和一片枯草。一个人站在他的破滑雪板在肮脏的雪。一只可怜的大象正在接近一片死地。4214引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。arXiv预印本arXiv：1707.07998，2017。[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[4] 艾伦·贝尔语言风格作为受众设计。社会中的语言，13（2）：145[5] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络-S.在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。[6] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。使用内省对抗网络进行神经照片编辑。arXiv预印本arXiv：1609.07093，2016。[7] Tianlang Chen ， Zhongping Zhang ， Quanzeng You ，Chen Fang ， Zhaowen Wang ， Hailin Jin ， and JieboLuo.“事实”或”情感”：具有自适应学习和注意力的风格化图像字幕。arXiv预印本arXiv：1807.03871，2018。[8] KyunghyunCho，BartVanMerrieünboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoonge Bengio. 使用rn-n编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。arXiv预印本，1711年，2017年。[10] Chuang Gan，Zhe Gan，Xiaodong He，Jianfeng Gao，and Li Deng. Stylenet：使用样式生成有吸引力的视觉标题。在Proc IEEE Conf on Computer Vision and PatternRecognition，第3137-3146页[11] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在神经信息处理系统的进展，第2672[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。计算机视觉和模式识别，第770-778页[13] 胡志廷，杨子超，梁晓丹，鲁斯兰·萨拉胡特-迪诺夫，邢鹏.控制文本的生成arXiv预印本arXiv：1703.00955，2017年。[14] MelvinJohnson ， Mike Schuster ， Quoc V Le ， MaximKrikun ， YonghuiWu ， ZhifengChen ， NikhilThorat ，FernandaVie‘gas，Martin Wattenberg，Greg Corrado，et al.谷歌的多语言神经机器翻译系统：实现零发射平移。arXiv预印本arXiv：1611.04558，2016年。[15] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现跨域关系4215生成对抗网络。arXiv预印本arX- iv：1703.05192，2017年。[16] 金允。用于句子分类的卷积神经网络arXiv预印本arXiv：1408.5882，2014。[17] Yoon Kim、Yacine Jernite、David Sontag和AlexanderM Rush。字符感知神经语言模型。在AAAI，第2741-2749页[18] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] 我是 J·K·usne ， BrooksPaige ，还有 Jo 和 MiguelHerna'ndez-Lobato. 语法变分自动编码器。 arXiv 预印本arXiv：1703.01925，2017。[20] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero，Andrew Cunningham，Alejandro Acosta，Andrew P Aitken ，Alykhan Tejani，Johannes Totz，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，第2卷，第4页，2017年。[21] Dianqi Li，Xiaodong He，Qiuyuan Huang，Ming-TingSun，and Lei Zhang.通过比较对抗学习生成多样化和准确的视觉字幕。arXiv预印本arXiv：1804.00861，2018。[22] Tsungyi Lin，Michael Maire，Serge J Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Dollar，and C La

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多风格图像字幕生成网络

简单写个图像字幕生成代码

卡通风格人脸图像生成的研究意义

卡通风格图像生成技术概述

基于生成对抗网络的图像风格迁移系统设计

卷积神经网络的图像生成

基于生成对抗网络特征统计混合正则化的图像风格迁移算法

如何评价风格迁移的图像生成效果

labelbox如何结合blip2生成预处理图像字幕，具体步骤

对抗生成网络用于图像增强

生成对抗网络是如何实现图像生成的

GAN在图像生成方面的应用

图像降噪生成对抗网络方法的特色是什么

基于生成对抗网络的文本图像生成方法

图像生成网络具体都有哪些

生成对抗网络图像修复实例

写出基于昇腾CANN的卡通图像生成网络

条件生成对抗网络与图像翻译

基于图像迭代的图像风格迁移算法

5253-微信小程序基于springboot汽车维修管理系统微信小程序springboot（源码+数据库+lun文）.zip

最新资源