个性化图像字幕：通过融入风格和个性特征，吸引人类兴趣的引人入胜任务的研究

195 浏览量更新于2023-10-19 收藏 12.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1https://www.photoup.net/how-to-write-more-engaging-photo-captions/2https://www.poynter.org/news/6-tips-writing-photo-captions3”Generative” here refers to a model that generates a caption word-by-word as opposed to a retrieval model.125160通过个性化实现引人入胜的图像字幕0Kurt Shuster, Samuel Humeau, Hexiang Hu, Antoine Bordes, Jason WestonFacebook AI Research { kshuster,samueulhumeau,hexianghu,abordes,jase }@fb.com0摘要0像COCO和Flickr30k这样的标准图像字幕任务是事实性的，语调中性的，并且（对于人类来说）陈述了显而易见的内容（例如，“一个弹吉他的男人”）。虽然这样的任务对于验证机器是否理解图像的内容很有用，但对于人类来说并不具有吸引力。考虑到这一点，我们定义了一个新的任务，即“个性化字幕”，目标是通过融入可控的风格和个性特征，尽可能吸引人类的兴趣。我们收集并发布了一个包含241,858个这样的字幕的大型数据集，每个字幕都与215种可能的特征相关联。我们构建的模型结合了（i）在1.7亿个对话示例上训练的Transformer的句子表示[36]的现有工作；和（ii）在35亿个社交媒体图像上训练的ResNet的图像表示[32]。我们在Flickr30k和COCO上获得了最先进的性能，并在我们的新任务上获得了强大的性能。最后，在线评估验证了我们的任务和模型对人类具有吸引力，我们的最佳模型接近人类的表现水平。01. 引言0如果我们希望机器与人类进行交流，它们必须能够通过同时具备理解和引人入胜的能力来吸引我们的兴趣。为了使代理人能够像人类一样进行交流，它们必须展示个性并执行对话功能[21, 22, 45,23]。例如，考虑一个既能感知图像又能说话的在线对话代理人或机器人 -这些能力将被视为一个优秀的对话者所应具备的。以图像为基础的交流对人类来说自然而然地具有吸引力[18]，例如每天在线上分享和讨论的图像数量巨大。为了开发引人入胜的对话代理人，允许它们像人类一样自然地评论图像似乎是有希望的。然而，研究界目前大多数研究都只关注功能：标准图像字幕[40]要求机器生成一句描述图像的句子0场景的元素以中性的语调呈现。同样，视觉问答[4]和视觉对话[9]要求机器回答关于图像内容的事实性问题，可以是单轮或对话形式。它们评估机器是否能够对人们视为理所当然的图像进行基本感知。因此，它们对于开发理解内容的模型是有用的，但对于除非人类无法看到图像，例如由于视觉障碍[16]，否则它们不是一个有用的最终应用。标准的图像字幕任务只是陈述了显而易见的内容，并不被人类认为是引人入胜的字幕。例如，在COCO[8]和Flickr30k[57]任务中，一些字幕的例子包括“一辆大巴士停在一座非常高的建筑物旁边”和“一位屠夫正在切割动物出售”，它们以无个性、事实性的方式描述了这些图像的内容。然而，人们认为“避免陈述显而易见的内容”才是引人入胜和有效的字幕，这是在视觉研究之外给予人类字幕制作者的建议所证明的。例如，“如果新郎和新娘正在互相微笑，请不要写他们正在互相微笑。照片已经直观地展示了主题在做什么。重新表述字幕以反映图像背后的故事”。此外，被认为“以对话语言为最佳。写字幕时，就像你在和家人或朋友交谈一样”。0这些指导人类读者参与的指令似乎与标准字幕数据集存在直接的对立。在这项工作中，我们专注于通过融入个性使图像字幕对人类具有吸引力。由于没有涵盖人类各种个性范围的大型数据集存在，我们构建并发布了一个新的数据集“个性化字幕”，其中包含241,858个字幕，每个字幕都与215种不同的可能个性特征相关联。我们展示了这样的字幕比传统字幕更具吸引力。然后，我们开发了能够同时理解图像内容并为人类提供引人入胜字幕的模型架构。为了构建强大的模型，我们考虑了检索和生成的变体，并利用了最先进的技术。4http://ideonomy.mit.edu/essays/traits.html5https://multimediacommons.wordpress.com/yfcc100m-core-dataset/; [46]125170我们从视觉和语言领域都使用了艺术模块。对于图像表示，我们采用了[32]的工作，该工作使用在35亿个社交媒体图像上训练的ResNeXt架构，并将其应用于两者。对于文本，我们使用了[36]中的Transformer句子表示，该表示在17亿个对话示例上进行了训练。我们的生成模型在COCO字幕生成上取得了最新的最佳结果，而我们的检索架构TransResNet在Flickr30k数据集上获得了最高的已知R@1分数。为了使模型对人类更具吸引力，我们将这些相同的架构调整为个性化字幕任务，通过给定的个性特质对输入图像进行条件限制，在我们的新任务中取得了出色的性能，参见图1。特别是与人类字幕相比，注释者更喜欢我们的检索模型的字幕，占总数的49.5% -非常接近人类表现。然而，对于在COCO上成功但在我们的任务上失败的生成模型来说，我们的任务是一个挑战。我们相信未来的工作应该解决这个重要的开放问题。02. 相关工作0大量的研究工作致力于开发图像字幕数据集和相应的模型。在本文中，我们还在COCO [8]和Flickr30k[57]数据集上进行了实验，与一系列模型进行了比较，包括生成模型（如[50, 54, 3]）和基于检索的模型（如[15, 13,38]）。这些实验评估了模型理解图像内容的能力，但并未涉及更自然的人类交流。许多研究试图为人类读者生成更具吸引力的字幕。其中一个研究方向是使字幕个性化，例如通过使用用户级特征（如位置和年龄）[10]或读者的活跃词汇知识[42]。我们的工作不涉及这个问题。另一个研究方向是通过文字游戏（双关语）[7]或使用幽默网站的数据进行训练[55]来尝试生成有趣的字幕。我们的工作侧重于一组通用的个性特质，而不是幽默。最后，与我们的工作更相关的是试图对字幕的风格进行建模的方法。一些方法尝试以无监督的方式学习风格，因为像我们在这项工作中构建的监督数据集并不可用。因此，这些工作中的评估更具挑战性，参见例如[34]。其他方法，如[56]，使用像SentiCap[35]这样的小数据集，其中包含约800张图像，以将情感注入字幕中。[14]收集了一个稍大一些的数据集，FlickrStyle10K，其中包含10,000张图像，但只涵盖了两种风格（浪漫和幽默）。相比之下，我们的模型是在包含215种特质和约200,000张图像的个性化字幕数据集上进行训练的。我们的工作还可以与人类交流的更一般领域联系起来，不仅仅是事实性字幕，特别是图像为基础的对话。0在与人类相关的任务中，如人类评估[37]或对话中显示个性很重要的一般任务[58]，由于任务中输出的多样性，简单的基于词重叠的自动度量表现较弱[28]。因此，在本文中，我们也进行了人类评估，以衡量我们的设置和模型的吸引力。在建模方面，图像字幕的性能显然会随着图像或文本编码器的任何进展而提升，特别是前者。在本文中，我们利用了图像编码的最新进展，使用了[32]的工作，该工作在ImagenNet图像分类上提供了最先进的性能，但迄今尚未应用于字幕。对于文本编码，我们使用了基于注意力的表示的最新进展，使用了Transformers[47]，特别是它们在大规模预训练的对话检索模型中的应用，这里被调整用于我们的字幕任务。03. 个性化字幕0个性化字幕数据集是我们使用众包工作者收集的（图像，个性特征，字幕）三元组的大型集合，公开可用于 http://parl.ai/projects/personality_captions 。0个性特征大量的研究致力于产生个体的个性模型[20]，例如大五人格[1]，大二人格[1]和16PF等[6]。这些模型通常将个性投射到低维空间，例如大五人格通过权衡经验开放性、责任心、外向性、宜人性和神经质来描述个性。然而，在众包数据收集任务中，这样的描述对于标注者来说并不适用，因为他们不熟悉这些模型。我们发现使用一个“个性特征”作为单一描述符更清晰（例如“甜美”，“怀疑”，“庄严”等）。我们考虑了215种可能的个性特征，这些特征是从一个经过筛选的包含638个特征的列表中选择的，我们认为这些特征适合我们的字幕任务。这些特征被分为三类：积极的（例如甜美、快乐、雄辩、谦逊、有洞察力、机智）、中性的（例如守旧、怀疑、庄严、质疑）和消极的（例如焦虑、孩子气、批判、易变）。我们没有使用的特征的例子包括allocentric、insouciant、flexible、earthy和invisible，因为它们在描述图像字幕时很难解释。0数据收集我们使用从YFCC100M数据集中随机选择的一组图像来构建我们的训练集。125180标准字幕输出：一个盘子上有一个三明治和沙拉。我们的模型具有不同的个性特征（共215种可能的特征，这里没有全部显示）：甜美这是一个可爱的三明治。0戏剧性这个三明治看起来太美味了！天哪！0焦虑如果我吃了这个可能会让我生病。0同情我为那个胡萝卜感到非常难过，它即将被消化。0傲慢我做的食物比这个好。0乐观它会尝起来非常美味！0贪婪我愿意为这个盘子付100美元。0图1：我们的TransResNet模型与标准图像字幕模型在相同图像上根据不同的个性特征进行条件训练的比较。我们的模型是在新的个性化字幕数据集上训练的，该数据集涵盖了215种不同的个性特征。用于比较的标准字幕系统是第4.2节中描述的最佳COCO U P D OWN模型。0类型带有个性的数据集不带个性的数据集0数据集个性化字幕 FlickrStyle10K COCO Flickr30k0分割训练验证测试训练训练验证训练验证0图像数量186,858 5,000 10,000 7000 82783 40504 29000 10140字幕数量186,858 5,000 50,000 14000 414113 202654 145000 50700个性类型数量215 215 215 2 无无无无0词汇量33641 5460 16655 8889 23776 17724 17920 42830平均每个字幕的标记数11.2 10.9 11.1 14.51 11.3 11.3 13.53 13.740表1：个性化字幕数据集统计与其他字幕数据集的比较。0收集、验证和测试集，为每个选择的图像从我们的列表中均匀随机选择一个个性特征。字幕由大量的众包工作者编写，注释任务分配给他们。测试示例每个图像有5个字幕，以便计算多参考自动评估，如BLEU。在每个注释回合中，一个注释者会看到一张图像和一个特征。然后要求注释者根据个性特征在图像的背景下为图像编写一个引人入胜的话语。具体来说，他们被告知“在给定的个性特征的背景下，写一条评论...关于别人会觉得有趣的图像”。请注意，我们在这些说明中没有使用“字幕”一词，因为我们认为这样会更清楚地表达我们的意图：很少有人有写字幕的经验，他们可能会误解这个词的意思，认为它是一个事实性的中立陈述，而他们有写基于个性的引人入胜评论的经验。因此，我们的目标是引发人们更自然的话语，这是人们习惯于写作的。在本文中，我们将这些标签称为个性化字幕。字幕被限制为至少包含三个单词。强调个性特征描述的是字幕作者的特征，而不是图像内容的属性。他们还被告知不要在字幕中使用个性特征词本身。为了质量控制，众包工作者的表现进行了手动监控和删除。有关给注释者的详细说明，请参见附录中的图3。0最终的数据集统计数据如表1所示，并与我们所知的具有基于个性的字幕的最大数据集FlickrStyle10k进行了比较，从图像、示例和个性数量方面来看，FlickrStyle10k明显较小。我们还展示了标准字幕数据集COCO和Flickr30k作为参考。04. 模型0我们考虑了两类字幕预测模型：检索模型和生成模型。检索模型通过将训练集中的任何字幕作为可能的候选响应来生成字幕。生成模型通过逐字生成新的句子，以图像和个性特征为条件（使用beam搜索）。这两种方法都需要一个图像编码器。04.1. 图像编码器0我们在预训练的图像特征之上构建了这两种类型的模型，并比较了两种类型的图像编码器的性能。第一种是一个具有152层的残差网络，描述在[17]中，该网络在Imagenet[44]上进行了训练，用于对1000个类别的图像进行分类，我们在本文的其余部分中称之为ResNet152特征。我们使用了torchvision项目[33]中提供的实现。第二种是在3.5亿个Instagram图片上训练的ResNeXt 32×48d[53]，按照[32]中描述的过程进行训练，我们在本文的其余部分中称之为ResNeXt-IG-3.5B。125190作者向我们提供了他们训练好的模型的权重。这两个网络将图像嵌入到一个2048维的向量中，这是我们大多数模型的输入。在一些使用注意力的字幕生成模型中，我们通过在最后的平均池化层之前调整激活来保留特征的空间范围，从而提取具有7×7×2048维的特征。04.2.字幕生成模型0我们重新实现了三种广泛使用的最新/当前的图像字幕生成方法：S HOW T ELL [50]，S HOW A TT T ELL [54]和U PD OWN [3]。0图像和个性编码器图像表示rI是使用上述图像编码器提取的。对于S HOW TELL模型，使用图像编码器的2048维输出。对于S HOW ATT T ELL和U P DOWN模型，我们保留空间范围并使用图像编码器的7×7×2048维输出。在所有情况下，图像特征最终被减少为512维的向量。在S HOW TELL模型中，应用线性投影来实现。在S HOW A TT TELL和U P DOWN模型中，首先将图像特征线性减少到7×7×512维的张量，使用1×1卷积层。然后使用注意机制将图像特征沿着其7×7的空间范围进行加权组合，得到512维的向量。在使用个性特征的情况下，每个个性特征都由512维的向量嵌入，类似于单词嵌入，为P ERSONALITY-CAPTIONS学习一个215×512的权重矩阵。然后，将个性嵌入输入到LSTM字幕解码器中，通过在每个解码步骤中与输入单词向量进行连接。0字幕解码器在S HOW TELL中，类似于[50]，降维后的图像特征被用作LSTM模型生成输出字幕序列的第一个输入单词。在S HOW A TT TELL中，虽然整体架构与[54]类似，但我们采用了[43]建议的修改，并将注意力导出的图像特征输入到LSTM的细胞节点中。最后，我们完全按照[3]中描述的方式使用U P DOWN模型。与S HOW A TT TELL的关键区别在于使用了两个LSTM，而不是一个，其中一个负责生成注意力权重，另一个负责生成字幕。在上述所有模型中，先前预测的单词的单词向量（在适用时与个性嵌入连接）被输入到LSTM字幕解码器中，以预测当前单词，在每个字幕解码步骤中。0训练和推断我们采用两阶段训练策略来训练提出的字幕生成模型0[43]。在第一阶段，我们训练模型以优化标准的交叉熵损失。在第二阶段，我们执行策略梯度与REINFORCE以优化不可微分的奖励函数（在我们的情况下是CIDEr分数）。在推断时，我们应用波束搜索（波束大小=2）来解码字幕。04.3. 字幕检索模型0我们定义了一个简单而强大的检索架构，名为TransResNet。它通过使用图像、人格和字幕的图像、人格和文本编码器将它们投影到同一空间S中工作。0图像和人格编码器图像I的表示rI是通过使用第4.1节中描述的图像编码器的2048维输出作为多层感知机的输入，该感知机具有ReLU激活单元和最终的500维层来获得。为了利用PERSONALITY -CAPTIONS任务中的人格特征，我们嵌入每个特征以获得其表示rP ∈ R 500。然后将图像和人格表示求和。0字幕编码器每个字幕都使用Transformer架构[47]编码为相同大小的向量rC，然后是两层感知机。我们考虑一个具有4层、300个隐藏单元和6个注意力头的Transformer架构。我们可以从头开始训练，仅预训练词嵌入，即使用在维基百科上训练的fastText[5]训练的词向量进行初始化，或者预训练整个编码器。对于后者，我们遵循[36]中描述的设置：我们在包含17亿对话对的数据集上训练两个编码器，其中一个编码上下文，另一个编码下一个话语的候选项，它们的点积表示匹配程度，并且它们使用负对数似然和k个负采样进行训练。然后，我们仅使用候选编码器的权重初始化我们的系统，然后在我们的任务上进行训练。为了比较，我们还考虑了一个简单的词袋编码器（预训练或未预训练）。在这种情况下，rC ∈ R300是字幕的词嵌入的总和。在每种情况下，给定输入图像和人格特征（I，P）和候选字幕C，最终组合的得分计算如下点积：s(I，P，C) = (rI + rP) ∙ rC。0训练和推断给定一对I，P和一组候选项(c1，..，cN)，在推断时，预测的字幕是使得得分s(I，P，ci)最大化的候选项ci。在训练时，我们通过softmax传递一组分数，并训练以最大化正确响应的对数似然。我们使用500个训练样本的小批量；对于每个示例，我们使用其他元素的字幕。125200人格 One hot.1x2150字级别标记化字幕。0图像缩放为3x224x2240Resnet152 /0ResNeXt-IG-3.5B0已训练0得分0前馈神经网络2层。输入：2048。输出：5000线性层输入：215。输出：5000Transformer4层，300个隐藏单元，6个注意力头。0前馈神经网络2层。输入：300。输出：5000预训练0加法0点积0冻结0SWEET0“可爱的小猫！”0图2：我们的架构TransResNet，用于我们的检索模型。0批次中作为负样本。我们的整体TransResNet架构详见图2。05. 实验0我们首先在传统字幕数据集上测试我们的架构，以评估它们以中性语气准确描述图像内容的能力。然后，我们将相同的架构应用于P ERSONALITY -CAPTIONS，以评估它们在个性条件下生成引人注目的字幕的能力。后者使用自动度量和对引人注目性和适应性的人工评估进行测试。05.1. 传统字幕的自动评估0生成模型对于我们的生成模型，我们测试了现有模型（SHOWTELL、SHOWATTTELL和UPDOWN）的质量，以及我们的图像编码器ResNet152和ResNeXt-IG-3.5B的质量。我们在COCO字幕数据集[27]上评估了BLEU [41]、ROUGE-L[26]、CIDEr [48]和SPICE[2]，并将模型的性能与[24]的最先进模型进行比较。附录C中提供了更多的消融实验。结果如表2所示。使用ResNeXt-IG-3.5B特征训练的模型在性能上一直优于使用ResNet152特征的模型，这证明了ResNeXt-IG-3.5B在原始图像分类和检测结果[32]之外的有效性。更重要的是，我们的最佳模型（UPDOWN）在大多数指标上要么超过，要么与最先进的单模型性能[3]相媲美（尤其是CIDEr）。0检索模型我们将我们的检索架构TransResNet与COCO字幕和Flickr30k任务中的现有模型进行比较。我们评估R@1、R@5、R@10等检索指标，并将我们的模型性能与最先进的模型在[24]的设置下进行比较。结果如表3所示（有关更多详细信息，请参见附录中的COCO和Flickr30k的表9和表10）。对于我们的模型，我们发现使用ResNeXt-IG-3.5B特征可以获得更好的性能，这证明了ResNeXt-IG-3.5B在原始图像分类和检测结果[32]之外的有效性。更重要的是，我们的最佳模型（UPDOWN）在大多数指标上要么超过，要么与最先进的单模型性能[3]相媲美（尤其是CIDEr）。0相对于ResNet152，使用ResNeXt-IG-3.5B可以获得显著的改进，使用基于Transformer的文本编码相对于词袋编码也可以获得更强的性能。对文本编码器进行预训练也有很大帮助（更多关于预训练系统的分析请参见附录A）。我们的最佳模型在COCO上具有竞争力，并且在Flickr30k上领先很大的优势（我们的模型的R@1为68.4，而之前的最先进模型的R@1为56.8）。05.2. Personality-Captions上的自动评估0生成模型我们首先训练上述的字幕生成模型，而不使用个性特质。这种设置类似于标准的图像字幕生成，表4显示了我们考虑的三个字幕生成模型的排名顺序，其中UPDOWN模型最有效。最佳结果再次使用ResNeXt-IG-3.5B特征。将个性特质的嵌入添加到我们的最佳模型中，使其达到了16.5的CIDEr分数，显示了在我们的新任务中建模个性的重要性。请注意，所有分数都低于COCO字幕任务。事实上，标准的图像字幕生成试图生成与图像在语义上等效的文本描述，而PERSONALITY-CAPTIONS捕捉了一个人在与另一个人交谈时对给定图像的反应，当两者都可以看到图像时，很少只是简单地陈述其内容。PERSONALITY-CAPTIONS的输出具有更多的多样性，类似于其他人类交流任务[28]中的结果。此外，与BLEU等指标不太相关的人类判断（请参见表2和表4的顶行）因此我们在第5.3节对我们的模型进行了人类评估。0检索模型同样，我们比较了我们的检索模型TransResNet的不同配置对结果的影响。我们以R@1为指标评估模型，在每个样本中有500个候选项需要排序：从测试集中随机选择495个候选项以及真实标签。表5显示了在PERSONALITY-CAPTIONS测试集上获得的分数。再次强调，使用ResNeXt-IG-3.5B特征相对于ResNet152特征可以获得更好的性能。我们的最佳模型（UPDOWN）在大多数指标上要么超过，要么与最先进的单模型性能相媲美（尤其是CIDEr）。Human-66.321.748.485.419.8Adaptive [29]ResNet74.232.5-108.519.5Att2in [43]ResNet-33.355.3111.4-NBT [30]ResNet75.534.7-107.220.1UPDOWN [3]ResNet FRCNN79.836.356.9120.121.4UVS [25]-23.050.762.943.475.785.8sm-LSTM [19]-42.571.981.553.283.191.5VSE++ (ResNet, FT) [13]-52.980.587.264.690.095.7GXN (i2t+t2i) [15]-56.8-89.668.5-97.9125210方法图像编码器 BLEU1 BLEU4 ROUGE-L CIDEr SPICE0S HOW T ELL (我们的) ResNet152 75.2 31.5 54.2 103.9 18.40S HOW A TT T ELL (我们的) ResNet152 76.5 32.4 55.1 109.7 19.20U P D OWN (我们的) ResNet152 77.0 33.9 55.6 112.7 19.60S HOW T ELL (我们的) ResNeXt-IG-3.5B 78.2 35.0 56.6 119.9 20.80S HOW A TT T ELL (我们的) ResNeXt-IG-3.5B 78.8 35.6 57.1 121.8 20.60U P D OWN (我们的) ResNeXt-IG-3.5B 79.3 36.4 57.5 124.0 21.20表2：使用[24]的COCO标题的生成模型性能测试集0模型文本 Pre- Flickr30k COCO0训练 R@1 R@5 R@10 R@1 R@5 R@100嵌入网络 [51] - 40.7 69.7 79.2 50.4 79.3 69.40TransResNet模型变种：Transformer，ResNet152 Full 10.3 27.3 38.8 21.7 45.6 58.90词袋，ResNeXt-IG-3.5B None 50.0 81.1 90.0 51.6 85.3 93.40Transformer，ResNeXt-IG-3.5B None 55.6 83.2 90.5 64.0 90.6 96.30词袋，ResNeXt-IG-3.5B Word 58.6 87.2 92.9 54.7 87.1 94.50Transformer，ResNeXt-IG-3.5B Word 68.4 90.6 95.3 67.3 91.7 96.50表3：使用[24]的Flickr30k和COCO标题的检索模型性能。COCO标题性能是在1k图像测试集上测量的。0使用数十亿张图像训练的图像编码器的性能是可观的，我们最好的ResNeXt-IG-3.5B模型达到了77.5%，最好的Resnet152模型达到了51.7%。基于个性的条件也非常重要（有条件和无条件的最佳变体的R@1分别为77.5%和53.9%）。Transformer文本编码器也优于词袋嵌入编码器，预训练对于任何类型的编码器都有帮助。对于Transformer，整个网络的预训练效果优于仅预训练词嵌入，详见附录A。我们最好的模型TransResNet（ResNeXt-IG-3.5B）的示例预测见表6。05.3. 个性化标题的人类评估0P ERSONALITY -CAPTIONS的目标是通过模拟人类个性特征来吸引人。因此，我们在一系列人类评估研究中测试我们的任务和模型。0使用YFCC-100M数据集中的500个随机图像（不包含在个性化标题中），我们使用各种方法获取它们的标题，如下所述，包括0人类撰写的标题和模型预测的标题。我们使用一组大型的独立人类众包工作者进行两两比较：我们向每个注释者展示一张图片，并给出两个要比较的标题，然后让他们选择“此任务的目标是选择哪个评论最吸引人（有趣、引人入胜、吸引注意力）”。总共进行了2500次两两比较试验。对于两个标题都有个性化条件的实验，我们向注释者展示个性特征；否则，个性特征被隐藏。然后我们报告一个方法被选择超过另一个方法的百分比。结果见表7。0我们还收集了我们500个测试图像的传统中性（类似COCO）标题。具体来说，指令是“您将看到一张图片，您需要提供一个标题”，示例是“例如，如果您看到一张公园里被雪覆盖的树的图片，您可以写下‘一个公园里被雪覆盖的树’”。然后我们将人类撰写的个性化标题与这些中性标题进行比较。结果发现，基于个性的标题比中性标题更具吸引力，胜率为125220方法图像编码器个性 BLEU1 BLEU4 ROUGE-L CIDEr SPICE0人类基准 - 是 30.1 2.8 20.1 10.8 5.10S HOW T ELL ResNet152 否 35.6 3.6 21.5 6.0 2.20S HOW A TT T ELL ResNet152 否 37.8 4.5 23.2 9.3 3.30U P D OWN ResNet152 否 36.8 4.1 22.8 8.8 3.20S HOW T ELL ResNet152 是 39.7 7.2 25.0 9.6 1.80S HOW A TT T ELL ResNet152 是 42.7 7.2 26.8 12.4 3.80U P D OWN ResNet152 是 43.9 8.0 27.3 13.6 3.90S HOW T ELL ResNeXt-IG-3.5B 否 36.5 4.5 22.2 7.8 2.40S HOW A TT T ELL ResNeXt-IG-3.5B 否 38.5 4.9 23.5 11.4 4.00U P D OWN ResNeXt-IG-3.5B 否 38.9 4.8 23.5 12.0 4.10S HOW T ELL ResNeXt-IG-3.5B 是 38.4 7.3 24.3 9.6 1.60S HOW A TT T ELL ResNeXt-IG-3.5B 是 43.3 7.1 27.0 12.6 3.60U P D OWN ResNeXt-IG-3.5B 是 44.0 8.0 27.4 16.5 5.20表4：生成模型在 P ERSONALITY -C APTIONS 测试集上的标题性能。0文本编码器预训练图像编码器个性编码器 R@10Transformer None None 是 20.00Transformer Full None 是 25.80Transformer Full ResNet152 否 18.70词袋模型 None ResNet152 是 35.40词袋模型词 ResNet152 是 40.50Transformer None ResNet152 是 40.60Transformer Full ResNet152 是 51.70Transformer Full ResNeXt-IG-3.5B 否 53.90词袋模型 None ResNeXt-IG-3.5B 是 58.60Transformer None ResNeXt-IG-3.5B 是 65.90词袋模型词 ResNeXt-IG-3.5B 是 66.20Transformer Full ResNeXt-IG-3.5B 是 77.50表5：TransResNet检索变体在 P ERSONALITY -C APTIONS 测试集上的结果。064.5％，使用双尾二项检验具有统计学意义（ p < . 001）。0人类与模型的吸引力比较我们将第5.2节中表现最好的模型与人类创作的 PERSONALITY -C APTIONS标题进行比较。对于每个测试图像，我们都以相同的（随机选择的）个性特质作为条件，同时对人类和模型进行评估。我们在第5.2节中使用ResNext-IG-3.5B图像特征的最佳TransResNet模型几乎与人类作者相匹配，胜率为49.5%（差异不显著， p >0.6）。使用ResNet152的相同模型胜率较低，为40.9%，显示了强大的图像特征的重要性。我们尝试的最佳生成模型，使用ResNext-IG-3.5B图像特征的U P DOWN模型，胜率为20.7%，显示了检索对于吸引力的影响。0模型与模型的吸引力比较我们还直接比较了我们的模型，通过人类标注者的评估。表7中给出的结果（所有统计显著）显示了与我们观察到的相同趋势。0之前：使用ResNext-IG-3.5B的TransResNet在胜率上超过了使用ResNet152特征的相同模型，胜率为55.2%，显示了图像特征的重要性。此外，使用ResNext-IG-3.5B图像特征的TransResNet（没有文本编码器预训练，为了更公平的比较，在表中用�表示）也大大优于U P D OWNResNext-IG-3.5B，胜率为80.1%。0人类对标题相关性的评估除了我们对吸引力的评估之外，检查生成的标题是否与相应的图像和个性特质相关也很重要。为了评估这一点，我们再次对相同的500个评估图像进行了众包人类评估，我们询问标注者标题是否“适合”图像和个性特质。结果见表8。尽管人类标题生成者在适应图像方面更好（92.8%对90.2%），但TransResNet在选择适应个性的标题方面实际上超过了人类（87.7%对83.1%）。请注意，人类标题生成者并没有被明确告知他们的标题应该明确适应个性特质。尽管如此，我们的主要结论是我们的模型确实可以提供相关的标题。125230图像个性生成的评论0焦虑我喜欢猫，但我总是很害怕它们会抓我。0快乐那只猫看起来非常开心在外面。0模糊那是一只漂亮的猫。还是狮子？0戏剧性那只猫看起来很生气，可能会抓你的眼睛！0迷人噢，可爱的小猫。你真帅！0甜美我喜欢，喜欢，喜欢这些椅子！我想要大号的放在我家里！0模糊这把椅子要么被雪覆盖，要么雪被椅子覆盖。0有文化这些椅子让我想起了70年代的瑞典室内设计革命。0偏执如果有人从那些椅子上掉下来会怎么样。0过于想象那些椅子看起来像是可以放在玩偶屋里。0怀疑我想知道为什么船都停在甲板的更远处。0偏执我希望那些船不会沉没。0快乐看这个港口在这个时间多美啊！:)0傲慢那些船在这个时间不需要停靠。0谦逊我们很幸运在当地有这些船可用。0浪漫一个迷人的家，会让你回忆起过去的日子。0焦虑这个房子和这条街让我感到不安。0有创意我可以写一本关于这个美丽的老房子的小说！0甜美这个小区真可爱！0以金钱为中心现在就打电话给APR，让他们为你的房子翻新！0表6：我们最佳的TransResNet模型在个性化标题验证集上的预测。0标题类型 A W IN P ERCENTAGE 标题类型 B0人工个性化标题 64.5 35.5 人工传统标题0人工个性化标题 50.5 49.5 TransResNet（ResNeXt-IG-3.5B）0人工个性化标题 59.1 40.9 TransResNet（ResNet-152）0人工个性化标题 79.3 20.7 UpDown（ResNeXt-IG-3.5B）0TransResNet（ResNeXt-IG-3.5B） 55.2 44.8 TransResNet（ResNet-152）0TransResNet（ResNeXt-IG-3.5B）� 80.1 19.9 UpDown（ResNeXt-IG-3.5B）0表7：关于个性化标题的人工评估。各种成对比较的引人入胜程度胜率：人工注释的个性化标题 vs. 传统标题，vs.个性化标题模型变体，以及模型之间的比较。我们的最佳模型TransResNet（ResNeXt-IG-3.5B）接近于人类表现。0一组标题适合个性适合图像两者都适合0人工评估 83.1% 92.8% 80.5%0TransResNet 87.7% 90.2% 81.8%0表8：标题匹配的人工评估。06. 结论0在这项工作中，我们考虑了能够同时理解图像内容并为人类提供引人入胜的标题的模型。为了构建强大的模型，我们首先利用图像和句子编码的最新进展，创建了在标准图像标题任务上表现良好的生成和检索模型。特别地，我们在COCO数据集上实现了新的最先进的标题生成结果，并且引入了0引入了一种新的检索架构TransResNet，该架构在Flickr30k数据集上获得了已知的最高R@1得分。为了使模型对人类更具吸引力，我们将其与一组可控制的个性特质相结合。为此，我们收集了一个大型数据集P ERSONALITY - CAPTIONS，用于训练此类模型。我们展示了我们的最佳系统能够生成与人类表现在参与度和相关性方面接近的标题。一个重要的未解决问题是改进生成模型在这个任务上的表现，但目前尚未取得很好的结果。捕捉多种类型的人类情感对于朝着与人类相似的交流方式的代理人至关重要，未来的研究可能有助于推动包括更安全的聊天机器人、更好的文本生成等应用。125240参考文献0[1] A. E. Abele and B. Wojciszke.自我与他人的代理与共融. 个性与社会心理学杂志 ,93(5):751, 2007.0[2] P. Anderson, B. Fernando, M. Johnson, and S.Gould. SPICE：语义命题图像标题评估. In欧洲计算机视觉会议 , pages 382–398. Springer, 2016.0[3] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S.Gould, and L. Zh

下载后可阅读完整内容，剩余1页未读，立即下载