没有合适的资源?快使用搜索试试~ 我知道了~
1基于自注意和对比特征的上下文感知字幕组Zhuowan Li1张,Quan Tran2张,Long Mai2张,Zhe Lin2张,Alan Yuille1张{zli110,alan.yuille}@ jhu.edu{qtran,malong,zlin}@ adobe.com摘要虽然图像字幕的发展迅速,现有的工作主要集中在描述单一的图像。在本文中,我们介绍了一个新的任务,上下文感知的组字幕,其目的是描述一组目标图像的背景下,另一组相关的参考图像。上下文感知的组字幕不仅需要从目标图像组和参考图像组中总结信息,而且还需要对它们进行对比。针对这一问题,本文提出了一种自注意机制与对比特征构建相结合的框架,有效地从每个图像组中总结出共同信息,同时捕捉它们之间的区别性信息。为了构建这个任务的数据集,我们建议将图像分组,并使用场景图匹配基于单个图像标题生成组标题我们的数据集构建在公共概念标题数据集和新的股票标题数据集之上。在两个数据集上的实验表明了该方法的有效性。11. 介绍从图像生成自然语言描述,通常称为图像字幕的任务,长期以来一直是计算机视觉研究中的一个重要问题[3,15,29]。它需要从语言和视觉两方面都有很高的理解水平。近年来,由于联合语言-视觉理解模型的进步,图像字幕吸引了大量的研究关注[1,19,39,54]。虽然图像字幕的发展迅速,现有的工作主要集中在描述单个图像。存在其中期望成组地对图像加字幕的实际场景示例包括汇总个人相册以进行社交共享或从查看或单击的图像中了解Web用户意图。此外,通常的情况是,要被加字幕的目标图像组不被加字幕。这项工作是在第一作者在Adobe实习期间完成的1 相 关 数 据 集 和 代 码 发 布 于 https : //lizw14 。github.io/project/groupcap.图1.上下文组件组字幕。给定一组目标图像(橙色框中所示)和一组提供上下文(女性)的参考图像,目标是生成最好地描述目标组的语言描述(戴牛仔帽的女性),同时考虑参考组所描述的上下文。urally属于提供上下文的更大集合。例如,在基于文本的图像检索应用中,给定一组用户感兴趣的图像和搜索引擎返回的其他图像,我们可以通过对比这两组图像来预测用户隐藏的图1显示了这种场景的一个示例。在搜索查询woman返回的所有图像中,用户可以指示他/她对某些图像的兴趣目标是识别用户想要戴牛仔帽的女人,并相应地建议查询。受这些现实世界的应用程序的启发,我们提出了上下文感知的组字幕的新问题:给定一组目标图像和一组参考图像,我们的目标是生成一个语言描述,最好地描述了目标组的参考组的上下文中COM-除了传统的单图像为基础的captioning设置首先,字幕模型需要有效地总结图像组的共同属性。其次,模型需要准确地描述区分度,3440目标群体说明:戴牛仔帽的女人上下文3441将所述目标图像中的内容与所述参考图像进行比较。为了满足这些要求,我们开发了一个基于学习的框架,上下文感知的图像组字幕的基础上自我注意和对比特征建设。为了从图像组中提取有效概括视觉信息的特征,我们开发了一个基于自注意的组特征聚合模块。为了有效地利用目标图像组和参考图像之间的对比信息,我们将上下文信息建模为来自整个集合的聚合特征,并将其从每个图像组特征中减去,以明确地鼓励所得特征捕获目标图像组和参考图像组之间的训练我们的模型需要大量带有文本描述的图像组和相关的参考图像集。在本文中,我们利用大规模的图像caption数据集来构建训练数据。特别是,我们在概念字幕[40](最近引入的大规模图像字幕数据集)之上构建注释。我们将单个图像字幕解析为场景图,并使用图像组的共享场景图来生成组的地面实况字幕。此外,我们应用相同的程序上的一个大规模的图像集收集,从照片集。该数据集包含大量图像,具有紧凑和精确的人类生成的每图像描述。这导致了我们的第二个数据集,股票标题,我们计划贡献给研究界,以鼓励未来对这个新问题的研究我们在本文中的主要贡献有三个方面。首先,我们介绍了上下文感知的组字幕的问题。这种新颖的图像字幕设置可能是重要的许多现实世界的应用,如自动查询建议在图像检索。其次,我们提出了一个基于学习的方法,学习aggre门图像组视觉特征的字幕生成。该框架将自注意机制与对比特征构造相结合,将图像组有效地编码为上下文感知的特征表示,有效地总结了组中的相关共同信息,同时捕获了目标组与上下文组之间的区别性信息.第三,我们介绍了两个大规模的数据集,专门为上下文感知的组字幕问题。在两个数据集上的实验表明,我们的模型在基于上下文的图像组字幕任务上始终优于各种基线。2. 相关工作图像字幕已经成为计算机视觉中一个重要的研究课题,有着丰富的文献[3,15,29]。随着深度神经网络的进步,最先进的图像字幕方法[1,12,17,19,36,39,50,56]基于卷积神经网络[24]和递归神经网络[14](CNN-RNN)架构的组合,其中视觉特征使用CNN从输入图像中提取,然后由RNN进行解码以生成描述给定图像的语言字幕。近年来,图像字幕的研究进展迅速。新的网络架构[1,6,32,51],损失函数[7,28,30,33,39,41]和先进的联合语言视觉建模技术[18,21,32,54,55,57]已经被开发出来,以实现更多样化和更有区别的字幕结果。最近的工作也提出了利用额外图像的上下文和对比信息来帮助为目标图像生成更有特色的标题[2,5,8,48]或图像之间的比较描述对[38,43,44,46]。然而,现有的作品大多集中在生成单个图像的字幕另一方面,我们的工作集中在基于上下文的图像组字幕的新颖设置上,其目的是描述目标图像组,同时利用更大的参考图像池的上下文。引用表达式生成[20,34,59]是与图像字幕相关的问题,其目的是为图像中的目标对象生成自然语言描述。对比建模已经成功地应用于最先进的指称表达生成方法中,以描述目标图像区域与其他图像区域的对比。Yu等人[58]利用相对位置和特征差异来判别目标对象。Mao等人[35]通过最大互信息训练,最大化描述特定区域的生成表达式的概率。当指称表达生成分别考虑目标区域与每个否定区域的对比时,我们的问题需要图像组之间的对比上下文建模。注意力机制在图像加帽方面取得了成功[6,27,32,54,57]。这些工作集中于在每个文本生成时间步将 视 觉 注 意 力 应 用 于 不 同 的 空 间 区 域 。 最 近 ,Transformer[47]和预训练BERT[11]中的注意力在自然语言处理任务中非常成功。[25,31,45]将BERT的想法适用于视觉和语言任务,并在多个子任务上表现出更好的表现。这些作品专注于学习每个单词标记之间的注意力。在我们的工作中,我们将注意力应用于图像,并显示其在图像组中总结信息的有效性。我们的设置受到文档检索系统中查询建议的启发[9,16,42,53查询建议的目的是预测扩展查询给定以前的查询使用的用户,同时考虑到3442图像来源:Woman in Chair其他上下文,如搜索历史[9,16,42]或用户交互(例如,点击并跳过文档)[53]。我们受到这个任务公式的启发,并将其扩展到视觉领域。早期关于图像搜索中的查询建议的工作集中在形成视觉描述符以帮助获得更好的搜索结果[60,61],而建议的文本查询仅从当前用户查询中获得,而不考虑视觉内容理解。我们的工作,另一方面,可以潜在地应用于使查询建议,gestion从图像。在这项工作中,我们专注于图像字幕方面,而不依赖于建模用户信息和行为,在现有的查询建议工作,从而使其适用于检索任务之外。3. 数据集为了训练我们的模型,我们需要一个大规模的数据集,其中每个数据样本都包含一组目标图像和一组更大的参考图像。参考图像需要与目标图像相关,同时包含更多种类的视觉内容,从而提供用于描述目标图像的上下文这种描述既应针对目标群体,又应以参照群体为条件。在本节中,我们首先描述了数据集创建的直观性和方法,然后详细介绍了我们在概念标题数据集和股票标题数据集上构建的数据集。3.1. 数据构建方法我们通过利用图像之间的共享场景图,在大规模的每图像字幕数据集之上构建我们的数据集,其动机是[5]。整个数据生成过程如图2所示。具有共享场景图的图像组成图像组。更具体地,选择具有相同(属性)-对象-关系-(属性)-对象的图像来组成目标图像组,而选择具有与目标组部分重叠的场景图的图像作为参考图像组。例如,如图2所示,选择场景图形为椅子上的女人的图像来形成目标组,而选择包含女人的图像来形成与目标组配对的参考组。这样,参考群体包含了更大的内容多样性(任何地方或姿势的女性),而目标群体在某些属性方面更具体(在椅子上)。为了获得每个图像的场景图来支持我们的分组过程,我们使用预训练的语言解析器(在[52]的基础上进行了改进)将每个地面实况图像标题解析我们选择从图像标题中解析场景图,而不是使用Visual Genome数据集中的注释场景图[23],因为我们的场景图需要关注图像中最“突出”的一个女人坐在湖边的椅子上看书。阅读一语言解析器一湖在通过椅子参考图片:女人女人图2.数据集构造方法。我们的数据集是从图像集合中构建的,每个图像都有描述。使用预训练的语言解析器将每个图像标题解析成场景图。然后将具有共享场景图的图像分组以形成目标组。具有部分匹配目标的场景图的图像形象由于视觉基因组被密集地注释而没有关于哪个对象是图像的主要内容的信息,因此小的琐碎对象的场景图可以支配分组过程,而忽略主要内容这将产生非常嘈杂的数据,可能不适合训练我们的模型。另一方面,虽然解析错误可能会引入噪声,但从图像字幕解析出的场景图集中在主要对象上,因为字幕通常描述图像中最重要的内容。利用场景图匹配得到目标组和参考组后例如,在图2中,地面实况组标题是woman in chair.地面实况组字幕的其他示例包括:在白色背景的五颜六色的袋子,红色的女孩,拿着地球仪的企业队,有牛仔帽的妇女,等等为了构建我们的组字幕数据集,每个图像的字幕数据集需要是大规模的,以提供足够的图像组。我们在两个数据集之上构建我们的组标题数据集:概念字幕数据集[40],这是现有最大的公共图像字幕数据集,和股票字幕数据集,这是我们自己的大规模每图像字幕数据集,其特征是精确和紧凑的描述。关于两个数据集上的构造的细节提供如下。22为了简单起见,在本文中,我们将新构建的组上限数据集称为与其父数据集相同的名称:概念标题和库存标题。34433.2. 概念说明Conceptual Captions是一个大规模的图像字幕数据集,包含330万个图像字幕对。(By当我们通过提供的网址下载图像时,只有280万个有效。因为字幕是从网络上的启用替换文本的图像自动收集的,所以一些字幕是嘈杂的并且不自然。然而,图像内容的高度多样性和大量的图像使概念数据生成使用我们的方法是一个合适的选择在从Concept- tual Captions的270万个图像中采样后,我们获得了大约20万个样本,其中包括160万个图像。每个样本包含5个目标图像和15个参考图像。不使用具有不能分组的稀有场景图的图像。我们手动清理采样数据,以删除没有意义的样本。例如,肖像或女性的目标组和女性的参考组在语义上没有不同,因此它们被移除。我们还清理了词汇表,删除了罕见的单词。这20万个样本被分成测试、验证和训练样本,这三个样本共享同一个图像池。虽然验证和训练分割可能包含相同组标题的样本(因为组标题通常很表1提供了更详细的统计数据。3.3. 股票说明虽然Conceptual数据集在图像多样性方面表现出色,但我们发现它的标题往往很长,有时还带有噪声。受查询建议应用程序的启发,其中建议的搜索查询通常是短而紧凑的,我们建议在一个新的图像帽上构建数据集原始逐图像字幕概念股票大小27666145785034平均长度9.434.12上下文感知的组字幕概念股票大小199442146339列车拆分175896117829瓦尔斯普利特1000010000测试拆分1354618510图像数量16345231941370词汇大小58112437平均长度3.742.96表1.概念字幕和库存字幕的统计,根据原始的每图像字幕数据集和我们在每图像字幕之上构建的组字幕数据集。图3.我们的两个构造数据集的人类给定分数的分布。在股票标题上构建的数据集获得了更高的人类分数。名为Stock Captions的数据集。 股票字幕是在文本到图像检索设置中收集的大规模图像字幕数据集。StockCaptions数据集的特点是非常精确,简短和紧凑的短语。该数据集中的许多标题是更像属性的短图像标题,例如。“五颜六色的袋子”、“海滩上的幸福夫妇”、“干辣椒培根意大利面”等等。在对580万张原始图像进行分组和过滤后,我们得到了190万张图像,这些图像被分组为Stock Captions数据集的150万个数据样本。数据集采样和分割细节与概念相似。(见表1)。3.4. 数据集比较的用户研究为了测试我们的数据质量并比较我们的两个数据集,我们随机选择500个数据样本(每个数据集250个)进行用户研究,并要求25个用户为每个样本打0-5分。为了更好地比较两个数据集,我们要求用户给出严格的分数。一个标题需要准确,有区别和自然被认为是好的。许多评分为0和1的字幕在语义上是好的,但不自然。评分分布如图3所示。正如预期的那样,在整体质量方面,Stock Captions数据得分明显更高,因为它基于紧凑和精确的人工生成的标题。然而,一些用户确实注意到,概念标题数据集中的标题似乎更具体,更4. 方法在本节中,我们将探讨解决我们提出的问题中的两个主要挑战的方法:a)特征聚集,即,如何在一个图像组内概括图像,以及(b)组对比,即,如何找出两组图像之间的差异。通过比较不同的方法,我们的目标不仅是找到最好3444自我注意自我注意好吧好吧好吧∅∅不R不R1你好,1第二章tn目标群体第1章不Yt2YttnYR1Y不Y.CY不Y.RY第二次世界大战Yr2年r∅t−∅c∅r∅YYY…上下文组rnrrn自注意特征聚合阿尔布尔茨<戴牛仔帽的女人>图4.具有自我注意与对比特性之情境知觉群组字幕。利用自注意力对图像特征进行聚合,得到每个图像组的组表示。然后将组表示与对比表示连接起来,组成LSTM解码器的输入,最终为目标图像组生成上下文感知的字幕。执行模型,但也提请洞察到任务的特点,并希望,设置在这个问题的未来探索的重点。为了开始这一部分,我们首先将问题集形式化-用于描述生成。该过程可以形式化如下。我们通过对每个组中的特征进行计算目标组特征φ′和参考组特征φ′在第4.1节中。在随后的小节中,我们描述了我们的方法探索路径,从一个简单的φ′=1nΣφtiφ′=1nΣ φtr基线 然后我们逐渐引入更多的计算-ti∈1.. ntri∈1.. nr专门的模块。对于每个模块,我们都描述了我们的直觉,并通过定量结果和视觉插图来支持它们4.1. 问题设置给定一组nt个目标图像和一组nr个参考图像,遵循标准的字幕管道,然后我们使用两个组特征的连接作为LSTM的输入来预测上下文感知描述。我们使用LSTM-RNN [14]以自回归的方式生成标题。将LSTM模块在时间步t的输出表示为ht,我们有解码方程:我们的任务是生成一个描述D=′ ′w=1,., 以在参考组的索引中描述目标图像组。这里,w_i表示句子中的单词,l是句子长度,其对于每个数据样本而变化。在我们的设置中,nt= 5,nr= 15。每个图像都由使用ResNet 50网络提取的2048-d特征表示[13](在pool 5层之后),在ImageNet上进行预训练[10]。我们模型的输入是1nt不h1=[φt,φr]ht=LSTM(ht−1,wt−1)w= softma x(ht).最后,我们遵循标准的波束搜索过程来生成字幕。这种解码架构用于我们所有后续的模型变体。4.3. 自注意特征聚合目标特征Φ = [Φt,...,φt ]和参考特征Φr=[Φ1,...,φ nr],其中φ i∈ R2048。我们用Φ表示r r虽然平均池化方法用于特征ag-特征列表,而单个特征表示为φ。虽然我们认为更详细的功能(例如,没有均值池的空间特征或对象级特征)可以提高性能,但是它们增加了计算复杂度,并且通过扩展,将训练时间增加到我们的初始测试中不可接受的高水平。因此,我们简单地使用均值池特征向量。4.2. 基线:特征平均和拼接根据上述问题设置,一种直观的方法是通过平均化汇总目标要素和参考要素,然后将它们连接起来以创建最终要素上面的分割是直观的,它平等地对待所有图像特征。我们注意到,许多图像组具有封装整个组的联合信息的突出成员(图5)。我们认为,如果我们能够识别这些突出的特征/图像,则可以改进组求和过程。受此观察的启发,我们建议使用Transformer架构[47]来完成这项任务。Transformer依赖于集合元素之间的注意力网格来学习更好的表示。实际上,通过学习自我注意力网格,模型可以检测突出特征,因为集合中的每个元素可以∅LSTM∅∅∅∅∅3445CCΦ不R.注意机制在随后的分析中,我们表明,在我们的任务中,自我注意网格确实给突出的图像赋予了更多的权重。我们的基于transformer的架构的核心计算可以总结如下。3第一步是使用自注意机制计算上下文化特征。给定输入特征Φ;三组不同的功能:使用线性变换来计算查询Q、键K和值V:Q=WQΦ+bQK=WKΦ+bKV=WVΦ+bV然后用一个缩放的点来目标群体和参照群体。了解这两个特征之间差异的最直观的方法是连接(在我们的基线中实现)或特征减法。我们认为,要了解两组图像之间的差异,我们首先需要捕捉它们的相似性。我们的假设是,当我们识别所有图像之间的相似性时,我们可以从两个特征中“移除”该相似性部分,以推导出更具区分性的表示。该过程的形式化如下。第一步是学习所有图像之间的公共信息φ′我们通过对所有图像应用上述相同的自我注意机制来做到这一点Φ′=Fa([Φt;Φr])Q和K之间的乘积(比例因子d是尺寸,Q和K中的向量的值)。自我关注层φ′=中国1Σ′+nrc使用这个注意力网格和价值矩阵V来计算其输出。4然后,通过减法从组特征φ ′和φ ′中“去除”联合信息,以生成联合特征透射/残留特征φ d和φ d。注意(Q,K,V)=softmaxQKT赫拉克勒斯五世不φd=φ′−φ′Rφd=φ′−φ′然后,自我注意力输出与剩余的T T C R CD dual信号以创建情境化特征Φ′。对比特征φt 而φr 被级联与组特征φ′和φ′一起,然后将其馈送到t rV′=V+Attention(Q,K,V)Φ′=V′+max 0,V′W1+b1W2+b2LSTM-RNN生成字幕。在我们随后的分析中,我们表明对比特征确实集中在从这一点出发,我们将从原始特征集Φ到上下文化特征集Φ′的转换过程表示为Φ′=F(Φ)。有了这个公式,我们就有了一组上下文化的特征Φ′和Φ′:两个图像组之间的差异。5. 实验t r在本节中,我们首先介绍我们的评估结果,”这两个数据集。然后,我们提供定量分析,Φt =Fst(Φt)Φr =Fsr(Φr)我们尝试了共享和不共享Fst和Fsr的权重,发现共享权重会带来更好的性能。这是直观的,因为对目标图像进行分组的任务与对参考图像进行分组的任务没有不同,并且因此,分组模型可以共享相同的权重集合。在我们的实验中,自我注意力架构提供了一个显着的提升性能相比,平均池的变体。4.4. 具有对比特征的组对比我们提出的问题中的第二个主要挑战是图像组对比。有了前面提到的自我注意机制,我们就有了很好的表征。3由于空间的限制,为了提高清晰度,我们只描述了自注意的核心计算步骤。更多的细节可以在原文中找到[47]。如果接受,我们也会发布我们的实现。4.在这项工作中,我们可视化,以揭示我们模型的不同组成部分的有效性。5.1. 组字幕性能我们评估我们的上下文感知组字幕方法的概念字幕和股票字幕数据集。每个数据集上的所有实验都使用相同的超参数在Stock Captions数据集中,我们使用batch大小为512,初始学习速率为1×10- 4。在ConceptualCaptions数据集上,我们使用批量大小512和学习率5×10−5。我们在两个数据集上使用Adam optimizer[22]训练模型100个epoch。我们使用各种字幕计量来测量两个数据集中测试分割的字幕性能。具体来说,我们考虑了图像字幕文献中 广 泛 使 用 的 标 准 度 量 , 包 括 BLEU[37] ,CIDER[49],METEOR[4]和ROUGE[26]。此外,本发明还提供了一种方法,由于组描述通常是简短和紧凑的,与传统的图像字幕相比,我们更加强调单个单词的准确性。因此,我们Σ3446考虑两个广告度量,逐字准确性(WordAcc),字3447×WordAcc苹果酒WERBLEU1BLEU2流星胭脂概念每图像字幕5.46380.46712.65870.12670.02720.08680.1466平均36.73291.95911.68590.49320.27820.39560.4964SA37.99162.14461.64230.51750.31030.42240.5203平均值+对比度37.84502.03151.65340.50070.29350.40570.5027SA+造影剂39.44962.29171.58060.53800.33130.44050.5352股票每图像字幕5.89310.38891.80210.14450.03590.09750.1620平均37.94281.90341.14300.53340.24290.40420.5318SA39.24102.10231.08290.55370.26960.42430.5515平均值+对比度39.19852.02781.09560.53970.26320.41390.5375SA+造影剂40.61132.15611.05290.56010.27960.43320.5572表2.Conceptual Captions和Stock Captions数据集上的组字幕性能(一)(一)(b)第(1)款(b)第(1)款表2中为了与一个简单的基线进行比较,我们分别对每个图像进行了cap-tion,并使用我们的数据集构建方法对其进行了总结结果(Per-Img.标题)表明,组字幕问题不能通过简单地总结每个图像的字幕来解决。更多细节见补充材料。与通过平均来聚集特征(如4.2节中的平均)相比,自我注意(SA)在计算群体表征方面更有效,并导致显著的性能改善。在特征聚合的基础上,对比特征是模型生成上下文感知的图像的关键,它强调了目标图像组在参考组上下文上的差异将对比特征(Contrast)应用于任一特征聚合方法都会导致性能提升(Average+Contrast,SA+Contrast)。图5.目标图像组的5 - 5自注意权重矩阵可视化。每一行的总和为1。对于(a)组携带球囊的女性,图像2和图像3具有代表性。对于(b)组沙滩瑜伽,图5具有代表性。具有更多可区分特征的图像成为群体的代表性图像,并获得更高的注意力权重。模型WordAcc 苹果酒 BLEU2流星胭脂Tgt0 +参考1524.47091.03990.06140.23410.3965Tgt1 +参考1528.74791.34470.12920.29380.4415Tgt3 +参考1534.65741.76410.20980.36980.5048Tgt5 +参考031.80611.67670.20950.34750.4552Tgt5 +参考1540.61132.15610.27960.43320.5572表3.不同数量的目标和参考图像的性能(在Stock Captions数据集上评估)错误率(WER),专门评估基于单词的准确性5。我们还注意到,由于某些组描述可能只包含两个单词,因此我们不考虑评估三元语法和四元语法的BLEU3和BLEU4分数。在概念字幕和股票字幕数据集的测试集上的字幕性能报告[5]这里我们考虑特定位置的单词准确度。例如,预测戴草帽的女人与地面真理的女人与牛仔帽有75%的准确率,而预测戴帽子的女人有50%的准确率。3448为此,我们的完整模型,它结合了自我注意力的组聚合和对比功能的组比较表现最好,实现39.4%的WordAcc概念标题和40.6%的股票标题。5.2. 讨论自我注意对特征聚合的有效性。为了更好地理解自我注意力的有效性,在图5中,我们可视化了5个目标图像之间的5×5第i行的注意事项矩阵表示从第i个图像到5个图像中的每一个的注意力权重,其总和为1。在(a)中,具有较大且居中的气球的图像(图像2和图像3)得到更高的关注。在(b)中,图像5中做瑜伽的女人更大,更容易识别,得到了更高的关注。在这两个例子中,具有更多可识别特征的图像获得更高的注意力权重,从而对聚合组表示做出更多多个目标和参考图像的重要性。为了研究在每组中提供多个图像的有效性,我们改变了目标和参考图像的数量结果如表3所示。较少的目标或参考映像会导致性能下降,这表明3449(a)(b)第(1)款地面真相:在白色背景的婴儿我们的预测:在白色背景的婴儿没有上下文的预测:幼儿地面真相:女子举重我们的预测:妇女与哑铃工作没有上下文的预测:健身女人图6.概念标题(a)和股票标题(b)数据集上的定性预测示例在每个示例中,第一行(橙色框中)中的图像是目标图像,而第二至第四行(蓝色框中)是参考图像。我们的模型可以有效地总结相关信息的图像组在字幕。我们的模型还有效地考虑了目标和参考群体之间的区别信息,在字幕预测准确的组字幕结果。对比+组组对比戴牛仔帽的女人女人戴着牛仔草帽的国家白人女孩女孩白人统治白人戴拳击手套的女人女人就是去打拳击表4.对比表征分析。列对比+组是我们完整模型的预测。列组和列对比分别是当仅组或仅对比表示被馈送到解码器中时的预测。蓝色文本表示共同部分,而红色文本表示对比部分。大量的图像对模型来说信息量更大,可以得到更好的描述。我们还定性地研究了参考图像组的重要性。示例在图6中示出。这些例子表明,当不给出参考组时,预测往往更通用,歧视性更小。对比表征与群体表征。 表4示出了当仅组表示或仅对比表示被馈送到LSTM解码器中时的示例描述。虽然该模型没有独立地处理特征,并且删除特征可能会破坏字幕的语法结构,但通过观察两个变体返回的词典,我们可以清楚地观察到两个特征的焦点。当解码器仅使用组表示时,预测强调两个图像组的公共部分。另一方面,当解码器仅使用对比表示时,预测强调两个图像组之间的差异。这揭示了组表示编码相似性信息,而对比表示编码区别性信息。显示了在Conceptual Cap- tions数据集上使用不同数量(0-4)的噪声图像训练和测试的模型的性能。使用更多噪声进行训练可以增加模型的鲁棒性,但在没有噪声的情况下进行测试时会阻碍性能。该模型对小噪声具有较好的鲁棒性实际上,当用小(1或2)噪声(用0噪声训练)测试时,字幕丢失细节,例如,穿红衣服的女人变成了穿衣服的女人。当噪声严重时,生成的字幕被打断,这是合理的。图7.在目标组中使用0-4个随机图像进行训练和测试时,概念字幕数据集的性能变化。使用更多噪声进行训练可以提高模型的鲁棒性,但在没有噪声的情况下测试时会影响性能。6. 结论在本文中,我们提出了新的上下文感知的组字幕任务,其目标是描述一个目标图像组相比,参考图像组。为了解决这一问题,我们分别介绍了两个大规模的数据集,概念字幕和股票字幕,这两个数据集都将被发布用于未来的研究。我们还提出了一个框架,自我注意的图像分组和对比表示捕捉区分性特征。我们证明了我们提出对噪声图像的鲁棒性。为了研究模型对图像组中噪声的鲁棒性,我们尝试将随机不相关的图像添加到目标组中。图7在我们的数据集上进行定量和定性建模。我们还彻底分析了我们的模型的行为,以提供对这个新问题的见解。3450引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集,第6077-6086页一、二[2] 雅各布·安德烈亚斯和丹·克莱因。与神经听者和说话者进行语用推理。arXiv预印本arXiv:1604.00562,2016年。2[3] 双柏和善安。图像字幕自动生成技术综述 神经计算,311:291-304,2018。 一、二[4] Satanjeev Banerjee和Alon Lavie。Meteor:一个自动的评估指标,与人类的判断有更好的相关性. 在acl机器翻译和/或摘要的内在和外在评估措施研讨会集,第65-72页,2005年。6[5] 陈 福 海 , 纪 荣 荣 , 孙 小 帅 , 吴 永 建 , 苏 劲 松 。Groupcap:基于组的图像字幕,具有结构化的相关性和多样性约束。在IEEE计算机视觉和模式识别会议论文集,第1345-1353页,2018年。二、三[6] Long Chen,Hanwang Zhang,Jun Xiao,Ligen Nie,Jian Shao,Wei Liu,and Tat-Seng Chua. Sca-cnn:图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议论文集,第5659-5667页,2017年。2[7] Bo Dai,Sanja Fidler,Raquel Urtasun,and Dahua Lin.通过有条件的组来实现多样化和自然的图像描述。在IEEE国际计算机视觉会议论文集,第2970-2979页2[8] 戴波和林大华。图像加帽的对比学习。神经信息处理系统的进展,第898-907页,2017年。2[9] Mostafa Dehghani,Sascha Rothe,Enrique Alfonseca,and Pascal Fleury.学习参加、复制和生成基于会话的查询建议。在2017年ACM信息和知识管理会议的会议记录中,第1747-1756页。ACM,2017。二、三[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。5[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。2[12] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition,pages 2625-2634,2015中。2[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。5[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。二、五[15] MD Hossain、Ferdous Sohel、Mohd Fairuz Shiratuddin和Hamid Laga。 图像字幕深度学习的全面调查。ACM计算调查(CSUR),51(6):118,2019。一、二[16] Jun-Yu Jiang和Wei Wang。Rin:用于上下文感知查询建议的重构推理网络第27届ACM信息与知识管理国际会议论文集,第197-206页。ACM,2018。二、三[17] Wenhao Jiang,Lin Ma,Yu-Gang Jiang,Wei Liu,andTong Zhang.用于图像字幕的递归融合网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第499-515页,2018年。2[18] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap:用于密集字幕的全卷积定位网络。在IEEE计算机视觉和模式识别会议论文集,第4565-4574页,2016年。2[19] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition,pages 3128-3137,2015中。一、二[20] Sahar Kazemzadeh , Vicente Ordonez , Mark Matten ,and Tamara Berg.推荐游戏:在自然景物的照相照片中提到物体的。在Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing(EMNLP),pages 787-798,2014中。2[21] Dong-Jin Kim,Jinsoo Choi,Tae-Hyun Oh,and In SoKweon. Dense Relational Captioning:用于基于关系的字幕的三流在IEEE计算机视觉和模式识别会议论文集,第6271-6280页,2019年。2[22] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[23] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision,123(1):32-73,2017. 3[24] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。2[25] Liunian Harold Li , Mark Yatskar , Da Yin , Cho-JuiHsieh,and Kai-Wei Chang.视觉伯特:视觉和语言的简单而完美的基线。arXiv预印本arXiv:1908.03557,2019。23451[26] 林金耀。Rouge:一个用于自动评估摘要的软件包。在文本摘要分支中,第74-81页,2004年。6[27] Chenxi Liu,Junhua Mao,Fei Sha,and Alan Yuille.神经图像字幕的注意力正确性2017年第31届AAAI人工智能会议2[28] Siqi Liu,Zhenhai Zhu,Ning Ye,Sergio Guadarrama,and Kevin Murphy.通过蜘蛛的策略梯度优化改进图像字幕。在IEEE国际计算机视觉会议论文集,第873-881页,2017年。2[29] 刘笑笑,徐清扬,王宁。基于深度神经网络的图像字幕研究综述。The Visual Computer,35(3):445-470,2019。一、二[30] 刘希慧,李洪生,邵晶,陈大鹏,王晓刚.显
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功