没有合适的资源?快使用搜索试试~ 我知道了~
提取图文匹配模型周原恩1,2, 王梦1,2, 大庆刘3, 胡真真1,2, 张汉王41大数据知识工程教育部重点实验室2合肥工业大学计算机科学与信息工程学院3中国科学技术大学4南洋理工大学{y.e.zhou.hb,eric.mengwang,huzhen.ice}@ gmail.com,liudq@mail.ustc.edu.cn,hanwangzhang@ntu.edu.sg摘要视觉注意力不仅能提高(一)(b)第(1)款(c)第(1)款(d)其他事项(e)图像字幕,但也作为一个视觉解释定性地衡量标题合理性和模型透明性。具体来说,我们期望字幕者能够在生成相应单词的同时将其专注的目光固定在正确的对象上。这种能力也被称为固定图像字幕。然而,现有字幕机的接地精度远不能令人满意。为了在保持字幕质量的同时提高接地精度,收集字区域对齐作为强监督是昂贵的。为此,我们提出了一种词性(POS)增强的图像-文本匹配模型(SCAN[24]):POS-SCAN,作为更接地的图像字幕的有效知识蒸馏。优点是双重的:1)给定一个句子和一个图像,POS-SCAN可以比SCAN更准确地定位对象; 2)POS-SCAN作为字幕者视觉注意模块的词-区域对齐规则。通过展示基准实验结果,我们证明了配备POS-SCAN的传统图像字幕机可以在没有强有力监督的情况下显着提高接地精度。最后但并非最不重要的是,我们在接地图像字幕的背景下探索了自我批判序列训练(SCST)[46],并表明图像-文本匹配分数可以作为更接地字幕的奖励1。1. 介绍图像字幕是计算机视觉的主要目标之一,其目的是自动生成图像的自由形式描述[23,53]。近年来,字幕质量得到了显着改善,部分原因是基于注意力的深度神经网络的发展[56],*通讯作者。1https://github.com/YuanEZhou/Grounded-Image-Captioning(a) :POS-SCAN对地面真值语句的可视化一个穿着粉红色衬衫和红色围裙的女人站在她的餐馆里拿着食物。(b) :地面真值语句的上下可视化(c):地面实况语句的SCAN可视化一个穿着粉红色衬衫和红色围裙的女人站在她的餐馆里拿着食物。(d) :在提取POS-SCAN之前对生成的句子进行上下可视化一个穿粉红色衬衫的女人正在准备食物。(e) 提取POS-SCAN后生成语句的上下可视化一个穿红衬衫、戴黄帽子的女人正在饭店里做饭。图1.五个不同的单词区域对齐结果的可视化,其中所有模型都是在没有任何单词区域对齐基础事实的情况下训练的。词和具有最大权重的对应的关注区域用相同的颜色标记POS-SCAN(参见第3.1节)是一个修改的图像-文本匹配模型,向上向下(参见。第3.2节)是最先进的图像字幕模型。最好用彩色观看。其允许字幕模型动态地将图像区域与字幕字对准。传统上,许多有意义的工作被用来定性地显示注意可视化,其目的是表明学习模型可以在字幕时将其注视固定在正确的区域上。然而,一些定量分析[28,38]表明,尽管一个穿着粉红色衬衫和红色围裙的女人站在她的餐馆里拿着食物。147774778尽管这些模型可以达到令人印象深刻的字幕质量,但它们仍然受到注意力基础差的影响。这可能会导致不期望的行为,例如对象幻觉[47]和性别歧视[14],这会损害神经图像字幕模型的合理性和可解释性。有一些努力更接地气的形象captioners。他们中的大多数人通过注意力模块来监督学习过程[28,65,36]。然而,它们需要细粒度的区域词对齐注释,这是昂贵的收集。因此,在本文中,我们要监督视觉注意没有区域词对齐注释。为此,我们提出了一种新的知识蒸馏[15,34,63]方法,通过将图像-文本匹配模型视为接地的弱监督[19,48]来规范字幕中的视觉注意力。所谓“弱”,我们的意思是图像-文本模型训练只依赖于图像-文本对齐,而不是昂贵的词区域对齐。我们知识提炼的关键动机是,与字幕生成任务相比,图像-文本匹配任务[9,24]是一个更好的任务,因为1)后者不必考虑句子语法和流畅性,2)后者的度量(匹配或不匹配的准确性)的训练损失更客观,更忠实于任务;而对于词级交叉熵和句子级CIDEr [ 52 ]等形式,与人类判断仍存在众所周知的差距。如图1(a)和(b)所示,匹配模型(a)(后面介绍的POS-SCAN)的注意力更加集中和可靠,例如它将衬衫和餐厅与正确的区域对齐,而字幕模型(b)则不这样做。因此,用图文匹配模型来监督字幕模型的视觉注意模块是合理的。这样,图像-文本匹配模型充当独立的“教师”,而不与“学生”字幕模型耦合。注意,具体来说,我们使用了一个最先进的图像-文本匹配模型,称为SCAN [24],将在第3.1节中详细介绍。我们选择SCAN的原因是它可以作为一个弱监督的视觉基础模型,具有局部区域词对齐(尽管它是原始论文[24]中的请注意,我们的方法可以与任何具有局部比对模块(如SCAN)的匹配模型集成。尽管SCAN在图像-文本匹配方面表现出良好的性能,但我们惊讶地发现,原始SCAN模型的基础性能并不比流行的基线:Up-Down字幕模型[3]更好如图1定性所示,其对齐(c)并不比字幕模型(b)更好 我们还在表1中定量报告了他们的注意力准确率:SCAN的注意力准确率为17。63%,而Up-Down为19。百分之八十三一个合理的原因是,一些非名词的话,伤害接地,但有益的,以适应匹配模型。例如,接地非视觉功能词( 因此,基于所有单词的高匹配分数可能归因于某些单词搭配的偏差,这在大量视觉语言任务中被广泛观察到[58,59,51]。在本文中,我们提出了一个简单而有效的方法来解决上述问题。具体来说,我们只保留名词的话,在计算匹配分数的帮助下的词性(POS)标签。 在这之后重新训练的POS增强型SCAN(POS-SCAN)模型的接地性能满足下游任务。注意,我们之所以称之为POS-SCAN,而不仅仅是Noun-SCAN:如果将来它的视觉基础能力成熟,我们可以无缝地结合其他POS。在推理过程中,匹配模型可以完全去除,不需要额外的计算开销.在没有任何区域词对齐注释的情况下,我们的方法可以在具有挑战性的Flickr30k实体数据集上实现更好的字幕质量和注意力准确性。最后但并非最不重要的是,我们在接地图像字幕的背景下探索了不可或缺的自我批判序列训练(SCST)[46]。我们发现,尽管字幕模型使用标准SCST度量(例如,CIDER [52]),它实现了较差的接地性能。幸运的是,当我们将SCAN作为奖励时,字幕模型被鼓励生成更忠实于图像的字幕,同时保留标准度量分数。然而,当我们使用POS-SCAN作为奖励时,我们根据经验发现在标准度量方面的结果明显更差,但接地结果更好。通过了解POS-SCAN是比SCAN更好的接地模型,我们确实面临着一个困境:字幕与接地,其指标应在未来统一。我们希望我们的研究可以为更接地气的图像字幕提供一个有希望的方向2. 相关工作图像字幕。早期的图像加帽方法是基于规则/模板的[23,40,26]。最近,基于注意力的神经编码器-解码器模型盛行[53,56,35,6,60,29,58,59]。注意力机制已经在统一的空间网格[56,35],语义Meta数据[61,57,12]和对象级区域[3,18,60,64]上运行。虽然注意力机制通常被证明可以提高字幕质量,但一些定量分析[28,38]4779不不+1N不t t t t tt t tt显示出关注的“正确性”远不能令人满意。这使得模型不太可信,也不太可解释。有一些更接地的图像字幕的努力。Lu等人[36]提出了一种用于图像字幕的开槽填充框架,可以产生明确基于实体的自然语言。在[28,65]中,attention模块是显式监督的。然而,这样的方法需要细粒度的区域词对齐注释,这是昂贵的收集。虽然Ma et al. [38]提出了一种不需要对齐注释的循环训练范例,他们的方法难以提供足够的注意力监督。这是因为它们的定位器和解码器是联合学习的,并且在注意力模块中松散耦合,很容易导致模态崩溃[41]。图文匹配。图文匹配方法大致可分为基于全局对齐基于全局对齐的方法[10,21,54,9,55]映射整体图像和把整个句子转换成一个联合语义空间。在[37,33]中采用了一种代表性的全局图像-文本匹配模型VSE++[9],以提高生成字幕的可相比之下,基于局部对齐的方法[19,42,24]通常通过将视觉对象对齐到文本单词来推断全局图像-文本相似性,并使图像-文本匹配更加细粒度和可解释。在这项工作中,我们采用经典的本地图像-文本匹配模型SCAN [24]作为强化奖励,并提出POS-SCAN作为注意力监督。文本模型到文本到图像合成模型。在这项工作中,我们的目标是提高注意力的准确性的图像字幕模型(学生与困难的任务)提取知识边缘的图像-文本匹配模型(教师与容易的任务)。3. 方法我们的模型包括两个主要组成部分:神经图像字幕生成器和图像-文本匹配模型,如图2所示。我们将首先描述我们实验中使用的两个组件,然后详细说明我们如何将这两个组件结合在一个协作框架中,以生成更接地气的字幕。我们将输入图像表示为I,其由一组区域fea表示由检测器[ 45 ]提取的真[f1,···,fk] ∈ Rk×d。对应的地 面 真 值 和 具 有 n 个 词 的生成句子T分别表 示 为(y1,···,yn)和(y1,···,yn)。3.1. 图文匹配模型在这项工作中,我们扩展了经典的图像-文本匹配模型SCAN [24]作为细粒度的奖励器和POS增强的SCAN作为注意力引导器。SCAN是一个匹配模型,它使用图像区域和句子中的单词作为上下文来发现完整的潜在对齐,然后推断图像-文本相似性。在这里,我们只专注于所采用的文本图像配方。具体地,给定图像I和句子T,它首先通过以下方式将每个区域特征fi变换到适当的维度视觉接地。视觉基础是定位图像中描述成分的一般任务。在vi=Wvfi +bv, vi ∈Rd1,(1)就学习方式而言,方法可以大致是双向的,并采用双向GRU [50]来嵌入单词:分为三类:有监督、无监督和弱监督。许多作品[39,32,5,17,62,30]属于第一类,需要昂贵的地面x=Wy,→−h=−G−R−→U(x), <$h−=<$G−R−U−(x),(2)其中We是嵌入矩阵。 最后一个字的特点真理注解 一些作品[48,4]试图学习没有监督的重建也有e是前半隐态→−h的平均值t←−t 然后返回-作品[19,31,7]使用图像-字幕对的弱监督来执行视觉基础。Datta等人[7]最近提出了一种弱监督接地模型,病房隐藏状态ht:(→−ht=t +←h−)2 , t∈ [1,n].(三)这也可以在我们的框架中采用。我们离开这个作为我们未来的工作。知识蒸馏。自从Hinton等人[15]提出将知识从一系列模型中提炼成一个单一的模型,有很多后续工作,包括探索不同形式的知识,然后,所有可能对的余弦相似性矩阵计算如下:vTesit=i,i ∈ [1,k],t ∈ [1,n].(四)vi在此,sit表示之间的相似性。第i个区域,边缘[49,25],跨模态蒸馏[13,1],跨任务蒸馏[34,63]。在这里,我们只提到一些代表-第t个字被规范化为sit=[sit]/Σnt=1[sit]2,由于类似的作品,全面的调查超出了本文的范围。Liu等[34]多方面的努力,其中[x]+max(x,0)。 之后,出席的形象关于第t个字的向量av由下式给出:标签分类通过从弱-监督检测任务。Yuan等 [63]建议Σkav=αitvi,αit=exp(τsit).(五)从图像字幕和分类转移知识不i=1Ki=1 exp(τsit)4780不不不′不′一不′图2.拟议框架的编审过程在训练期间,字幕模块β的注意力权重通过局部对准损失(例如,KL-div)在视觉上接地的单词。此外,图像-文本匹配相似性分数可以在自临界序列训练阶段用作细粒度奖励在测试过程中,匹配模型可以完全移除,字幕模型可以生成更具描述性和接地(区域和单词对齐良好)的字幕。其中h1是注意力LSTM的隐藏状态。其中τ是softmax函数的温度倒数,α是注意力权重。最后,通过汇总局部相似性得分R(et,av)来计算图像I和句子T之间的全局相似性得分S(I,T):LSTM [16]层,其中第一层是注意力LSTM,第二层是语言LSTM。在下面的等式中,每一层都用相应的下标表示。具体地说,它首先将每个区域特征finR(e,av)eTav如:′ ′ ′ ′S(I,T)=t=1tt,R(e,av)= tt.v=W fi+b,v ∈Rd2.(九)ntt e avi v v itt(六)该模型是优化的三重态损失与硬负然后在时间步t,注意力LSTM获取语言LSTMh2的先前输出,即均值池图像fea。时间t−1truev=1v和前一个单词嵌入et−1=mini-batch中的mini-batch[9基伊lhard(I,T)=[m−S(I,T)+S(I,T<$h)]+Weyt−1作为输入并输出隐藏状态h1:h1=LSTM([h2;v;e],h1+[m−S(I,T)+S(Ih,T)]+、(7)t1t−1t−1′t−1),(10)其中m是mar gin,Ih=argmaxpargmaxc/=TS(I,c)。IS(p,T)和Th=其中[; ]表示级联,We是词嵌入矩阵。给定h1,关注图像特征计算为:在实验中,我们发现原始的SCAN模型甚至比采用的字幕发生器接地性能更低。原因可能是太多的非视觉词汇的影响。 因此,我们建议增强SCANvt= Σki=1βi,tvi,βt=softmax(zt), (11)当它作为一个zi,t=wTtanh(Wvavi+Wha h1)。(十二)注意力引导器。我们称之为POS扫描。等式(6)被重写为:最后,LSTM语言将被关注的图像特征v和h1作为输入,并给出条件分布。Σny不将可能的输出字转换为:Spos(I,T)=t=0.01不ny=y名词t,(8)2 1 2J其中y=y名词 是等于1ht=LSTM2([vt;ht],ht−1),(13)2tp(yt|y1:t−1)=softmax(Woht+bo),(14)如果单词yt的POS是名词,否则为0S(I,T)在等式(7)中,也用Spos(I,T)代替。通过这样做,POS扫描模型的接地性能t=14781满足下游任务的要求。3.2. Caption Generator对于字幕生成器,我们采用最先进的Up-Down [3]模型。它主要由两个其中Wo和bo是学习的权重和偏差,y1:t−1表示(y1,···,yt−1)。3.3. 学习生成更多固定大写字母SCAN模型和POS-SCAN首先在图像标题数据集上进行预训练,并保持固定。他们作为4782不不1:n1:n在SCST [46]对字幕生成器进行微调期间,注意力引导器和细粒度奖励器。培训过程分为两个阶段。在第一阶段,给定目标真实语句(y,· · ·,y),具有参数θ的字幕模型为这有可能鼓励字幕模型生成更接地的字幕。4. 实验1N通常通过最小化标准交叉熵损失来训练。然而,它的注意力模块并没有被强制正确地将生成的单词与关注区域相关联。为了生成更接地的字幕,没有区域词对齐注释,我们额外地正则化字幕模型的注意力权重βt,其中注意力权重αt通过KL-发散从POS-SCAN模型提取。组合损失函数如下:Σn4.1. 数据集和评估指标由于我们实验的主要目标是评估所提出的弱监督方法在改善字幕模型的接地性能方面的有效性,因此该数据集包含来自与自然语言短语相关联的31k图像的275k每幅图像都有5个众包标题。在[36]之后,框的短语标签被转换为l1(θ)= {− log(pθ(y)}|(y))t=1不1:t−1单字对象标签。 我们使用Karpathyetal. [19],其中包括29k张用于训练的图像,1k张图像+λ1<$y<$=y名词KL(βt<$α t)}。(十五)如果地面实况区域-单词对齐注释可用,则组合损失函数可以写为如下:n用于验证,另外1k用于测试。我们还报告了MS-COCO数据集的部分结果[27]。为了评估字幕质量,我们使用了标准评估脚本2,该脚本报告了广泛使用的自动′l1(θ)=Σ{−log(pθ(y)}|(y))matic评估指标,BLEU [43],METEOR [8]和t=1′+λ1y=y名词不1:t−1Σk−γtilogβti},(16)i=1[52]第 52话:为了评估区域词对齐质量,我们遵循[65]中定义的度量。它可以计算对齐质量的地面真理和生成的句子。在其中γ t=[γt1,· · ·,γtk]是阳性/阴性区域的指标,当第i个区域大于0时,γ ti = 1。5IoU与地面真值框,否则为0。′l1(θ)的第二项也可以是KL-散度,负对数似然损失在第二阶段,字幕模型进一步训练的REINFORCE算法。具体地说,它寻求最小化负的预期回报r:l2(θ)= −Ey1:n<$pθ [r(y1:n)]。(十七)按照自我临界序列训练(SCST)[46]中描述的方法,这种损失的梯度可以近似为:第一种情况,我们将地面真实语句输入模型并将具有最高注意力权重的区域与每个注释的对象词处 的 地 面 实 况 框 进 行 比 较 。 如 果 Intersection-over-Union(IoU)大于0,则对象词被正确本地化。五、在第二种情况下,F1的所有和F1的位置度量计算后,执行标准的语言生成推理。在F1所有,区域预测被认为是正确的,如果目标词是正确的predi- cated,也正确定位。在F1loc中,只考虑正确谓词的宾语词.更多详情请参见[65]中的附录。4.2. 实现细节<$θl2(θ)<$−(r(ys)−r(y1:n))<$θlogPS1:n),(十八)我们主要采用了广泛使用的Faster R-CNN [45]由Anderson等人预先训练的模型。[3]关于视觉其中ys是采样的字幕,并且r(y=1:n)定义了通过对当前字幕进行greatest解码而获得的基线奖励。模型与[46,37,33]相比,主要区别在于奖励函数r和目标的定义在[46]中,仅使用语言度量CIDEr [52]作为奖励函数。在[37,33]中,CIDEr得分和全局图像-文本匹配相似性得分的权重和被用作区分性字幕的奖励函数。为了充分利用局部图像-文本匹配模型,我们进一步将细粒度局部图像-文本匹配得分S(I,T)作为奖励。我们的最终奖励函数是组合:r(y1:n)=CIDEr(y1:n)+λ2S(I,y1:n),(19)θ(y4783基因组[22]作为图像特征提取器。对于每幅图像,我们提取了36个区域,这些区域被表示为具有2048维的特征向量和具有4维的边界框坐标的序列。为了与最近的类似工作[38]进行公平的比较,我们还使用Zhou等人提取的视觉特征进行了实验。[65]。如果没有特殊的说明,我们使用了for-mer图像特征.对于局部图像-文本匹配模型,单词嵌入大小被设置为300,GRU隐藏状态大小和联合嵌入大小d1被设置为1024。保证金M2https://github.com/tylin/coco-caption4784模型注意Acc.[24]第二十四话17.63%Up-Down+XE* [3]百分之十九点八三POS扫描28.58%升降+XE+0.1NLL(GT)37.17%上下+XE+0.1KL(POS-SCAN)百分之二十九点三九表1.在Flickr30k Entities val set上注意准确性。它是在地面真理句子的注释对象词上测量的。* 表明这些结果是我们的重新测量。+XE表示交叉熵损失。NLL表示负对数似然,KL表示KL散度。GT表示接地监督来自地面实况。0的情况。1是平衡重量。图3.λ1对Flickr30k实体val集的影响。从图中,我们可以观察到,字幕评估(例如,CIDER和SPICE)和注意力评估(例如,在适当的区域词对齐监督下,字幕模型的F1all和F1loc)可以得到改善。和温度τ分别设定为0。2和9。根据[24]中的训练策略,我们重新训练了SCAN和POS-SCAN模型。对于字幕模型,我们基于广泛使用的开源代码库3进行了实验。单词嵌入大小设置为512。 图像特征嵌入-丁大小d2和LSTM隐藏状态大小都设置为512(MS-COCO为1,024)。我们建立了一个字典,去掉出现少于5次的单词,最终得到7000个词汇(MS-COCO是9487我们截短了超过16个单词的标题。我们在第一个训练阶段用Adam [20]优化了我们的模型30个epoch。学习率被初始化为5e-4,并以因子0衰减。每三个时期8次。在第二阶段,我们继续训练模型,再训练80个epoch,初始学习率为5e-5。在推理过程中,我们禁用了光束搜索,以方便Flickr 30 k实体上的区域词对齐评估,并在MS- COCO上将其设置为33 https://github.com/ruotianluo/self-critical。PyTorch4.3. 定量分析我们将通过回答以下五个问题来验证所提出的方法的有效性。Q1:图文匹配模型的区域词对齐精度是否高于图像 标题─ 做模特?我们的方法是基于直觉,图像-文本匹配模型的区域-词对齐应该比图像字幕模型的区域-词对齐更可靠。我们通过将验证集上的地面真实感输入模型并计算注意力准确度来验证它,结果见表1。令我们惊讶的是,原始的SCAN模型甚至具有更低的注意力准确性17。63%,比采用的字幕生成器Up-Down19. 百分之八十三原因可能是太多的非视觉词汇的影响我们通过在计算匹配分数时采用POS来去除非视觉词来弥补这一点,以牺牲图像-文本匹配的准确性。在此之后,POS-SCAN模型的注意力准确性为28。58%满足下游任务要求。Q2:我们可以通过提取图文匹配模型来提高字幕模型的接地性能吗? 虽然POS-SCAN模型比Up-Down模型具有更高的注意准确率,但不清楚它对注意准确率的影响。帐篷可通过POS-SCAN将接地能力转换为Up-Down模式。为了检查这一点,我们训练了四个Up-Down模型,分别对应于没有注意力监督,具有地面真实注意力监督(上限)和在XE预训练阶段从SCAN和POS-SCAN模型中提取的弱监督。的影响λ1对字幕评价和关注评价的影响如图3所示。在下面的实验中,我们设置λ1=0。1如果没有特别说明。通过比较从表2的每个部分,我们可以观察到,具有POS-SCAN监督的模型显著地提高了注意力评估性能,而没有任何区域-词对齐注释,而具有原始SCAN监督的模型问题3:字幕模型在自我批判序列训练(SCST)后能否保持基础性能?众所周知,SCST [46]是一种在实践中提高字幕质量的有效训练策略。然而,字幕模型的接地性能(注意力准确性,轻微滥用)如何变化仍 然 是未知的。 为 了 揭 示 这 一 点 , SCST 以CIDER作为奖励进一步优化了字幕模型通过比较表2各部分的第1和第2行,我们发现字幕质量得到了显著改善,而接地性能在大多数情况下都在下降这是因为CIDER度量鼓励n-gram一致性,但不鼓励视觉语义对齐,从而导致冲突的接地和字幕性能。Q4:将细粒度的图像-文本相似度分数作为奖励有用吗?通过比较第二59585756555400.20.4λ0.60.81176.565.554.500.2 0.4 0.6 0.81λ115.615.415.21514.814.600.2 0.4 0.6 0.81λ119181716151400.20.4λ0.60.811苹果酒F1所有香料F1位置4785字幕评估Att. Eval.B@1 B@4MCSF1所有F1锁定SR-PL[33]72.929.3 21.8 65.0 15.8--Gu等人[第十一届]73.830.7 21.6 61.8 15.0--NBT[36]69.027.1 21.7 57.5 15.6--不好[65]69.226.9 22.1 60.1 16.1 3.8811.7GVD(辅助)[65]69.927.3 22.5 62.3 16.5 7.5522.2[38]第三十八话68.926.6 22.3 60.9 16.3 4.8513.4我们的†71.428.0 22.6 66.2 17.0 6.53 15.79上下B@1 B@4MCSXE预训练*[3]77.2三十六点二27.0 113.5 20.3+SCST(CIDER)*[3]79.8三十六点三27.7 120.1 21.4XE预培训76.2三十六点四27.7 113.1 20.5+SCST(CIDER)80.0三十七点八28.1 125.2 21.6XE预培训SCST微调标题评价注意评价。GT扫描POS扫描苹果酒扫描POS扫描B@1B@4MCSF1所有F1锁定使用Ground Truth Attention SupervisionC✗✗✗✗✗70.127.421.858.915.48.3323.09C✗✗C✗✗73.429.622.467.516.07.5318.40C✗✗CC✗72.328.522.667.016.58.3520.75C✗✗C✗C72.327.622.464.416.18.0119.48无注意监督✗✗✗✗✗✗69.626.921.657.115.05.1114.67✗✗✗C✗✗73.129.122.267.115.94.1910.71✗✗✗CC✗73.128.822.367.516.14.5912.81✗✗✗C✗C72.127.722.564.916.35.3713.88从SCAN✗C✗✗✗✗70.027.722.058.815.54.4913.49✗C✗C✗✗73.229.322.567.416.04.7213.47✗C✗CC✗73.228.622.467.816.34.7712.25✗C✗C✗C73.328.422.567.516.15.3414.79从POS-SCAN✗✗C✗✗✗70.427.521.858.015.36.4717.96✗✗CC✗✗73.729.922.367.516.06.6216.97✗✗CCC✗73.929.422.868.216.77.3018.44✗✗CC✗C72.628.022.664.316.07.6318.33表2. Flickr30k实体valset上的消融研究。基线字幕模型是上下[3]。XE表示交叉熵。在XE预训练阶段:GT表示使用地面实况注意监督; SCAN(POS-SCAN)表示从SCAN(POS-SCAN)提取的注意力监督。在SCST [46]微调阶段:CIDEr表示使用CIDEr作为奖励函数; SCAN(POS-SCAN)表示使用SCAN(POS-SCAN)模型的图文匹配分数作为奖励。表3.与Flickr30k实体测试集上的最新方法的性能比较。†表示使用来自[65]的视觉特征,并且表示使用来自[3]的广泛采用的自下而上视觉特征辅助核算表示使用地面真理基础注释。监督方法被用作上限,其数字没有加粗。在表2的每个部分的第3行中,我们可以发现,通过进一步结合SCAN作为奖励函数,模型获得了对SPICE度量的一致改进,这捕获了与其他常规度量更多的语义命题内容一致性。此外,我们发现,这种奖励可以提高接地性能在大多数情况下相比,仅使用CIDEr作为奖励。通过进一步比较表2的每个部分中的第3和第4行,我们可以发现,SCAN奖励函数是字幕质量和接地性能之间表4.在MS-COCO Karpathy测试集上的性能。*表示原始论文中报告的结果。省略的平衡权重等于1。SCST(x)是指在SCST [46]微调阶段使用x作为奖励函数。与POS-SCAN奖励功能相比,Q5:与其他最先进的模型相比,我们的最终模型表现如何?我们将最终模型与测试集上的其他最先进模型进行了比较,如表3所示。为了与最相似的工作进行公平的比较[38],我们还使用它们的视觉特征(λ1= 0)运行我们的最终模型。2)。我们的模型在字幕评价和注意力评价上都取得了较好的效果没有任何地面实况关注监督。我们还在表4中报告了MS-COCO的部分结果。4786('dog',7)('field',4)一只狗跑过田野。('brown',1)('dog',1)('field',35)一只棕白相间的狗正在田野里奔跑。('dog',6)('tree',27)两只狗在树上玩耍。('dog',12)(area 30)两只狗在树林里玩耍区('men',12)('lake',2)两个人在湖里钓鱼。('men',4)('lake',26)两个男人在湖上钓鱼。('men',2)('roof',30)两个人在屋顶上干活。('men',14)('roof',7)两个人在屋顶上干活。('man',14)('shirt',29)('table',9)('hammer',9)一个穿条纹衬衫的男人坐在一张有锤子的桌子('man',34)('hat',11)('围裙',11)('fire',32)一个戴红帽子、系红围裙的男人就是生火('man',0)('shirt',19)('table',3)('drink',9)一个穿条纹衬衫的男人坐在一张桌子旁,手里拿着一杯饮料。('man',1)('围裙',4)('kitchen',5)一个穿白围裙的男人正在厨房做('man',3)('shirt',20)('front',1)('组',1)('people',9)一个穿蓝色衬衫的男人站在一群人的前面。('group',33)('people',13)('front',22)('table',1)一群人站在一张桌子前,桌子上有一个UNK。('man',3)('shirt',2)('grass',33)('soccer',23)('ball',23)一个穿红衬衫的男人拿着足球坐在草地上。('man',7)('shirt',21)('飞盘',23)('field',15)图4.在XE Pre-Train阶段生成模型的标题和内部区域-单词对齐,不带和带POS-SCAN注意力监督在每个单元中,红色框包围的标题来自前者,绿色框来自后者。用相同的颜色标记具有最大权重的词和对应的关注区域。我们还可视化的注意力权重分布的一些视觉接地的话顶部的标题。颜色越深表示权重越大由于篇幅原因,我们只展示了一部分区域。('man',2)('hat',0)('hat',0)('hat',0)一个男人戴着一顶帽子,一顶帽子,一顶帽子。(“女孩”,9)('karate',9)('uniforms',9)('arts',9)('man',0)('shirt',1)('picture',9)('man',22)一个穿白衬衫的男人正在给一个穿白衬衫的男人拍照。('baseball',2)('player',2)('air',28)('catcher',2)('watches',2)图5.由封顶模型生成的一些典型失效案例。4.4. 定性结果为了说明我们提出的方法的优点,我们在图4中给出了一些定性的例子。我们可以观察到,我们提出的方法可以帮助产生更多的接地字幕(例如,它将“男人”与第二图像中的正确区域对准我们还在图5中展示了基于神经的字幕模型的一些代表性失败案例。错误包括模式重复(例如,第一图像),误识别(例如,第二和第三图像)以及由于复杂上下文(例如,第四张图片)。5. 结论在这项工作中,我们证明了通过提取图像-文本匹配模型来生成更多接地字幕而无需接地注释是可行的:建议的POS扫描。这增强了现有字幕模型的可解释性和透明性。此外,通过将SCAN图像-文本匹配分数作为回报,我们发现了字幕质量和接地性能之间的实际权衡。在未来,设计一个可学习的图像-文本匹配度量(而不是有问题的基于n-gram的度量)可能是一个有趣的方向,以鼓励更接地的图像captioning以获得更好的模型解释性。致谢我们感谢所有审阅者提出的建设性意见。本研究得到国家自然科学基金项目61732008和61725203的资助。这项研究也部分浙江省实验室重大科研项目(No.2019DB0ZX01)资助4787引用[1] 塞缪尔·阿尔巴尼,阿尔沙·纳格拉尼,安德里亚·维达尔迪,和安德鲁·齐瑟曼.在野外使用跨模态转移的语音中的情感识别在ACM MM,2018年。3[2] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在ECCV,2016年。5[3] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。二四五六七[4] Kan Chen,Jiyang Gao,and Ram Nevatia.弱监督短语接地的知识辅助一致性。在CVPR,2018年。3[5] Kan Chen,Rama Kovvuri,and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。InICCV,2017. 3[6] Long Chen,Hanwang Zhang,Jun Xiao,Ligen Nie,Jian Shao,Wei Liu,and Tat-Seng Chua. Sca-cnn:图像字幕卷积网络中的空间和通道注意力。在CVPR,2017年。2[7] Samyak Datta 、 Karan Sikka 、 Anirban Roy 、 KarunaAhuja、Devi Parikh和Ajay Divakaran。Align2接地:弱监督短语接地引导图像标题对齐。arXiv预印本arXiv:1903.11649,2019。3[8] Michael Denkowski和Alon LavieMeteor通用:针对任何目标语言的特定语言翻译评估第九届统计机器翻译集,第376-380页,2014年。5[9] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和SanjaFidler。Vse++:改进了视觉语义嵌入。在BMVC,2018年。二、三、四[10] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise:一个深度视觉语义嵌入模型。神经信息处理系统的进展,第2121-2129页,2013年3[11] Jiuxiang Gu,Gang Wang,Jianfei Cai,and Tsuhan Chen.语言cnn应用于影像字幕之实证研究。InICCV,2017. 7[12] Longteng Guo,Jing Liu,Jinhui Tang,Jiangwei Li,Wei Lo,and Hanqing Lu.图像字幕的语言词和视觉语义单位的对齐。在ACM MM,2019年。2[13] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.监督转移的交叉模态提取在CVPR,2016年。3[14] Lisa Anne Hendricks , Kaylee Burns , Kate Saenko ,Trevor Darrell和Anna Rohrbach。妇女也滑雪:克服偏见的字幕模式.在ECCV,2018。2[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。二、三[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。4[17] Ronghang Hu , Marcus Rohrbach , Jacob Andreas ,Trevor Darrell,and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功