图像字幕生成的语义理解与排序方法研究及实证分析

70 浏览量更新于2023-10-26 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17990图像字幕语义的理解与排序Yehao Li，Yingwei Pan，Ting Yao，and Tao MeiJD Explore Academy{yehaoli.sysu，panyw.ustc，tingyao.ustc}@ gmail.com，tmei@jd.com地面真相：一个男人骑着一头牛穿过停车场摘要理解图像中丰富的语义并按语言顺序排列是创作的关键一个视觉上接地和语言连贯的描述图像字幕。现代技术通常利用预先训练的对象检测器/分类器来挖掘图像中的语义，同时使语义的固有语言顺序未得到充分利用。在本文中，我们提出了一种新的转换器式结构配方，即理解和排序语义网络（COS-Net），它新颖地将丰富的语义理解和可学习的语义排序过程统一到单个架构中。在技术上，我们首先利用跨模态检索模型来搜索每幅图像的相关句子，并将搜索到的句子中的所有单词其次，设计了一种新的语义理解器，过滤掉主要语义线索中不相关的语义词，同时基于图像的视觉信息推断出缺失的相关语义词.之后，我们将所有筛选和丰富的语义词输入语义排名器，该排名器学习按照人类的语言顺序分配所有语义词。这种有序的语义词序列进一步与图像的视觉标记结合以加速句子生成。实证证据表明，COS-Net明显优于最先进的COCO方法，并在Karpathy测试分裂上达到了迄今为止最好的 CIDEr 得分 141.1% 。源代码可在https://github.com/YehLi/xmodaler/tree/master/image_caption/cosnet上获得。1. 介绍用描述性话语描述视觉内容的能力是儿童从小就被教导的基本人类能力。为了形式化这种独特的能力，开发了图像字幕的任务[7，11，21，33]来模拟视觉和语言之间的类似人类的交互。这项任务的最终目标是创造一个视觉上和语言上连贯的（一）（b）第（1）款（c）第（1）款图1. 由（a）预先训练的对象检测器产生的语义，(b) 跨模态检索模型（CLIP），和（c）我们的语义COM-分级图像字幕。它涵盖了图像中大部分值得一提的语义，并按语言顺序进行描述。现代图像字幕技术通常集中在增强视觉语言对齐的前一方面，其通过首先捕获细粒度语义（例如，属性[40，41]、对象[2，14，37]或场景图[36，38，39]）。然后，提出了一系列在这些细粒度语义上使用视觉注意力的创新[6，10]，以加强视觉语言交互。然而，预先训练的检测器/分类器的语义理解能力此外，预先训练的检测器/分类器没有随着句子解码过程而优化，因此很难被调整以强调输出句子中的视觉显著语义。如图1（a）所示，预先训练的对象检测器（Faster R-CNN）仅捕获一个主要语义词（ “sky”and为了增强图像编码器的可扩展性和通用性，最近的开创性实践[29]是利用CLIP模型（即，图像编码器和文本编码器[24]），它是在不同的大规模数据上训练的。在这项工作中，我们认为CLIP模型是一个强大的跨模态检索模型，从人类注释的句子池中检索相关的句子。这样的方式自然地积累了更显著的语义词，这些语义词倾向于在视觉上相似的图像中被提及，同时也引入了更多不相关的语义词（参见图1（b））。为了缓解这个问题，我们独特地设计了一个语义理解器，它可以根据视觉内容进一步细化搜索句子中的主要语义线索。通过这样做，语义压缩-泊车员批奶牛游乐设施人->游乐设施->奶牛->停车场->停车场男人女人停车场停放的汽车步行很多 ...马天空灌木人的马 van语义排序器语义理解器...检索FasterR-CNN图像编码器文本编码器训练句子17991hender（见图1（c））不仅过滤掉不相关的语义词（例如，“horse”），而且还学习推断缺失的相关语义词（例如，“cow” and “rides”), pursuing an enriched andaccurate semantic为了追求输出句子的语言连贯性，最近的进展直接利用基于RNN/Transformer的句子解码器进行语言建模。不幸的是，这种范式过度依赖于语言先验，有时倾向于产生实际上不在图像中的语义词的幻觉，这种现象被称为在这里，我们建议从利用语义的内在语言顺序作为额外的监督信号来指导句子解码过程的角度来缓解这个问题从技术上讲，语义排序器（见图1（c））被用来按照语言顺序对所有从语义理解器中派生出来的精炼语义词进行排序，从而产生一个有序语义词序列。这种语义词序列体现了语义词在序列中相对语言位置的强调。因此，序列充当描述性句子的固有骨架，并且因此可以被利用来鼓励在每个解码时步生成相关单词。在这项工作中，我们设计了一种新的转换风格的编码器-解码器结构的图像字幕，即理解和排序语义网络（COS- Net）。我们的出发点是将语义理解和排序这两个过程统一到一个方案中，使语义理解器和排序器能够共同优化，以更好地适应句子解码过程。具体来说，我们首先采用现成的CLIP作为跨模态检索模型，为输入图像检索语义相似的句子。首先将搜索到的句子中的所有语义词作为主要的语义线索。然后，基于CLIP中图像编码器的输出网格特征，利用视觉编码器将每个网格特征通过自注意上下文编码为视觉标记。语义过滤器以主语义线索和视觉标记为输入，过滤掉主语义线索中的无关语义词，同时通过交叉注意机制重构缺失的相关语义词。之后，语义排序器通过使用其估计语言位置的编码升级每个语义词来学习以语言顺序分配所有细化的语义词最后，视觉标记和有序的语义词都通过注意力动态地集成，以逐词地自动回归解码输出句子。这项工作的主要贡献是建议共同理解和排序的语义在一个图像，年龄，以提高图像字幕。这也导致了如何很好地捕捉更丰富的相关语义，值得一提的视觉内容，以及如何优雅的观点探讨它们内在的语言顺序，以进一步促进句子的生成。COCO上的大量实验证明了我们的COS-Net的有效性。2. 相关工作基于RNN的编解码器方案。在深度学习时代，研究人员在[3，30]中证明，使用基于RNN的编码器-解码器可以显著改善机器翻译。随后，这种基于RNN的编码器-解码器方案成为现代图像字幕技术的事实配方。与机器翻译中基于RNN的序列建模类似，早期的尝试[21，33]直接采用基于RNN的基本编码器-解码器方案进行图像captioning任务，通过使用CNN编码视觉内容并用RNN解码输出描述。接下来，基本的基于RNN的方案升级为视觉注意力机制[18，34]，该机制学习动态确定最相关的局部补丁，以在每个解码时间步提高单词预测。同时，语义注意机制[41]被纳入基于RNN的编码器-解码器中，以选择性地强调句子生成的最相关语义属性。在此之后，自下而上和自上而下的注意力[2]使得注意力测量能够在对象水平上进行，而不是在相同大小的局部块上的传统视觉注意力描述图像中细粒度语义的场景图结构[36]进一步集成到基于RNN的编码器-解码器中，旨在利用语言归纳偏差。基于变换器的编解码器方案。通过Transformer [31]在NLP领域的突破，许多现代图像字幕方法开始出现，这些方法利用基于Transformer的编码器-解码器方案。该方案的核心思想是利用Transformer的自我注意或交叉注意机制来强化视觉编码和视觉语言交互。例如，在[28]中，NLP中的主要Transformer结构直接用于图像字幕任务。在[9]中，对象之间的空间关系被另外并入基于变换器的编码器-解码器中。最近，已经提出了一系列创新来升级Transformer风格结构中的注意力机制，包括注意力门[10]，跨多层的网状连接[6]，高阶特征交互[22]和对象的相对几何关系[8]。最近，一个自动解析网络[35]被设计为将输入柔和地分割成一个分层树，该分层树被进一步施加到基于变换器的编码器-解码器中用于图像字幕。摘要所提出的COS-Net也可以被认为是基于变换器的编码器-解码器方案，其构造大多数模块（例如，视觉编码器、句子解码器和语义理解器），17992FNIV|C我CC我i=1我C我 i=1我C我i=1我我我我我我（Nv）（Nv）（Nv）NINx线性&SoftmaxNx添加范数前馈人(b)视觉编码器Nx无人停车人->骑->牛->停车场->停车场添加规范融合停车添加横蒙面马很多多头多头多头很多Max位置预测关注关注位置编码槽池化语义嵌入(a) 跨模式检索（c）语义理解器（d）其他事项Ranker（e）句子解码器图2.概述我们的COS-Net。（a）给定一幅输入图像，CLIP首先通过图像编码器提取其网格特征，然后从句子池中检索语义相似的句子，这些句子被分解成一组语义词，作为主要语义线索。(b)视觉编码器进一步通过自注意将网格特征转化为视觉标记。(c)然后，语义理解器过滤掉不相关的语义词，筛选出主要的语义线索，同时重建缺失的相关语义词。（d）语义排序器学习估计每个语义词的语言位置，从而产生有序语义词的序列（e）最后，将视觉标记和有序语义词集成到句子解码器中以生成字幕结构CLIP-ViL [29]可能是最相关的工作，它直接将CLIP中预训练的图像编码器作为基于Transformer的编解码器中的视觉编码器Transformer块与多头注意。所以视觉编码器中的第i个Transformer块操作为：（i+1）（一）（一）（一）（一）[20 ]第20段。我们的COS-Net超越了CLIP-ViL，利用CLIP通过跨模态检索从人类注释的句子库中寻找更丰富的语义线索。此外，语义理解者新颖地通过过滤出不可靠的信息来细化主要的语义线索VI=F（norm（VI+MultiHead（VI，VI，VI），MultiHead（Q，K，V）= Concat（head1，...，头h）W O，头i=注意力（QWQ，KWK，VWV），QKTAttention（Q，K，V）=softmax（softd）V，（一）vant语义词和推断缺失的相关语义词。随后的语义排序器进一步按语言顺序分配所有细化的语义词，这些语义词作为额外的监督信号来增强图像字幕。3. 我们的方法：COS-Net现在我们开始介绍我们的核心提案，即：编译和排序语义网络（COS-Net），其中，表示前馈层，norm是层归一化，WQ、WK、WV、WO是权重矩阵，并且d是缩放因子。请注意，为了启用层间全局特征交互，我们还将来自所有Transformer块的输出全局特征关联起来，这些全局特征被进一步转换为整体全局功能：v∈c=Wc[v（0），v（1），.，v（Nv）]，（2）它将语义理解和排序过程集成到图像字幕的统一架构中。图2描述了COS-Net的详细架构。3.1. 视觉内容编码其中Wc是权重矩阵。因此，通过额外地将视觉编码器的编码网格特征与整体全局特征v_v_c 集成，我们获得最终输出v_v_I=[v_c，v（N_v）]|NI]。受图像captioning [6， 10]或图像识别[15]中基于transformer的编码器的启发，我们利用多个堆叠的Transformer块将视觉内容编码为中间视觉令牌。形式上，给定输入图像I，我们首先采用CLIP的图像编码器[24]（主干：ResNet-101）提取网格特征图I=vii=1（NI网格），加上全局特征vc. 然后，我们变换全局和网格特征到一个新的嵌入空间，并进一步连接它们为：V（0）=[v（0），v（0）]|NI]。之后，视觉编码器被3.2. 语义理解大多数现有的图像字幕技术利用预先训练的对象检测器/分类器来捕获图像中的语义，这些语义被直接馈送到句子解码器中以产生字幕。然而，这些预先训练的检测器/分类器的语义感知能力此外，预先训练的检测器/分类器和句子解码器之间的单独优化阻碍了交互，行动之间。这使得自适应调整变得困难用于对所有变换后的全局和网格特征V（0），产生丰富的视觉令牌V =[v，v|]中。具体-对象检测器/分类器，以更好地强调输出句子中值得一提为了减轻这些限制，我们建议利用关闭-从逻辑上讲，我们通过堆叠在不同和大规模数据上训练的Nv现成CLIP来实现这个视觉编码器，检索文本编码器训练句子一个男人骑着牛穿过停车场牛游乐设施添加规范...饲料向前添加规范饲料向前添加规范多头关注添加规范多头关注...添加规范多头关注图像编码器......17993VSRKi=1VVii=1SSSS我i=1我i=1S我i=1我i=1ii=1ii=1XNri=1我SI我 i=1我 i=1S我 i=1我 i=1SRKVi=11ΣΣCcii=1∈|（0）|V|O|V|||i sii一个强大的跨模态检索模型，直接accumulates倾向于在视觉上相似的图像中提到的语义词的更多候选。基于这种通过跨模态检索挖掘的基本语义线索，并通过利用语义标记与视觉标记之间的交互来进一步增强语义标记，其中交互经由交叉注意，其被测量为：V（i+1）=F（norm（V′+MultiHead（V′，VI，VI），设计了一个新的语义理解器，用于筛选ir-s s s（4）同时推断缺失的相关语义词，追求语义理解的全面准确跨模态检索。为了剥削富人上下文语义隐含在现有的人类注释Vs′=norm（V（i）+MultiHead（V（i），V（i），V（i），其中（i+1）表示第i个Transformer块的输出增强语义块。因此，语义理解器V（Ns）的最终输出语义令牌=[o（Ns）|No，s（Ns）|[2019-03-25][2019 - 03 - 25][2019 -03 - 25][2019 - 03][2019 - 03 - 25]跨模态检索模型（即，CLIP）在训练句子池中为每个输入图像搜索语义相关的句子从技术上讲，令vc和sc表示由CLIP中的图像编码器和文本编码器针对输入图像I和每个感测图像I提取的视觉和文本特征S，分别。因此，通过取输入图像I作为搜索查询，我们检索前K个字幕{Srl，Sr2，.，SrK}从训练句子池中提取，S找到并重建语义词。Objective. 在训练过程中，我们包括一个代理目标，通过鼓励过滤主要语义线索中的不相关语义词和重建缺失的相关语义词来优化语义理解者在这里，我们将这个过程表述为单标签和多标签分类问题的组合。特别地，以输出语义标记为条件的语义理解器V（Ns）=[o（Ns）]|No，s（Ns）|Nr]，vc相似性（I，S）=Crk，（3）预测层用于估计每个语义词汇在整个语义||v||S c||sc||语义标记，产生语义预测Ps=sc是字幕S[Po|否，Ps|Nr]。不是因为语义循环是K搜索所有语义相关的K个搜索标题对于输入图像，我们将它们分解成一组Nr个语义词Vs=si|Nr通过去除停止词，构造为训练集中的所有Nc个语义词加上一个表示无关语义词的特殊标记。第i个se的预测的地面真实标签-主语义线索中的语义标记Ps因此被表示为其进一步被作为主要语义线索。语义理解器。跨模态检索得到的主要语义线索虽然包含了更多值得提及的相关语义词，但也不可避免地引入了更多的无关语义词。利用语义理解器过滤掉不相关的语义词，同时丰富了原始语义。具有更多相关但缺少语义词的语音提示我如yiRNc+1。这样，基于PsNr，我们将过滤掉主要语义线索中不相关的语义词的过程视为单标签分类的任务，其目标用交叉熵损失来衡量：NrNc+1L=−ylogP，（5）c=1具体地说，我们将这种语义筛选和丰富的过程5]，它直接将主要语义线索s=siNr转换为以vi为条件的细化语义预测sualtokens请注意，为了使rehabilitation-对于缺失的相关语义词，我们用附加的参数语义查询来增强主要语义线索Vs的输入（即，一组槽=oNo）。更具体地说，主要语义线索s首先被映射到新的语义嵌入空间，从而导致主要语义特征s（0 ）Nr。接下来，我们馈送主要语义特征和参数语义查询的级联（即，（0）=[o（0）No，s（0）Nr]）输入到语义理解器中，以触发筛选和丰富的语义词的集合预测。在这里，我们将语义理解器实现为N s堆叠的Trans，前块。每个块对每个输入的语义词进行上下文编码（即，语义标记）通过自我注意，其中yc和Pc分别表示yi和Ps的第c个元素。同时，我们把推理缺失的相关语义词的过程看作是多标签分类的任务。具体地说，在将参数语义查询PoNo的预测标准化之后，sigmoid激活，我们对它们执行最大池化，以实现语义词汇的整体概率分布Po。因此，多标签分类是用非对称损失计算的[26]：Lm=asym（Po，ym），（6）其中asym表示不对称损失，并且ym是所有缺失的相关语义词的基础事实标签。最后，语义理解器的整个目标整合了过滤掉不相关的语义词和重建缺失的相关语义词这两个目标：Ls=LX+ LM。（七）·s在训练集中，我们利用一个I和每个标题之间的余弦相似度rk：哪里Rrk. 在取得─17994VV不不不我不VV0：T−1S{}01T−1不不不SIS不不不不p和不不S1S2sNo+Nr--pttV∈V{}3.3. 语义排序在从语义理解器中获得经过筛选和丰富的语义之后，生成描述的最典型方式是将它们直接馈送到基于RNN/Transformer的句子解码器中进行句子建模。但这种方法过于依赖语言先验知识，可能会产生客体幻觉现象，导致语义词不存在。为了解决这个问题，我们还涉及了一个新的语义排名模块，该模块学习估计每个语义词的语言位置，从而将所有语义词按语言顺序分配为人类。以这种方式，有序语义词的输出序列用作附加的视觉上接地的语言先验，以鼓励生成相关和连贯的描述。传统的Transformer编码器-解码器通过静态可学习的语法来词被表示为=h（0），h（0），.，h（0）. 总体上句子解码器将每个单词作为输入，根据丰富的视觉标记和位置感知语义标记自动回归地判定下一个单词。我们将句子解码器实现为N-d堆叠Transformer块。每个Transformer块由掩蔽的多头注意层和交叉多头注意层组成，掩蔽的多头注意层用于对先前生成的单词的整体文本上下文进行建模，交叉多头注意层集成视觉和语义令牌以触发句子生成。具体地，在第t个解码时步，第i个块中的掩码多头注意层基于先前输出隐藏状态h（i）的查询对先前生成的单词执行自注意，从而产生整体文本上下文h′（i）：h'（i）=多头（h（i），H（i），H（i））。（十）序列中预定义位置的编码。绝不-t t0：t0：t而且，在我们的语境中，语义理解后每个语义词的具体位置并不明确，每个语义词与其语序的内在对应关系是动态的。因此，与其代表-在此基础上，采用交叉多头注意层分别对视觉标记VI和语义tok ensVs取决于同一个查询(i.e.、h（i）），从而产生整体视觉上下文hv（i）：t t将每个语言顺序发送为静态位置编码，我们的语义排序器利用注意力机制，动态地推断每个语义词的语言位置形式上，我们首先初始化一组D维位置编码pRNp×D表示语义词序列的所有语序，其中Np是语义词序列的最大长度接下来，对于每个语义词，（Ns）（例如，Ke n v的i-th语义在V），我们测量hv （i ）=MultiHead（h（i ），VI，VI） +MultiHead（h（i），Vs ，Vs）。（十一）接下来，我们用S形门函数融合整体文本上下文h′（i）和视觉上下文hv（i），并且将学习的隐藏状态h（i+1）作为第i个块的输出h（i+1）=F（norm（h（i）+（g<$h'（i）+（1−g）<$hv（i），Vg=Sigmoid（Wg[hv（i），h'（i）]）.然后通过聚合所有具有关注度的位置编码来计算其关注的位置编码pi=softmax（vsVpT）Vp.（八）这里，关注位置编码p i可以被解释为语义词序列中每个语义to k en v i的语言顺序的“软”估计。之后，我们用其估计的语言顺序升级每个语义标记，得到位置感知语义标记：最后，最后一个块的输出隐藏状态h（Nd）用于通过softmax预测下一个字wt+13.5.总体目标在训练阶段，我们的COS-Net的总体目标被测量为语义理解器Ls中的代理目标和用于句子生成的典型交叉熵损失LXE的集成：L=Ls+LXE。接下来，跟随-si=v<$si+pi。（九）在[20]中，COS-Net可以进一步优化句子-等级奖励（例如，CIDER评分）。因此，语义排序器产生一组位置，vp，vp，.，表示有序语义词序列的v_p。3.4.句子解码然后，利用视觉编码器提供的丰富的视觉标记和语义排序器提供的位置感知语义标记，讨论了如何将它们集成到用于句子生成的基于转换器的解码器。对于- mally，设=w0，w1，.，W T-1表示描述输入图像I的文本句子（T：单词编号）。每个4. 实验4.1. 数据集和实验设置数据集。我们根据广泛采用的COCO基准[17]对图像字幕进行了经验验证和分析。COCO数据集由超过120，000张图像组成，每张图像都配有五个人工注释的句子。为了与大多数现有技术进行公平比较，我们严格遵循[11]中的标准数据集分割（称为Karpathyv~（十二）它在所有位置编码17995表 1. COCO Karpathy 测试拆分上的 COS-Net 消融研究。Base：一个基于transformer的编码器-解码器结构，使用CLIP网格特征作为视觉输入;CR：跨模态检索;FIS：过滤掉不相关的语义;IMS：推断缺失的语义;SR：语义排序器。# 基地 CR FIS IMS Sr B@4M R C SCHS 迟1C38.0 29.0 57.9 123.6 22.16.24.32CC38.4 29.3 58.5 124.9 22.35.33.63CCC38.6 29.3 58.5 125.8 22.45.23.64CCCC39.2 29.5 58.7 126.1 22.65.13.55CCCCC39.2 29.7 58.9 127.4 22.74.73.2split），它利用5，000个图像进行验证，5，000个图像用于测试，其余的用于训练。除了标准的Karpathy分裂之外，我们还采用了[19]中引入的鲁棒分裂来进行对象幻觉分析，这确保了训练，验证和测试字幕中提到的对象对在实验中，我们通过将每个句子转换为小写字母来执行最小句子预处理，同时过滤出出现次数少于6次的罕见单词[2]。因此，整个单词词汇表由10，199个唯一单词组成。此外，为了使我们的语义理解器的学习，我们构建了一个额外的语义词汇表（NC=906），通过删除所有的停止词在单词词汇和选择高频语义词。实施详情。在COS-Net中，视觉编码器、语义理解器和句子解码器由NV=6、Ns=3和Nd=6的转换器块（隐藏状态大小：512）构造。CLIP [24]中的图像编码器直接用于输入图像，因此每个图像都表示为512维全局特征向量加上2，048维网格特征映射。采用典型的两阶段培训范式[25]来训练COS-Net。整个架构基于X-modaler代码库实现[13]。具体来说，我们首先通过将交叉熵损失与语义理解器的代理目标集成30个epoch（批量大小：32）来优化COS-Net的整个架构。在这个阶段，我们利用Adam [12]优化器和[31]中的学习率调度策略（预热：20，000次迭代）。对于第二阶段，我们通过自我批判序列训练策略[20]进一步优化CIDEr得分学习率设定为0.00001。在推断时，波束搜索策略中的波束大小被设置为3。根据标准评估设置，我们报告了COS-Net在五个评估指标上的性能：BLEU@N [23]（B@1-4），METEOR [4]（M），ROUGE [16](R)，CIDEr [32]（C）和SPICE [1]（S）。我们还使用CHAIR度量[27]用于评估稳健分割上的对象幻觉率。CHAIR度量包括两个变量：测量对象的什么分数是幻觉的CHi（CHi），以及计算句子的什么分数包括幻觉对象的CHs（CHs）。4.2. 消融研究在本节中，我们进行了消融研究，以调查COS-Net中的每种设计如何影响COCO数据集的整体表1详细说明了我们的COS-Net不同消融运行之间的性能比较。注意，这里的所有结果都是在没有自我批评序列训练策略的情况下报告的。我们从一个基本的基于transformer的编码器-解码器结构（Base）开始，它是一个退化版本的COS-Net，只使用CLIP网格特征作为视觉输入，而不通过跨模态检索，语义理解和排序来探索主要的语义线索。在此基础上，我们扩展了基于CLIP的跨模态检索模型，挖掘了句子生成的主要语义线索。通过这种方式，Base+CR表现出更好的性能，这验证了通过跨模态检索来积累更丰富的语义词的优点，这些语义词倾向于在视觉相似的图像中被接下来，Base+CR+FIS学习过滤掉主要语义线索中不相关的语义词，从而提高性能。Base+CR+FIS+IMS进一步受益于推断缺失的相关语义词的附加过程。这两个消融运行的结果基本上突出了语义筛选和丰富的优势，在我们的语义理解器的图像captioning。最后，在将Base+CR+FIS+IMS与我们的语义排名器（其估计从语义理解器导出的每个语义词的语言位置）集成之后，Base+CR+FIS+IMS+SR（即，我们的COS-Net）在大多数评估指标上实现了最佳性能。结果验证了有序语义词序列作为额外的视觉基础语言pri- ors的杠杆作用，以提高句子生成。4.3. 与最新技术水平的在这里，我们将我们的COS-Net与三种不同分割的一系列最先进的图像字幕方法进行比较，即，标准的Karpathy测试分割，通过在线评估的官方测试分割，以及用于对象幻觉分析的鲁棒分割。具体而言，对于Karpathy测试分割，我们遵循现代技术并利用两种不同的训练设置进行评估。一种是默认的单模型设置，其通过单个模型产生句子，另一种是集成模型设置，其集成具有不同初始化参数的多个模型。Karpathy检验拆分的单个模型。表2总结了默认单模型设置中的性能比较。所有的运行都被简单地分为两个部分-段落：（1）标准方法（例如，SGAE [36]，Up-Down[2]，Transformer [28]，M2Transformer [6]），其利用预训练的Faster R-CNN（主干：ResNet- 101）来提取视觉输入;（2）方法（例如，CLIP-Res 101 [29]），将强大的CLIP网格功能作为vi-17996††††††表2.各种方法在COCO Karpathy测试拆分（单一模型设置）上的性能†表示我们使用CLIP网格特性（主干：ResNet-101）作为视觉输入的实现在高级主干（ResNet-50×4）中使用CLIP网格特性。B@1B@2交叉熵损失B@3B@4个月RCSB@1B@2CIDEr评分优化B@3B@4MRCS上下[2]77.2--36.227.056.4113.520.379.8--36.327.756.9120.121.4GCN-LSTM [38]77.3--36.827.957.0116.320.980.5--38.228.558.3127.622.0SGAE [36]77.6--36.927.757.2116.720.980.8--38.428.458.6127.822.1AoANet [10]77.4--37.228.457.5119.821.380.2--38.929.258.8129.822.4Transformer [28]76.460.346.535.828.256.7116.621.380.565.451.139.229.158.7130.023.0M2Transformer [6]--------80.8--39.129.258.6131.222.6APN [35]-----------39.629.259.1131.823.0NG-SAN [8]-----------39.929.359.2132.123.3[22]第二十二话77.361.547.837.028.757.5120.021.880.965.851.539.729.559.1132.823.4CLIP-Res101 [29]--78.178.078.3--62.662.462.9-- 四十九点一48.949.3-- 三十八点三38.038.2-- 二十八点六29.029.2--57.957.958.3-- 一百二十点七123.6124.5--21.622.122.6--81.381.682.0--66.266.967.2--51.552.653.139.240.239.440.641.229.129.729.229.930.2--59.359.860.0130.3134.2131.9136.2137.223.023.822.823.924.2CLIP-Res 50 ×4英寸[29][2]第二次世界大战Transformer †[28][22]第二十二话COS-Net79.263.850.239.229.758.9127.422.782.768.254.042.030.660.6141.124.6表3.各种方法对COCO Karpathy检验分割的性能（集合模型设置）。交叉熵损失B@1B@2B@3B@4MRCSCIDEr评分优化B@1B@2B@3B@4MRCSGCN-LSTM [38]77.4--37.128.157.2117.121.180.9--38.328.658.5128.722.1SGAE [36]--------81.0--39.028.458.9129.122.2AoANet [10]78.7--38.128.558.2122.721.781.6--40.229.359.4132.022.8M2Transformer [6]--------82.0--40.529.759.5134.523.5[22]第二十二话77.862.148.637.729.058.0122.121.981.766.852.640.729.959.7135.323.8COS-Net79.664.450.940.030.059.4129.522.983.569.154.942.930.861.0143.024.7sual输入。请注意，为了与我们的COS- Net进行公平的比较，我们重新实现了现有标准方法的几个升级变体（例如，上下、Transformer、X- Transformer）。如该表所示，我们的COS-Net consideration在所有评估指标上都优于最先进的方法。特别是在CIDER分数优化的设置下，COS-Net的CIDER分数可以达到141.1%，比最好的竞争对手X- Transformer（CIDER：137.2%）提高了3.9%。这通常证明了共同理解和整理图像中的语义以促进句子生成的关键优势。与利用RNN的方法相比-基于结构（例如，Up-Down和GCN-LSTM）、Trans-former和M2Transformer通过利用基于Transformer的方案来提高性能，该方案通过交叉注意来加强而不是使用预先训练的Faster R-CNN来编码视觉内容，primary Up-Down，Up-Down利用CLIP网格功能触发自下而上和自上而下的注意力，从而显著提高性能。实验结果表明，CLIP具有更强的语义理解能力，它是在多样化和大规模的数据上训练的。当进一步升级传统的Transformer与CLIP网格功能，Transformer也设法实现更好的性能。然而，现有方法的这些升级运行仅取决于经由预训练的CLIP的视觉内容编码，而没有CLIP与句子解码器之间的任何交互作为替代方案，我们的COS- Net鼓励更全面和准确的语义理解，并进一步学习分配语义词的语言排序作为人类，从而实现所有评估指标方面的最佳性能。Karpathy检验分裂的集成模型。接下来，我们用四个模型的集合来评估我们的COS-Net，这些模型是用不同的随机种子训练的。如表3所示，整体模型设置中的性能趋势与单一模型设置中的性能趋势相似。具体地说，COS-Net的集成版本在CIDER评分上绝对提高了7.7%，超过了当前最先进的标准技术（集成X-Transformer）。结果再次证明了联合筛选的有效性，丰富了主要的语义线索，并进一步排序图像字幕的语义。在线评估官方测试分割。我们通过将COS-Net提交到在线测试服务器，进一步包括对官方测试分割的更多评估表4显示了5个参考字幕（c5）和40个参考字幕（c40）的性能。由于这个在线排行榜中大多数性能最好的方法都采用了集成模型设置，因此我们在这里报告了集成COS-Net的性能以进行公平比较。同样，COS-Net超越了所有指标的所有最先进的方法。鲁棒分裂的幻觉分析。为了更好地理解我们的COS-Net中语义理解和排序的影响，我们进行幻觉分析[27]以评估对象幻觉的比率（即，所生成的字幕的图像相关性）。表5列出了典型句子度量和图像相关性度量（CH和CHi）的性能。在单个模型设置中的评估之后，我们包括两组基线（即，标准方法及其具有CLIP网格功能的升级版本）。在这种幻觉分析中也观察到类似的趋势具体来说，装备--17997††††††††表4.各种方法在在线测试服务器上进行正式测试拆分的性能B@1 B@2 B@3 B@4 M R C表5. 鲁棒分裂的幻觉分析通过使用CLIP网格特性作为可视输入来表示我们的实现。B@1 B@4MRCSCHS 迟[25]第二十五话--24.0-85.8 16.9 14.1 10.1上下[2]--24.7-89.8 17.7 11.3 7.9[25]第二十五话[28]第28话最后一个女人76.576.876.935.736.336.326.727.127.455.756.056.1104.4106.3109.319.820.120.59.08.67.95.95.65.1COS-Net78.0 37.3 27.9 56.8 112.1 21.2 6.23.9ping标准方法（例如，Att 2 In和Up-Down），Att 2 In和Up-Down的CHs和CHi得分较低，说明CLIP具有较强的此外，我们的COS- Net超越了Transformer，通过跨模态检索额外挖掘初级语义线索，并进一步细化语义排序，从而降低CH和CHi得分。结果证实，COS-Net通过减轻对象幻觉而更加鲁棒。4.4. 定性结果为了定性地显示COS-Net的有效性，我们展示了我们的 COS-Net 的几个定性结果 Transformer 和 Up-Down ），再加上图3中人类注释的地面实况语句（GT）。一般来说，很容易观察到，所有三种方法都能够产生语言上连贯的描述。然而，当检查视觉内容和生成的句子之间的语义相关性时，我们的COS-Net通过捕获更相关的值得一提的语义词而优于其他例如，在第一个例子中，Transformer和Up-Down都只部分地挖掘了主要的语义词（ red 、 plane、 smoke 和sky），而忽略了smoke的显著语义。相反，COS-Net设法理解该图像中的所有主要语义（红色，飞机，烟雾，天空和烟雾），并进一步将它们按语言顺序分配为人类，从而产生基于视觉和语言连贯的描述。5. 结论与讨论在这项工作中，我们深入到理解和排序的图像中的图像captioning丰富的语义的想法。为了验证我们的主张，我们提出了一种新的Transformer风格的编码器-解码器结构，即，COS-Net，统一图3.我们的COS-Net、Transformer和Up-Down的定性结果，加上地面实况描述（GT）。将语义理解和语义排序这两个过程特别地，基于CLIP的跨模态检索模型最初被用于积累在搜索到的语义相似的句子中所实现的主要语义线索。之后，语义理解器过滤掉主语义线索中的无关语义词，同时推断出缺失的相关语义词。随后，语义排序器学习估计每个语义词的语言位置，从而产生有序的语义词序列。有序的语义词是引导句子生成的附加监督信号我们通过COCO基准上的大量实验验证了我们的建议。更广泛的影响。我们的COS-Net经过训练，可以根据训练数据集的学习统计数据生成图像描述，因此会反映出这些数据中自然存在的偏见，从而导致

下载后可阅读完整内容，剩余1页未读，立即下载