展示、讲述和辨别：基于部分标记数据自检索的图像字幕

55 浏览量更新于2023-10-13 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

展示、讲述和辨别：基于部分标记数据自检索的图像字幕刘喜辉1[0000 - 0003 - 1831 - 9952]、李洪生†1[0000 - 0002 - 2664 - 7975]、邵静2[0000 -0003 - 3521 - 6744]、陈大鹏1[0000 - 0003 - 2490 - 1703]、小刚王11 2香港中文大学商汤科技研究院{xihui-liu@link.，hsli@ ee.，dpchen@，xgwang@ee. }cuhk.edu.hkshaojing@sensetime.com抽象。图像字幕的目的是通过机器生成描述图像内容的字幕。尽管做出了许多努力，但为图像生成区分性字幕仍然是重要的。传统的方法大多是模仿语言的结构模式，因此容易陷入重复频繁短语或句子的刻板印象，而忽略了每个图像的独特方面。在这项工作中，我们提出了一个图像字幕框架与自我检索模块作为训练指导，鼓励产生歧视性的字幕。它带来了独特的优势：（1）自检索引导可以充当字幕区分度的度量和评估器，以保证生成的字幕的质量。(2)所生成的字幕和图像之间的对应关系自然地并入生成过程中，而无需人类注释，因此我们的方法可以利用大量未标记的图像来提高字幕性能，而无需额外的注释。在COCO和Flickr30k字幕数据集上，我们证明了该方法的有效性，并展示了其优越的字幕性能，具有更高的区分度。关键词：图像字幕，语言与视觉，文本图像检索1介绍图像字幕，生成自然语言描述一个给定的图像，是一个至关重要的任务，已经引起了视觉和语言领域的显着关注[2，5，14，21，22，26，35，41，43，47，49]。然而，现有的图像字幕方法的结果例如图如图1所示，尽管对于人类来说，在第一图像和第二图像之间存在不可忽略的差异，但是字幕模型给出了相同的模糊描述“A v as ew i t h f l ow er s i t t i n g on a table”，而该字幕模型包含细节并且清楚地示出了这些图像之间的差异。此外，由常规字幕方法生成的字幕中的大约百分之五十与来自训练集的地面实况字幕完全相同，这表明†Hongsheng Li为通讯作者。2X. 刘某H. Li，J.Shao，L.Chen，X.王常规：一个花瓶与花坐在桌子上。GT：一个装满鲜花和柠檬的花瓶常规：一个花瓶与花坐在桌子上。GT：在户外餐桌上的创意中心花卉布置。常规：一只鸟坐在喂鸟器的顶部。训练中最相似的GT：一只鸟在喂鸟器的顶部。图1.一、通过传统字幕模型生成的字幕的示例。生成的字幕是模板化的和通用的。字幕模型只学习训练集中的句子和短语的模板，并且具有有限的生成区分性字幕的能力。在图的右边部分的图像。1显示，尽管鸟站在镜子上，但字幕模型生成标题“一只鸟坐在喂鸟器的顶部”，这是复制训练集中出现的模式的结果。针对上述问题的现有研究要么使用生成对抗网络（GAN）来生成类似人类的描述[8，36]，要么专注于扩大生成的字幕的多样性[40，42，44]。这些方法提高了生成的字幕的多样性，但牺牲了标准评价标准的整体另一项工作[38]通过对目标图像和干扰项图像的推理技术，在其他语义相似图像的上下文中为图像生成区分性字幕，这不能应用于不提供干扰项图像的通用字幕。在这项研究中，我们希望通过创新的模型设计，可以有效地提高字幕生成的区分度和保真度。它通过涉及自检索模块来训练字幕模块来实现，其动机来自两个方面：（1）字幕的区分度可以通过其可以将其对应图像与其他图像区分开的程度来评估。该标准可以作为训练的指导引入，并且因此鼓励区分性字幕。(2)图像字幕和文本到图像检索可以被视为双重任务。图像字幕生成给定图像的描述，而文本到图像检索基于生成的字幕检索回图像。该模型由字幕模块和自检索模块组成。字幕模块根据给定的图像生成字幕，而自检索模块进行文本到图像的检索，试图根据生成的字幕检索相应的图像它作为一个评估器来衡量字幕的质量，并鼓励模型生成有区别的字幕。由于生成一个大写字母的每个单词都包含不可微的操作，我们将负的检索损失作为自检索奖励，并采用REINFORCE算法计算梯度。这种检索引导的字幕框架不仅可以保证字幕的区分性，而且可以容易地从附加的未标记图像中获得益处，因为字幕自然地对应于它生成的图像展示、讲述和辨别3从，不需要费力的注释。详细地，对于未标记的图像，仅使用自检索模块来计算奖励，而对于标记的图像，使用地面实况字幕和自检索模块来计算奖励并优化字幕模型。从未标记数据中挖掘中等难度的负样本进一步提高了图像字幕的保真度和区分度。我们在两个图像字幕数据集COCO [6]和Flickr30k [51]上测试了我们的方法，在全监督和半监督设置下。我们的方法实现了最先进的性能和额外的未标记的数据可以进一步提高字幕的性能。通过对该模型生成的字幕的分析表明，生成的字幕比传统方法具有更好的区分性和更高的自检索性能。2相关工作图像字幕方法可以分为三类[49]。基于模板的方法[20，29，48]基于语言模板生成字幕。基于搜索的方法[11，13]从句子池中搜索语义最相似的标题。最近的工作主要集中在具有编码器-解码器框架的基于语言的方法[7，14研究表明，注意力机制[5，26，31，47]和高级属性和概念[14，16，49，50]可以帮助图像字幕。最大似然估计（MLE）被许多以前的作品采用的训练。它最大化条件可能性的下一个词condi，在以前的话。然而，它会导致暴露偏差问题[33]，并且训练目标与评估指标不匹配。通过强化学习技术训练图像字幕模型[37]解决了这些问题[24，34，35]并显着提高了字幕性能。当前图像字幕模型的问题在于它们倾向于复制在训练集中看到的短语和句子，并且大多数生成的字幕遵循某些模板化模式。许多最近的作品旨在增加生成的字幕的多样性[40，42，44]。生成对抗网络（GAN）可以被纳入字幕模型中，以生成多样化和类似人类的字幕[8，36]。Dai等人[9]提出了一种对比学习技术来生成独特的字幕，同时保持生成的字幕的整体质量。Vedantam等人[38]介绍了一种推理技术，使用通用的上下文不可知的训练数据来产生有它需要上下文信息，用于推断的干扰项类或干扰项图像，这在一般的图像字幕应用中是不容易在这项工作中，我们通过使用自检索模块来显式地鼓励在训练过程中生成有区别的字幕来提高字幕的区分度。基于一种直觉，即一个区别性的字幕应该能够4X. 刘某H. Li，J.Shao，L.Chen，X.王Ground-truthCaptionsC IDE r雷沃德标签imagesVisualfeatures标签视觉特征Ianguage解码器示例说明w/GT采样Captionsw/oGT捕获特征images图像编码器Ianguage编码器自检索检索图像编码器未标记未标记imagesimages配置模块自检索模块图二、我们提出的方法的总体框架字幕模块（左）和自检索模块（右）共享同一个图像编码器。虚线表示每个采样字幕的奖励由REINFORCE算法反向传播。通过文本到图像的自检索奖励训练字幕模块，提高了字幕的性能。未标记的图像自然由我们的框架处理。为了成功地检索回与其自身相对应的图像，自检索模块利用所生成的字幕执行文本到图像检索，充当字幕模块的评估器。通过REINFORCE算法反向传播生成的字幕的检索奖励。我们的模型也可以使用部分标记的数据进行训练，以提高性能。罗等人的并行工作[27]。也使用与我们的相似的可辨别性目标来生成辨别性字幕。然而，我们的工作不同于它在利用未标记的图像数据和挖掘中度硬负样本，以进一步鼓励歧视性字幕。3方法给定图像I，图像字幕的目标是生成字幕C={w1，w2，. . . ，wT}，其中，w不等于w或d，并且w不等于g。真的是C*={w*，w*，. . . ，w*}。1 2T整体框架，如图所示2，包括字幕模块和自检索模块。字幕模块为给定图像生成字幕卷积神经网络（CNN）将图像编码为视觉特征，然后长短期记忆网络（LSTM）基于视觉特征解码单词自检索模块是我们的关键贡献，它能够提高字幕模块的性能，只有部分标记的图像。它首先评估生成的字幕与其相应的输入图像和其他干扰图像之间的相似性如果字幕模块能够生成足够有区别的描述，则对应的生成的字幕图像对之间的相似性应该高于非对应对之间的这种约束被建模为文本到图像的检索损失，并通过REINFORCE算法反向传播到改进的展示、讲述和辨别5不3.1具有自检索奖励的图像字幕字幕模块。字幕模块旨在为给定图像生成字幕，由CNN图像编码器Ei（I）和LSTM语言解码器Dc（v）组成。图像编码器Ei对图像I进行编码以获得其视觉特征v，并且语言解码器Dc对视觉特征v进行解码以生成描述图像的内容的字幕Cv = Ei（I），C= Dc（v）。（一）对于通过最大似然估计（MLE）的常规训练，给出直到时间步长t-1的地面实况字幕词，{w*，. . . ，w}，模型1t−1被训练来最大化w*的可能性，w * 是时间步长的地面实况词t.具体来说，LSTM输出时间步t处的单词的概率分布，给定视觉特征和直到时间步t-1的地面实况单词，并且使用交叉熵损失进行优化，ΣTLCE（θ）=− log（pθ（w*|v，w*，. . . ，w）），（2）t1t−1t=1其中θ表示字幕模型的可学习权重对于推断，由于地面实况字幕不可用，因此模型输出以先前生成的单词为条件的每个单词的分布，并且在ures，pθ（wt）处输出v i s u al fe。|v，w1，. . . ，wt−1）。通过贪婪解码或波束搜索，基于每个字的概率分布来选择所述字的最小值。自我检索模块。通过MLE训练训练的字幕模型通常倾向于模仿训练集中的逐字模式传统字幕模型的一个共同问题是许多字幕是模板化的，并且是通用描述（例如：“一个女人站在沙滩上。使用评估指标（如CIDEr）作为奖励的强化学习[24，35]允许字幕模型在样本空间中探索更多的可能性，并提供比MLE更好的监督信号。然而，不同的图像不应该生成相同的通用字幕的约束仍然没有被明确地考虑直觉上，一个好的标题，如“一个穿着蓝色连衣裙的女人和一只黑狗在海滩上散步”，应该能够在其他干扰图像的背景下区分出相应的图像。为了鼓励这种歧视性的字幕，我们引入了自检索模块来执行约束，即生成的字幕应该比其他图像更好地匹配因此，我们对自检索模块进行建模，以将生成的字幕作为查询进行文本到图像的检索。由于在每次训练迭代期间从整个数据集中检索每个生成的字幕的图像是耗时且不可行的，因此我们在每个小批量中考虑文本到图像的匹配。6X. 刘某H. Li，J.Shao，L.Chen，X.王我们首先将图像和字幕编码为相同嵌入空间中的特征，CNN编码器Ei和用于字幕的门控递归单元（GRU）编码器Ecv = Ei（I），c= Ec（C），（3）其中，I和C表示图像和字幕，V和c分别表示视觉特征和字幕特征然后计算嵌入图像特征与字幕特征的相似度字幕ci的特征与第j个图像vj的特征之间的相似度表示为s（ci，vj）。对于小批量图像{I1，I2，...，In}和第i个图像的生成的字幕Ci，我们采用具有最难否定的三元组排名损失（VSE++[12]）进行文本到图像检索。Lret（Ci，{I1，I2，···，In}）=max[m-s（Ci，Vi）+s（Ci，Vi）]+，⑷j/=i其中re[x]+=max（x，0）。对于Ci上的任意一个，将正特征对{Ci，Vi}与负特征对{Ci，Vi}之间的相似性进行比较，其中，j = i。这种损失迫使正对的相似性比最难的负对的相似性高出余量m。我们还探讨了其他检索损失的提法。4.4自检索模块充当字幕模块的区分度评估器，其鼓励由字幕模块从给定图像生成的字幕在一批干扰物图像中与给定图像最佳匹配。通过REINFORCE算法的反向传播。对于每个输入对于图像，由于自检索是基于完整的生成的字幕来执行的，并且从概率分布中对单词进行采样是不可微的，因此我们不能将自检索损失直接反向传播到字幕模块。因此，采用REINFORCE算法将自检索损失反向传播到字幕模块。对于具有强化学习的图像字幕，LSTM充当“年龄”，并且该预增强的图像数据和图像数据是“增强的”。这一部分定义了策略和改进的选择，这是一个“动作”，即基于策略和改进的选择来执行两个任务环境保护表示Cs={ws，. . . ，w_s}作为从1T我们的工作是在一个非常好的环境中进行的。 A_c_h_amp_d_e_在数学上，训练的目标是最小化采样字幕的负预期回报，LRL（θ）= −ECspθ [r（Cs）]。（五）由于计算策略分布上的报酬期望值是很难的，我们基于策略pθ，用蒙特卡罗抽样方法来估计它。为了避免对r（Cs）关于θ进行微分，我们通过REINFORCE算法计算期望奖励的梯度[45]，θLRL（θ）= −ECs（六）展示、讲述和辨别7θ我为了减少梯度估计的方差，我们用基线b减去奖励，而不改变预期梯度[37]。选择b作为贪婪解码字幕的奖励[35]。θLRL（θ）= −ECs（七）为了计算简单，期望值由来自pθ的单个蒙特卡罗样本近似，θLRL（θ）≈ −（r（Cs）− b）（八）在我们的模型中，对于每个采样的字幕Cs，我们将奖励制定为CIDER分数和自检索奖励的加权总和，这是负的字幕到图像检索损失。r（Cs）=rcider（Cs）+α·rret（Cs，{I1，…，In}），（9）我我我其中rcider（Cs）表示Cs的CIDEr得分，rret=−Lret是自检索我我奖励，α是平衡奖励的权重。CIDER奖励确保所生成的字幕与注释相似，并且自检索奖励鼓励字幕是有区别的。通过引入这个奖励函数，我们可以通过采样字幕优化句子级奖励。3.2用部分标记的图像改进字幕使用部分标记的数据进行训练。自检索模块将生成的字幕与其对应的图像和小批量中的其他干扰物图像进行比较。由于在字幕生成中自然地结合了字幕-图像对应关系，即，一个字幕与其生成的图像自动形成一个正字幕-图像对，而与其他图像形成负对，我们提出的自检索奖励不需要地面实况字幕。因此，我们的框架可以推广到半监督设置，其中一部分图像没有地面实况字幕。因此，在训练中可以涉及更多的训练数据，而无需额外的注释。我们将标记数据和未标记数据以固定的比例混合在一起小批量将小批量中的标记图像表示为{11，11，···，11}，以及12nl其生成的字幕为{Cl，Cl，···，Cl{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 中表示未标记的图像1 2nl与{Iu，Iu，· ··，Iu}相同的小批量和对应的生成的字幕12nu如{Cu，Cu，···，Cu}。标记数据的奖励由CIDEr组成12nu奖励和自检索奖励在小批量中计算，用于每个生成的标题，r（Cl）= rcider（Cl）+ α·rret（Cl，{Il，···，Il} ∪ {Iu，···，Iu}）. （十）i i i1nl1nu检索奖励rret将字幕和对应图像之间的相似性与小批量中所有其他标记和未标记图像之间的相似性进行比较，以反映所生成的字幕可以将其对应图像与其他干扰物图像区分开的程度。8X. 刘某H. Li，J.Shao，L.Chen，X.王查询字幕图像硬底片中硬负采视觉特征兰克德相似性前100ImageEncoder前100-500名阿龙饭店在L语言中使用hrattable前500-1000名RondedbackEncoder椅子字幕特征有藤制圆背的餐厅长桌椅子图三.中等强度的负面采矿。左边的部分显示了一个地面实况说明和它的顶部硬底片挖掘从未标记的图像。右边部分显示了中等难度的负开采过程。不同大小的圆圈代表每个图像与查询标题之间的相似性。由于在没有地面实况字幕的情况下无法计算CIDEr奖励，因此未标记数据的奖励仅是在小批量中计算的检索奖励。r（Cu）= α·rret（Cu，{Il，···，Il}<${Iu，···，Iu}）.（十一）i i1nl1nu以这种方式，未标记的数据也可以在没有字幕注释的情况下用于训练，以进一步提高字幕性能。无标记图像中的中等难度负面挖掘。如前所述，基于正（对应）字幕-图像对和负（非对应）对之间的相似性来计算自检索奖励。训练目标是最大化正对的相似性，最小化负对的相似性。为了进一步鼓励有区别的字幕，我们在每个小批量中引入硬负字幕图像对例如图1，虽然前两幅图像很相似，但人类不太可能以同样的方式描述它们。我们希望鼓励能够将第二幅图像与第一幅图像区分开的字幕（例如，“创意中心花卉布置在一个出口”），这是一个通用的定义（例如，例如，在一个实施例中，“A v as e sitt i n g on a table le“）。然而，一个重要的观察结果是，选择最难的否定可能会阻碍训练。这是因为图像和标题并不总是严格遵循一对一的映射。在图的左侧部分。3，我们展示了一个地面实况标题和它的硬否定挖掘从未标记的图像。来自未标记数据集的顶部负图像通常与来自标记数据集的地面实况帽很好地匹配。例如，当查询标题是“A long restaurant tablewith ratten rounded back chairs”时，一些检索到的顶部图像也可以很好地所以直接取最难的负对不是最优的。因此，我们建议使用生成的字幕的中等硬底片，而不是最硬的底片。我们在图的右边部分显示了中等强度的负开采。3.我们将来自标记数据集的地面实况说明C*编码为特征c*和……………………展示、讲述和辨别9将所有未标记图像{Iu，···，Iu}转换为特征{vu，···，vu {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}的相似性1nu1nu{s（c*，vu），···，s（c*，vu））}之间的标题和每个未标记的图像是1nu由检索模型导出。然后，我们根据每个图像与查询标题C*之间的相似性，以降序排列未标记的图像。然后，从给定范围[hmin，hmax]中随机采样中等硬底片的索引。来自未标记图像的采样硬负片和来自可标记数据的捕获图像上的复制作为一个小批量的记录通过中等强度的负面挖掘，我们选择合适的样本进行训练，鼓励字幕模型生成能够将相应图像与其他干扰图像区分开的字幕。3.3培训战略我们首先用标记数据集中的所有训练图像和相应的标题来训练文本到图像的字幕模块与自检索模块共享图像编码器。当训练字幕模块时，检索模块和CNN图像编码器是固定的。对于字幕模块，我们首先使用交叉熵损失对其进行预训练，以提供稳定的初始点，并减少用于强化学习的样本空间。然后，使用具有CIDEr奖励的REINFORCE算法和具有完全标记数据或部分标记数据的自检索奖励来CIDEr奖励保证生成的字幕与地面实况字幕相似，而自检索奖励鼓励生成的字幕具有区分性。对于标记数据，奖励是CIDEr奖励和自检索奖励的加权和（等式2）。(10))，并且对于未标记的数据，奖励仅是自检索奖励（等式2）。（11））。每个小批次中的未标记数据是通过从未标记数据中进行中等难度的负挖掘来选择的。实施细节见第四点二。4实验4.1数据集和评价标准我们在COCO和Flickr30k字幕数据集上进行了实验。为了公平比较，我们对COCO数据集采用了广泛使用的Karpathy分裂[17]，它使用5，000张图像进行验证，5，000张用于测试，其余82，783张用于训练。对于数据预处理，我们首先将所有字符转换为小写并删除标点符号。然后，我们将出现少于6次的单词替换为' UNK ' token。在培训期间，该能力验证码不得超过16个单词。当使用部分标记的数据进行训练时，我们使用官方发布的COCO未标记图像作为没有注释的附加数据。广泛使用的BLEU [30]、METEOR [10]、ROUGE-L [23]、CIDER-D[39]采用SPICE [1]评分进行评价。10X. 刘某H. Li，J.Shao，L.Chen，X.王4.2实现细节自我检索模块。对于自检索模块，每个词都是嵌入式的。将其转换成300维向量并输入到GRU语言编码器，GRU语言编码器将句子编码成1024维特征。图像编码器是ResNet-101模型，其将图像编码为2048维视觉特征。编码的图像特征和句子特征都被投影到维度1024的联合嵌入空间图像特征与句子特征之间的相似度我们遵循[12]中的训练策略。字幕模块。字幕模块与自检索模块共享同一图像编码器。自检索模块和图像编码器在训练字幕模块时是固定的。我们将ResNet-101的平均池化层之前的2048×7× 7特征作为视觉特征。对于语言解码器，我们采用自顶向下注意力LSTM和语言LSTM，遵循[2]中的自顶向下注意力模型我们在同一篇论文中没有使用Up-Down模型，因为它涉及对象检测模型，并且需要来自Visual Genome [19]的外部数据和注释进行训练。字幕模块使用Adam [18]优化器进行训练。该模型首先通过交叉熵损失进行预训练，然后通过REINFORCE进行训练。重新启动技术[25]用于改善模型收敛性。我们使用预定采样[3]，并每5个epoch将反馈单词后验样本的概率增加0.05，直到反馈概率达到0.25。我们将自检索奖励α的权重设置为1。对于使用部分标记数据的训练，小批量中标记和未标记图像的比例为1：1。推理。为了推断，我们使用波束大小为5的波束搜索来生成字幕。具体来说，我们选择在每个时间步长具有最高概率的前5个句子，并将它们视为基于其生成下一个单词的候选。在我们的实验中，我们不使用模型集成。4.3结果定量结果。我们在表1和表2中比较了我们的字幕模型与COCO和Flickr30k数据集上的现有方法的所有模型都是通过交叉熵损失进行预训练，然后使用REIN-FORCE算法进行训练基线模型是仅用CIDEr奖励训练的字幕模块SR-FL模型是我们提出的框架，使用完全标记的数据进行训练，同时具有CIDEr和自检索奖励。SR-PL模型是我们用部分标记数据（所有标记数据和额外的未标记数据）训练的框架，对标记图像有奖励，对未标记图像只有自检索奖励结果表明，没有自检索模块的基线模型已经是一个强基线。将自检索模块与完全标记的数据（SR-FL）结合在一起大幅度地改进了大多数度量使用额外的未标记数据（SR-PL）进行训练进一步增强了性能。结果验证了区分度是展示、讲述和辨别11表1.通过我们提出的方法和COCO标准Karpathy测试分割的最新方法的单模型性能方法苹果酒香料 BLEU-1 BLEU-2 BLEU-3 BLEU-4流星ROUGE-L[47]第四十七话--71.850.435.725.023.0-[47]第四十七话--70.749.234.424.323.9-VAE [32]90.0-72.052.037.028.024.0-ATT-FCN [50]--70.953.740.230.424.3-Att-CNN+RNN [46]94.0-74.056.042.031.026.0-SCN-LSTM [1]101.2-72.856.643.333.025.7-自适应[26]108.5-74.258.043.933.226.6-SCA-CNN [5]95.2-71.954.841.131.125.053.1SCST-Att2all [35]114.0----34.226.755.7LSTM-A [49]100.218.673.456.743.032.625.454.0DRL [34]93.7-71.353.940.330.425.152.5[43]第四十三话106.9-74.257.744.033.626.855.2CNNL+RHN [16]98.9-72.355.341.330.625.2-TD-M-ATT [4]111.6-76.560.345.634.026.355.5ATTN+C+D（1）[27]114.25 21.05---36.1427.3857.29我们的基线112.720.079.762.247.135.026.756.4Ours-SR-FL114.620.579.862.347.134.927.156.6Ours-SR-PL117.121.080.163.148.035.827.457.0表2.单模型的性能，我们提出的方法和国家的最先进的方法在Flickr30k。方法苹果酒香料 BLEU-1 BLEU-2 BLEU-3 BLEU-4流星ROUGE-L[47]第四十七话--66.943.929.619.918.5-[47]第四十七话--66.743.428.819.118.5-VAE [32]--72.053.038.025.0--ATT-FCN [50]--64.746.032.423.018.9-Att-CNN+RNN [46]--73.055.040.028.0--SCN-LSTM [1]--73.553.037.725.721.0-自适应[26]53.167.749.435.425.120.4-SCA-CNN [5]--66.246.832.522.319.5-CNNL+RHN [16]61.815.073.856.341.930.721.6-我们的基线57.114.272.853.438.027.120.748.5Ours-SR-FL61.715.372.053.438.527.821.549.4Ours-SR-PL65.015.872.954.540.129.321.849.9这对字幕质量至关重要，通过自检索模块强制执行这一约束可以获得更好的字幕。定性结果。图4示出了我们生成的字幕和地面实况字幕的一些示例。基线模型和我们的自检索奖励模型都可以生成与图像相关的字幕。然而，很容易观察到，我们的模型可以生成更具区分性的字幕，而基线模型生成通用和模板化的字幕。例如，第一行中的第一图像和第二图像共享稍微不同的内容。基线模型未能描述它们的差异，并且生成相同的捕获“A v as ew i t h f low e r s i t in g on a table”。但是，我们的现代化技术可以实现这种数据流，并利用高效的数据流压缩技术来提高性能，而这种压缩技术是在数据流中使用的。两行中最后一个图像的捕获表明，由于训练集中有大量相似的短语，基线模型落入原型并生成模板化的标题。然而，由我们的模型生成的标题缓解了这个问题，并为图像生成准确的描述。12X. 刘某H. Li，J.Shao，L.Chen，X.王BS：一个插着花的花瓶放在桌子上。我们的：桌上一个插满红花的花瓶。BS：一个插着花的花瓶放在桌子上我们的：一个白色的花瓶与粉红色的花朵坐在花园里。BS：一群人站在一个房间里。我们的：一群人围着一张桌子站着，桌上摆着食物。BS：厨房里有炉子。我们的：厨房里有BS：厨房里有炉子和烤箱。我们的：一个有炉子和不锈钢电器的厨房。BS：两个孩子在网球场上打网球。我们的：两个小孩站在网球场上，拿着网球拍。图4.第一章基线模型和我们提出的模型的定性结果。表3.COCO的消融研究结果实验设置苹果酒香料 BLEU-3 BLEU-4流星ROUGE-L基线112.720.047.135.026.756.4VSE+117.121.048.035.827.457.0回收损失VSE0116.920.947.735.727.456.8softmax114.520.546.834.627.156.5重量0112.720.047.135.026.756.4自检索1117.121.048.035.827.457.0奖励α4113.720.546.534.327.056.5标记和未标记1：2的比例1：1的比例二比一115.4117.1115.020.521.020.546.848.046.834.735.834.727.227.427.256.657.056.7硬负指数范围没有硬采矿前100名前100-1000名114.6114.1117.120.720.321.046.746.648.034.634.535.827.327.027.456.756.457.04.4消融研究自行取回损失的计算。如第3.1中，自检索模块需要自检索损失来测量所生成的字幕的区分度除了VSE++损失（等式（4）），我们探索没有硬否定的三重排序损失，由VSE 0表示，ΣLret（Ci，{I1，I2，···，In}）=j/=i[m-s（ci，vi）+s（ci，vj）]+，（12）以及softmax分类损失，由softmax表示，L（C，{I，I，···，I}）=−logΣexp（s（ci，vi）/T）、（十三）reti12Nnj=1 exp（s（ci，vj）/T）其中T是将字幕图像相似度归一化到适当范围的温度参数。我们在表3中*所有这些损失公式都能带来更好的性能*对于所有实验和消融研究中报告的结果，我们调整了验证集上的超参数，并直接使用验证最佳点来报告测试集上的结果。展示、讲述和辨别13表4.COCO上不同方法生成的字幕的文本到图像检索性能、唯一性和新颖性方法生成字幕到图像检索唯一性和新颖性评价召回@1召回@5召回@10独特字幕小说字幕[43]第四十三话---66.96%52.24%我们的基线27.559.374.061.56%51.38%Ours-SR-PL33.066.480.172.34%61.52%与基线模型相比，证明了我们提出的自检索模块的有效性。其中，vse++loss表现稍好，这与[12]中的结论一致，即vse++loss导致更好的视觉语义嵌入。自我检索奖励和CIDER奖励之间的平衡。在通过REINFORCE算法进行训练期间，总奖励被公式化为CIDEr奖励和自检索奖励的加权总和，如等式（1）所示（十）、为了确定它们中的每一个应该对训练做出多少贡献，我们研究了它们之间的权重应该如何设置。如表3所示，我们对自检索奖励α的权重进行了{0， 1， 4}的研究，结果表明α= 1导致最佳性能。过于强调自检索奖励会损害模型的性能，因为它无法优化评估度量CIDEr。这表明CIDEr和我们提出的自我检索奖励都是至关重要的，它们的贡献需要适当平衡标记和未标记数据的比例。当使用部分标记的数据进行训练时，我们在标记和未标记的图像之间使用固定的比例我们实验的比例形成一个小批量标记和未标记的数据。我们尝试了三种比例，1：2，1：1和2：1，具有相同的自我检索奖励权重α= 1。表3中的结果表明，1：1的比例导致最佳性能。中等强度的负面采矿。节中3.2中，我们介绍了如何从未标记的数据中挖掘语义相似的图像，以提供用于训练的中等难度的否定。我们在表3中分析了中等强度负面挖掘的贡献。首先，在没有硬负挖掘的情况下，性能增益相对较低，证明了这种操作的有效性。其次，在基于给定的地面实况字幕与未标记图像之间的相似性以降序对未标记图像进行排序之后，选择硬底片的索引范围[hmin，hmax存在未标记图像与训练集中的图像非常相似的情况，并且字幕可以自然地对应于若干图像。因此，选择最难的底片很可能会混淆模型。在我们的实验中，我们发现将排名未标记图像的硬负索引范围[hmin，hmax]设置为[100，1000]是最佳的。4.5生成字幕通过生成的字幕检索性能。由于自我检索模块鼓励区分性字幕，我们进行了一个实验，以检索im-vector。14X. 刘某H. Li，J.Shao，L.Chen，X.王年龄与生成的字幕作为查询，以验证我们的模型生成的字幕确实比那些没有自检索模块的模型生成的更具鉴别力与[9]中的自检索研究不同，该研究使用给定图像的生成字幕的条件概率来获得图像的排名列表，我们通过我们的自检索模块执行自检索。更确切地说，我们排名的图像之间的相似性的图像和生成的查询语句计算我们的检索模块。我们计算出现在排名前k的图像中的对应图像的召回率。检索性能是生成的字幕的区分度的指标。在表4中，我们报告了COCO Karpathy测试拆分的检索结果。可以清楚地看到，我们的模型提高了检索性能的大幅度。独特性和新颖性评价。字幕模型的一个常见问题是，它们生成在训练集中没有看到的字幕的能力有限，并且为相似的图像生成相同的句子[11]。这表明语言解码器只是重复它在训练集中观察到的序列模式。虽然我们的方法不是直接设计来提高多样性或鼓励新颖的字幕，但我们认为，通过结合设计关键的字幕，我们可以提高改进后的模式生成独特和新颖字幕的能力在[43]中的测量之后，我们评估了COCO Karpathy测试分割中独特字幕（在所有生成的字幕中唯一的字幕）和新颖字幕（在训练中未看到的字幕）的百分比。如表4所示，我们的框架显著提高了生成的字幕的唯一性和新颖性。5结论在这项工作中，我们解决的问题，传统的方法产生的字幕往往是模板化和通用的。我们提出了一个框架，显式地提高了区分能力的字幕，通过训练与自我检索奖励。该框架由字幕模块和一个新颖的自检索模块组成，该模块提高了生成字幕的区分度通过REINFORCE算法将结果表明，我们获得了更多的歧视性字幕，并实现了国家的最先进的性能在两个广泛使用的图像字幕数据集。确认这项工作得到商汤科技集团有限公司、香港研究资助局资助的优才研究基金（第香港创新科技大学（香港中文大学）及技术支援计划（编号ITS/121/15 FX）。展示、讲述和辨别15引用1. Anderson，P. Fernando，B.，Johnson，M.，Gould，S.：Spice：语义命题图像字幕评价。In：ECCV（2016）2. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，Zhang，L. ：自下而上和自上而下关注图像字幕和 vqa 。 arXiv 预印本arXiv ：1707.07998（2017）3. Bengio，S.，Vinyals，O.，Jaitly，N.，Shazeer，N.：循环神经网络序列预测的计划采样在：神经信息处理系统的进展。pp. 11714. 陈洪，丁，G.，赵，S.，Han，J.：使用采样基线进行图像字幕的时间差异学习（2017）5. Chen，L.，中国地质大学，张洪，肖，J.，涅湖，加-地邵，J.，刘伟，Chua，T.S.：Sca-cnn：图像字幕卷积网络中的空间和通道注意力。IEEE计算机视觉和模式识别会议论文集。pp. 56596. C hen，X.， Fang，H.，林，T. 是的，我也是，去吧S 做吧，P Zitnick，C. L. ：Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325（2015）7. C hen，X.， Law re nceZitni ck，C. 图像字幕：再现视频代表图像字幕生成。在：Proceedings of the IEEE conference on computervisionandpat ter nregni t ition中。pp. 24228. Dai，B.，Fidler，S.，Urtasun河Lin，D.：通过有条件的gan实现多样化和自然的图像在： ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 29709. Dai，B.，Lin，D.：图像字幕的对比学习在：神经信息处理系统的进展。pp. 89810. Denkowski，M.，Lavie，A.：流星通用：针对任何目标语言的特定语言翻译评估。见：第九次统计分析讲习班会议记录。pp. 37611. 德夫林，J.，郑洪，Fang，H.，中国农业科学院，古普塔，S.，邓湖他，X.，Zweig，G.，Mitchell，M.：图像字幕的语言模型：怪癖和什么工作。arXiv预印本arXiv：1505.01809（2015）12. Faghri，F.，弗利特DJ Kiros，J.R. Fidler，S.：Vse++：改进了视觉语义嵌入。arXiv预印本arXiv：1707.05612（2017）13. Farhadi ， A. ， Hejrati ， M. ， Sadeghi ，硕士，扬， P. ， Rashtchian ， C.Hockenmai

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

展示、讲述和辨别：基于部分标记数据自检索的图像字幕

基于内容的图像检索

CT主要由三部分组成:扫描部分、计算机系统和图像显示和存储系统。扫描部分由X线管、探测器和扫描架组成,用于扫描患者的身体部位并收集相应的信息数据。

讲述基于视觉和基于图像的无人机降落区别

对高分辨率的图像如何进行图像检索

高分辨率图像显著性检测相关算法

fpga基于超分辨率的图像处理算法中的图像重建详细介绍

基于机器学习的图像增强

基于pca的图像数据压缩编程实现国内外研究现状

基于深度学习学习的图像超分辨率

路面病害图像识别数据集

基于matlab的图像超分辨率重建

请说明基于机器学习的数字辨别系统的技术特点用途

基于卷积神经网络的图像修复

对抗手段下的SAR图像解译

基于卷积神经网络的遥感图像融合的研究背景和意义

帮我写一份基于扩散模型的图像超分辨算法

图像文件生成dem数据

图像分类数据集深度学习

卷积神经网络在图像修复上的应用

如何获得SAR图像数据

最新资源