1124切换到区别性图像字幕通过缓解强化学习的瓶颈Ukyo Honda1,2Taro Watanabe3Yuji Matsumoto21CyberAgent,Inc.2理研3奈良科学技术研究所本田ukyo@cyberagent.co.jptaro@is.naist.jpyuji. riken.jp摘要鉴别力是图像帽的理想特征:字幕应该描述输入图像的特征细节。然而,最近的高性能字幕模型,这是用强化学习(RL)训练,往往会产生过于通用的字幕,尽管他们在各种其他标准的高性能。首先,我们调查了出乎意料的低区分度的原因,并表明RL具有根深蒂固的副作用,TransformerRL:一群停在水中的船+wFT:许多小船在晚上系在乙醚上。TransformerRL:一群停在水中的船+wFT:停靠在码头的船只的黑白照片TransformerRL:一群停在水中的船系在码头的一排小船TransformerRL:一群停在水中的船+wFT:一个身体水上有船将所述输出字限制为高频字。有限的词汇表是区分度的严重瓶颈,因为模型难以描述其词汇表之外的细节。然后,基于这种识别的瓶颈,我们彻底重铸歧视性的图像字幕作为一个更简单的任务,鼓励低频字生成。通过长尾分类和去偏方法的提示,我们提出了一些方法,可以轻松地将现成的RL模型切换到具有区分性的模型,只需对参数进行单次微调。大量的实验表明,我们的方法显着提高了现成的RL模型的区分度,甚至优于以前的区分度感知方法,具有更小的计算成本。详细的分析和人工评价也验证了我们的方法在不牺牲字幕整体质量的情况下提高了区分度。11. 介绍图像字幕是计算机视觉和自然语言处理的交叉点,它将图像中的信息转化为自然语言的描述。 生成的字幕可用于各种下游任务:帮助视障用户[19],图像和视频上的视觉问题回答[16,31],视觉对话[68]和新闻生成[79]。1 代 码 将 在 https://github.com/ukyh/switchdisccaption.git上提供图1. MS COCO验证集中的标题示例。Transformer RL是一个使用RL训练的Transformer字幕模型,wFT是我们的微调方法。Transformer RL为四个图像生成完全相同的标题。带下划线的单词表示Transformer RL未提及的特征信息,蓝色单词表示从未出现在模型输出中的信息。更多示例见附录2对于那些下游任务,标题应该是有区别的:标题应该描述输入图像的特征和重要细节[51]。然而,当前的字幕模型往往会生成过于通用的字幕[12,11,64,66]。特别是,使用标准强化学习(RL)[50]训练的模型,这是当前图像captioning [55]中事实上的标准训练方法,尽管在各种其他标准[39,62]中具有显着优势,但在区分性方面表现不佳。例如,使用RL训练的高性能Trans-former[57]字幕模型为图1所示的四个不同图像生成了相同的字幕,忽略了每个图像的其他显著细节为了解决字幕过于通用的问题,人们对区分性图像字幕进行了大量的研究,区分性图像字幕也被称为区别性图像字幕或描述性图像字幕。以前的研究已经创建了关于区分性的新RL奖励或新的模型架构来增强区分性。这些方法提高了识别率;然而,他们的模型附带了额外的计算,1125⟨⟩SL··1TSs从头开始重新训练,并没有揭示现有模型而不是创建或支付这些计算成本,我们首先分析的原因,出乎意料的低区分度的现成的RL模型,即。,预训练的,ex-perimentRL模型,探索如何提高他们的辨别力。我们的第一个贡献是识别RL中一个根深蒂固的副作用,它将输出单词限制为高频单词。有限的词汇表是区分性的严重瓶颈,因为模型很难描述超出其词汇表的细节。有了这个瓶颈的识别,现在我们可以通过简单地鼓励低频词的生成来直接解决瓶颈。这种任务放松使我们能够引入长尾分类和去偏的方法,区分图像字幕的第一次。我们的第二个贡献是我们有效和高效的方法,该方法将任何现成的RL模型切换到具有区分性的模型,仅对参数进行单次微调。不像以前的方法,我们的方法不需要任何区别性奖励,新的模型架构,或从头开始重新训练。大量的实验表明,增加输出中的低频词显著提高了现成RL模型的区分度,甚至比以前的区分度感知模型具有更小的计算成本。这些结果验证了RL模型的词汇量有限是其低区分度的主要原因。详细的分析和人性化的评价也表明,我们的方法在不牺牲整体质量的情况下,提高了我们相信,我们对低区分度的原因的新发现和实际解决方案,它将显着影响未来的研究区分图像字幕。2. 鉴别性与强化学习的目前,RL是图像字幕中使用的模型的事实上的标准训练方法,因为它显著提高了各种评估指标的性能[55]。然而,它并没有改善区分性,甚至可能降低区分性[39,62]。在这一节中,我们将检查意外低区分度的原因。2.1. 图像字幕我们提供了一个简短的概述标准RL算法中使用的图像字幕。[48][50他们的目标是通过最小化负预期奖励来直接优化不可微的测试时间度量LR L(θ)=−Ews<$pθ(ws|I)[r(w)],(1)图2. MS COCO训练图像序列中单词的相对频率每个图像采样5个序列这些单词(9,486个唯一单词,不包括词汇表外标记unk)按其在地面实况字幕中的频率进行排序,并分为200个bin。我们显示前10个箱子和其余的总和。GT是训练图像的真实字幕,CE是用CE损失训练的字幕模型的输出,RL是用RL训练的字幕模型的输出。在这里,我们使用了Transformer模型。其中ws=(ws,...,w(s)是从策略pθ采样的序列,I是输入图像,r()是奖励函数。为了计算(θ)的梯度,[48]将REIN-FORCE算法[69]应用于文本生成。 该算法近似梯度如下:<$θLR L(θ)<$−(r(w)−b)<$θlogpθ(w|I)的第10条。(二)这里,b是降低梯度方差的基线奖励通常,奖励函数r()是CIDEr [59],基线奖励b是用贪婪解码采样的序列的奖励[50]。2.2. RL限制词汇尽管其有效性,RL已被发现不能提高区分度,并且在某种程度上减少了输出字幕中唯一n-gram的数量[39,62]。由于强化学习与这两种负效应之间的关系并不明显,因此它只是被认为是一种奇怪的情况。我们首次阐明RL和有限的词汇量之间的关系,结合最近的两项研究结果。(1)RL已被证明使输出分布峰值[8,30]。RL对来自策略pθ的序列进行采样(参见等式1)。①①)。通常,pθ是用文本生成模型初始化的,该文本生成模型利用基于真实文本的交叉熵(CE)然而,在文本生成中,初始化的pθ输出峰值分布,因此,RL仅对峰值处的单词进行采样和奖励,从而形成更多的峰值分布[8]。那么,pθ在哪里趋于峰值呢?1126·∈ W W∈不CE不θˆ不<不1Tt