基于强化学习的图像字幕平衡准确性与多样性的策略外学习

163 浏览量更新于2023-10-13 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2187部分政策外学习：面向人的图像字幕准确性与多样性的平衡李亚丽*王胜金清华大学电子工程系，北京100084shijh18@mails.tsinghua.edu.cn{liyali13，wgsgj}@tsinghua.edu.cn摘要在视觉+语言建模中，面向人的高基于强化学习（RL）的框架提高了图像字幕的准确性，但严重损害了图像字幕的多样性.相比之下，基于变分自动编码器（VAE）或生成对抗网络（GAN）的其他方法可以产生多样化但不太准确的字幕。在这项工作中，我们致力于促进基于RL的图像字幕的多样性。具体来说，我们设计了一个部分的政策外学习计划，以平衡准确性和多样性。首先，我们通过在RL启动之前从初始状态采样来保持模型暴露于不同的候选字幕。第二，提出了一种新的标准命名为最大CIDEr作为奖励促进多样性。我们将上述的政策外策略与政策内策略相结合，以缓和探索效应，进一步平衡人性化图像字幕的多样性和准确性。实验表明，我们的方法定位最接近人类的表现在多样性的准确性空间，并实现了最高的皮尔逊相关性为0.337与人类的表现。1. 介绍图像字幕是计算机视觉和自然语言处理领域中一个具有挑战性的课题。它不仅要求从图像中提取语义信息，而且要求以自然语言的形式对这些信息进行理解和重组为了像人类一样描述图像，图像字幕模型应该能够产生多样化和准确的字幕.除了生成正确的字幕之外，还应当提供关于视觉内容的若干不同字幕。从这样的角度来看，图像字幕模型应该通过平衡准确性和多样性来生成最近的图像字幕方法更多地关注准确性。*通讯作者政策内：两个斑马吃草在草地上的领域。两匹斑马在草地上吃草。两个斑马吃草在草地上的领域。两个斑马吃草在草地上的领域。两匹斑马在草地上吃草。多样性：动物园里站在灌木丛中的斑马的背面。一个后视图斑马在外地附近的一只鹿。一只斑纹斑马站在树木区的树木附近。一对斑马站在绿色的田野里。一只斑马从旁边的容器里喝水。我们的：一对斑马在田野里吃草。两个斑马吃草在一个晴朗的日子。两匹斑马在围栏附近的栖息地吃草。两只斑马站在草地上吃草。两只斑马并排在一起吃草。图1.通过根据后验进行5次采样的来自不同模型的典型输出，其中由策略上训练的模型生成的字幕是正确的但不变的（顶部），并且由诸如VAE的模型生成的字幕是多样的但不太准确的（中间）。我们旨在平衡这两个方面以模拟生成面向人类的字幕（底部）。深度强化学习（Deep Reinforcement Learning，RL）特别是，在[26，23]中采用了基于策略的RL，以减少暴露偏差并获得句子级监督。这些方法被证明有利于多个指标的准确性性能[22，31，9，18，1，45]。然而，它们倾向于生成共同的句子，导致差的多样性[21]。其他一些作品侧重于保持多样性[27，10，35，38，3，4]。基于VAE或GAN，可以获得不同的字幕然而，报告的公平准确性是在选择oracle或共识重新排序过程[11]当考虑整个posterior时，将存在由这些模型预测的明显不准确的情况。如图所示1、根据模型化后验进行5虽然基于策略的RL训练模型[34]生成了没有错误的字幕，但它无法以其他形式生成不同的句子。不同的字幕模型[35]可以提供不同的预测，但输出中存在不正确的描述。总之，现有的图像字幕方法无论在多样性还是准确性上都存在明显的性能差距。在本文中，我们的动机，以平衡的准确性和多样性的图像字幕模型。为了提高准确性，我们基于深度强化学习来训练图像字幕模型。我们研究了为什么目前基于RL的方法无法生成不同的字幕。我们发现2188地面实况政策外培训木栅栏和第三只长颈鹿一对长颈鹿站在后面的一个重要地面实况按政策培训一场在球场上和一个男人的棒球比赛。一辆公共汽车正行驶在一条城市街道上。苹果酒路边的路标。田野中间的停车标志更新采样模型max-CIDEr偷窥采样训练批次选择策略采样轨迹策略梯度奖励图2.建议的部分政策外学习方案的高级概述。训练样本被分配到不同的训练策略，以平衡精度提升和多样性保护。策略上的策略很容易陷入单一预测。因此，在训练过程中需要更多的探索，以使代理接触更公平的情况。然而，传统的探索策略不加区别地对待未探索的情况。考虑到所生成的句子的巨大搜索空间，这样的探索对于图像字幕的任务可能是无效的。基于这些观察，我们提出了一种新的部分政策外学习计划，以鼓励有效地探索新具体来说，我们首先在图像字幕框架中引入了一种偏离策略，选择了一种多样化的分布作为探索的行为策略。然后将从这样的策略中得到的样本馈送到模型中，并通过一个新的标准作为 max-CIDER来奖励，以鼓励复发。通过这种行为策略，可以将庞大的搜索空间缩小到某个子空间，以便于训练过程。在实践中，我们以一定的概率选择在政策上和上述政策外的策略，这种部分偏离策略的学习方案使我们能够在多样性保护和准确性提升之间进行权衡，最终鼓励模型模仿人类的表现。本文的主要贡献是：1）提出了基于RL的图像字幕的off-policy策略和新的max-CIDER奖励，以提高字幕的多样性。2）我们提出了部分离线学习来平衡面向人类的图像captioning的多样性和准确性。我们的工作在MSCOCO数据集上进行了评估[19]。我们实现了一个显着的提升多样性相比，对政策的基线，同时获得最高的准确性，所有采样的预测相比，其他不同的字幕作品。此外，我们的方法位于最接近人类的表现，在多样性的准确性空间，并显示出最强的相关性与人类的评价与皮尔逊相关系数为0.337。我们的工作是模块化的，可以应用到大多数其他作品的图像字幕，使它很容易促进这种平衡，在未来的研究。2. 相关工作图像字幕。受神经机器翻译下序列到序列学习[28，6]的成功启发，编码器-解码器框架[34，33]已被引入图像字幕并取得了显着的改进。该框架使用编码器CNN提取图像的语义特征，并使用解码器LSTM对给定这些特征的后验进行建模。在这样的框架内，存在对模型结构的许多修改。[2]建议使用更快的R-CNN [24]作为编码器来提取对象级表示。[13，7]用修改的Transformer [30]结构替换解码器LSTM，以更好地生成语言。不同类型的注意力模块[40，44，20，2，14]已被设计为进一步弥合视觉概念和语言概念之间此外，[43，42，41]引入图卷积网络以在图像内采用场景图[15]。使用RL提高准确性。虽然早期的研究使用交叉熵（CE）损失逐字地训练网络，[23]将句子生成过程视为序列决策问题，并引入强化学习（RL）。[25]使用视觉语义嵌入来定义奖励。[26]进一步提出了自我批评奖励，它后来成为图像字幕的主流RL方法。从技术上讲，CE预训练模型用于为RL训练过程初始化合理的基线，然后选择CIDEr [31]作为句子级评估，为采样句子提供奖励。在这里，用于获取奖励的采样句子是从与要更新的策略相同的策略导出的。换句话说，自我批评的方法可以被归类为对政策的培训策略。实验表明，用这种方法训练的模型可以获得高准确度分数[22，31，9，18，1，45]，甚至超过人类等级。提高图像字幕的多样性为了增强多样性，[38]采用多个描述模型来学习2189在时期n的后验（行为策略）更有可能被再次再次获得正面奖励后加强图4.预测句子的多样性显着下降的政策RL培训的收益。[25，26]。完全生成的句子s={w1，w2，…可以被视为轨迹。的图3.直观地说明了政策培训如何损害多样性。获得正回报的轨迹将更有可能在随后的时期中被采样，使得目标策略成为单峰策略。不同的模式。[32]提出了多样波束搜索（DBS），以鼓励在推断期间使用不同的字幕。[10]通过利用不同的词性生成不同的字幕。[5]通过将多样性评价直接添加到优化目标上来促进多样性。最近的工作通过引入生成模型如GAN和VAE来解决多样化的字幕任务。[8]引入序列GAN来生成不同的字幕，而[27]进一步设计了考虑字幕集内分布的鉴别器。另一方面，[35]设计了在字幕任务中使用VAE的多个先验[3]学习单词潜在空间和[4]为语法或词汇领域知识的潜在变量建模。上述研究主要报告在采样的字幕集内的某个句子上的准确性。相反，[36]建议评估整个字幕集的准确性性能。为了提供对建模后验的全面评估，我们在本文中报告性能时遵循这样的实现3. 该方法为了平衡准确性和多样性对人类表现的影响，我们采用RL，因为它对准确性有显着的提升效果在本节中，我们首先阐述第二节中现有政策策略的局限性第3.1条然后，我们提出了部分离政策的学习计划。总体训练方案如图所示。2，其中引入政策外培训分支，作为对传统政策内培训分支的补充。3.1. 问题公式化字幕生成过程可以被公式化为从每个字幕生成过程到每个字幕生成过程的顺序决策过程。优化目标是最小化负预期句子级奖励R（s;I）：L（θ）= −Espθ[R（s;I）]（1）其中pθ是目标策略，即要训练的建模后验。由于计算期望值的成本很高，因此L（θ）通常根据单个轨迹进行估计L（θ）=−R（s，I），spθ（2）然后，我们可以使用REINFORCE策略梯度优化不可微奖励[39]：θL|I），sp θ（3）注意，为了清楚起见，在这里和之后省略了基线术语等式（3）是当前用于图像字幕的基于RL的训练方案的基础。它意味着策略策略，即采样句子s来自与待训练句子相同的分布pθ根据方程式（3），目标策略可以在来自句子空间的每个轨迹上更新。然而，该模型实际上可以仅从少量轨迹学习。这样的现象阻碍了模型从寻找其他潜在的优秀候选人。我们在图中说明了这个问题。3.第三章。如果一个样本句子sθ获得高奖励，它的概率将增加，并相对抑制pθ中的其他情况。在随后的历元中，s*更有可能根据pθ和fur进行采样从而加强了这种倾向。最后，后面的部分逐渐成为单峰导致多样性的不足，如图所示。4.第一章为了在使用RL优化准确性的同时保持多样性，我们需要1）在训练期间将模型暴露于各种可能的样本，以及2）如果样本足够合适，则鼓励模型我们解决了第一个问题。3.2通过引入用于图像字幕的离策略采样模型。第二个问题在第二节中处理3.3通过所提出的max-CIDEr采样接到积极的奖励行为策略（BehaviorPolicy）在时期n+12190|q（ sI）. ΣΣ·∥∥n nnΣ⟨⟩奖励优化此外，为了在多样性和准确性之间取得平衡，我们建议采用具有一定概率的离线策略，这被解释为在SEC中的部分离线三点四分。3.2. 图像字幕由于现有的应用于图像字幕的策略过于强调准确性，我们建议首先加强多样性，然后再考虑多样性和准确性的权衡。在技术上，引入不同的行为策略以在训练过程中为模型提供不同的轨迹，即，模型将以脱离策略的方式更新在数学上，偏离策略的梯度可以估计为：pθ（s|I）L（θ）=−R（s，I）logp（s|I）·，sq（4）b）使用max-CIDEr的奖励图5. a）原始CIDEr奖励和b）提议的max-CIDEr奖励的分布示意图。Max-CIDEr与原始CIDEr相比，鼓励更多样化的输出。这里，en=gn/gn是表示g n的方向的单位向量。作为等式（7）模型只能θ θθq（s|I）从表示的单个矢量e´n接收ive引导其中q表示行为策略。pθ（s|I）是确保无偏估计的重要抽样比率项。通过采用q，模型暴露于当前局部最优值之外的体面情况，打破了图1所示的循环。3、避免建立单峰后验。考虑到句子空间的巨大性，我们在选择时需要将范围缩小到一些公平的候选人Q.我们通过部署一个采样模型来提供一个合理的q值来解决这个问题。由于RL启动时的初始模型显示出相当大的多样性，如图所示。4，这里用它作为抽样模型：合并语义为了提供直观的印象，我们从MSCOCO数据集[ 19 ]中采样了几组地面实况，并通过图1中的PCA可视化了相应的tf-idf向量。五、图中的轮廓作为奖励的简单说明如我们从图5a中可以看到的，鼓励图像的不同采样字幕接近相同的合并语义（较暗的点）以追求更高的CIDEr奖励，这导致多样性下降，尽管提供了各种训练样本。因此，为了促进多样性以实现准确性-多样性平衡，我们优化了一种新的奖励max-CIDEr，其定义为：q←pθ=θ0（5）其中θ0表示初始模型的参数等式（5）确保基本的发电能力，max-CIDEr（s，I）=maxj∈G（I）144n=1cos∠gn（s），gn（j）∠Σ（八）竞争性字幕，同时保持必要的多样性所需的Eqn。（四）、3.3. Max-CIDEr优化在本节中，我们将讨论如何充分利用SEC提供的各种3.2.首先，我们首先讨论了广泛使用的奖励CIDER的局限性。根据[31]，原始CIDEr评分可以表示为4等式（8）表明，只要一个句子与任何一个符号而不是所有符号足够相似，它因此，可以在较宽松的条件下向上推如图5b所示，max-CIDEr能够在训练期间为每个轨迹提供不同的引导信息。此外，通过采用所提出的max-CIDEr奖励，地面事实而不是合并的语义被视为最佳，这与人类认知一致。CIDEr（s，I）=1 CIDEr4Nn=1（s，I）（6）3.4. 部分偏离策略学习传统的基于策略的图像覆盖学习方案其中，CIDErn（s）由候选预测s与地面真值G（I）之间的经裁剪的n元语法tf-idf向量gn的余弦相似性导出：CIDEr（s，I）=1cosg（s），g（j）|j∈G（I）|j∈G(I)由于不充分的探索，排序获得差的多样性性能。相反，所提出的离政策策略由于多样的行为政策而具有更多的探索效果[29]。然而，由于采样模型的不完善，单独部署离线训练可能会带来低准确性性能。=en（s）1|G（I）|j∈ΣG（I）en（j）2191（七）因为训练模型需要在多得多的轨迹上更新策略为了缓解这样的问题，我们适度的探索=en（s）·e¯n（G（I））建议的政策外战略的效果，通过结合它2192∼输出：I∈I××与传统的图像字幕的政策之一。受ε-贪婪算法[29]的启发，我们引入超参数ε来控制这种平衡。具体来说，我们执行的形式战略选择，建议关闭政策的方法和传统的政策之一，为每一个形象在训练集中。该学习方案被命名为部分偏离策略学习，并在图1中示出。2，它可以被公式化为伪代码在Algo。1.一、部分偏离策略学习方案保留了用于图像字幕的传统按策略的优点，以有效地利用和保证准确性。它还介绍了探索，以保持多样性，使用离政策训练与最大CIDER。该方法通过对样本量的调整，可以在探索和利用之间取得平衡，从而得到精度和多样性都很好的后验结果算法1：用于图像字幕的输入：预训练模型参数θ0，训练数据集，平衡系数ε优化模型后验pθ1 用θ0初始化pθ;2 用θ0初始化q;3 当未达到最大时期时4因为我愿意5个样本ε U（0，1）;6如果ε > ε则7根据pθ对字幕s进行采样;8R（s，I）←CIDEr（s，I）;9使用方程估计梯度（3）;另外10个11根据q对字幕s进行采样;12R（s，I）←max-CIDEr（s，I）;13使用等式13估计梯度（4）;14使用θL（θ）更新pθ;15末端16端部4. 实验在本节中，我们首先简要介绍数据集、评估指标和实验设置，然后报告广泛的结果以说明有效性。4.1. 数据集和指标数据集。 MSCOCO [19]是图像字幕任务最流行的基准。该数据集包含82，783张训练图像，40，504张验证图像和40，775张测试图像。每个图像与作为参考的5个人类注释的地面实况相关联。在实验中，我们遵循[16]中广泛采用的分割，其中113，287张图像用于训练，5，000张用于验证，5，000张用于测试。罕见在训练集中出现少于5次的单词被替换为记号，导致最终词汇表由9，487个单词组成。准确度指标。有各种有影响力的标准来评估生成的图像字幕的准确性，包括BLEU [22]，METEOR [9]和CIDER [31]。为了提供对生成多个准确字幕的全面评估，我们遵循[36]中的实现，根据每个图像的建模后验来评估Monte-Carlo采样字幕集内的平均分数。由于这样的分数传统上是计算在一个单一的预测，每个图像得到相应的分数，我们的实施结果在相对较低的分数与公布的相比。多样性度量。我们报告了三种类型的多样性评估方法：1）唯一句子比率（单位），其是采样集中不同句子的平均比率2）mBLEU-4，其是每个预测的平均BLEU-4得分，其中采样集中的其余字幕被计数为参考;以及3）self-CIDEr [36]，其使用CIDEr作为内核来计算采样字幕集的自相关矩阵上的奇异向量分解（SVD）注意，较高的分数指示除了mBLEU-4之外的不同输出，mBLEU-4越低越好。4.2. 实现细节模型结构。我们基于自顶向下模型[2]实现了所提出的方法，其中ResNet-101 [12]被设置为编码器更快的R-CNN [24]的骨干网络每个图像的对象区域的数量自适应地设置为从10到100的范围，其中每个对象的特征是2,048维向量。单词首先被编码为一个热矢量，然后嵌入为512维矢量之前，馈入解码器。解码器中的每个LSTM内的隐藏层的大小都被设置为512。实验设置。Adam [17]在训练期间用作优化器。编码器的参数根据[2]进行预训练，并在训练期间固定，以节省GPU内存使用。我们将批量大小设置为16，并使用交叉熵（CE）损失对模型进行35个epoch的预训练。预先训练的参数用于为后续RL训练过程提供公平的初始化。学习率初始化为5 10−4，在CE训练阶段每3个epoch衰减0.8，在RL训练期间固定为3 10−5 我们用每个地事实和合并的语义作为策略梯度中的基线项，我们对超参数ε的不同设置进行了实验，发现0.1对于以人为本的性能很好。4.3. 性能我们提供了准确性和多样性性能的综合评估，以说明有效的2193准确性度量C↑ M↑ B-4↑多样性量度mB-4↓ s-C↑单位↑[26]第二十六话113.227.034.898.514.414.8上下[2]111.927.435.398.316.016.3AdaAtt [20]109.926.333.098.811.511.5ReTrans [13]119.629.328.098.514.314.2AoA [14]123.029.729.498.217.417.8Ours（= 0. 九、57.319.915.027.380.699.6Ours（= 0. 第一章89.924.526.554.069.392.0Ours（= 0. 01）111.926.833.796.821.422.7人类表现84.524.412.87.788.8100.0图6.不同工作的性能，同时考虑多样性和准确性。不同的权重使模型能够在多样性和准确性之间进行权衡。当k= 0.1时，我们的方法最接近人类的表现。提出的学习计划的重要性为了直接评估模型化后验，我们不包括选择过程，如oracle和共识重新排序[11]，或解码策略，如波束搜索或多样波束搜索[32]。所有的句子都是直接从模型化的后验样本中提取出来的。在我们展示结果之前，我们需要量化我们的目标，即人类注释的字幕的分数。对于多样性指标，我们认为由数据集MSCOCO提供的多个地面实况作为来自人类后验和计算的多样性得分的采样对于准确性评估，我们按照[36，37]的实现以留一法计算度量。图图 6 展示了对多样性（自 CIDEr ）和准确性（CIDEr）性能的评估从图中，我们可以看到一些不同的字幕方法（例如CVAE [35]）的分散分布在左上角部分，具有高多样性（ self-CIDEr ）但准确度低（ CIDEr）。相比之下，基于策略RL 的方法（例如，、 Up-Down [2] 、 AoA [14] 和关系 Transformer[13]）在右下部分中，具有高精度（CIDEr）但低分集（CIDEr）。通过将超参数ε设置为0.1，我们的方法平衡了这两个方面，并获得了最接近人类的性能。比较结果验证了所提出的部分偏离策略学习方案可以使模型逼近类人的poster- rior。我们还将我们的方法与结合CE和RL以实现平衡的方法进行了比较[36]，如图中的虚线所示。六、通过我们的方法获得的曲线形成了这种方法之上的上包络，表明我们在多样性和准确性之间实现与作品比较，提高准确性。我们首先与最近的工作进行比较，以提高表1的准确性。其中大部分是基于对政策的学习。从表中可以看出，所提出的方法ac-表1.与其他基于策略学习的作品相比，MSCOCO数据集的Karpathy测试分割的性能准确性度量C↑ M↑ B-4↑多样性量度mB-4↓ s-C↑单位↑CVAE[35]30.315.06.814.187.399.9GMM-CVAE[35]78.521.718.945.670.790.9CapGAN[27]68.722.115.876.959.078.0Ours（= 0. 第一章89.924.526.554.069.392.0人类表现84.524.412.87.788.8100.0表2.与不同字幕的作品相比，MSCOCO数据集的Karpathy测试分割的性能要求在多个分集度量上获得显著的性能增益具体而言，最先进的模型在准确性上实现令人满意的性能，而在多样性度量上表现不佳例如，AoA[14]获得mBLEU-4为98.2，self-CIDEr为17.4，UniqueSentence Ratio为17.8。与此相反，我们的方法0.1 实现54.0的mBLEU-4、 69.3的self-CIDEr，以及92.0的独特句子比率回想一下，目标应该是模仿人类。总体而言，我们实现了接近的性能与人类基线的准确性和多样性。作品比较，促进多样性。为了全面说明，我们使用GAN[27]或VAE[35]等生成框架对不同字幕模型进行了评估。我们的方法在准确性和多样性方面都优于基于GAN的框架至于使用VAE框架的[35]，它在多样性评估上获得了不错的性能例如，CVAE[35]的采样结果在采样帽集上分别获得30.3、15.0和6.8的平均CIDEr、METEOR和相比之下，我们的方法在超参数ε设置为0.1的情况下实现了与人类可比较的性能，同时保留了相当大的多样性。与人的绩效的相关性分析。图6直观地呈现了我们的方法和人类表现之间的密切相关性。为了提供这种相关性的量化证据，我们在验证集上计算模型和人类表现之间的Pearson在表3中，我们使用皮尔逊相关系数的复数考虑到多个方面。对于数据集中的每个图像，我们组成一个复数，反映相应字幕的综合性能，其中实部是一定的准确度分数，虚部是一定的准确度分数。2194一只狗站在一个袋子旁边。一个人在冲浪板上冲浪。树旁杆子上的路牌。一只狗站在一袋行李旁边。一个人在冲浪板上冲浪。一个街道标志坐在路边。一只狗站在公共街道上的特写镜头。一个人在冲浪板上冲浪。一个蓝色的路牌坐落在靠近棕榈树的杆子上。一只狗站在街上一个救生袋附近。冲浪板上的人在海洋中冲浪。路标上的一个职位与一些树在它下面。一只狗坐在人行道上靠近一个袋子。一个男性冲浪者在海洋中冲浪。建筑物旁柱子上的路牌。人类：人类：人类：一只狗被皮带拴在外面，还有一个袋子。一个人在波浪上骑着冲浪板。一个城市的路标附近的一些非常大的棕榈树。一只狗和一个黑色背包在路边。冲浪者穿着黑色的衣服，带着米色的冲浪板冲浪。近距离拍摄的蓝色回声路牌。一只狗被拴在人行道上的街道固定物上。冲浪者在波浪几棵棕榈树旁的一个路牌。一只棕色黑白相间的狗和一个黑色的背包。一个穿着潜水服的人在晴朗的日子里冲浪。在一根银杆上有一个蓝色的路牌。一只狗被绑在一个金属笼子里，旁边是一个背包。一名男子熟练地在巨浪上冲浪。在柱子顶端的街道标志。urs：策略内基线：策略内基线：一只狗站在街上的一辆自行车旁边。一个人在海洋中的冲浪板上冲浪。一只狗站在街上的一辆自行车旁边。一个人在海洋中的冲浪板上冲浪。一只狗站在街上的一辆自行车旁边。一个人在海洋中的冲浪板上冲浪。一只狗站在街上的一辆自行车旁边。一个人在海洋中的冲浪板上冲浪。街上一只狗站在一辆自行车旁边一个人在海洋中的冲浪板上冲浪。政策内基准：柱子边上的路标。柱子边上的路标。柱子边上的路标。柱子边上的路标。柱子边上的路标一个人在雨中打着伞。一个男人用wii控制器玩视频游戏。一列火车停在铁轨上。一个人在雨中打着伞。一个男人用wii控制器玩视频游戏。一列火车停在铁轨上。一个人在雨中打着伞。一个男人用wii控制器玩视频游戏。一列火车停在铁轨上。一个人在雪地里打着伞。一个男人用wii控制器玩视频游戏。一列火车停在铁轨上。一个人在雪地里打着伞。一个男人用wii控制器玩视频游戏。一列火车停在铁轨上。我们的我们的撑着伞走在街上的人。一个拿着任天堂wii游戏控制器的男人。一辆彩色的火车沿着铁轨行驶。一个人在雪地里打着伞。一个拿着任天堂wii游戏控制器的男人。沿着森林附近的铁轨行驶的火车。一个人撑着伞走在满是积雪的城市街道一个男人手里拿着wii遥控器。一列长长的火车沿着铁轨行驶。一个人在标志前拿着伞。一个戴眼镜的男人正在玩电子游戏。在靠近树木的铁轨上的火车。一个人撑着一把伞走在一条下雪的街道上。一个男人在客厅里玩电子游戏。火车沿着铁轨行驶。人类：人类：人类：一个人拿着伞站在一个结冰的消防栓旁边一个男人在沙发前拿着任天堂wii控制器。一列五颜六色的火车正沿着轨道驶来。一个人站在雪地里，撑着一把打开的雨伞。男子在条纹衬衫和牛仔裤玩游戏与任天堂wii控制器。一列拉着红、白、蓝三色车厢的火车。一个成年人站在雪地里，旁边的街道上打着伞。一名男子正在使用视频游戏遥控器。一列货运列车在森林旁的轨道上行驶。站在街道边缘的人拿着一把伞在雪中。一个男人站在沙发前，手里拿着一个wiimote。一列火车在几棵树附近的铁轨上行驶。一个人站在外面在一个潮湿的雪夜。一个穿棕色毛衣的男人正在玩wii游戏。牵引着一列五颜六色的棚车的火车头。策略基准：策略基准：政策内基准：On-pOH我们的：我们的：OH图7.为MSCOCO数据集的Karpathy测试分割中的图像生成的示例标题我们使用不同的颜色对采样标题集中的每个不同的句子进行我们的方法像人类一样产生多样化和描述性的输出。方法Pearson[26]第二十六话0.243精度方法上下[2]AdaAtt [20]ReTrans [13]0.2530.2360.295AoA [14]0.289分集方法CVAE [35]GMM-CVAE [35]CapGAN [27]0.2000.2800.193Ours（= 0. 第一章0.337表3.MSCOCO数据集的Karpathy测试分割上预测字幕和人工注释之间的综合相关系数是一定的多样性得分。符合图6，我们在这里使用CIDEr用于准确性，使用self-CIDEr用于多样性。用于组成复数的准确度和多样性得分都根据hu-人的表现。由所提出的部分偏离策略学习方案训练的模型获得与人类表现的最高相关性，如表3所示。定性评价。我们根据图7中的建模后验结果提供了几个采样帽，以进行可视化。与我们在图中实现的一致。1，我们使用训练好的模型进行多次采样，并观察生成的字幕。在图7中，每个图像的样本批量大小被设置为5，以提供与人类表现的公平比较。相比之下，按保单基准模型生成的上限是相当重复的。利用所提出的部分偏离策略学习，多样性的不足被显著地缓解。额外语义（即，积雪街道、棕榈树、救援袋等）与政策上的预测相比，2195传说人体基线AoA，政策内0 AoitersA，我们的，c=0.1ReTrans，on-policyReTrams，our，c=0.1，c=0.1向上-向下，按策略上下，我们的，c=0.162.8×10 iters54.2×10 iters64.3×10 itersmax-CIDER？我们对第12节中提出的修改进行了消融研究。3.2和第二节三点三结果示于表4中。苹果酒自CIDER∥ρ ∥基线[2]111.916.00.253+ max-CIDEr优化111.420.70.266+ 采样模型107.230.60.251充分89.969.30.337人类表现84.588.81.000a)b）、图8.a）在训练期间，与我们的方法和人类per-perception相比，在多样性-准确性空间上的策略基线的结果b）所提出的部分偏离策略学习方案应用于不同模型结构的效果。训练基线，产生更多描述性结果。此外，生成的字幕更接近人类注释，具有平衡的多样性和准确性。4.4. 进一步分析多样性的提高是由于培训不足造成的吗？我们注意到，随着政策培训的进行，模型将变得更加准确，但多样性降低。因此，一个直接的问题是，我们的方法是否实现了类似于在策略策略下训练不足的多样性-准确性平衡。我们进行了进一步的实验，以比较的政策上的基线与所提出的部分关闭政策的方法的多样性和准确性的metrics。我们报告了具有不同训练时期的基于策略学习的多样性/准确性度量，并在图中绘制了曲线。8.与on-policy相比，我们的方法的度量点位于多样性准确性空间中的on-policy基线的曲线上方，更接近人类参考。实验结果表明，与基于策略的基线算法相比，该算法获得了更好的多样性-准确性平衡，验证了该算法的有效性。部分偏离策略学习对其他模型结构有效吗？由于所提出的学习方案不涉及对模型结构的修改，因此它应该通过简单地用部分偏离策略训练策略代替策略训练策略来对其他图像字幕模型产生影响。我们将部分偏离策略学习方案应用于图中的[14，34，13]8. 实验结果表明，该学习方案可以提高多模型的类人性能。对于AoA [14] ，部分偏离策略学习将自 CIDER 提高了51.6%。对于Up-down [2]和关系Transformer [13]，我们将self-CIDER增加了约3倍。换句话说，所提出的方法是模块化的，可以很容易地与未来的工作相结合，以促进面向人类的字幕生成。政策外抽样模型如何与表4.每项拟议修改的影响可以看出，无论是优化max-CIDEr还是通过抽样模型引入多样性行为策略，都可以提高多样性。自CIDEr从16.0提高到20.7 max-CIDEr优化采用差异化行为策略后，得分提高到30.6。然而，所提出的方法提出了一个更显着的平衡效果时，一起采用。这是因为，它们被引入以解决不同维度上的问题，如第2节中所讨论的。第3.1条因此，他们加强了彼此的影响，并促进了获得类似人类的性能。部分政策外学习是否是抽样方法的补充？我们的方法是训练侧方法，并且目的是直接导出一个合适的后验。理论上可以通过采样方法（例如DBS）进一步加强[32]。我们进行实验，以评估DBS应用于政策上的基线和我们的方法的DBS在政策基线上获得Pearson我们的方法和DBS的组合将提高得分高达0.403，这表明通过部分脱政策获得的改进是对更好的采样提供的改进的补充。5. 结论我们提出了一种新的学习计划命名为部分关闭政策的图像字幕，鼓励人类一样的性能的准确性和多样性。我们介绍了抽样模型和max-CIDEr奖励。然后，通过用于准确性-多样性平衡的策略选择过程，将这样的我们的方法在多样性-准确度空间中定位最近，并在综合视角下实现与人类表现的最高相关性。致谢本工作得到国家自然科学基金项目批准号：61771288、北京国家信息科学与技术研究中心跨媒体智能技术项目（批准号：BNR2019TD01022）和北京国家信息科学与技术研究中心跨媒体智能技术项目（批准号：BNR2019TD01022）。2019GQG0001，来自清华大学郭强研究所。2196引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在European Conference on Computer Vi-sion，第382-398页中。施普林格，2016年。一、二[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。二五六七八[3] Jyoti Aneja、Harsh Agrawal、Dhruv Batra和AlexanderSchwing。用于在不同图像字幕期间建模inten- tion的顺序潜在空间。在IEEE计算机视觉国际会议论文集，第4261-4270页，2019年。第1、3条[4] Fuhai Chen ， Rongrong Ji ， Jiayi Ji ， Xiaoshuai Sun ，Baochang Zhang ， Xuri Ge ， Yongjian Wu ， FeiyueHuang，and Yan Wang.用于不同图像字幕的变分结构语义推理。神经信息处理系统的进展，第1931-1941页，2019年。第1、3条[5] 贾辰和秦晋。更好的字幕与序列级的探索。在IEEE/CVF计算机视觉和模式识别集，第108903[6] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。2[7] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara. 网状记忆 Transformer 器的图像captioning。在IEEE/CVF计算机视觉和模式识别会议论文集，第10578- 10587页，2020年。2[8] Bo Dai，Sanja Fidler，Raquel Urtasun，and Dahua Lin.通过有条件的组来实现多样化和自然的图像描述。在IEEE国际计算机视觉会议论文集，第2970-2979页3[9] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估第九届统计机器翻译集，第376-380页，2014年。一、二、五[10] Aditya Deshpande ， Jyoti Aneja ， Liwei Wang ，Alexander G Schwing，and David Forsyth.快速，多样和准确的图像字幕引导的词性。在IEEE计算机视觉和模式识别会议论文集，第10695-10704页，2019年。第1、3条[11] Jacob Devlin，Saurabh Gupta，Ross Girshick，MargaretMitchell，and C Lawrence Zitnick.探索图像字幕的最近邻方法。arXiv预印本arXiv：1505.04467，2015。1、6[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[13] Simao Herdade ， Armin Kappeler ， Kofi Boakye ， andJoao Soares.图片说明：将物体转化为文字。神经信息处理系统的进展，第11137-11147页，2019年。二、六、七、八[14] Lun Huang，Wenmin Wang，Jie Chen，and Xiao-YongWei.注意注意图像字幕。在IEEE计算机视觉国际会议论文集，第4634-4643页，2019年。二、六、七、八[15] Justin Johnson，Ranjay Krishna，Mic

下载后可阅读完整内容，剩余1页未读，立即下载