没有合适的资源?快使用搜索试试~ 我知道了~
6300图像字幕的自临界n高俊龙1、王世奇4、王善社2、3、马四维2、3、高文2、31北京大学深圳研究生院2北京大学数字媒体研究所3鹏程实验室4香港城市大学计算机科学系,香港摘要现有的图像字幕识别方法通常采用交叉熵损失进行训练,这会导致曝光偏差以及优化函数和评价指标之间的不一致。最近已经表明,这两个问题可以通过结合来自强化学习的技术来解决,其中流行的技术之一在本文中,我们估计状态值,而不使用参数化的价值估计。利用图像字幕的确定性状态转移函数和稀疏奖励的性质,将状态值等价于其前一个状态-动作值,并通过简单地将前一个状态-动作值替换为后一个状态-动作值来重新构造优势函数。此外,将改进后的优势推广到n阶,在降低变异性的同时,提高了改进后的优势均值的绝对值。然后采用两种滚动方式估计状态-动作值,我们称之为自临界n步训练。经验上,我们发现,我们的方法可以获得更好的性能相比,国家的最先进的方法,分别使用序列水平的优势和参数化估计器上广泛使用的MSCOCO基准。1. 介绍图像字幕的目的是为图像自动生成自然的字幕这是一个非常具有挑战性的任务,它要求识别图像中的重要对象,以及它们的属性和彼此之间的关系,以便最终能够自然地正确描述它们*通讯作者语言机器模仿人类以自然语言表达丰富信息并具有正确语法的能力是重要的,因为它可以应用于人机交互和盲人用户引导。受[6]中最近引入的用于机器翻译的编码器-解码器框架的启发,图像字幕中的大多数最近的通常,编码器,例如,卷积神经网络(CNN)将图像编码为视觉特征,而解码器,例如,长短期记忆(LSTM)[10],解码视觉特征以生成字幕。这些方法以端到端的方式进行训练,以最小化交叉熵损失,即。在给定前一个地面实况词的情况下,最大化每个地面实况词的可能性交叉熵损失的第一个问题是它将导致训练和测试之间的这种差异很容易导致生成过程中的错误积累,因为模型在训练过程中没有暴露于其预测,并且难以处理训练阶段从未发生的错误。为了处理暴露偏倚,Bengio等人[4]反馈模型自己的预测作为输入与预定的采样,而兰姆等人。[14]在“教师强迫”之上提出了交叉熵损失的第二个问题是生成的句子在测试阶段由不可微的度量来评估,例如BLEU 1-2-3-4 [20],ROUGE [15] , METEOR [3] , CIDER [23] , SPICE[1],而在测试阶段,在训练模型时,训练模型以最小化交叉熵损失,交叉熵损失是优化函数和评估度量之间的不一致。 在[4,14]中提出的方法不能解决这种不一致性。最近,研究表明,强化学习(RL)中的策略梯度算法可以被训练以避免暴露偏差并直接优化这种不可微的评估指标6301[17,21,22,29]。通过这种方式,模型可以在训练期间暴露于然而,[22]中的算法使用了序列级优势,这隐含地做出了一个无效的假设,即每个令牌对整个序列进行相同的已经提出了许多工作[17,21,29]来模拟每个令牌的优势。然而,他们使用参数化的值/基线估计量,代价是引入估计偏差。本文在不引入有偏参数化值估计量的情况下,改进了优势行动者-评价利用图像字幕的确定性状态转移函数和稀疏奖励的性质,使状态值与前一个状态-动作值等价,并通过简单地用后一个状态-动作值代替前一个状态-动作值来改进优势函数由于状态-动作值不能精确估计,因此模型可以容易地收敛到用重构的优势函数训练的局部最大值。为此,我们提出了n步重构优势函数,它一般能提高重构优势均值的绝对值,为了估计状态-动作值,我们使用受[17,28]启发的MonteCarlo滚动和受[22]启发的最大概率滚动,这被称为自临界n步训练。实验结果表明,与分别使用序列水平优势和参数化估计的方法相比,我们的模型提高了图像字幕的性能本文的主要工作有:(1)利用图像字幕的特殊性质,找到了状态值与其前一个状态-动作值的等价性,并重新构造了每个动作的优势函数;(2)在重构优势函数的基础上,我们将其扩展到n步重构优势函数,使重构优势函数的均值的绝对值普遍增大,而方差减小;(3)我们利用两种滚动估计方法来估计状态-动作价值函数,进行自我批评训练。2. 相关工作已经为图像字幕开发了许多不同的模型,其可以分为两类:基于模板的方法[8,13]和基于神经网络的方法。由于我们的方法采用神经网络架构,我们主要介绍这方面的方法。这方面的努力有两个方向:注意力机制和强化学习。2.1. 注意机制机器翻译[6]首先由[24]引入,它将图像的最后一个Xu等[26]提出软硬兼顾的注意力机制来模拟人眼在生成不同单词时聚焦在图像中的不同区域。在[2,5,18,22]中进一步改进了这项工作在[18]中,他们引入了视觉哨兵,以允许注意模块选择性地关注视觉和语言特征。安德森等。[2]采用了自下而上的模块和自上而下的模块,自下而上的模块使用对象检测来检测图像中的对象,自上而下的模块利用软注意力来动态地关注这些对象特征。Chen等人[5]提出了一个空间和通道的注意力模型来关注视觉特征。Rennie等人[22]提出了FC模型和Att2in模型,取得了较好的性能。2.2. 强化学习最近,一些工作使用基于强化学习的方法来解决图像字幕中的曝光偏差和优化函数与不可微评估度量之间的不匹配[17,21,22,29]。Ran- zato等[21]首次引入REINFORCE算法[25]用RNN进行序列训练。然而,REIN-FORCE算法在梯度估计中往往导致较大的方差.为了降低策略梯度的方差,许多研究工作在REINFORCE算法中引入了不同的例如,在[22]中采用了由推理算法生成的字幕的奖励作为基线,其使用了序列级优势,而没有考虑每个令牌的优势。在[17,21,29]中提出的各种算法旨在对每个令牌的优势进行建模。Ranzato等人[21]使用基线奖励参数估计器。在[17]中,他们使用FC层来预测基线,并使用Monte Carlo卷展栏来预测状态-动作值函数。在[29]中,他们结合了优势行动者-批评者算法和时间差学习,并使用另一种RNN来预测状态值函数。然而,在[17,21,29]中使用了值/基线估计量,这引入了估计偏倚。本文利用图像字幕的性质,对优势演员-评论家方法进行了改进,并采用不同的滚动方式估计状态-动作值函数,从而在不引入偏差的情况下计算出每个标记的优势。3. 方法3.1. 交叉熵损失训练给定图像I,图像字幕的目标是生成符号序列A={a1,a2,., aT},at∈ A,其中A是字典。字幕模型预测以0开始并以T结束的标记序列,其中0是指示句子开始的特殊标记BOS,并且T也是表示句子结束的特殊记号EOS为了简化公式,T表示为生成的序列的总长度,忽略了生成的令牌序列具有不同长度的事实。 我们使用63021 2Tπ用于图像捕获的标准编码器-解码器体系结构 因此,我们将每个动作的奖励定义为:其中CNN作为编码器将图像I编码为图像特征IF,并且RNN可以被采用作为解码器来解码IF以输出令牌序列A。在这低点:.Rt=0,t Tr,t=T(四)工作中,我们采用了Att2in模型[22]。 给定一个地面实况序列{a,a,., a},训练模型参数θ以最小化交叉熵损失(XENT)ΣTL(θ)= −log(πθ(a)|(1)在强化学习中,价值函数是对预期的、累积的、γ折扣的未来回报的预测,衡量每个状态或状态-动作对的好坏。我们定义策略π的状态-动作值函数Qπ(st,at)和状态值函数Vπ(s)如下:t=1t1:t−1tΣ Σ其中πθ(at|a1:t−1、IF)是概率分布Q(st,at)= Est+1,at+1,. ∼πΣTγlrt+l|St= St,At= at在给定先前生成的令牌的情况下,{a,a,...,a }和图像特征I.l=0ππTl1 2t−1FV(st)= Eat,st+1,.∼πl=0 γ rt+l|St= St3.2. 使用政策梯度进行培训问题表述。为了解决上述交叉熵损失的两个问题,即曝光偏差和优化函数与评价指标之间的不一致,我们将强化学习引入图像字幕。在形式上,我们把封顶过程看作是一个有限马尔可夫过程(MDP)。我们上面介绍的captioning模型可以被看作是一个代理,它与环境(文字和图像)进行交互在MDP设置{S,A,P,R,γ}中,S是状态空间,A是(五)其中Qπ(st,at)是从状态st采取行动at开始的策略π下的预期γ折扣累积奖励,Vπ(st)是从状态st开始的预期γ折扣累积奖励。为了简化符号,我们表 示Eat ,st+1,...。并且Est+1,at+1,. 在论文的其余部分中,有Eπ[·]很明显,Qπ(st,at)与Vπ(st)的区别在于在计算奖励时是否在状态st采取行动at在强化学习中,智能体的目标是为了最大化累积量L(θ)=Vπ(s0)=一个动作空间以及字典,P(st+1|st,at)是状态转移概率R(st,at)是奖励函数,ΣTEπt=1 γt−1rt通过估计梯度θL(θ),γ∈(0,1]是贴现因子。代理从一致性概率分布π(a)中选择对应于生成令牌的动作|s)称为政策。在策略梯度算法中,我们考虑一组候选策略πθ(a|s)由θ参数化。状态st∈S被认为是由图像特征IF和令牌/动作{a0,a1,a2,.,到目前为止生成的t-1}:st ={IF,a0,a1,..., at −1}(2)这里我们定义初始状态s0={IF}。在每个时间步,RNN消耗st并使用RNN的隐藏状态来生成下一个令牌at。有了状态的定义,我们就有了下一个状态st+1={st,at}:我们简单地将令牌at附加到st。根据这个过程,状态转移函数P可以称为确定性状态转移函数。形式上,我们有:P(st +1 |st,at)1(3)当通过选择动作at将状态st转移到下一个状态st+1时,智能体收到环境发出的奖励rt然而,在图像字幕中,我们只能在以下情况下获得奖励r=R(sT,aT)=R(a1:T)生成EOS令牌,并且在中不考虑{IF,a0}奖励计算 奖励r是通过评估来计算的,将所生成的完整句子与相应的地面实况句子进行比较,更新其参数,而不是最小化交叉en,熵损失为Eq. (一).在策略梯度方法中,梯度θL(θ)可以写为:<$θL(θ)= Eπ[(Qπ(st,at)− b(st))<$θlog πθ(at|(六)其中基线b(st)可以是任意函数,只要它不依赖于动作at。该基线不会改变预期梯度,但可以显著降低梯度估计的这种算法被称为带基线的增强。使用Vπ(st)作为基线b(st),该算法被改变为优势行动者-评论者(A2 C)算法,如下所示:L(θ)= Eπ[Aπ(st,at)<$θlog πθ(at|(七)由方程式(7),Aπ(st,at)= Qπ(st,at)− V π(st)称为优势函数. 这个方程直观地引导代理向一个进化方向,该方向增加了好于平均水平的行动,并降低比平均水平更差的行动的概率[29]。1步重新制定的优势功能。 Image caption- ing是强化学习中的一个特例,因为它的状态转换是确定性的,而其他应用程序可以以一定的概率拥有不同的下一个状态,例如Atari Games。在这里,我们使用这个属性来重新公式化Eq。(七)、6303t=1RRRRRR它帮助代理增加具有与先前动作相比更大的期望累积回报的动作的概率,并且降低具有与先前动作相比更小的期望累积回报的动作的概率。使用当前策略π模拟环境的最直接方法是获得MonteCarlo多项式策略的轨迹{(st,at,rt)}T并估计梯度θL(θ):1ΣT图1.每个状态-动作值由平均反应估计θL(θ)=不 t=1A<$π(st,at)<$θlogπθ(at|(12)K个卷展序列(K=1)或最大概率卷展的奖励。在我们的方法中的优势函数估计的当前状态动作值减去前n步状态动作值。绿色和黄色的代币是特殊代币BOS和EOS。白色的标记是蒙特卡洛轨迹,蓝色的标记是用于状态-动作值估计的连续卷展标记。图中的n步意味着模型在n步重新制定的优势函数中每n利用等式(1)中Qπ(st,at)和Vπ(st)(5),我们有ΣQπ(st −1,at −1)=rt −1 + γ P(st |st −1,at −1)V π(st)st∈S(八)由于上面在等式(1)中描述的确定性状态转换函数,(3),方程式(8)可以重写为Qπ(st−1,at −1)=rt −1+γVπ(st)(9)在本文中,我们设 置贴现因子γ=1。根据Eq.(4)当t≤T时,我们有rt−1=0的情况。 那么Vπ(st)可以写成Vπ(st)=Qπ(st−1,at −1)(10)当量(10)指出,给定图像字幕的两个性质,即确定性的状态转移函数和奖励函数,状态值等价于它的前一个状态-动作值.我们可以重写Eq。(7)通过引入Eq. (10)进入Eq. (7)如下所示L(θ)= Eπ[Aπ(st,at)<$θlog πθ(at|(11)其中Aπ(st,at)= Qπ(st,at)− Qπ(st−1,at−1)是从等式中的Aπ(st,at)重新公式化的优势函数。(七)、因此,Qπ(st−1,at−1)是Qπ(st,at)的新基线,而不是Vπ(st)。每个状态-动作值使用其先前的状态-动作值作为基线,因此它被称为1-步骤重新制定优势函数。在我们的方法中,代理的目标是最大化Eq。(11)而不是Eq。(七)、当量(11)有一个直观的解释其中A<$π(st,at)=Q<$π(st,at)−Q<$π(st−1,at−1),并且Q<$π(st,at)是Qπ(st,at)的经验估计。n步重构优势函数。 根据Eq.(11)上述模型包括:就值而言,使令牌的年龄比其前一个令牌更好,并抑制较差的令牌。 虽然Eq。(11)是一个贪婪算法,方程。(11)只有在状态-动作值得到精确估计的情况下,才能引导模型向全局最大值方向演化。图像字幕被认为是一个无模型的强化学习任务,它使用卷展或函数近似来估计状态-动作值。然而,这两种方法,其中的前- mer遭受从一个大的方差和后者引入估计偏差,不能预测绝对精确的值,可能会被证明是错误的,以鼓励或抑制在这个严格的贪婪策略的一个to- ken。为此,我们引入n步重构优势函数.在n步改进的优势函数中,我们把n步看作是一个很大的步骤来执行方程.(十一)、大步长中的每个步长共享n-步重新公式化的优势Aπ(st,at)如下:Aπ(st,at)=Qπ(sτ+n,aτ+n)−Qπ(sτ,aτ)(13)其中τ=πt/nπn,π·π表示为向下舍入函数,n的范围从1到T,它统一了两个极值,即1阶和T阶。在n步重组优势中,n步显示出更清晰的演变多项式策略下的蒙特卡罗轨迹的趋势比1步策略下的趋势好,n步策略下的相邻状态值比1步策略下的相邻状态值有更精确的裕度,只是状态-动作值估计采用了与多项式策略下的蒙特卡罗轨迹相同的采样一个序列的策略。如果它们采用相同的策略,则每个时间步的估计值都来自同一个分布,因此较大的n不能扩大相邻状态值的裕度因此,除该特定情况外,随着n的增加,重新表述的优势的平均值和方差的绝对值将分别增加和减少。然而,随着n的增加,每个令牌的优势不可避免地逐渐丧失,直到6304t+1:Tt+1:Tn=T.因此,不同的状态-行动价值估计方法具有不同的分布,具有不同的最适n,最适n在平衡每个标记的重构优势的近似和重构优势的绝对均值的提高一般来说,小n的性能优于n=T的性能。估计状态-动作值函数。 协议-其中,R(a1:t;a1:t+1:T)表示在推断算法下在{st,a1:t }之后的最大概率推出序列的剩余有趣的是,SCST [22]相当于T-步骤使用最大概率滚动重新制定优势函数,即,SCST是我们的变体。其中,状态-动作值估计和蒙特卡罗轨迹使用不同的策略,前者来自最大概率策略,后者来自多项式策略。此外,委员会认为,到Eq。 (13)、 我们只需要估计Q<$π(st,at).最大概率策略总能得到较好的序列在这里,我们提出了两种方法来估计非参数Qπ(st,at):使用受[17,28]启发的KMonteCarlo卷展,并使用推理算法(最大概率卷展)。[22]受启发。这些过程如图所示。1.由于Qπ(st,at)是一个期望的累积收益,KMonte Carlo方法比最大概率滚展法更稳定、更精确地估计Qπ(st,at),并具有附加的计算成本K-1推出。1步重新配制优势功能,该模型推出的每一步,而在n步重构的优势函数中,模型每n步滚动一次。因此,该模型采用自我批评训练[22],使用推出来估计价值函数作为批评者。在K个蒙特卡罗卷展栏中,我们对序列{st,at}的K个连续进行采样,以获得{at+1,at+2,...,aT},这意味着后续令牌从多项式策略中采样。当γ=1时,根据Eq.(4)和等式(5)状态-动作价值函数可以通过K个奖励的平均值来多项策略。虽然,最大概率卷展不能反映真实的状态动作值,较大的n可以具有较大的具有较低方差的重构优势的平均值的绝对值。值得注意的是,前一步的滚动可以在前一个令牌和这个令牌中使用,效果不同。在这里,我们直接优化CIDER度量,即。R是CIDER评分。此外,仅当计算包含令牌EOS的每个序列的最后一个重新制定的优势时,我们使用具有EOS作为令牌的CIDEr。否则,我们使用没有EOS的CIDEr作为令牌。这是因为EOS不是像其他单词那样的句子的正常标记,而是指示句子结束的特殊标记,并且在评估度量分数的标准计算中被4. 实验4.1. 数据集我们在MSCOCO数据集上评估了我们的方法[16]。Qπ(st,at)=1ΣKRKk=1.Σa1:t;ak(十四)为了公平比较,我们使用[11]中广泛使用的拆分。训练集包含113,287张图像,每张图像有5个captions,5K图像用于验证,5K图像用于验证。其中R.a1:t;akΣ表示为第k图像进行离线测试。 我们遵循标准做法预处理所有字幕,包括转换所有字幕从多项式{st,at}后采样的延拓战略在我们的实验中,我们设定K=5。我们的方法和[17,28]之间的一个细微差别是,我们需要从{s0,a0}展开来估计Qπ(s0,a0),而他们没有。当K=1时,状态-动作值估计和蒙特卡罗轨迹都是从多项式策略,因此较大的n不能扩大相邻状态值的裕度,如上所述 随着K的增加,虽然估计状态-动作值的K次推出也是从多项式策略中抽样的,但K的平均奖励可以比K= 1(即K =1)更精确地估计状态-动作值。状态-动作值估计和蒙特卡罗轨迹在K>1)中使用不同的策略,因此较大的n将具有较大的重新制定的优势的平均值的绝对值,具有较低的方差。在max-probability rollout中,我们只对序列{st,at}的一个延续进行采样,以获得{at+1,at+2,.,aT},它们是最大的k个每一步的概率然后我们有Qπ(st,at)=R(a1:t;at+ 1:T)(15)小写,在空白处标记,截断长度超过16个单词的大写字母,并用UNK标记替换不出现至少5次的单词,从而在字典中产生9487个单词为了评估生成的字幕质量,我 们 使 用 标 准 度 量 , 即 BLEU1-2-3-4 、 ROUGE 、METEOR、CIDER、SPICE。我们使用Resnet-101 [9]提取图像特征,无需微调。4.2. 实现细节对于所有模型,LSTM隐藏、图像、单词和注意力的嵌入维度都固定为512我们使用ADAM [12]优化器在XENT损失下预训练所有模型30个epoch,默认设置和固定学习率为4×10−4。在XENT损失下的训练期间,我们的批量大小设置为80。 然后我们运行RL训练,固定学习率5×10- 5。在RL训练中,我们使用在XENT损失下训练的模型作为预训练模型,以减少搜索空间,并将批处理大小设置为三十二在整个训练过程中,我们采用固定的辍学率0的情况。5、防止模型过拟合。63054.3. 实验配置以下是基本型号的配置和我们型号的几个变体。这一系列的实验旨在探索不同的n步,不同的n和K的组合蒙特卡洛推出与最大概率推出的效果此外,我们重新实现了两个最先进的基于强化学习的模型SCST [22]和PG-CIDEr [17],所有超参数都与我们提出的模型相同,以便进行公平比较。(1) XENT是使用交叉熵损失训练的基本模型,然后将其用作所有基于再学习的模型的预训练模型。(2) 对 于 max-probabilty rollout , 我 们 进 行 n-step-maxpro(n=1,2,4),其在整个训练时间内以n-step重组优势进行训练。我们还进行了不同的n步训练的模型 , 例 如 。 1-2 -4-T-step-maxpro , T-4-2-1-step-maxpro,1-2-2-step-maxpro。(3) 对于KMonte Carlo部署,我们执行一步-使用1步重构优势训练的样本使用K蒙特卡罗卷展来估计状态-动作值函数。我们还进行了1-2-2步抽样。(4) SCST [22](即,T-step-maxpro)使用序列级在采样序列中的每个令牌的优点在这里,我们比较了自我关键的每令牌优势和自我关键的序列级优势。(5) PG-CIDEr [17]使用带有参数化估计器的KMonteCarlo展开。在这里,我们比较了自我临界的每令牌优势与参数化的每令牌优势。4.4. 定量分析Karpathy测试拆分的性能。在表1中,我们报告了我们的模型SCST [22]和PG-CIDEr [17]在Karpathy测试拆分上的性能,所有模型都是单一模型。总的来说,我们可以看到我们的模型在所有指标上都具有最佳性能。将 我 们 的 基 本 模 型 1-step-maxpro 和 1-step-sample 与XENT进行比较,我们获得了CIDER评分的显着改善,从102大幅度超过XENT。1%至115。1%,115。分别为1-step-maxpro和1-step-sample的4%,因为我们的基本模型是基于强化学习的模型,可以解决暴露偏差并直接优化评估指标。特别是,1步采样在几乎所有指标方面都优于1步最大亲,并且我们可以得出结论,K蒙特卡罗卷展的平均奖励可以估计比最大概率卷展更精确的然而,一步采样需要以更大的计算成本对K个关于最大概率卷展,我们在表1中比较不同的n步maxpro我们可以看到,中间设置n=2,4比两个极端获得更好的整体得分1和T(SCST [22])。 更好的中间体设置源于这样一个事实,即与n = 1相比,它们增加了重新制定的优势的平均值的绝对值,同时降低了大多数时间步长中的方差,如图所示。3(a)&3(b).由于基于滚动的方法估计粗略的状态-动作值,当n=1时,重新制定的优势很小,方差很大,并且在这种严格的贪婪策略中鼓励或抑制令牌可能是错误的。随着n的增加,困境将得到缓解,但逐渐失去每个令牌的优势,直到n=T的序列级优势。这意味着平衡每个令牌优势的近似值和重新制定的优势的平均值的绝对值的改进的中间n此外,不同的氮或不同氮的组合对平衡这两种冲突的作用也不同,如:n=2的性能优于n=4的性能,接近1-2-2的性能,1-2 -4-T和T-4-2-1均低于1-2-2。我们还展示了在训练过程中Karpathy验证分裂的性能曲线,如图所示。2.在图2(a)2(b)中,我们的模型在整个训练过程中比SCST [22]具有压倒性的优势,这表明自我批评的每令牌优势优于自我批评的序列水平优势。关于K Monte Carlo展开,1-step-sample和1 - 2 - 2-step-sample优于PG-CIDEr [17],这表明表1和图2中的自临界每令牌优势优于参数化每令牌优势。2(c)&2(d)。通过比较n步最大概率滚动和K蒙特卡罗滚动的不同效果,我们发现,在图2中,大n可以增加这两种滚动的重构优势均值的绝对值,3.第三章。然而,在表1中,1-2-2-step-maxpro优于1-step-maxpro,并且1-2-2-step-sample接近1因此,n步(n=2)在最大概率卷展中比在KMonte Carlo卷展中更有效。这是可能的,因为在K蒙特卡罗推出中,平均值的绝对值的变化程度和不同n之间的重新计算的优势的方差相对较小,因此可能无法抵消每令牌优势的损失,而在最大概率推出和大n中,这些变化程度相对较大(例如,n=2)可以更好地平衡这两个冲突,如图所示。3.第三章。官方MSCOCO测试服务器上的性能。 表2显示了我们的 单 个 模 型 和 4 个 集 成 模 型 的 结 果 , 这 些 模 型 在offerMSCOCO评估服务器上使用波束搜索,波束大小设置为3我们的单个模型和集成模型在大多数指标方面都优于所有模型,即使是使用复杂注意力机制的模型[18,27],以及其他基于强化学习的模型,这些模型都引入了参数化估计器[17,21,29]和6306BLEU-1BLEU-2BLEU-3BLEU-4流星ROUGE-L苹果酒香料XENT74.157.442.831.725.854.1102.119.2PG-CIDER [17]77.4460.6645.8534.3226.3555.61113.919.25SCST [22](T-step-maxpro)76.8360.6546.0534.6126.6556.03112.719.99一步取样77.4961.1946.6435.0826.8856.11115.420.051-2 -2步取样77.4161.1046.4634.8826.8856.10114.920.231步最大值77.2460.9046.1334.4626.8756.11115.120.262步最大值77.8261.3046.4534.8026.9556.29114.620.35四步最大值77.6761.0146.3034.7826.9156.05114.520.201-2 -4-T-step-maxpro77.4561.0246.2534.5926.8956.26114.820.38T-4 -2-1-step-maxpro77.3060.7746.0734.4826.7456.02114.020.161-2 -2-step-maxpro77.9361.5446.7534.9626.9256.27115.220.42表1.我们提出的模型与最先进的模型在使用贪婪搜索的Karpathy分裂的测试部分上的性能BLEU-1BLEU-2BLEU-3BLEU-4流星ROUGE-L苹果酒C5C40C5C40C5C40C5C40C5C40C5C40C5C40谷歌NIC [24]71.389.554.280.240.769.430.958.725.434.653.068.294.394.6[26]第二十六话70.588.152.877.938.365.827.753.724.132.251.665.486.586.3MSRCap [7]71.590.754.381.940.771.030.860.124.833.952.668.093.193.7mRNN [19]71.689.054.579.840.468.729.957.524.232.552.166.691.793.5[第27话73.190.056.581.542.470.931.659.925.033.553.568.294.395.8自适应[18]74.892.058.484.544.474.433.663.726.435.955.070.5104.2105.9混合器[21]74.7-57.9-43.1-31.7-25.8-54.5-99.1-PG-SPIDER [17]75.191.659.184.244.573.833.162.425.533.955.169.4104.2107.1AC [29]77.892.961.285.545.974.533.762.526.433.455.469.1110.2112.1SCST-Att2in(Ens.[22]------34.4-26.8-55.9-112.3-1步最大值77.192.560.685.145.874.934.163.526.635.255.670.0111.1114.0一步取样77.392.560.985.446.275.234.564.026.635.255.670.2111.6114.51-2 -2-step-maxpro77.492.960.985.646.075.234.363.726.735.255.870.0111.3113.51-2 -2-step-maxpro(Ens.四、77.693.161.386.146.576.034.864.626.935.456.170.4112.6115.3表2.官方MSCOCO评估服务器上发布的图像字幕模型排行榜序列级优势[22]。4.5. 定性分析图 4 显 示 了 1-step-maxpro 对 Ground Truth 和 使 用XENT损失训练的模型的一些定性结果。每幅图像都有三个标题,来自下面列出的这些来源。一般来说,与使用XENT损失训练的模型相比,1-step-maxpro预测的字幕更好。在图4(a)中,我们可以看到,当图像内容在数据集中很常见并且不太复杂无法描述时,XENT和1-step-maxpro可以预测正确的captions。由于基于强化学习的模型可以避免在生成字幕期间积累错误 , 因 此 图 1 中 的 字 幕 。1 -step-maxpro 生 成 的 图 4(b)-4(e)能描述更重要的对象,并能捕捉到它们之间的关系,具有更显著的图像信息,而XENT生成的图4(b)-4(e)描述性较差或有一定程度的不正确。当数据集中很少出现的各种人类活动或具有相同对象的不同活动难以通过模型,模型容易有不正确的预测。例如图4(f),1-step-maxpro和XENT都预测了错误的字幕,即基地中的球员正在投球,实际上他正在用手套接球。5. 结论我们重新制定的优势函数来估计每令牌的优势,而不使用参数化估计。此外,提出了n步重构优势算法,以提高重构优势均值的绝对值,同时降低方差。我们的方法优于最先进的方法,使用MSCOCO基准的序列水平的优势和参数化估计。确认这项工作得到了部分支持 通过 的 国家重点研发计划(2017YFC0821005)、国家基础研究计划(973计划,2015CB351800)、北京大学高性能计算平台等项目。6307(a) CIDER(b)METEOR(c)CIDER(d)METEOR图2.(a)(b):SCST [22]、1-step-maxpro和1 - 2 - 2-step-maxpro的性能;(c)(d):PG-CIDEr [17]、1步采样和1 - 2 - 2步采样的性能。横轴是每2K训练步骤,纵轴是验证集上的相应度量。(a)最大概率均值(b)最大概率方差(c)K-蒙特卡罗均值(d)K-蒙特卡罗方差图3.最大概率卷展(a)(b)和K蒙特卡罗卷展(c)(d)中那些n步重新制定的优势的均值和方差,其中n={1,2,4,T}。在使用交叉熵损失进行预训练之后,我们对每个状态-动作对进行100次滚动,计算重新制定的优势的均值和方差,并最终按序列时间步长顺序对所有训练数据的均值和方差的所有绝对值进行平均,其中时间步长t ={1,2,., 16}(纵轴)。一个女人和一个孩子站在雪地里的滑雪板一个女人和一个孩子在雪地里滑雪。一个女人和一个孩子站在雪地里的滑雪板(一)很多汽车和摩托车停在停车场里。一盒不同颜色和品种的甜甜圈。一盒甜甜圈和各种各样的甜甜圈。桌上放着一盒甜甜圈(b)第(1)款一架直升飞机在天空中向上飞橱窗里陈列着各种各样的花瓶和枝形吊灯有许多不同类型玻璃的玻璃柜。一个上面有一堆花瓶的陈列柜。(c)第(1)款一个人接住一个棒球,另一个人滑进了垒一辆摩托车停在停车场旁边的停车场一张黑白照片的黑白照片一辆摩托车和一群汽车停在停车场一张直升机在空中飞行的黑白照片一个棒球运动员正在扔棒球在球场上投球的棒球运动员(d)其他事项(e)(f6308)第(1)款图4.我们的模型与Ground Truth和在XENT损失下训练的模型相比的定性结果。黑色(第一行)、红色(第二行)和蓝色(第三行)的字幕是真实字幕,分别由XENT和1-step-maxpro预测。6309引用[1] P. 安德森湾费尔南多M.Johnson和S.古尔德。Spice:语义命题图像字幕评价。在欧洲计算机视觉会议上,第382-398页。施普林格,2016年。[2] P. Anderson,X.他,C.Buehler、D.Teney,M.约翰逊先生,S. Gould和L.张某自下而上和自上而下关注图像字幕和vqa。arXiv预印本arXiv:1707.07998,2017。[3] S. Banerjee和A.拉维Meteor:一种用于mt评估的自动度量,具有与人类判断的改进相关性。在acl机器翻译和/或摘要的内在和外在评估措施研讨会集,第65-72页,2005年[4] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔用递归神经网络进行序列预测的定时采样。神经信息处理系统进展,第1171-1179页,2015年[5] L. Chen,H. Zhang,J. Xiao,L. Nie,J. Shao,W. Liu和T.- S.蔡 Sca-cnn:图像字幕卷积网络中的空间和通道注 意 力 。 2017 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第6298-6306页。IEEE,2017年。[6] K.乔湾,巴西-地Van Merrienboer,C. Gulcehre,D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。计算机科学,2014年。[7] H. Fang,S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说,P. 多尔,J。Gao、X. 他,M。米切尔,J。C. Platt,etal.从标题到视觉概念再到后面。在IEEE计算机视觉和模式识别会议论文集,第1473-1482页[8] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨,C. Rashtchian,J. Hockenmaier和D.福赛斯每张照片都在讲述一个故事:从图像生成句子。欧洲计算机视觉会议,第15-29页。施普林格,2010年。[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 770[10] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation,9(8):1735[11] A. Karpathy和F. F.李用于生成图像描述的深度视觉语义对齐。在计算机视觉和模式识别中,第3128-3137页[12] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[13] G. 库 尔 卡 尔 尼 河 谷 Premraj 河 谷 Ordonez , S.Dhar ,S.Li,Y.崔A. C. Berg和T. L.伯格。Babytalk:理解和生成简单的图像 描 述 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,35(12):2891[14] A. M. Lamb 、 黑 腹 滨 藜 A.G. A. P. 戈 亚 尔 Zhang ,S.Zhang,中国古柏A.C. Courville和Y.本吉奥。迫教授:一种新的递归网络训练算法。神经信息处理系统进展,第4601-4609页,2016年[15] C.- Y.是林书Rouge:一个用于自动评估摘要的软件包。文本摘要分支,2004年。[16] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功