没有合适的资源?快使用搜索试试~ 我知道了~
1通过序列级探索贾晨卡内基梅隆大学语言技术学院marshimarocj@gmail.com秦晋中国人民大学信息qjin@ruc.edu.cn摘要序列级学习目标已被广泛应用于字幕任务中,以实现许多模型的最新性能。在这个目标中,模型通过其生成的帽的质量(序列级)的奖励来训练。在这项工作中,我们显示了目前的序列水平的字幕任务的学习目标从理论上讲,我们证明了当前的目标相当于只优化了模型生成的字幕集的精度方面实验结果表明,该目标训练的模型在召回方面往往得到较低的分数。我们建议在当前目标中添加序列级探索项以提高召回率。它引导模型在训练中探索更合理的标题。以这种方式,所提出的目标考虑了所生成的帽的精确度和召回率。在视频和图像字幕数据集上的实验表明了该方法的有效性。1. 介绍字幕是视觉和语言领域的核心任务之一。输入是图像或视频,输出是描述性的句子。从输出结构上看,描述句实际上是一个序列,比分类检测任务的输出更为复杂,这对字幕任务的学习目标提出了挑战。此外,对于相同的输入存在多个正确的字幕,并且在收集地面实况时不可能枚举所有正确的字幕。上述两个独特的属性,序列结构和多个正确的非真实字幕,使得字幕任务变得困难,值得对其自身的学习/训练目标进行特殊处理。大多数字幕模型[32,24,2]都是基于*通讯作者一男一女坐在桌子上一个男人和一个女人坐在有膝上型计算机的桌子一个男人和一个女人坐在有膝上型计算机的桌子一个男人和一个女人坐在有膝上型计算机的桌子一个男人和一个女人坐在有膝上型计算机的桌子图1:当前序列级学习的局限性说明:从模型[ 24 ]中随机抽取的5个字幕几乎相同,这表明该模型不太可能具有高召回率。编码器-解码器架构,并且我们将仅讨论与该架构相关联的训练目标。最初的训练目标是交叉熵损失[32],它进行单词级监督。具体地说,解码器在每一步都从地面实况字幕中输入单词因此,解码器被训练为专注于分别预测每个单词的正确性。然而,在测试阶段的每个步骤中,解码器被馈送有从前一步骤预测的字而不是地面实况字。这导致训练和测试之间的差距,并限制了测试中的表现。后来,研究人员提出了序列级学习目标来解决这一差距[23,24]。在这个目标中,只有在解码器生成整个句子之后,才用分数来评估字幕的质量,并且该分数用于指导模型训练。也就是说,解码器在每一步都基于在训练和测试阶段的最后一步预测的单词来预测单词。序列级学习目标[23,24]被示出为:1089010891与 交 叉 熵 损 失 相 比 , 在 大 多 数 评 估 指 标 ( 如CIDEr[31],METEOR[14]和SPICE[1])上证明性能显著在本文中,我们显示了目前的序列水平的学习目标的局限性,从理论和实证方面,尽管它的成功,在字幕任务。从理论上证明了当前目标等价于优化预测字幕集的精度侧标准精度是根据元素的集合成员关系定义的。而set capture-bership函数为标题输出0-1,这描述了标题是否属于一个集合。将精度计算中使用的0-1集合隶属度函数放宽为范围[0,1]内的实值输出。宽松的集合隶属函数描述了属于集合的字幕的置信度。通过这种方式,我们证明了当前的序列级学习目标相当于使用松弛集成员函数最大化广义精度,并且忽略了问题的召回方面从实证方面来看,我们表明,由当前序列级学习目标训练的模型倾向于在其预测中覆盖很少的不同标题,并且在召回相关指标上得分较低。如图1所示,我们从模型中随机抽取了5个句子,得到的5个句子几乎相同。为了克服当前序列级学习目标的局限性,我们建议添加序列级探索项以提高召回率。在这个探索术语中,我们最大化相同输入的生成标题(序列级)之间的差异。差异测量的一个示例可以是编辑距离。在字幕任务的上下文中,所提出的探索项对应于最大化生成的字幕的多样性[26]。此外,我们表明,多样性是一个代理测量召回字幕。在训练中,这个术语鼓励模型探索更多不同的标题。这种序列级探索不同于典型的最大熵探索正则化[20],该正则化被置于强化学习中的策略上。在典型的最大熵探索正则化中,它在每一步都最大化策略的不确定性。也就是说,给定到步骤t的生成单词,它最大化下一个单词的不确定性。我们称之为词级探索。总之,这项工作的贡献是:1) 本文从理论和实证两个方面分析了当前字幕任务序列级学习目标的局限性。2) 我们提出了一个新的学习目标的字幕任务,增加了一个序列级的探索长期,以提高召回。3) 从所提出的目标导出的解决方案在精度方面的各种标准评估指标上实现了更好的性能它还提高了性能-管理召回相关指标。2. 相关工作字幕任务的主要神经网络架构基于编码器-解码器框架[3]。早期的作品[32,19,29]使用卷积神经网络作为编码器和带有LSTM单元的递归神经网络[12]作为解码器。在图像字幕任务中,Xu et al.[34]提出了空间注意力,它选择相关的图像区域来生成图像描述。在视频字幕任务中,Yao等人。[35]提出了时间注意,在时间方向上扩展了注意机制。之后,提出了不同的注意机制变体以进一步提高性能,例如对语义概念的注意[37,22,16]和对视觉和语言上下文的自适应注意[27,17,36]。注意力机制的最新变化是上下注意力[2],其使得能够在对象和其他显著图像区域的水平上计算注意力。除了注意机制之外,研究人员还提出了对神经网络结构的其他修改。 Pan等人[21]利用分层编码器来学习更好的视觉表示。在字幕任务中使用的原始目标函数[32,19]是交叉熵损失,其应用单词级监督。具体来说,在训练中,模型在每一步都被输入了groundtruth单词,监督监视模型是否输出了正确的下一个单词。我们称这种监督为字级监督。然而,在测试阶段,模型被输入最后一步自己预测的词,而不是地面实况词。这被称为序列预测任务中的训练-测试间隙。Bengio等人[4]建议的计划抽样,一种课程学习方法,以尽量减少这种差距。后来,Ranzato等人提出了序列级训练。[23]系统地解决这个问题。与词级监督不同,序列级学习仅在整个句子生成之后才对句子进行评价。通过奖励来评估句子与地面实况标题的语义一致性。奖励通常被设置为与人类判断高度相关的评价度量。Rennie等人[24]通过在奖励中引入特殊基线来进一步改进序列级学习,所述特殊基线是从当前模型解码的字幕greenview的得分。序列级训练目标已广泛用于字幕任务中,以实现最先进的性能[2,18,28,6]。3. 当前序列级学习的局限性在本节中,我们将展示当前序列级学习对字幕任务的限制,108921˜˜˜˜˜˜˜˜˜|Y|˜Σ′˜nδ[y∈Y]和p(y∈Y)=y∈Y˜δ[y′∈Y<$ ]. 在δ[y∈Y]中θi理论和实证方面。从理论上讲,我们表明,目前的目标函数的序列级训练是等效的优化广义精度与宽松的集隶属函数的预测字幕。从经验上讲,我们表明,由当前序列级学习训练的模型倾向于为相同的输入生成很少的不同标题,并且在召回相关指标上没有获得高分。3.1. 理论局限性我们首先放松了标准中的集成员函数项p(y∈Y)可以解释为句子y在集合Y中的机会。请注意,δ[y∈Y]是0-1,表示字幕模型是否认为句子y是正确的。相应地,如果y∈/Y,则p(y∈Y)只能取值于0或0,|Y˜| if y ∈ Y . 它不超过[0,1]的整个范围,一种可能性如果我们再次将0-1隶属函数δ[y∈Y]放宽为实值置信度,则p(y∈Y)可以覆盖概率的整个范围[0,1]在放松之后,p(y∈Y)实际上是来自字幕模型的字幕y的概率 因此,通过使用松弛集,用于字幕任务的标准精度测量。 然后我们表明,当前序列级学习的目标-函数,我们将p(y∈Y)=δ[y∈Y<$ ]y′∈Yδ[y′∈Ying实际上是通过重新优化广义精度在字幕任务的上下文中的宽松的集合隶属函数。其中pθ(y|xi),这是来自字幕的概率产品型号:假设所有可能的句子的空间是p(y∈Y<$)= δ[y∈Y<$]→p(y|(3)Y,输入(图像/视频)xi是Y,并且由y′∈Y δ[y′∈Y <$]θi字幕模式为Y。精度定义为:Precision(Y,Y)=|YY |=y∈Yδ[y∈Y]δ[y∈Y<$ ]y∈Yδ[y∈Y<$ ]=δ[y∈Y]δ[y∈Y<$ ]将等式(1)中的δ[y∈Y]和p(y∈Y)替换为(2),(3)分别得到了字幕任务:GP(Y,θ|xi)=xθ(y,Y)pθ(y|(4)y∈Y我们可以使用广义精度GP来重写字幕的原始序列级学习目标y∈Yy′∈Yδ[y′∈Y<$]任务 设(y,Y)为奖励,原目标为最大化期望收益:`p(y<$∈<$Y<$)xΣΣ=y∈Yδ[y∈Y]p(y∈Y<$)(1)J(θ)= i=1 Ep(y|x)n(y,Y)(5)在等式(1)的求和中,它包含两项:δ[y∈Y<$ ]通过比较等式(5)和等式(4)中定义的广义精度度量,我们可以看到它们正好是相同:项,δ函数检查字幕y是否长到地面实况语句集Y。 在p(y ∈ Y)项中,δ函数检查字幕y是否属于预测句子集Y。J(θ)= π(y,Y)pθ(y|xi)i=1y∈YΣ(六)对于δ[y∈Y]项,我们放松了二元值δ函数转换为实值函数(y,Y),输出为=GP(Y,θ|xi)i=1范围[0,1]:δ[y∈Y]→δ(y,Y)(2)这意味着序列级学习目标仅优化由字幕模型预测的字幕的精度侧。然而,由于存在多个正确的(y,Y)表示集合Y中每个个体y的似然性,是一个松弛的集合隶属函数。对于k(y,Y)的一个自然选择是使用由其最大值归一化的评估度量。由于字幕任务中的所有当前评估指标都是有界的,因此可以对其进行适当的归一化。为了简单起见,我们假设我们正在处理已经被归一化的评估度量f(y,Y)对于相同的输入xi,这意味着在训练字幕模型时还应该考虑召回侧。相反,原来的目标完全忽略了问题的召回方面。3.2. 经验结果的局限性作为对上述理论分析的补充,我们还测量了模型的nn10893精确度和召回率10894˜˜˜˜˜˜˜˜表1:单词级交叉熵损失(XE)和序列级学习(SLL)在准确率和召回率方面的比较方法精确召回由当前序列级学习目标训练。精确度方面可以通过METEOR[14]和SPICE[1]等字幕任务中的标准评估指标来测量。由于不可能收集输入xi的所有正确答案,因此直接计算查全率是不可行的。相反,我们使用集合水平多样性指标[26]Div-1,Div-2和mBleu作为召回的代理测量集合级多样性度量是在对应于相同输入X1的字幕集合Y1上定义的。• Div-1Y中唯一一元文法的数量与Y中字的数量之比。越高越危险。• Div-2 Y中唯一二元组的数量与Y中单词数量的比率。越高越危险。• mBleuBleu分数是在Y中的每个字幕与其余字幕之间计算的。这些Bleu评分的平均值为mBleu评分。更低的是更多样化。为了报告集合水平多样性度量,我们从模型中为每个输入抽取5个标题。相应地,当计算精度度量CIDEr时,我们对5个采样字幕的CIDEr分数进行下面是为什么上述多样性指标与召回有关的原因标准召回定义如下:召回(Y,Y)= |Y ∩ Y|YXE:几个男人站在海里拿着冲浪板一个冲浪者用他的冲浪板穿过海洋几个人在水中行走海滩上的两个人在水里拿着冲浪板一个冲浪者拿着他的冲浪板,而另一个冲浪者步行到水里SLL:一对夫妇站在海洋与冲浪板一对夫妇站在海洋与冲浪板一对夫妇站在海洋与冲浪板一对夫妇站在海洋与冲浪板一对夫妇站在海洋与冲浪板图2:从给定相同输入的模型中采样的5个字幕的图示:XE是交叉熵目标训练的模型,SLL是序列级学习目标训练的模型。(|)∝|YY |∝|Y~|P_r_c_i_n(Y,Y_n)(七)第二节当精度固定时,我们看到召回率与预测集Y的大小成比例。为了在相同的精度水平下比较召回率,我们可以比较来自模型的预测标题集的大小。以这种方式,对集合Y的大小的任何测量都可以被认为是召回的代理测量。如果允许我们从模型中无限次采样,那么直接通过字幕的数量来测量Y的大小是没有意义的。测量Y的大小的更有意义的方法是:给定固定的采样次数,计算采样字幕之间的差异。而这正是集合级多样性度量中定义的数量。如表1所示,与单词级交叉熵(XE)损失相比,序列级学习(SLL)导致语义相干空间图3:字幕分布p(y)的峰宽图示|x)基于序列级学习目标的经验结果在查全率方面的性能下降很大,尽管它显著提高了查准率方面的指标图2所示的例子可以进一步说明这一点。在该示例中,5个随机采样的字幕对于由序列级学习(SLL)目标训练的模型几乎相同,而这对于由单词级交叉熵(XE)目标训练的模型不是问题。我们用分布的峰宽解释了这一现象作为太窄答:正确,但不是可能被抽样帽CIDEr(↑)Div1(↑)Div2(↑)mBleu4(↓)XE74.20的情况。570的情况。780的情况。0610895θi我 θ我如图3所示,假设我们将字幕投影到一维空间,并且包含输入xi的语义一致字幕的线段的宽度是σ。基于本节中观察到的经验结果,由SLL目标训练的模型的峰宽应远小于σ,使得输入xi的大多数采样句子几乎相同。然而,理想模型的峰宽应与σ相似。在这种情况下,来自模型的样本很可能覆盖语义一致的空间,并因此在召回方面获得高分。4. 溶液我们首先提出了一个新的目标函数,以解决上一节中所示的当前序列级学习目标的局限性。然后,我们推导出这个新的目标函数的优化程序。最后,我们描述了网络架构和培训的细节,在实施。4.1. 目标函数正如我们已经证明的,多样性是召回率的代理度量,我们在原始的序列级学习目标函数中引入了一个额外的多样性项,以覆盖问题的召回率方面:多样性项不同于加固中使用的标准最大熵正则化学习 [20], 这 是 放 对 的 政策的H(pθ(wj|<并且相对于过去的命令wj最大化下一个步骤wj<的 不 确 定 性。D.危险性这里介绍的术语直接放在标题上,标题是强化学习中的轨迹。此外,我们使用距离d而不是字幕的熵,以避免涉及对所有字幕的概率求和的分母Z的棘手估计。使用距离d还为我们提供了更大的灵活性,可以插入任何句子结构差异的测量。因此,与标准的最大熵正则化相比,多样性项在鼓励模型探索更多不同的字幕方面具有更直接的效果,并且对于更多的句法差异测量更灵活。将精度项和多样性项放在一起,所提出的目标函数的含义是鼓励模型探索更多的在语法上不同但在语义上与输入xi的地面实况字幕yi一致的字幕。引入超参数α来平衡精度和多样性。4.2. 优化我们首先表明,目标函数中的精度项可以直接使用REINFORCE al求解Max:α(y,y)p(y|x)+租m [30]。 然后,我们表明,多样性项可以解决的一些变化的技术中使用的y∈Y`pre-e-c-i(1− α)n(y,y′)pθ(y|xi)pθ(y′|xi)y∈Yy′ ∈Y(八)REINFORCE算法最后,我们推导出代理损失和一个完整的算法,我们的目标函数。在最优化问题中,我们总是求目标函数的最小值.因此,我们采取否定的客观diversityx函数,并将其分解为两部分:L(θ)=αL1(θ)+(1−α)L2(θ)在该目标函数中,xi是输入图像或视频,yiL(θ)=−θ(y,y)p(y|x)是地面实况字幕,y和y′是可以从字幕中采样的字幕空间Y1y∈Y我θi(九)模型pθ(y|xi)是字幕模型给出的条件概率。• 精度项中的k(y,yi)测量说明y和地面实况说明yi之间的语义一致性。当只有一个基础真值时,它等价于(y,Y)L2(θ)= − εd(y,y′)pθ(y|xi)pθ(y′|xi)y∈Yy′ ∈Y1. L1(θ)的解: 我们可以将L1重写为期望值:L(θ)=−θ(y,y)p(y|x)输入xi的标题yi。 它鼓励模型将更大概率质量pθ(y|(一)有下列情形之一的;1y∈Y我θi(十)与地面实况完全一致示例选择可以是METEOR、CIDER、SPICE,它们被证明与人类判断具有良好的相关性。• 差异项中的d(y,y′)度量句法差异= −Ep(y|x)[x(y,yi)]我们可以使用REINFORCE [30]来计算它的梯度:<$L1(θ)= −Ep(y|x)[(y,yi)logpθ(y|(xi)]θi两个字幕之间。 它鼓励模型探索(十一)更多不同的方式来表达相同的语义。d(y,y′)的示例选择可以是编辑距离或BLEU 3/4,其测量句子结构的差异θ10896˜−|xi)第二行是蒙特卡洛抽样,只有一个样本标题y来自模型。2. L2(θ)的解: 我们也可以将L2改写为expecta-10897˜˜˜˜˜Σ˜θΣ我θ我Sk=1 d(yj,yk),对于每个样本yj。这是山姆的总和S2k=1j=1JKJ我θJ我SJKθJθiθi我˜˜ΣΣ问题:L(θ)= − εd(y,y′)p(y|x)p(y′|x)算法1序列级探索的训练算法2y∈Yy′ ∈Yθ iθi(十二)1:对于[0,M)中的epoch,2:通过交叉熵损失进行=−Ep(y|x)Ep(y′|x)d(y,y′)第三章: 端我们看到有两种期望。我们仍然可以将REINFORCE分别应用于外部期望和内部期望,并得到:<$L2(θ)= −Ep (y′|x)Ep (y|x)[d(y,y′)]log pθ(y|xi)- Ep(y|x)Ep(y′|x)d(y,y′)log pθ(y′|xi)4:对于[M,N)中的历元,5:对于每个实例xido6:样本s标题y1,. - 是的- 是的,ys7:f或每个样本yjdo8:如等式(16)中计算Lj(θ)9:结束10:按照公式(15)计算替代损失L(θ)θiθi(十三)11:通过随机梯度下降更新参数θ用蒙特卡罗抽样近似它,得到以下解:我们对s个标题y1,. - 是的- 是的 ,ys和计算的成对距离。F或每个样本yj,其对应的梯度为:12:结束13:结束视频),并将在实验部分中指定。解码器是具有隐藏维度的LSTM细胞的RNN模型设置为512。 我们在<$L(θ)=−2<$。d(y|x)将维数减少到512的x-ray(14) 编码器。在步骤0中,隐藏-2s2j=1JKk=1θJIDEN状态由该全连接层的输出初始化。3. 完整的解决方案:在标准的政策梯度重新-非线性学习,在学习之前的乘子logpθ(yj|xi)代表着奖赏 在L2的梯度中,乘数在等式(15)中,我们使用CIDER度量来计算d(y,y′),并且我们使用BLEU 3 + BLEU 4来计算d(y,y′)。我们将样本数s设置为5。为了减少差异-Pleyj 到输入xi的其它样本的距离。这与我们对L2的表述完全一致,L2是多样性术语。该乘数可以进一步被认为是每个样本分别。估计时,在Monte Carlo抽样步骤中引入在优化中的梯度,我们遵循使用基线的标准实践对于精度项的梯度,我们将其基线设置为来自模型后续工作[10]的Greatest解码标题的CIDEr得分对于密度项的梯度,我们将其设置为1SSd(y= 0,y=0),最后,我们将L(θ)的所有梯度都包含在整个随机计算图的以下代理损失中[25]:SL(θ)=1 Lj(θ)(15)S j=1Lj(θ)=−α<$(y<$,y)logp(y<$|(16)S采样之间所有成对距离的平均值字幕在优化过程中使用了ADAM优化器。5. 实验在本节中,我们首先介绍实验装置。然后,我们报告了我们提出的目标训练的模型在标准评估指标上的性能。图像字幕任务和视频字幕-(1−α)2d(y,y)logp(y|x)按照字幕任务序列级学习的标准程序,我们首先通过单词级交叉熵损失训练模型,然后切换到这个替代损失进行训练。算法1总结了整个训练过程。4.3. 网络体系结构和培训详细信息我们提出的目标和解决方案与遵循编码器-解码器架构的任何字幕模型兼容[32]。编码器取决于输入(图像或是k=110898任务分别。最后,我们讨论了精确度和召回率都是如此。5.1. 实验装置对于图像标题任务,我们使用MSCOCO数据集[8],这是最大的图像标题数据集之一,包含从Flickr抓取的超过120K的图像每个图像都有5个参考标题。我们使用公共分裂[13]进行实验。对于视频字幕任务,我们使用TGIF数据集[15],这是最大的视频字幕数据集之一,包含从Tumblr收集的100K模拟GIF和120K字幕。我们使用官方分裂[15]进行实验。10899对于图像,我们使用Resnet 152 [11]在Ima-geNet [9]上预训练,并应用空间均值池来获得2048-dim特征向量。对于视频,我们也使用Resnet152 [11]表2:图像标题的性能改进:* 表示自底向上的区域特征与注意力架构一起使用与其他作品进行公平比较,而不是使用更强的CNN如I3D [5]。我们应用时空均值池得到一个2048维的特征向量。为了简单起见,我们我们调整方程(8)中的超参数α,25,。5和。75,并将其设置为。75.我们找到了。75是一个相当稳定的值,可以在不同的数据集上达到最佳性能。5.2. 图像字幕我们首先通过将其与使用原始序列级学习损失(SLL)和最大熵正则化(SLL-ME)的序列级学习训练我们的模型进行比较来研究我们提出的目标的贡献[20]。SLL-ME中最大熵正则化的权重在10−1、10−2、10−3之间调整,并设置为10- 2为最佳性能。 无论是网络架构师-表3:视频字幕的性能改进SLL、SLL-ME中的真实和输入功能相同和SLL-SLE(我们的)。我们在测试阶段使用波束搜索,宽度为5。 如表2中的中间块所示,我们可以看到我们的模型SLL-SLE比SLL有所改进和SLL-ME在所有指标上都有显著差异 改善-SLL-SLE在所有指标上优于SLL-ME(Meteor:SLL十七岁8四十五9十五岁90的情况。2、CIDEr:1. 8、SPICE:0。(2)远大于IM-SLL-ME十八岁2四十八1十六岁0在所有指标上证明SLL-ME优于SLL(Meteor:SLL-SLE(我们的)十八岁850块8十六岁60的情况。0,CIDEr:0。6、SPICE:0。1)。这表明,典型的-所谓的最大熵正则化无助于解决在封顶任务中的原始序列级目标的问题。我们提出的序列级探索是有效的指导模型,以探索更合理的字幕在训练中,因此SLL-SLE产生更准确的字幕测试。在表2的最后一块中,我们还包括SLL、SLL-ME、SLL-SLE对象在与注意力架构组合时的结果。再次观察到类似的趋势:SLL-SLE比SLL和SLL-ME显著改善我 们 还 将 我 们 提 出 的 模 型 与 各 种 最 先 进 的(SOTA)模型进行了比较,这些模型具有不同的网络架构,通过单词级交叉熵损失或序列级学习目标进行训练。对于字级XE丢失,我们比较NIC模型[32]、自适应[17]、自顶向下注意[2]。对于序列级学习目标(SLL),我们与自我批判学习(SCST:FC SCST:Att2in)进行了比较。[24]和自上而下的注意力[2]。如表2所示,我们可以看到,所提出的目标在所有SOTA模型的所有指标上都带来了更好的性能。5.3. 视频字幕类似地,我们首先将我们提出的目标与原始的序列级学习损失(SLL)和序列级学习损失进行比较。最 大 熵 正 则 化 ( Maximum Entropy Regularization ,SLL-ME)当我们为我们的方法(SLL-SLE)固定跨数据集的超参数时,我们也固定了SLL- ME中的超参数(最大熵正则化之前的权重)并将其设置为10−2,与MSCOCO数据集相同。在测试阶段我们使用宽度为5的波束搜索。如表3的最后三行所示,我们可以看到,我们的模型SLL-SLE在所有指标上再次显著优于SLL和SLL-ME。实际上,SLL-ME在所有指标上的表现都比SLL差,这表明最大熵正则化在数据集上并不稳定,甚至可能会恶化某些字幕任务的性能。我们的模型,SLL-SLE提高了SLL0。流星6,2。CIDER为7,0。6在SPICE上,具有与MSCOCO上相同的超参数设置。这表明所提出的序列级探索项在数据集之间是稳定和鲁棒的,并且通常有助于模型性能。我们还比较了我们提出的模型,各种国家的最先进的(SOTA)模型的视频字幕任务。TGIF数据集有一个官方基线(Official)[15],由单词级交叉熵损失训练。Show-adapt [7]在训练中利用了TGIF和其他数据集通过将我们的基线模型SLL的实现与这些方法流星苹果酒香料NIC [32]23岁7八十五5NA自适应[17]二十六岁6一百零八5NA[24]第二十四话二十五5一百零六3NA[24]第二十四话二十六岁3111. 4NA自顶向下-XE [2]二十六岁1一百零五419号。2自上而下-SLL [2]二十六岁5111. 120块2SLL二十六岁8一百一十五020块0方法流星苹果酒香料官方[15]十六岁731岁6NA显示适应[7]十六岁229岁8NA10900表4:XE、SLL、SLL-ME、我们的SLL-SLE训练的模型在精度和多样性方面的比较(MSCOCO数据集):(rs)表示随机采样解码,(bs)表示波束搜索解码方法查全率模型,我们看到它比它们表现得更好,这表明SLL已经是一个非常强大的基线。这进一步表明,相对于SLL的改善并非微不足道。5.4. 模型行为对查准率和查全率的影响我们研究了模型在精度和重新调用方面的行为,以实 现 以 下 目 标 : 交 叉 熵 ( XE ) , 序 列 级 学 习(SLL),最大熵序列级学习(SLL-ME),我们的SLL-SLE。在精度方面,我们使用CIDER度量,因为它被证明与人类判断具有良好的相关性在召回方面,我们使用多样性指标Div1,Div2,mBleu[26]作为代理测量。为了计算分集度量,我们采用两种解码策略[26]。第一种解码策略是从模型中为每个图像(rs)采样5个字幕。第二种解码策略是从每个图像(bs)的模型中搜索前5个帽。报告的CIDEr是5个采样帽的CIDEr评分的平均值如表4所示,与SLL和SLL-ME相比,所提出的目标SLL-SLE不仅在精度侧表现更好,而且在随机采样和波束搜索解码策略下在重调用侧表现更好。与XE相比,SLL-SLE在波束搜索解码策略下在查准率和查全率方面都有提高。本文还列举了VAE和GAN图4表明,所提出的目标可以生成多样化和高质量的字幕与采样策略。XE模型生成的字幕质量不好。采用采样策略的SLL模型的多样性有限,并且在采用采样策略的情况下仍然能够生成几乎相同的字幕XE:一个人站在浴室里拿着一本书一个男人站在一个开放的厕所旁边一个男人站在厕所前一个男人站在厕所前一个男人坐在椅子上,把脚翘起来。一个站在有马桶的浴室里的人一个站在有马桶的浴室里的人一个站在有马桶的浴室里的人一个站在有马桶的浴室里的人一个站在有马桶的浴室里的人SLL-SLE:一个在厕所里游泳的人一个男人坐在厕所旁边看书一个男人站在马桶上看书一个男人坐在马桶里看书一个男人在卫生纸旁边看报纸图4:通过解码6. 结论本文从理论和实证两方面分析了当前序列级学习目标在字幕任务中的局限性从理论上讲,这个目标相当于最大化预测字幕集的广义精度,它忽略了重叫侧。从实证的角度来看,该目标训练的模型在再呼叫的代理测量上得分较低. 为了克服上述限制,我们建议添加一个序列级的探索项,以最大限度地提高多样性,召回的代理测量,对生成的字幕。它鼓励模型在训练中探索更多语法不同但语义一致的字幕。在图像和视频字幕任务上的大量实验表明,所提出的目标导致了一个双赢的解决方案,始终表现出更好的准确率和召回率。7. 确认在此,我们对赵世万先生所作的富有见地的讨论和宝贵的建议表示衷心的感谢. This work was partiallysupported by National Natu- ral Science Foundation ofChina (No. 61772535) and Bei- jing Natural ScienceFoundation (No. 4192028)。苹果酒Div1(↑)Div2(↑)mBleu4(↓)XE(rs)74岁20的情况。570的情况。780的情况。06SLL(rs)一百一十四60的情况。250的情况。320的情况。81SLL-ME(rs)一百一十五10的情况。250的情况。330的情况。80SLL-SLE(rs)一百一十五90的情况。290的情况。400的情况。6810901引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice : 语 义 命 题 图 像 帽 评 估 。 在European Conference on Computer Vi-sion,第382-398页中。施普林格,2016年。二、四[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第6077-6086页,2018年。一、二、七[3] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv:1409.0473,2014。2[4] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。在神经信息处理系统的进展28:2015年神经信息处理系统年会,2015年12月7日至12日,加拿大魁北克省蒙特利尔,第1171-1179页,2015年。2[5] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,美国夏威夷檀香山,2017年7月21日至26日,第4724-4733页,2017年。7[6] 陈世哲、陈嘉、秦晋、亚历山大·豪普特曼。多模态潜在主题引导下的视频字幕。第25届ACM国际多媒体会议论文集,第1838-1846页,2017年2[7] Tseng-HungChen , Yuan-HongLiao , Ching-YaoChuang,Wan Ting Hsu,Jianlong Fu,and Min Sun.展示、改编和讲述:跨域图像捕获器的对抗训练。在IEEE International Conference on Computer Vision ,ICCV 2017,意大利威尼斯,2017年10月22日至29日,第521-530页,2017年。7[8] 陈新蕾,方浩,林宗毅,罗摩克里希纳·韦丹坦,索拉布·古普塔,彼得·多尔,和C.劳伦斯· 齐特尼克。Microsoft COCO 字 幕 : 数 据 收 集 和 评 估 服 务 器 。CoRR,abs/1504.00325,2015。6[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机协会计算机视觉和模式识别会议(CVPR 2009),2009年6月20- 25日,美国佛罗里达州迈阿密,第248-255页,2009年。7[10] Zhe Gan,Chuang Gan,Xiaodong He,Yunchen Pu,Kenneth Tran,Jianfeng Gao,Lawrence Carin,and LiDeng.视觉字幕的语义合成网络arXiv预印本arXiv:1611.08002,2016年。6[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。7[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。2[13] Andrej Karpathy和Fei-Fei Li。用于生成图像描述的深度视 觉 语 义 在 IEEE Conference on Computer Vision andPattern Recognition,CVPR 2015,Boston,MA,USA,2015年6月7-12日,第31286[14] 迈克尔·丹考斯基·阿隆·拉维。流星通用:针对任何目标语言的特定语言翻译评估。ACL,第376页,2014年。二、四[15] Yuncheng Li , Yale Song , Liangliang Cao , JoelTehrult,Larry Goldberg,Alejandro Jaimes,and JieboLuo. Tgif:一个新的数据集和动态gif描述基准。在CVPR中,第4641-4650页,2016年。六、七[16] 刘希慧,李洪生,邵晶,陈大鹏,王晓刚.显示,告诉和歧视:图像字幕的自我检索与部分标记的数据。在欧洲计算机视觉会议(ECCV)的会议记录中,第338-354页,2018年。2[17] Jiasen Lu ,Caiming Xiong,Devi Parikh,and RichardSocher. 知 道 什 么 时 候 看 : 自 适 应 注 意 力 通 过 视 觉sentinel图像字幕。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第6卷,2017年。二、七[18] 作者:Luotian Luo,Brian L. Price,Scott Cohen,andGregory Shakhnarovich.描述性字幕训练的可辨别性目标。在2018年IEEE计算机视觉与模式识别会议,CVPR2018,盐湖城,UT,USA,2018年6月18日至22日,第6964-6974页,2018年。2[19] 毛俊华,徐伟,杨毅,王江,艾伦L。尤尔。使用多模态 递 归 神 经 网 络 ( m-rnn ) 的 深 度 字 幕 。 CoRR ,abs/1412.6632,2014年。2[20] VolodymyrMnih,Adria `Puigdome`nechBadia,MehdiMirza , Alex Graves , Timothy P.Lillicrap , TimHarley,David Silver,and Koray Kavukcuoglu.深度强化学 习 的 异 步 方 法 。 在 Proceedings of the 33 ndInternational Conference on Machine Learning , ICML2016,New York City,NY,USA,2016年6月19-24日,第1928-1937页,2016年。二、五、七[21] Pingbo Pan , Zhongwen Xu, Yi Yang , Fei Wu , andYueting Zhuang. 用于视频表示的分层递归神经编码器在CVPR,第1029-1038页,2016年。2[22] Yingwei Pan,Ting Yao,Houqiang Li,and Tao Mei.具有转移语义属性的视频字幕。在CVPR,2017年。2[23] Marc'Aurelio Ranzato , Sumit Chopra , Michael Auli,and Wojciech Zaremba. 递 归 神 经 网 络 序 列 级 训 练 。CoRR,abs/1511.06732,2015。一、二[24] Steven J Rennie、Etienne Marcheret、Youssef Mroueh、Jarret Ross和Vaibhava Go
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功