没有合适的资源?快使用搜索试试~ 我知道了~
向前走,告诉:一种渐进式视频描述生成器熊一磊戴波林大华香港中文大学-商汤科技联合实验室{xy014,db014,dhlin}@ ie.cuhk.edu.hk抽象。我们提出了一个有效的框架,可以生成一个连贯的段落来描述一个给定的视频。以往对视频字幕的研究主要集中在视频片段上。它们通常将整个视频视为一个整体,并以单个嵌入为条件生成字幕。相反,我们认为视频具有丰富的时间结构,并旨在生成段落描述,可以保持故事流,同时连贯和简洁。为了实现这一目标,我们提出了一种新的方法,它产生一个描述性的段落,通过组装时间本地化的描述。 给定一个视频,它选择一系列独特的剪辑,并以连贯的方式在其上生成句子。特别是,剪辑的选择和句子的产生是由循环网络联合并逐步驱动的在这里,循环网络通过具有句子级和段落级奖励的自我批评序列训练来学习。 在ActivityNetCaptions数据集上,我们的方法证明了为视频生成高质量段落描述的能力。与其他方法相比,我们的方法产生的描述往往更相关,更一致,更简洁。关键词:视频字幕·向前移动并讲述·循环网络·强化学习·重复评估1介绍文本描述是表征图像和视频的重要方式。与类标签或语义标签相比,描述通常更具信息性和独特性。近年来,图像字幕(一种为给定图像生成简短描述的任务)成为一个活跃的研究课题[1,8,25,30],并且由于递归神经网络的广泛采用,已经取得了显着的进展。然而,如何扩展字幕技术来描述视频仍然是一个悬而未决的问题。在过去的几年中,已经提出了各种方法来生成视频描述。早期的努力[28]只是将图像字幕中的编码器-解码器范例扩展到视频。这种方法遵循类似的流水线,即将整个视频嵌入到特征向量中,将其馈送到解码器。2熊一磊,戴波,林大华一大群人在站在竞技场上一个人投掷标枪摄影师拍照几个男人跑到哪里标枪落地掷标枪的人庆祝相关连贯简洁Fig. 1.如图所示,我们的框架定位视频中的重要事件,并选择一系列连贯和独立的事件,在此基础上为视频生成网络以获得描述性句子。然而,对于具有丰富时间结构的视频,单个句子通常不足以捕捉潜在事件的所有重要最近,出现了一种新的努力[10,20],尝试使用多个句子来覆盖视频。尽管这样的方法可以提供视频的更完整的表征,但是它们仍然受到各种问题的影响,例如,句子之间缺乏连贯性和高冗余。这些问题在很大程度上归因于两个原因:(1)未能将给定视频的时间结构与生成的描述的叙事结构对齐;(2)忽略句子间的依存关系。在这项工作中,我们的目标是开发一个新的框架,用于生成具有丰富的时间结构的视频段落目标是生成相关、连贯和简洁的描述。 根据以上讨论,实现这一目标的关键在于两个方面:(1)将给定视频中的时间结构与语言生成过程相关联;(2)以有效的方式促进句子之间的连贯。具体来说,我们的方法是基于两个关键的观察。首先,自然视频通常由多个短且有意义的片段组成,其反映过程中的某个步骤或故事的情节。我们将这样的视频片段称为事件。虽然一句话可能不足以描述在长视频中,其通常足以表征单个事件。第二,当人们用一个段落描述视频时,连续的句子之间存在很强的逻辑和语言关系。在一个句子中描述什么在很大程度上取决于所说的内容。受这些观察的启发,我们设计了一个两阶段的框架。该框架首先通过视频动作分解从视频中定位候选事件向前走,告诉:一种渐进式视频描述生成器3保护在这些候选项之上,框架然后以渐进的方式生成连贯的段落。在每一步中,它选择下一个要描述的事件,并为之生成一个句子,两者都以之前所说的内容为条件。渐进生成过程由LSTM网络的变体驱动,该变体考虑了时间和语言结构。为了有效地学习该网络,我们采用了自我批判序列训练方法,并在两个不同的级别,即句子级别和段落级别引入奖励。在ActivityNet Captions [10]上,所提出的框架在多个指标下表现优于以前的框架。从质量上讲,我们的方法产生的描述通常更相关,更连贯,更简洁。这项工作的关键贡献在于为给定的视频生成描述的新框架。这一框架在三个关键方面有别于以前的框架:(1)它通过递归网络将给定视频的时间结构与生成的描述的叙事结构对齐。(2)它通过明确地根据时间结构和已经说过的内容来决定接下来要说什么,从而保持段落中句子之间的连贯性。(3)它是通过强化学习来学习的,在句子和段落级别的奖励指导下。2相关工作图像字幕的早期尝试依赖于视觉概念检测,然后是模板填充[11]或最近邻检索[6]。最近,Vinyals等人 [24]提出了编码器-解码器范式,该范式使用CNN提取图像特征,然后使用RNN作为解码器来基于特征生成字幕。该模型优于经典的方法,并成为国家的最先进的字幕模型的骨干根据编码器-解码器范例提出了许多变体[2,3,27]。例如,Xu等人 [27]通过引入注意力机制来指导解码过程来对其进行改进虽然许多图像字幕方法可以无缝地转换为视频字幕方法,但视频包含更丰富的语义内容,这些语义内容在时间维度上传播,直接应用图像字幕方法通常会导致时间信息的丢失。视频密集字幕视频密集字幕是与视频字幕密切相关的主题,其中它密集地生成多个句子,覆盖输入视频的不同时间跨度具体而言,Krishna等人[10]提出了一种方法,该方法从输入视频中获得一系列建议,并使用字幕模型为每个建议生成一个句子,其中考虑了建议之间的时间关系。另一方面,Shen等人[20]提出了一种弱监督方法,该方法使用多实例多标签学习来从输入视频中检测单词,然后使用这些单词来识别。4熊一磊,戴波,林大华选择空间区域以形成区域序列。最后,它采用了一个序列到序列子模块转换区域序列到字幕。虽然密切相关,但视频密集字幕与视频字幕不同。特别地,用于视频密集字幕的模型可以生成多个字幕,每个字幕覆盖输入视频的小时段,其中时段可以彼此重叠,导致对应字幕中的大量冗余。相反,用于视频字幕的模型应该生成由用于整个输入视频的几个连贯句子组成的单个视频字幕我们的方法针对视频字幕的主题。根据每个输入视频生成的是单句还是段落,相关作品可以大致分为两类。在第一类中,生成单个句子。在这一类别的所有作品中,Rohrbach等人[18]首先检测到一组视觉概念,包括动词,对象和地点,然后应用LSTM网络将这些概念融合到标题中。 Yu等人[30]和Pan等人[13]遵循类似的方式,但分别使用语义注意力模型和转移单元来选择检测到的概念并生成字幕。Hori等人[8]和Venugopalan等人[23]使用来自多个来源的特征,包括外观和运动,而不是依赖于视觉概念,以提高生成的字幕的质量。还存在致力于改进解码器侧的努力。Wang等人[25]在解码过程中在LSTM网络之前添加了一个内存Baraldi等人[1]应用边界检测模块来分层地共享特征。虽然它们能够产生很好的字幕,但单个句子很难捕捉视频中的所有语义信息,因为一个视频通常包含几个不同的事件。第二类是生成一个段落来描述视频。我们的方法属于这一类。在这一类别中,Yu等人 [29]应用了分层递归神经网络,其中使用句子生成器来生成根据特定主题生成单个句子,并且段落生成器用于捕获句子间统计数据并向句子生成器提供一系列的主题。与我们的方法最相似的工作是在[19]中提出的。该方法首先从输入视频中选择一个片段子集,然后使用解码器从这些片段中生成句子,形成整个视频的段落摘要。我们的方法从两个方面不同于现有的工作。(1)当生成段落的每个句子时,[29]中的方法需要从整个视频的特征,这是昂贵的非常长的视频,而我们的方法只需要在选定的建议的功能。(2)在[19]中,预先根据帧质量选择剪辑作为预处理步骤,而不考虑叙述的连贯性。这种方式会导致产生的段落中的冗余。相反,我们的方法选择关键事件,随着字幕的生成,在一个渐进的方式。下一个关键事件的选择取决于前面的字幕中已经说过的内容。还有,该过程考虑所选事件之间的时间和语义关系,以确保所得到的段落的连贯性向前走,告诉:一种渐进式视频描述生成器5语义事件视觉特征范围特征LSTMLSTMLSTMLSTM保持忽略保持保持字幕模块字幕特征字幕模块字幕特征字幕模块人们看到一名体操运动员站在一根横梁开始表演体操有人看到一个男人对着镜头说话然后她躺在一块木板我们看到一个结束画面图二、我们的框架的概述,首先从整个视频本地化的重要事件然后,它生成一个连贯和简洁的描述段落,对这些本地化的事件。具体来说,作为选择模块的LSTM网络将根据事件的外观、时间位置以及它们的语义关系,挑选出一系列连贯且语义独立的基于这个选定的序列,另一个LSTM网络,作为一个字幕模块,将为序列中的每个事件生成一个句子,以先前生成的句子为条件,然后将这些句子顺序连接作为我们框架的输出3生成框架我们的任务是开发一个框架,可以生成连贯的段落来描述给定的视频。具体来说,一个好的描述应该具备三个特性:(1)相关性:叙述与事件的时间顺序保持一致。(2)连贯性:句子被组织成一个逻辑和流畅的叙述流。(3)简洁:每句话都传达了一个独特的信息,没有重复说过的话。3.1概述自然视频通常包括沿着时间范围稀疏地定位的多个事件。这里,事件是指包含需要被传达的独特语义的那些视频片段。将整个视频作为用于生成描述的输入是低效的,并且当面对许多噪声剪辑时可能模糊关键因此,我们提出了如图2所示的框架,该框架在两个阶段生成描述性段落,即事件本地化和段落生成。 在事件定位中,我们以高召回率定位视频中的候选事件。在段落生成中,我们首先过滤掉冗余或琐碎的候选项,从而得到一系列重要且独特的事件。然后我们使用这个序列来生成一个描述性的6熊一磊,戴波,林大华pp在考虑到句子之间的连贯性的情况下,以渐进的方式对整个视频的段落进行分段。3.2事件定位为了本地化事件候选,我们采用了[31]中提出的剪辑建议生成方案,使用已发布的代码。实验结果表明,该方法能有效地从未经裁剪的视频中定位出重要的视频片段,且定位精度较高.具体来说,在[31]之后,我们计算逐帧重要性分数,然后通过分水岭程序将帧分组为剪辑。此方法输出作为事件候选的剪辑的集合。这些剪辑具有不同的持续时间并且可以彼此重叠。由于我们的重点是段落生成,我们建议读者参考[31]以了解事件本地化的更多细节注意,并非在此阶段中导出的所有候选者都值得描述。第段落生成将选择包含重要和独特信息的候选者子集,以及生成过程。3.3渐进式事件选择和字幕给定一系列事件,有各种方法来生成描述性段落。虽然最直接的方法是为序列中的每个事件生成一个句子,但它很可能会引入大量的冗余。为了生成连贯和简洁的描述,我们可以选择独特事件的子集并在其上生成句子。这里的关键挑战是在足够的覆盖面和简洁性之间取得良好的平衡。在这项工作中,我们开发了一个渐进式生成框架,耦合两个经常性的网络,一个用于事件选择,另一个用于字幕生成。事件选择将所有事件候选按时间顺序排列,表示为( e1,. . . ,eT),则事件选择网络从序列中的第一候选开始,并且如下逐渐向前移动:h0 = 0, ht = LSTM(ht−1, vt, rt, ckt),(1)pt=sigmoid(w Th t),yt=1[pt> δ].(二)具体地,其将潜在状态向量h0初始化为零。在每一步t,它用LSTM单元更新潜在状态ht,并通过将S形函数应用于wT ht来计算pt,即包含相关和独特信息的概率。如果p_t高于阈值δ,则y_t将被设置为1,指示候选e_t将被选择用于句子生成。h t的更新取决于四个不同的输入:(1)h t-1:前一步的潜在状态。(2)vt:使用时间分段网络(TSN)提取的ett的视觉特征(3)rt:范围特征,类似于[4]中的图像掩码,由指示相对于整个持续时间的et(4)CKT:EKT的字幕特征,向前走,告诉:一种渐进式视频描述生成器7∗LLLLL∗∗L其中kt是最后选择的事件候选(在t之前)的索引。这里,字幕功能来自字幕生成网络,我们将在下面介绍。特别地,当生成ekt的描述时,ckt被选择为在最终解码步骤处的字幕生成网络的潜在状态。在并入先前的字幕特征的情况下,事件选择网络在进行选择时知道过去已经说过什么这允许它避免选择语义上冗余的候选。字幕生成在所选事件的顶部,字幕生成网络将生成句子序列,每个事件一个句子,如下所示:.g(k) =0,k = l,g(k) = LSTM(g(k), u(k),w(k)),⑶0g(k−1),k> 1升l−1ll−1s(k)= W s g(k),w(k)softmax(s(k)).(四)l l l l这里,g(k)表示当描述第k个所选事件时在字幕生成网络的第lu(k)表示视觉特征事件的子区域。这里,u(k)的计算遵循[16]中提出的方案,其允许网络在其进行1时动态地关注不同的子区域。w(k)是第l步产生的字,从softmax(s(k))采样。这个网络类似于用于图像字幕的标准LSTM,除了一个重要的区别:当k > 1时,潜在状态被初始化为g(k-1),即在生成前一个句子时的最后一个解码步骤处的潜在状态。这意味着每个句子(除了第一个句子)的生成以前一个句子为条件,这允许生成考虑句子之间的连贯性。讨论事件选择网络和字幕生成网络在为给定视频生成描述时彼此携手一方面,下一事件候选的选择取决于已经说过的内容特别地,事件选择网络的一个输入是ckt,其被设置为g(kt),即字幕生成网络在生成前一句时的最后一个潜在状态另一方面,仅当事件选择网络输出yt= 1时才调用字幕生成网络,并且当前句子的生成取决于之前的句子这两个网络之间的合作使该框架能够产生能够涵盖主要信息的段落,同时保持连贯和简洁。注意,还可以使用非最大值抑制(NMS)来直接移除时间重叠事件。与我们的方法相比,这种简单的方法是有限的,因为它只考虑时间重叠,而忽略了语义相关性。1我们在补充材料中提供了u(k)计算的更多细节8熊一磊,戴波,林大华∗∗∗另一种方法是首先为所有事件生成句子,然后根据文本摘要选择重要事件的子集[19]。然而,这种方法并没有提供一种机制来鼓励句子之间的语言连贯性,这对于生成高质量的描述至关重要。4培训我们的框架中有三个模块需要训练,即事件本地化,字幕生成和事件选择。特别地,我们简单地按照[31]中提出的过程训练事件另外两个模块,字幕生成网络和事件选择网络,分别训练。我们首先使用地面实况事件字幕来训练字幕生成网络。在此基础上,我们训练事件选择网络,它需要字幕生成状态作为输入。4.1训练字幕生成网络字幕生成网络对每个单词在前一个单词和其他输入条件下的分布进行建模,包括相应事件u(k)的视觉特征和前一句g(k−1). 因此,该分布可以表示为pθ(wl|W1:l−1; u(k),g(k−1)),其中θ表示网络参数。我们通过两个阶段来训练这个网络:(1)初始监督训练,以及(2)强化学习。初始监督训练是基于事件对及其相应的地面真实描述进行的,具有标准交叉熵损失。请注意,该网络需要g(k−1)作为输入,这是在训练期间动态特别是,我们一个接一个地为每个视频提供地面实况语句。在每次迭代中,我们缓存当前句子的最终潜在状态,并将其用作下一个句子的输入。有监督的训练鼓励字幕生成网络模仿一个字一个字的训练句子。为了进一步提高所得到的句子的质量,我们求助于强化学习。在这项工作中,我们-自我批评序列训练(SCST)[16]技术。特别地,我们将字幕生成网络视为“代理”,并选择一个词的“动作”。遵循[16]中的实践,我们在强化学习阶段使用近似的策略梯度强化学习的关键是奖励的设计。在我们的设计中,我们提供两个级别的奖励,即段落级和段落级。如上所述,网络按顺序接收视频的地面实况事件,为每个事件生成一个句子(以先前的状态为条件)。这些句子合在一起构成一个段落。当一个句子被生成时,它会收到一个句子级的奖励。当整个段落完成时,它将获得段落级奖励。奖励被定义为所生成的句子/段落与基础事实之间向前走,告诉:一种渐进式视频描述生成器94.2培训活动选择网络事件选择网络是递归网络,其将候选事件的序列作为输入并且产生二进制指示符的序列(用于选择候选者的子集以保留)。我们以监督的方式训练这个网络。这里的关键问题是如何获取训练样本。我们通过两个步骤来实现这一点:(1)标记和(2)生成训练序列。首先,对于每个视频,我们使用事件本地化模块生成一个一系列事件候选作为(e1,. . . ,eT)。同时,我们还有一套由训练集提供的地面实况事件,表示为(e*,. . .,e**)。为※1吨每个地面实况事件ej,我们找到具有最高重叠的候选ei用它,在时间IoU方面,并将其标记为正,即 设yi= 1。所有其他事件候选被标记为否定。其次,为了生成训练序列,我们考虑三种不同的方式:– (S1)完整序列,其简单地使用每个视频的整个候选序列,即 (el,e2,···,em)。– (S2)以间隔进行子采样,其以变化的间隔对事件候选进行采样,例如(e2,e4,...,em),以获得更大的序列集合。– (S3)对阴性进行子采样,这保持所有阳性候选,同时随机地对其间的相同数量的阴性候选进行采样。请注意,正候选项和负候选项高度不平衡。对于每个视频,正候选者稀疏地定位,而负候选者丰富。方案(S3)明确地重新平衡它们的数量。我们的实验表明,(S3)往往产生最好的性能。事件选择网络是在字幕生成网络的帮助下训练的更具体地,每当事件选择网络产生肯定预测时,将基于字幕生成网络更新字幕特征ckt,其将作为输入被馈送到下一递归步骤。5实验我们报告了我们在ActivityNet Captions [10]上的实验,在那里我们将所提出的框架与各种基线进行了比较,并进行了消融研究以研究其特征。5.1实验设置ActivityNet Captions数据集[10]是最大的公开可用的视频字幕数据集。这个数据集包含10009个用于训练的视频,4917个用于验证。与以前的数据集[7,15,17]相比,它有两个数量级的视频。该数据集中的视频平均长度为3分钟训练集中的每个视频具有一个人类标记的注释集合,并且验证集中的每个视频具有两个这样的集合。在这里,一组注释是一系列句子,每个句子与视频中的长片段或短片段对齐。10熊一磊,戴波,林大华Σ大约10%的所有段彼此重叠平均而言,每组注释包含3个。65个句子。虽然ActivityNet Captions最初是为视频密集字幕的任务而设计的,但我们通过顺序连接每组基于片段的注释内的句子来因此,对于训练集中的每个视频,有一个地面实况段落,对于验证集中的每个视频,有两个地面实况段落。 由于测试视频的注释不是公开的,我们将验证集随机分成两半,得到2458个用于调整超参数的视频,以及2459个用于性能评估的视频。我们设置δ = 0。3,在事件选择模块中L= 100,在字幕模块中N我们分别训练我们框架中的三个模块特别地,根据[31]训练事件定位模块,其中定位事件在0.7tIoU阈值下具有63.77%的召回率对于字幕模块,LSTM隐藏大小固定为512。如第4节所述,我们首先使用ADAM [9]在交叉熵目标下训练模型,初始学习率为4× 10−4。我们选择在验证集上具有最佳CIDEr得分的模型然后,我们运行使用此模型初始化的SCST训练对于句子和段落奖励,奖励度量是CIDErSCST训练使用ADAM,学习率为5× 10−5。一个批次包含至少80个事件,因为同一视频中的事件同时被馈送到批次中对于事件选择模块,我们在如第4节所述准备的标记训练序列的集合上训练它,其中每个训练序列包含64个候选事件。我们使用交叉熵作为损失函数,SGD与动量作为优化器。 学习率初始化为0。1并且按0的因子按比例缩小。每10,000次迭代1次 我们将SGD动量设置为0。9,权重衰减到0。0005,批量大小为80。25.2评价我们使用多个度量来评估性能,包括BLEU [14]、ME-TEOR [5]、CIDEr [22]和Rouge-L [12]。此外,我们注意到视频字幕结果存在一个普遍的问题,即。重复或冗余。 这可能是由于在无法确定的时间段内捕获了大量数据。 例如,说明者可以将熨烫衣领和熨烫袖子两者作为熨烫。描述重复的事物肯定会损害描述的连贯性。然而,这并不能反映在上述指标中。为了衡量这种效果,最近的一项工作提出了Self-BLEU [32],通过评估一个句子如何与生成的段落的其余部分相似。我们还提出了另一种度量,称为重复评估(RE)。给定一个生成描述ci,n元语法wk在其中出现的次数记为hk(ci).重复评估为每个描述计算冗余分数ci:ΣRE(ci)=kmax(hk(ci)−1, 0)khk(ci)、(五)2代码将很快公开向前走,告诉:一种渐进式视频描述生成器11其中,克长度n取一个很大的数字,如我们实验中的4。语料库级别得分是所有描述的平均得分理想情况下,重复次数为n次的描述会得到大约(n−1)/n的分数。5.3与其他方法我们将我们的框架与各种基线进行了比较,如下所述。(1) Sentence-Concat:一个简单的基线,将视频平均分为四个不相交的部分,并使用我们的字幕模型用一个句子描述每个部分。最后一段由这四句话连接而成。使用该基线,我们能够研究输入视频中的局部化事件的效果。(2) Hierarchical-RNN [29]:一种更复杂的从视频生成段落的方法,其中主题RNN生成一系列主题来控制每个句子的生成。以主题嵌入作为输入,句子RNN为序列中的每个主题生成一个句子。(3) 密集字幕[10]:用于视频密集字幕的最先进方法之一,它为每个候选事件生成一个句子,然后将它们连接成一个段落,而不管它们的相似性如何。这条基线用于演示视频密集字幕和视频字幕之间的差异。(4) 密集字幕NMS:基于上述密集字幕的方法该算法利用非最大抑制法(NMS)从密集字幕的候选事件中选择事件,去除时间范围上高度重叠的事件。(5) Semantic-Sum[19]:一种最近的方法,也将视频片段识别为我们的。我们发现,当将句子长度设置为3并在摘要模块中使用潜在语义分析[21]时,该方法获得最佳性能。(6) 前进和讲述(MFT):我们提出的框架,它逐步选择事件,并根据之前说过的话生成句子。(7) GT-Event:该基线直接将我们的字幕模块应用于地面实况事件。原则上,这应该用作性能上限,因为它可以访问地面实况事件位置。表1列出了ActivityNet标题上不同方法的结果,从中我们有以下观察结果:(1)密集字幕执行得非常差,因为存在许多冗余建议,并且因此存在由RE和Self-BLEU度量指示的重复句子。RE得分非常高,这意味着三分之二的描述可能是多余的。这清楚地显示了视频密集字幕和视频字幕之间的差异。(2)Sentence-Concat和Dense-Caption-NMS处于可比水平,比Dense-Caption好得多。这两种方法可以受益于共同的方面,即它们的事件几乎不重叠。但是一些重要的事件可能不局限于此。(3)分层RNN将结果提高到下一个级别,达到25。53% Rouge-L。这表明它产生了更连贯的12熊一磊,戴波,林大华表1.视频字幕的比较结果。最后一种方法GT-Event使用地面实况信息,可以看作是事件选择的上界。值以%为单位。对于度量RE和Self-BLEU,越低越好。对其他人来说,越高越好型号CIDEr BLEU@4 BLEU@3 BLEU@2 BLEU@1 Rouge-L METEORRE自亮句子连接4.514.186.4510.4117.5222.598.7918.4149.40[29]第二十九话6.997.3212.1321.2339.0225.5310.7918.7954.38密字幕[10]0.290.991.512.333.528.636.7564.0589.79密集字幕NMS3.524.456.9611.2118.0921.4112.0823.9862.46[19]第十九话10.436.4411.2120.3637.2225.4412.6629.9467.49MFT(我们的)14.158.4513.5222.2639.1125.8814.7517.5945.80GT赛事19.5610.3316.4427.2446.7729.7015.0915.8842.95表2.该表比较了我们模型的不同训练方案。方案详见第4节培训计划CIDER BLEU@4 BLEU@3 BLEU@2 BLEU@1 Rouge-L METEORRE自亮(S1)完整序列9.257.1211.5619.1833.8023.8411.0626.1151.41(S2)间隔二次抽样8.046.4910.5217.5831.1621.2710.1624.0946.19(P1)仅接受监督培训12.818.5313.2521.7637.6825.5313.2419.1046.77(P1+ P2 S3)我们的14.158.4513.5222.2639.1125.8814.7517.5945.80通过对句子关系进行建模得到结果。(4) Semantic-Sum进一步改进了结果,达到10。43% CIDER。这示出了本地化视频事件以用于字幕的效果。(5)我们的方法MFT显著优于所有上述方法,例如,它达到14。CIDEr为15%,相比之下为10。43%来自Semantic-Sum它也表现得相当不错,与GT事件,一种方法利用地面实况事件。5.4消融研究培训计划第4节介绍我们的培训策略。 对于帽生成网络,训练分为两个阶段:(P1)初始监督训练和(P2)强化学习. 对于事件选择网络,我们提出了三种不同的方法来生成训练序列。(S1)完整序列,(S2)间隔二次采样和(S3)负二次采样,其中我们的模型采用方案(S3)。表2示出了在不同训练方案下的性能。 首先,在生成事件选择网络的训练序列的所有三种方案中,(S3)负子采样表现最好。(S1)方案只得到9。25%CIDEr,而(S2)方案得到8。04%CIDEr,与我们的模型相比有相当大的下降。这表明平衡正候选和负候选的重要性。此外,通过利用字幕生成网络的强化学习,我们的模型获得性能的改善,特别是对目标度量,CIDEr。我们的模型产生14。15%的CIDER评分,而只有我们-监督训练产生12。百分之八十一。其他指标通过强化学习得到一致的改进,包括RE和Self-BLEU指标。向前走,告诉:一种渐进式视频描述生成器13表3.此表列出了使用不同功能组合进行事件选择的结果,其中完整组合显示为最佳配置特性CIDEr BLEU@4 BLEU@3 BLEU@2 BLEU@1 Rouge-L METEORRE自亮视觉10.196.4110.4117.5031.4725.7412.0529.0056.57视觉+范围10.547.5312.1620.3236.5825.4211.8627.6254.11视觉+字幕11.297.9012.6120.8336.5523.8213.2418.9249.14视觉+范围+标题14.158.4513.5222.2639.1125.8814.7517.5945.80事件选择的特征在这一部分中,我们研究了使用不同特征进行事件选择的效果具体而言,测试以下组合(1)visual:孤立地使用visual特性v,它作为其他组合。(2)视觉+范围:将视觉特征v与范围特征t组合,其另外提供原始视频中的时间范围视觉特征。(3)视觉+字幕:将视觉特征V与字幕特征C组合,这为事件选择模块提供了知道已经说了什么的能力。(4)visual + range + caption:使用所有功能。如表3所示,与视觉相比,视觉+范围和视觉+字幕的性能明显优于它,这表明时间范围特征和字幕特征都与视觉信息互补。这是合理的,因为视觉特征不包含时间信息,其在时间范围特征中被显式地捕获,并且在字幕特征中被语义地捕获。此外,字幕特征和时间范围特征也是彼此互补的,因为完全组合视觉+范围+字幕优于视觉+范围和视觉+字幕两者。5.5人体研究为了进行更相关的评估,我们还进行了一项人类研究,其中20名用户被要求在建议的MFT,分层RNN和Semantic-Sum生成的段落中选择最佳描述性段落,分别在相关性,连贯性和简洁性方面图3显示了MFT在所有方面都生成80706050403020100相关性一致性简洁图3.第三章。该图显示了人工评估的结果,该结果比较了由不同方法生成的段落的相关性,连贯性和简洁性。层次RNN语义和MFT(我们的)59.655.550.430.527.528.321.217.09.9百分比(%)14熊一磊,戴波,林大华5.6定性示例在图4中,我们还包括一个定性示例,其中视频显示了由密集标题NMS,分层RNN,语义求和和我们的方法MFT生成的段落。如图4所示,与基线相比,我们的方法产生了更简洁、更连贯的段落。我们将在补充材料中提供更多定性结果。密集-标题-NMS层次-RNN语义-求和MFT(我们的)一位体操运动员正准备走到横梁上,并引导她表演一套动作。 然后女孩开始做一套动作,翻跟头。 他在垫子上上下摆动双臂。 一个女人站在一匹马上,开始四处走动。一个女孩站在一个横梁上,双臂环绕,表演空翻一个体操运动员正在表演一套体操动作,并导致几个人表演体操动作。体操运动员在平衡木上表演一套动作体操运动员从鞍马上跳下并落在鞍马上。人们看到一名体操运动员站在那里,双臂高举在空中。一个男人站在一根横梁前,开始表演体操。有人看到一个男人站在那里准备在酒吧里表演一套动作一名体操运动员站在平衡木前准备在平衡木上表演体操动作女孩表演了几个翻转和翻转周围的梁和结束跳下梁。Ground-Truth一个女孩跳上平衡木。她在平衡木上做体操动作她从平衡木上翻了个身,落在垫子上见图4。该图列出了一个定性示例,其中示出了由密集标题NMS、分层RNN、语义求和和我们的方法MFT生成的段落。6结论我们提出了一个新的框架,为给定的视频生成连贯的描述。生成的段落与给定视频的时间结构很好地对齐,覆盖主要语义而没有冗余。具体来说,它通过LSTM网络依次定位重要事件,该网络从候选池,基于它们的外观、时间位置和相互语义关系。当分别描述所获取的序列中的事件时,它基于时间结构和已经说过的内容明确地决定接下来说什么。 在ActivityNet标题上,我们的方法在广泛的指标上明显优于其他方法,同时产生更连贯和更简洁的段落。鸣谢本工作部分由商汤科技集团的大数据协作研究资助(香港中文大学协议编号:TS 1610626)、香港的“展翅计划”(第1610626号)、香港的“展翅计划”(第1610626号)及香港的“展翅计划”(第1610626号)。24204215)。向前走,告诉:一种渐进式视频描述生成器15引用1. 巴拉尔迪湖格拉纳角Cucchiara,R.:用于视频字幕的分层边界感知神经编码器。arXiv预印本arXiv:1611.09312(2016)2. Dai,B.,Fidler,S.,Urtasun河Lin,D.:通过有条件的根,走向多样化和自然的形象。国际计算机视觉会议(ICCV)pp.2989- 2998年。IEEE(2017)3. Dai,B.,Lin,D.:图像字幕的对比学习在:神经信息处理系统进展(NIPS)中。pp. 8984. Dai,B.,张玉,Lin,D.:用深层关系网络检测视觉关系IEEE计算机视觉与模式识别会议(CVPR)pp. 3298IEEE(2017)5. Denkowski,M.,Lavie,A.:流星通用:针对任何目标语言的特定语言翻译评估。见:第九次统计分析讲习班会议记录。pp. 3766. Farhadi , A. , Hejrati , M. , Sadeghi , 硕 士 , 扬 , P. , Rashtchian , C.Hockenmaier,J.,Forsyth,D.:每张照片都在讲述一个故事:从图像生成句 子 。 In : Europeanconferenceoncomputervision. pp.15-29 02TheDog(2010)7. Geiger,A.,Lenz,P.斯蒂勒角乌尔塔松河:视觉与机器人技术的结合:小猫在那儿。TheInternatinalJour nalofRobti csReserch32(11),12318. Hori角Hori,T.,Lee,T.Y.,Sumi,K.,赫尔希J.R.马克,T.K.:基于注意力的多模态融合视频描述。arXiv预印本arXiv:1701.03126(2017)9. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法arXiv预印本arXiv:1412.6980(2014)10. 克里希纳河Hata,K.,Ren,F.,Fei-Fei,L.尼布尔斯,J.C.:视频中的密集字幕事件国际计算机视觉会议(ICCV)(2017)11. Kulkarni,G.,Premraj,V.,Ordonez,V.,Dhar,S.,Li,S.,崔,Y.,Berg,A.C.,Berg,T.L.:Babytalk:理解和生成简单的图像描述。IEEETransactionPater nAnalysisandMachineIntel i gence35(12),289112. Lin,C.Y.:Rouge:一个用于自动评估摘要的软件包。在:文本总结分支:ACL-04研讨会的会议记录。第8卷。西班牙巴塞罗那(2004年)13. 潘,Y.,Yao,T.,Li,H.,Mei,T.:具有转移语义属性的视频字幕。arXiv预印本arXiv:1611.07675(2016)14. Papineni,K.,Roukos,S.,Ward,T. Zhu,W.J.:Bleu:一种机器翻译的自动评测方法。载于:第40届公司战略年度会议议事录。pp. 311-31803 TheDog oftheDog(2002)15. Regneri , M., Rohrbach , M., Wetzel , D. , Thater , S., Schiele , B.,Pinkal,M.:接地- ing行动的说明在视频中。Transactions of the AssociationforComputa-tionalLinguisis1,2516. Rennie,S.J.,Marcheret,E.,Mroueh,Y.,Ross,J. Goel,V.:图像字幕的自我批判序列训练。arXiv预印本arXiv:1612.00563(2016)17. Rohrbach,A.,Rohrbach,M.,Qiu,W.,Friedrich,A.,Pinkal,M.,Schiele,B.:具有可变细节水平的相干多句子视频描述。In:Germanconnfere nceo n patternrecog nitio n.pp. 18402TheDog(2014)18. Rohrbach,A.,Rohrbach,M.,Schiele,B.:电影描写的长短故事In:GermanConferenceonPater nRe gnition。pp. 209-221 02TheDog(2015)16熊一磊,戴波,林大华19. S ahS Kulhare,S., Gr ay,A., 你走吧S 我的天啊E Ptucha,R. :长视频的语义文本摘要。In:Applications of Computer Vision(WACV),2017 IEEEW i nterC o nferen c eo n. pp. 989 - 997 IEEE(2017)20. 沈志,李杰,苏、Z. Li,M.,陈玉,Jiang,Y.G.,Xue,X.:弱监督密集视频字幕。arXiv预印本arXiv:1704.01502(2017)21. Steinberger,J.,Jezek,K.:将潜在语义分析应用于文本摘要和摘要分析。Proc. ISIM4,9322. 韦丹塔姆河Lawrence Zitnick,C. Parikh,D.:Cider:基于共识的图像描述评估。In:Proceedings of the IEEE conference on computer vision andpat ternrecognition. pp. 456623. Venugopalan,S.,Rohrbach,M.,Donahue,J.,穆尼河,Darrel
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功