没有合适的资源?快使用搜索试试~ 我知道了~
8347用于视频字幕显示的裴文杰1,张继源1,王向荣2,柯磊1,沈晓勇1,戴玉荣11腾讯、2南方科技大学wenjiecoder@outlook.com,mikejyzhang@tencent.com,x.wang-tudelft.nlkeleiwhu@gmail.com,goodshenxy@gmail.com,yuwingtai@tencent.com摘要用于视频字幕的典型技术遵循编码器-解码器框架,其只能集中于正在处理的一个源视频。 这种设计的一个潜在缺点是,它不能捕获训练数据中出现在多于一个相关视频中的单词的多个视觉上下文信息。为了解决这个问题,我们提出了一种用于视频字幕的内存递归网络(MARN),其中内存结构源视频记忆中的视觉背景基础解码器:一个女人在碗一个女人正在往碗里倒旨在探索训练数据中视频中单词及其各种相似视觉上下文之间的全谱对应关系因此,我们的模型能够对每个单词实现更全面的理解,并产生更高的字幕质量。此外,建立的内存结构,使我们的方法模型之间的兼容性相邻的单词显式,而不是要求模型隐式学习,因为大多数现有的模型。在两个真实数据集上的广泛验证表明,我们的MARN始终优于最先进的方法。1. 介绍视频字幕的目的是生成一系列的文字来描述一个自然语言风格的视频的视觉内容它具有广泛的应用,如视觉问答(VQA)[28,64],视频检索[63]和支持视力受损的人[49]。视频字幕是一个更具挑战性的问题比它的孪生这不仅是因为视频包含比静止图像更多的信息,而且捕捉时间动态以整体理解视频内容也是至关重要大多数现有的视频字幕方法都遵循编码器-解码器框架[12,19,23,26,31,34,39,50,61],该框架采用编码器(通常由CNN或RNN执行)来分析和提取源视频中有用的视觉上下文特征,以及解码器来顺序生成字幕。注意机制与解码过程的结合具有戏剧性的-通讯作者:Yu-Wing Tai图1.基于编码器-解码器框架的典型视频字幕模型(例如,该图中的Basis解码器)只能集中在一个正被处理的源视频上。因 此 , 很 难 探 索 关 于 候 选 词 的 全 面 上 下 文 信 息 , 如“pouring”。相比之下,我们提出的MARN能够在训练数据中的视频中捕获候选词(在本示例中为“pouring”)与其各种相似视觉上下文(各种倾倒动作)之间的全谱对应关系由于其选择性聚焦于相关视觉内容的能力,因此从根本上提高了视频字幕的性能[12,23,52,61]。编码器-解码器框架的一个潜在限制是解码器在解码时只能关注当前正在处理的一个源视频这意味着它只能从单个视频输入中研究然而,词汇表中的候选词可能出现在具有相似但不相同的上下文信息的多个视频场景因此,现有的模型不能有效地探索训练数据中视频中单词及其各种相似视觉上下文之间例如,图1中的基于编码器-解码器框架的基础解码器由于对候选词“pouring”的理解不足而不能将源视频中的动作准确地对应于词受文档级机器翻译中用于整合文档上下文的记忆方案的启发[14],在本文中,我们提出了一种新的用于视频字幕的记忆参与递归网络(MARN),该网络探索具有相似视觉特征的视频字幕。8348训练数据中的内容以增强生成的视频字幕的质量。具体来说,我们首先建立一个基于注意力的递归解码器作为基础解码器,它遵循编码器-解码器框架。然后,我们构建一个记忆结构来存储词汇表中每个单词的描述性信息,这有望在单词与训练数据中出现的所有相关视觉上下文之间建立全因此,我们的模型能够获得对每个词的更全面的理解。构造的存储器进一步被杠杆化以使用注意力机制来执行解码。这种基于存储器的解码器可以被认为是一种增强字幕质量的自动解码器。图1显示,我们的模型可以成功地识别源视频中的动作MARN的另一个好处是它可以明确地对两个相邻单词之间的兼容性进行建模。这与大多数现有模型(基于递归网络)采用的传统方法形成对比,后者通过基于当前单词和上下文信息预测下一个单词来隐式地学习兼容性。我们在两个流行的视频字幕数据集(MSR-VTT [59]和MSVD [5])上评估了MARN的性能。我们的模型取得了最好的效果与其他国家的最先进的视频字幕方法相比。2. 相关工作视频字幕。传统的视频字幕生成方法主要是基于模板生成的,它利用词的角色(如主语、动词和宾语)和语言语法规则来生成视频字幕。例如,采用条件随机场(CRF)对源视频的不同分量进行建模[36],然后以机器翻译的方式生成相应的字幕。此外,层次结构被用来对动作概念和视觉特征之间的语义对应进行建模[22],或者学习不同句子成分之间的潜在语义关系[13]。然而,由于这些方法对预定义模板的强烈依赖,它们在对字幕中的语言语义进行建模方面受到限制由于深度学习(包括卷积网络(CNN)和递归网络(RNN))的快速发展,编码器-解码器框架首先由MP-LSTM [47]引入,该框架采用CNN作为编码器从源视频中提取视觉特征,然后通过LSTM解码字幕。另一个基于编码器-解码器框架的经典基准模型是S2 VT[46],它在编码器和解码器中共享一个LSTM。随后,注意力机制对视频字幕产生了显着的性能提升[61]。最近,基于编码器-解码器框架的最新方法寻求在以下方面取得突破:[10,10,30,34,56]或者在解码阶段,阶段[37,51,62]。以关注编码阶段的案例为例,VideoLAB [34]提出融合多种形式的源信息以提高字幕性能,而PickNet [6]旨在通过强化学习来挑选信息帧。TSA-ED[56]提出使用注意力机制在轨迹级别提取时空表示。在专注于解码阶段的情况下,RecNet [51]通过从解码隐藏状态重构视觉特征来细化字幕,Aalto [37]设计了一个评估器来从多个候选字幕中挑选最佳字幕。这些方法中的大多数遭受解码器只能集中于正在处理的一个源视频的潜在缺点。因此,它们不能捕获出现在训练数据中的丰富视频上下文中的候选词的多个视觉上下文信息。我们提出的MARN,而以下的编码器-解码器框架,是能够mit-igate这一限制,通过将内存 机 制 , nism 在 解 码 阶 段 , 以 获 得 一 个 全 面 的understanding为每个候选词的词汇。记忆模型。记忆网络首先被提出来纠正递归网络(RNN)有限记忆的缺点[40,55],然后扩展到各种任务。这些基于内存的模型可以大致分为两类:作为辅助模块[11,14,27,57]或主导模块[8,17,29,53]。在第一类中,利用存储器来辅助基础模块以增强目标任务的性能例如,使用两个内存组件来帮助基础模块(基于文档的NMT)捕获文档级机器翻译的文档上下文[14]。在第二类中,存储器充当执行目标任务的主导模块。一个典型的例子是记忆网络被用作主观情感分类的骨干[53]。我们提出的MARN属于第一类,因为在我们的视频字幕系统中,存储器被用作辅助解码器。据我们所知,我们的MARN是第一个在视觉字幕中利用记忆网络的。3. 记忆关注递归网络我们的记忆参与递归网络(MARN)由三个模块组成:编码器、基于注意力的递归解码器和参与存储器解码器。MARN的总体架构如图2所示。在编码器从源视频中提取有效特征在此基础上,设计了辅助存储解码器,以提高字幕质量.我们将首先介绍编码器和基于注意力的递归解码器,然后我们将对所提出的有注意力的记忆解码器进行解码。8349--′存储器结构…111吉吉吉吉…KKK感知注意力+E输出字���…E���-���2D3DA1-1拉克纳特3D打印机2D…GRUt-1GRU…不GRUt+1视频阿拉克纳特加1普雷AttendedMemoryDecoder基于编码器注意力的递归解码器图2.我们的记忆关注递归网络(MARN)的架构。它由三个部分组成:(1)用于从源视频提取特征(2D和3D)的编码器,(2)用作基本字幕解码器的基于注意的递归解码器,以及(3)用作辅助解码器以增强字幕质量的关注存储器解码器。3.1. 编码器编码器的作用是从输入的源视频中提取视觉特征,这些特征将被馈送到下游解码器。一种典型的方法是使用预先训练的深度CNN,如GoogleNet [42,61],VGG [38,59]或Inception-V4 [41,51],从源视频中提取每个采样图像的2D特征。同样,我们也依赖于深度CNN来提取2D视觉特征。在我们的实现中,我们选择在imagenet [9]上预训练的ResNet-101 [16]作为我们编码器的2D特征提取器,因为它具有出色的性能和相对较高的成本效益。此外,我们还从源视频中提取3D视觉特征以捕获时间信息,这在涉及视频的视觉任务中已被证明是有效的[23,43]。具体来说,我们采用ResNeXt-101 [58],在Ki- netics数据集[20]上预训练3D卷积来提取3D特征,这在视频分类任务[15]上表现出优越的性能。形式上,给定视频帧序列X=x1,x2,. . .,xL的长度,表示由预训练的ResNet-101针对每个帧获得的2D视觉特征当F2D={f1,f2,. . .,fL},其中fl∈Rd. 而且其中Mf∈Rm×d和Mv∈Rm×c是变换矩阵,bf∈ Rm和bv∈Rm是偏置项.3.2. 基于注意力的递归解码器基于注意力的递归解码器被设计为基本解码器,以基于从编码器获得的视觉特征来我们采用与软注意力LSTM(SA-LSTM)类似的模型结构[61]。由于递归神经网络具有很强的递归结构建模能力,因此它可以作为解码器的骨干,逐词生成字幕我们在实现中使用GRU [7](在我们的MARN模型中用LSTM替换它很简单)。同时,执行时间注意机制,以使解码器在生成每个单词时通过自动学习每帧特征的注意权重来关注相关(显著)视觉特征具体地,第t个词预测在解码过程中作为分类任务执行,其经由softmax函数计算大小为K的词汇中预测词wk3D视觉特征由预训练的ResNeXt-101提取P(w)=exp{Wkht+bk}、(二)对于每16帧,即, 每个的时间分辨率bkKi=1 exp{Wiht +bi}3D特征是16帧。 所产生的3D特征被去-记为F3D={v1,v2,. . . ,vN},其中N = L/16,并且vn∈Rc.然后将获得的2D和3D视觉特征其中Wi和bi指的是计算词汇表中第i个单词的线性映射得分的参数,ht是第t次学习到的GRU隐藏状态. 在此,h投影到具有相同维度m的隐藏空间中,线性变换:不通过GRU操作来实现,GRU操作考虑了前一步骤ht-1中的隐藏状态,fl= Mffl +bf ,v′=Mvvn+bv.(一)预测词的构词ct和词嵌入n8350∈我我⟨⟩在前面的步骤et-1中:ht=GRU(ht−1,ct,et−1),(3)′2D 3D其中嵌入et−1∈Rd对应于in-嵌入矩阵E中的dexed向量Rd′×K. 时间注意力机制被应用于为每帧视觉特征分配注意力权重,包括由Encoder提取的2D和3D特征具体地说,在第t个时间步长处的2D视觉特征的上下文信息通过下式计算:ΣL布雷尔ct,2D=i=1ai,tf′,ai,t=fatt (ht−1,f′),(4)图3.词w r的视觉上下文信息gr是通过考虑来自每个词w r的前k个相关帧来构造的。其中L是2D视觉特征的长度,并且fatt是注意力函数,我们采用与 SA-LSTM 相同的方式[61]:一个两层感知器,中间有tanh激活函数我们以类似的方式对3D视觉特征的上下文信息进行相关视频。以及上下文信息,而不是明确地对两个相邻单词之间的兼容性进行建模。我们的Attended Memory Decoder有望解决这个问题。联系我们3.3.1存储器结构ct,3D=i=1ai,tvi,ai,t=fatt(ht−1,vi),(5)存储器被设计用来存储词汇表中每个单词的描述性信息。它被构造成一个并且我们通过concate获得最终的上下文信息Ct将它们结合在一起:Ct=[Ct,2D; Ct,3D]。(六)我们在2D和3D情况下共享注意力函数fatt,因为它能够引导等式1中的Mf和Mv的优化以将2D和3D特征两者投影到相似特征空间中。与使用两个独立的注意力函数相比,它可以被认为是避免潜在过拟合的正则化。应该指出的是,我们的模型是不同的,从传统的方法利用2D和3D视觉特征的方式如何聚合它们。在编码过程中,我们将它们分开处理,并将它们的隐藏表示融合在一起,而不是在早期简单地通过级联将它们融合在一起。注意机制在解码阶段的作用映射结构,其中每个项被定义为从单词“w”到其描述“d”的映射特别地,描述' d '由三个1)视觉上下文信息,2)词嵌入和3)辅助特征。可视上下文信息。我们提取给定单词的视觉上下文信息,以通过类似于等式4和等式5的注意力机制来描述包含在源视频中的其对应(显著)视觉特征。由于一个词可能会出现在多个视频场景中,我们提取的突出的视觉特征,为每个视频的词是参与。为了减少提取特征的冗余,我们只保留每个相关视频的前k个如图3所示,词汇表中第r个单词的视觉上下文信息gr被建模为:吉尔伊克(a)f′)吉尔伊克(a′v′)这种设计的一个主要优点是,g=1j=1i、ji,j+i=1j=1i、ji,j,不会被相互污染,这是一个典型的问题,因为它们代表不同的视觉特征域。rii=1Σkj=1 ai,jΣIi=1Σkj=1′i、j(七)3.3. Attended Memory Decoder我们提出了Attended Memory Decoder作为一个递归解码器,以提高基本解码器(基于注意力的递归解码器)生成的cap-tion的质量。这种设计背后的基本原理是,词汇表中的一个词可能会出现在多个类似的视频场景中。虽然基于注意力的解码器在解码时只能关注一个视频场景,但我们的关注记忆解码器被设计为从出现相同候选词的不同视频场景中捕获全谱上下文信息,从而为该词产生更全面的上下文。此外,传统的基于注意力的解码器根据当前单词预测下一个单词视频1拉克纳特拉克纳特+Top-kTop-kTop-kTop-k视频教拉克纳特拉克纳特一8351i、j其中I是与第r个单词相关的视频的数量;ai,j和a′ 分别是2D和3D视觉特征的前k个权重中的第j个注意力权重。对2D和3D上下文特征进行归一化处理,使不同频率的词的上下文特征大小一致。为了避免重复建模,一个简单的方法是首先训练基于注意力的递归解码器,然后重用其注意力模块来提取视觉上下文信息。字嵌入。将学习到的词wr的词嵌入er也集成到记忆模块中,以量化地描述其语义和句法特征等属性。一旦训练好基于注意力的递归解码器,就可以很容易地实现这一点。8352−{x|a−a−我··辅助功能。词汇记忆主要由视觉上下文信息和词汇嵌入构成。此外,我们还可以结合其他潜在有用的辅助特征,表示为ur。例如,我们在内存中添加视频的类别信息(当它可用时),这可以帮助粗略地聚类视频场景,从而帮助解码过程。单词wk是标题中的下一个单词的概率为:P(wk)=(1λ)Pb(wk)+λPm(wk),其中引入λ以平衡来自两个解码器的贡献。在实践中,λ的值是在一个保留的验证集上调整的3.4. 参数学习假设我们有一个训练集D=总的来说,对应于字wr表示为map结构:(个)1、…L(n)(个)1、…T(n)}n=1,...,N包含N个视频wr,dr(八)3.3.2记忆解码利用所构建的存储器来构建字幕解码系统,其字幕结果进一步与基础解码器(基于注意力的递归解码器)生成的字幕相结合,以提高字幕质量。以及它们的相关字幕。 L(n)和T(n)分别是第n个样本的视频和字幕的长度。由于记忆的构建依赖于基于注意的递归解码器,因此首先训练它,然后训练注意记忆解码器。3.4.1基于注意力的递归解码器视频字幕模型通常通过最小化负对数似然来优化:NT(n)具体地说,我们设计了记忆参与解码器中文(简体)(个)系统作为基于注意力的递归解码器的主干上的注意力机制。类似于等式2,Lc=−n=1t =1logPb(wt|x1,..., L)。 (十二)在第t个时间步预测单词wk的概率通过softmax函数建模:注意力相干损失(AC损失)在等式4中学习的权重,其用于构造上下文信息,总是波动显着,即使P(w)=exp{qk}、(9)因为它们是独立学习m kKi=1 exp{qi}然而,我们认为,注意力权重应该支持-其中,K是词汇大小,并且qi是词wi的相关性得分,其用于基于词wi的记忆内容来测量词wi对于第t个时间步长有多种方法可以对相关性得分进行建模。我们将其建模为一个简单的两层感知器结构:.顺利通过。 此外,注意力权重,分配给对应于事件或动作的时间间隔中的帧的时间间隔应当彼此接近这也符合人类注意力的模式为此,我们提出了所谓的注意力相干损耗(AC损耗)来正则化等式4中的注意力权重:q= v[Wc · Ct+Wg· gi]+[We·et−1+ We· ei]ΣN ΣT ΣLL=(n)(n)|,(13)Σ+ Wh· ht−1 + Wu· ui + b,一n=1t =1i=2i,ti−1,t(十)其中ct,et-1,ht-1分别是上下文信息。时间步长t处的特征、来自基于注意力的递归解码器的时间步长t1处的预测词和隐藏状态;Wc、Wg、W′e、We、Wh、Wu是线性变换矩阵,b是偏置项。该建模背后的物理解释是:基于由ht-1 表示的当前情况,项[Wcct+Wggi]度量当前源视频的视觉上下文信息与候选词w i的视觉上下文信息之间的兼容性;项[W′e·et-1+We·ei]度量先前预测的词与候选词w i之间的兼容性;项W u · u r对应于当前源视频的视觉上下文信息与候选词wi之间的兼容性。池塘的辅助功能。MARN的集成字幕解码。以基于注意力的递归解码器为解码基础,这最小化了注意力权重之间的差距,相邻帧。注意,不对3D视觉特征执行AC损失,因为每个3D视觉特征描述具有高得多的时间分辨率(在我们的情况下为16帧)而不是单个帧的3D体素。因此,不需要注意力权重的平滑性。因此,通过最小化组合损失来训练基于注意力的递归解码器L=Lc+βLa,(14)其中β是平衡两个损失的hype-parameter,并在保留的验证集上进行调整。3.4.2Attended Memory Decoder类 似 地 , 通 过 最 小 化 负 对 数 似 然 来 优 化 AttendedMemory Decoder:NT(n)以Attended Memory Decoder为辅助,中文,w′8353(简体)(个)记忆参与递归网络(MARN)模型L= −n=1t =1logPm(wt|x1,…L)。 (十五)8354--4. 实验我们进行实验以评估所提出的MARN在视频字幕的两个基准数据集上的性能:微软研究院视频到文本( MSR-VTT ) [59] 和 微 软 研 究 院 视 频 描 述 核 心( MSVD ) [5] 。 我 们 的 目 标 是 ( 1 ) 调 查 的 效 果Attended Memory解码器上的视频字幕的性能和(2)比较我们的MARN与国家的最先进的视频字幕的方法。4.1. 数据集MSR-VTT。MSR-VTT数据集是一个广泛使用的视频字幕基准数据集。为了与以前的方法进行公平的比较,我们使用MSR- VTT的初始版本,它包含来自20个一般类别的10,000个视频剪辑。每个视频片段都提供了20个人工注释的自然句子(字幕),供亚马逊土耳其机器人(AMT)工作人员收集参考。我们遵循标准数据分割[59]:6513个剪辑用于训练,497个剪辑用于测试,剩下的2990个剪辑用于测试。MSVD。MSVD数据集包含从YouTube收集的1970个短视频剪辑。每个视频剪辑描绘了一个单一的活动,并与40个字幕注释。在之前的工作[61,45,50]中分割数据之后,1200个视频片段用于训练,100个片段用于验证,670个片段用于测试。4.2. 实验装置我们基于训练集构建词汇表,过滤出出现次数少于三次的单词,分别得到MSR-VTT和MSVD的大约11 K单词和4K单词的词汇表单词嵌入的维度设置为512。对于基于注意力的递归解码器中的GRU,隐藏单元的数量被设置为512。对于编码器,我们首先提取具有2048维的2D和3D特征,然后将它们线性地变换成512维,如等式1所述。基于注意力的递归解码器和关注存储器解码器中的注意力模块的维度都通过使用保留的验证集从选项集256、384、512我们采用Adam [21]梯度下降优化,梯度裁剪在-5到5之间[4]。我们对两个解码器进行了500个epoch的训练,学习率每50个epoch衰减0.5最终性能由在验证集上表现最佳的训练模型确定为了将我们的模型与最先进的方法进行比较,我们采用了标准的自动评估方法,即CIDER [44],METEOR [3],ROUGE-L [25]”[33]白居易说。我们使用专门为字幕设计的CIDER作为消融实验中的评估指标,即,注意记忆解码效应与注意相干损失的研究。基础 解码器模型存储器交流损耗数据集MSR-VTTMSVD√√××45.789.9√×46.891.7√√√47.192.2表1.在消融研究的MSR-VTT和MSVD数据集(%)上,通过配备不同模块的视频捕获系统的CIDEr(%)测量性能。记忆指连接到内存解码器单词嵌入存储器视觉上下文辅助特征数据集MSR-VTTMSVD×√××45.7 89.9√√×√√××√46.1 90.746.691.746.8 −表2.通过配备不同组件的视频捕获系统的CIDEr(%)测量消融研究MSR-VTT和MSVD数据集上辅助特征是指本实验中的类别信息。请注意,交流损耗并不用于所有实验。类别信息不适用于MSVD数据集。4.3. 消融研究我们首先对注意记忆解码器和注意一致性损失的影响进行了定量评估。为此,我们进行了消融实验,从唯一的基础解码器开始,即基于注意力的递归解码器在字幕系统中,然后递增地增加系统的注意记忆解码器和注意力相干损失。表1给出了实验结果。Attended Memory Decoder的作用比较单独的基本解码器的性能与表1中给出的基本解码器和关注存储器解码器的集成系统,我们观察到关注存储器解码器将视频字幕的性能提高1。1%和1. MSR-VTT和MSVD时分别为8%(CIDEr)。考虑到近年来最先进的视频字幕方法(参见表3和表5)所报告的进展,它们确实是实质性的改进,这验证了我们的Attended Memory Decoder的有效性存储器由三部分组成:视觉语境、词嵌入和辅助特征(如3.3.1节所述)。为了进一步研究它们对整个系统的贡献,我们对记忆结构进行了烧蚀研究。表2所示的实验结果表明,词嵌入和视觉上下文带来了主要的性能提升,而辅助特征(类别信息)在MSR-VTT数据集上产生了另一个较小的增益。词嵌入用于测量先前预测的词与当前候选词之间的兼容性8355词,而视觉上下文信息负责提供全谱上下文并测量候选词与源视频的匹配程度请注意,任何可用的和可能有助于字幕的额外信息都可以很容易地用作辅助功能。注意力相干损失的影响。表1显示了系统的性能,有和没有拟议的交流损耗。特别是,两个数据集的性能都有小幅提高(从46。8到47MSR-VTT为1,从91. 7到92MSVD为24.4. 关注存储解码器的定性评估为了更深入地了解MARN在记忆中学到了什么以及Attended Memory Decoder的效果,我们提出了几个示例来定性地比较我们的MARN模型与图4中的基础解码器(基于注意力的回流解码器)。与基本解码器相比,MARN能够对给定的源视频解码出更精确的字幕,这得益于所设计的Attended Memory解码器。以图4(a)为例,基础解码器为视频提供合理的字幕。然而,它不能识别4.5. 与其他方法接下来,我们将我们的模型与MSR-VTT和MSVD数据集上的现有视频字幕方法进行比较。所有四个流行的评估指标,包括CIDER,ME-TEOR,ROUGE-L和BLEU的报告。应该注意的是,我们的模型没有与基于强化学习(RL)的视频字幕方法进行比较[24,54],这遵循图像字幕中的常规设置,即基于RL的方法与其他方法(没有RL)[1,18]分开评估以进行公平比较。尽管如此,通过应用在图像字幕中广泛采用的自我批判序列训练[354.5.1MSR-VTT的比较我们比较了两组基线方法:1)基本方法,包括S2VT[46],编码和解码阶段的LSTM结构,均值池LSTM(MP-LSTM)[47],用于所有采样视觉帧的均值池化,作为LSTM解码器和软注意力LSTM(SA-LSTM)[61]的输入,其采用注意力模型来总结用于解码每个单词的视觉特征; 2)最新发表的最先进的方法,包括RecNet [51],通过从解码隐藏状态重构视觉特征来细化字幕,VideoLAB [34],提出融合多种模态的源信息以提高性能,PickNet [6],选择信息,型号BLEU-4仪表ROUGE-L苹果酒S2VT [46]31.425.755.935.2MP-LSTM(VGG19)[51]34.824.7−−SA-LSTM(VGG19)[51]35.625.4−−SA-LSTM(Inception-V4)[51]36.325.558.339.9RecNet本地 [51]39.126.659.342.7视频实验室[34]39.127.760.644.1PickNet(V+L+C)[6]41.327.759.844.1阿尔托[37]39.826.959.845.7Ruc-Uva [10]38.726.958.745.9基础解码器(我们的)40.127.760.445.7MARN(我们的)40.428.160.747.1表3.不同视频字幕模型在MSR-VTT数据集上的四个指标(%)的性能。基于强化学习框架的mative frames,Aalto [37]设计了一个评估器模型来从多个候选字幕中挑选最佳字幕,ruc- uva [10]提出在编码中加入标签嵌入,同时设计一个特定的模型来重新排列候选字幕。在表3中,我们显示了MSR-VTT数据集的结果。我们提出的MARN在METEOR,ROUGE-L和CIDER方面实现了最佳性能,同时在BLEU-4上排名第二。这有力地表明了我们模型的优越性。SA-LSTM优于S2 VT或MP-LSTM的事实验证了注意力机制的贡献。此外,配备Inception-V4 的SA-LSTM的性能优于其VGG 19变体,这表明了编码方案对视觉特征的重要性。由于他们提出的各种技术,最先进的模型通常另一个有趣的观察是,我们的基础模型实现了与这些最先进的模型相当的结果,这在某种程度上意味着仅使用编码器-解码器框架和注意力机制的性能上限MARN与Basis解码器赢得铁损失43.3%23.3%33.3%表4.在MSR-VTT测试集的子集上将我们的MARN模型与基础解码器进行比较的人类评估人类评估。作为对标准评估指标的补充,我们还进行了人工评估,将我们的模型与基础解码器进行比较。具体来说,我们从MSR-VTT测试集中随机选择一个子集,并要求30名人类受试者独立地在我们的模型和基础解码器生成的字幕之间进行比较。我们汇总了每个样本的所有受试者的评估结果 表4显示我们的模型在43个模型中获胜。3%的测试样本,33处失败。3%的样本对基本解码器,这表明我们的模型的优势8356源视频源视频基础解码器:一个女人在谈论一个产品一个女人在谈论婴儿车基础解码器:一个女孩在唱歌一个女孩在舞台记忆中的视觉背景记忆中的视觉背景(a)(b)第(1)款Sourcevideo基础解码器:一个人在切面包一个男人在面包上涂黄油基础解码器:一个人正在折叠一张纸一个人正在折一架纸飞机记忆中的视觉背景记忆中的视觉背景(c)(d)其他事项图4.通过MSR-VTT和MSVD的例子,对基本解码器和我们的MARN进行了定性比较对于每个示例,我们首先示出源视频的四个代表性图像,然后示出对于由红色指示的关键词具有高相关性(通过注意力权重测量)的四个上下文帧(对应于存储器中的2D视觉上下文)。MARN能够将视频场景对应到关键词,这是由于通过设计的存储方案对关键词的全面理解。有趣的是,(c)和(d)中两个相邻关键词之间的视觉上下文是重叠的,这可能有助于模型学习潜在的关联。4.5.2MSVD的比较与MSR-VTT数据集上的实验类似,将两组基线与我们在MSVD数据集上的模型进行比较:(1)基本方法,包括使用AlexNet作为编码方案的MP-LSTM,S2 VT和SA-LSTM都使用Inception-V4进行编码,GRU-RCN [2]利用递归卷积网络来学习视频表示,HRNE [30]提出了一种分层递归神经编码器来捕获源视频的时间信息,LSTM-E [32]试图探索LSTM和视觉的解码。同时语义嵌入,LSTM-LS [26]旨在对不同视频序列对的关系进行建模,h-RNN [62]采用段落生成器通过句子生成器捕获句子间依赖性,aLSTM [12]使用具有注意力机制的LSTM对编码器和解码器进行建模;(2)三种新公布的最先进的方法,即,PickNet,RecNet和TSA-ED [56]通过结构化注意机制提取轨迹水平的时空表示表5所示的实验结果表明,我们的MARN模型在除BLEU-4之外的所有指标上的表现都明显优于其他方法。 PickNet和RecNet在BLEU-4上实现了最佳结果。令人惊讶的是,我们的基础解码器实质上优于其他方法,这主要得益于我们的编码方案,即,2D和3D视觉特 征 以 特 定 设 计 的 方 式 相 结 合 。 我 们 的 AttendedMemory Decoder进一步提升了性能。型号BLEU-4仪表ROUGE-L苹果酒MP-LSTM(AlexNet)[47]33.329.1−−GRU-RCN [2]43.331.6−68.0HRNE [30]43.833.1−−LSTM-E [32]45.331.0−−LSTM-LS(VGG19+C3D)[26]51.132.6−−h-RNN [62]49.932.6−65.8S2VT(Inception-V4)[51]39.631.267.566.7[12]第十二话50.833.3−74.8SA-LSTM(Inception-V4)[51]45.331.964.276.2TSA-ED [56]51.734.0−74.9PickNet(V+L)[6]52.333.369.676.5RecNetlocal(SA-LSTM)[51]52.334.169.880.3基础解码器(我们的)47.534.471.489.9MARN(我们的)48.635.171.992.2表5.不同视频字幕模型在MSVD数据集上的性能,以四个指标(%)表示。5. 结论在这项工作中,我们提出了记忆出席用于视频字幕的递归网络(MARN)。该模型采用基于注意力的递归网络作为基本字幕解码器,并利用基于记忆的解码器来辅助解码过程。存储器被构造为捕获训练数据中的视频中的每个候选词与其各种视觉上下文之间的全谱对应关系,这使得MARN能够为源视频生成更精确的字幕。我们在两个真实世界的数据集上定量和定性地展示了MARN的优越性能8357引用[1] P. Anderson,X.他,C.Buehler、D.Teney,M.约翰逊先生,S. Gould和L.张某自下而上和自上而下关注图像字幕和vqa。在CVPR,2017年。[2] N.巴拉斯湖姚角,澳-地Pal,和A.考维尔深入研究卷积网络以学习视频表示。ICLR,2016年。[3] S. Banerjee和A.拉维Meteor:一种用于mt评估的自动度量,具有与人类判断的改进相关性。2005年在ACL研讨会[4] Y. Bengio,N.Boulanger-Lewandowski,和R.帕斯卡努递归网络优化的进展。载于ICASSP,2013年。[5] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在ACL,2011年。[6] Y. Chen,S. Wang,W. Zhang和Q.煌少即是多:为视频字幕挑选信息帧。在ECCV,2018。[7] K.乔湾,巴西-地van Merrienboer、D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性:编码解码器接近。在SSST-8会议录中,第八届统计翻译语义和结构,2014年。[8] R.达斯,M. Zaheer,S. Reddy和A.麦卡勒姆使用通用图式和记忆网络在知识库和文本上回答问题。在ACL(短文),2017年。[9] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。CVPR,2009。[10] J. Dong,X. Li,W.兰岛,澳-地Huo,和C. G.斯诺克视频字幕的早期嵌入和后期重排序。在2016年的ACM多媒体会议[11] Y. Feng,S. Zhang,中国古柏A. Zhang,L. Wang和A.亚伯记忆增强神经机器翻译。在EMNLP,2017年。[12] L. Gao,Z.Guo,H.Zhang,X.Xu和H.T. 沈基于注意力的 lstm 和 语 义 一 致 性 的 视 频 IEEE Transactions onMultimedia,19(9):2045[13] S. 瓜达拉马 N. 克里希那穆西 G. 马尔卡南卡,S. 韦 努 戈 帕 兰 河 Mooney , T. Darrell 和 K. 萨 恩 科Youtube2text:使用语义层次和零射击识别来识别和描述任意活动。InICCV,2013.[14] G. Haffari和S.马鲁夫基于记忆网络的文档上下文神经机器翻译。在ACL,2018年。[15] K. Hara,H. Kataoka和Y.佐藤时空3d cnns能回溯2d cnns和imagenet的历史吗。在CVPR,2018年。[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[17] Y. Jia,Y.叶,Y。冯,Y.莱河Yan和D.赵基于记忆网络的语篇衔接模式研究。在ACL(短文),第2卷,2018年。[18] W.江湖,澳-地妈妈,Y。- G.姜,W. Liu和T.张某图像字幕的递归融合网络。在ECCV,2018。[19] Q. Jin,J. Chen,S. Chen,Y. Xiong,和A.豪普特曼使用多模态融合描述视频。在ACM Multime-dia会议上,2016年。[20] W. Kay,J.卡雷拉湾西蒙尼扬湾Zhang C.,中国古猿科希利尔S.Vi- jayanarasimhan,F.Viola,T.格林,T.后退,P。Natsev 等人,The kinetics human action videodataset。arXiv预印本arXiv:1705.06950,2017。[21] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[22] A.小岛T. Tamura和K.福永基于动作概念层次的视频图像人类活动自然语言描述。IJCV,50(2),2002年。[23] R. Krishna,K. Hata、F.伦湖,澳-地Fei-Fei和J. C.尼布尔斯视频中的密集字幕事件。InICCV,2017.[24] L. Li和B.龚端到端视频字幕与多任务强化学习。2019年IEEE,2019。[25] C.- Y.是林书Rouge:一个用于自动评估摘要的软件包。文本摘要分支,2004年。[26] Y. Liu,X. Li和Z.石视频字幕与listwise监督。InAAAI,2017.[27] C.马角,澳-地Shen,中国古猿A. R. Dick和A.范登亨格尔。记忆增强网络的视觉问答。在CVPR,2018年。[28] L.妈Z。Lu和H.李使用卷积神经网络从图像学习回答问题。在AAAI,第3卷,2016年。[29] M. 莫赫塔拉米河 Bal y,J. Glass,P. 纳科沃湖Ma`rquez,和A. Moschitti使用端到端记忆网路的自动站姿侦测。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功