没有合适的资源?快使用搜索试试~ 我知道了~
少即是多:为视频字幕选择信息帧Yangyu Chen1,Shuhui Wang2,Weigang Zhang3 and Qingming Huang1,21中国科学院大学,北京,1000492Intell重点实验室Info. 过程.,Inst. 的Comput。技术人员:中国科学院,北京,1001903哈尔滨研究所地址:威海市威海经济技术开发区264200邮箱:yangyu.chen@ vipl.ict.ac.cn,wangshuhui@ict.ac.cn,wgzhang@hit.edu.cn,qmhuang@ucas.ac.cn网址:https://yugnaynehc.github.io/picknet抽象。 在视频字幕任务中,基于注意力的模型已经实现了最佳实践,该模型将视频中的显著视觉成分与句子相关联。然而,现有的研究遵循一个共同的过程,其中包括一个帧级的外观建模和运动建模的等间隔帧采样,这可能会带来冗余的视觉信息,敏感的内容噪声和不必要的计算成本。我们提出了一个即插即用的PickNet在视频字幕中执行信息帧拾取基于一个标准的编码器-解码器框架,我们开发了一个基于强化学习的程序来顺序地训练网络,其中每个帧拾取动作的奖励是通过最大化视觉多样性和最小化生成的字幕和地面实况之间的差异来设计的。将选择奖励的候选,并且将更新编码器-解码器的对应潜在表示此过程一直持续到视频序列结束。因此,可以选择紧凑的帧子集来表示视觉信息并执行视频字幕,而无需执行降解实验结果表明,我们的模型可以在流行的基准测试中获得有竞争力的性能,而只有6 〜 8帧。1介绍人类天生就具有识别有用信息和过滤冗余信息的能力。在生物学中,这种机制被称为感觉门控[6],它描述了从所有可能的环境刺激中过滤掉大脑中不必要的刺激的神经过程,从而防止大脑高级皮层中心的冗余信息过载这种认知机制基本上与计算机视觉领域的大量研究一致[13]。作为实践视觉感觉门控的有力证据之一,注意被引入以识别图像的具有高对象性和有意义的视觉模式的显著视觉区域[21,48]。它也已经建立在包含连续图像帧的视频上。现有的研究遵循一个共同的过程,其包括帧级外观建模和等间隔帧采样的运动建模,例如,每3帧或5帧[29]。视觉特征和运动特征是通讯作者。2陈阳宇,王淑慧,张伟刚,黄清明在所选择的帧子集上逐个提取,并且它们都被馈送到学习阶段。与图像类似,视频关注被识别为识别显著对象及其运动轨迹的时空显著性[27]。它也被认为是通过稀疏编码[41]或注视引导的注意力学习[45]学习的词-帧关联,这是一种事实上的帧加权机制。这种机制也有利于许多下游任务,例如图像和视频的视觉字幕和视觉问题回答[20,43,12]。3634323028(a) 从视频中26(b) 信息框架图1:视频中的时间冗余的图示。视频总是包含许多冗余信息。整个视频可以由帧(b)的一小部分表示,而相 等 采 样 的 帧 仍 然 包 含 冗 余 信 息(a)。245 10 15 20 25 30帧数图2:当使用不同数量的相等采样帧时,MSVD和MSR-VTT的验证集上的最佳METEOR分数。标准的编码器-解码器模型被用来生成字幕。尽管现有的基于注意力的方法在桥接视觉和语言方面取得了成功,但仍然存在以下关键问题需要解决。– 框架选择透视图。如图1(a)中所示,存在具有以等间隔帧采样选择的重复和冗余视觉外观信息的许多帧。这还将涉及显著的计算支出和较少的性能增益,因为来自输入的信息没有被适当地采样。例如,需要数百万次浮点计算来提取中等大小CNN模型的帧级视觉特征。此外,不能保证通过等间隔采样选择的所有帧都包含有意义的信息,因此它往往对诸如运动模糊、遮挡和对象缩小的内容噪声更敏感。– 下游视频字幕任务透视图。 以前的基于注意力的模型主要识别视觉显著性的空间布局,但存在于相邻帧中的时间冗余仍然没有解决,因为所有的帧都被考虑在内。这可能导致视觉语言相关性分析模型上的意外信息过载。例如,基于密集字幕的策略[27,17,14]可以通过为图像/视频剪辑中的许多视觉区域添加字幕来潜在地以更精细的细节与MSVD32.732.832.2MSR-VTT32.732.332.027.527.627.627.527.0 27.0METEOR评分少即是多:为视频字幕选择信息帧3随着帧数的增加,将产生许多高度相似的可视区域,并且由于序列到序列关联的搜索空间变得非常大,该问题将变得令人望而却步。我们已经进行了初步的研究,以调查多少帧是足够的视频字幕上的两个基准。如图2所示,使用更多的帧可能并不总是导致更好的性能,因为采样更多的帧可能倾向于包含噪声信息,并且使得训练过程更加困难。– 人的感知视角。视觉语言技术可以应用于描述人类周围环境信息,例如通过语音广播向驾驶员描述道路状况。基于现有的视频字幕方法,用于生成用于无尽视觉流的这种描述的朴素方式是在每个固定时间间隔中对帧进行采样。然而,确定适当的间隔是有问题的。如果间隔太长,可能会错过一些有用的信息,导致错误的描述。如果间隔过短,则由于视觉内容可能不会发生很大变化,因此将产生重复的描述,这对于驾驶员来说是令人烦恼的,因为他们专注于周围环境的变化。因此,有必要探索一种更合适的策略来捕捉信息框架并产生有意义的描述。为了解决上述问题,我们提出PickNet执行信息帧拾取视频字幕。具体来说,视频字幕中视觉语言关联的基本模型是标准的编码器-解码器框架[2]。我们开发 - 基于强化学习的过程,用于顺序地训练网络,其中通过考虑视觉和文本提示来设计每个帧拾取动作的奖励。从视觉角度来看,我们最大化当前挑选的帧候选和选定帧之间的多样性。从文本的角度来看,我们最小化生成的标题和地面真相之间的差异使用当前挑选的候选。将选择奖励的候选者,并且将更新编码器-解码器的对应潜在表示以用于将来的试验。此过程一直持续到视频序列结束。因此,可以选择紧凑的帧子集来表示视觉信息并执行视频字幕而不降低性能。据我们所知,这是第一个关于在线任务驱动的视频字幕帧选择的研究。与以往的工作[46]不同,我们的方法在视频字幕之前总结视频,在部分观察下选择帧设置,并且不需要任何辅助注释或信息。是十分必要对于现实世界的应用,由于视频摘要注释是主观的并且昂贵,并且在现实世界的应用中没有修剪的视频来总结,而只有无尽的视觉流。事实上,我们的框架可以超越视频字幕任务中的编码器-解码器框架,并作为其他国家的最先进的解决方案的补充构建块。它也可以被用于视频分析的其他特定任务目标调整。总之,我们的PickNet的优点包括:– 灵活性. 我们设计了一个即插即用的强化学习为基础的PickNet挑选信息帧的视频字幕。可以选择紧凑的帧子集来表示视觉信息并执行视频字幕而不会降低性能。4陈阳宇,王淑慧,张伟刚,黄清明– 效率该结构可以大大减少卷积运算的使用。这使得我们的方法更适用于现实世界的视频处理。– 有效性实验表明,我们的模型可以达到相当甚至更好的性能相比,国家的最先进的,而只有少量的帧被使用。2相关作品2.1视觉字幕视觉字幕是将视觉内容翻译成自然语言的任务。早在2002年,Kojima et al.[16]提出了第一个描述人类行为的视频字幕系统。从那时起,一系列的图像和视频字幕的研究已经进行。早期的方法使用自下而上的范式来解决这个问题[9,18,40,8],首先通过属性学习和对象识别生成图像的描述性单词,然后通过语言模型将它们组合起来,这些语言模型将预测的单词与预定义的句子模板相匹配。随着神经网络和深度学习的发展,现代字幕系统基于CNN,RNN和编码器-解码器架构[35,36]。字幕的一个活跃分支是利用注意机制来权衡输入特征。对于图像字幕,该机制通常是空间注意力的形式。Xu等人。 [39]首先介绍了一种基于注意力的模型,该模型自动学习将目光固定在突出对象上,同时在输出序列中生成相应的单词。对于视频字幕,添加时间注意力。Yao等人。 [41]考虑了视频的局部和全局时间结构来生成描述,并且他们的模型被学习以自动选择给定文本生成RNN的最相关的时间段然而,基于注意力的方法,特别是时间注意力,都是在完全可观察的条件下操作的,这不适合于一些现实世界的应用,如盲导航。我们的方法不需要全局信息的视频,这是更有效的,在这些应用程序。2.2帧选择在视频摘要化领域中,信息帧的选取是研究最多的问题。这个问题可以被公式化为图像搜索。例如,Song等人。 [32]考虑到与视频标题相关的图像可以作为重要视觉概念的代理,因此他们开发了一种协同原型分析技术,该技术可以学习视频和图像之间共享的规范视觉概念,并使用它来总结视频。其他研究人员使用稀疏学习来处理这个问题。 Zhao等人[47]提出了使用组稀疏编码从给定视频学习字典,然后通过组合不能使用学习的字典稀疏重构的片段来生成摘要视频。一些视频分析任务与帧选择机制协作例如,在动作检测中,Yeung等人。[42]设计了一个策略网络来直接预测动作的时间边界,这降低了处理整个视频的成本少即是多:为视频字幕选择信息帧5选!提高了检测性能。然而,该方法所做的预测是在归一化的全球位置的形式,这需要的视频长度的知识,使它无法处理真实的视频流。与上述方法不同的是,我们的模型基于语义和视觉信息来选择帧,并且不需要知道视频的全局长度。3方法我们的方法可以被看作是插入播放和插入PickNet到标准的编码器-解码器的视频字幕。PickNet顺序地挑选信息帧以生成适当地表示输入视频的视觉信息的紧凑帧子集。并且编码器-解码器使用该子集来生成关于视频的句子描述。3.1初步像大多数的视频字幕方法,我们的模型是建立在基于编码器-解码器的句子生成器。在本小节中,我们将简要介绍此构建块。图3:用于视频字幕的编码-解码过程。图4:PickNet使用平坦化的差分灰度图像作为输入,并产生伯努利分布以指示是否拾取当前帧。编码器。给定输入视频,我们使用递归视频编码器,其采用视觉特征(x1,x2,. . . ...as the representation代表of this video视频.该编码器构建在长短期存储器(LSTM)[11]单元之上,该单元已广泛用于视频编码,因为已知它可以正确处理长范围时间依赖性。与普通的递归神经网络单元不同,LSTM引入了一个记忆单元c,它维护了一个时间步长内观察到的输入对存储器单元的更新操作由输入门i_t控制,输入门i_t控制应如何将当前输入添加到存储器单元中。存储器单元;遗忘门FT,其控制当前存储器单元CT将从前一存储器CT-1遗忘什么;以及输出门OT,其控制当前存储器单元应当如何作为输出被传递。 这些门都将帧特征xt和前一个隐藏状态ht−1的组合作为输入,并使用sigmoid激活来避免梯度消失或爆炸。隐藏状态h和存储单元c6陈阳宇,王淑慧,张伟刚,黄清明不初始化为零向量。并且最后的隐藏状态hT被用作最终的编码视频表示v。解码器和句子生成。 一旦生成了视频的表示,如果被生成,则递归解码器可以使用它来生成对应的描述。在解码阶段的每个时间步,解码器单元使用编码向量v、先前生成的独热表示字wt-1和先前内部状态pt-1作为输入,并输出新的内部状态PT。像[2]一样,我们的解码器单元是门控的递归单元(GRU)[5],LSTM的简化版本,擅长语言解码。GRU的输出通过两个S形门进行调制:一个复位门rt,它决定如何删除以前的内部状态以生成下一个输出,以及一个更新门zt,它控制应该保留以前的内部状态的多少信息。softmax函数被应用于p_t以计算在当前时间步长处产生某个单词的概率:pω(wt|wt−1,wt−2,...,其中,Wp用于将解码器的输出投影到字典空间,并且表示编码器-解码器的所有参数此外,内部状态p被初始化为零向量。我们使用贪婪解码例程来生成每个字。这意味着在每个时间步,我们选择具有最大pω(wt)的词|wt−1,wt−2,...,w1,v)作为当前输出字。具体地,我们使用特殊令牌作为w0来开始解码,并且当解码器生成另一特殊令牌EOS >时,解码器将<生成一个新的令牌EOS>。编码过程终止。图5:我们的框架的典型帧拾取和编码过程F表示PickNet。E是编码器单元,并且V是编码的视频表示。设计选择是处理时间和计算成本之间的平衡该系统可以同时提取卷积特征,并决定是否在每个时间步选择帧。如果它决定不挑选帧在某个时间步长,卷积神经网络可以提前停止,以节省计算成本。3.2我们的方法架构PickNet旨在选择信息丰富的视频内容,而无需了解全局信息。这意味着挑选决策只能基于当前少即是多:为视频字幕选择信息帧7观察和历史,这使得它比视频摘要任务更困难。更具有挑战性的问题是,我们没有监督信息来指导PickNet在视频字幕任务中的学习因此,我们将问题表述为强化学习任务,即,给定从视频采样的输入图像序列,代理应该在一定策略下选择它们的子集以尽可能多地保留视频内容在这里,我们使用PickNet来生成拣选策略。图4显示了PickNet的架构。考虑到计算效率,我们使用一个简单的两层前向神经网络作为PickNet的原型。该网络有两个输出,指示拾取或丢弃当前观察帧的概率我们将帧拾取过程建模对于每个输入帧zt,我们首先将将彩色图像转换为灰度图像,然后将其调整大小为较小的图像gt,可以被视为当前帧的然后,我们将当前扫视g_t减去最后拾取的帧g_t的扫视,以获得灰度差图像d_t;这可以被视为最后,我们将2D灰度差图像平坦化为1D固定大小向量,并将其馈送到PickNet以产生Bernoulli分布,从中采样选择决策:st=W2(max(W1vec(dt)+b1,0))+b2(2)pθ(at|其中W*是学习的权重矩阵,b*是学习的偏置向量。在训练过程中,我们使用随机策略,即,该动作根据以下方式被采样等式⑶。当测试时,策略变得确定,因此选择具有更高概率的动作。 如果策略决定挑选当前帧,则帧特征将由预训练的CNN提取并嵌入到较低维度中,然后传递到编码器单元,并且模板将被更新:g〜←gt。我们强制PickNet选择第一帧,因此编码器将始终在这使得训练过程更鲁棒。图5显示了PickNet如何与编码器一起工作。值得注意的是,PickNet的输入可以是任何其他形式,例如光流图之间的差异,这可以更适当地处理运动信息。奖励奖励的设计对于强化学习是非常重要的。为了挑选信息丰富的视频帧,我们考虑两个部分的奖励:语言奖励和视觉多样性奖励。语言奖励。首先,挑选的框架应该包含丰富的语义信息,可以用来有效地生成语言描述。在视频字幕任务中,使用评估的语言度量作为语言回报是自然的。在这里,我们选择CIDEr [33] score。给定视频Vi的一组拾取帧Vi以及人类生成的参考句子的集合Si={sij},CIDEr的目标是是测量机器生成的句子C1与大多数How大多数人描述视频。因此语言奖励rl被定义为:rl(Vi,Si)=CIDEr(ci,Si)(4)8陈阳宇,王淑慧,张伟刚,黄清明2视觉多样性奖励。此外,我们希望挑选的帧具有良好的视觉特征多样性。仅使用语言奖励可能会遗漏一些重要的视觉信息,因此我们引入视觉多样性奖励rv。对于所有选定的框架要素{xk∈RD},我们使用成对余弦距离来构造视觉多样性回报:Np−1 NpTV=2∑ ∑(1−xkxm),(5)viNp(Np−1)k=1m>kxk其中Np是拾取帧的数量,·2是向量的2范数选择限制。如果拾取的帧的数量太大或太小,则可能导致效率或有效性方面的不良性能所以我们分配一个负的奖励来阻止这种情况。根据经验,我们设置最小拾取数量Nminas 3,代表开始、高亮和结束。最大拾取数Nmax最初被设置为总帧数的1,并且将随着训练过程而缩小,直到减小到最小值τ。综上所述,我们将reward的两部分合并,最后的reward就可以写成作为r(Vi)={λlrl(Vi,Si)+λvrv(Vi)如果Nmin≤Np≤NmaxR-否则,(六)其中λ*是加权超参数,R−是惩罚。3.3培训训练过程分为三个阶段。第一阶段是预训练编码器-解码器。我们称之为监督阶段。 在第二阶段 ,我们固定 编码器 -解码器 ,并通过强 化学习训练PickNet。这被称为强化阶段。最后一个阶段是PickNet和编解码器的联合训练。我们称之为适应阶段。我们使用标准的反向传播来训练编码器-解码器,并使用REINFORCE [37]来训练PickNet。监督阶段。 当训练编码器-解码器时,传统方法使用反向传播来最大化给定先前地面实况字的下一个地面实况字的可能性。然而,这种方法会导致暴露偏差[25],这会导致测试时生成过程中的误差累积,因为模型从未暴露于自己的预测。为了缓解这种现象,使用了调度采样[3]程序,该程序反馈模型我们使用具有交叉熵损失的SGD来训练编码器-解码器。 给定地面真值句子y =(y1,y2,. . . ,ym),则损失被定义为:LX(ω)=−∑mt=1log(pω(yt|yt−1,yt−2,. . . y1,v)),(7)其中pω(yt|yt−1,yt−2,. . . y1,v)由方程(1)中的参数模型给出。少即是多:为视频字幕选择信息帧9S不不Ss伊什伊什n强化阶段。在这一阶段,我们修复了编码器-解码器,并将其视为环境,可以产生语言奖励来加强PickNet。训练的目标是最小化负面期望回报:LR(θ)=−E[r(Vi)]=−Easpθ[r(a)],(8)其中θ表示PickNet的所有参数,pθ是由等式(3)参数化的学习策略,并且αs=(αs,αs,. . . ,as)是动作序列,其中as是动作1 2 Tt在时间步长t从学习的策略中采样。s是表示某个采样序列的上标s=1意味着帧t将被拾取。Vi与a为:Vi={xt|as=1∧xt∈vi},(9)即,Vi是在动作序列a之后从输入视频Vi拾取的帧。我们使用基于观测值的REINFORCE算法来训练PickNet假设不可微的预期回报的梯度可以计算如下:θLR(θ)= −Eas(十)使用链式法则,梯度可以重写为:∑nLR(θ)st ∑ssstθLR(θ)=t=1stθ=t=1−Easpθr(a)(pθ(at)−1as)θ,(11)其中st是softmax函数的输入在实践中,可以使用单个蒙特卡罗样本as=(as,as,. . . ,as)从pθ:1 2N∑ns stθLR(θ)≈−t=1r(a)(pθ(at)−1as)θ。(十二)当使用REINFORCE来训练策略网络时,我们需要估计一个基线奖励b,以减少梯度的方差。这里,自我批判[26]策略用于估计b。简而言之,在测试阶段使用的推理下由当前模型获得的回报,表示为r(a),被视为基线回报。因此,最终的梯度表达式为:s∑stθLR(θ)≈−(r(a)−r(at=1(pθ(at)−1as)θ。(十三)适应阶段。在前两个阶段之后,编码器-解码器和PickNet都经过了良好的预训练,但它们之间存在差距,因为编码器-解码器使用完整的视频帧作为输入,而PickNet只选择一部分帧。因此,我们需要一个联合训练阶段,将这两个部分整合在一起。然而,挑选动作是不可微的,因此交叉熵损失引入的梯度不能流入PickNet。因此,我们遵循近似的联合训练方案。在每次迭代中,前向传递生成帧拾取 ,其在训练 编码器-解码器 时被视为固 定拾取,并 且反向传 播和REINFORCE更新照常执行。它的作用类似于在时间序列中执行丢弃,这可以提高编码器-解码器的通用性。不不n不10陈阳宇,王淑慧,张伟刚,黄清明4实验装置4.1数据集我们在两个广泛使用的视频字幕基准数据集上评估我们的模型微软视频描述(MSVD)[4]和MSR视频到文本(MSR-VTT)[38]。Microsoft视频说明(MSVD)。Microsoft视频说明也称为YoutubeClips。它包含1,970个Youtube视频片段,每个片段都标有亚马逊机械土耳其人收集的大约40个英文描述。与之前的工作[34]一样,我们将数据集分为三个部分:前1,200个视频用于训练,然后是随后的100个视频用于验证,剩余的670个视频用于测试。该数据集主要包含单个动作的短视频片段,平均时长约为9秒。因此,非常适合仅使用帧的一部分来表示完整视频。MSR视频到文本(MSR-VTT)。MSR Video-to-Text是视频字幕的大规模基准。它提供10,000个视频片段,每个视频都有20个英文描述和类别标签。因此,总共有200,000个视频字幕对。该数据集是从商业视频搜索引擎收集的,到目前为止,它涵盖了最全面的类别和多样化的视觉内容。根据原始论文,我们将数据集按索引号划分为连续的视频组:培训6,513人,验证497人,测试2,990人。4.2度量我们采用四种常用的评估指标:BLEU [24]、ROUGE L[19]、ME-TEOR [1]和CIDER。在以前的视频字幕工作中所做的,我们使用METEOR和CIDER作为主要的比较指标。另外,微软COCO评测服务器已经实现了这些指标,并发布了评测函数1,所以我们直接调用这样的评测函数来测试视频字幕的性能。此外,CIDEr奖励由这些函数计算。4.3视频预处理首先,我们为每个视频等间距采样30帧,并将其调整为224×224分辨率。然后使用ResNet152 [10]的最终卷积层对图像进行编码,这会产生一组2,048维向量。大多数视频字幕模型使用运动特征来提高性能。然而,由于提取运动特征非常耗时,我们在模型中只使用了外观特征,这背离了我们减少计算量的目的。视频字幕,外观特征足以表示视频内容时,冗余或噪声帧被过滤我们的PickNet。1https://github.com/tylin/coco-caption少即是多:为视频字幕选择信息帧114.4文本预处理我们通过将所有单词转换为小写字母来标记标记句子,然后利用NLTK工具箱中的单词标记功能将句子拆分为单词并删除标点符号。然后,移除频率小于3的字。结果,我们从MSVD获得了5,491个单词的词汇表,从MSR-VTT获得了13,064个单词对于每个数据集,我们使用one-hot向量(1-of-N编码,其中N是词汇的大小)来表示每个单词。4.5实现细节我们使用验证集来调整我们框架的一些超参数。三个训练阶段的学习率分别设置为3×10−4、3×10−4和1×10−4。MSVD的训练批量为128,MSR-VTT的训练批量为256,而每个阶段最多训练50个epoch,最佳模型用于初始化下一阶段。最大拾取帧τ的最小值设置为7,惩罚R−为−1。为了正则化训练并避免过拟合,我们在编码LSTM和解码GRU的输入和输出上应用众所周知的正则化技术Dropout,保留概率为0.5。视频特征和单词的嵌入具有大小512,而所有循环隐藏状态的大小根据经验被设置为1024。对于PickNet,glance的大小为56×56,隐藏层的大小为1,024。Adam [15]优化器用于更新所有参数。5结果和讨论我们的:一只猫在和一只狗玩GT:一只狗在和一只猫玩我们的:一个人正在解决一个魔方图6:MSVD(左)和MSR-VTT(右)的示例结果。绿色框表示拾取的帧。(最好用彩色和放大的方式查看帧按时间顺序从)的方式图6给出了两个数据集的测试集上的一些示例结果。可以看出,我们的PickNet可以选择信息帧,因此我们模型的其余部分可以使用这些选定的帧来生成合理的描述。简而言之,可以发现拾取帧的两个第一个特点是所挑选的帧简洁12陈阳宇,王淑慧,张伟刚,黄清明六模型BLEU4 ROUGE-L 流星苹果酒时间模型BLEU4 ROUGE-L 流星苹果酒时间以前的工作LSTM-E [23]45.3-31.0-5xp-RNN [44]49.9-32.665.85xHRNE [22]43.8-33.1-33xBA [2]42.5-32.463.512x基线模型充分44.868.531.669.45x随机35.664.528.449.22.5xk-均值(k=6)45.268.532.470.91x赫卡忒[31]43.267.431.768.81x我们的模型以前的工作Ruc-uva [7]38.758.726.945.94.5x阿尔托[28]39.859.826.945.74.5x[27]第二十七话41.461.128.348.9 10.5倍MS-RNN [30]39.859.326.140.910x基线模型充分36.859.026.741.2 3.8倍随机31.355.725.232.61.9xk-均值(k=8)37.859.126.941.41x赫卡忒[31]37.359.126.640.81x我们的模型PickNet(V)PickNet(L)46.349.969.369.332.332.975.174.71x1xPickNet(V+L)52.369.633.376.51x表1:MSVD的实验结果。表2:MSR-VTT的实验结果所有值均报告为百分比(%)。L表示以百分比(%)报告的值。C表示使用语言奖励,V表示使用vi-使用所提供的类别信息。k是共同的危险性研究。k被设置为MSR上的平均拾取数N'的平均投梭数N¯关于MSVD(N¯(16)VTT.(N¯p(1998年8月)并且与所生成的描述高度相关,并且第二个是可以拾取相邻帧来表示动作。为了证明我们的框架的有效性,我们将我们的方法与两个数据集上的一些最先进的方法进行了比较,并在随后的部分中分析了PickNet5.1与最新技术水平的比较我们将我们的MSVD方法与四种最先进的视频字幕方法进行比较:LSTM-E[23],p-RNN [44],HRNE [22]和BA [2]。LSTM-E使用视觉语义嵌入来生成更好的字幕。p-RNN使用时间和空间注意力。BA使用分层编码器,而HRNE使用分层解码器来描述视频。所有这些方法都使用运动特征(C3D或光流)并逐帧提取视觉特征此外,我们报告了我们的基线模型的性能为了将我们的PickNet与一般的拾取策略进行比较,我们分别通过随机选择和k-均值聚类来进行帧拾取试验。特别地,为了与视频摘要方法进行比较,我们选择Hecate [31]来产生帧级摘要并使用它来生成字幕。为了分析不同奖励的效果,我们对它们进行了消融研究如表1所示,我们的方法改进了普通技术,并在MSVD上实现了最先进的性能这一结果优于最新的最先进的方法以76分的优势领先5-658≈16。CIDER指标的3%。此外,我们试图比较这些方法之间的时间效率。然而,大多数的国家-现有技术的方法不释放可执行代码,因此可能无法获得准确的性能。相反,我们通过视觉特征提取器的复杂性和处理帧的数量来估计运行时间多亏了PickNet,我们的字幕模型比其他方法快5 - 33pppPickNet(V)PickNet(L)PickNet(V+L)36.937.339.458.958.959.726.827.027.340.441.942.31x1x1xPickNet(V+L+C)41.359.827.744.11x少即是多:为视频字幕选择信息帧13MSVD-VTT选择数量(%)3012151012896642301 5 10 15 20 2530选择数量01 5 10 15 20 25 30帧ID(a) 拾取数量的分布(b)截齿位置的分布。图7:关于我们的PickNet行为的统计数据。在MSR-VTT上,我们比较了四种最先进的方法:ruc-uva [7],Aalto [28],DenseVidCap [27]和MS-RNN [30]。Ruc-UVA将编码器-解码器与两个新的阶段结合,这两个新的阶段被称为早期嵌入和后期重新排序,早期嵌入利用标签嵌入来丰富输入,后期重新排序根据所生成的句子与特定视频的相关性来对所生成的句子进行重新评分。Aalto首先训练两个分别基于属性特征和运动特征的模型,然后训练一个评价器来选择两个字幕模型产生的最佳候选。DenseVidCap生成关于视频片段的多个句子,并使用赢家通吃方案来生成最终描述。MS-RNN使用多模态LSTM对视频中的不确定性进行建模,以生成不同的字幕。与这些方法相比,我们的方法可以简单地以端到端的方式进行训练,并且不依赖于任何辅助信息。表2中报告了这些方法的性能和我们的解决方案的性能我们观察到,我们的方法是能够实现有竞争力的结果,即使不利用属性信息,而其他方法利用属性和辅助信息源。此外,我们的模型是比较方法中最快为了公平地展示我们方法的有效性,我们将提供的类别信息嵌入到我们的语言模型中,并且可以实现更好的准确性(表2中的PickNet还值得注意的是,PickNet可以很容易地与比较的方法集成,因为它们都没有与帧选择算法结合。例如,Dense-VidCap基于相等采样的帧生成区域序列候选。它也可以利用PickNet通过减少所选帧的数量来减少生成候选帧的时间。5.2学习拨片我们收集有关PickNet属性的统计数据。图7显示了分布,在MSVD和MSR-VTT的测试集上拾取帧的数量和位置的分布。如图7(a)所示,在绝大多数视频中,挑选的帧少于10帧。这意味着,在大多数情况下,只有1033。3%的帧需要被编码用于字幕视频,这可以大大降低计算成本。具体地,对于MSVD,拾取的平均数量约为6,而对于MSR-VTT,拾取的平均数量约为8。查看图7(b)中的拨片位置分布,我们观察到一种模式MSVD-VTT视频数量(%)14陈阳宇,王淑慧,张伟刚,黄清明幂律分布,即,拾取帧的概率随着时间的推移而降低。这是合理的,因为大多数视频是单镜头的,并且前帧足以表示整个视频。5.3流式视频的字幕一只猫在玩→一只兔子在玩→一只兔子被抚摸→一个人正在抚摸一只兔子×3图图8:一个在线视频字幕的例子。我们的方法的优点之一是,它可以应用到流媒体视频。与离线视频字幕不同的是,流媒体视频字幕要求模型能够处理无界视频,并在视觉信息发生变化时立即生成描述对于此在线设置,我们首先以1fps的速度采样帧,然后将采样的帧顺序馈送到PickNet。如果拾取了某个帧,则预训练的CNN将用于提取该帧的视觉特征。之后,编码器将接收该特征,并且产生直到当前时间的视频流的新的编码表示。最后,解码器将基于编码表示生成描述。图8展示了具有所拾取的帧和相应描述的在线视频字幕的示例。如图所示,随着信息帧被拾取,描述将更合适并且更确定。6结论在这项工作中,我们设计了一个即插即用的强化学习为基础的PickNet选择信息帧的视频字幕的任务,实现了有前途的性能的有效性,效率和灵活性的流行的基准。这种结构可以大大减少卷积运算的使用,只6 〜 8帧的视频剪辑,而其他视频分析方法通常需要超过40帧。这一性质使得我们的方法更适用于真实世界的视频处理. PickNet具有很好的灵活性,可以潜在地应用到其他视频相关的应用,如视频分类和动作检测,这将在我们未来的工作中进一步解决。7确认本 工 作 得 到 国 家 自 然 科 学 基 金 部 分 资 助 : 61672497 、 61332016 、61620106009 、 61650202 和 U1636214 , 国 家 自 然 科 学 基 金 部 分 资 助 :61672497、61332016、61620106009、61650202和U1636214。国家973研究计划:2015 CB 351802,部分由中国科学院前沿科学重点研究计划:QYZDJ-SSW-SYS 013。少即是多:为视频字幕选择信息帧15引用1. Banerjee,S.,Lavie,A.:Meteor:一种改进了与人类判断相关性的mt评估自动度量在:ACL。pp. 652. 巴拉尔迪湖格拉纳角Cucchiara,R.:用于视频字幕的分层边界感知神经编码器在:CVPR中。pp. 31853. Bengio,S.,Vinyals,O.,Jaitly,N.,Shazeer,N.:循环神经网络序列预测的计划采样在:NIPS。pp. 11714. Chen,D.L.Dolan,W.B.:收集高度并行的数据进行释义评估。在:ACL。pp. 1905. 周,K.,van Merrienboer,B.,Gulcehre角Bahdanau,D.,Bougares,F.,Schwenk,H.,Ben- gio,Y.:使用rnn编码器-解码器学习短语表示用于统计机器翻译。In:EMNLP. pp. 17246. 克伦威尔,H.C.Mears,R.P.,万湖,加-地Boutros,N.N.:感觉门控:从基础到临床科学的转化临床脑电图和神经科学39(2),697. 董,J.,Li,X.,Lan,W.,霍,Y.,Snoek,C.G.M.:早期嵌入和后期重新排序视频字幕在:ACM多媒体. pp. 10828. Fang,H.,中国农业科学院,古普塔,S.,Iandola,F.,Srivastava,R.K.,邓湖Dollar,P.,高,J.,他,X.,Mitchell,M. Platt,J.C.,Zitnick,C.L.,Zweig,G.:从标题到视觉概念再到后面。在:CVPR中。pp. 14739. Farhadi,A.,Hejrati,M.,Sadeghi,硕士,扬,P.,Rashtchian,C.Hockenmaier,J.,Forsyth,D.:每张照片都在讲述一个故事:从图像生成句子。In:ECCV. pp. 15-29(2010)10. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:CVPR中。pp.77011. Hochreiter,S.,Schmidhuber,J.J.J.:长短期记忆。Neural Computation9(8),173512. Hori角Hori,T.,Lee,T.Y.,Sumi,K.,赫尔希J.R.马克,T.K.:基于注意力的多模态融合视频描述。In:ICCV. pp. 420313. 伊蒂湖Koch,C.,尼布尔,E.:基于显著性的快速场景分析视觉注意模型。IEEETransactions on pattern analysis and machine intelligence20(11),125414. Johnson,J.,Karpathy,A.,李菲菲:Densecap:用于密集字幕的全卷积定位网络。在:CVPR中。pp. 456515. 金玛,D.P.,Ba,J.L.:亚当:随机优化的一种方法载于:ICLR(2015)16. Kojima,A.,田村,T.,Fukunaga,K.:基于动作概念层次的视频图像人类活动自然语言描述IJCV50(2),17117. Krause,J.,Johnson,J.,克里希纳河李菲菲:一种分层的方法来生成de-脚本图像段落。在:CVPR中。pp. 333718. Kulkarni,G.,Premraj,V.,Dhar,S.,Li,S.,崔,Y.,Berg,A.C.,Berg,T.L.:婴儿谈话:理解和生成图像描述.在:CVPR中。pp. 160119. Lin,C.Y.:Rouge:一个用于自动评估摘要的软件包03 The Dog(2004)20. 卢,J,杨杰,Batra,D.,Parikh,D.:视觉问题回答的分层共同注意在:NIPS。pp.28921. Mnih,V.,Heess,N.格雷夫斯,A.,Kavukcuoglu,K.:视觉注意的循环模型在:NIPS。pp.第220422. Pan,P.,徐志,杨,Y.,吴,F.,Zhuang,Y.:用于视频表示的分层递归神经编码器在:CVPR中。pp. 102923. 潘,Y.,Mei T Yao,T.,Li,H.,Rui,Y.:联合建模、嵌入和翻译,搭建视频和语言的桥梁。在:CVPR中。pp. 459416陈阳宇,王淑慧,张伟刚,黄清明24. Papineni,K.,Roukos,S.,Ward,T. Zhu,W.J.:Bleu:一种机器翻译的自动评测方法。在:ACL。pp. 31125. Ranzato,M.,Chopra,S.,Auli,M.,Zaremba,W.:使用循环的序列级训练神经网络。In:ICLR(2016)26. Rennie,S.J.,Marcheret,E.,Mroueh,Y.,Ross,J.Goel,V.:图像字幕的自我
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功