没有合适的资源?快使用搜索试试~ 我知道了~
2653双向多速率重建视频时间模型林超朱忠文徐毅杨才悉尼科技大学{zhulinchao7,zhongwen.s.xu,yee.i.yang}@ gmail.com摘要尽管神经网络最近在图像特征学习方面取得了成功,但视频领域的一个主要问题是缺乏足够的标记数据来学习对时间信息进行建模。在本文中,我们提出了一种无监督的时间建模方法,从未修剪的视频学习。运动速度不断变化,一个人可以跑得快或慢。因此,我们通过对具有不同间隔的剪辑的帧进行编码来训练多速率视觉递归模型(MVRM)。该学习过程使得学习的模型更能够处理运动速度变化。给定一个从视频中采样的片段,我们使用它的过去和未来相邻片段作为时间上下文,并重建两个时间跨。位置,即,现在→过去过渡和现在→未来过渡,反映了不同时间的时间信息,意见.所提出的方法利用两个过渡模拟,通过将双向recruitment,其中包括一个向后重建和一个for-ward重建。 我们将所提出的方法应用于两个具有挑战性的视频任务,即,复杂事件检测和视频字幕,其中它实现了最先进的性能。值得注意的是,我们的方法在MEDTest-13数据集上生成了用于事件检测的最佳单个特征,相对改善了10.4%,并在YouTube 2 Text数据集上的所有评估指标中实现了视频字幕1. 介绍时间信息在视频表示建模中起着关键作用。在早些年,手工制作的功能,密集轨迹(DT)和改进的密集轨迹(iDT)[46,47]使用沿轨迹的局部描述符来对视频运动结构进行建模。尽管实现了有前途的性能,但由于光流的计算成本很高,DT和iDT提取起来非常昂贵,并且使用1,000个CPU内核提取8,000小时的网络视频的iDT特征需要大约一周的时间[49]。深度视觉功能最近取得了显着的固定利率多个速率图1.帧采样率应根据不同的运动速度而变化在该示例中,仅最后三个帧具有快速运动。虚线箭头对应于固定采样速率,而实线箭头对应于多个速率。在图像分类和检测任务中,以高效的处理速度比手工制作的特征具有更好的性能[23,14,12]。然而,在深度卷积神经网络(ConveNets)之上学习视频表示仍然是一个具有挑战性的问题。双流Con-vNet [36]在学习短视频剪辑上的视频运动结构方面具有开创性意义虽然它实现了与iDT在时间上修剪的视频相当的性能,但双流ConvNet仍然需要提取光流。沉重的成本严重限制了基于光流的方法的实用性,特别是在大规模视频数据的情况将2D ConvNet扩展到3D,C3D ConvNet已被证明是有效的时空建模,它避免了提取光流。然而,它只能对短视频中的时间信息进行建模,通常为16帧[42]。递 归 神 经 网 络 ( RNN ) , 特 别 是 长 短 期 记 忆(LSTM)[16,27]和改进的分层递归神经编码器(HRNE)[28],已被用于对视频中的[27]和[28]的一个主要限制是,在训练RNN时,输入帧以固定的采样率编码。另一方面,即使在同一视频中,视频的运动速度也会变化。如图1所示,在前四帧中几乎没有明显的运动,但在最后三帧中观察到快速运动。如图所示,对于前四个帧,编码速率应当相应地低,但是对于后三个帧,编码速率应当相应地高2654的实箭头。然而,固定速率策略对于前四帧是冗余的,而对于后三帧的重要信息丢失。在现实世界视频中,固定编码速率和运动速度变化之间的差距可能会降低性能,特别是当变化很大时。尽管端到端方法用于学习判别特征的吸引力,但是这样的方法需要大量的标记数据来实现具有合理的泛化能力的良好性能。与图像相比,大量的视频由人类标记是非常昂贵的例如,最大的公共人类标记视频数据集(ActivityNet)[11]只有20,000个标记视频,而ImageNet数据集有超过一百万个标记实例[34]。在UCF-101数据集[37]上训练的Temporal Con- vNet具有约10,000个时间修剪的视频,但在时间上未修剪的数据集上没有很好地泛化[50]。Srivastavaet al. [39]提出了以无监督的方式训练复合自动编码器,以学习视频时间结构,基本上通过预测未来帧和重构当前帧。受最近一项神经科学研究的启发,该研究表明,一个共同的大脑网络是记忆过去和想象未来的能力的基础[35],两个时间转换,即,现在→过去过渡和现在→未来过渡。重要的是,视频运动速度在未修剪的视频中不断变化,Srivastava等al. 直接使用具有单一固定采样率的LSTM,使其容易受到运动速度变化的影响。在本文中,我们提出了一种无监督的方法来学习未经修剪的视频时间信息建模,而无需计算光流的沉重成本。它作出了以下两项主要贡献。首先,我们的多速率视觉递归模型采用多个编码速率,并且与门控递归单元中的读取门和更新门一起,它使不同编码速率之间的通信成为可能,并且协同学习多速率表示,该表示对视频中的运动速度变化具有鲁棒性。第二,我们利用两个学习过程的相互利益,在两个方向上重建的时间背景。这两个学习方向相互正则化,从而减少了过度拟合问题。这两个贡献产生了一个新的视频表示,它在两个不同的任务中实现了最佳性能。请注意,[49]中提出的方法已被证明是事件检测的最佳单一特征,并且我们的方法在两个具有挑战性的数据集上的相对改进为10.4%和4.5%,分别为MEDTest-13和MEDTest-14。在视频字幕任务中,我们的单一功能在所有评估指标上都优于其他最先进的方法有价值的人-指出在非常罕见的情况下,一种方法可以在所有评估度量上优于用于视频字幕的所有其它方法。这些结果证明了所提出的方法的有效性2. 相关工作改善视频视觉表现的研究工作一直在进行中。沿着时空轨迹提取的HOF [25]和MBH [8]等局部特征已被用作密集轨迹特征[46]及其变体[47]中的运动描述符。但众所周知,提取手工制作的特征(如改进的密集轨迹(iDT)[47,49])效率低下,主要是由于局部描述符的密集采样性质和光流的耗时提取。另一方面,在网络视频分类和动作识别任务中,许多基于神经网络的方法已经超越了最先进的手工特征的分类性能[49,48]。卷积网络用于视频分类。 使用ConvNets进行视频分类的一种方法是在卷积激活上执行时间池化Ngetal. [27]提出通过在视频帧的最后一个卷积层上使用最大池来学习全局视频表示。Wang等人[48]沿着从iDT获得的tracklet聚合ConvNetXu等[49]将VLAD编码[18]应用于ConvNet激活,并发现编码方法优于均值池。另一种常见的解决方案是将多个帧作为输入提供给ConvNets。Karpathy等人[19]提出了一种卷积时间融合网络,但它仅略优于单帧基线。Tran等人[42]通过利用3D ConvNets对运动信息进行建模,避免了光流的提取。Simonyan和Zisserman [36]将光流作为ConvNet的流图像输入,这种双流网络在动作识别方面的性能比以前的网络要好得多。复发性网络为视频分类.Ng等人[27]Donahueet al.[10]研究了使用长短期记忆(LSTM)对视频中的时间结构建模[16]。然而,即使有五层LSTM,经过数百万个视频的训练,与ConvNets相比,它们并没有表现出令人满意的性能[27]。Patraucean等人[31]使用时空自动编码器通过光流预测和下一帧的Ballas等人[4]使用卷积门控递归单元(ConvGRU),其利用来自不同空间水平的激活的信息。Srivas- tava等。[39]使用LSTM以无监督的方式对视频序列进行建模。在这项工作中,我们将RNN用于视频表示学习,通过了解视频内容的多速率特性来改善表示此外,2655∗∗∗V H邻域以无监督的方式被纳入网络,提供了更丰富的训练信息,并创造了从大量未经修剪的视频中学习的机会。视频字幕。视频字幕作为连接视觉理解和自然语言描述的桥梁,近年来已成为一个热门的任务。条件是在视觉上下文中,RNN每一步产生一个单词来生成视频的字幕。Venugopalan等人[44]使用堆叠序列到序列(seq2seq)[40]模型,其中慢食FastSlowVht-1Ux++LSTM用作视频序列编码器,另一个LSTM用作字幕解码器。Yao等人[51]在描述解码阶段引入了时间注意机制。Pan等人[28]提出使用分层LSTM对视频序列进行建模,而Yu等人。[52]使用分层GRU网络来模拟字幕的结构。在这项工作中,我们证明了在我们的模型中学习的强视频表示改进了视频字幕任务,证实了我们的特征的泛化能力。3. 多速率视觉递归模型在本节中,我们将介绍我们的视频序列建模方法。我们首先回顾了门控递归单元(GRU)的结构,并将GRU扩展到多速率版本。然后介绍了无监督表示学习的模型架构,随后介绍了事件检测和视频字幕的任务特定模型在模型描述中,为了增加可读性,我们省略了所有的偏差项。3.1. 多速率门控循环单元图2.我们在mGRU中说明了这两种模式 在慢到快模式中,状态矩阵V是块上三角矩阵,并且在快到慢模式中,它们是块下三角矩阵。多速率门控递归单元(mGRU)。受发条RNN [22]的启发,我们将GRU单元扩展到多速率版本。发条RNN使用延迟的输入连接和步骤之间的相互连接来捕获更长的依赖关系。与传统的RNN不同,在传统的RNN中,状态中的所有单元都遵循等式中的协议1,发条RNN中的状态和权重被分成不同的组,以不同的速率对信息进行我们将状态ht分成k组,每组gi具有时钟周期Ti,其中i∈ {1,. . . ,k}。Ti可以是任意数,我们经验性地使用k=3并设置T1,T2,T3=1,3,6。较快的组(具有较小的Ti)比较慢的组,较慢的模块跳过更多的输入。形式上,在每个步骤t,满足(tMODTi)=0的组的矩阵被激活并且用于计算下一状态,其为ri =σ(Ui x 公司简介Vi,jhj),门控经常性股。在每一步t,GRU单元获取t rtj=1rt−1帧表示xt和先前状态ht-1作为输入zi=σ(Uix公司简介Vi,jhj),并生成隐藏状态H以及输出O的t ztj=1zt−1(三)t th<$i=tanh(Uix公司简介Vi,j(rihj))的情况下,由下式计算th'不j=1h<$ tt−1hi=(1−zi) hi+zih<$i,rt =σ(Ur xt + Vrht−1),t t t−1t tzt =σ(Uz xt + Vz ht−1),h<$t=tanh(Uh<$xt+Vh<$(rtht−1)),ht=(1−zt) ht−1+zth<$t,ot = Wo ht,(一)其中,状态权重矩阵Vk被划分为k个块行,并且每个块行被划分为k个块列。Vi,j表示块行i和块列j中的子矩阵。 输入权重矩阵Ui被划分为k个块行,并且Ui表示块行i中的权重其中xt是输入,rt是复位门,zt是更新门,ht是建议状态,h<$t是内部状态,σ是sigmoid激活函数U和V是加权函数,和Σ.iVi,jhj, 快速→慢速模式kVi,jhj=1 t−1trices,而xes是元素乘法。输出ot通过状态ht的线性变换计算。我们将整个过程表示为:j=1μmt−1k i,jjj=it−1, 慢速→快速模式(四)ht , ot=GRU ( xt , ht−1 ) ,(2)当它迭代了S步时,我们可以得到最后一步的状态hS。两种模式可用于状态转换。在从慢到快模式中,较快组的状态考虑先前较慢的状态,因此较快状态不仅包含当前速度的信息,而且包含较慢且不太快的信息。Σ2656不我1、…SSS1、…S不不更粗糙。从快到慢模式的直觉是,当慢模式被激活时,它可以利用已经在更快状态中编码的信息。这两种模式如图2所示。从经验上讲,我们在模型中使用了从快到慢的模式,因为它在初步实验中表现得更好如果(tMODTi)0,则直接传递先前的状态第3组(T3=4)第2组(T2=2)第1组(T1=1)转移到下一个州hi= hi。(五)输入0输入1输入2 输入3输入4t t−1图3说明了状态迭代过程。请注意,并非所有先前的模块都被考虑在每个步骤中计算下一个状态,因此将使用更少的参数,并且训练将更有效。3.2. 无监督视频序列重建视频序列与其相邻的上下文剪辑高度相关。我们使用上下文重建的思想对视频序列建模。类似的方法已经成功地应用于语言建模和其他语言任务[26,21]。在无监督训练过程中,我们遵循经典的序列到序列(seq2seq)模型[40],其中编码器对输入序列进行编码,并将最后一个状态传递给解码器以生成目标序列。在我们的场景中,mGRU编码器将从预训练的卷积模型中提取的帧级特征作为输入,并在图3.展开mGRU。在该示例中,状态被分为三组,并且示出了从慢到快的模式。在每个步骤t,满足(tMODTi)= 0的组被激活(具有黑色边界的单元)。例如,在步骤2,组1和组2被激活。被激活的组采用帧输入和先前的状态来计算下一个状态。对于那些未激活的,我们只需将先前的状态传递到下一步。 组1是最快的,组3是最慢的,具有较大的Ti。慢到快模式是较慢的组将状态传递给较快的组的模式。其中,Linear(a,b)=Waa+Wb bb,ai是编码器输出oenc的归一化注意力权重,并且ai是编码器输出的加权平均。 我们使用两个不共享参数的解码器:一个用于过去的序列重建,另一个用于将来的序列重建(图4)。训练解码器以最小化两个序列的重建损失,Σ每个步骤都将由解码器参与。国被传递到解码器,即,hdec=henc. 使用两个解码器来预测上下文(φ(y9 10 11任务,其中目标动作持续时间很短,通常仅持续数秒。由于来自无监督训练的特征不是有区别的,即,标签信息在训练期间没有应用,我们进一步训练编码器用于视频分类。我们使用 mGRU编码器对视频帧进行编码,并将编码器中的最后一个隐藏状态用于分类。我们不会在每一步都应用损失,例如,LSTM模型图4. 无监督视频表示学习的模型结构。在该模型中,使用两个解码器通过重构前一帧和下一帧序列来预测周围上下文。在解码器中的步骤0处使用作为零向量的<在训练期间,两个解码器中的一个以0.5的概率用于重建。生根(SSR),通常用于转换每个元素x在[27]中,由于我们任务中的视频数据未经修剪,更 加 嘈 杂 和 多 余 。 我 们 使 用 FC ( 1024 ) -ReLU-Dropout(0.5)-FC(1024)-ReLU-辍学(0.5)-FC(类编号+1)-Softmax。由于存在不属于任何目标事件的背景视频,因此我们为这些视频添加另一个类。在监督训练期间,我们首先使用通过非监督上下文重建预训练的权重来初始化编码器的对于每一批,我们不是在训练集中均匀地采样视频,而是保持正面视频和背景视频的数量比,一比二。由于正负样本之间的不平衡,我们对小批量抽样进行了偏倚。在推理过程中,编码器在每一步都生成多速率状态,并且有几种方法可以将状态合并以获得全局视频表示。一种简单的方法是平均输出,然后用线性SVM对获得的全局视频表示进行分类。另一种方式是用编码方法对输出进行编码。Xu等[49]发现局部聚集描述符的向量(VLAD)[18]编码在MED任务中的表现优于平均池化和Fisher向量[32]。因此,我们应用VLAD编码方法来编码RNN表示-转换为符号(xi)|.|. 内部归一化方法也不-将每个中心的表示形式化,然后是对整个特征向量进行归一化[32]。最终用线性SVM对归一化表示进行分类。注意,mGRU中的状态被分成组,因此我们独立地对三个不同尺度的状态进行编码。我们通过平均融合将三个分数结合起来。3.4. 视频字幕我们还证明了我们提出的视频表示的视频字幕任务的泛化能力。在视频字幕中,编码器用于对视频表示进行编码,并且解码器用于生成视频解码。我们遵循基本的字幕解码过程。给定视频序列X和描述序列Y={y1,. . . ,yN},其中每个w阶由a表示one-hot vector和one-of-K(K是词汇量)在解码器输入中使用嵌入来表示具有连续向量的离散词,总的目标是最大化所生成序列的对数似然,ΣN站。给定输入X ={x 1,x 2,. . . ,XN}和中心C ={Cl,. . . ,cK},其通过k均值算法计算。Maxθt=1llogPr(yt|y43290 111226594.1. 复杂事件检测4.1.1数据集我们从TRECVID MED数据中收集了大约220,000个没 有标 签 信息 的 视频 , 其中 不包 括 MEDTest-13 和MEDTest-14中的视频,用于无监督训练。收集的视频平均长度为130秒,总时长超过8,000小时。我们使用具有挑战性的MED数据集和标签,即TRECVIDMEDTest-13100Ex[1] 和 TRECVIDMEDTest-14 100 Ex [2]用于视频分类1。每个数据集中有20个事件,其中10个重叠。它由训练集中每个事件的大约100个阳性样本和5,000个阴性样本组成。在测试集中,大约有23,000个视频,每个集合的总时长大约为1,240小时。关于AVE-方法MEDTest-13MEDTest-14GoogLeNet32.025.1mGRU39.632.2表1.GoogLeNet功能与我们的mGRU模型之间的比较两种模型均使用平均合并。结果表明,我们的特征表示显著优于GoogLeNet特征。方法MEDTest-13MEDTest-14GoogLeNet42.033.6mGRU44.537.3表2. 使用VLAD编码聚合帧级特征时GoogLeNet和mGRU模型之间的比较。视频长度为120秒。这些视频是节奏-拉力赛未经修剪的YouTube视频的各种决议和质量。我们使用平均精度(mAP)作为NIST标准的性能指标[1,2]。4.1.2模型规格对于无监督训练和分类,我们以1 FPS的速率对视频帧进 行统 一 采样 , 并使 用 ImageNet 上 预训 练 的BatchNormalization [17]从GoogLeNet中提取每个帧的特征。按照标准的图像预处理程序,帧的短边被重新缩放为256,我们将图像裁剪为224×224。我们在最后一个池化层之后使用激活,并获得长度为1,024的表示。 有20MEDTest-13和MEDTest-14数据集中的类,因此加上背景类,我们总共有21个类。在训练阶段,我们将序列长度K设置为30,如果视频少于30帧,则填充零。在推理过程中,我们将整个视频作为输入,并使用150个步骤。培训详情。我们使用以下设置在所有前-实验,除非另有说明。 对模型进行优化使用ADAM [20],我们将学习率固定在1×10- 4,并将全局梯度裁剪为范数10。我们对编码器和解码器以及细胞使用单个RNN层大小设置为1024。我们将注意力大小设置为50,并通过在输入和输出层[33]中使用Dropout [38]来正则化网络。当解码器从编码器复制状态时,我们还添加了Dropout,并且所有丢弃概率为设定为0.5。权重使用Glorot均匀初始化[13]初始化,权重衰减为1×10−4用于正则化。在监督训练中,我们使用非监督学习时学习到的权值初始化编码器的权值,并且使用相同的序列长度。在无人监督的训练阶段。1未更新TRECVID MED 15和TRECVID MED 16竞争的开发数据。4.1.3结果平均池。对于GoogLeNet基线,我们对帧级特征进行平均,并使用线性SVM进行分类。对于我们的模型,我们首先用mGRU训练一个无监督的编码器-解码器模型,并用标签信息微调编码器。为了与GoogLeNet基线进行公平的比较,我们在每一步提取mGRU编码器的输出并对其进行平均,以获得用于分类的全局表示。注意,两个特征表示具有相同的维度,并且我们经验性地为两个线性分类器设置C=1。结果如表1所示,表明我们的模型具有时间结构学习,能够编码有价值的时间信息用于分类。VLAD编码。我们现在证明VLAD编码对于聚合RNN表示是有用的。我们比较我们的方法与GoogLeNet功能使用VLAD编码。在[49]之后,我们将k-means中心的数量设置为256,PCA的维度为256。mGRU模型的每一步都要学习三个尺度。我们将状态分为三个部分,每个子状态分别由VLAD聚合。请注意,每个编码的表示都具有与GoogLeNet模型相同的特征向量长度,并且我们使用后期融合来组合三个尺度的分数。表2中的结果表明,当使用VLAD编码时,我们的mGRU模型优于GoogLeNet特征。它还表明,VLAD编码优于RNN 表 示 的平 均 池 。 我 们的 模 型 在 MEDTest-13 和MEDTest-14 100 Ex数据集上也达到了最先进的性能。4.1.4消融研究我们比较了无监督训练中的几种变体,并展示了不同组件的性能。结果示于表3中。我们从2660方法MEDTest-13MEDTest-14mGRU(无关注)32.727.5mGRU(不含上下文)37.130.1mGRU,不带多速率36.529.3mGRU(完整)37.430.6表3.mGRU与其他变体在无监督训练阶段的比较详细讨论见正文。表4. 具有相同结构但不同初始化的模型之间的比较。这表明,良好的初始化可以学习更好的功能。通过在每一步从编码器提取状态,然后对状态进行平均以获得全局视频表示,来实现无监督模型。实验结果表明,在无区分信息的无监督训练中进行表征学习也取得了较好的效果。关注我们将我们的模型与没有注意力机制的模型进行了比较,在没有注意力机制的模型中,不使用时间注意力,解码器被迫仅基于最后的编码器状态来执行重建,即,“mGRU w/o attention” in 结果表明,注意力机制对于学习好的视频表示是重要的,也有助于编码器的学习过程。上下文在没有上下文重建的模型中,即,只使用一个解码器(自动编码器),既不考虑过去的也不考虑将来的上下文信息,即,“mGRU w/o context”结果表明,通过上下文预测,编码器必须考虑视频片段周围的时间信息,从而以更好的方式对时间结构进行建模多速率。我们还显示了使用mGRU的好处,通过比较它与基本GRU,即,“mGRU w/o mul- tirate” in Table请注意,mGRU模型的参数更少,但性能更好。它表明,编码多速率视频信息的mGRU能够从长噪声序列中学习更好的表示。训练前。我们现在通过将具有随机初始化的编码器与其权重由无监督模型初始化的相同编码器进行结果如表4所示,表明无监督训练过程有利于视频分类。它在编码器中结合了上下文信息,这是视频分类任务的重要线索。表5. 与其他方法的比较。我们在MEDTest-13和MEDTest-14100 Ex数据集上实现了最先进的性能* 表示模型是我们自己实现的。4.1.5与最新技术水平的比较我们将我们的模型与其他模型进行了比较,结果如表5所示。 我们的单一模式实现了与其他单一型号的性能相比,MEDTest-13和MEDTest-14 100 Ex设置的最新性能。我们通过使用预训练模型[42]报告C3D结果,并将输入短片段的长度设置为16。特征在使用线性SVM分类的片段之间进行平均。我们的VLAD编码模型优于先前的最新结果,在MEDTest-13 100 Ex上为4.2%,在MEDTest-14 100 Ex上为1.6%。4.2. 视频字幕我们现在在视频字幕任务上验证我们的模型我们的单一模型在所有指标上都优于以前最先进的单一模型。4.2.1数据集我们使用YouTube2Text视频语料库[6]来评估我们在视频字幕任务上的模型。该数据集有1,970个视频剪辑,平均持续时间为9秒。原始数据集包含多种语言的描述,涵盖各个领域,例如,体育音乐动物在[45]之后,我们仅使用英语描述,并将数据集分为分别包含1,200,100,670个视频片段的训练,验证和测试集。在该设置中,总共有80,839个描述,每个视频剪辑大约41个句子。我们使用的词汇量是12,596,包括,,,。我们在测试中评估了我们的方法的性能使用[7]提供的评估脚本设置,结果由评估服务器返回。我们报告了BLEU [30]、METEOR [9]和CIDER [43]评分,以与其他模型进行比较。我们要遵守一条规则-模型MEDTest-13MEDTest-14[49]第四十九话34.027.6IDT + skip + FV [24]36.329.0VGG + RBF [53]-35.0C3D [42]*36.931.4VGG 16 + VLAD [49]-33.2NIS-SVM2 [5]39.234.4VGG16+LCD+VLAD [49]40.335.7LSTM自动编码器[39]*38.231.0GoogLeNet + VLAD *42.033.6我们的方法44.537.3方法MEDTest-13MEDTest-14mGRU(随机)38.329.5mGRU(预训练)39.632.22661方法B@1B@2B@3B@4MCGRU79.4667.5257.9847.1432.3172.46mGRU79.4267.7958.3248.1232.7973.21mGRU+预训练80.7669.4960.0349.4533.3975.45表6.YouTube2Text数据集上不同模型之间的比较GoogLeNet功能用作帧级表示。B、M、C是BLEU、METEOR、CIDER的缩写。方法B@1B@2B@3B@4MCGRU80.8870.1561.0851.0633.4879.16mGRU82.0371.4162.3852.4933.9178.41mGRU+预训练82.4972.1663.3053.8234.4581.20表7.YouTube2Text数据集上不同模型之间的比较ResNet-200功能用作帧级表示。B、M、C是BLEU、METEOR、CIDER的缩写。模型选择,即我们选择验证集上METEOR得分最高的模型。4.2.2模型规格YouTube2Text数据集中的视频长度很短,因此我们以15 FPS的更高帧速率统一采样帧。序列长度设置为50,我们在最后一个实验中使用默认的我们使用两种不同的卷积特征用于视频字幕任务,即,GoogLeNet功能和ResNet-200功能[15]。我们默认在解码期间使用波束搜索,并在所有实验中将波束大小设置为5 [52]注意力大小根据经验设置为1004.2.3结果我们首先使用GoogLeNet特性,结果如表6所示。我们将 mGRU 与 GRU 进 行 比 较 , 结 果 表 明 mGRU 在 除BLEU@1之外的所有指标上都优于GRU。然而,这一差距仅为0.04%。我们通过无监督上下文学习初始化mGRU编码器,结果表明,在良好的初始化下,与随机初始化相比,BLEU和CIDER分数的性能提高了1.0%以上,METEOR分数提高了0.6%。我们还利用最近的ResNet-200网络作为卷积模型。我们使用预训练的模型,并遵循相同的图像预处理方法。使用ResNet-200的结果如表7所示,表明我们的MVRM方法不仅在不同的任务上比GRU更好,而且在不同的卷积模型上也更好。此外,我们可以使用ResNet-200网络改进所有指标。表8. 与其他没有融合的模型进行比较。注意到模型是用不同的设置训练的([52]使用train+val数据进行训练)。4.2.4与最新技术水平的比较我们将我们的方法与YouTube2Text数据集上的其他模型进行了比较。结果示于表8中。“S2VT” [ “TemporalAtten- tion” [ “Bi-GRU-RCN” [ 我们的MVRM方法与[28]的性能相似,但在预训练阶段,我们在所有指标上都优于[28一些方法融合了额外的运动特征,如C3D[42]特征,Pan等人[28]结合多种特征后,METEOR上的 获 得 率 为33.9% 。 使 用 ResNet-200 , 我 们 可 以 在METEOR上获得34.45%5. 结论在本文中,我们提出了一个多速率视觉递归模型来学习视频的多速率表示。我们通过上下文recruiting-tion的视频时间结构建模,并表明,无监督训练是学习视频分类和视频字幕的良好表示的重要。所提出的方法在两个任务上实现了最先进的性能。在未来,我们将研究视频表示在其他具有挑战性的任务中的通用性,例如,视频时间定位[11]和视频问答[54,41]致 谢 。我 们 的 工 作 得 到 了 数 据 决 策 合 作 研 究 中 心(www.d2dcrc.com.au)、谷歌教师奖和澳大利亚政府研究培训计划奖学金的部分支持。我们非常感谢NVIDIA 公 司 的 支 持 , 捐 赠 了 用 于 本 研 究 的 TI- TAN X(Pascal)GPU。方法蓝色@4流星苹果酒S2VT [44]-29.20-时间注意力[51]41.9229.6051.67GoogLeNet+Bi-GRU-RCN1 [4]48.4231.7065.38GoogLeNet+Bi-GRU-RCN2 [4]43.2631.6068.01VGG+LSTM-E40.2029.50-C3D+LSTM-E [29]41.7029.90-GoogLeNet+HRNE+[第28话]43.8033.10-VGG+p-RNN [52]44.3031.1062.10C3D+p-RNN [52]47.4030.3053.60GoogLeNet+MVRM49.4533.3975.452662引用[1] 13.第十三章http://nist.gov/itl/iad/mig/med13.cfm,2013年。6[2] 14.第十四章http://nist.gov/itl/iad/mig/med14.cfm,2014年。6[3]M. 阿巴迪山口Barham,J.Chen,Z.Chen,中国山核桃A.Davis,J.迪恩M. Devin,S.盖马瓦特湾Irving,M. Isard,M. 库德鲁,J. 莱文贝格河Monga、S.穆尔,D.G. 默里湾斯坦纳P. Tucker,V.Vasudevan,P.Warden,M.Wicke,Y.Yu和X. 郑 TensorFlow : 一 个 大 规 模 机 器 学 习 系 统 。 在OSDI,2016。5[4] N.巴拉斯湖姚角,澳-地Pal,和A.考维尔深入研究卷积网络以学习视频表示。ICLR,2016. 二、八[5] X. 昌,Y.Yang,E.P. Xing和Y.-L. Yu. 基于语义显著性和近保序支持向量机的复杂事件检测ICML,2015。7[6] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在ACL,2011年。7[7] X. Chen,H. 方,T.- Y. 林河,巴西-地 Vedantam、S.古普塔P. Doll a'r和C. L. 齐特尼克MicrosoftCOCOcaptions:数 据 收 集 和 评 估 服 务 器 。 arXiv 预 印 本 arXiv :1504.00325,2015。7[8] N.达拉尔湾Triggs和C.施密特使用流量和外观的定向直方图进行在ECCV,2006年。2[9] M. Denkowski和A.拉维流星宇宙:针对任何目标语言的特定语言翻译评估。InEACL,2014. 7[10] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR,2015。2[11] B. G. Fabian Caba Heilbron、Victor Escorcia和J. C.尼布尔斯ActivityNet:人类活动理解的大规模视频基准。CVPR,2015。二、八[12] R.娘娘腔。快速R-CNN。在ICCV,2015年。1、4[13] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。AISTATS,2010年。6[14] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。1[15] K.他,X。Zhang,S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV,2016年。8[16] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation,9(8):1735-1780,1997. 一、二[17] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML,2015。6[18] H. J e gou,M. 杜兹角Schmid,和P. 佩雷斯。将局部描述符聚集CVPR,2010。二、五[19] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR,2014。2[20] D. Kingma和J. BA. Adam:一种随机优化方法。2015年,国际会议。62663[21] R. Kiros,Y.朱河,巴西-地R. 萨拉胡季诺夫河泽梅尔河乌尔塔孙A. Torralba和S.菲德勒跳过思维向量。2015年,在NIPS中。4[22] J. Koutnik,K. Gref
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功