没有合适的资源?快使用搜索试试~ 我知道了~
1任务驱动的动态融合:减少视频描述中的歧义Xishan Zhang12,Yongdong Zhang12,Yongdong Zhang 12,Dongming Zhang1,Jintao Li1,and Qi Tian31中国科学院计算技术研究所,中国北京2中国科学院大学,中国3德克萨斯大学圣安东尼奥分校计算机科学系{张喜山,可高,zhyd,dmzhang,jtli}@ ict.ac.cn,qitian@cs.utsa.edu摘要视频字幕中的描述模糊问题需要多通道互补特征的融合来解决现有的视频字幕静态融合方法,如关联和求和等,由于不能注意到合适的特征通道,不能自适应地支持对动作、物体等各种视觉实体的识别。S.本文有助于:1)第一次深入研究了用于视频字幕的数据驱动静态融合方法中固有的弱点。2)建立了任务驱动的动态融合(TDDF)方法。该算法能够根据模型状态自适应地选择不同的融合模式。3)视频字幕的改进。在两个著名的基准上进行的大量实验表明,我们的动态融合方法优于最先进的结果MSVD与METEOR分数0.333,并实现了优越的METEOR分数0.278 MSR-VTT-10 K。在两个数据集上,与单特征相比,该融合方法的相对性能分别提高了10.0%和5.7%。1. 介绍自动生成自然准确的视频语言描述是视频理解的最终目标之一。虽然视频字幕的早期工作借鉴了图像字幕的见解[29],但由于各种对象和复杂的人类行为,该任务更具挑战性本 工 作 得 到 国 家 自 然 科 学 基 金 项 目 ( No.61525206 ,No.61672495,No.61271428,No.61429201)的资助。国家重点研发计划2016YFB0801203、2016YFB0801200和北京影像技术先进创新中心2016009†这项工作得到了美国NEC实验室的ARO资助W 911 NF-15-1-0290和教师研究礼物奖的部分支持,布利帕• 地面真相:在垫子摔跤的家伙• LSTM:一群人在赛道上跳舞• LSTM + TDDF:两个男人在垫子上摔跤• 地面真相:一个人正在搅拌一碗食物• LSTM:一个人在做饭• LSTM + TDDF:一个人在碗里搅拌沙拉图1. 视频描述生成示例。上图:LST- M将“摔跤”动作称为“舞蹈”。我们的LSTM+TDDF正确识别动作“摔跤”。下图:L-STM生成模糊描述“烹饪”。我们的LSTM +TDDF生成信息丰富的尽管在视频字幕方面取得了很大的进展,但现有的方法经常遭受描述歧义,包括识别错误和细节不足。取图中的LSTM结果。例如,在第一个视频的描述中,动词“摔跤”被错误地识别为“跳舞”,而第二个视频中众所周知,不同的视觉线索对各种视频内容的识别做出集成来自多个通道的互补特征有望解决描述歧义问题[11,9,8,21,34,37,3,40,22,26,39]。虽然不同-在视频字幕中已经采用了拼接、求和等多通道融合方法,融合多通道视觉特征得到的相对提高只有0.1%-1.7% [11],甚至-0.7% [ 26]。 研究表明,现有的视频字幕视觉融合策略没有充分利用各通道特征及其相关性。37133714我们观察到视频描述中的大多数视觉实体可以分为三类:1)外观中心,2)运动中心和3)相关中心。如图所示。1.在句子“a person is mixing salad in a bowl”中,视觉实体“person”和“mixing”分别可以通过外观和运动特征容易地识别。至于像“沙拉”这样的细节,由于杂乱而难以推断,运动和外观之间的相关约束使得推断成为可能。从理论上讲,特征拼接[23]能够对特征之间的各种相关性进行这主要是由于视频描述中对象相关实体和动作相关实体分布不均衡造成的。例如,MSR-VTT-10 K数据集[11]的训练描述中有36%的名词和19%的动词,这也是大多数视频字幕数据集的情况。因此,在数据驱动的融合方法中,如特征关联,通常会增强外观特征,而抑制运动特征。这种静态融合模型不能自适应地支持三种不同视觉实体的识别,导致描述模糊,包括识别错误和细节不足。为了减少描述歧义,本文提出了一种任务驱动的动态融合方法,该方法可以根据当前模型状态自适应地关注特定的视觉线索,从而使生成的视觉表示与当前单词最相关融合模型由三种不同的融合模式组成所提出的融合方法包括两个步骤。1)时间注意力。对于不同的特征通道,我们根据当前模型状态选择性地关注相关的时间点2)动态融合。设计了三种不同的融合模式来支持以外观为中心、以运动为中心和以相关性为中心的实体的识别。融合模型学习根据任务状态动态选择三种融合模式中的一种总之,我们做出以下贡献:● 深入研究了数据驱动的静态视频字幕融合方法的不足现有的静态融合方法不能自适应地支持识别各种视觉实体,这导致描述歧义,包括识别错误和细节不足。● 提出了一种任务驱动的动态融合(TDDF)模型,根据任务状态自适应地选择不同的融合模式动态融合模型可以注意与当前单词最相关的某些视觉线索。通过学习多个视觉通道之间的相关性约束,所有以外观为中心,以运动为中心,可以提升以相关性为中心的实体,从而减少视频描述中的歧义。● 在MSVD和MSR-VTT-10 K两个著名的视频字幕基准上进行的大量实验表明,我们的动态融合方法通过适当地集成多通道特征来实现显著的增益。在两个数据集上,与单个特征相比,融合方法的相对性能分别提高了10.0%和5.7%。2. 相关工作视频/图像字幕:视频/图像字幕的工作可以分为两类:自下而上的方法[9,13,6]和自上而下的方法[18,37,35]。自底向上的方法首先识别视觉概念,并通过句子模板将它们形成描述适当的特征用于分别检测这些概念:动作的运动特征[28,16,7];对象,属性和场景的不同类型的外观特征[32]。因此,底层特征和顶层视觉概念的共现之间的相关性没有被充分探索。自上而下的方法是最先进的方法,它将任务制定成一个完整的机器翻译编码器-解码器框架。视觉概念的识别是在句子生成过程中隐含实现的。相对较少的工作在视频字幕集中在一个良好的任务特定的视觉表示的生成,除了最近的工作潘[18]。Pan [18]主要旨在捕获视频表示中的时间信息。我们提出了在视频字幕的运动和外观信息的融合的深入研究,产生一个联合表示,根据任务状态,通过pro-moting个人的功能通道和相关的compi-personnel功能。功能融合:现有的视频字幕特征融合方法都是静态融合,即视觉融合模型不受先前生成的目标词的影响。该工作包括评分级决策融合[31,28]和早期特征组合[11,19,3,22,26]。通过对一组网络预测器求平均来实现决策融合。然而,决策融合不是数据驱动的,因为忽略了个体特征的不同样本上的差异预测能力。特征组合是数据驱动的,它通过关联、求和或最大化的方式组合运动和外观特征然而,特征组合的性能改善有限[11](相对改善0.1%-1.7%),甚至比许多工作中报告的单一特征更我们提出的动态融合模型可以根据任务状态自适应地3715‘人’“混合”“沙拉”'和'外观特征LSTMht-1htLSTM …LSTMCNNCNNCNNCNNLSTM动态视觉输入任务状态动态融合视频输入I$美 元 /美元0I00&I&&TDDF…TDDFC3dC3dC3d任务驱动动态融合……TA运动特征外观和动作特征…图2. 视频字幕中任务驱动的动态融合(TDDF)的说明。蓝线是运动特征,绿线是外观特征,红线是LSTM和TDDF之间的信息流。运动特征、外观特征和模型状态信息被输入到TDDF单元。只要输出单词不是EOS(即句子结束),编码器部分TDDF单元将为LSTM解码器的每次迭代生成动态视觉输入TDDF的细节如图3所示注意力:视觉注意力[36,35,37]广泛应用于字幕任务,以选择性地关注视频的时间帧或图像的空间区域的子集。注意力背后的绝妙想法是将任务状态考虑到特征编码部分。在注意机制中,目标词是基于最相关的帧和区域生成的相关性由先前生成的现有词来衡量,这些词代表任务状态。我们的工作是密切相关的注意机制,在这个意义上的任务驱动的动态集中的视觉特征部分。然而,我们的动态融合和广泛使用的注意机制之间存在显着差异。注意机制处理从不同样本(帧或区域)提取的同质特征。我们的动态融合处理异构功能,甚至从同一个样本。因此,在注意中,内容的视觉特征将决定它与句子语境的相关性。在动态融合中,特征的相关性不是由特征的内容决定的,而是由特征的种类决定的因此,注意力机制关注某些视觉概念,如狗的区域或奔跑的狗的短片段我们的动态融合建立在注意力的基础上,并将其进一步扩展,这会自动决定是否由编码器部分和解码器部分组成,如图所示。2. 编码器部分的目的是学习一个良好的视觉表示和解码器部分prefers语言生成。 视频输入被表示为一个tem-序列V={v1,..., vn},其由从视频帧和剪辑中提取的运动和外观特征组成。 输出是单词序列Y={1,2., 描述该视频。在基线模型[30]中,视觉特征是第零轮的输入LSTM迭代然而,将整个视频的视觉信息塞进单个矢量中是不现实的。因此,我们遵循[35,36]的实现,在单词生成的每个时间引入视觉特征这需要将新的视觉输入patt(V)添加到LSTM单元中,公式如下:it=(E[-1] +ht-1+t(V) +bi)(一)ft= (E[-1] +ht-1+t ( V ) +bf ) (2)ot= (E[-1] +ht-1+t (V) +bo ) (3)gt=(E[-1] +ht-1+t(V) +bg)(四)狗的外观,或狗的运动,或结合要有重点。ct=c t-1特里夫特+it 布罗格t(五)3. 基于任务驱动的动态融合的视频描述3.1. 总体框架我们在流行的ConvNet + LSTM架构上构建我们的视频字幕框架[30,20,36,19],ht=ot(ct)(6)其中e是sigmoid函数,是tanh函数,-1是预处理器,k-1是预处理器的隐藏状态,d()是动态融合的视觉特征向量,其表示使我们能够根据任务状态动态调整视觉输入。这将在以下章节中详细解释。概率分布的集合3716…通过单个隐藏层获得可能的单词y=(([ht,(),E[-1]])+dy)(7)其中e[ht,(),E[-1]]表示三个向量的级联我们通过添加任务驱动的动态融合层进一步增强了编码器部分,2. 首先,我们提取和选择可变长度的运动和出现特征,并通过第3.2节中解释的时间注意机制生成两个视频表示通道。然后,我们根据句子上下文动态地组合不同的特征通道,如第3.3节所述。3.2. 时间注意力在本节中,我们将可变长度视频编码为-3.3. 动态融合将V={v1、...、v n}转换为一个长度为1000的时间表示,表示(V)={1(V),2(V),.,(V)}。每个(V)是通过注意力机制对所有视觉特征进行加权的输入视频fea-纹理vi包含外观特征和运动特征vi=[vmi,vsi].传统的动态注意力策略[35]并不区分外观和运动特征,其中∑()()(V)=vi,andd反映了第i个视觉特征对应第t个单词 直观地说,静态外观特征和运动特征具有不同的与动词和名词的相关性不同,因此我们分别为不同的特征分配软注意力。特别地,注意过程被应用于静态外观特征图3. 任务驱动的动态融合单元的图示。运动特征、外观特征和模型状态信息被输入到TDDF单元。TDDF单元为LSTM解码器的每次迭代生成动态视觉输入。有三种途径:p1为出现通路,p2为运动通路,p3为消失通路。层1分别对运动和外观特征执行时间关注。层2执行特征学习。层3执行级联融合。第4层执行动态融合,选择与当前单词相关的适当路径我们进一步动态地结合运动和出现-将VM()、VS()的所有特征都合并到融合表示中()∑()()VS=vsi和运动特征VM=∑()vm. 他对注意力的复杂看法-t(V)=VMS()。我们发现了两种基本的浅融合功能:级联融合和或我低特征通道具有不同的时间长度,必要最后,用于推断第t个单词的视觉输入是外观和运动的组合(V) =[VM(),VS()]。注意力函数用于计算e(),最大融合。然后,我们说明了拟议的动态融合。1) 级联融合。融合函数是VMS()=WF([VM(),VS()])(),其提供=WFVM()+WFVS()的隐藏状态h-1(11)L rLSTM解码器和第i个时间特征作为输入。()=(ht-1,vs),(8)()=(ht-1,vm)(9)注意力函数由多层感知器(MLP)实现,如[33]所示,其具有通用的近似值。模拟特性(ht-1,v) =(ht-1+v)(10)其中,λ是待估计的参数,并且由运动和外观特征共享,而特征依赖性。一旦注意力得分为所有的TEM-poral段计算,我们规范化他们通过softmax函数n()={()}/∑{()}。其中运动特征和外观特征是一致的,natedtogether[VM ( ) , VS ( ) ]∈N+.通 过 参 数sWF∈N×(+)的变换,使融合输出维数降为. 级联融合广泛应用于多模态学习[17],最近[25,24]. 级联融合能够对特征内和特征间的相关性进行建模。然而,一旦学习,融合参数是固定的。2) 总 和 或 最 大 融 合 。 融 合 函 数 为 元 素wisesumVMS ( ) =VM ( ) ·+VS ( ) 或 元 素wisemaxVMS()=max{VM(),VS()}。这些无参数融合函数通常应用于相同类型的特征,因此元素加法或最大值“混合”“沙拉”LSTM任务状态ht-1LSTMhtdynamicvi sualinputs(数字输入)动态融合动态称重系统1渔船管理系统(t)…ht- S²ȉߙ动态称重系统ȉߙLaye r4outputs:输出Layer 3 outputs:第3层……第2层输出:数字音频、数字音频Laye r1outputs:输出外观特征运动特征VS(t)时间注意力VM(t)动态称重3717=13718是合理的。和融合应用于残差网络[10]中的捷径连接和组合层c()=(Wht-1+b),(13)在FractalNet [14]中。然而,与串联a()=s()c(),(14)fusion、sum或max fusion很难对相关性进行建模在不同维度的异质特征之间。3) 动态融合。我们提出了一种融合函数,它是特征通道VMS()=()VM()+()VS()。因此,其中,s()∈φ3确定了最多三条路径,而dc()∈φ3确定了每个通道是否依赖于最多三条路径xt-1。对于特定特征通道,权重为:1 2最大融合可以被转换为dy的特殊情况,()=(ht-1) =()·(),(15)动态加权和融合 与预计的不同残差网络[10]中的快捷方式,其中权重为动态确定固定参数,()和()在训练中,通过最小化(s)来选择特征12∑∑因为这是他的第一次。动态融合的思想是简单的,[33,36,35]注意力机制的概念这意味着它们都处理输入与目标词的相关程度。然而,注意力机制处理从图像中提取的同质特征,(s) =-( )((),(16)最佳s应该是[1,0,0],[0,1,0]和[0,1,0]中的一个。[0,0,1],它确定最相关的特征路径-t个样本with() =(h t-1 ,),其中特征我也是。翼梁()的结果使短路-内容将决定注意力权重。动力-IC融合处理异质特征通道,=(ht-1,):=(ht-1). 融合权重由特征的类型而不是特征的内容来确定与核聚变类似,元素-明智的加权和很难对多个特征之间的相关性进行建模,并且对异质特征进行元素明智的相加是不合理的。在任务驱动的动态融合单元的设计中,我们利用了上述三种融合功能,它们是相互联系和互补的。如图-当然。 3、TDD单元运动特征VM()、外观特征VS()和模式状态信息ht-1的输入。TDDF单元的输出是动态可视的,放入LSTM解码器的每次迭代。首先,运动特征和外观特征分别经过一个完全连接的特征学习层2,生成运动路径和外观路径。通过第二层,我们降低了原始特征的维数,以获得更好的表示,这是有效的融合和合理的执行以下元素的加法。然后,随后的级联融合层3用于组合细化的运动和外观特征,并生成相关路径。最后,我们在运动、外观和关联路径的顶部应用动态融合层4这三条路径对应于三种不同的融合模式,旨在支持视频描述中以外观为中心,以运动为中心和以相关性为中心的实体的识别。动态融合层4通过动态加权机制,根据任务状态自适应地选择三种融合模式。 特别是,动态权重a(),用于通过以下方式获得的所有三条路径:s()=(Wht-1+b),(12)3719第2层和第4层之间,这使得自动化,跳过功能路径,以促进个别功能通道。4. 实验4.1. 数据集和评估指标数据集:我们在两个视频字幕基准上进行实验:MSVD [1]和MSR-VTT-10K [11]。MSVD[1]由1,970个视频片段组成。几乎所有现有的视频字幕方法都在这个数据集上进行了测试。我们采用[29,35]提供的广泛使用的训练和测试分割,训练集为1,200个视频片段,验证集为100个片段,测试集由剩余片段组成。MSR-VTT-10 K[11]由10,000个视频片段组成,这是迄今为止视频字幕最具挑战性的数据集我们使用了官方的split1,其中6,513个视频用于训练,497个用于验证,2,990个用于测试。我们报告了MSR-VTT-10 K上的验证和测试分割结果。评估指标:几个标准指标,如BLEU(基于精确度),METEOR(精确度和召回的调和平均值),CIDER(基于共识)和ROUGE-L(基于召回)用于评估视频字幕[2]。我们使用Microsoft COCO评估服务器 [2] 并 报 告 所 有 四 个 指 标 。 在 这 四 种 方 法 中 ,METEOR和CIDer现在被认为是较好的方法[27,18,28,37]。4.2. 实现细节特性:对于外观特征,我们采用VGG-19中的4,096维fc 6层和GoogLeNet-bu 4k[15]中的1,024维pool5层,GoogLeNet-bu 4k是1http://ms-multimedia-challenge.com/3720表1.MSVD的性能评价流星(%↑)苹果酒(%↑) ROUGE-L(%↑)BLEU4(%↑)VGG0.302-0.563-0.675-0.416-C3d0.303-0.542-0.667-0.412-CON(VGG+C3D)0.317(4.6%↑)0.652 (15.8%↑)0.680(0.7%↑)0.428(2.9%↑)MAX-2(VGG+C3D)0.308(1.7%↑)0.558(-0.9%↑)0.675(0%↑)0.417(0.2%↑)SUM-2(VGG+C3D)0.307(1.3%↑)0.654 (16.1%↑)0.681(0.9%↑)0.438(5.3%↑)MAX-3(VGG+C3D)0.313(3.3%↑)0.663 (17.7%↑)0.687(1.8%↑)0.452(8.6%↑)SUM-3(VGG+C3D)0.314(3.6%↑)0.602(6.9%↑)0.684(1.3%↑)0.440(5.8%↑)[35]第三十五话0.296-0.517---0.419-LSTM-E[19]0.310(3.7%↑)- ---0.453(8.6%↑)h-RNN [37]0.326(4.8%↑)0.658(6.0%↑)--0.499(2.2%↑)HRNE[18]0.331-- ---0.438-TDDF(VGG+C3D)0.333(10.0%↑)0.730(29.7%↑)0.697(3.3%↑)0.458(10.1%↑)* 融合方法相对于最佳单个特征有(%↑)的改善GoogLeNet [25]. 对于运动特征,我们采用了C3 D [5]中的4,096维fc 6层,该层在Sports-1 M视频数据集[12]上进行了预训练。我们将连续的16帧作为C3D的输入短剪辑,类似于[5,11]。最后,我们选择28个等间距的帧外观特征和剪辑运动特征作为视觉输入,类似于[35]。模型和培训:我们的视频字幕体系结构的概述如图2所示。LSTM中隐藏层的大小由于MSR-VTT-10 K比MSVD 大 得多 ,我 们在 MSR-VTT-10 K 上 使用 双层LSTM,在MSVD上使用单层LSTM。所提出的任务驱动的动态融合单元如图3所示,第2层和第3层是完全连接的层,其中tanh函数作为激活。对于每个输入特征通道,第2层的维数为1024,第3层和第4层的维数分别为1024至于节奏的参数ral 特征选择 <$∈<$1024×1024和va∈<$1024。在训练中,我们使用Adadelta算法[38]和gradi-通过反向传播算法计算的事件该模型通过最小化负对数似然来进行端到端训练=- ( (Y<$V ) ) +(as ) + (am) +(s )(十七)在预测词的同时,我们对注意力权重进行正则化,以增强生成完整句子时对每个时间特征的注意力的完整性。正则化函数类似于[35,33]:如3.3节所述,我们的TDDF单元利用了静态融合,因此我们与以下方法进行比较:级联融合表示为CON,总和融合表示为SUM,最大融合表示为MAX。CON只是将第2层的功能连接起来,并将其提供给第4层。SUM-2或MAX-2将第2层上的结果相加或最大化。SUM-3或MAX-3将层2和层3上的结果相加或最大化,以形成融合表示。最先进的方法:在MSVD上,我们比较了三种方法:[ 35][37][38][39] TA是第一个将时间注意力应用于视频字幕的工作。LSTM-E同时探索了LSTM的学习和视觉语义嵌入。h-RNN探索视频字幕中的时间和空间注意力。HRNE旨在学习用于视频字幕的任务指定的视频表示h-RNN和HRNE是目前最好的MSVD算法。在MSR-VTT-10 K上,工作相对较少。我们比较了三种 方 法 : SA-LSTM [11] , C3 D +Res [26] , v2 tnagvigator [4]。SA-LSTM是与MSR-VTT-10 K数据集一起发布的基线方法,但它是在与我们不同的分割上完成的。它使用具有时间注意力机制的两层LSTM。C3D+Res[26]研究了多模式融合。虽然整个框架包含音 频 模 态 , 我 们 比 较 他 们 的 视 觉 融 合 结 果 。 v2tnagvigator [4]是leader board2上的最佳结果。由于有些作品还融合了多种功能∑3721(as) =-∑(1-(十八)并报告了融合前后的结果,给出了融合方法对它们的相对改善。MSVD结果:我们报告了MSVD的结果,4.3. 实验结果基线方法:首先,我们比较我们的任务驱动表. 1. 我们的任务驱动的动态视觉融合方法实现了最好的METEOR和CIDER分数在所有的方法。我们还报告了获得的相对改善单特征方法,表示为VGG,GoogLeNet和C3D。然后,2http://ms-multimedia-challenge.com/leaderboard3722地面真相:一只卡通鸟逆着风扇吹来的空气飞行。缺点:乐队在舞台上表演TDDF:S PONGE BO BSQUAREPANT TS正在与SQU ID WA RD进行对话CMMMMMMMM地面真相:动画人把鲜花放在坟墓一个男人在谈论一件事TDDF:所以我正在计划采矿工艺A A M M一 一 一 MMAC C C一AC C地面真相:一个人在玩他的引擎骗局:一个男人正在修理一辆汽车TDDF:Ama nis fixinga ca rengi ne地面真相:一个女人骑着婴儿车骗局:一个女人在谈论婴儿车TDDF:一个womandemo nstrateshow wtouse estro llerCM MC一AAA上一篇:两名足球运动员正在跑步缺点:一个人在解释某事TDDF:足球运动员正在踢足球地面真相:一个女人正在给一个烹饪教学视频骗局:一个女人正在锅里煮菜TDDF:一个wom an d d ing receivedto a potofwat er表2.MSR-VTT-10 K性能评估测试拆分有效拆分BLEU4流星苹果酒ROUGE-LBLEU4流星苹果酒ROUGE-LVGG0.3380.2630.3840.5690.3300.2650.3650.564C3d0.3630.2630.3970.5750.3400.2640.3770.569GoogLeNet0.3280.2680.3980.5590.3170.2670.3890.555CON(GoogLeNet+C3D)0.3680.2670.4060.5830.3640.2730.3920.581SUM-2(GoogLeNet+C3D)0.3400.2580.3820.5700.3320.2600.3710.564MAX-2(GoogLeNet+C3D)0.3530.2610.3740.5840.3610.2670.3810.584v2t nagvigator [4]0.4080.2820.4480.6090.3940.2750.4800.600C3D+Res [26]----0.3850.2670.4110.601(相对改善%↑)----(-0.1%↑)(-0.7%↑) (2.8%↑)(-0.6%↑)SA-LSTM(VGG+C3D)[11]*0.4050.299------(相对改善%↑)(0.9%↑)(1.7%↑)------TDDF(GoogLeNet+C3D)0.3720.2770.4410.5860.3670.2800.4340.587(相对改善%↑)(2.5%↑)(3.3%↑)(10.8%↑)(1.9%↑)(7.9%↑)(4.9%↑)(11.5%↑)(2.1%↑)TDDF(VGG+C3D)0.3730.2780.4380.5920.3550.2820.4270.591(相对改善%↑)(2.7%↑)(5.7%↑)(10.3%↑)(2.9%↑)(4.4%↑)(6.4%↑)(13.2%↑)(3.9%↑)* 在不同的分割图4.举例说明了在视频字幕中对不同单词的不同特征通道的动态聚焦箭头显示了在确定当前单词时使用的特征蓝色箭头表示运动特征,绿色箭头表示外观特征,橙色箭头表示运动和外观的组合。红框显示失败的案例。所有的融合方法。与使用单一特征的方法相比,我们的方法在METEOR方面获得了10%的相对改进,在CIDER方面获得了29.7%的相对改进。这两个基于共识的会议-3723rics奖励与大多数人类书面描述相似的句子。我们的TDDF能够根据描述上下文来调整和提升视觉特征,从而产生更好的视觉表现。3724适合于共享相似上下文的不同句子的发音基线静态融合方法也比单特征方法有一定的改进。我们的方法优于MAX-2和SUM-2,这表明考虑特征相关性是必要的。虽然CON,MAX- 3和SUM-3通过级联融合层考虑了特征相关性,但它们的性能仍然比我们的融合方法差实验表明,特征间的相关性和特征间的动态选择在我们的任务中至关重要TA [35]将注意力机制应用于级联特征通道,我们的方法相对优于它9.3%,这表明注意力机制后的融合策略更好。与LSTM-E[19], h-RNN[37]和HRNE[18]相比,我们的方法在METEOR和CIDER中取得了最好的结果。这一结果证实了我们的TDDF的有效性。我们注意到h- RNN [37]在BLEU方面优于其他人虽然h-RNN提出了一种更好的语言模型,可以同时利用视频的多个描述,但我们的工作重点是融合一个良好的视觉特征来改进编码器部分,而不是语言解码器部分。此外,METEOR和CIDER被认为比BLEU更可靠[27,18,28,37]。h-RNN [18]还在单一特征和融合特征之间进行了比较。通过融合方法获得的它们的相对改善小于我们的融合方法。关于MSR-VTT-10 K的结果:我们在表中报告了MSR-VTT-10 K 的 结 果 。 结 果 表 明 , 该 方 法 在METEOR和CIDER方面分别比单特征方法提高了3.3%-在这个具有挑战性的数据集上,基本融合方法CON,MAX-2和SUM-2几乎没有对单个特征的任何改进,这与[11,3,22,26]中的发现一致这主要是因为在这个具有挑战性的数据集上,同一视频的人类描述更加多样化因此,视频字幕任务中的融合方法是一个值得探讨的课题。在ME-TEOR和CIDEr方面,我们的方法优于C3 D +Res [26]方法,该方法融合了C3 D和来自残差网络的外观特征[10]。 在基于精度的BLEU 4方面,C3D+Res表现得更好,它试图对类似人类的语法正确的句子赋予更多权重。考虑到MSR-VTT-10 K句子中的23,667个单词中有836个拼写错误(例如,‘basktball’and ‘peson’) [至于SA-LSTM(VGG+ C3 D)[11]和v2 tnagvigator [4],它们都比我们的方法具有更高的性能。对于SA-LSTM(VGG+ C3 D),它是在与我们现有数据不同的分割上完成的,这使得它不适合进行比较。对于v2t nagvigator,它利用额外的数据来训练动作和对象检测器,并应用这些检测器对视频进行预处理,同时还采用了句子重排序方法。用来对生成的句子进行后处理。然而,我们的目标是改进视觉编码器部分,这与他们的方法有根本的不同。定性分析:在图中。4.我们可视化了不同特征通道的动态权重s()。虽然s()不是最终的融合权重sa(),但它是一个自动开关,可以让我们直观地了解模型的特征是用来预测当前单词的。蓝色箭头表示运动输入,绿色箭头表示外观输入,橙色箭头表示相关的运动和外观输入。如图所示。4、绿色箭头(外观特征)主导了大多数词的生成。名词此外,“足球运动员”是从相关的运动和外观输入推断出来的当视频中没有视觉上的“足球”时,我们的我们还表明,我们的方法是失败的描述一些动画电影。这些失败的案例显示了我们目前方法的局限性。对错误动作“playing”的预测会传递误导性的语境来预测名词“minecraft”。我们的方法suf-fers从一个已知的问题,在所有的编码器-解码器为基础的视频/图像字幕方法。问题在于,训练过程使用正确的前一个单词来生成下一个单词,而在测试过程中,前一个单词并不保证。这个问题在我们的工作中被放大了,我们的描述上下文信息在训练和测试过程中是一个潜在的解决方法是在训练中改进语言模型,其中模型在句子生成中可能5. 结论现有的静态融合方法不能自适应地支持对多种视觉实体的识别,因此多通道视觉特征融合所获得的相对提高是有限的。在本文中,我们提出了一个任务驱动的动态视觉融合方法的视频字幕,它达到了最先进的性能在流行的基准测试。该方法根据任务状态自适应地选择不同的融合模式。设计了三种不同的融合模式,分别支持以外观为中心、以运动为中心和以相关性为中心的三种视觉实体的识别。动态融合模型可以关注与当前词最相关的某些视觉线索我们的任务驱动的动态融合方法可以添加到任何基于编码器-解码器的视频字幕架构,因此任何进一步的改进,相关架构将提高整体性能。3725引用[1] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在ACL,2011年。[2] X. Chen , H.Fang ,T.Y. 林 河 , 巴 西- 地 Vedantam 、S.Gupta,P.Dol- lar和C. L.齐特尼克Microsoft coco字幕:数据收集和评估服务器。InarXiv,2015.[3] J. Dong,X. Li,W.兰岛,澳-地Huo,和C. G. M.斯诺克视频字幕的早期嵌入和后期重排序。ACM MM,2016。[4] J. Dong,X. Li,W.兰岛,澳-地Huo,和C. G. M.斯诺克视频字幕的早期嵌入和后期重排序。ACM MM,2016。[5] T.杜湖,澳-地布尔代夫河费格斯湖Torresani和M.帕鲁里C3d:视频分析的通用功能。InarXiv,2014.[6] H. Fang,J.C. 普拉特角L. Zitnick,G.Zweig,S.古普塔F.伊安多拉河。K. 斯利瓦斯塔瓦湖Deng,P.Dollar和J.高.从标题到视觉概念再到后面。CVPR,2015。[7] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在CVPR,2016年。[8] X. Gao ,S. C. H. Hoi,Y. Zhang,J. Wan ,and J. 李Som-1:稀疏在线度量学习及其在图像检索中的应用。AAAI,2014年。[9] S. 瓜达拉马 N. 克里希那穆西 G. 马尔卡南卡,S. 韦 努 戈 帕 兰 河 Mooney , T. Darrell 和 K. 萨 恩 科 Y-outube2text:使用语义层次和零触发识别来识别和描述任意活动。InIC-CV,2013.[10] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[11] T. Y. Y. R.徐君,桃梅。MSR-VTT:一个用于桥接视频和语言的大型视频描述数据集。在CVPR,2016年。[12] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和F. F.李用卷积神经网络进行大规模视频分类。CVPR,2014。[13] G. 库 尔 卡 尔 尼 河 谷 Premraj 河 谷 Ordonez , S.Dhar ,S.Li,Y.崔A. C. Berg和T. L.伯格。Babytalk:理解和生成简单的图像描述。CVPR,2013。[14] G. Larsson,M. Maire和G.沙赫纳洛维奇Fractalnet:无残差的超深度神经网络。在arXiv,2016。[15] P. Mettes,D.C. Koelma和C.G. M. 斯诺克 图像网络洗牌:重组视频事件检测的预训练。InICMR,2016.[16] Y. H. Ng,M。Hausknecht,S.维贾亚纳拉西姆汉岛维尼亚人R. Monga和G.托德里奇除了简短的片段:用于视频分类的深度网络。CVPR,2015。[17] J. Ngiam,A.科斯拉,M。金,J.南,H。Lee和A.Y. Ng.多模态深度学习。InICML,2011.[18] P. 潘,智-地Xu,Y.Yang,F.Wu和Y.庄。分层递归神经编码器的视频表示与应用到字幕。在CVPR,2016年。[19] Y.潘氏T. Mei,T. Yao,H. Li和Y.瑞联合建模、嵌入和翻译,搭建视频和语言的桥梁。在CVPR,2016年。[20] V. Ramanathan,K.唐,G. Mori和F. F.李学习用于复杂视频分析的时间嵌入。在ICCV,2015年。[21] A. Rohrbach,M. Rohrbach和B.席勒电影描写的长短故事。InarXiv,2015.[22] R.谢蒂图像和视频的自然语言描述。硕士[23] N. Srivastava和R.萨拉赫季诺夫利用深度玻尔兹曼机进行多模态学习。NIPS,2012年。[24] C. 塞格迪,S。Ioffe,V.Vanhoucke和A.阿莱米启始-v4,启始-再网络和剩余连接对学习的影响。在arXiv,2016。[25] C.塞格迪,W。Liu,Y. Jia,and P. Sermanet.更深的回旋。CVPR,2015。[26] A. D.瓦西里·拉马尼什卡 多模式视频描述。在ACM MM,2016.[27] R.韦丹坦角L. zitnick和D.帕里克Cider:基于共识的图像描述评估。CVPR,2015。[28] S. Venugopalan、M. Rohrbach,J.多纳韦河穆尼T. Darrell和K.萨恩科序列到序列在ICCV,2015年。[29] S. Venugopalan H. 许、 J. 多纳休 M. 罗尔巴赫R. Mooney和K.萨恩科使用深度递归神经网络将视频翻译为自然语言。在NAACL-HLT,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功