基于门控融合网络的词性序列引导的视频字幕生成

157 浏览量更新于2023-10-12 收藏 12.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…26410基于门控融合网络的词性序列引导的可控视频字幕生成0Bairui Wang 1 � Lin Ma 2 † Wei Zhang 1 † Wenhao Jiang 2 Jingwen Wang 2 Wei Liu 201 山东大学控制科学与工程学院 2 腾讯AI Lab0{ bairuiwong, forest.linma, cswhjiang, jaywongjaywong } @gmail.com0davidzhang@sdu.edu.cn wl2223@columbia.edu0摘要0本文提出在多个输入视频的多重表示之间，通过词性（POS）信息来引导视频字幕生成。我们构建了一个新颖的门控融合网络，其中包含一个特别设计的交叉门控（CG）块，以有效地编码和融合不同类型的表示，例如输入视频的运动和内容特征。一个POS序列生成器依赖于这个融合表示来预测全局句法结构，然后利用它来引导视频字幕生成并控制生成的句子的句法。具体而言，提出了一种门控策略，动态自适应地将全局句法POS信息纳入解码器中生成每个词。在MSR-VTT和MSVD这两个基准数据集上的实验结果表明，所提出的模型可以很好地利用多个表示的互补信息，从而提高性能。此外，生成的全局POS信息可以很好地捕捉句子的全局句法结构，从而被利用来控制描述的句法结构。这种POS信息不仅提升了视频字幕生成的性能，还提高了生成字幕的多样性。我们的代码在以下链接中可以找到：https://github.com/vsislab/Controllable_XGating。01. 引言0视频字幕生成[18, 56,46]旨在通过自然语言自动描述视频中的丰富内容，这是一个有意义但具有挑战性的任务，用于连接视觉和语言。这项任务可以应用于各种实际应用中的高级视频理解，例如视觉检索[26, 37, 48, 24]，视觉问答等。0� Bairui Wang在腾讯AI Lab担任研究实习生期间完成了这项工作。†通讯作者。0特征#1编码0特征#2编码0CG融合0LSTM0LSTM0LSTM0门控融合网络描述解码器0POS序列生成器0[…动词名词]0特征#3编码0LSTM0 …0图1.视频字幕生成的提议模型由门控融合网络、POS序列生成器和描述生成器组成。门控融合网络从视频中提取多样化的特征，对其进行编码和融合，生成更具代表性的视频特征。依靠POS序列生成器生成的全局句法POS信息和融合后的视频特征，描述生成器生成描述视频内容的句子。0视频字幕生成[25,9]等等。视频字幕生成与图像字幕生成相关，后者用句子描述一张图像，因为视频可以被视为图像的序列。然而，与图像字幕生成[12, 44, 7,17]相比，视频字幕生成更具挑战性的不仅是其输入是多个图像，而且视频包含更丰富的语义信息，例如时空信息、内容/动作信息，甚至语音信息。显然，现有的只使用一种单一特征[11, 43, 45,46]的方法很难全面利用视频的语义含义。最近，从不同的表示中描述视频的研究，如Inception ResNet V2[38]、C3D [40]和I3D[2]，已经证明了多个特征可以改进视频字幕生成模型[42,53, 27,28]。这是合理的，因为不同的特征可以从不同的角度捕捉视频的语义信息。然而，据我们所知，现有的方法只是简单地将不同的表示连接在一起，而忽略了它们之间的关系，而这在充分描述视频的语义含义中起着重要作用。先前的视频字幕生成方法也忽略了句法结构26420在生成过程中，句子的结构是一个重要的因素。类似于单词是句子的基本组成部分，句子中每个单词的词性（POS）[10]信息是语法的基本结构。因此，如果能够事先获得生成的句子的POS信息，它可以作为一种先验知识来引导和规范句子的生成。具体而言，通过获得POS信息，解码器可以知道要生成的单词的POS信息。这有助于减少目标单词的搜索空间，从而有助于视频字幕生成。此外，POS信息的变化可以看作是描述的先验知识，有望帮助生成具有更多语法多样性的句子。为了充分利用不同表示之间和POS信息之间的关系，我们提出了一种基于门控融合结果的POS引导视频描述模型。首先，一种新颖的门控融合网络依赖于特别设计的交叉门控（CG）块来相互调节不同特征。通过这样的方式，我们可以对视频进行全面的表示。一个POS序列生成器依赖于融合的视频表示来生成全局POS信息。然后，解码器依赖于门控策略来动态和自适应地将生成的全局句法POS信息纳入到每个单词的生成中。总结起来，本文的贡献有三个方面：1）我们提出了一种新颖的视频字幕生成模型，它依赖于一个门控融合网络将多个特征信息和一个预测生成句子的全局句法POS信息的POS序列生成器结合在一起。2）我们提出了一种交叉门控（CG）策略来有效地编码和融合不同的表示。全局句法POS信息被动态地纳入到解码器中，以引导解码器在语法和语义方面生成更准确的描述。3）在基准数据集上的广泛实验结果表明，所提出的融合策略可以捕捉多个表示和描述之间的关系，并且通过控制全局POS序列可以获得具有多样语法的描述。02. 相关工作02.1. 视频字幕生成0以往的视频字幕生成工作采用基于时间的方法[21, 15, 34,33,52]，这些方法使用语法规则定义句子模板。句子被解析为主语、动词和宾语，每个部分与视频内容对齐。显然，在预定义具有固定句法结构的模板下，这些方法很难生成灵活的语言描述。0现如今，由于CNN和RNN的成功，序列学习方法[42, 53,27, 28, 8, 45,49]被广泛用于以灵活的句法结构描述视频内容。在[43]中，Venugopalan等人通过对每帧的CNN特征进行平均，获得了视频表示，但忽略了时间信息。相比于平均池化，Yao等人和Yu等人采用了软注意机制来动态总结所有帧的表示[53,54]。最近，为了利用更多的语义信息，Pan等人使用了视觉-语义嵌入模型来建模句子和视频的语义级相关性[27]。为了避免冗余的视觉信息的负面影响，Chen等人提出了PickNet来选择关键帧[8]。最近，不同的特征可以从不同的角度帮助表征视频的语义含义。许多现有的工作利用运动信息[42]、时间信息[4, 18,31]甚至音频信息[51]来获得竞争性的性能。然而，这些工作中的多种特征仅仅是简单地串联在一起，忽略了它们之间的关系。通过更好的融合策略，有可能进一步提高性能。在本文中，我们设计了一个门控融合网络来动态学习和突出不同特征之间的相关性，以完整地描述和表征视频的语义含义。02.2. 带有POS信息的字幕生成0据我们所知，在视频字幕生成任务中，语言描述的POS标签信息尚未引入。而在图像字幕生成中，Deshpande等人将基准数据集给出的整个POS标签序列视为一个样本，并通过k-medoids聚类将其分为1024个类别[10]，这限制了POS序列信息的多样性。He等人基于每个真实单词的预定义POS标签控制图像表示的输入[16]，这在实际场景中几乎无法获得。相比之下，我们逐个预测POS序列标签，并将它们嵌入为全局POS特征，以提供对句子的句法结构的近似全局视图。更重要的是，通过手动更改POS序列，可以控制描述的句法结构。03. 架构0给定一个视频序列，视频字幕生成旨在生成一个自然句子 S= { s 1 , s 2 , . . . , s n } 来表达其语义含义，其中 n表示句子的长度。在本文中，我们希望通过考虑多样的视频特征来充分利用视频序列。此外，我们还希望预测生成句子的句法信息，具体来说是POS信息。… h(r)i, z(r)i= LSTM(E)r�ri, h(r)i−1�,h(f)i, z(f)i= LSTM(E)f�fi, h(f)i−1�,(1)ℎ𝑖(𝑟) ℎ𝑖(𝑓) 𝑟 𝑖 𝑓 𝑖 … 𝑥𝑖 26430� � ( � )0� �− 1 ( �)0� �− 1 ( �)0� � ( � )0� �− 10� �0门控融合网络0� � ( � ) � �− 1 ( � )0A0A0� � � �− 1 � �0A0POS序列生成器0… � �− 1 ( � ) � � ( � ) � � ( � )0G0G0A0A0A0� � 0描述生成器0CNN r0CNN f0CG融合0CG融合0G0特征#10特征#20图2.视频字幕生成的提议模型由三个组件组成。门控融合网络对不同的CNN网络提取的多个视频表示进行编码和融合。POS生成器依赖于融合的视频表示来预测将要生成的句子的全局句法POS信息。解码器通过自适应和动态地整合全局POS信息来生成每个目标词。G �表示交叉门控机制，A � 表示软注意机制。0formation C = { c 1 , c 2 , . . . , c n }，这之后被用于引导句子生成。我们提出了一种用于视频字幕生成的模型，实现在编码器-解码器架构中，包括一个门控融合网络、一个POS序列生成器和一个描述生成器，如图2所示。门控融合网络学习利用不同视频特征之间的关系对视频序列进行全面理解。POS序列生成器学习利用融合表示和地面真实描述的POS标签之间的关系，从而为将要生成的句子预测全局POS表示。描述生成器通过注意力机制总结融合表示，并通过自适应地整合预测的全局POS表示来生成每个单词。03.1. 门控融合网络0给定输入视频，门控融合网络首先通过多个CNN网络提取每个帧的不同语义表示。为了方便表达，本节以RGB帧的视觉内容特征和光流的运动特征为例，分别表示为 R = { r 1 , r 2, . . . , r m } 和 F = { f 1 , f 2 , . . . , f m } ，其中 r i 和 f i分别表示输入视频的第 i 帧和光流的特征，m表示视频的总长度。基于获得的表示 R 和 F，门控融合网络分为两个阶段进行。首先，分别进行每个表示的时间编码。然后，提出了一种交叉门控策略来将时间上聚合的特征融合在一起。时间编码器。长短时记忆网络（LSTMs）用于聚合这些表示：0其中 LSTM ( E ) r 和 LSTM ( E ) f 表示用于0图3.提出的门控融合网络中交叉门控策略的示意图。交叉门控策略增强了不同特征之间的相关信息，并将它们融合在一起。� 和 �分别表示逐元素乘法和加法。0分别是内容和运动特征。 h ( r ) i , h ( f ) i , z ( r ) i 和 z (f ) i是相应的隐藏状态和记忆单元。通过LSTM编码，得到高层次的内容和运动特征序列 ˆ R = { h ( r ) 1 , h ( r ) 2 , . . . ,h ( r ) m } 和 ˆ F = { h ( f ) 1 , h ( f ) 2 , . . . , h ( f ) m }0交叉门控。简单地将 ˆ R 和 ˆ F进行串联可以融合帧的所有不同特征。然而，这种融合策略忽略了这些特征之间的关系。为了充分利用相关的语义信息，我们提出了一种新颖的交叉门控策略，如图3所示：0˜ r i = 门控 ( E ) r � h ( f ) i , h ( r ) i �0˜ f i = 门控 ( E ) f � h ( r ) i , h ( f ) i � , (2)0其中 ˜ r i 和 ˜ f i是内容和运动表示的门控结果。我们将门控函数定义如下：门控函数 ( x, y ) = σ ( wx + b ) y + y, (3) 其中 y表示目标特征，根据驱动特征 x 的指导进行更新。 w 和b 是可学习参数， σ是非线性激活函数，在我们的实现中是ReLU函数。显然，在xi = w(E) ��˜ri, ˜fi�+ b(E)�,(4)h(T )t, z(T )t= LSTM(T ) ��Epos(ct−1), φt�X, h(T )t−1��, h(T )t−1�,φt�X, h(T )t−1�=0… … … 26440通过提出的交叉门控策略，加强了与运动信息相关的内容信息。类似地，对 ˜ f i进行相似的处理，加强了与内容信息相关的运动信息。最后，通过全连接层将内容和运动的门控表示融合在一起：0其中 [ ∙ ] 表示输入的串联。 x i表示每帧的融合表示，包含了内容和运动信息。 w ( E ) 和b ( E ) 是可学习参数。03.2. POS序列生成器0除了自然语言描述之外，句子中每个单词的POS也与视频内容密切相关。为了利用POS信息，我们设计了一个基于融合表示的简单POS序列生成网络。基于融合特征序列 X = { x1 , x 2 , . . . , x m } ，POS生成器预测POS序列：0P ( c t | c

下载后可阅读完整内容，剩余1页未读，立即下载