视频字幕的分层模块化网络

128 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17939全球内容行动主要目的鸡关于一个烤说话是衬衫以蓝色人一鸡衬衫人实体谓词句话用于视频字幕的分层模块化网络叶汉华1李国荣1齐元凯2王淑慧3、4黄清明1、3、4杨明轩51中国科学院大学，中国2澳大利亚阿德莱德大学机器学习研究所，3Intell重点实验室。Info.过程.，计算机研究所技术人员：中国科学院，中国北京，4中国深圳鹏程实验室，5美国加州大学默塞德分校{yehanhua20，liguorong}@ mails.ucas.ac.cn，qykshr@gmail.com，wangshuhui@ict.ac.cn，qmhuang@ucas.ac.cn，mhyang@ucmerced.edu摘要视频字幕的目的是根据内容生成自然语言描述，其中表征学习起着至关重要的作用。现有的方法主要是在监督学习框架内通过生成的字幕与地面实况文本的逐字比较而开发的，在这项工作中，我们提出了一个分层模块化网络，从三个层次的视频表示和语言语义桥接生成字幕之前。具体地，层级结构由以下各项组成：（I）实体级，其突出显示最有可能在标题中提及的对象。(II)谓词级，学习以突出显示的对象为条件的动作，并由字幕中的谓词监督。(III)句子级，学习全局语义表示并由整个字幕监督。每个级别由一个模块实现大量的实验结果表明，所提出的方法在两个广泛使用的基准上对最先进的模型表现良好：CIDEr评分中 MSVD 为 104.0% ， MSR-VTT 为 51.5% 。代码将在https://github.com/MarcusNerva/HMN提供。1. 介绍视频字幕旨在从视频中自动生成自然语言描述，在众多应用中发挥着重要作用，例如辅助视障人士，人机交互和视频检索[7，27，36，42，43，45，49]。尽管最近在该领域取得了进展，但是由于视频通常包含丰富和多样的内容，但是只有一些信息与字幕相关（例如，在字幕中捕获许多对象中的两个或三个）。*通讯作者。是说话关于一个烤鸡图1.为了有效地桥接视频内容和语言帽，我们建议在三级分层结构中监督视频表示学习，即，实体级、谓词级和句子级。现有方法旨在学习有效的视频表示以经由循环解码器生成字幕，这可以大致分为两条工作线。第一个重点是设计复杂的视频编码器，以学习更好的视频表示[1，5，6，26，44，50，51]。例如，STG-KD [26]和ORG-TRL [51]构建对象关系图来推理视频对象之间的空间和时间关系。虽然GRU-EVE [1]应用短傅立叶变换[25]将时间动态嵌入视觉特征，但POS+CG [44]开发了一个交叉门控块，以融合外观和运动特征并进行直观表示。然而，这些方法的优化目标是逐词计算字幕生成，忽略了视频表示和它们的语言对应物之间的相关性。另一个重点是在生成字幕之前缩小视频表示和语言字幕之间的语义差距[28，35，52]。例如，Panetal.[28]学会校准17940视频的全局表示到嵌入整个标题。相反，Shenet al.[35] Zhenget al. [52]将名词和动词与视觉特征相关联，以在细粒度级别上探索视频-语言对应关系。这些方法能够生成更准确的字幕，因为学习了更具代表性的视频嵌入然而，它们要么关注全局句子对应，要么关注局部单词对应，而忽略了细粒度的细节或全局相关性。在这项工作中，我们提出了一个分层模块化网络，以解决上述问题。我们的模型旨在学习由不同层次级别的语言语义监督的三种视频表示，如图1所示：（I）实体级别，其突出显示最有可能在字幕中提到的对象，并由字幕中的实体1（II）谓词层，其学习以突出显示的对象为条件的动作，并由字幕中的谓词监督。(III)句子级，学习由整个字幕监督的全局视频表示。每个级别由一个模块实现。我们设计的动机是，对象通常作为视频字幕的基石，它可以是一个动作的主体或对象，以及主体和/或对象的修饰符我们建议学习谓词（动词+名词）的视频表示，而不是学习动词的视觉表示这有助于减少从多意义动词到特定视频动作嵌入的对应错误，例如踢足球和弹钢琴。由整个字幕的嵌入所监督的全局视频内容嵌入使得所生成的字幕具有合理的含义。值得注意的是，我们提出了一个新的实体模块。该模块将视频的所有预先提取的对象作为输入，并输出最有可能在字幕中提到的一小组主要对象。受DETR[3]在目标检测方面的成功启发，我们的实体模块采用Transformer编码器-解码器架构设计。与DETR相比，我们的查询增强了视频内容和监督的实体字幕，这使模型能够根据视频场景选择主要对象。本文的贡献总结如下：• 我们提出了一个分层模块化框架，通过将它们与它们的语言对应物相关联来学习不同粒度的多层次视觉表示：实体、谓语和句子。• 我们提出了一个基于转换器的实体模块来学习选择最有可能被提及的标题的主要对象。• 我们的方法对政府有利1注意实体不同于名词。名词包含抽象名词，如幸福和饥饿。，而实体由对象名称组成，例如onion和car。基于两个广泛使用的基准的最先进的模型：MSVD[4]和MSR-VTT [47]。2. 相关工作从基于模板的方法到基于CNN的方法已经提出了许多用于视频字幕任务的方法。Kojima 等人 [18]Krishnamoorthy etal. [20]建议首先为对象和动作生成单词，然后将预测的单词放入预定义的句子模板中以生成字幕。然而，基于模板的方法很难生成灵活的描述.受RNN和CNN成功的启发，编码器-解码器结构被广泛用于生成具有灵活语法结构的描述[27，43，45]。在[42]中，Venu- gopalanet al.通过对每个帧的CNN特征执行均值池来学习视频表示，并利用LSTM[14]生成字幕。另一方面，Yaoet al.[49]设计一种时间注意力机制，在给定文本生成RNN的状态下聚合相关视频片段，对视频的全局时间结构进行建模。除了最常用的图像和运动特征，Horiet al. [15]和Xuet al. [48]利用音频特征来丰富视频表示。在[7]中，Chenet al.建议PickNet从视频中选择信息帧，去除冗余的视觉信息。最近，Wanget al.[46]和Peiet al.[30]通过设计记忆网络来组织多个视觉特征来提高字幕质量利用检测到的对象。对象在生成字幕中起着重要的作用，通常通过预先训练的对象检测器（例如，YOLO9000 [31] ， Faster- RCNN [33] ， Mask RCNN[13]）。已经做出了大量努力来使用视频的对象信息用于字幕。在[50]中，Zhanget al.利用GRU [8]从时间轨迹捕获对象动态信息。Aafaq等人[1]利用对象标签（由对象检测器预测）来增强视觉表示的语义。另一方面，Zhenget al. [52]采用点积注意机制来帮助确定对象之间的交互。此外，Panet al. [26] Zhanget al. [51]使用图卷积网络[17]在检测到的对象之间执行关系推理，以增强对象级表示。这些方法可以在挖掘详细的视频信息时生成更准确的字幕。然而，在这些方法中使用所有检测到的对象由于通常在字幕中仅提及一小组对象，因此大量冗余对象可能对字幕性能产生负面影响。相比之下，我们提出了一个实体模块，突出的主要对象是最有可能被提到的标题在这项工作中，减少噪音所带来的冗余对象。Vision中的Transformer。Transformer模型[9，23，40]在自然语言处理中的成功吸引了17941实体模块...等同模块关注BiLSTM句子模块关注BiLSTM描述生成器语言LSTM...编码器...解码器...AttnAttn语文主任SCAttn语文主管E语文主管PC我的天AttnC对象特征二维CNN特征三维CNN特征C并置运算注意力机制优化图2.所提出的分层模块化网络作为一个强大的视频编码器，它通过实体从三个层次桥接视频表示和3.1）、同品种器械（第3.2）和句子（第3.3）模块。每个模块都有自己的输入和从字幕中提取的语言监督。对计算机视觉社区很感兴趣。有几种方法已经证明了变换器在视觉任务中的有效性，例如图像分类[10，24，39]，对象检测[3，54]，视频理解[11，37]和语义分割[53]。受DETR [3]的启发，DETR自适应地学习查询以检测对象，在这项工作中，我们开发了一个基于transformer的实体模块，以突出显示大量候选对象中的prin-UNR对象。实验和消融研究表明了这种设计的有效性。3. 方法如图2所示，我们的模型遵循传统的编码器-解码器范式，其中我们的分层模块化网络（HMN）用作编码器。我们的HMN由实体、谓词和句子模块组成。这些模块配备了语言头，旨在从三个层面桥接视频表示和语言语义。我们的模型操作如下。首先，实体模块将所有检测到的目标作为输入，输出主要目标的特征谓词模块通过结合主要对象的特征和视频运动来编码动作。接下来，句子模块对图3.我们的实体模块的主要架构。在关键帧周围作为3D长方体。我们利用预先训练的对象检测器[33]从每个关键帧中捕获对象区域，并根据边界框之间的外观和交集（IoU）对这些区域进行然后我们对这些聚类应用均值池操作为了获得初始对象特征O={oi}L，oi∈Rdo，对于整个视频内容的全局表示考虑-使用先前生成哪里i=1L和do表示视频对象的数量和大小对象和动作。最后，将所有特征连接在一起并馈送到解码器以生成字幕。3.1. 实体模块给定一个视频帧序列，我们统一选择T帧作为关键帧，并采集短距离视频帧物体的特征。由于视频中有大量的对象，但只有一些被提到的字幕，我们设计的实体模块学习，以突出这些主要对象自适应。架构图3说明了我们的实体模块的主要架构，它由一个Transformer编码器和Transformer解码器组成。这个设计是有动机的主要地物匈牙利匹配足球甲级联赛人FC是.饮用.比河..在FC满意度[无]FC. . - 是的Transformer编码器. . - 是的输入对象特征. . - 是的Transformer解码器++。-是的-是的正+ +主体查询参数BiLSTM Maxpooling. . - 是的1998年，2%+内容向量此外（2）$%（$17942i=1NNNHEHλm=αNE我i=1其中O′是编码器输出，Q={qi}N我i=1我我 i=1通过认真总结主要对象特征E每一个名词都在地-我Σi=1∈由DETR [3]，它利用一个Transformer编码器-解码器架构来学习一组固定的对象查询，以直接预测对象检测任务的对象边界框。我们的目标不是简单地检测物体，而是确定视频中重要的物体。由于这两项任务之间的显著差异，DETR体系结构的简单应用表现不佳（参见第4.4节）。为关键的目的是学习查询，我们设计自己的查询，计算实体嵌入N={ni}M，其中ni∈Rds。我们将N设置为大于字幕中实体的典型数量，并将N填充为大小N，其中（无实体）。然后，我们搜索N和E<$之间具有最小距离成本的最优分配σnσ=argminDist（ni，e<$σ（i）），（4）σ∈N我稍后详细编码器将输入对象O映射到一组表示，其中，N是用于Ne的分配搜索空间选择：O′={o′}L=转码器（O），（1）项，而Dist（ni，e<$σ（i））是成对匹配成本，在实体嵌入ni和预测语言嵌入e<$σ（i）之间，其中o′i∈Rd模型。注意，与传统的反式-Dist（n，e<$）=1·（1−ni·e<$σ（i））。（五）former，我们丢弃对象的位置编码，因为iσ（i）{ni}|·|e<$σ（i）|e¯σ(i)|在我们对对象特征应用均值池化之后，对象空间位置是无意义的。为了使解码器能够突出显示主要对象，我们的解码器采用三种类型的输入：这种最优分配是用匈牙利算法[21]有效计算的，如DETR [3]。最后，根据最优分配σ_n，对实体模块进行优化通过最小化N和E之间的距离：E={ei}i=1=TransDecoder（O′，Q，{v}×N），（2）D ist（ni，e<$σ（i））.（六）为查询初始化N个参数- -i=1伊登蒂v×N是N计算视频内容向量以将每个查询qi放入适当的上下文中，从而便于解码N个视频特定的主要对象特征。为了构建视频内容向量v，我们首先利用预训练的2DCNN [38]和预训练的3D CNN [12]来提取上下文fea。图C={ci}T从关键帧和运动特征3.2. 等同模块我们的谓词模块被设计为学习动作表示，桥接视频动作信息和字幕的谓词。由于谓词通常由动词和它的接受者组成，我们的谓词模块连接初始运动特征M={m}T，并且运动-i=1MTii=1={mi}i=1从3D长方体。C和M是一致的。相关对象特征Me={me}T作为输入。为每个链接并馈送到BiLSTM中以生成一组隐藏状态H={h}T=BiLSTM（{[c;m]}T）的情况。Next，运动我i i=1mi，我们计算其运动相关的物体特征通过最大池化来获得嵌入v= maxpool（）表示视频内容。作为解码器的输出，主宾语特征稍后被馈送到谓词和句子模块，以及语言中心语，如图2所示。语言头经由Neik=1i，kek，通过全连接层投射到语言语义空间i=1αi，k=exp（α）i，k）/αexp（αi、j），（7）E<$={e<$i}N=FC（E），（3）j=1在那里，我研发了S。这位语言主管是由...从标题中删除实体的基础，详见下一小节。损失函数我们利用标题中的实体来支持-检查我们的实体模块具体来说，我们首先获得αi，k=watanh（Wami+Uaek+ba），其中αi，k是第k个对象ek关于第i个运动的权重;Wa，wa，Ua和ba是可学习的参数。然后，我们使用双向LSTM来编码动作：2A={ai}=BiLSTM（{[mi;me]}T）的情况。（八）不Le=随机我们汇总“synonymy label” ini=117943∈A真相字幕然后，我们选择带有标签“ob-ject. n. 01”、“causeagent.n.01”和“matter.n.03”的名词假设从字幕中提取了M个实体，我们采用预训练的SBERT [32]作为文本编码器来实现。2https://wordnet.princeton.edu网站其中一个是研发模型。动作特征随后被用作句子模块和谓词语言中心语的输入。作为一个完全连接的层，谓词语言头部将视频动作投射到语言语义空间：a<$=FC（maxpool（A））（9）17944∈不i=1我N∈GGΣ∈−我Ki，kDDt−1D我我 i=1不Σ不∈不不j=1其中aRDS。损失函数我们利用地面实况字幕的谓词来监督我们的谓词模块。同样，我们使用SBERT [32]将谓词编码为嵌入p∈Rds。然后，我们的谓词模块通过min-3.4.描述生成我们使用LSTM作为描述生成器，以逐步生成准确的标题。为了生成视频的准确描述，我们的描述生成器采用所有三个级别的视频表示，它们的语言预测，最小化p和a′之间的距离：上一个单词wt−1 作为输入L=1−p·a<$。（十）郎l l l郎p3.3.句子模块| · |a¯|a¯|ht=LSTMlang（[gt;at;et;E（wt−1）];ht−1），（15）其中E（wt−1）∈Rdw是wt−1的w阶嵌入，而dw是嵌入大小。gl，al，andelarecon-我们的句子模块旨在学习连接全球视觉内容和en的全球视频表示，t t t视觉特征和语言预测的连接，即，gl=[gl;g<$]，al=[al;a<$]，el=[el;e<$l]。g和a是前-轮胎语言标题。由于标题包括实体，t t tt t t t t t谓语和其他上下文信息，我们的句子全球内容和动作如第3.3节和第3.2节所述。gl，al，el，和模块采用初始视频上下文特征C={ci}T，lt t t与上下文相关的操作功能Ca a Ti=1et是通过有意地总结G、A、E和={ci}i=1，且上下文-根据历史隐藏的实体语言预测E'相关对象特征Ce={ce}T作为输入。去州立监狱。这四个表示被计算我们得到a和ei i=1ht−1Ci特征A={ai}Tci通过认真总结行动和主要物体特征E=以类似方式。这里我们以el为例：{ei}Ni=1根据视频上下文ci. 这里我们把ca作为一个例子：ca=αβa，el=k=1γt，kek，Σβi，k=exp（βi，k）/βexp（βi，j），（11）βi，k=wtanh（Wgci+Uak+bg），γt，k=wtanh（Whlang+Uek+bd），其中γt，k是第t次解码时对象ek的权重g gstep;以及wd、Wd、Ud和bd是可学习的参数。根据LSTMhlang当前的隐藏状态，其中β i，k是关于第i个上下文的第k个动作的权重;wg、Wg、Ug和bg是可学习的参数。然后，我们计算全局视频特征：不在D个单词的词汇表上的概率分布Pt由全连接层和softmax运算计算G={gi}=BiLSTM（{[ci;ca;ce]}T），（十二）P= softmax（FC（hlang））。（十七）其中giRd模型。全局视频特征稍后用作字幕生成器的输入和句子模块的语言这个模块的语言头是通过一个损失函数给定一个视频与地面真理的话[w1，. - 是的-是的，w Ls]，其中L s是字幕长度，我们计算交叉熵损失以优化我们的描述一般。全连接层。它以字幕的嵌入作为输入并在字幕的监督下预测全局视频语言嵌入目标：LXE= −Lst=1δ（wt）对数Pt，（18）g<$=FC（maxpool（G）），（13）其中g RDS。损失函数我们利用整个字幕的嵌入来监督句子模块。类似地，字幕嵌入sRds由预训练的SBE RT计算。然后，我们最小化s和g<$之间的距离，以优化我们的句子模块：=1s·g。（十N不k=1γt，k=exp（γt，k）/exp（γt，j），（16）j=1i=1SL17945∈四）|S|·|g<$|其中δ（w t）RD是单词wt的独热编码。然而，视频字幕语料库中的长尾词分布问题3可能会导致不平衡数据的训练问题。为了缓解这个问题，Zhang等人。 [51]提出了一种插件方法，其中丰富的语言知识从预训练的外部语言模型（ELM）转移到描述生成器。给定3语料库中的虚词和常用词（如17946QLKL不Dt不不前一个单词w

下载后可阅读完整内容，剩余1页未读，立即下载