基于语义属性转移的视频字幕设计

190 浏览量更新于2023-10-17 收藏 967KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6504基于语义属性转移的视频字幕设计Yingwei Pan，Ting Yao，Houqiang Li，and Tao Mei中国科学技术大学，合肥，中国微软研究院，北京，中国panyw. gmail.com，{tiyao，tmei}@ microsoft.com，lihq@ustc.edu.cn摘要自动生成视频的自然语言描述是计算机视觉领域的一个基本挑战。这个问题的最新进展已经通过采用2-D和/或3-D卷积神经网络（CNN）来编码视频内容以及采用递归神经网络（RNN）来解码句子来实现。在本文中，我们提出了具有转移语义属性的长短期记忆（LSTM-TSA）-一种新的深度架构，它将从图像和视频中学习的转移语义属性纳入CNN+ RNN框架，通过端到端的方式训练它们。LSTM-TSA的设计受到以下事实的启发：1）语义属性对字幕起着重要的作用，2）图像和视频具有互补的语义，因此可以相互加强字幕。为了提高视频字幕，我们提出了一种新的传输单元来对从图像和视频中学习到的相互关联的属性进行建模。在三个公共数据集上进行了广泛的实验，即，MSVD、M-VAD和MPII- MD。我们提出的LSTM-TSA在MSVD上的句子生成中实现了迄今为止最好的公开性能：BLEU@4和CIDEr-D分别为52.8%和74.0%。与最先进的方法相比，还报告了M-VAD和MPII-MD的优越结果。1. 介绍视频字幕是用自然语言描述视频的一种方法，它给计算机视觉和语言处理领域带来了深刻的挑战。这一课题引起了国内外学者的广泛关注现有的视频字幕方法已经通过两个维度发展：基于模板的语言模型[8，20，33]和序列学习方法[15，29，34，37]。前者根据特定的语法规则预先定义了一组句子生成模板，并将每个部分这一工作是在Pan Yingwei作为研究实习生访问MicrosoftResearch时完成的输入视频：......图像的属性年轻，女孩，举行，孩子，小，地板，对，它，女人，玩视频属性人，做，人，房间，男孩，清洁，机器，他的，某人，骑视频说明：一个男孩正在擦地板图1. 视频描述生成的示例。输入是一个短视频剪辑，属性分别从图像和视频中学习。输出是由我们的LSTM-TSA架构生成的句子。有视频内容的句子然而，这类模型高度依赖于预定义的模板，因此生成的句子总是具有恒定的句法结构。相比之下，序列学习方法是利用序列学习模型将视频内容直接翻译成句子，这主要是受到最近在机器翻译中使用递归神经网络（RNN）的启发[24]。spir- it背后是一个用于翻译的编码器-解码器机制。更具体地，编码器2-D/3-D卷积神经网络（CNN）读取视频并产生视频表示的向量，该向量进而被馈送到解码器RNN中，该解码器RNN生成自然句子。虽然报告了令人鼓舞的性能，但基于CNN和RNN的序列学习方法直接从视频表示转换为语言，留下视频中的高级语义线索。此外，高级语义信息，即，语义属性，已经在视觉到语言任务中显示出有效[31]（例如，图像字幕和可视问答）。本文提出了一种新的深度架构，命名为具有转移语义属性的长短期记忆（LSTM-TSA），它将语义属性融入视频字幕的序列学习中。更重要的是，以图1中的给定视频为例，6505图像通常描绘静态对象和场景（例如，“girl,” “child”and “floor”) while the semantics extracted from videos 这使得从图像和视频中挖掘的属性对于句子的生成彼此互补（例如，“一个男孩正在擦地板”）。我们调查如何从两个来源的属性可以利用增强视频字幕。具体而言，给定视频，利用2-D/3-D CNN来提取所选视频帧/剪辑的视觉特征，并且通过对这些视觉特征进行平均池化来产生视频表示然后，通过输入视频表示和从图像和视频中挖掘的语义属性来学习用于生成视频描述为了更好地利用来自两个源的属性，设计了一个传输单元来动态平衡给定输入单词和LSTM中隐藏状态之间的影响。这项工作的主要贡献是LSTM-TSA的建议，用于解决利用视频表示和属性之间的相互关系来提高视频字幕的问题这个问题也导致了一个优雅的观点，如何从图像和视频的互补属性被联合利用的句子生成，这是一个问题，尚未在文献中充分探讨。2. 相关工作我们将相关的作品简单地分为两类：视频字幕和序列学习。前者借鉴了对视频自动生成描述的研究，后者研究了利用属性对视觉内容进行序列学习视频字幕。该方向的研究有沿着两个不同的方向进行：基于模板的语言方法[8，11，20，33]和序列学习方法（例如，RNN）[15，22，29，30，32，34，37]。基于模板的语言方法首先对齐每个句子片段（例如，主语、动词、宾语）与从可视内容中检测到的单词，然后用预定义的语言模板生成句子。显然，它们大多高度依赖于句子模板，生成的句子都具有句法结构。[11]是早期的作品之一，建立了一个概念层次的行动自然语言描述的人类活动。Rohrbach等人学习CRF来对输入视频的不同组件之间的关系进行建模，并生成视频的描述[20]。最近，[33]中的深度join-t视频语言嵌入模型被设计用于视频句子生成。与基于模板的语言方法不同，序列学习方法通过学习视觉内容和文本句子在共同空间中的概率分布，生成句法结构更加灵活的新颖句子。在[30]中，Venugopalan等人提出了一种基于LSTM的模型来生成视频描述。在所有帧上使用均值池表示。然后通过将帧和光流图像输入到[29]中的编码器-解码器LSTM中来扩展该框架。此外，Pan等人还考虑了句子语义和视频内容之间的相关性，作为基于LSTM的架构中的正则化器[15]。与均值池相比，Yao等人提出利用时间注意机制来利用视频字幕的时间结构[34]。使用属性的序列学习。属性是在具有丰富语义线索的视觉内容中观察到的属性，并且已经在计算机视觉中被广泛研究，提高视觉识别的效率[17]。遵循这个优雅的配方，最近的几个作品试图将属性注入到序列学习中以生成图像帽。Fang等人[6]利用多实例学习来训练属性检测器，然后根据属性检测器的输出最近，在[31]中，当注入现有的最先进的基于RNN的模型时，高级概念/属性显示出对图像字幕任务的明显改善，并且这些视觉属性也被用作[36]中的语义注意力以增强图像字幕。最近，Yao等人。[35]以不同的方式将图像和属性输入RNN，以增强图像描述生成。摘要我们的工作旨在利用语义属性的视频字幕。不同于上述大多数使用属性的主要集中于通过仅依赖于在域中学习的属性来生成句子，我们的工作不仅通过研究从图像域和视频域学习视频中的属性，而且还通过研究如何通过在两者之间动态地提供用于增强视频字幕的传输单元来更好地融合属性。3. 方法我们设计了我们的CNN加RNN架构，以在整合从图像和视频中挖掘的语义属性的保护伞下生成视频描述。具体来说，我们首先介绍问题公式以及如何学习视频中的语义属性，然后介绍我们提出的LSTM-TSA视频字幕框架。特别是，我们设计的传输单元，这是用来融合从两个来源学到的属性的几个变种进行了研究和讨论。3.1. 问题公式化假设我们具有要由文本句子S描述的具有Nv个样本帧 / 剪辑（均匀采样）的视频 V ，其中 S ={w1 ，w2，...， w Ns}由N s个单词组成。设v∈RDv和wt∈RDw表示视频V的Dv维视频表示，6506我V我我IJV句子S中第t个词的语篇特征。由于句子由一系列单词组成，所以句子可以由D w×Ns矩阵Wn[w1，w2，.， wNs]，其中句子中的每个w命令作为其列向量。此外，我们还有另外两个特征向量Ai∈RDai和Av∈RDav来表示高级属性的概率分布，视频V分别从图像和视频中学习。更多关于我们如何挖掘和表示输入视频全卷积网络特征向量图像和视频将在第3.2节中介绍。受最近在统计机器翻译[24]和图像字幕中使用的语义属性[6，36]，我们的目标是基于LSTM[9]以端到端的方式制定我们的视频字幕模型，该模型将给定的视频及其从图像和视频中学习的属性编码为固定维度的向量，然后将其解码为输出目标句子。因此，我们在这里利用的视频句子生成问题可以通过最小化以下能量损失函数来公式化：E（v，Ai，Av，S）= − log Pr（S|v，Ai，Av），（1）其是给定视频和来自图像和视频两者的检测到的属性的正确文本句子的负对数由于该模型在每个时间步在句子中产生一个单词，因此很自然地应用链式规则来对连续单词的联合概率进行建模。因此，句子的对数概率由单词上的对数概率之和给出，并且可以表示为ΣNs对数Pr（S|v，Ai，Av）=log Pr（wt|v，Ai，Av，w0，. . . ，wt−1）。t=1（二）通过最小化这种损失，可以在给定视频及其从图像和视频中学习的属性的情况下保证句子中单词3.2. 视频中的语义属性从图像中学习的属性。我们从图像字幕属性检测的最新进展中汲取灵感[6，36]，并在图像字幕基准上采用多实例学习（ MIL ）的弱监督方法（例如，COCO[12]）来学习属性检测器。对于一个属性wa，如果wa存在于图像I的地面真值语句中，则将图像I通过输入图2. 视频MIL框架。其中p wa是由区域r i预测的属性w a的概率，并且可以通过CNN架构中最后一个卷积层之后的S形层来计算[6]。这里采用的CNN架构是从最近流行的CNN [23]扩展的完全卷积网络，其显示出视频表示学习的卓越性能[7，14]。具体来说，卷积ac的维度-来自最后一个卷积层的tivations是x×x×h，h表示每个区域的表示维度，从而得到x×x响应图，该图保留了图像的空间依赖性。然后，计算交叉熵损失，基于所有属性的概率计算在整个架构的顶部，以优化图像MIL模型。利用图像字幕数据集上的学习图像MIL模型，我们计算每个采样帧的所有属性的概率分布，并对所有采样帧的分布执行均值池，以获得从图像学习的属性的最终表示Ai从视频中学习的属性。检测属性一种自然的方法是直接训练图像MIL视频帧上的模型。然而，由于视频是一个变化很大的帧序列，简单地为每个采样帧分配视频级描述将导致语义偏移的问题，从而在属性学习过程中引入噪声。为了解决这个问题，我们特别设计了一个视频MIL模型来从视频中学习属性，如图2所示。给定属性wa，我们将视频V中的所有NV个采样帧的空间区域视为一个包，如果wa存在于视频V的描述中，则认为该空间区域是正的，否则认为该空间区域通过将所有袋子馈送到具有图像MIL模型中相同架构的全卷积网络中，我们计算袋子中所有区域的概率上包含属性wa的袋子bV的概率为[38]这是一个很好的例子，它是一个很好的例子。YY。Prwa = 1−wa包含属性wa的袋子bI的ty在袋子中所有区域的概率上测量为Vj∈[1，NV]rij∈b（j）1−pij、（四）Prwa= 1− Yri∈bI（1 −pwa），（3）其中pwa是由第i个区域在第j帧中预测的属性w a的概率，并且b（j）表示...XXH...X视频MIL模型交叉熵损失XH跳人崖水............“a65072sIJ输入视频输入句子表示及其从图像和视频中学习到的检测到的语义属性，如图所示3. 特别是，我们的LSTM-TSAIV模型首先在初始步骤对视频表示v进行编码，然后在每个时间步将来自图像和视频的属性表示作为广告输入馈送到第二层LSTM单元，以更频繁地强调语义信息。ly. LSTM-TSAIV中的LSTM更新过程如下：x−1 =f1（Tvv）+g（Ai，Av），（5）图3.用于视频字幕的LSTM-TSA概述xt= f1（Tswt）+g（Ai，Av），t∈ {0，. . . ，Ns− 1}，（6）ht= f. xt∈ {0，. . . ，N-1}，（7）（最好是彩色的）。视频表示由在采样帧/剪辑的视觉特征上的平均池化，其中De是LSTM输入的维数，Tv∈RDe×Dv通过2-D/3-D CNN进行建模，仅在初始时间注入LSTM。图像和视频MIL模型分别用于从图像和视频中挖掘为了更好地利用从两个来源挖掘的属性，设计了一个传输单元来动态地将它们融合到LSTM中。第j帧中的所有区域。具体来说，在我们的训练中，来自一个视频的所有NV采样帧都被作为一个批次，每个帧都被馈送到同一个完全卷积网络中，然后是一个sigmoid层，结果是x×x响应映射，其元素表示概率p wa 在区域rij中检测到的属性wa。类似于图像MIL模型，在整个架构的顶部设计了一个交叉熵损失层，以优化我们的视频MIL模型。因此，所提出的视频MIL模型在视频中的所有帧之间进行整体训练，并且概率分布由等式2计算。(4) 被用作从视频学习的属性的表示。3.3. 具有语义属性的视频字幕利用从图像和视频中检测到的高级语义属性，我们提出了一种基于图像和视频语义属性转移的长短期记忆（LSTM-TSAIV）视频字幕模型。LSTM-TSAIV的基本思想是通过LSTM类型的RNN模型将视频表示从2-D和3-D CNN转换为所需的输出句子，并额外注入从图像和视频中学习的高级语义属性。具体地说，我们设计了一个迁移单元来动态地控制两个来源的语义属性对句子生成的影响。3.3.1基于属性的LSTM型视频字幕受LRCN[5]中性能最好的架构（因子化，两层LSTM）的启发，我们通过将视频和Ts∈RDe×Dw是用于视频表示和单词的文本特征xt和ht是第二层L-STM单元的输入和单元输出，f1和f2是第一/第二层LSTM单元内的更新函数，g是变换函数将Ai和Av都转移到第二层LSTM单元中。3.3.2转印单元为了将来自多个源的语义属性信息上下文地传递到LSTM中，我们设计了一个新的传递单元，该单元被视为我们提出的LSTM-TSAIV模型的核心单元。传送门。一种新的门架构，命名为transfer门，是专门设计的，以控制影响的语义属性，通过采取上下文信息到account，这是左边的一部分，如图4所示的传输单元。在第t个时间步，传输门封装静态信息（从图像和视频中学习的属性）和动态（上下文）信息（当前输入单词和先前的LSTM隐藏状态），以从属性中选择有价值的知识，属性与特征变换一起应用，以产生固定长度的权重向量，然后是sigmoid函数，以将实值权重向量压缩到一个范围的[0，1]。用于转移门的这种输出权重向量gt被计算为：gt=σ（Gswt+ Ghht−1+ GiAi+ GvAv），（8）其中D h是LSTM 单元输出的维数，Gs∈RDe×Dw，Gh∈RDe×Dh，Gi∈RDe×Dai和Gv∈RDe×Dav 是文本FEA的变换矩阵，单词的结构，LSTM的细胞输出，分别从图像和视频中学习的属性的表示，sigmoidσ是逐元素的非线性激活函数。帧视频t =-1Wt图像MIL模型幼儿地板小LSTM转印单元视频MIL模型清洁做机器男孩LSTMWt+1“a boy is cleaning the floor.........这是什么？6508属性.+公司简.+属性.+1-2我3我转印单元输入字经常性-1传奇未加权连接。点积函数加权连接门激活函数+和函数1-常数减法图4.在我们的LSTM-TSA IV框架中，有三种不同的传输单元架构和传输门（左侧）。该方法利用转移门的权向量对从图像中学习到的属性进行标记第二种设计（LSTM-TSAIV2）是类似的，除了所计算的传输门的权重向量仅被分配给从视频学习的属性这两种设计都是相对简单的实现，通过点积将来自一个特定源的属性的变换表示与传输门的权重向量相乘。最后一种设计（LSTM-TSAIV3）是前两种架构之间的折衷版本，通过利用来自传输门的解耦权重向量同时控制从不同源学习的两个属性，这也被视为从图像和视频学习的属性之间的线性组合。具体来说，给定时间步t中传输门的输出权重向量gt，我们的传输单元的三个变体被设计为LSTM-TSAIV：g（Ai，Av）=TAAi=gt+TAvAv，（10）1我带传输单元的LSTM 然后，我们将从两个源学习的语义属性的视频字幕表示为多源序列学习问题，并修改传输单元的架构，将其视为LSTM的额外输入。修改的核心是关于我们的转移单元中的转移门是否应该单独或同时影响从不同来源学习的语义属性个体影响是指传输门只严格控制来自一个特定源的属性所传输的信息，而无条件地直接利用来自其他源的属性。同时影响消除了传输门的影响，使得从不同来源学习的属性可以同时被传输门引导。我们的初步设计LSTM-TSAIV0是直接利用多模层的无传输门的深度融合。具体来说，LSTM的额外输入是计算为LSTM-TSAIV：g（Ai，Av）=TAAi+TAvAv，（9）LSTM-TSAIV：g（Ai，Av）=TAAi+TAvAvgt，（11）LSTM-TSAIV：g（Ai，Av）=TAAi（1-gt）+TAvAvgt，（12）其中，k表示逐元素点积函数。4. 实验我们评估和比较我们提出的LSTM-TSA与国家的最先进的方法进行视频字幕任务的三个视频字幕基准，即，微软研究院视频描述语料库（MSVD）[3]、蒙特利尔视频注释数据集（M-VAD）[26]和MPII电影描述语料库（MPII-MD）[19]。第一个是YouTube视频中最受欢迎的视频字幕基准，另外两个是最近发布的大规模电影描述数据集。4.1. 数据集和设置MSVD。MSVD包含从YouTube收集的1，970个视频片段。每个视频大约有40个可用的英文描述在我们的实验中，我们遵循0i设置使用在以前的作品[8，15]，采取1,200视频，其中TAi∈RDe×Dai和TAv∈RDe×Dav分别是用于表示从图像和视频学习的属性的变换矩阵还请注意，如果仅从一个单一源（图像/视频）学习的语义属性可用，则LSTM-TSA中的LSTM的附加输入g（Ai，Av）将降级为g（Ai）= TAi Ai或g（Av）=TAv Av，并且我们将这两个变体命名为LSTM-TSAI和LSTM-TSA V。然后基于上述核心设计问题，我们推导出三种不同的传输单元架构，如图4所示，分别命名为LSTM-TSAIV1至LSTM-TSAIV3。第一个设计（LSTM-TSAIV1）单独作为-培训，100人用于验证，670人用于测试。心室辅助装置M-VAD是最近收集的大规模电影描述数据集。它由大约49，000个DVD电影片段组成，这些片段是从92部DVD电影中提取的。每个电影剪辑都配有半自动转录描述性视频服务（DVS）叙述的单句。MPII-MD。MPII-MD是另一个最近收集的电影描述数据集，类似于M-VAD。它包含了来自94部好莱坞电影的大约68，000个电影片段，每个片段都配有一个句子，电影剧本和DVS。6509设置. 我们对每个视频统一采样25帧/剪辑，句子中的每个单词表示为“独热”向量（词汇表中的对于视频表示，我们将来自在Imagenet ILSVRC 12数据集[21]上预训练的19层VGG [23]的4096路fc 6层的输出和来自在Sports-1 M视频数据集[10]上预训练的C3 D[27]的4096路fc 6层的输出分别作为帧/剪辑表示，并将来自VGG和C3 D的特征串联作为输入视频表示。为了表示从图像中学习的属性，我们选择COCO[12]上1,000个最常见的单词作为图像域中的高级语义属性，并纯粹在COCO训练数据上使用图像MIL模型[6]训练属性检测器对于从视频中学习的属性的表示，每个视频字幕基准上的1,000个最常见的词被单独地选择作为每个特定视频域中的语义属性，并且相应的属性检测器用所提出的视频MIL模型来训练。LSTM中输入层和隐藏层的维度都设置为1024。在测试阶段，我们采用波束搜索策略，并设置波束大小为4。为了对我们提出的模型进行定量评估，我们在图像/视频字幕任务中采用了三个常用指标： [16] ，METEOR [2]和CIDER-D [28]。所有指标均使用Microsoft COCO Evaluation Server [4]发布的代码1计算。4.2. 比较方法为了从经验上验证我们的LSTM-TSA模型的优点，我们比较了以下最先进的方法。(1) LSTM[30]： LSTM尝试使用CNN加RN- N框架直接将视频像素转换为自然语言视频表示是通过在整个视频的帧特征上执行均值池化来生成的(2) 序列到(3) 时间注意力（ TA ） [34] ： TA 结合了GoogleNet[25]的帧表示和基于手工制作的描述符训练的3D CNN的此外，利用加权注意力机制来动态地关注视频的特定时间区域，同时生成句子。(4) 具有视觉语义嵌入的长时记忆（ LSTM-E ）[15]：LSTM-E利用2-D CNN和3-D CNN来学习视频表示，同时探索LSTM的学习和视频字幕的视觉语义嵌入。1https://github.com/tylin/coco-caption(5) 卷积门控递归单元递归网络（GRU-RCN）[1]：GRU-RCN利用卷积GRU-RNN来基于具有软注意力机制的LSTM文本生成器提取视觉表示和生成句子[34]。(6) hierarchicalRecurrentNeuralNetworks （ h-RNN）[37]：最近提出的h-RNN利用了视频字幕的空间和时间注意力机制。(7) 分层递归神经编码器（HRNE）[13]：HRNE使用分层RNN编码帧序列，并使用注意力机制解码句子。(8) 带有转移语义属性的长短期（LSTM-TSA）：我们为我们提出的框架设计了三个运行，即，LSTM-TSAI 、 LSTM-TSAV 和 LSTM-TSAIV 。前两个运行LSTM-TSAI和LSTM-TSAV的输入语义属性分别纯粹从图像和视频中挖掘。最后一次运行LSTM-TSAIV是融合图像和视频的语义属性。请注意，LSTM-TSAIV3在这里特别用作LSTM-TSAIV。带或不带传输门的LSTM-TSA IV的四种变体之间的比较将在第4.4节中讨论。4.3. 性能比较定量分析相表1显示了不同模型在MSVD数据集上的性能。总的来说，六个评估指标的结果一致-ly表明，我们提出的LSTM-TSAIV实现了比所有最先进的技术，包括非注意力模型（LSTM，S2 VT，LSTM-E）和基于注意力的方法（TA，GRU-RCN，h-RNN，HRNE）更好的性能。特别是，我们的LSTM-TSAIV的CIDEr-D可以达到74.0%，这是迄今为止在MSVD数据集上报告的最高性能，相对于TA，GRU-RCN，h-RNN分别提高了43.1%，8.8%和12.5%。通过额外地将属性并入LSTM模型，LSTM-TSAI和LSTM-TSAV导致性能提升，这表明视觉表示被增强了高级语义属性，从而有利于视频句子生成的学习。正如预期的那样，在域中训练属性的LSTM-TSA V优于预测在图像域上学习的属性的LSTM-TSAILSTM-TSAIV利用从图像和视频中学习的属性显著改进了LSTM-TSAV。结果表明，利用学习的属性联合从两个领域是互补的，以提高视频字幕的优势。表2总结了两个电影数据集M-VAD和MPII-MD上METEOR方面的性能比较。由于电影中视觉和文本内容的高度多样性，这两个数据集上的METEOR得分远低于MSVD。我们的LSTM-TSAIV在两个数据集中始终优于其他基线6510表1. 我们的LSTM-TSA和MSVD数据集上的其他最先进方法的METEOR、CIDER-D和BLEU@N评分。所有值均报告为百分比（%）。模型流星CIDEr-D蓝色@1蓝色@2蓝色@3蓝色@4LSTM[30]29.1----33.3S2VT[29]29.8-----[34]第三十四话29.651.780.064.752.641.9LSTM-E[15]31.0-78.866.055.445.3GRU-RCN31.668.0---43.3h-RNN[37]32.665.881.570.460.449.9HRNE[13]33.1-79.266.355.143.8LSTM-TSAI32.471.581.069.660.250.2LSTM-TSAV32.671.782.170.761.150.5LSTM-TSAIV33.574.082.872.062.852.8表2. 我们的LSTM-TSA和其他最先进方法在（a）M-VAD和（b）MPII-MD数据集上的METEOR（M）评分（%）。由于分别从图像和视频预测为一个特征的单词(a) M-VAD数据集。(b) MPII-MD数据集。导入LSTM来指导句子生成。类似地，作为来自视频的属性检测的ver-b术语此外，我们的LSTM-TSAIV可以生成更多的描述性句子，丰富的语义与属性。例如，利用检测到的词语这证实了视频字幕通过利用从图像和视频中学习的互补属性而受益。LSTM-TSAIV的METEOR可以达到7.2%和8.0%，这使得 M-VAD 中的最佳竞争者 HRNE 和 MPII-MD 中的LSTM-E分别相对提高5.9%和9.6%。与MSVD上的观察结果类似，LSTM-TSAI和LSTM-TSAV通过进一步考虑属性来考虑视频字幕，表现出比LSTM更好的性能。此外，LSTM-TSAV执行比LSTM-TSAI和更大程度的改善时，实现了利用从图像和视频的属性由LSTM-TSAIV。定性分析图5示出了分别具有来自图像和视频的检测到的语义属性的几个视频示例，人类注释的地面实况句子和通过两种方法生成的句子，即，L-STM和我们的LSTM-TSAIV。从这些示例结果中，很容易看出，这两种自动方法可以生成一些相关的和逻辑上正确的句子，而我们的模型LSTM-TSAIV可以通过联合利用视频表示和从图像和视频中学习的语义属性来预测更准确的单词，以增强视频字幕。例如，与LSTM为第一个视频生成的句子中的主题词 “a man” 和动词词“cutting”相比4.4. 实验分析我们进一步验证了我们提出的视频MIL框架的有效性，属性学习和比较我们设计的传输单元的不同变体。视频MIL框架评估。视频属性学习一般有两个方向一种是对单个视频帧执行图像MIL模型，另一种是我们提出的视频MIL模型，以联合利用来自一个视频的所有采样帧，如图2. 表3比较了LSTM-TSAV模型的句子生成性能，其中语义属性仅通过MSVD数据集上的这两种不同的MIL模型从视频中学习。不同度量的结果一致表明，LSTM-TSAV具有通过视频MIL模型学习的语义属性，导致更好的性能，展示了整体地探索来自一个视频的所有采样帧之间的语义信息的优势，而不是局部地基于单个帧。转让股的评价。接下来，我们转向评估不同的变体，我们设计的转移单位对句子生成。我们的LSTM-TSAIV在MSVD数据集上的性能如表4所示，通过将从图像和视频中学习的属性与传输单元的不同变体相结合。LSTM-TSAIV0直接计算模型M[34]第三十四话4.3LSTM[30]6.1[18]第十八话6.4S2VT[29]6.7LSTM-E[15]6.7HRNE[13]6.8LSTM-TSAI6.4LSTM-TSAV6.9LSTM-TSAIV7.2模型MSMT[19]5.6LSTM[30]6.7[18]第十八话7.0S2VT[29]7.1LSTM-E[15]7.3LSTM-TSAI7.4LSTM-TSAV7.6LSTM-TSAIV8.06511一个小女孩躺在床上LSTM：一个人正在切割一张纸LSTM-TSAIV：一个女人躺在床上GT：一架飞机在跑道上运行LSTM：一辆汽车正在着陆LSTM-TSAIV：一架飞机正在飞行GT：一个婴儿在打扫LSTM：一个男孩正在玩玩具LSTM-TSAIV：一个男孩正在打扫地板GT：一男一女骑着摩托车LSTM：一个女人骑着马LSTM-TSAIV：一个男人和一个女人骑着摩托车GT：熊吃土LSTM：A Badger Is WalkingLSTM-TSAIV：一只熊在森林图像的属性熊：0.521森林：0.460步行：0.369木材：0.362部分：0.335面积：0.242站立：0.220二：0.212草：0.188岩石：0.186来自视频的属性：动物：0.806地面：0.756东西：0.743黑色：0.636男人：0.611动物：0.603婴儿：0.506森林：0.453搜索：0.434步行：0.416...图像的属性男性：0.543女性：0.409坐姿：0.391二：0.342穿：0.341骑：0.311微笑：0.281年轻：0.233摩托车：0.202来自视频的属性：骑：0.710人：0.707二：0.503每个：0.455其他：0.453一起：0.445自行车：0.401谈话：0.400电机：0.399...图像的属性年轻：0.420女孩：0.319持有：0.308儿童：0.210小：0.200最低：0.186对：0.185它：0.176女人：0.168玩：0.166来自视频的属性：人：0.962做：0.732人：0.675房间：0.633男孩：0.564清洁：0.398机器：0.382他的：0.368有人：0.333骑：0.258...图像的属性飞机：0.562飞机：0.445空运：0.271机场：0.268喷气机：0.262跑道：0.230白色：0.222坐：0.199它：0.177大：0.134来自视频的属性：飞行：0.998人：0.998飞行：0.941空气：0.885天空：0.845人：0.753需要：0.657某人：0.583喷气机：0.568最低：0.525...图像的属性床：0.854铺设：0.579人：0.550人：0.290睡觉：0.262白人：0.222说谎：0.216年轻：0.177女性：0.168两个：0.164来自视频的属性：说谎：0.578人：0.519年轻：0.369女孩：0.323三：0.296小：0.276男孩：0.254男子：0.216尝试：0.215做：0.198...图5. MSVD数据集上的属性和句子生成结果。来自视频和图像的属性分别由[6]中的视频MIL模型和图像MIL模型预测，并且输出句子由1）Ground Truth（GT）：一个选择的地面真理句子，2）LSTM，和3）我们的LSTM-TSAIV。表3. METEOR，CIDER-D和BLEU@4分数的我们提出的模型LSTM-TSAV的语义属性只从视频学习的两个不同的MIL模型在MSVD数据集。一个是对单个视频帧执行图像MIL模型，另一个是我们提出的视频MIL模型，如图2所示。所有值均报告为百分比（%）。模型流星CIDEr-D蓝色@4图像MIL模型32.070.648.8视频MIL模型32.671.750.5图像和视频的属性的特征映射的元素求和作为组合，作为附加输入馈送到LSTM。因此，这个额外的输入在LSTM中的每个时间步都是共享和固定的。相比之下，LSTM-TSA IV1、LSTM-TSA IV2和LSTM-TSA IV3保险丝这两个属性与动态COM的传输门基于两个属性（当前输入单词和LSTM中先前的隐藏状态）设置不同的权重，然后通过将权重应用于来自图像，视频和两者的属性来计算LSTM的额外输入。因此，权重通过整合上下文信息来提供对来自语义属性的影响的更精确正如我们的研究结果所示，利用传输门动态平衡从图像和视频中学习的属性之间的影响，可以不断导致比LSTM-TSAIV0更好的性能。当对来自两者的属性应用权重时，获得更大的性能增益。5. 讨论和结论提出了一种基于语义属性转移的长短期存储器（LSTM-TSA）结构表4. METEOR、CIDEr-D和BLEU@4分数，我们提出的模型LSTM-TSAIV具有从MSVD数据集上的图像和视频学习的语义属性。利用LSTM w/o传输门的不同输入架构显示结果。模型流星CIDEr-D蓝色@4LSTM-TSAIV032.771.750.3LSTM-TSAIV132.971.551.2LSTM-TSAIV233.072.350.5LSTM-TSAIV333.574.052.8其探索视频表示和用于视频字幕的语义属性。特别是，我们研究了如何从图像和视频中挖掘属性以及如何以优雅的方式将它们融合以增强句子生成的问题。为了验证我们的主张，我们提出了视频MIL框架，以全面探索视频中的语义信息和传输单元，以上下文控制从图像和视频中学习的属性的影响在三个广泛采用的视频captioning数据集上进行的实验与其他字幕技术相比，可以清楚地观察到性能改进我们未来的工作如下。首先，注意力机制将进一步纳入我们的LSTM-TSA架构，以进一步提升视频字幕。其次，我们将研究如何利用语义属性为视频生成多个句子或段落。致谢这项工作得到了973方案第1999号合同的部分支助。2015CB351803，国家自然科学基金，合同号：61325009号61390514。6512引用[1] N.巴拉斯湖姚角，澳-地Pal，和A.考维尔深入研究卷积网络以学习视频表示。ICLR，2016年。[2] S. Banerjee和A.拉维Meteor：一种用于mt评估的自动度量，具有与人类判断的改进相关性。2005年在ACL研讨会[3] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在ACL，2011年。[4] X. Chen ， H. 方， T.-Y. 林河，巴西 - 地 Vedantam 、S.Gupta，P.Dol-la'r和C. L. 齐特尼克MicrosoftCOCO 标题：数据收集和评估服务器 .arXiv 预印本 arX-iv ：1504.00325，2015年。[5] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR，2015。[6] H. Fang，S.古普塔F.扬多拉河斯利瓦斯塔瓦湖Deng等人从标题到视觉概念再到后面。CVPR，2015。[7] C. Gan，T. Yao，K. Yang，Y. Yang和T.美.您引领，我们超越：通过共同开发网络视频和图像来进行免费视频概念学习。在CVPR，2016年。[8] S. 瓜达拉马 N. 克里希那穆西 G. 马尔卡南卡，S. 韦努戈帕兰河 Mooney ， T. Darrell 和 K. 萨恩科 Y-outube2text：使用语义层次和零触发识别来识别和描述任意活动。InIC-CV，2013.[9] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[10] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。[11] A.小岛T. Tamura和K.福永基于动作概念层次的视频图像人类活动自然语言描述。IJCV，2002年。[12] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco ：上下文中的通用对象。 2014 年，在ECCV[13] P. 潘，智-地Xu，Y.Yang，F.Wu和Y.庄。分层递归神经编码器的视频表示与应用的字幕。arXiv预印本arXiv：1511.03476，2015年。[14] Y.潘湾，澳-地Li，T. Yao，T. Mei，H. Li和Y.瑞通过探索时间相干性和图形结构来学习深度内在视频表示InIJCAI，2016.[15] Y.潘氏T. Mei，T. Yao，H. Li和Y.瑞联合建模、嵌入和翻译，搭建视频和语言的桥梁。在CVPR，2016年。[16] K. Papineni，S. Roukos，T. Ward和W J. Zhu. Bleu：一种机器翻译的自动评测方法。在ACL，2002年。[17] D. Parikh和K.格劳曼相对属性。见ICCV，2011年。[18] A. Rohrbach，M. Rohr

下载后可阅读完整内容，剩余1页未读，立即下载