视频编码中基于LSTM的时间边界感知方法

98 浏览量更新于2023-10-15 收藏 1.05MB PDF 举报

视频字幕制作

递归神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1657用于视频字幕的Lorenzo Baraldi Costantino Grana Rita Cucchiara摩德纳和雷焦艾米利亚{name.surname}@ unimore.it摘要最近，将递归神经网络用于视频字幕制作得到了广泛的关注，因为它们既可以用于对输入视频进行编码，也可以用于生成相应的描述。在本文中，我们提出了一个经常性的视频编码方案，可以发现和利用视频的层次结构。与经典的编码器-解码器方法不同，在经典的编码器-解码器方法中，视频由递归层连续编码，我们提出了一种新的LSTM单元，它可以识别帧或片段之间的不连续点，并相应地修改编码层的时间连接我们在三个大规模数据集上评估了我们的方法：蒙特利尔视频注释数据集、MPII电影描述数据集和微软视频描述语料库。实验表明，我们的方法可以发现适当的层次表示的输入视频和提高电影描述数据集上的最先进的结果。1. 介绍用自然语言自动描述视频是计算机视觉和机器学习的一个重要挑战。这项任务称为视频字幕，是机器智能的一项重要成就，也是许多潜在应用的支持。事实上，结合视觉和语言，视频字幕可以用于视频检索，以增强视频共享和流媒体平台上的内容搜索，以及生成自动字幕并帮助视障人士了解视频内容。在定位视频之前，已经解决了图像的字幕，其中任务是生成描述静态视觉内容的单个句子[45，16，48，46]。后来，图像字幕方法已经扩展到具有单个动作、对象或场景的短视频，最初使用与图像字幕非常相似的方法，然后使用解决方案来解释视频的时间演变[49，35，50]。在应用于高度受限或用户生成的视频[28，6]之后，«一个女孩在和一个男人说话图1.我们提出了一种新的视频编码网络，它可以自适应地修改其结构，以提高视频字幕。我们的时间边界感知LSTM单元（用虚线矩形表示）通过添加可训练的边界检测器（BD）扩展了标准LSTM单元，它可以根据输入视频改变网络的时间连接由于电影描述数据集的传播，视频字幕正在转向更复杂和结构化的视频类型[39，30]。到目前为止，视频字幕算法依赖于使用递归神经网络或长短期记忆（LSTM）[12]层，这些层可以自然地处理帧序列，并且原则上可以学习长距离时间模式。然而，已经证明LSTM在30到80帧长的序列上显示出良好的学习能力[51]，比视频字幕中使用的序列短。此外，递归网络的简单性质无法处理视频的分层结构。这是编辑视频的情况，例如电影。使用描述性视频服务或深度学习技术，可以将经过编辑的长视频分割为短场景[21，3];然而，视频场景包含多个镜头壮举BDLSTM壮举BDLSTMLSTM壮举BDLSTM壮举BDLSTM壮举BDLSTMLSTM标题GRU1658尽管时间上一致，但具有不同的外观。作为示例，在图1中描绘了对话的两个镜头。在这种情况下，我们希望防止网络混合两个镜头的记忆;相反，如果网络能够意识到存在时间边界，它可以重置其内部状态，创建一个独立于前一个镜头的新输出这也适用于用户生成的视频，其中事件可以由单个镜头中的一系列动作组成（例如，球员跑动并投篮）。一个有效的编码器应该考虑动作内和动作间的时间依赖性在本文中，我们提出了一种新的视频编码方案的视频字幕能够识别时间的不连续性，如动作或外观的变化，并exploiting他们得到一个更好的表示视频。图1显示了我们的序列到序列架构的层次结构：由CNN计算的特征描述的帧进入我们的时间边界感知LSTM。意识到出现或动作不连续会自动修改LSTM层的时间连接性：结果是视频的可变长度和自适应编码，其长度和粒度取决于输入视频本身。第一边界感知层的输出通过自适应递归层被编码为固定长度向量，该固定长度向量然后用于通过门控递归单元（GRU）层生成最终字幕。该文件的贡献概述如下。• 我们提出了一个新的时间边界感知LSTM单元：它可以发现输入视频中的不连续性，并使编码层能够修改其时间连续性。必要性，重置其内部状态和内存，如果需要。所提出的单元包含边界检测模块，并在可训练的端到端层中对内容和时间结构进行编码。• 时间边界感知LSTM用于构建视频字幕的分层编码器：据我们所知，这是第一次提出视频上限-它可以学习调整其结构以适应输入数据。• 我们在三个大规模的电影描述和视频字幕数据集上测试我们的方法：M-VAD [39]、MPII-MD [30]和MSVD [6]。我们的结果意味着-巧妙地提高了电影描述的技术水平，在用户生成的短视频上也具有竞争力。我们还研究了我们的编码器学习的边界，并表明它可以发现输入视频的适当分解。2. 相关作品早期的字幕方法[13，18，38]是基于视觉分类器对（主语，动词，宾语）三元组的识别，通过语言模型生成字幕，该语言模型将预测的三元组与预定义的句子模板相匹配。当然，基于模板的句子不能满足自然语言的丰富性，并且对不可见数据的泛化能力有限。由于这些原因，对图像和视频字幕的研究很快转向使用递归网络，该网络对视觉内容进行矢量化描述，可以自然地处理单词序列[45，16]。在第一个方法之一，视频字幕与经常性的网络，Venugopalan等人。 [44]使用从单帧中提取的CNN特征，平均池化它们以表示整个视频，然后将所得向量馈送到LSTM层[12]以生成字幕。该方法的主要缺点是忽略了视频的序列性，将视频字幕的任务简化为图像字幕的扩展因此，许多后续工作试图开发更合适的视频编码策略.例如，Donahue等人 [9]使用LSTM网络对输入视频进行顺序编码，然后使用CRF来获得活动，对象，工具和位置的语义元组。最后一个LSTM层将语义元组翻译成句子。Venugopalan等人 [43]提出了一种完全神经的架构，解决了视频编码阶段和句子解码。他们使用堆叠的LSTM来读取视频帧序列，第二个LSTM以第一个的最后一个隐藏状态为条件，生成相应的字幕。有趣的是，两个阶段中使用的LSTM参数这是第一次所谓的序列到序列方法，已经应用于机器翻译[35]，用于视频字幕。其他作品也遵循这种方法，要么在句子解码器中加入注意机制[49]，要么建立一个共同的视觉语义嵌入[23]，或者通过语言模型[42]或视觉分类器[29]添加外部知识。最近，研究人员通过显著改变编码器-解码器方法的结构来改进它们。Yu等人。[50]专注于句子解码器，并提出了一个包含句子和段落生成器的分层模型：短句由一个基于视频特征的门控递归单元（GRU）层[7]生成，而另一个递归层负责通过组合句子向量和上下文信息来生成段落。因此，段落生成器可以捕获句子间的依赖关系，并生成一系列相关和连续的句子。在本文中，正如他们的提议一样，我们采用最终GRU层来生成标题。1659…(a) 传统LSTM网络(b) 时间边界感知LSTM网络ht(c) 时间边界感知单元图2.标准LSTM编码器和时间边界感知LSTM网络之间的比较，以及边界感知LSTM单元的模式。所提出的视频编码器可以根据视频中发现的外观或动作变化来学习修改其时间连接：当检测到边界时，LSTM的状态被重新初始化，并将结束片段的表示提供给输出。红色虚线框表示具有重置状态的LSTM单元，黑色框表示具有修改状态的LSTM单元相比之下，Pan等人。 [22]通过提出分层递归视频编码器来瞄准视频编码阶段。他们的提案试图通过以类似于时间维度中应用的卷积操作的方式处理视频帧，在不同的时间尺度和粒度上抽象视觉特征。LSTM以滑动窗口的方式应用于小的重叠视频块：这导致向量序列，然后将其转发到第二递归层，或者由解码器LSTM通过软注意机制[1]进行处理。此外，在本文中，我们专注于视频编码阶段。然而，我们不是像[22]中那样构建纯LSTM层的手工变体，而是提出了一个可以学习适应其时间结构的递归网络输入数据。与滑动窗口方法相反，我们的策略还确保编码每个块的单元记忆总是包含同质信息。利用段级特征的想法已经在自然语言处理[8]、动作识别[37，33，26，19]和事件检测[47]中进行了研究。我们的网络是第一个利用视频字幕中的时间段的建议。3. 方法给定一个输入视频，我们提出了一个递归的视频编码器，它将一个视觉特征序列（x1，x2，...，xn）并输出向量序列（s1，s2，...，sm）作为整个视频的表示。在我们的编码器中，层的连接模式不同关于当前输入和隐藏状态，所以它被认为是激活而不是不可学习的超参数。为此，我们定义了一个时间边界感知的递归单元，它可以通过时间来修改层的连通性这确保了时间边界之后的输入数据不受边界之前看到的数据的影响，并且生成视频的分层表示，其中每个块由均匀帧组成。图2a和图2b示出了与普通LSTM编码器相比，边界检测器在示例情况下确定的时间连接。所提出的时间边界感知递归单元建立在长短期记忆（LSTM）单元之上，该单元已被证明特别适合于视频编码，因为已知它可以学习具有宽时间依赖性的模式。在它的核心有一个存储单元ct，它保持了一个时间步长内观察到的输入的历史。对存储单元的更新操作由三个门it、ft和ot进行调制，这些门都被计算为a当前输入xt和先前隐藏状态ht-1的组合，随后是S形激活。输入门it控制如何将当前输入添加到存储器单元;遗忘门ft用于控制单元将从先前存储器ct-1中遗忘什么，而输出门f t用于控制单元将从先前存储器c t-1中遗忘什么。边界检测ct-1stτht-1Xtφ GtItσftσCtσ otLSTM单元st=1st=11660SPUTGATE控制当前存储器单元是否应当作为输出被传递。在每个时间步，我们选择是否将隐藏状态和存储单元内容转移到下一个时间步或重新初始化它们，中断输入序列的无缝更新和处理。这取决于一个时间边界检测单元，它允许我们的编码器独立地处理输入视频的可变长度块每个块的边界由依赖于输入的可学习函数给出，并且不预先设置形式上，边界检测器st∈ {0，1}被计算为当前输入和hid的线性组合。den状态，之后是函数τ，其是sigmoid和阶跃函数的组合：st=τ（vT·（Wsixt+Wshht−1+bs））（1）为零图2c示出了所提出的时间边界感知小区的模式。遵循上面报告的等式的递归层将产生输出的可变长度集合（s1，s2，.，sm），其中m是检测到的分段的数目。这些输出中的每一个在概念上总结了视频内检测到的片段的内容。这组输出被传递到另一个递归层，从而构建视频的分层表示。为此，我们将边界感知编码器的输出馈送到附加的LSTM层，其最后的隐藏状态可以用作整个视频的特征向量。现有的视频编码方法通过将更多的层堆叠在一起[43]，或者通过在LSTM架构中构建分层架构，为LSTM架构添加了更多的非线性。较低级别编码固定长度的块，而τ（x）=.S1、如果σ（x）>0. 50，否则（二）更高级别负责组成这些编码块以获得最终的视频表示[22]。我们的建议，同时保持一个完全的神经架构，使其中vT是可学习的行向量，Wsh，bs是学习的权重和偏置。给定当前边界检测st，在应用存储器单元更新方程之前，根据st，应用以下替换以在新段的开始处转移或重新初始化网络隐藏状态和存储器单元：ht−1<$ht−1·（1−st）（3）ct−1<$ct−1·（1 − st）。（四）所得到的状态和存储器现在被用于重新计算门值，门值又将用于前进到下一个时间步长。编码器仅在段的末尾产生输出。如果t=1，则时间步t-1的隐藏状态被传递到下一层。已经提出了许多LSTM架构[15，10，32，12]，并且所有这些在它们的结构和激活功能上略有不同，即使它们都共享附加存储器单元和门的存在。在我们的例子中，我们应用以下等式[12]：it=σ（Wixxt+Wihht−1+ bi）（5 ） ft=σ （ Wfxxt+Wfhht−1+ bf ）（6）gt=φ（Wgxxt+Wghht−1+ bg）（7）ct=ft<$ct−1+it<$gt（ 8）ot=φ（Wfxxt+Wfhht−1+ bf）（ 9）ht=ot<$φ（ct）（10）其中，ω表示逐元素的Hadamard乘积，σ是S形函数，φ是双曲正切tanh，W是学习的权重矩阵，b是学习的偏置向量。内部状态h和存储单元c被初始化1661编码器基于输入数据特性产生可变长度的块，并将它们编码在一个分层结构中。3.1. 培训由于存在影响视频编码器的时间结构的二进制变量，因此需要特殊首先，边界检测器st在训练时被视为随机神经元[27]。特别地，我们引入了函数τ（x）的随机版本（等式2）。2），其中它的输出是从以σ（x）为条件的均匀分布中采样的。形式上，在训练阶段的前向传递期间，τ被计算为τ（x）= 1σ（x）>z，其中z<$U[0，1]，向前传递（11），其中U[0，1]是区间上的均匀分布[0，1]和1是指示函数。这确保了st是随机的，它是0或1的概率是适当的。对于应用于τ的输入的sigmoid的值。在向后传递中，由于阶跃函数的导数几乎在任何地方都为零，因此标准向后传播将不再适用。为了解决这个问题，我们采用Bengio等人建议的阶跃函数的估计。 [5]的文件。其思想是，如果在向后的过程中使用可微近似，则可以在向前的过程中使用离散操作在我们的例子中，我们用恒等函数来逼近阶跃函数，这已经显示出良好的性能[5]。由于τ是S形函数和阶跃函数的组合，因此在向后中使用的τ的导数只是S形函数的导数。∂τ（x）=σ（x）（1−σ（x）），向后传递（12）x1662不在测试时，阶跃函数的确定性版本（等式2）（2）使用。以这种方式，检测到的片段的数量在训练期间是随机的，而在测试期间是确定的。3.2. 句子生成一旦已经计算出视频的表示，视频的描述就通过解码器网络生成，遵循编码器-解码器方案[49，43，22]。给定视频向量v和句子（y0，y1，.， yT），用独热向量编码（N 中取1 编码，其中N 是词汇表的大小），我们的解码器逐步地基于字幕的前t个词和字幕的下一个词是对应的视频描述符，并且被训练以产生字幕的下一个词。我们优化的目标函数是序列上正确单词的对数似然ΣT4. 实验装置评估进行了三个大规模的数据集的视频字幕，一个包含用户生成的视频，和其他两个专门为电影描述。4.1. 数据集蒙特利尔视频注释数据集（M-VAD）蒙特利尔视频注释数据集[39]是一个基于描述性视频服务（DVS）的大规模视频描述数据集。DVS，或音频描述，是描述电影视觉元素的音轨，旨在帮助视力受损的人。该数据集由92部好莱坞电影的84.6小时视频组成我们使用[39]中提供的标准分割，其中包括36，921个训练样本，4，651个验证样本和4，951个测试样本。MaxWt=1logPr（yt|yt-1，yt-2，.， y0，v）（13）MPII电影描述数据集（MPII-MD）MPII电影描述数据集[30]以一种其中w是编码器-解码器模型的所有参数。单词的概率通过应用于解码器输出的softmax层进行建模。为了降低解码器的维数，使用线性嵌入变换将独热词向量投影到解码器的输入空间中，反之亦然，将解码器的输出投影到字典空间中。Pr（yt|yt-1，yt-2，.， y0，v）exp（yTWppt）（14）Wp是用于将解码器输出空间转换为字空间的矩阵，pt是解码器的输出，使用门控递归单元（GRU）[7]层计算。GRU层在每个时间步的输出通过两个S形门进行建模：复位门（rt），其确定是否应当丢弃先前隐藏状态以生成下一输出;以及更新门（zt），其控制应当保留先前隐藏状态的多少信息：zt=σ（WzyWwyt+Wzvv +Wzhpt−1+ bi）（15）rt= σ（WryWwyt+ Wrvv + Wrhpt−1+ bf）。（十六）利用上述门的值，解码器GRU的输出计算为：ht=φ（WhyWwyt+Whvv+Whh（rtpt−1）+bf）（十七）pt=（1−zt）ht−1+ztpt（ 18）其中W和b是学习的权重和偏置，Ww将单词的独热编码转换为密集的低维嵌入。同样，σ表示元素乘积，σ是sigmoid函数，φ是hy-双曲正切类似于M-VAD，即使在这种情况下，视频片段和描述之间的差异更准确，因为它已被手动纠正。该数据集包含来自94部高清电影的超过68K句子和视频片段的并行语料库，这些句子和视频片段来自脚本和音频解码器。在作者提供的分割之后，数据集包含56，861个训练样本，4，930个验证样本和6，584个测试样本。MicrosoftVideoDescriptionCorpus （ MSVD ）Microsoft Video Description Corpus [6] 包含 2 ， 089 个Youtube视频片段，标记有Amazon Mechanical Turkers收集的85K英文该数据集最初设想包含多种语言的描述;但是，我们只考虑英文字幕。正如在以前的作品中所做的那样[13，44]，我们通过索引号将数据集拆分为连续的视频组：1，200人用于培训，100人用于验证，670人用于测试。该数据集主要包含具有单个动作的短视频片段，因此不如M-VAD和MPII-MD适合评估我们的方法在识别视频结构方面的有效性。4.2. 度量我们采用四种常用的评估指标：[ 24 ]，[25]，[26]，[27]，[28]，[29]，BLEU是预测句子和地面真实句子之间的单词n-gram的精度形式。正如我们在经典作品中所做的那样，我们使用四个字来评估我们的预测。ROUGEL使用最长公共子序列技术计算具有再调用偏差的F-测量。相反，METEOR通过将标题与一个或多个基本事实对齐来对标题对齐基于单词之间的精确匹配、词干匹配、同义词匹配和释义匹配，1663因此，METEOR比BLEU和ROUGEL在语义上更合适。最后，CIDEr计算在生成的标题中发现的n元语法和在参考句子中发现的n元语法之间的平均余弦相似度，使用TF-IDF对它们进行CIDEr [41]的作者报告说，CIDEr和METEOR总是更准确，特别是当参考字幕数量较少时。为了确保公平的评估，我们使用Microsoft CoCo评估工具包1来计算所有分数，就像在视频字幕工作中所做的那样[50，22]。4.3. 预处理和培训详情我们从所有数据集的输入视频中提取静态外观和运动特征。为了编码视频外观，我们使用在Imagenet数据集[31]上训练的ResNet50模型[14]，并每5帧计算一个描述符对于运动，我们采用 C3 D网络 [40]（在Sports-1 M数据集[17]上训练）：该模型每16帧输出一个固定长度的特征向量，该向量对窗口中间帧周围计算的运动特征进行为了保持用于外观的相同粒度在这两种情况下，我们都使用了网络倒数第二层的激活，这导致了2，048 + 4，096维的特征向量。我们不是直接将视觉特征输入到模型中，而是学习线性嵌入作为模型的输入。地面实况描述被转换为小写，并在删除标点符号后进行标记化我们只保留在数据集中出现至少五次的单词。这为M-VAD数据集产生了6，090个单词的词汇表，为MPII-MD产生了7，198个单词，为MSVD产生了4，215个单词。在训练过程中，我们增加了一个标记在标题的开头，句末标记EOS>在其结尾，因此我们的模型可以处理可变长度的标题在测试时，解码器RNN被给予BOS>标签作为第一时间步的输入，然后根据预测的分布对最可能的词进行采样并作为下一时间步的输入模型流星[49]第四十九话4.1HRNE [22]5.8S2VT-RGB（VGG）[43]6.7[22]第二十二话6.8Venugopalan等人[第四十二届]6.8LSTM编码器（C3D+ResNet）6.7双层LSTM编码器（C3D+ResNet）6.7镜头上的边界编码器7.1边界感知编码器（C3D+ResNet）7.3表1.在M-VAD数据集上的实验结果模型苹果酒B@4RLMSMT（最佳变体）[30]8.10.513.25.6[49]第四十九话---5.7Venugopalan等人[第四十二届]---6.8Rohrbach等人 [29日]10.00.816.07.0LSTM编码器（C3D+ResNet）10.50.716.16.4双层LSTM编码器（C3D+ResNet）10.60.616.56.7镜头上的边界编码器10.30.716.36.6边界感知编码器（C3D+ResNet）10.80.816.77.0表2.MPII-MD数据集上的实验结果Glorot等人 [11]建议的用于输入的权重矩阵的高斯初始化，以及用于内部状态的权重矩阵的正交嵌入矩阵也根据[11]进行初始化，所有偏差均初始化为零。我们训练模型100个epoch，或者直到验证集上的损失改善停止。模型的源代码是使用Theano编写的，并公开提供2。5. 结果和讨论5.1. 与最新技术水平的比较在M-VAD数据集上，我们将我们的方法与最近的四个建议进行了比较：时间注意力（SA）[49]，S2 VT[43]，HRNE [22]，以及Venu- gopalan等人的方法。[42]。SA采用了LSTM解码器，直到预测到EOS>标签通过使用Adadelta优化器最小化对数似然损失来执行训练，学习率为1.0衰减参数ρ=0。95和10×10−7，通常表现出良好的性能。我们设置了迷你-批量大小为128。为了正则化训练并避免过度拟合，我们将众所周知的正则化技术Dropout [34]应用于编码LSTM的输入和输出，保留概率为0.5，如Zaremba等人所建议的那样。 [25 ]第20段。视频特征和单词的嵌入大小都是512，而所有递归隐藏状态的大小都是empir。对从GoogleNet [36]和3D时空CNN提取的特征的时间注意力机制。相反，S2VT在编码器和解码器阶段都使用了堆叠的LSTM，并从VGG模型中提取了帧级特征。HRNE以滑动窗口的方式在短视频块上运行LSTM，并且解码器可选地通过软注意机制选择性地注意到所得到的向量集合; Venugopalan等人[42]的方法最后通过将来自文本语料库的知识添加到S2 VT架构来关注语言模型。表1显示了该数据集的结果就像大多数国家一样，设置为1024。关于初始化，我们使用2http://imagelab.ing.unimore.it/video_1https://github.com/tylin/coco-caption字幕1664六、8GT：她出去了。LSTM编码器：有人停止。BA编码器（我们的）：有人下车。GT：摇摇头。LSTM编码器：有人给了她一个眼神。BA编码器（我们的）：有人看着摇头的人。GT：他在一栋房子前面减速，房子前面有车库和盒子树。LSTM编码器：有人下车，走出房子。BA编码器（我们的）：有人开车到房子。图3.M-VAD和MPII-MD数据集的示例结果蓝色垂直线表示LSTM单元中边界检测器的激活在以往的视频字幕工作中，我们使用METEOR作为主要的比较指标。首先，为了研究边界感知编码器的作用，我们将其性能与单个LSTM层和2层LSTM编码器的性能进行比较，使用相同的特征和相同的超参数进行训练。在这种情况下，最后的隐藏状态被用作GRU解码器的视频向量。这些基线实现了 6.7% 的METEOR，而使用提出的编码器显着提高性能，产量-ING到7.3% METEOR，对应于0的改进。百分之六。这一结果也优于最近在图3中，我们展示了我们的模型对来自M-VAD和MPII-MD的剪辑生成的描述的几个示例。我们注意到，使用边界感知编码器获得的结果通常优于普通LSTM编码器，这与表1和表2中报告的结果一致。作为一个额外的测试，我们将我们的方法应用于MSVD，一个常见的视频字幕数据集，其中没有层次化的视频结构在这种情况下，目的是调查当视频中没有结构时，我们的策略是否会产生负面最先进的方法，保证金为7。3-6。8= 7。百分之三十五作为参考，我们的方法实现了0.9%BLEU-4，17.1%ROUGEL和10.4% CIDER。在MPII-MD数据集上，我们再次考虑时间注意力（SA）[49]，S2 VT [43]以及Venugopalan等人的方法。我们还包括其他两个参考文献，它们适用于此数据集： [ 30 ] 中的统计机器翻译（ SMT ）方法和Rohrbach等人的工作。[29]，其利用在从字幕中提取的视觉标签上训练的视觉分类器。这些方法和我们的解决方案的性能报告在表2中。我们观察到，我们的方法能够在CIDER和ROUGEL指标上超过现有技术，而我们根据BLEU-4和METEOR实现了几乎与[29作为参考[43]第7话在这个数据集上有1%的METEOR。至于M-VAD数据集，我们还将我们的解决方案与具有单个LSTM层的基线进行了比较：在这种情况下，边界感知编码器的改进为0。百分之六的陨石。我们比较了我们的方法在MSVD与五个国家的用于视频字幕的现有技术方法：时间注意力（SA）[49]、LSTM-YT [44]、S2 VT [43]、LSTM-E [23]”[22]吴敬琏。LSTM-YT在帧级CNN特征上使用均值池策略来编码输入视频，而字幕则由LSTM层生成。相反，LSTM-E提出了一种视觉语义嵌入，其中通过最大化视频投影与其对应字幕投影之间的距离来投影视频描述符和字幕从表3中可以看出，我们的方法比普通技术有所改进，并且可以获得有竞争力的结果。同样值得注意的是，[22]中使用的注意机制可以集成到我们的方法中，并可能提高性能。图4报告了MSVD的一些示例结果，将我们的方法生成的标题与[22]中最先进方法生成的标题进行了比较。可以看出，即使我们的方法没有被设想用于缺乏结构的视频，即使在一些困难的情况下，它仍然能够生成准确的字幕。1665GT：一个女人把虾蘸在面糊里。第22章：女人在做饭BA编码器（我们的）：一位女士正在往一碗食物里添加配料。表3.MSVD数据集上的实验结果5.2. 学习边界分析我们收集关于边界检测器的行为的统计数据图5显示了M-VAD和MPII-MD数据集上检测到的切口数量和位置的分布。可以观察到，在绝大多数视频中，检测到的边界少于三这个结果与[22]的方法形成对比从剪切的位置来看，我们还观察到在视频持续时间的20%到80%之间进行剪切的概率呈线性增长，因此视频越向前推进，剪切的需求就越大。还可以注意到在视频的最开始和结束处的两个峰值;这是由于以下事实：在M-VAD和MPII-MD数据集中，视频没有与它们的字幕精确地对准，因此视频的结尾经常与视频的主要内容不相关。为了确认检测到的片段的位置的有效性，我们通过强制编码器将输入视频分割成等间隔的块来训练我们的网络，保持原始边界感知编码器检测到的片段数量相同。这意味着减少了0。M-VAD上的2%METEOR和0。MPII- MD上的5%METEOR我们还将我们的神经模型发现的边界与现成的开源镜头检测器发现的边界进行了比较[4]。在M-VAD和MPII-MD数据集上检测到的所有边界中，33.7%的边界距离镜头边界小于15帧。这证实了所提出的LSTM单元可以识别相机变化和外观变化，但也检测到更多与镜头不对应的软最后，我们研究了所提出的视频编码器如何使用[4]检测到的镜头边界而不是边界检测器学习到的镜头边界来执行。结果报告于表1和表2中。在M-VAD数据集上，使用镜头边界得到7。1%的METEOR，即0。2%，低于边界感知编码器的性能，而在MPII-MD数据集上，我们观察到6。6%METEOR，再次低于我们完整模型报告的结果。这证实了，即使镜头给出了视频的合理分解，一个男孩正在弹吉他。第22章：一个男人在弹吉他BA编码器（我们的）：一个男孩在弹吉他。一只狗在游泳池里游泳。第22章：狗在游泳BA编码器（我们的）：一只狗在游泳池里游泳。图4. MSVD数据集上的示例结果。图5. M-VAD和MPII-MD数据集上检测到的切口数量和位置的分布。右图中的绿虚线显示了剪辑相对于其在视频中的相对位置的分布（其中0表示视频的开始，1表示视频的结束），该分布是通过具有100个bin的直方图获得的，而蓝实线是通过在直方图上拟合次数为10的多项式获得的。边界肯定更有效，并产生更好的字幕性能。6. 结论在这项工作中，我们提出了一种新的边界感知的视频编码器的视频字幕的任务，它在流行的基准测试中取得了有竞争力的结果。我们的方法可以发现视频的层次结构，并相应地修改递归层的时间连接。我们相信，所提出的架构是通用的，可以在其他视频相关的应用，如视频分类和动作检测。确认这项工作部分由国家智能社区技术集群（由意大利教育、大学和研究部共同资助）的 “Citta` educante” 项目（CTN01 00034 393801 ）资助我们感谢ISCRA 倡议下的CINECA奖，以表彰高性能计算资源和支持的模型B@4MC[49]第四十九话41.929.6-LSTM-YT [44]33.329.1-S2VT [43]-29.8-LSTM-E [23]45.331.0-HRNE [22]46.733.9-边界感知编码器42.532.463.51666引用[1] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译2015年国际学习表征会议。3[2] S. Banerjee和A.拉维Meteor：一种用于mt评估的自动度量，具有与人类判断的改进相关性。在Proceedings ofthe ACL workshop on intrinsic and extrinsic evaluationmeasures for machine translation and/or summarization，第29卷，第65-72页5[3] L.巴拉尔迪角Grana和R.库奇亚拉一种用于广播视频场景检测的深度连体网络。ACMInternational Conferenceon Multimedia，第1199ACM，2015. 1[4] L.巴拉尔迪角Grana和R.库奇亚拉利用阶层式丛集进行镜头与场景侦测以重新使用广播视讯。图像和图案的计算机分析国际会议，第801-811页。施普林格，2015年。8[5] Y. Bengio，N. L e'onard和A. 考维尔通过条件计算的随机神经元估计或传播 arXiv 预印本 arXiv ： 1308.3432 ，2013。4[6] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在计算语言学协会第49届年会（ACL-2011）的会议记录中，2011年。一、二、五[7] K. 乔湾，巴西-地 VanMerr ieenboer，C. Gulcehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。在2014年自然语言处理经验方法会议上。二、五[8] J. Chung，S. Ahn和Y.本吉奥。分层多尺度递归神经网络。arXiv预印本arXiv：1609.01704，2016。3[9] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在 IEEEInternational Conference on Computer Vision and PatternRecognition中，第2625-2634页，2015年。2[10] F. A. Gers，J. Schmidhuber，and F.康明斯学会忘记：用lstm 进行连续预测。神经计算， 12 （ 10 ）： 2451-2471，2000。4[11] X. Glorot和Y. 本吉奥。了解训练深度前馈神经网络的困难。在 JMLR W CP ： Proceedings of the ThirteenthInternational Conference on Artificial Intelligence andStatistics（AISTATS 2010），第9卷，第249-256页，2010年5月。6[12] A.格雷夫斯，A. R. Mohamed和G.辛顿使用深度递归神经网络进行语音识别。在IEEE声学、语音和信号处理国际会议上，第6645-6649页。IEEE，2013。一、二、四[13] S. 瓜达拉马 N. 克里希那穆西 G. 马尔卡南卡，S. 韦努戈帕兰河 Mooney ， T. Darrell 和 K. 萨恩科Youtube2text：使用语义层次和零射击识别来识别和描述任意活动。IEEEInternational Conference on ComputerVision，第2712-2719页，2013年。二、五[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEEInternational Conference on ComputerVision and Pattern Recognition，2016。6[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。4[16] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在 IEEE International Conference on ComputerVision and Pattern Appropriation，第3128-3137页，2015年。一、二[17] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。 IEEEInternational Conference on Computer Visionand Pattern Recognition，2014。6[18] N. 克里希那穆西 G. 马尔卡南卡， R. J·穆尼K. Saenko 和 S. 瓜达拉马使用文本挖掘知识生成在AAAI，第1卷，第2页，2013中。2[19] T.兰岛，澳-地Zhu，中国茶青冈A. Roshan Zamir和S.Savarese 通过分层的中级动作元素识别动作。IEEEInternational Conference on Computer Vision ，第4552-4560页，2015年。3[20] C.- Y.是林书Rouge：一个用于自动评估摘要的软件包。在文本中，摘要分支如下：ACL-04研讨会论文集，第8卷。2004年，西班牙巴塞罗那。5[21] C. Liu，L.Wang，J.Zhu和B.张某学习一个上下文多线程模型用于电影/电视场景分割。IEEE Transactions onMultimedia，15（4）：884-897，2013。1[22] P. 潘，智-地Xu，Y.Yang，F.Wu和Y.庄。分层递归神经编码器的视频表示与应用的字幕。IEEE InternationalConference on Computer Vision and Pattern Recognition，2016。三四五六七八[23] Y.潘氏T. Mei，T. Yao，H. Li和Y.瑞联合建模、嵌入和翻译，搭建视频和语言的桥梁。IEEE计算机视觉和模式识别国际会议，2016年。二七八[24] K. Papineni，S. Roukos，T. Ward和W J. Zhu. Bleu：一种机器翻译的自动评测方法。第40届计算语言学协会年会论文集，第311-318页。计算语言学协会，2002年。5[25] V. Pham，T.布鲁什角Kermorvant和J.卢拉杜尔Dropout改进了手写识别的递归神经网络。在手写识别前沿（ICFHR），2014年第14届国际会议上，第285-290页。IEEE，2014。6[26] H. Pirsiavash和D. Ramanan用分段语法解析动作视频。在IEEE International Conference on Computer Vision andPatte

下载后可阅读完整内容，剩余1页未读，立即下载