基于变分编解码器和Web先验的视频摘要生成算法

69 浏览量更新于2023-10-13 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于变分编解码器和Web先验的蔡思佳1， 2，王梦左3，Larry S.戴维斯4分，张磊1分1香港理工大学电子计算学系{csscai，cslzhang} @ comp.polyu.edu.hk2阿里巴巴集团达摩3哈尔滨工业cswmzuo@gmail.com4马里兰大学计算机科学系lsd@umiacs.umd.edu抽象。视频摘要是具有挑战性的约束不足问题，因为单个视频的底层摘要强烈地依赖于用户的摘要和请求。深度神经网络等数据驱动算法可以在一定程度上处理该任务中固有的模糊性，但获取大规模视频数据集的时间注释是极其昂贵的。为了利用大量的网络抓取视频来提高视频摘要的性能，我们提出了一个生成式建模框架来学习潜在的语义视频表示，以桥接基准数据和Web数据。具体而言，我们的框架耦合了两个重要组件：用于从web视频学习潜在语义的可变自动编码器，以及用于原始视频的显著性估计和概要生成的编码器-注意力-解码器。提出了一个损失项来学习生成的摘要和Web视频之间的语义匹配，并且将整体框架进一步公式化为统一的条件变分编码器-解码器，称为变分编码器-摘要器-解码器（VESD）。在具有挑战性的数据集CoSum和TVSum上进行的实验表明，所提出的VESD比现有的最先进的方法具有更好的性能这个工作的源代码可以在https://github.com/cssjcai/vesd上找到。关键词：视频摘要·变分自动编码器1介绍最近，它已经吸引了很多兴趣，从视频中提取的代表性的视觉元素在社交媒体上共享，其目的是有效地表达原始长视频的语义。然而，这个任务，通常被称为视频摘要，是费力的，主观的和具有挑战性的，因为本研究获香港研资局GRF拨款（理大152135/16 E）及阿里巴巴集团达摩院城市大脑项目S. Cai等人2视频通常表现出非常复杂的语义结构，包括不同的场景、对象、动作及其复杂的交互。近年来出现的一个值得注意的趋势是使用深度神经网络（DNN）[10，44]进行视频摘要，因为DNN在各种视频理解任务中取得了重大进展[12，19，2]。然而，在视频摘要任务中使用的注释是以逐帧标签或重要性分数的形式，收集大量注释的视频需要巨大的努力和成本。因此，广泛使用的基准数据集[1，31]仅涵盖数十个注释良好的视频，这成为阻碍基于DNN的摘要技术进一步改进的突出障碍同时，摘要任务的注释是主观的，并且在不同的注释器之间不一致，可能导致过拟合和有偏见的模型。因此，先进的研究利用了增强的数据源，如网络图像[13]，GIF [10]和文本[23]，这些数据源对于摘要目的是互补的。为了沿着这个方向推动技术，我们考虑了一个有效的弱监督设置，从大量的网络视频学习摘要模型与用于视频摘要的其他类型的辅助源域数据相比，所使用的“摘要”中的辅助源域数据提供了丰富的信息来定位多样但语义一致的视觉内容，这可以用于减轻小尺寸摘要中的歧义。这些短视频可以从Web存储库（例如、YouTube），并且可以使用一组主题标签作为搜索关键词来容易地收集。此外，这些网络视频已经被大量的用户编辑，构建有偏见的摘要模型的风险显著降低。几个现有的作品[1，21]已经探索了不同的策略来利用网络视频和基准视频之间的因此，我们的目标是有效地利用大量的弱标记的网络视频学习更准确和信息丰富的视频表示：（i）保留原始视频中的基本信息;（ii）包含关于与网络视频的语义一致性的歧视性信息因此，需要期望的深度生成模型来捕获底层潜在变量，并实际使用web数据和基准数据来学习抽象和高级表示。为此，我们在本文中提出了一个用于总结视频的生成框架，如图所示。1.基本架构由两个组件组成：变分自动编码器（VAE）[14]模型，用于从网络视频中学习潜在语义;以及具有用于摘要的注意力机制的序列编码器-解码器VAE的作用是通过推理网络（编码器）将视频映射到连续的对于摘要组件，该关联在时间上是模糊的，因为原始视频中只有片段的子集与其摘要语义相关。为了过滤掉不相关的片段并识别信息的时间区域以更好地生成摘要，我们利用软变分编码器-求和器-解码器3图1.一、所提出的用于视频摘要的生成框架的说明VAE模型在网络视频（紫色虚线矩形区域）上进行预训练;并且通过使用来自VAE（红色虚线矩形区域）的注意向量和采样的潜变量，在编码器-解码器范例内实现摘要。注意力机制，其中注意力向量（即，上下文表示）。此外，我们提供了一个弱监督的语义匹配损失，而不是重建损失，学习主题相关的摘要在我们的生成框架。从这个意义上说，我们利用潜在的准确和灵活的潜在变量分布从外部数据，从而加强在基于编码器-解码器的摘要模型中生成的摘要为了评估所提出的方法的有效性，我们comprehensively使用不同的训练设置进行实验，并证明我们的方法与网络视频取得了显着更好的性能比竞争视频摘要方法。2相关工作视频摘要是一项具有挑战性的任务，已探索多年[37，18]，可分为两大类：无监督和监督学习方法。无监督摘要方法关注低级别的视觉线索来定位视频的重要片段已经研究了各种策略，包括聚类[7，8]，稀疏优化[3，22]和能量最小化[25，4]。近年来的研究主要集中在基于人工标注的有监督学习的摘要解决方案例如，为了进行大幅度的结构化预测，子模块函数使用人工注释的摘要进行训练[9]。 Gygli等人[8]亲-S. Cai等人4提出线性回归模型来估计镜头的兴趣度得分。Gong等人[5]和Sharghiet al. [28]从用户创建的摘要中学习以选择信息丰富的视频子集。 Zhang等人[43]显示概要结构可以在语义一致的视频之间传输。最近，基于DNN的方法已经在成对深度排名模型[42]或递归神经网络（RNN）[44]的帮助下应用于视频摘要。然而，这些方法假设大量人类创建的视频概要对或细粒度时间注释的可用性或者，已经尝试利用来自其他数据源的信息，例如网络图像，GIF和文本[13，10，23]。Chu等人。 [1]建议总结在同一主题的多个视频 Panda等人[20]提出了一种端到端3D卷积神经网络（CNN）架构，用于学习网络视频的摘要模型。在本文中，我们还考虑使用特定主题的线索，在网络视频更好的摘要，但采用了一个生成式的摘要框架，以利用网络视频的互补优势。视频亮点检测与视频摘要高度相关，并且许多早期方法主要集中在特定数据场景，例如广播体育视频[27，35]。传统的方法通常采用中高层的视听特征，由于良好的结构定义。对于一般高光检测，Sun et al.[32]采用潜在SVM模型通过从原始和编辑视频对学习来检测高光。DNN也取得了很大的性能改进，并在高光检测方面表现出很大的潜力[41]。然而，这些方法中的大多数将高光检测视为二进制分类问题，而高光标记对于人类来说通常是模糊的这也给人类带来了沉重的负担，需要收集大量的标记数据来训练基于DNN的模型。深度生成模型在学习复杂数据分布和低维潜在表示方面非常强大。此外，视频摘要的生成式建模可能提供一种有效的方法，在训练大量的Web 数据时带来两种最有效的方法是 VAE [14] 和生成对抗网络（GAN）[6]。VAE的目标是最大化观测的变分下限，同时鼓励潜变量的变分后验分布接近先验分布。GAN由生成模型和判别模型组成，并在最小-最大博弈框架中进行训练VAE和GAN都为了将时间结构纳入生成建模，我们提出了一个新的变分序列到序列编码器-解码器框架，通过捕获视频级主题和Web语义先验来进行视频摘要嵌入在我们的框架中的注意力机制可以自然地用作摘要的关键镜头选择。与我们的生成式总结最相关的是Mahasseni等人的工作。[16]，他们在GAN的框架中提出了一个无监督的摘要。注意力机制在变分编码器-求和器-解码器5不不它们的方法仅依赖于原始视频本身，因此在视频概要重构中传送不同内容方面具有限制。3拟议框架作为一个中间步骤，利用丰富的用户编辑的视频在Web上，以协助我们的生成视频摘要框架的训练，在本节中，我们首先介绍了所提出的框架的基本构建块VESD由三部分组成：⑴用于原始视频的编码器RNN;（ii）用于原始视频的基于注意力的摘要器;（iii）用于概要视频的解码器RNN。遵循先前方法中的视频摘要管道[24，44]，我们首先使用CNN对原始视频执行时间分割和镜头级特征提取。每个视频X然后被视为多个非均匀镜头的顺序集合，其中Xt是视频表示X中的第t个镜头的特征向量。大多数有监督的摘要方法旨在预测指示镜头是否应该被包括在摘要中的标签/分数，然而，遭受冗余视觉内容的选择的缺点出于这个原因，我们将视频摘要公式化为视频生成任务，其允许摘要表示Y不一定限于X的子集。通过这种方式，我们的方法集中在视频的语义本质上，并且可以表现出对具有视觉差异的摘要的高容忍度。遵循编码器-解码器范例[33]，我们的摘要框架由两部分组成：编码器-摘要器是推理网络qφ（a|X，z），其将视频表示X和潜在变量z（从在网络视频上预训练的VAE模块采样）两者作为输入。此外，编码器-摘要器被假定为生成捕获关于Y的所有信息的视频内容表示a。摘要解码器是生成网络pθ（Y|a，z），其基于注意向量a和潜在表示z输出概要表示Y。3.1编码器-摘要器到目前为止，使用RNN对序列数据进行建模已被证明在视频摘要中是成功的[44]。因此，对于编码器-摘要器组件，我们采用指针RNN，例如双向长短期存储器（LSTM）作为处理原始视频的编码器，并且摘要器旨在选择最可能包含显著信息的镜头摘要器正是基于注意力的模型，其通过关注编码的视频特征来生成视频上下文表示。在时间步长t中，我们将Xt表示为第t个镜头的特征向量，并且将He表示为编码器的状态输出已知he是通过级联每个方向的隐藏状态：e−→ ←−ht=[RN N−e−n→c（ht−1，xt）;RN N←en−c（ht+1，xt）]。（一）S. Cai等人6不不z提出了一种注意力机制，通过对输入序列的序列信息{he，t = 1，. . .、|X|}与位置变量α如下：Σ|X|a=t=1αthe，（2）其中αt表示α的第t个值，并且指示第t个镜头是否包括在汇总如[40]中所述，当在条件分布p（Y）的对数似然上使用生成建模时|X），一种方法是通过将伯努利分布分配给α来对注意力向量α进行采样。然而，所得到的蒙特卡罗梯度估计的变分下限目标需要复杂的方差减少技术，并可能导致不稳定的训练。相反，我们采用确定性近似来获得a。也就是说，我们基于X和z生成一个注意概率分布，定义为αt：= p（αt|he，z）= softmax（t（[he; z]）），其中t t是典型地基于神经网络的参数化势，例如多层感知器（MLP）。因此，等式11中的注意力向量（2）转向：ΣNa=p（αt|he，z）he，⑶t tt=1其被馈送到解码器RNN用于概要生成。注意力机制通过基于从web数据学习的潜在变量z迭代地关注原始视频特征来提取注意力向量a。在这样做时，该模型能够适应摘要中固有的模糊性，并通过注意力获得直观地，注意力分数αts用于执行用于概括的镜头选择。3.2总结器-解码器我们将摘要生成过程指定为pθ（Y|a，z），其是给定注意向量a和潜在变量z的概要的条件似然。与VAE中采用的标准高斯先验分布不同，我们的框架中的p（z）在Web视频上进行预训练，以正则化摘要的潜在语义表示。因此，通过pθ（Y）生成的汇总|a，z）可能具有不同的内容。以这种方式，pθ（Y|然后，在每个时间步长t处经由RNN解码器来重构：|a，[µz，σ2]），其中µz和σz是由两个可学习神经网络指定的潜变量的非线性函数（详见第4节）。3.3变分推理给定所提出的VESD模型，网络参数{φ，θ}需要在推断期间更新。我们通过最大化以下变分下界L（φ，θ）来边缘化潜在变量a和zL（φ，θ）= Eqφ（a，z|X，Y）[log pθ（Y |a，z）− KL（qφ（a，z|X、Y）|p（a，z））]，⑷变分编码器-求和器-解码器7φ（z）（a）其中KL（·）是Kullback-Leibler散度。我们假设潜在变量a和z的联合分布具有因子分解形式，即，qφ（a，z|X，Y）= qφ（z）（z|X，Y）qφ（a）（a|X，Y），并且注意p（a）= qφ（a）（a|X，Y）在第3.1节中以确定性方式定义。因此，在Eqn中的变分目标。(4)可以推导为：L（φ，θ）=Eq（z|X，Y）[Eq（a|X，Y）logpθ（Y |a，z）φ φ−KL（qφ（a）（a|X、Y）||p（a））]+ KL（qφ（z）（z|X、Y）||p（z））=Eq（z|X，Y）[logpθ（Y |a，z）]+KL（qφ（z|X、Y）||p（z））。（五）上述变分下界提供了用于利用原始视频及其摘要的互逆性质的新视角。最大化方程(5)在最小化生成误差和最小化近似后验qφ（z）（z）之间的KL散度之间取得平衡|X，Y）和先验p（z）。4弱监督VESD在实践中，由于只有少数视频-摘要对可用，潜在变量z不能准确地表征视频和摘要中的固有语义。受VAE/GAN模型[15]的启发，我们探索了一个弱监督学习框架，并赋予我们的VESD利用丰富的Web视频进行潜在语义推理的能力VAE/GAN模型利用GAN中的判别器网络扩展了VAE，提供了一种从数据而不是随机噪声的推理网络构建潜在空间的方法，并隐式地在[16]中也对无监督视频摘要进行了类似的研究。回想一下，GAN中的鉴别器试图将生成的示例与真实示例区分开;遵循相同的精神，我们在所提出的VESD中应用鉴别器，这自然会导致最小化以下对抗损失函数：L（φ，θ，ψ）=−EY[logDψ（Y）]−EX，z[log（1−Dψ（Y））]，（6）当Y表示要复制w e bvid e o时。然而，在标准的GAN模型中，该bovel os函数遭受不稳定的训练，并且不能直接扩展到监督场景中。为了解决这些问题，我们建议采用语义特征匹配损失的弱监督设置的VESD框架。该目标要求生成的摘要的表示在相似性函数下匹配网络视频的表示。对于语义相似度的预测，我们将pθ（Y|a，z）使用以下sigmoid函数：pθ（c|a，hd（Y（））=σ（aTMhd（Y（）），（7）其中，（Y_d）是将Y_d输出到解码器NN中的最大值，而M是最大值。我们将在新的时间段内进行本地化，这是一个非常重要的问题拉贝埃勒岛e. ，c=1ifYandY在语义上匹配。我们也可以概括S. Cai等人8φXX通过用独热向量c替换c，上述匹配损失到多标记情况其非零位置对应于匹配的标签。因此，客观(5)可以重写为：L（φ，θ，ψ）=Eq（z）[1ogpθ（c|a，hd（Y（））]+KL（qφ（z））||p（z|Y（））。（八）发现上述变分目标与条件VAE（CVAE）[30]具有相似性，条件VAE（CVAE）[30]能够针对单个输入产生不同的输出例如，Walker et al.[39]使用完全卷积CVAE从静态图像进行不同的运动预测。Zhou和Berg[45]通过将有条件的，两层和循环的架构修改合并到标准生成模型中来生成不同因此，我们的弱监督VESD自然嵌入视频摘要生成的多样性。4.1可学习的先验和后验与标准VAE先验相反，标准VAE先验假设潜在变量z从潜在高斯（例如，，p（z）= N（0，1）），我们施加从web视频学习的先验分布，其更准确地推断主题特定语义。我们可以使用hp（z）从G中删除|Y=N（z|µ（Y（），σ2（Y（）I）的形式和变量定义为：µ（Y）=fμ（Y），logσ2（Y）=fσ（Y），（9）其中，μ（·）和σ（·）表示对于观测数据不可用的任意类型的新的网络。在我们的实现中，我们采用了带有ReLU激活的两层MLP。因此，我们对qφ（z）的极点进行了模化|·）：=qφ（z）|X，Y，c）与Gaus-s i和i i tti在N（z）上|µ（X，Y（，c），σ2（X，Y（，c））具有由具有ReLU激活的两层MLP表征的结构和变化：µ= fμ（[a;hd（Y（）;c]），logσ2= fσ（[a;hd（Y（）;c]）.（十）4.2混合训练目标函数纯弱监督VESD训练目标（8）的一个潜在问题是语义匹配丢失通常导致摘要集中在原始视频中的非常少的镜头上。为了确保所生成的摘要的多样性和保真度，我们还可以利用部分精细注释的基准数据集上的重要性分数来一致地提高性能。对于基准数据集中的那些详细注释，我们采用[16]中相同的关键帧调节器来测量归一化的真实重要性得分αgt和输出注意力得分αX之间的交叉熵损失，如下所示：L得分=交叉熵（αgt，αX）。（十一）变分编码器-求和器-解码器9图二、我们的弱监督VESD框架的变分公式因此，我们使用以下目标函数来训练正则化的VESD，以利用不同级别的注释：Lmixed=L（φ，θ，ψ，ω）+λLscore.（十二）可以使用反向传播有效地训练总体目标，并且在图1中示出。2.在训练之后，我们通过正向传递VESD中的摘要模型来计算每个新视频的显著性得分α5实验结果数据集和评价。我们在两个公开可用的视频摘要基准数据集CoSum [1]和TVSum [31]上测试了我们的VESD框架。CoSum [1]数据集由51个视频组成，涵盖 10 个主题，包括 Base Jumping （ BJ ）， Bike Polo（BP），Eiffel Tower（ET），Excavators River Cross（ERC），KidsPlaying in leaves（KP），MLB，NFL，Notre Dame Cathedral（NDC），Statue of Liberty（SL）和SurFing（SF）。 TVSum [31]数据集包含来自TRECVid多媒体事件检测任务[29]的50个视频或组织成10个主题，包括更换轮胎（VT）、车辆脱离（VU）、梳理动物（GA）、制作三明治（ MS ）、跑酷（ PK ）、 PaRade （ PR ）、 Flash Mob gathering（FM）、养蜂（BK）、尝试自行车技巧（BT）和狗展（DS）。根据文献[9，44]，我们随机选择80%的视频进行训练，并使用剩余的20%在两个数据集上进行测试。正如[1，21，20]所建议的那样，我们通过将其与基准测试中提供的多个用户注释摘要进行比较来评估生成摘要的质量具体来说，我们计算建议的汇总及其所有相应的人工注释汇总的成对平均精度（AP），然后报告平均值。此外，我们对视频数量进行平均，以实现数据集的整体性能对于CoSum数据集，我们遵循[21，20]并将每个生成的摘要与三个人工创建的摘要进行比较。对于TVSum数据集，我们首先对帧级重要性分数求平均值以计算10秒。Cai等人镜头级别得分，然后为每个视频选择前50%的镜头作为人工创建的摘要。最后，将生成的每个摘要与20个人工创建的摘要进行比较。在评价中呈现了两个数据集上的前5名和前15名mAP性能。网络视频收藏。本节将详细介绍我们的方法的Web视频收集。我们将两个数据集中的主题标签作为查询关键字，并从YouTube上检索所有20个主题类别的视频我们通过持续时间（小于4分钟）限制视频，并通过相关性进行排名，然而，这些下载的视频通常仍然非常冗长和嘈杂，因为它们包含与搜索关键字无关的帧的比例因此，我们引入了一种简单但有效的策略来过滤掉这些网络视频的噪声部分：（1）我们首先采用现有的时间分割技术KTS [24]将基准视频和网络视频分割成不重叠的镜头，并利用CNN提取每个镜头内的特征;（2）然后使用基准视频中的相应特征来训练具有其主题标签的MLP（不属于任何主题标签的镜头被设置有背景标签），并对网络视频中的镜头进行预测;（3）进一步基于主题相关概率大于阈值的相关镜头来截断网络视频。以这种方式，我们观察到修剪的视频对于学习我们的VAE模块中的潜在语义是足够干净和体系结构和实施细节。为了与最先进的方法[44，16]进行公平比较，我们选择将GoogLeNet [34]的pool5层的输出用于帧级特征。然后通过对镜头内的所有帧特征求平均来获得镜头级特征我们首先使用网络视频上的分段镜头的特征来预训练VAE模块，其潜变量的维度被设置为256。为了构建编码器-摘要器-解码器，我们使用具有1024个隐藏单元的双层双向LSTM，具有[256，256]个隐藏单元的双层MLP和具有1024个隐藏单元的双层LSTM分别用于编码器RNN，注意力MLP和解码器RNN。对于参数初始化，我们使用随机梯度下降从头开始训练我们的框架，小批量大小为20，动量为0.9，权重衰减为0.005。学习率被初始化为0.01，并且在每20个epoch（总共100个epoch在混合训练目标中，折衷参数λ被设置为0.25.1定量结果探索研究。为了更好地理解在我们的方法中使用网络视频和不同类型的注释的影响，我们分析了以下六种训练设置下的性能：（2）具有弱监督和每个主题额外30个下载视频的基准数据集;（3）具有弱监督和每个主题额外60个下载视频的基准数据集;（4）具有强监督的基准数据集（主题标签和重要性分数）;变分编码器-求和器-解码器11表1.培训设置的探索性研究。数字显示前5名mAP得分。培训设置CoSum TVSum弱监管0.6160.352监管薄弱的基准+30个网络视频/主题0.6840.407监管薄弱的基准+60个网络视频/主题0.7010.423强监管标杆0.7120.437强监管的基准+30个网络视频/主题0.7550.481具有强监管的基准+60个网络视频/主题0.7640.498表2.在CoSum数据集上使用不同类型特征的性能比较数字示出了在相同主题的所有视频上平均的前5个mAP分数特征BJBPET ERC KP MLB NFL NDC SLSF Top-5GoogLeNet 0.715 0.746 0.813 0.756 0.772 0.727 0.737 0.782 0.794 0.709 0.755ResNet101 0.727 0.755 0.827 0.766 0.783 0.741 0.752 0.790 0.807 0.722 0.767C3d0.729 0.754 0.831 0.761 0.779 0.740 0.747 0.785 0.805 0.718 0.765强监管和每个主题额外30个下载视频;以及（6）具有强监管和每个主题额外60个下载视频的基准数据集。我们从表1中获得了以下关键观察结果：（1）在我们的VESD框架中仅具有弱主题标签的基准数据上进行训练的表现比使用额外网络视频进行训练的表现或使用详细重要性分数进行训练的表现差得多，这表明我们的生成式摘要模型需要更大量的注释数据才能表现良好。（2）我们注意到，更多的网络视频给出更好的结果，这清楚地证明了使用网络视频的好处，并证明了我们的生成框架的可扩展性(3)这一重大改进与强有力的监督说明了积极的影响，纳入现有的重要性分数的混合培训我们的VESD。这并不奇怪，因为应该施加注意力分数以关注原始视频的不同片段，以便与地面事实一致，从而产生具有多样性属性的摘要器，这是生成良好摘要的重要度量。我们在下面的实验比较中使用训练设置（5）。深度特征的影响。我们还研究了在VESD框架中使用不同类型的深度特征作为镜头表示的效果，包括从GoogLeNet [34]和ResNet101 [11]中提取的2D深度特征，以及从C3D [36]中提取的3D深度特征。在表2中，我们有以下观察结果：（1）ResNet产生比GoogLeNet更好的结果，在CoSum数据集上的前5 mAP得分提高了0.012，这表明更强大的视觉特征仍然导致我们的方法的改进。我们还比较了2D GoogLeNet功能与C3D功能。结果表明，C3D功能实现了更好的性能比GoogLeNet功能（0.765比0.755）和类似的性能与ResNet101功能。我们认为这是因为C3D特征利用了视频的时间信息，因此也适合于摘要。1 S. Cai等人表3.CoSum数据集上的实验结果数字显示了相同主题的所有视频的平均前5/15 mAP话题无监督的方法监督方法VESDSMRs准MBF CVSSGKVS 民进党sLstm SM DSNBJ0.5040.561 0.631 0.658 0.698 0.662 0.6720.6830.692 0.685 0.715BP0.4920.625 0.592 0.675 0.713 0.674 0.6820.7010.722 0.714 0.746ET0.5560.575 0.618 0.722 0.759 0.731 0.7440.7490.789 0.783 0.813ERC0.5250.563 0.575 0.693 0.729 0.685 0.6940.7170.728 0.721 0.756KP0.5210.557 0.594 0.707 0.729 0.701 0.7050.7140.745 0.742 0.772MLB0.5430.563 0.624 0.679 0.721 0.668 0.6770.7140.693 0.687 0.727NFL0.5580.587 0.603 0.674 0.693 0.671 0.6810.6810.727 0.724 0.737NDC0.4960.617 0.595 0.702 0.738 0.698 0.7040.7220.759 0.751 0.782SL0.5250.551 0.602 0.715 0.743 0.713 0.7220.7210.766 0.763 0.794SF0.5330.562 0.594 0.647 0.681 0.642 0.6480.6530.683 0.674 0.709Top-5 0.525 0.576 0.602 0.687 0.720 0.684 0.692 0.705 0.735 0.721 0.755前15 0.547 0.591 0.617 0.699 0.731 0.702 0.711 0.717 0.746 0.736 0.764表4.TVSum数据集上的实验结果数字显示了相同主题的所有视频的平均前5/15 mAP话题无监督的方法监督方法VESDSMRs准MBF CVSSGKVS 民进党sLstm SM DSNVT0.2720.336 0.295 0.328 0.423 0.353 0.3990.4110.415 0.373 0.447VU0.3240.369 0.357 0.413 0.472 0.441 0.4530.4620.467 0.441 0.493GA0.3310.342 0.325 0.379 0.475 0.402 0.4570.4630.469 0.428 0.496MS0.3620.375 0.412 0.398 0.489 0.417 0.4620.4770.478 0.436 0.503PK0.2890.324 0.318 0.354 0.456 0.382 0.4370.4480.445 0.411 0.478PR0.2760.301 0.334 0.381 0.473 0.403 0.4460.4610.458 0.417 0.485FM0.3020.318 0.365 0.365 0.464 0.397 0.4420.4520.451 0.412 0.487BK0.2970.295 0.313 0.326 0.417 0.342 0.3950.4060.407 0.368 0.441BT0.3140.327 0.365 0.402 0.483 0.419 0.4640.4710.473 0.435 0.492DS0.2950.309 0.357 0.378 0.466 0.394 0.4490.4550.453 0.416 0.488Top-5 0.306 0.329 0.345 0.372 0.462 0.398 0.447 0.451 0.461 0.424 0.481前150.328 0.347 0.361 0.385 0.475 0.412 0.462 0.464 0.483 0.438 0.503与无监督方法的比较我们首先将VESD与几种无监督方法进行比较，包括SMRS [3]，Quasi [13]，MBF [1]，CVS [21]和SG [16]。表. 3显示了CoSum数据集总结中包括的前5次和前15次注射的平均AP，而表4显示了结果在TVSum数据集上。我们可以观察到：（1）我们的弱监督方法获得了最高的总体mAP，并且大幅优于传统的基于非DNN的方法SMRS、Quasi、MBF和CVS。（2）最具竞争力的基于DNN的方法，SG [16]给出了前5个mAP，分别比我们在CoSum和TVSum数据集请注意，仅使用Web视频比使用 SG中提出的多个手工正则化进行训练更好。这证实了将大量web变分编码器-求和器-解码器13视频，并使用弱监督匹配损失函数学习特定于主题的语义（3）由于CoSum数据集包含具有与来自不同主题的其他视频共享的视觉概念的视频，因此我们使用生成建模的方法自然产生比在TVS上更好的结果。（4）没有在视频上显示的主题是一个非常复杂的摘要数据集，因为该数据集上的主题非常模糊，并且难以用非常少的视频很好地通过访问相似的网络视频来消除特定主题的歧义，我们的方法比所有无监督方法都要好得多，实现了48.1%的前5 mAP，表明可以直接从更多样化的数据而不是复杂的摘要标准中学习准确和用户感兴趣的视频内容。与监督方法的比较。然后，我们与一些有监督的替代方案进行比较，包括KVS [24]，DPP [5]，sLstm [44]，SM [9]和DSN [20]（弱监督），我们从表中获得以下关键观察结果3、桌子4：（1）VESD在两个数据集上的表现都大大优于 KVS （ CoSum 上前 5 mAP 的最大改善为7.1%），显示了我们的生成建模和更强大的网络视频表示学习的优势（2）在Cosum数据集上，VESD优于SM [9]和DSN[20]在前5个mAP中分别为2.0%和3.4%结果表明，我们的方法仍然优于全监督的方法和弱监督的方法。(3)在TVSum数据集上，与所有其他监督方法相比，可以实现2.0%的类似性能增益。5.2定性结果为了获得关于VESD的不同训练设置及其对时间选择模式的影响的一些直觉，我们在图1中的示例视频上可视化一些选定的帧3.第三章。青色背景显示帧级重要性分数。彩色区域是使用特定训练设置的帧的所选子集不同设置的可视化关键帧支持表1中呈现的结果。我们注意到，所有四个设置覆盖具有高帧级分数的时间区域。通过利用网络视频和数据集中的重要性分数，VESD框架将转向高度特定于主题的时间区域。6结论视频摘要中的一个关键问题是如何对潜在语义表示进行建模，这在“单视频和摘要”框架下尚未得到充分解决。为了解决这一问题，我们采用了一个名为VESD的生成式摘要框架，以利用网络视频进行更好的潜在语义建模，并以原则性的方式减少视频摘要的模糊性。我们将灵活的Web先验分布纳入变分框架，并提出了一个简单的编码器-解码器与atten-tion摘要。我们的VESD框架在大规模1 S. Cai等人(a) 视频中的样本帧15 [31](b) 对标培训监管(c) 在监管薄弱和额外网络视频的情况下进行基准(d) 强监管对标培训(e) 通过强有力的监督和额外的网络视频进行基准培训图三.使用不同训练设置的视频摘要的定性比较，以及地面实况重要性分数（青色背景）。在最后一个子图中，我们可以很容易地看到，具有Web视频和可用重要性分数的弱监督VESD比仅具有弱标签的基准视频上的训练产生更可靠的摘要(Best以颜色显示）的视频摘要进行了验证，并在基准测试的广泛的实验变分编码器-求和器-解码器15引用1. Chu，W. S.，Song，Y.，Jaimes，A.：视频共同总结：通过视觉共现的视频摘要。在： ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 35842. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在： Proceedings of the IEEE conference on computervisionandpat ter nregni t iti on中。pp. 26253. Elhamifar，E.，Sapiro，G.，维达尔，R.：通过查看几个来查看所有：用于查找代表性对象的稀疏In：Computer Vision and Pattern Recognition（CVP R），2012IEEEConfere nceo n.pp. 160003The Dog（2012）4. Feng，S.，（1991），中国农业科学院农业科学研究所，Lei，Z.，Yi，D.，李S.Z.：在线内容感知视频压缩。计算机视觉与模式识别（CVPR），2012年IEEE会议。pp. 2082IEEE（2012）5. Gong，B.，Chao，W.L.，格劳曼K. Sha，F.：用于监督视频摘要的多样顺序子集神经信息处理系统进展。pp. 20696. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 26727. Guan，G.，王志，Mei，S.，Ott，M.，他，M.，Feng，D. D.：一种自顶向下的视频摘要方法。ACM Transactions on Multimedia Computing，Communications，and Applications（TOMM）11（1），4（2014）8. Gygli，M.，Grabner，H.，Riemenschneider，H.，Van Gool，L.：从用户记录创建摘要。In ： Europeanconferenceoncommputtervision. pp.505-520Spuringer（2014）9. Gygli，M.，Grabner，H.，Van Gool，L.：通过学习视频的子模块来进行视频摘要。于二零一五年一月一日：于中国注册成立。pp. 309010. Gygli，M.，Song，Y.，Cao，L.：Video2gif：从视频自动生成动画GIF。In ： Computer Vision and Pattern Recognition （ CVPR ）， 2016 IEEEConferenceon. pp. 1001-1009 IEEE（2016）11. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 77012. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类。在： Proceedings oftheEEEconferenceonCon PuterVis isonandPater nRe gnitin中。pp. 第172513. Kim，G.，锡加尔湖Xing，E.P.：大规模收集网络图片和视频进行故事情节重构的联合总结（2014年）14. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。ArXiv预印本arXiv：1312.6114（2013）15. Larsen，A.B.L.，Sønderby，S.K.，Larochelle，H. Winther，O.：使用学习的相似性度量对像素之外的像素进行自

下载后可阅读完整内容，剩余1页未读，立即下载