基于对抗性LSTM网络的无监督视频摘要

66 浏览量更新于2023-10-16 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

202基于对抗性LSTM网络的Behrooz Mahasseni，Michael Lam和Sinisa Todorovic俄勒冈州立大学Corvallis，ORbehrooz. gmail.com{lamm，sinisa}@ oregonstate.edu摘要本文讨论了无监督视频摘要的问题，制定为选择一个稀疏的视频帧的子集，最佳地表示输入视频。我们的关键思想是学习一个深度摘要器网络，以无监督的方式最小化训练视频与其摘要分布之间的距离。然后，可以将这样的摘要器应用于新的视频，以估计其最佳摘要。对于学习，我们指定了一个新的生成对抗框架，由摘要器和摘要器组成。摘要器是自动编码器长短期记忆网络（LSTM），其目的是首先选择视频帧，然后解码所获得的摘要以重构输入视频。摘要器是另一个LSTM，旨在区分原始视频和摘要器的重建。摘要器LSTM被转换为一个插件的插件，即，训练以最大限度地迷惑敌人这种学习也是针对稀疏性进行正则化的。对四个基准数据集的评估，包括以第一人称和第三人称视角显示不同事件的视频，与完全监督的最先进方法相比，证明了我们的竞争力1. 介绍广泛的应用需要视频的自动求和[36，42]，例如，以节省人工检查的时间，或者使得能够进行后续的视频分析。根据应用，视频摘要有各种不同的定义[30，27，28，1，40，37，6，20，18，14，25，12]。在本文中，我们考虑无监督的视频摘要，并把它作为一个关键帧选择问题。给定一个视频帧序列，我们的目标是选择一个稀疏的帧子集，使得视频和其摘要之间的表示误差最小。我们的问题陈述不同于文献中考虑的其他公式，例如，当特定(a)（b）第（1）款图1：（a）概览：我们的目标是选择关键帧，使得所选关键帧的特征表示与视频之间的距离最小化。(b)由于很难在深层特征之间指定合适的距离，因此我们使用生成对抗框架来优化帧选择器。我们的方法由一个可变的自动编码器和一个生成对抗网络组成。要概括的视频的域是先验已知的（例如，第一人称视频）[18]，或者当基于注意力、美学、质量、地标存在以及某些对象出现和运动在训练数据中提供关键帧的地面实况注释时[9]。图1a示出了我们从给定视频中选择关键帧的方法的概述。学习关键帧选择器，以便最小化来自视频的特征与所选择的关键帧之间的距离。根据深度学习的最新进展 [35 ， 41 ， 43] ，我们使用卷积神经网络（CNN）-特别是GoogleNet [38] -和长短期记忆网络（LSTM）[13，35]的级联从视频和选定的关键帧序列中提取深度特征。CNN以像素为基础，从给定的帧中提取深度特征。然后，LSTM融合CNN的序列203输出用于捕获帧之间的长距离依赖关系，并产生表示输入序列的自己的深度特征。具体来说，我们使用（变分）自动编码器LSTM[35，16]作为视频特征无监督学习的合适深度架构。给定视频的深度表示与选定的关键帧之间的距离，我们的目标是优化帧选择器，以便在训练示例中最小化该距离。然而，最近的工作表明，指定深度特征的合适距离是困难的[19]。因此，我们求助于生成对抗框架[8]，它用一个额外的网络扩展了上述视频摘要网络。如图在图1b中，摘要器的解码器部分用于从所选关键帧的序列中重构视频。然后，我们使用另一种LSTM，即摘要器，来区分原始视频和摘要器的再现。自动编码器LSTM和帧选择器被联合训练，以便最大程度地混淆LSTM它们扮演了视频解码器的对手的角色当这个识别错误变得最大时，我们认为帧选择器被学习以产生最佳视频摘要。正如我们将在本文中展示的那样，我们的方法允许生成对抗学习在以下方面进行有效的正则化：（i）限制可以选择的关键帧的总数;或者（ii）最大化所选择的关键帧之间的视觉多样性。为了与完全监督视频摘要的相关方法进行公平比较-与我们的设置不同，在训练中提供对地面实况关键帧注释的访问-我们还展示了如何有效地对四个基准数据集的评估，包括以第一人称和第三人称视角展示各种事件的视频，展示了我们在完全监督的最先进方法中的竞争力表现。我们的贡献包括：1. 一种新的无监督视频求和方法，结合了变分自动编码器和深度架构的生成对抗训练。2. 高分辨率视频序列生成对抗训练的第一个规范接下来，SEC。2回顾以前的工作，第二。3简要介绍了生成对抗网络（GAN）和变分自编码器（VAE）模型，Sec。4speci- fies我们的方法的主要组成部分，秒。5制定了我们的端到端培训，6描述了我们在学习中使用的正则化类型不同的方法的变体7、我们的成果2. 相关工作本节回顾相关内容：（i）视频摘要的问题公式化;（ii）有监督和无监督视频摘要的方法;（iii）深度学习方法;以及（iv）在学习中使用生成对抗框架。各种问题公式。视频摘要是一个长期存在的问题，在文献中考虑了各种公式。例如，视频简介[28]跟踪移动的物体，然后将识别的视频管打包到一个更小的时空体积中。此外，montages[1，40，37]将关键帧合并并重叠为单个摘要图像。然而，这两个问题公式都不要求视频摘要保留关于视频中的运动的时间布局的信息。先前的工作还研究了超延时，其中相机视点在延时期间被改变以加速或减速输入视频的某些部分[18，14，25，12]。我们的问题陈述是最简单的故事板，代表一个子集的代表性视频帧[6，20]。然而，除了[43，41]，现有的生成故事板的方法并没有利用深度学习。监督vs无监督摘要。监督方法假设可以访问训练视频中关键帧的人类注释，并寻求优化其帧选择器，以便最小化与此相关的损失真理[7，43，42]。然而，对于宽范围的域，可能不可能提供可靠且足够大量的人类注释（例如，军队、疗养院）。这些领域已经用非监督方法解决，其通常使用启发式标准来排名和选择关键帧[21，41，15，44，34]。已经有人尝试在没有监督的情况下将迁移学习用于域[43]，但是与[43]中报道的规范设置相比，迁移学习设置的性能令人惊讶地更好，这表明三个训练数据集和一个测试数据集的域的高度分离，这在现实世界中很难确保。视频深度架构总结。在[43]中，使用两个LSTM-- 具有基于确定点过程（DPP）的附加目标的带我们的主要区别是，我们不考虑关键帧注释，并使用无监督生成对抗学习来训练我们的LSTM。在[41]中，循环自动编码器被学习来表示训练视频中的注释时间间隔，称为亮点。相比之下，我们在训练中不需要人类对高光的注释，并且我们不执行时间视频分割（高光与204非高亮），但关键帧选择。生成对抗网络（GAN）已用于图像理解问题[8，29，33，31]，帧预测/生成[22，39，5]。但我们不知道他们以前用于视频摘要。在[19]中，GAN的学习输出用于为变分自动编码器（VAE）提供我们以三种关键方式扩展这种方法：（1）我们指定了一个新的变分自动编码器LSTM，而它们的自动编码器不是递归神经网络，因此不能用于视频;（2）我们的生成对抗学习还考虑了帧选择器-[19]中未考虑的组件;以及（3）我们制定了适用于视频摘要的生成对抗学习的规则化。3. VAE和GAN综述变分自动编码器（VAE）[16]是一种有向图模型，它定义了观察数据的后验分布，给定了一个未观察到的潜在变量。让e（e）是未观察到的潜在变量的先验，x是观察到的数据。可以将e解释为x的编码，并定义q（e|x）作为给定x的观测e的概率。典型的是将pe（e）设为标准正态分布。类似地，p（x| e）确定x的条件生成分布。学习是通过最小化数据分布的负对数似然来完成的问题：p（x| e）p（e）图 2 ：我们方法的主要组成部分：选择器 LSTM（sLSTM）从输入中选择帧的子集序列x.编码器LSTM（eLSTM）将所选择的帧编码为固定长度的特征e，然后将其转发到解码器LSTM（dLSTM）以用于重建视频x 。cLSTM将x类分类为“原始”类dLSTM和cLSTM形式生成对抗网络（GAN）样本分类（真vs生成），同时训练G以最小化lo g（1-D（x））。-日志=− log（p（x| e））+D KL（q（e|（x）非正式协商（e）。q（e|x）`x`xL重建L优先级4. 我们方法的主要组成部分（一）为了有效学习，Kingma et al.[16]提出了一种适用于随机梯度下降的变分下界的重新参数化。生成对抗网络（ Generative Adversarial Network ，GAN）[8]是一种神经网络，由两个相互竞争的子网络组成：i）“生成器”网络（G），其生成模仿未知分布的数据;以及ii）“采样”网络（D），其区分所生成的样本和来自真实观测的样本。我们的目标是找到一个生成器，它适合真实的数据分布，同时最大限度地提高概率的错误。设x为真实数据样本，e pe（e）为先验输入噪声，x=G（e）为生成的样本。学习被公式化为下面的minimax优化：我们的方法由总结器和判别器递归网络组成，如图2所示。给定CNN对于输入视频的每一帧的深度特征，x = {x t：t = 1，. . .，M}，摘要器使用选择器LSTM（sLSTM）来选择这些帧的子集，然后使用编码器LSTM（eLSTM）来将所选择的帧的序列编码为深度特征e。具体cally，对于每一帧xt，sLSTM输出归一化的im。重要性分数s={s t：s t∈[0，1]，t=1，. . .，M}，用于选择帧。帧特征的输入序列x用这些重要性分数加权，然后转发到eLSTM。注意，在离散化分数的特殊情况下，s t∈ {0，1}，eLSTM仅接收s t = 1的帧的子集。摘要器的最后一个组件是解码器LSTM（dLSTM），它将e作为输入，并重建一系列对应的特征。min max ΣEx[logD（x）]+ Ee[log（1−D（x））]Σ、（二）对于输入视频，x={x≠1，x≠2，.， xM}。该图旨在区分xG D `BagráxL甘其中D被训练以最大化正确的概率，以及属于两个分发类别的x个文件：该分类器可以被视为估计x和x之间的距离，并且分配不同的类la。205图3：我们训练中使用的四个损失函数。LGAN是增广GAN损失，Lreconst是递归编码器-解码器的重构损失。在训练中，我们使用额外的帧选择器sp，由先前的分布（例如，uniform），其产生编码的表示Ep和重构的特征序列Xp。cLSTM的对抗性训练是正则化的，它在识别"摘要“时具有很高的准确性如果x和x的距离足够大，则它们与x和x的距离相等。从这个意义上说，这是一个代表性的估计，原始视频和我们的视频摘要之间的位置误差。虽然实现鉴别器的一种方法可以是基于能量的编码器-解码器[45]，但在我们的实验中，二进制序列分类器表现出更好的性能。因此，我们将其指定为具有二进制分类输出的类似于[8，19]中提出的生成对抗网络，我们有dLSTM和cLSTM形成生成对抗网络（GAN）。摘要器和网络的训练是相反的，直到网络不能区分从摘要和原始视频重建的视频5. sLSTM、eLSTM和dLSTM的训练本节详细说明我们学习的内容：（i）表征sLSTM、eLSTM和dLSTM的摘要器参数{θ s，θ e，θ d};以及（ii）GAN参数，{θ d，θ c}，定义dLSTM和cLSTM。注意θd是共享参数总结器和GAN之间的关系。如示于图3、我们的训练由四个损失函数定义：1）GAN的损失，LGAN，2）递归编码器-解码器的重构损失，Lreconst，3）先前损失，但是它混淆了x的“原始”类。记得L先验是由e上的先验分布强加的，如（1）。类似于[8，19]中GAN模型的训练，我们制定对抗学习算法，迭代优化以下三个目标：1. 对于学习{θs，θe}，最小化（L重构+L先验+L稀疏）。2. 为了学习θd，最小化（Lreconst+LGAN）。3. 为了学习θc，最大化LGAN。在下文中，我们定义了Lreconst和LGAN，而L稀疏性的规范被推迟到Sec。六、重建损失Lreconst：学习编码器-解码器网络的标准做法是使用输入和解码输出之间的欧几里得距离，2来估计重建误差。但最近调查结果显示了这种做法的缺点[19]。因此，相反，我们基于cLSTM中的隐藏表示来定义Lreconst-注意，虽然x是一个特征序列，但φ（x）表示一个紧凑特征向量，捕获输入序列中的长程依赖关系。因此，使用φ（x）而不是x来指定Lreconst似乎更合适。具体地，我们将Lreconst公式化为对数似然logp（φ（x））的期望，|e），假定x已经通过帧选择器s和eLSTM，得到e：Lreconst= E[−log p（φ（x）|（e）]、（3）其中期望E近似为训练示例的经验平均值。本文考虑p（ φ （ x ） |e）） e×p（ −φφ （ x ） −φ （ xφ ）<$2），而其他非高斯似然也是可能的。GAN的丢失，LGAN：在[19]之后，我们的目标是训练cLSTM，使得cLSTM将重建的特征序列x分类为“摘要”，将原始特征序列x分类为了规范化这种训练，我们还强制cLSTM学习将随机生成的摘要xp分类为从给定的先验分布中抽样选出。在本文中，对于这个先验，我们考虑均匀分布。这给出：L先验，以及4）正则化损失，L稀疏。关键是-在后面，我们生成对抗训练是引入附加的帧选择器SP，其由先验分布支配LGAN=lo g（cLSTM（x））+lo g（1−cLSTM（x））+log（1−cLSTM（xp）），（四）动作（例如，均匀分布），spp（sp）. 采样具有sp的输入视频帧给出被传递到eLSTM的子集，从而产生编码表示ep。给定ep，dLSTM重建视频序列xpp。我们使用xp来正则化学习，这样cLSTM就可以高度准确地识别xp作为其中cLSTM（·）表示的二进制软最大输出cLSTM。给定Lreconst和LGAN的上述定义，以及在第2节中解释的L稀疏性。6、利用随机梯度变分法对参数θs、θe、θd和θc进行了贝叶斯估计[17，16]，适用于递归网络206稀疏性++=¨¨det（L+I）[3]的文件。算法1总结了我们训练的所有步骤。注意，算法1使用大写字母来表示前面文本中具有小写字母符号的相应变量的小批量。eLSTM中的两个隐藏状态，I是单位矩阵，L（s）是一个较小的方阵，从L中减去s。设et是eLSTM在时间t的隐藏状态。对于时间步长t和t′，成对相似性值被定义为Lt，t′=st st′ett′。算法1训练SUM/GAN模型当我们的方法使用 L民进党、我们称之为SUM-1：输入：训练视频序列2：输出：学习参数{θ s，θ e，θ d，θ c}。3：初始化所有参数{θs，θe，θd，θc}GANdpp.对于排斥正则化，我们定义ΣΣ⊤Σ第四章：对于最大迭代次数，5：X←来自CNN特征序列的6：S←sLSTM（X） %选择帧重复稀疏性1=M（M−1）不t′tetet′ǁetǁǁet′ǁ（七）7：E=eLSTM（X，S） %编码8：X=dLSTM（E）%r构造9：Sp←从均匀分布中10：Ep=eLSTM（X，Sp） %编码11：Xp=dLSTM（ESp）%重建12：使用随机梯度的%更新：并将我们方法的这种变体称为SUM-GANrep。关键帧正则化被指定用于监督设置，其中在训练中提供关键帧的地面实况注释。这种正则化使我们的方法与最近提出的监督方法进行了公平的比较。注意，我们在这里考虑重要性13：{θs，θe} ←− θ（L+再构成 +L先验 +L稀疏度）分数作为2D softmax输出{st}，而不是标量值如在SEC。4. 我们将稀疏性损失定义为14：{θd} ←− θ（Lreconst+LGAN）15：{θc} ←+ θ（LGAN）%最大化更新16：结束交叉熵损失：超1毫米L稀疏度=M交叉入口p y（st，st）。（八）不6. 我们方法的变体本节解释我们的学习规则化。我们使用以下三种类型的正则化，它们定义了我们方法的相应变体。摘要长度正则化惩罚在摘要中选择大量关键帧，如下所示：我们把这种方法的变体称为SUM-GANsup。7. 结果数据集。我们在四个数据集上评估我们的方法：SumMe [10]，TVSum [34]，开放视频项目（OVP）[24，2]和Youtube [2]。1 ）SumMe由25个用户组成L稀疏性¨100万美元st¨Mt=1¨¨-哦，¨2（五）视频. 这些视频捕捉了烹饪和运动等多个事件视频内容多种多样，包括第一人称和第三人称摄像机。视频长度从1.5分钟到6.5分钟不等。数据集提供了框架-其中M是视频帧的总数，σ是表示我们期望在摘要中选择的帧的百分比的输入超参数。当我们的方法使用L稀疏性时，我们称之为SUM-GAN。多样性正则化强制选择帧高视觉多样性，以减少冗余在总结中。在本文中，我们使用两个标准定义进行多样性正则化-即（i）确定点过程（DPP）[38，7，43];和（ii）排斥正则化子（REP）[45]。在[43]之后，我们的基于DPP的正则化被定义为如：级别重要性分数。2）TVSum包含来自YouTube的50个视频视频从TRECVid多媒体事件检测（MED）的10个类别中选择视频长度从1到5分钟不等。与SumMe类似，视频内容也是多样化的，包括以自我为中心和第三人称相机。3)对于OVP，我们对[2]中使用的相同50个视频进行评估。这些视频来自不同的流派（例如，纪录片、教育片），长度从1分钟到4分钟不等。4)YouTube数据集包括从网站上收集的50个视频。视频的持续时间从1到10分钟，内容包括卡通，新闻和体育。评估设置。为了与国家进行公平的比较DPP稀疏性=−log（P（s））（6）在现有技术中，使用[43]中提出的基于关键镜头的度量进行评估。假设A是生成的关键点，B是生成的关键点。其中P（s）是DPP分配给选择指示符s的概率。我们计算P（s;L）=det（L（s）），其中L是每个LL207用户注释的关键点。精确度和召回率基于A和B之间的时间重叠量定义如下：208精度=A和B之间重叠的持续时间持续时间A和B之间重叠的持续时间回忆=B的持续时间（九）最后，使用调和平均F分数作为评估度量。我们按照[43]中的步骤将帧级分数转换为关键帧和关键镜头摘要，在所有数据集中反之亦然。为了生成仅提供关键帧分数的数据集的关键镜头，使用KTS [26]将视频初始地在时间上分割成不相交的间隔。所得到的间隔基于它们的重要性分数进行排名，其中间隔的重要性分数等于该间隔中的帧的平均分数。从排序的间隔中选择间隔的子集作为关键镜头，使得所生成的关键镜头的总持续时间小于原始视频的持续时间的15%对于具有多个人类注释的数据集（以关键镜头或关键帧的形式），我们遵循[11，34，43]中描述的标准方法来创建单个地面实况集以进行评估。在评估我们的SUM-GAN sup模型时，我们使用了与[43]相同的训练，测试和验证分割。为了公平比较，我们运行了五个不同的运行-DOM拆分并报告平均性能。实现细节：为了与[43]进行公平比较，我们选择使用GoogLeNet网络[38]（1024维）的pool5层的输出，在ImageNet[32]上训练，用于每个视频帧的特征描述符。我们使用一个两层LSTM，每层有1024个隐藏单元我们使用两个两层LSTM，每层有2048个隐藏单元，分别用于eLSTM和dLSTM。在[35]中显示，尝试重建反向序列的解码器LSTM类似地，我们的dLSTM重建特征序列的顺序相反。请注意，在将x和x_x_x表示为cLSTM输入时，两个序列在时间上应该具有相似的顺序。我们初始化eLSTM和dLSTM的参数，使用预训练的递归自动编码器模型的参数，该模型是在原始视频的特征序列上训练的。我们发现，这有助于提高整体精度，也导致更快的收敛。sLSTM网络是一个具有1024个隐藏单元的两层双向LSTM。在SUM-GANsup的情况下，输出是2维软最大层。我们使用默认参数用Adam优化器训练我们的基线：重要的是要指出，考虑到我们方法的生成结构和Alg中更新规则第一，不可能完全恢复--放置模型基线的子网络。相反，除了我们的方法在第二节中定义的不同变化6、我们还评估以下基线：表1：我们的生成视频摘要在基准数据集上的不同变化的比较。对于σ = 0，报告SUM-GAN的结果。3 .第三章。1) SUM-GAN不使用稀疏性调节，2) 不包括LGAN的SUM-GANw/o-GAN在更新{θd}时，3) SUM-GAN w/o-sp，在训练GAN时不考虑随机摘要，即它将（4）替换为以下内容：LGAN=lo g（cLSTM（x））+lo g（1−cLST M（x））。7.1. 定量结果表1总结了我们的方法的不同变化的准确性。正如预期的那样，具有附加帧级监督的模型SUM-GANsup比无监督变体的性能高出（2-5%）。一个有趣的观察是，虽然明确的reg-用 “ 多样性正则化器 ” （ SUM-GANdpp 和 SUM-GANrep）对模型进行的归一化然而，在SumMe的情况下，SUM-GAN比SUM-GANrep执行得更好。这是特别重要的，因为它验证了我们的主要假设，即一个好的总和应该包括一个子集的帧，提供类似的内容表示的原始帧序列。这表明，如果我们限制摘要的长度较短，隐含的框架将是多样的。我们还观察到，SUM-GANdpp 在所有四个数据集中的表现都优于 SUM-GANrep。我们认为，这主要是因为，与排斥规则化者不同，民进党是非线性的，可以加强更强的规则化。比较SUM-GANw/o-GAN与SUM-GAN的准确性表明，使用VAE和GAN的组合损失进行训练可以提高准确性。我们特别感兴趣的是将我们的性能与先前的无监督和监督方法进行比较。这一比较见表2。如图所示，我们的无监督SUM-GANdpp模型在所有数据集中的性能优于所有无监督方法对于SumMe，我们的方法几乎比最先进的无监督方法好5%。更重要的是，方法SumMeTVSumOpenVideoYouTube森甘38.750.871.558.9SUM-GAN低音35.750.169.857.1SUM-GANw/o-GAN34.649.569.356.9SUM-GANw/o-sp37.250.471.558.4SUM-GAN代表38.551.972.359.6森甘民进党39.151.772.860.1SUM-GANsup41.756.377.362.5209方法SumMeTVSumOpenVideoYouTube[二]《中国日报》33.7-70.359.9[21日]26.6---[第十五条]-36.0--[34个]26.650.0--[4]美国--63.4-[23日]--57.6-[第四十四届]-46.0--森甘民进党39.151.772.860.1方法SumMeTVSumOpenVideoYouTube[第十一届]39.7---[第四十二届]40.9-76.660.2[10个国家]39.3---[四十三]38.654.7--[七]《中国日报》--77.760.8SUM-GANsup41.756.377.362.5(a) 无监督方法（b）监督方法表2：我们提出的视频摘要方法与现有技术的比较。最新技术水平报告的结果来自已发表的结果。请注意，[42，7]只使用了39个非卡通视频序列。方法SumMeTVSum[第四十二届]40.9-[四十三]42.959.6森甘41.758.9SUM-GAN代表42.559.3森甘民进党43.459.5SUM-GANsup43.661.2表3：当训练数据用来自OVP和YouTube数据集的视频增强时，我们的生成视频摘要的不同变体与SumMe和TVSum数据集的对于[43]，报告了无域适应的结果的SUM-GANdpp是非常接近TVSum，OVP和YouTube数据集的监督方法。与最先进的监督方法相比，我们的监督变体SUM-GANsup在除OVP之外的所有数据集上都表现出色。即使在OVP的情况下，我们在统计上也接近最好的报告精度，为0。4%的利润。我们假设准确性的提高主要是因为cLSTM的额外学习信号。请注意，搜索器会观察到更长的序列，并根据学习到的特征序列的语义表示进行分类这使得判别器能够提供关于帧对于内容相似性的重要性的更多信息信号。Zhang 等人 [43] 使用 OVP 和 YouTube 数据集增强SumMe和TVSum数据集，并提高SumMe和TVSum的准确性。表3显示了当训练数据集增加时，与[43]中报告的结果相比的准确性结果。除了SUM-GANsup，我们在训练中使用了80%的目标数据集最重要的观察结果是，我们的一个无监督变体SUM-GANdpp的性能优于SumMe中的最新技术。这表明，如果使用更多的无监督视频数据进行训练，我们的模型图4：SumMe、TvSum、OpenVideo和YouTube上不同σ方法SumMeTVSum[34个]-50.0[第四十二届]-60.0[四十三]38.154.0森甘37.853.2SUM-GAN代表38.854.1森甘民进党41.253.9SUM-GANsup39.559.5表4：当使用浅层特征时，我们的生成视频摘要的不同变体与SumMe和TVSum数据集的最新技术水平的比较。能够学习与使用关键帧注释训练的模型竞争的摘要。最后，我们评估了我们的方法的性能为我们的SUM-GAN模型的不同百分比的σ值图图4显示了四个不同数据集上不同σ的F得分值虽然性能是一致的210为0。3≤σ≤0。当σ→1或σ→0时，它迅速下降。7.2. 与浅层特征的比较通过评估我们的模型，我们验证了我们的视频摘要方法对非深度特征的通用性211(a) 来自视频15的样本帧（索引如[34]）(b) SUM-GAN（c）SUM-GAN代表（d）SUM-GANdpp（e）SUM-GANsup图5：TvSum中示例视频的示例摘要[34]。蓝色条显示注释重要性分数。彩色段是使用指定方法选定的帧子集。在[42，43]中使用的浅特征。表4显示了我们的模型与使用浅特征的最新模型相比的性能除了TvSum [42]中报告的结果外，其中浅层特征优于深层特征，我们的模型始终表现得更好。与[42]不同，我们基于深层特征的模型仍然比基于浅层特征的相同模型表现得更好。7.3. 定性结果为了更好地说明我们的方法的不同变化的时间选择模式，我们在图1中的示例视频上展示了所选择的帧。五、蓝色背景显示帧级重要性分数。彩色区域是针对不同方法选择的子集。不同变体的可视化关键帧支持表1所示的结果。尽管变化很小，但所有四种方法都覆盖了具有高帧级分数的颞区。大多数失败案例发生在视频中，这些视频由非常慢的动作和没有场景变化的帧组成。8. 结论我们提出了一种基于可变递归自动编码器和生成对抗网络的生成架构，用于无监督视频摘要选择关键帧的子集。主要假设是概要视频和原始视频的学习表示应该是相似的。摘要器的目的是对视频进行摘要，使得用户被愚弄，并且用户的目的是从原始视频中识别摘要视频。整个模型以对抗的方式训练，其中GAN 我们的方法的变化定义使用不同的regularizations。对基准数据集的评估表明，我们的方法的所有非监督变化在视频摘要中的表现优于最先进的2-5%，并提供了与最先进的监督方法相当的准确性。我们还验证了我们的方法的监督变化优于最先进的1-4%。确认这项工作得到了DARPA XAI和NSF RI1302700的部分支持。引用[1] A. Aner和J.R. 肯德通过基于马赛克的镜头和场景聚类的视频摘要，第388-402页。施普林格柏林海德堡，柏林，海德堡，2002年。212[2] S. E. F. De Avila，A.P. B. Lopes，A.da Luz和A.阿尔布·奎克你来了。Vsumm：一种用于生成静态视频摘要的机制Pat-tern Recognition Letters，32（1）：56[3] O. Fabius和J. R.范·阿默斯福特变分循环自动编码器。arXiv预印本arXiv：1412.6581，2014。[4] M. Furini，F. Geraci，M. Montangero和M.佩莱格里尼Stimo ：静止和移动的视频故事板的网络场景 .Multimedia Tools and Applications，46（1）：47[5] A. Ghosh，V. Kulharia，A. Mukerjee，V. Namboodiri，以及M.班萨尔用于抽象推理图生成的上下文rn-gans。arXiv预印本arXiv：1609.09444，2016年。[6] D. B.戈德曼湾Curless，S. M. Seitz和D.销售用于视频可视化和编辑的示意图故事板 ACM Transactions onGraphics（Proc. SIGGRAPH），25（3），2006年7月。[7] B.龚，W.- L. Chao，K. Grauman和F.煞监督视频摘要的多样顺序子集选择。NIPS，第2069-2077页，2014年[8] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，第2672-2680页[9] M. 吉格利H.Grabner，H.Riemenschneider和L.范古尔从用户视频创建摘要。2014年，在ECCV[10] M. 吉格利H.Grabner，H.Riemenschneider和L.范古尔从用户视频创建摘要在ECCV中，第505520. Springer，2014.[11] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合的视频求和。在CVPR，第3090-3098页[12] T. Halperin，Y.波莱格角Arora和S.法勒自我采样：从单个和多个自我中心的视频宽视图hyperlapse。CoRR，abs/1604.07741，2016。[13] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735[14] N. Joshi，W. Kienzle，M. Toelle，M. Uyttendaele和M. F.科恩通过最佳帧选择实现实时hyperlapse创建。ACM事务处理图表，34（4）：63：1[15] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。在CVPR，第2698-2705页[16] D. P.Kingma和M.威林自动编码变分贝叶斯。ICLR，2014年。[17] D. P. Kingma和M.威林随机梯度与变分自动编码器。Talk Slides，2014.[18] J. Kopf，M. F. Cohen和R.塞利斯基第一人称超延时视频ACM事务处理图表，33（4）：78：1[19] A. B. L. Larsen，S. K. Sønderby和O.温瑟使用学习到的相似性度量来自动编码超出像素arXiv预印本arXiv：1512.09300，2015。[20] Y. J. Lee，J.Ghosh和K.格劳曼发现重要的人物和物体，以实现自我中心的视频摘要。在CVPR，第1346-1353页[21] Y. Li 和 B.梅里亚多基于video-mmr 的多视频摘要。WIAMIS，第1-4页。IEEE，2010。[22] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。 arXiv 预印本 arXiv ： 1511.05440 ，2015。[23] P. Mundur，Y. Rao和Y.耶莎基于delaunay聚类的关键帧视频摘要。International Journal on Digital Libraries，6（2）：219[24] 打开视频项目。 http://www.open-video.org。[25] Y. Poleg，T.哈尔佩林角Arora和S.法勒自我采样：以自我为中心的视频的快进和立体声。在CVPR，2015年6月[26] D.波塔波夫M. Douze，Z. Harchaoui和C.施密特类别特定视频摘要。在瑞士苏黎世的ECCV，9月。2014. 斯普林格。[27] Y. Pritch，A. Rav-Acha，A. Gutman和S.法勒网络摄像头简介：窥视世界。载于ICCV，第1-8页[28] Y. Pritch，A. Rav-Acha和S.法勒非时间顺序的视频概要和索引。 IEEE Transactions on Pattern Analysis andMachine Intelligence，30（11）：1971[29] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。[30] A. Rav-Acha，Y. Pritch和S.法勒制作一个简短的视频：动态视频简介。见CVPR，第435-441页[31] S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。arXiv预印本arXiv：1605.05396，2016。[32]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，第1-42页[33] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术。arXiv预印本arXiv：1606.03498，2016。[34] Y. Song，J. Vallmitjana，A. Stent和A.詹姆Tvsum：使用标题总结网络视频在CVPR中，第5179[35] N. Srivastava、E.Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的无监督学习。CoRR，abs/1502.04681，2，2015。[36] Y. 统计 https://www.youtube.com/yt/http ：//www.example.com/press/applications.html。访问日期：2016年。[37] M. Sun，A.法哈迪湾Taskar和S.塞茨《无约束视频中的显着监视器》，第 472-488 页。 Springer InternationalPublishing，Cham，2014.[38] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在CVPR，第1[39] C. Vondrick，H. Pirsiavash和A. 托拉尔巴生成具有场景动态的视频。 arXiv 预印本 arXiv ： 1609.02612 ，2016。[40] H. wen Kang，Y. Matsushita，X. Tang和X.陈泉。时空视频剪辑见CVPR，第1331-1338页，2006年。213[41] H. 扬湾，澳-地Wang，S.Lin，L.Wipf，M.Guo和B.小郭。无监督提取视频亮点通过强大的经常性自动编码器。在ICCV，第4633-4641页[42] K.张文-- L. Chao，F. Sha和K.格劳曼汇总传输：用于视频求和的基于示例的子集选择。在CVPR，2016年6月。[43] K. 张文--L. Chao，F.Sha和K.格劳曼具有长短期记忆的视频见ECCV，第766-782页。施普林格，2016年。[44] B. Zhao和E. P. Xing。消费者视频的准实时摘要。在CVPR中，第2513-2520页[45] J. Zhao，M. Mathieu和Y.乐存。基于能量的生成对抗网络。2016年12月16日，北京市人民政府海淀分

下载后可阅读完整内容，剩余1页未读，立即下载