基于非配对数据学习的视频摘要

70 浏览量更新于2023-10-18 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7902基于非配对数据学习的视频摘要曼尼托巴大学Mrigank Rochan和Yang{mrochan，ywang}@ cs.umanitoba.ca摘要我们考虑视频摘要的问题给定输入原始视频，目标是从输入视频中选择关键帧的小子集以创建最佳地描述原始视频的内容的较短的总和视频。大多数当前最先进的视频汇总方法使用监督学习并且需要标记的训练数据。每个训练实例由原始输入视频及其由人类注释器创建的地面实况摘要视频组成。然而，创建这种标记的训练示例非常昂贵且困难。为了解决这个问题，我们提出了一种新的配方来学习视频摘要从不成对的数据。我们提出了一种使用一组原始视频（V）和一组摘要视频（S）来学习生成最佳视频摘要的方法，其中V和S之间不存在对应关系。我们认为这种类型的数据更容易收集。我们的模型旨在学习映射函数F：V→S，使得从F（V）得到的概要视频的分布类似于S的分布，其中一个敌对目标的帮助。此外，我们对F（V）实施多样性约束，以确保生成的视频摘要在视觉上是多样的。在两个基准数据集上的实验结果表明，我们提出的方法显着优于其他替代方法。1. 介绍近年来，每天上传到网上的视频数量激增。随着这种显著的增长，用户越来越难以有效地观看或为了使这一enormous大量的视频数据易于浏览和访问，我们需要自动视频摘要工具。视频摘要的目标是生成简短的摘要视频，以传达给定较长视频的重要和相关内容。视频摘要是一种不可或缺的工具，在视频数据库管理、消费者视频分析和监控等广泛领域具有潜在应用[35]。视频摘要通常被表述为子集选择问题。通常，在视频摘要中有两种类型的子集选择：（i）关键帧选择，目标是识别一组孤立的帧[8，17，20，24，25，31，39];以及（ii）关键镜头选择，其中目的是识别一组时间上连续的基于间隔的片段或子镜头[16，22，26，27]。在本文中，我们把视频摘要作为一个关键帧选择问题。一个好的摘要视频应该包含满足某些属性的视频帧。例如，所选帧应捕获视频的关键内容[8，13，27]。此外，所选的框架应在视觉上多样化[8，24，39]。有监督和无监督学习方法都已被提出用于视频摘要。大多数非监督方法[13，14，17，22，24，27，29，33，47，31，40]使用手工制作的算法来选择视频中的帧。这种方法的局限性在于，很难提出足以生成良好摘要视频的算法。相比之下，监督方法[8，10，11，38，39，43]从具有用户生成的摘要视频的训练数据中学习。训练数据的每个实例由一对视频组成-原始输入视频和由人类创建的其对应的地面实况摘要视频。从这样的训练数据中，这些监督方法通过模仿人类如何创建摘要视频来学习从原始输入视频映射到摘要视频。监督方法可以隐式地捕捉人类使用的线索，这些线索很难通过手工制作的数学模型进行建模，因此它们往往优于无监督方法。监督视频摘要的一个主要限制是它依赖于标记的训练数据。社区中的常见数据集通常通过要求人类注释者观看输入视频并选择关键帧或关键镜头来收集。这个注释过程非常昂贵和耗时。因此，在计算机视觉文献中，我们只有很少的基准数据集可用于视频摘要此外，每个数据集通常只包含少量带注释的数据（见表1）。为了解决监督学习的缺陷，我们建议学习视频摘要的新公式，7903i=1j=1VS非配对数据F：V S视频（V）总结视频（S）图1. 从非配对数据中学习视频摘要给定一组原始视频{vi}M（v∈V）和真正的摘要视频{sj}N（s∈S）使得V和S中的实例之间不存在匹配/对应，我们的目标是学习一个映射函数F：V→S（右）连接两个不同的域V和S。数据未配对，因为摘要集合S不包括V中的原始视频的地面实况摘要视频，反之亦然。未配对数据我们的关键见解是，收集未配对的视频集要容易得多。首先，原始视频很容易获得，因为它们在互联网上大量存在。与此同时，好的总结视频也可以大量阅读。例如，有很多体育亮点，电影预告片，和其他专业编辑的摘要视频在线提供。这些视频可以被视为地面实况摘要视频。挑战在于，这些专业策划的摘要视频通常不附带其对应的原始输入视频。在本文中，我们提出通过从这种不成对的数据中学习来解决视频摘要（图10）。1（左））。我们假设我们的训练数据由两组视频组成：一组原始视频（V）和另一组人类创建的汇总视频（S）。然而，在这两个集合中的视频之间不存在对应关系，即，训练数据是不成对的。换句话说，对于V中的原始视频，我们可能在S中没有其对应的地面实况摘要视频，反之亦然。我们提出了一种新的方法来学习视频摘要，从不成对的训练数据。我们的方法学习一个映射函数（称为关键帧选择器）F：V →S（图1（右））将原始视频v∈V映射到摘要视频F（v）。它还训练了一个摘要函数，试图区分所生成的概要视频F（v）和真实概要视频s∈S。使用对抗性损失[9]，我们学习使生成的摘要视频F（v）的分布与在S.结果，映射函数F将学习为给定输入视频生成真实的总和视频我们还通过在输出摘要视频F（v）上引入重建损失和多样性损失来为我们的学习添加更多的结构。通过将这两种损失与对抗性损失相结合，我们的方法学会生成有意义的和视觉上多样化的来自未配对数据的视频摘要。总之，本文的贡献包括：（i）提出了一种从非配对数据中学习视频摘要的新问题形式，该问题由一组原始视频和一组不具有任何对应关系的视频摘要组成;（ii）用于视频汇总的深度学习模型，其经由对抗过程从未配对的数据学习;对基准数据集进行广泛的实证研究，以证明拟议方法的有效性;和（iv）我们的方法的扩展，引入部分监督，以提高摘要性能。2. 相关工作随着在线视频数据量的爆炸性增长，计算机视觉界对开发自动视频摘要技术的兴趣越来越大。大多数先前的方法都属于无监督和监督学习的领域。无监督方法[6，7，12，14，17，21，22，23，27，29，30，33，37，45]通常使用手工制作的摘要来满足某些属性（例如多样性，代表性），以便创建摘要视频。一些摘要方法还通过额外的线索（如Web图像/视频[4，13，14，33]和视频类别信息[28，30]）提供弱监督，以提高性能。监督方法[8，10，11，19，24，31，32，38，39，40，41，42，47]从由原始视频及其对应的地面实况摘要视频组成的标记数据学习视频摘要有监督的方法往往优于无监督的方法，因为它们可以从地面事实摘要中学习有用的线索，而这些线索很难用手工制作的算法来捕捉。虽然监督方法是有前途的，但它们受到这样一个事实的限制，即它们需要前7904i=1j=1视频及其摘要形式的被动标记的训练数据配对数据）。在本文中，我们提出了一种新的视频摘要公式，其中算法只需要不成对的视频和摘要（见图1）。1（左）训练。这种非配对数据的主要优点是更容易收集它们。最近的方法将视频摘要视为结构化预测任务[24，31，39，40，47，43，44，48]。特别是，我们的公式与Rochanet al. [31]将视频摘要建模为序列标记问题。与使用递归模型的当代方法[39，24，43，44，40]不同，Rochan等人。[31]提出完全卷积序列模型，这是有效的，并允许更好的GPU并行化。然而，他们的方法的主要局限性是它是完全监督的，并且依赖于成对的训练数据。相比之下，我们的目标是使用没有匹配信息的视频和摘要来学习视频摘要化未配对数据）。最后，我们从未配对数据中学习的概念部分与最近的图像到图像翻译研究有关[2，5，36，49]。这些方法学习将来自一个域的输入图像转换为另一个域中的输出图像，而在训练期间没有来自两个域的任何配对图像。然而，这些方法与我们的方法之间存在重大技术他们通常采用具有周期一致性损失的双向生成对抗网络（GAN），而我们的方法是标准GAN的一个实例[9]，其损失旨在解决视频摘要。此外，它们的公式仅限于图像中的非配对学习。据我们所知，本文是第一个在视频分析，特别是视频摘要的非配对学习的工作。3. 我们的方法3.1. 制剂我们给出一个由一组原始视频{vi}M组成的未配对数据集和一组真实的视频摘要{sj}N，其中v i∈V，sj∈S.我们将v和s的数据分布定义为v_p_data（v）和s_p_data（s），分别为。我们的模型由两个子网络组成，关键帧选择器网络（SK）和概要鉴别器网络（SD）。关键帧选择器网络是两个域V和S之间的映射函数SK：V→S（见图1）。给定输入视频v∈V，关键帧选择器网络（SK）的目标是选择一个小的该视频的k个关键帧的子集以形成摘要对抗的方式最后，SK学习输出一个最佳的摘要视频为给定的输入视频。在实践中，我们预先计算视频中每一帧的图像特征。稍微滥用一下术语，我们使用术语3.2. 网络架构该模型中的关键帧选择器网络（SK）以T帧视频作为输入，产生相应的k帧摘要视频。我们使用全卷积序列网络（FCSN）[31]，一种编码器-解码器全卷积网络，从输入视频中选择关键帧。FCSN通过在时间维度上执行卷积和池化操作来对视频帧之间的时间信息进行编码。这使得FCSN能够提取捕获帧间结构的表示。FCSN的解码器由几个时间反卷积操作组成，其产生与输入视频具有相同长度的预测分数的向量每个分数指示对应帧是关键帧或非关键帧的可能性。基于这些分数，我们选择k个关键帧来形成预测的概要视频。为了定义学习中使用的3.3），我们应用卷积运算的解码特征向量，这些k个关键帧来重构输入视频中的对应特征向量。我们还引入了一个跳过连接，检索所选k个关键帧的帧级特征表示，我们将其与k个关键帧的重构特征合并。图2（a）示出了SK的架构。在我们的模型中，总结网络（S D）接受两种输入：（1）由S K为V中的原始视频产生的摘要视频;以及（2）S中的真实摘要视频。SD的目标是区分SK产生的摘要和真正的摘要。我们使用FCSN [31]的编码器对输入摘要视频内的时间信息进行编码。接下来，我们对编码的特征向量执行时间平均池化操作（temporalaverage pooling operation，缩写为POLT）以获得视频级特征表示。第最后，我们附加一个全连接层（FC），然后执行sigmoid运算（σ）以获得一个分数（Rs），该分数指示输入摘要视频是否为真实摘要或由SK制作的摘要。设s是到SD的输入摘要视频，我们可以通过等式来表示SD中的操作。1. S D的网络架构如图所示。第2段（b）分段。视频SK（v）.摘要视频网络（SD）的目标是区分真实的摘要视频Rs=SD （s）=σ（FC（t））（FCSNENC（s））（1）s∈S和由关键帧选择器网络SK产生的概要视频SK（v）。我们的目标函数-包括对抗性损失、重建性损失和多样性损失。我们学习两个网络SK和SD，3.3. 学习我们的学习目标包括对抗性损失[9]，重建损失和多样性损失。7905SD{s，s′}伊希斯SK(c)培训SK(d)培训总结（s '）视频（五SD总结（s '）SK视频（五总结（s）简体中文拉法德夫拉法德夫伊什0/1向量(a) 关键帧选择器网络，SK（b）概要网络，SD培训未配对VSN图2.我们提出的模型的概述（a）关键帧选择器网络SK的网络架构。它获取视频v并产生其摘要视频s′（即， SK（v））。SK的骨架是FCSN[31]。我们还从输入中引入了一个跳过连接，以检索由SK选择的k个关键帧的帧级特征。(b)总结了网络工作的网络体系结构. 它在输出概要视频s′和真实概要视频s之间进行区分。SD由FCSN的编码器（FCSNenc）组成，随后是时间平均池化（Temporal Average Pooling，简称EMT）和sigmoid（σ）操作。在（c）和（d）中，我们分别显示了SK和SD的训练方案。SK试图产生视频摘要，这些视频摘要与由人类，而SD试图将真实的摘要视频与S K产生的摘要区分开来。如第3.1，没有对应信息可用于匹配训练数据中的原始视频和摘要视频。对抗性损失：该损失旨在将由关键帧选择器网络SK产生的摘要视频的分布与真实摘要视频的数据分布相我们使用生成对抗网络中常用的对抗损失[9]：Ladv（SD，SK）为[10][10][11][12][13][14]可以是一组K个索引，其指示在概要中选择输入视频中的哪K个帧。换句话说，如果f∈Λk，则输入视频中的第f帧是关键帧。我们可以将这种重建损失定义为：K1吨f2+Evpdata（v）[log（1−SD（SK（v）]Lreconst（SK（v），v）=k <$SK（v）−v<$2（4）不其中SK目的是制作总结视频SK（v），t=1接近域S中的真实概要视频，并且SD试图在输出概要视频{SK（v）：v∈V}和真实概要视频{s：s∈S}之间进行区分。一个极大极小博弈发生在SK和SD之间，SK推动最小化这是一个目标，而SD旨在最大限度地提高这一目标。这相当于以下内容：最小值最大值Ladv（SD，SK）（3）其中，SK（v）t和vft是输出概要视频SK（v）中的第t帧的特征，并且第t帧（即，f t∈Λ k）。这种损失背后的直觉是使概要视频中的关键帧的重构特征向量SK（v）类似于输入视频v中的那些帧的特征向量。SK SD重建损失：我们引入重建损失以最小化预测概要视频SK（v）中的k个关键帧的重建特征表示与输入视频v中的那些k个关键帧的输入帧级表示之间的差异。设ΛK多样性损失：在视频摘要中，希望摘要视频中的帧具有高视觉多样性[24，39，47]。为了加强这一约束，我们应用了一个排斥正则化器[46]，它鼓励给定输入视频v的输出摘要视频SK（v）的多样性。FCSNconv视频（五FCSNenσΩtC总结（s）总结（s '）7906K2 K2SKSD′Θ， Θ这种多样性损失被定义为：4. 实验Ldiv（SK（v））=1ΣkΣk（SK（v）t）T·SK（v）t′4.1. 设置k（k−1） t=1′S（v）t数据和设置：我们对两个标准进行评估t=1，t不（五）视频摘要数据集：SumMe [10]和TVSum其中，SK（v）t是概要视频SK（v）中的帧t的帧级重构特征表示。我们的目标是最小化Ldiv（SK（v）），以便所选的k个关键帧在视觉上是多样的。最终损失：我们的最终损失函数是：L（S K，S D）=Ladv（SD，SK）+ Lreconst（SK（v），v）+βLdiv（SK（v））（6）其中β是控制视觉多样性的相对重要性的超参数学习的目标是分别找到SK和SD中的最佳参数Θ和θ我们可以将其表示为：[33]第33段。这些数据集分别有25个和50个视频。由于这些数据集非常小，我们使用另外两个数据集，即YouTube [7]（39个视频）和OVP数据集[1]（50个视频）来帮助学习。表1显示了数据集的主要特征。我们可以观察到这些数据集是多样的，特别是在地面实况注释方面我们遵循先前的工作[8，39]来转换具有不同格式的多个地面真值，以针对每个训练视频生成单个基于关键帧的注释（二进制关键帧从表1中，我们可以看到我们总共有164个视频可用于实验。在SumMe数据集上进行评估时，我们随机选择了20%的SumMe视频进行测试-∗ ∗SKSD = arg minΘSK，ΘSDL（SK，SD）（7）ing.我们使用其余80%的SumMe视频和其他数据集中的所有视频（即，TVSum、YouTube和OVP）进行培训。我们从为了简洁起见，我们使用UnpairedVSN来表示我们的未配对VSN。配对的视频摘要网络，通过等式学习。7.在图2（c）和图2。2（d），我们展示了我们的模型UnpairedVSN中S K和S D的训练方案。3.4. 部分监督学习在某些情况下，我们在训练过程中可能会有少量的配对视频。我们使用Vp（VpV）来表示我们具有地面实况摘要视频的视频的该子集。我们的模型可以很容易地扩展到利用这种部分监督。在这种情况下，我们在关键帧选择器网络SK中的FCSN的输出上应用附加目标Lpsup。假设一次训练-假设视频v∈Vp具有T个帧，δt，l是第t个帧的分数，第t个帧将是第l个类（关键帧或非关键帧），并且lt是地面实况二进制关键帧指示符。我们定义Lpsup（v）为：通过首先随机选择50%的原始视频（忽略它们的基本事实概要），然后选择剩余50%视频的基本事实概要（同时忽略相应的原始视频）来最后，我们得到一组原始视频和一组真实的摘要视频，其中原始视频和摘要视频之间不存在对应关系。在TVSum数据集上进行评估时，我们遵循相同的策略来创建训练集（未配对）和测试集。特点：首先，我们统一对每个视频进行下采样，2fps。然后我们使用预训练的GoogleNet的第5层池[34]以提取视频中每帧的1024维特征表示。请注意，我们的特征提取遵循先前的工作[24，31，39，47]。这使我们能够与这些作品进行公平的比较。训练细节：我们从头开始训练最终模型（UnpairedVSN），批量大小为1。Lpsup（v）=−1ΣT日志.e x p（δΣt，lt）（八）我们使用Adam优化器[15]，学习率为0的情况。00001用于关键帧选择器网络（S K）。我们使用不t=12l=1 exp（δt，l）SGD [3]优化器，学习率为0。0002对于在这种情况下，我们的学习目标定义为：L（SK，SD）=L前进+ L重建+β L分裂+γ·λ（v）·Lpsup（9）其中，f（·）是一个指示函数，如果v∈Vp则返回1，否则返回0这意味着，如果视频v是VP中的实例，则考虑Lpsup，对于该实例，我们有基础-真相总结视频超参数β和γ分别控制多样性和监督损失的相对重要性。我们将我们模型的这个变体表示为UnpairedVSNpsup。Σ7907总结了网络（SD）。对于SumMe，我们设置β= 1，β= 0。001，用于公式中的TVSum。6.此外，我们将β 和 γ 设置为 0 。 001 ，用于等式中的 SumMe 和TVSum。9.第九条。评估方法：我们使用基于关键镜头的指标来评估我们的方法，如以前的工作[24，39]。我们的方法以关键帧的形式预测摘要。我们将这些关键帧转换为关键镜头（即，视频帧的基于间隔的子集[10，11，39]）。这个想法是首先使用KTS算法对视频进行时间分割[30]。如果片段包含关键帧，则将该片段中的所有帧标记为1，否则标记为0。这个过程可能会导致许多关键镜头。在或-7908数据集视频数量内容地面实况注释类型SumMe [10]25用户视频基于间隔的镜头和帧级得分[33]第三十三话50YouTube视频帧级重要性得分YouTube[7]†39网络视频关键帧OVP [1]50各种类型的视频关键帧表1.我们实验中使用的不同数据集的关键特征[2] YouTube数据集有50个视频，但我们排除了（在[8，39]之后）11个卡通视频，保留了其余的。为了减少关键镜头的数量，我们根据关键帧的数量与片段长度的比例对片段进行排序然后，我们应用背包算法来生成基于关键镜头的摘要，其最多为测试视频长度的15%[10，11，33，39]。SumMe数据集具有基于关键镜头的地面实况注释，因此我们直接使用它进行评估。TVSum数据集提供帧级重要性分数，我们也将其转换为关键镜头，如[24，39]所做的那样进行评估。给定测试视频v，令X和Y分别是预测的关键镜头摘要和地面实况摘要。我们计算精确度（P），召回率（R）和F分数（F）来衡量摘要的质量，如下所示：4.3.主要结果[31]第三十一话未配对VSN高级未配对VSNF-score44.846.547.5精度43.945.046.3召回46.249.149.4表2. SumMe数据集上不同方法的性能（%）[10]。我们报告总结结果的三个标准指标，包括F-分数，精度和召回。X和Y重叠P=，R=X的持续时间X和Y重叠（十）Y的持续时间表3.不同方法对TVSum的性能（%）[33]。F=2×P×RP+R（十一）在表2中，我们提供了结果（根据F分数，我们遵循数据集的评估协议（ SumMe [10， 11]和TVSum [33]）来计算多个用户创建的摘要与数据集中每个视频的预测根据之前的工作[24]，我们对每种方法运行五次实验，并报告五次运行的平均性能。4.2. 基线由于我们的工作是第一次尝试使用未配对的数据来学习视频求和，因此没有我们可以直接比较的先前工作。然而，我们将自己的基准定义如下：无监督SUM-FCN：如果我们从模型中删除摘要网络，我们可以以无监督的方式学习视频摘要。在这种情况下我们学习目标就是Lreconst+Ldiv。这相当于[31]中的无监督SUM-FCN我们将此基线模型称为SUM-FCNunsup。请注意， SUM-FCNunsup 是一个强基线（如 [31] 所示），因为它已经超出-执行许多现有的无监督方法（[7，13，18，24，33，45]）在文献中。具有对抗目标的模型：我们定义了一个其他基线模型，其中我们有摘要识别器网络SD和关键帧选择器网络SK，但要最小化的目标是Lreconst+Ladv(i.e.、我们忽略Ldiv）。我们将此基线模型称为未配对VSNadv.精确度和召回率），SumMe数据集上的基线模型。我们的方法优于所有评估指标的基线方法还值得注意的是，当我们的摘要生成器和网络使用具有对抗性损失的未配对数据UnpairedVSNadv），我们观察到性能的显着提高（F分数，精确度和召回率分别为1.7%，1.1%和2.9%），无监督基线SUM-FCNunsup.添加自适应正则化器Ldiv（即，UnpairedVSN）进一步提高了摘要性能。表3显示了不同方法在TVSum数据集上的性能。同样，我们的最终方法优于基线方法。此外，性能提升的趋势与我们在SumMe数据集上观察到的相似。表2和表3中的结果表明，从非配对数据中学习是有利的，因为它可以显着改善视频摘要模型，而不是纯粹的非超级。viewed approaches.4.4. 与监督方法的比较我们还比较了我们的方法与最先进的监督方法的视频摘要的性能。最近的监督方法[24，31，38，39，40，43，47]也使用额外的数据集（即，YouTube和OVP），以在SumMe或TVSum数据集上训练时增加配对训练示例的数量。比如说，[31]第三十一话未配对VSN高级未配对VSNF-score53.655.355.6精度59.161.061.1召回49.150.650.97909当在SumMe上进行实验时，他们使用20%用于测试，并使用SumMe的剩余80%视频以及TVSum，OVP和YouTube上的视频进行培训。然而，主要的区别在于我们进一步划分了组合训练数据集以创建未配对的示例（参见第二节）。4.1）。换句话说，给定一对视频（一个原始视频和它的摘要视频），我们要么在训练集中保留原始视频，要么相比之下，这两个视频都是监督方法中训练集的一部分。因此，监督方法在训练期间使用两倍的视频。此外，监督方法可以访问原始视频和地面实况摘要视频之间的对应关系因此，重要的是要注意，监督方法比我们提出的方法使用更多的监督。我们在表4中显示了比较。令人惊讶的是，在SumMe数据集上，我们的最终方法比大多数监督方法（除了[31]）都有很大的优势（近3%）。在TVSum数据集上，我们实现了略低的性能。我们的直觉是，如果我们有更多的未配对数据进行训练，我们可以减少TVSum的性能差距。总之，这项比较研究表明，我们的非配对学习公式有潜力与监督方法竞争。方法SumMeTVSumZhang等人[38个]41.3–Zhang等人[39]（vsLSTM）41.657.9Zhang等人[39]（dppLSTM）42.959.6Mahasseni等人[24]（监督）43.661.2Zhao等人[43]第四十三话43.661.5Zhou等[47]（监督）43.959.8Zhang等人[第四十届]44.163.9Rochan等人[三十一]51.159.2未配对VSN（我们的）47.555.6表4.我们的方法与SumMe [10]和TVSum [33]上最先进的监督方法之间的定量比较（F分数%）。结果来自[40]。4.5. 局部监督我们还检查了我们的模型的性能时，直接监督（即，V和S中的视频之间的对应关系）可用于训练集中的少量视频。我们的目的是研究在框架中加入部分监督的效果。在这种情况下，对于馈送到关键帧选择器网络的原始/原始视频的前10%，我们使用它们的真实关键帧注释作为额外的学习信号（参见等式2）。第9段）。直觉上，我们应该能够获得比只使用未配对数据学习更好的性能，因为我们在训练过程中有一些额外的监督。表5显示了使用这种额外的部分监督训练的模型的性能。我们观察到一个趋势在这两个数据集上的改进（在所有评估指标中）。这表明，如果我们在训练过程中除了未配对的数据之外还可以访问一些配对的数据，我们提出的模型可以SumMeTVSumF-score48.0（47.5）56.1（55.6）精度46.7（46.3）61.7（61.1）召回49.9（49.4）51.4（50.9）表5. SumMe [10]和TVSum [33]数据集上未配对VSN psup的性能（%）。在括号中，我们包括表2和表3中报告的最终模型UnpairedVSN的性能，以帮助进行比较。4.6. 传输数据设置在我们的标准数据设置中（参见第4.1），一些未配对的示例可能由来自所考虑的数据集的原始视频或视频摘要组成。为了避免这种情况，我们在更具挑战性的数据设置下进行了额外的实验，其中未配对的示例完全来自不同的数据集。例如，如果我们在SumMe上进行评估，我们使用TVSum，OVP和YouTube的视频和用户摘要来创建未配对的训练数据，然后使用整个SumMe进行测试。我们在TVSum上进行评估时遵循类似的过程。这种数据设置被称为转移数据设置[38，39]，尽管它已经在完全监督学习的上下文中定义我们认为，这种数据设置更接近真实场景，我们可能需要汇总来自与训练中使用的域不同的域的视频表6和表7分别显示了不同方法在SumMe和TVSum上的性能。虽然我们注意到与标准数据设置相比，性能略有下降四点三。[31]第三十一话未配对VSN高级未配对VSNF-score39.541.441.6精度38.340.440.5召回41.243.643.7表6.在转移数据设置下，SumMe [10]上不同方法的性能（%）。[31]第三十一话未配对VSN高级未配对VSNF-score52.955.055.7精度58.260.661.2召回48.550.451.1表7.传输数据设置下不同方法对TVSum [33]的性能（%）。7910视频4（自行车马球）视频25（打球）图3.来自SumMe数据集的两个示例结果[10]。底部的两个条形显示UnpairedVSN生成的摘要和人类，分别。黑色条表示选定的帧序列，背景中的蓝色条表示视频长度。(a) 烹饪SUM-FCN不支持，F评分= 33.8未配对VSN，F评分=61.3(b) 水肺SUM-FCN不支持，F评分=40.6未配对VSN，F评分=47.6图4.来自SumMe [10]的示例视频以及SUM-FCNunsup[31]和UnpairedVSN的预测摘要。第一行中的帧从视频中采样，而第二行中的帧从由不同方法生成的摘要中采样。4.7. 定性分析图3展示了我们的方法UnpairedVSN生成的示例摘要。我们观察到，我们的方法的输出摘要与人类生成的摘要有更高的重叠。这意味着我们的方法能够保留生成最佳和有意义的摘要所必需的信息。我们比较了图中不同方法的结果4.图中的第一个视频。第四，（一）与烹饪有关。SUM-FCNunsup从视频中间提取镜头，并错过了接近尾声的重要视频镜头相比之下，我们观察到UnpairedVSN通过从不同部分提取视频镜头，同时专注于关键场景来保留视频的时间故事。这导致与人类创建的总结更好地一致。图中的第二个视频。4（b）是关于潜水的。与第一个视频不同，SUM-FCNunsup和UnpairedVSN之间没有巨大的性能差距。然而，仍然可以注意到，SUM-FCNunsup捕获的与UnpairedVSN相比，5. 结论我们提出了一种新的视频摘要公式，其目标是使用不成对的训练示例来学习视频摘要。我们已经引入了一个深度学习框架，它可以对未配对的数据进行操作，并实现比基线更好的性能。我们提出的方法获得的结果，甚至可以与最先进的监督方法相媲美。如果在训练过程中有少量的配对视频可用，我们提出的框架可以很容易地扩展，以利用这种额外的监督来进一步提高性能。由于不成对的训练数据更容易收集，我们的工作为未来的视频摘要研究提供了一个有前途的方向。作为未来的工作，我们计划对在野外收集的大规模未配对视频进行实验致谢：作者感谢NSERC和UMGF的资金支持。我们还要感谢NVIDIA捐赠了一些用于这项工作的GPU。7911引用[1] 打开视频项目。https://open-video.org/网站。[2] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根：从非配对数据学习多对多映射。2018年国际机器学习会议[3] 我在博图。随机梯度下降的大规模机器学习2010年国际统计学会议[4] Sijia Cai ， Wangmeng Zuo ， Larry S Davis ， and LeiZhang.基于变分编解码器和网络先验的弱监督视频摘要。2018年欧洲计算机视觉[5] 陈玉生、王玉清、高满新、庄永玉深度照片增强器：从具有gans的照片中进行图像增强的非配对学习在IEEE计算机视觉和模式识别会议上，2018年。[6] 朱文生，宋耶鲁，亚历杭德罗·海姆斯。视频共同总结：基于视觉共现的视频摘要。IEEE计算机视觉和模式识别会议，2015。[7] SandraElizaFontesDeAvila，AnaPaulaBrand aPilloLopes，AntoniodaLuz和ArnaldodeAlbuquerqueArau'jo。Vsumm：一种用于生成静态视频摘要的机制和一种新颖的评估方法。Pattern Recognition Letters，32（1）：56[8] 龚伯庆、赵伟伦、克里斯汀·格劳曼和费莎。用于监督视频摘要的多样顺序子集选择神经信息处理系统进展，2014年。[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，2014年。[10] MichaelGygli、HelmutGrabner、HaykoRiemenschneider和Luc Van Gool。从用户视频创建摘要2014年欧洲计算机视觉会议[11] Michael Gygli Helmut Grabner和Luc Van Gool通过学习对象的子模块混合来进行视频摘要。IEEE计算机视觉和模式识别会议，2015。[12] 康宏文和陈雪泉。时空视频剪辑在IEEE计算机视觉和模式识别上，2006年。[13] Aditya Khosla，Raffay Hamid，Chih-Jen Lin，and NeelSun-daresan.使用网络图像先验的大规模视频摘要。IEEE计算机视觉和模式识别会议，2013。[14] Gunhee Kim和Eric P Xing。从网络社区照片重建故事情节图用于图像推荐。在IEEE计算机视觉和模式识别会议上，2014年。[15] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。在2015年国际学习代表会议上[16] RobertLa g an ie`re，RaphaelBévis，ArnaudHoc ev a r，Patrick Lambert，Gr e'goryPáís，andBogdanEIonescu. 基于时空特征的视频求和在2008年第二届ACM TRECVID视频摘要研讨会上。[17] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。IEEE计算机视觉和模式识别会议，2012。[18] 李英波和伯纳德·梅里亚多。基于video-mmr的多视频摘要。2010年，在多媒体交互服务的图像分析研讨会上[19] Yandong Li，Liqiang Wang，Tianbo Yang，and BoqingGong.当地的多样性有多大？用动态基集增强序列确定点过程以用于监督视频摘要。在欧洲计算机视觉会议上，2018年。[20] David Liu，Gang Hua，and Tsuhan Chen. 一种用于视频对象摘要的层次视觉模型。 IEEE Transactions onPattern Analysis and Machine Intelligence，32（12）：2178[21] 刘铁城和约翰R肯德。变长关键帧序列选择的优化算法。2002年欧洲计算机视觉会议[22] 郑璐和克里斯汀·格劳曼。故事驱动的摘要，以自我为中心的视频。IEEE计算机视觉和模式识别会议，2013。[23] 马宇飞，吕烈，张宏江，李明镜。一种用于视频摘要的用户注意力模型。在ACM多媒体，2002年。[24] Behrooz Mahasseni、Michael Lam和Sinisa Todorovic。使用对抗性LSTM网络进行无监督视频摘要。在IEEE计算机视觉和模式识别会议上，2017。[25] 帕德玛瓦蒂·蒙杜尔，杨·拉奥，叶莲娜·叶莎。使用delaunay聚类的基于关键帧的视频摘要。InternationalJournal on Digital Libraries，6（2）：219[26] Jeho Nam和Ahmed H Tewfik。事件驱动的视频抽象和可视化。多媒体工具与应用，16（1-2）：55[27] Ngo Chong-Wah，Ma Yu-Fei，and Hong-Jiang Zhang.基于图建模的视频自动摘要。 IEEEInternationalConference on Computer Vision，2003。[28] Rameswar Panda，Abir Das，Ziyan Wu，Jan Ernst，andAmitKRoy-Chowdhury. 网络视频的弱监督IEEEInternational Conference on Computer Vision ，2017。[29] Rameswar Panda和Amit K Roy-Chowdhury。主题相关视频的协作摘要。在IEEE Confer-ence on Computer Visionand Pattern Recognition，2017年。[30] Danila Potapov 、 Matthijs Douze 、 Zaid Harchaoui 和Cordelia Schmid。类别特定视频摘要。2014年欧洲计算机视觉会议[31] Mrigank Rochan，Linwei Ye，Yang Wang。使用全卷积序列网络的视频求和。2018年欧洲计算机视觉会议7912[32] Aidean Sharghi ， Ali Borji ， Chengtao Li ， TianbaoYang，and Boqing Gong。改进有监督视频摘要的顺序决定点2018年欧洲计算机视觉会议[33] Yale Song ， Jordi Vallmitjana ， Amanda Stent ， andAlejandro Jaimes.Tvsum ：使用标题总结网络视频。IEEE计算机视觉与模式识别会议，2015年。[34] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dr

下载后可阅读完整内容，剩余1页未读，立即下载