视频摘要的学习方法中的序列到序列学习

93 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

用于视频摘要张可1、克里斯汀·格劳曼2、费莎31个部门计算机科学，U。地址：Southern California，Los Angeles，CA 900892Facebook AI Research，300 W。德克萨斯州奥斯汀第六街787013Net flix，5808 Sunset Blvd，Los Angeles，CA 90028⋆ ⋆⋆zhang.ke @ usc.edu example.com，wwwgrauman@fb.comexample.com，wwwfsha@netflix.com抽象。监督学习技术在视频摘要方面已经取得了实质性的进展。现有技术的方法大多将预测概要和人类概要视为两个序列（集合），并最小化测量元素差异的判别损失。这样的训练目标没有明确地对预测的概要如何很好地保留视频中的语义信息进行建模。此外，这些方法通常需要大量的人工生成的总结。在本文中，我们提出了一种新的序列到序列学习模型来解决这些缺陷。关键思想是用另一个损失来补充区别性损失，该损失测量预测的摘要是否保留了与原始视频中相同的信息。为此，我们建议增加一个额外的“回顾性编码器”，嵌入到一个抽象的语义空间的预测摘要的标准序列学习模型。然后将该嵌入与原始视频在相同空间中的嵌入进行比较。直觉是对于视频及其对应的概要，两个嵌入应该彼此接近。因此，我们的方法增加了判别损失的度量学习损失，最大限度地减少这种对之间的距离，同时最大限度地提高不匹配的之间的距离。一个重要的优点是，度量学习损失很容易允许从视频中学习，而无需人工生成摘要。大量的实验结果表明，我们的模型优于现有的大幅度在监督和半监督的设置中。关键词：视频摘要，序列到序列学习1介绍在线视频数据量惊人：每分钟有数百小时的视频被上传到YouTube[2]，Facebook上的视频帖子已经超过了90%，并且根据目前的预测，到2020年，来自在线视频的流量将占所有消费者互联网流量的80%以上。⋆ 在离开德克萨斯大学奥斯汀分校（grauman@cs.utexas.edu）⋆⋆离开你。南加州（feisha@usc.edu）2K. Zhang，K. Grauman和F. 沙抽象语义空间视频嵌入摘要嵌入摘要嵌入视频嵌入视频编码器回顾性编码器解码器总结图1.一、我们方法的概念图。我们的模型由两个部分组成首先，我们使用SEq2 SE q模型来生成摘要。其次，我们引入了一个回溯编码器，它将生成的摘要映射到一个抽象的语义空间，这样我们就可以衡量摘要对原始信息的保留程度视频，即摘要（×）应靠近其原始视频（·），而远离从其他视频（{·，·}）和摘要（{×，×}）。在这个语义空间中，我们推导出基于度量学习的损失函数，并通过以下方式将它们与判别损失相结合：匹配人类生成的摘要和预测的摘要。详情见正文因此，人们对自动视频摘要越来越感兴趣主要目标是缩短视频，同时仍然保留其包含的重要和相关信息。缩短的视频对于交互式使用（例如探索性浏览）、快速索引和匹配（例如响应搜索查询）两者都更方便和有效。为此，常见类型的概要由所选择的帧集合（即，关键帧）[15，19，30，32，40，40，50，63]、片段或子镜头（即，keyshots）[29，34，41，43]。其他格式是可能的[12，14，25，46，51]，虽然他们不是这项工作的重点。摘要的许多方法已被提出和研究。其中，基于监督学习的技术最近获得了显著关注[6，15，18，19，49，54，64与无监督的相比[21，25，26，30，33，34，36，38，43，63]，监督技术明确地最大化自动生成的摘要与人类创建的摘要之间的因此，这些技术通常实现更高的性能度量。特别是，最近将序列到序列学习技术应用于视频摘要的工作已经引入了几个有前途的模型[64，65，38，66，24]。将摘要视为结构化预测问题，这些技术使用流行的长短期记忆单元（LSTM）及其变体[7，17，20]对视频中的长距离依赖性进行建模。关键思想是最大化在摘要中选择哪些帧或子快照的准确性。图2显示了这些建模技术背后的基本概念，我们将其统称为seq2seq。传统的重叠准确度是用于测量所生成的概要有多好的有用替代。然而，它有几个缺陷。一是用于视频摘要3同样强调了所有帧或子镜头上的人和机器总和之间的局部对应。例如，对于足球比赛的视频，虽然在进球后的时刻被认为是正确的，但无论是否包括其他不太关键的事件（在镜头之前或之后）都可能是相当不同的，例如，示出跑过运动场的不同部分的子镜头同样是好的（或坏的）。因此，在摘要中对这些子快照进行建模并不总是有用和必要的。相反，我们应该注意到，这些视频“整体”地保留原始视频中最多的部分和相关信息。采用重叠准确性（并且因此在很大程度上，监督学习技术）的第二个困难是对耗时且劳动密集型的注释过程的需求，这已经成为现有数据集的限制因素，参见图1。[65]。因此，当注释数据稀缺时，监督技术的适用性有限。为了解决这些缺陷，我们提出了一种新的序列学习模型-回顾序列到序列学习（RE-SEq2SE q）。re-SEq2SE q 背后的关键思想是衡量机器生成的摘要在抽象语义空间中与原始视频的相似程度。具体地，当原始视频由se q2 se q模型的编码器组件处理时，编码器输出表示原始视频的语义含义的向量嵌入。然后，我们将解码器的输出（其应当产生期望的概要）传递给回顾性编码器以推断向量嵌入来表示概要的语义含义。如果摘要保留了原始视频中的重要和相关信息，那么我们应该期望两个嵌入是相似的（例如，在欧几里德距离中）。图1示意性地示出了该想法。除了学习如何让用户更接近原始版本之外，我们的现代化产品还将进一步使用不符合规范的数据库或备份。相似性（或距离）的度量与标准损失函数（在SEq2SE q模型中）相结合，该损失函数测量摘要在帧/镜头级别上与人类注释器提供的内容的局部对齐然而，所提出的在抽象语义空间中的相似性的学习提供了额外的益处。由于它不使用任何人工注释，因此我们的测量可以在具有许多“粗”区域的视频上进行计算。这为半监督学习提供了一个自然的基础，我们可以利用大量未标记的视频来增强训练。总而言之，我们的贡献是：（i）一种用于视频摘要的新颖序列学习模型，其通过将人类与模型的输出对齐来组合区别性学习的益处，并且通过将两者紧密地嵌入来将模型的输出与原始视频进行匹配;（ii）一项广泛的实证研究，其证明了所提出的方法在几个基准数据集上的有效性。并强调了使用未标记数据来提高摘要性能的优点。4K. Zhang，K. Grauman和F. 沙2相关工作无监督视频摘要方法主要依赖于手动设计的标准[8，11，21，25，27，30，31，33，34，36，43，45，50，63，67]，例如，重要性、代表性和多样性。此外，辅助线索，如网络图像[21，26，27，50]或视频类别[44，45]也在无监督（弱监督）摘要过程中被利用。视频摘要的监督学习已经取得了重大进展[6，15，18，19，64]。框架的任务作为一个特殊的情况下，结构化预测，张等人。[65]提出使用序列学习方法，特别是序列到序列模型[7，10，52]，这些模型在其他结构化预测问题中非常成功，例如机器翻译[22，23，35，47，58]，图像或视频字幕生成[55，57，59]、解析[56]和语音识别[4]。序列学习模型的几个扩展已经被研究[24，38，66，68]。 Yang等人[60]和Mahasseni et al. [38]与我们的方法具有某种类似的建模直觉。在他们的作品中，该模型被设计为使得视频精彩部分/摘要（作为序列）可以生成与原始视频类似的另一个（视频）序列。然而，实现这一迫切需要是非常有挑战性的。特别地，从视频到摘要的映射是有损的，使得反向映射几乎不可实现：例如在被丢弃的帧中但从概要帧中丢失的对象不能单独从概要中可靠地恢复。相比之下，我们的模型具有更简单的架构，并且包含更少的LSTM单元（因此更少的参数）;我们的方法只希望人类创建的和预测的概要的嵌入是接近的。它获得了比[38]中报道的更好的结果Zhou等人。 [68]建议使用强化学习来建模选择帧作为摘要的顺序决策过程。虽然有趣，但使用启发式标准设计奖励函数可能与使用无监督方法进行摘要一样具有挑战性。它在[65]的完全监督学习模型中显示出较小的竞争力模型。Zhao等人。 [66]和Ji等人。 [24]都引入了分层LSTM和注意力机制来建模视频。它们集中于最大化几何尺寸区域和几何尺寸之间的对准。我们的方法使用分层LSTM，但进一步结合目标以匹配所生成的摘要和原始视频，即旨在保留原始视频中的重要信息。实验研究证明了这种方法的优越性。3方法我们首先陈述视频摘要任务的设置，介绍符号和（简要地）关于使用LSTM的序列学习的背景[20，39，39]。52，61]。然后，我们详细描述了所提出的回顾性编码器序列到序列（re_SEq2 SE q）方法。该模型通过在解码器的输出上应用额外的编码器来扩展标准的编码器-解码器LSTM并引入新的损失函数。用于视频摘要5x100回溯编码器LSTMLSTMLSTMLSTMLSTMLSTM12LSTMLSTMLSTMLSTM镜头边界视频编码器回顾性编码器解码器LSTMSEQ2SEQre-SEQ2SEQLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMd（h（2），u3）5LSTM图二、我们提出的视频摘要方法。该模型有几个显著的特点。首先，它使用分层LSTM：底层LSTM对由帧组成的镜头进行建模，上层LSTM对由镜头组成的视频进行其次，该模型有一个回溯编码器（绿色），用于计算解码器（红色）输出的嵌入。回溯编码器的训练目标是确保概要输出的嵌入与从原始输入计算的嵌入匹配，参见图1。当量（五）、3.1设置、符号和序列学习模型我们将视频表示为序列X={x1，x2，...，xT}，其中xt，t∈1，...，T是表征视频中第t帧的特征向量。我们通过B={bl，b2，...，bB}来表示视频中的（子）镜头。B个快照中的每一个都引用X的子集合，并且不与其他快照重叠。任务是选择镜头的子集作为概要，表示为Y={yi，yi，…，yi}，其中yi指示概要中的第1个镜头的特征向量显然我们想要LBT。<<地面实况关键镜头被表示为Z={z1，z2，...，zL}。当B未给出时（这在任务的大多数数据集中很常见），我们使用镜头边界检测模型来推断镜头的边界。这会导致地面实况关键镜头中给出的镜头边界与推断的镜头边界我们讨论我们如何处理这个实验的细节和补充。为了清楚起见，我们假设B是已知的，并且在本节中给出序列学习长短期记忆（LSTM）是一种特殊的递归神经网络，擅长于对长距离依赖关系进行建模。它们已被用于建模时间（和顺序）数据非常成功[13，20，61]。LSTM具有随时间变化的存储器状态变量ct和输出变量ht。这些变量的值取决于当前输入、过去输出和内存状态。我们在本文中使用的基本LSTM单元的详细信息记录在Suppl.[16，65]。SEq2SE q通常由一对LSTM组成-编码器和解码器-它们被组合以执行序列转导[3，55]。具体地，编码器顺序地（或以任何预定义的顺序）读取输入序列{x1，x2，...，xT}，并且计算隐藏状态序列H={h1，h2，...，hT}。6K. Zhang，K. Grauman和F. 沙不t−10B步骤t处的每个隐藏状态ht馈送到（t+1）处的下一步骤。最后的隐藏状态hT馈送到解码器中。解码器类似于编码器，除了两个变化：（1）解码器有自己的隐藏状态序列V={v1，v2，...，vL};（2）解码器不具有外部输入。相反，它在步骤（l + 1）的输入（即它的xt版本）现在是它自己在步骤l的输出，givenbyyyl=g （yl-1 ，vl）。不仅函数（·），而且编码器/解码器中的其他参数都是从数据中学习的。图2示出了这些步骤，尽管是在分层LSTM的上下文中。3.2回溯编码器序列到序列（re-seq2seq）我们提出了几个重要的扩展，原来的SEq2SE q模型：分层建模的帧和镜头，和新的损失函数的培训。如[42，66，55]中所示，用于LSTMmodeling的视频的理想长度小于100帧可指定LS TM的能力，以根据g范围依赖性进行modeling因此，对长视频进行建模具有挑战性。为此，我们利用视频中的分层结构[66]来捕获更长时间跨度的依赖关系。如图2，有两个由LSTM单元组成的编码器层，分别用于建模帧和镜头。第一层负责在帧级建模并产生当前镜头中所有帧的表示。然后将该表示作为输入馈送到第二LSTM层。然后，第二层的最终输出被视为整个视频的嵌入，因为它组合了来自所有镜头的所有信息。具体地，对于第一层LSTM，输入是xt，即针对该帧的特征向量。如在图b中所示，该层的LSTM单元的隐藏状态是h（1），通过在当前特征x t和先前隐藏状态h（1）上进行计算来编码从镜头边界的开始的所有帧。当p作为所述镜头的结尾且在边界上时，我们不将LSTM单元的最终隐藏形式定义为的LSTM单元内存（1）和内部隐藏数据（1）是一个存储操作t t0h（1），它们在我们的模型中都是零向量（也可以学习它们）。在处理完所有帧之后，我们有一个编码序列S={sb}对于b=1，2，···，B.我们在S上构造另一个LSTM层。隐状态这一层的值由h（2）表示。特别重要的是h（2）这是BB被认为是整个视频的编码矢量（一个也可以介绍更多的层用于更细粒度的建模[9]，我们将其留给未来的工作。解码器层类似于标准非分层LSTM中的解码器层（参见。图2）的情况。它没有任何输入（除了h（2）初始化第一个LSTM层中的单元），并且其输出由y1表示，其中1= 1， 2，...，L。它的隐藏状态用vl表示，它是前一个隐藏状态vl−1和输出yl−1的函数。输出yl被参数化为vl的函数。用于匹配摘要的回归损失函数在视频摘要的监督学习中，我们最大限度地提高了特定用于视频摘要72BB选择帧/子快照。为此，可以将解码器的输出设置为二进制变量，并使用交叉熵损失函数，参见。[65]有关详细信息然而，在我们的模型中，我们打算将输出视为缩短的视频序列，并将y1视为（镜头的）视觉特征向量。因此，交叉熵损失函数不适用。相反，我们提出以下回归损失ΣL摘要=我yl−gl其中gl是对应于地面实况概要Z中的第l个镜头的目标向量。假设该镜头对应于镜头序列B中的第bl个镜头，其中bl在1和B之间。然后，我们将gl合成为两个向量的级联：（1）如由第一LSTM层计算的第b1个镜头的编码，以及（2）第b1个镜头内的帧级向量的平均值。Weusex´bl 让你不去想它你给我的快乐gl=[sbl x¯bl]。（二）这种形式的gl是重要的。虽然目标是生成与镜头的编码紧密匹配的输出，但是我们可以获得平凡的解决方案，其中LSTM学习将镜头编码为恒定向量并且输出恒定向量或作为最小向量。在学习中，在向量空间中计算向量的路径有效地消除了琐碎的摘要和原文的嵌入匹配我们建模背后的直觉是，输出应该传达与输入相同的信息量。总结一下，这正是我们的目标：一个好的摘要应该是这样的，用户在观看了摘要之后，将获得与他们观看了原始视频时相同的信息量。如何测量和表征原始序列和摘要中传达的信息量？回想一下，关于编码器LSTM的基本假设是它们将它们的输入的语义信息压缩成语义嵌入，即h（2），最终隐藏状态4。类似地，如果我们将另一个编码器添加到解码器输出Y，则这个新的编码器也应该能够将其压缩成具有其最终隐藏状态uL的语义嵌入。图2示出了新的re_SE_q2_SE_q模型结构。为了了解这一“恢复正常”的编码，我们使用以下日志MATc H=（三）B2针对不匹配摘要和原始摘要的对比嵌入我们可以通过添加4否则，我们不会期望h（2）能够生成摘要到开始。8K. Zhang，K. Grauman和F. 沙B惩罚不匹配对的惩罚项=Σ[m+MISMATcHh′BL2L2个以上+Σ[m+h（2）−u2−h（2）−u′2]、（四）中文（简体）u′其中h’（或u’）是来自除h（2）之外的视频（或除uL之外的概要）的镜头级LSTM层（或重新编码器LSTM层）中的隐藏状态。m>0是一个极大值，并且[·]+=max（0，·）是一个极大值功能本质上，这个损失函数旨在将不匹配的摘要和视频分开最终训练目标我们通过平衡不同类型的损失函数来训练模型=其中λ和η是折衷参数。请注意，MATcH和MISMATcH都不需要人工注释的摘要。因此，它们也可以用于合并未注释的视频数据，这些数据与计算视频摘要的注释数据我们的实证结果将表明，使用这两个损失项的学习明显改善了仅使用判别损失的学习。MATcH和特别地，我们将总和和视频都转换为向量（通过一系列编码器/解码器LSTM），并在该抽象语义空间中执行度量学习。然而，与传统的度量学习方法不同，我们还需要学习推断结构化对象（即帧序列在我们的实证研究中，我们使用标准的LSTM单元。所有LSTM单元的隐藏单元的维数是256。所有LSTM参数都是随机初始化的，在[−0]中具有均匀分布。05，0。05]。这些模型被训练为与Adam [28]收敛，初始学习率为4e- 4，minibatch大小为10。所有实验都在单个GPU上进行。请参阅补充说明。的双曲余切值。4实验我们首先在第4.1节中介绍实验设置（数据集、特征、指标）。然后，我们提出了主要的定量结果，在监督学习设置，以证明所提出的方法的优势，在第4.2节中的现有方法。我们在第4.3节中进一步验证了半监督设置我们在第4.4节和第4.5节中进行了消融研究并用于视频摘要94.1设置我们在3个数据集上进行评估。前两个已被广泛用于基准总结任务[24，38，65，68]：SumMe [19]和TVSum [50]。SumMe由25个用户视频组成，包括假期和体育等各种活动。TVSum包含从YouTube下载的10个类别的50个视频两个数据集都为每个视频提供多个用户注释的摘要。在[65]之后，我们还使用Youtube [11]和开放视频项目（OVP）[1，11]作为辅助数据集来增强训练数据。我们使用相同的特征集，即每个帧xi由 GoogLeNet [53]的倒数第二层（池 5）的输出表示（ 1024维）。正如[65]所指出的，有限的注释数据限制了监督学习技术的适用性。因此，我们专注于如在该工作和其他后续工作5中的增强设置（如果没有以其他方式指定）。在这个设置中，20%的数据集用于评估，20%用于验证（在我们的实验中），另外60%与辅助数据集相结合进行训练。我们调整超参数，例如λ和η，w.r.t.验证集上的性能。我们还在第三个数据集VTW [62]上展示了我们的模型，该数据集是大规模的，最初是为了视频精彩部分检测而提出的。在[66]中，通过将突出部分转换为关键镜头来重新定位视频摘要。VTW收集用户生成的视频，这些视频大多比SumMe和TVSum中的短。数据集被分成1500个用于训练的视频和500个用于测试的视频，如[66]所示。我们还没有能够确认分裂的细节，所以我们在本文中的结果是不直接可比的，他们的报告。镜头边界生成如第3节所述，每个视频的镜头边界都需要用于训练和测试。然而，实验中使用的数据集都没有用地面实况拍摄边界注释：VTW仅针对关键点进行注释，SumMe由多个用户针对关键点进行注释，并且TVSum由固定长度间隔（2秒）进行注释。为此，我们使用另一个不相交的数据集CoSum [8]训练单层LSTM进行镜头边界检测。CoSum有51个带有人类注释的镜头边界的视频。LSTM有256-dim隐藏单元，以4 e-4的学习率训练了150个epoch。然后，我们对任何新视频的预测进行最佳阈值由验证集上的汇总性能确定。有关镜头边界检测的详细信息，请参阅补充说明。评估鉴于这些数据集中的异构视频类型和摘要格式，我们遵循[65，66]中概述的程序来准备训练，验证和评估数据。特别地，我们将关键镜头的总持续时间的阈值设置为原始视频长度的15%（对于所有数据集），遵循[19，50，66]中然后我们将生成的摘要A与用户进行5Zhao等人。[66]使用更大的数据集MED [45]来增强训练，这导致了更大数量的视频（235），而不是[65，24，38，68]中的154个视频。由于他们的代码不可用，我们根据他们的论文重新实现了他们的方法，并在与我们和其他人相同的设置中进行了实验10K. Zhang，K. Grauman和F. 沙表1. 各种监督视频摘要方法在三个数据集上的性能（F分数）。发布的结果用斜体表示;我们的实现用普通字体表示。λ和η的非零值表示我们模型中相关项的贡献。SumMe TVSum VTWdppLSTM [65]42.959.644.3[38]第三十八话43.661.2-DR-DSN [68]43.959.8-H-RNN [66]43.661.546.9SEq2SE q（仅帧）40.856.3-re-SEq2SE q（λ = 0，η =0）43.261.945.1re-SEq2SE q（λ =λ*，η=η*）44.963.948.0总结B用于评估，通过计算精确度（P）和召回率（R），根据两者之间的时间重叠，以及它们的调和平均F分数[18，19，50，65，38，66]。分数越高越好。请参阅补充说明。有关性能和评估的详细信息以及用户摘要。4.2监督学习结果在表1中，我们将我们的方法与用于视频摘要的几种最先进的监督方法进行了我们在表中报告了已发表的结果以及我们实施[66]的结果。只有最好的变种的所有方法被引用和介绍。我们已经实现了强基线reseq2seq（λ= 0，η = 0），用目标函数eq训练。(5)在第3节中描述。此基线不同于[65]中基于LSTM的SEq2SE q模型，其中模型是基于帧的，我们称之为SEq2SE q（仅帧）。RE-SEQ2seq（λ= 0，η = 0）具有分层建模的优点。最优的λ*和η* 在验证集上调整，并且λ*= 0。1，0。1，0。2且η*= 0。15，0。1，0。2分别用于SumMe、TVSum和VTW。带有红色数字的单元格表示每列中性能最好的方法。主要结果我们的方法re-SEq2SE q（λ=λ*，η=η*）性能最好在所有3个数据集上。分层建模显然是有利的，通过我们所有模型变体的性能和[66]证明。我们的模型re-SEq2SE q（λ=0，η= 0）比[66]稍差，很可能是因为我们使用回归作为汇总损失，而他们使用交叉熵。注意，为了在我们的模型中包含匹配和失配损失，需要回归损失，参见。等式（5）。结合追溯编码器损失的优点被清楚地证明。4.3半监督学习结果接下来，我们进行实验，以表明该方法可以ben-efit从未标记和标记的视频数据。对于标记数据，我们使用与增强设置中相同的训练集和测试集，即 OVP + Youtube +用于视频摘要11表2. 在半监督学习设置中TVSum数据集上的F分数。 n表示用于训练的未注释视频的数量n= 0n= 150n= 500n= 1000n= 1500n= 1800预训练63.964.164.464.564.764.9联合训练64.164.764.965.165.2表3.我们的模型在不同类型的镜头边界下的性能。SumMe TVSumre-SEq2SE q （λ= λ*，η= 0）w/KTS44.562.8re-SEq2SE q （λ= λ*，η= 0）w/LSTM44.663.0re-SEq2SE q （λ= λ*，η= η*）w/KTS44.863.6re-SEq2SE q （λ= λ*，η= η*）w/LSTM44.963.9分别为SumMe + 80%TVSum和20%TVSum。对于未标记的数据，我们从VTW数据集中随机采样n个视频，并忽略它们的注释。我们研究了两种可能的半监督训练方法：(1) 预训练：未标记的数据被用于预训练RE-SEQ2SEQ，以仅最小化MATCH和MISMATCH。预先训练的模型进一步用标记的训练数据进行微调，以最小化eq. （五）、(2) joint-training：我们用标记的训练数据和未标记的数据联合训练模型：我们最小化Eq。(5)对于标记数据，最小化MATcH和MISMATcH。请注意，测试集仅用于测试，并且在训练期间不用作标记或未标记的数据，这与转导设置不同[38]。结果示于表2中。总的来说，预训练和联合训练都比监督学习有所改进，联合训练在更多未标记数据的情况下似乎稍好一些。结果也令人鼓舞，表明更多的未标记数据可以帮助改善更多。表4. SumMe和TVSum上的转导设置的性能。SumMe TVSum[38]第三十八话43.661.2re-SEq2SE q（λ =λ*，η=η*）45.565.44.4消融研究镜头边界在基于关键镜头的摘要方法中起着重要的作用。在本文中，我们学习了LSTM来推断镜头边界，而在[65]中，应用了无监督镜头边界检测方法KTS表3报告了我们的模型与镜头边界12K. Zhang，K. Grauman和F. 沙表5.所提出的方法在λ和η的不同选择下的性能SumMe TVSum VTWre-SEq2SE q（λ = 0，η =0）43.261.945.1re-SEq2SE q（λ =λ*，η=0）44.663.047.7re-SEq2SE q（λ = 0，η=η*）44.663.247.8re-SEq2SE q（λ =λ*，η=η*）44.963.948.0分别由KTS和学习的LSTM生成主要观察结果是更好的镜头边界检测，总体上改善了摘要。为了与[38]进行公平的比较，我们接下来在转导设置中执行我们的模型，其中测试数据包括在计算两个新的损失项MATcH和MISMATcH中。结果示于表4中，并且它们明显强于监督设置中的那些（表1）。对于这种情况的一种可能的解释是，我们的模型将视频及其摘要紧密地映射，而从摘要到[38]中的原始视频的重建可能是有损的甚至是无法实现的。每个损失项的贡献表5报告了所提出的方法的实验，其中通过其平衡参数，使用不同的MATc H和MISMATc H组合，即： λ和η。总之，联合最小化两个损失项会在所有数据集上带来最先进的性能此外，损失项的不同组合的性能在3个数据集上是一致的：单独使用MISMATcH与单独使用MATcH相比获得相同或稍好的性能，而组合两者总是获得最佳性能。请参阅补充说明。查看型号详情。其他详细分析见附录我们将附加讨论总结如下。我们表明，我们的方法的摘要获得了与dppLSTM [65]相当的我们还表明，我们的方法优于基于自动编码器的方法[60]。我们进一步分析了我们的方法和最近的作品[48，49]关于以查询为中心的摘要之间的相关性4.5定性结果和分析re-seq2seq与常规seq 2seq有何不同？我们在图中检查了一些示例视频摘要结果。3阐明re-SEq2 SE q的学习目标如何影响摘要结果。我们的方法旨在减少输入视频和输出摘要两者的语义嵌入的差异。当量（五）、为了平衡输出和人工总结之间的匹配需求，我们的方法进行广泛总结是明智的。这将导致视觉特征的全面覆盖，从而增加更多相似嵌入的机会从集中区域选择的相反策略不太可能产生高相似性，因为所选择的帧不太可能提供对原始帧的足够覆盖图3精确地突出了我们的方法所采用的策略。图的视频。3（a）关于自行车游行。RE-SEQ2seq（λ=0，η= 0）概括了视频的中间部分，但是完全错过了开始的重要部分用于视频摘要13图三. 通过re-SEq2 SE q（λ=λ*，η=η*）（蓝色）和re-SEq2 SE q（λ= 0，η = 0）（红色）的示例视频和预测摘要。上面的图片是从视频和底部的视频是从相应的概要中采样的。地面实况重要性分数显示为灰色背景。详情见正文这告诉我们游行实际上是从郊区开始，经过一座桥到市中心。相比之下，re-SEq2SE q（λ=λ*，η=η*）广泛地从视频镜头中选择，其显示出与视频的更好的一致性图3（b），然而，re-SEq2SE q（λ=λ1，η=η2）的表现（略）弱于re-SEq2SE q（λ= 0，η = 0）。这段视频描述了哥本哈根的一场快闪族re_SE_q2_SE_q（λ= 0，η = 0）通过聚焦于其中存在大量人类活动的视频的中间部分而获得更好的F分数，并且能够正确地获得该区域中的主要事件另一方面，与re-SEq2SEq（λ=0，η=0）相比，re-se q2 se q（λ= λ*，η =虽然需要更多的误差分析，但这些初步证据似乎表明，re-SEq2SEq（λ=λ，η=η）对于描绘遵循故事情节的各种场景和活动的视频将很好地工作特别地，它可能不知道“ 隐藏视频 ” ，其中剩余的部分只是分散在大量帧中间的视频的一小部分，其中非必要信息可能在总结时被丢弃。re-seq2seq能在视频和摘要之间产生语义相似的嵌入吗在这里，我们评估如何以及视频和摘要可以嵌入在近距离。这里使用的视频是从TVSum数据集中采样的对于re_SEq2SE q（λ= 0，η = 0），我们将摘要输入到与视频相同的编码器，并获得编码器的输出作为嵌入，并且在re_SEq2SE q（λ=λ*，η=η*）中，我们从回顾性LSTM编码器收集摘要的嵌入然后，我们使用t-SNE [37]来可视化2d空间中的嵌入，如图所示。4.我们使用圆圈来表示视频嵌入，并使用十字表示摘要嵌入。每个视频摘要对由相同的颜色标记。14K. Zhang，K. Grauman和F. 沙(a) re-SEq2SE q（λ=0，η=0）（b）re-SEq2SE q（λ=λ*，η=η*）见图4。视频的语义编码（表示为·）及其摘要（表示为×）的t-SNE可视化。对应的对具有相同的颜色。越近越好每个虚线椭圆体指示视频是其在嵌入之后的摘要详情见正文我们可以清楚地观察到，视频及其摘要主要通过 re-SEq2SE q（λ=λ*，η=η*）嵌入得更近4（b））比由re-SEq2SE q（λ=0，η= 0）（图4（a））。特别是由re-SEq2 SE q嵌入的视频（λ=λ*，η=η*）大多数有其相应的和作为最近邻，而在re-SEq2SE q（λ=0，η= 0）中通常不是这种情况。此外，图中还包括视频和视频区域。图 4（a）与图4（b）相比，图4（a）中的值更小。图4（b）示出了不同的视频和概要对，其中不同的视频和概要对彼此相对远离。这表明所提出的方法嵌入了将摘要及其原始视频插入到相似的位置，同时将不匹配的摘要和原始视频推开。5结论我们提出了一种新的序列到序列学习模型的视频摘要，它不仅最大限度地减少了区分损失匹配生成的和目标的摘要，但也嵌入相应的视频和摘要对在一个抽象的语义空间中的紧密接近所提出的方法利用标记和未标记的视频，以获得语义嵌入。在多个数据集上的大量实验结果表明，我们的方法在监督和半监督设置中优于现有的方法。在未来，我们计划探索更微妙的策略，在训练过程中结合未标记的数据，以提高摘要性能。致谢我们感谢审稿人的反馈。 KG获得NSF IIS-1514118和AWS机器学习研究奖的部分支持。其他人部分支持USC研究生奖学金，NSF IIS-1065243，1451412，1513966/1632803/1833137，1208500，CCF-1139148，谷歌研究奖，Alfred P.斯隆研究奖学金，Facebook和Net flix的礼物，以及ARO#W 911 NF-12-1-0241和W 911NF-15-1-0484。用于视频摘要15引用1. 开放视频项目：http://www.open-video.org/2. Youtube统计：电子邮件地址：www.youtube.com/yt/press/statistics.html3. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。载于：ICLR（2015）4. Bahdanau，D.，Chorowski，J.，Serdyuk，D. Brakel，P. Bengio，Y.：端到端基于注意力的大词汇量语音识别。在：ICASSP（2016）5. Bellet，A.，Habrard，A.，Sebban，M.：度量学习人工智能和机器学习综合讲座9（1），16. Chao，W.L.，Gong，B.，格劳曼K.Sha，F.：大边缘行列式点流程.在：UAI（2015）7. Cho，K.， VanMerrr riénboer，B.， Gul c ehre，C.， Bahdanau，D. ，Bou gares，F.，Schenk， H.，Bengio，Y.：使用rnn编码器-解码器学习短语表示用于统计机器翻译。02 The Dog（2014）8. Chu，W. S.，Song，Y.，Jaimes，A.：视频共同总结：视频摘要视觉上的共同出现。参见：CVPR（2015）9. Chung ， J. Ahn ，S. ， Bengio ，Y. ：分层多尺度递归神经网络。 02 The Dog（2016）10. Dai，A.M.，Le，Q.V.：半监督序列学习。In：NIPS（2015）11. DeAvila，S. E. F.、 Lopes，A. P. B、 daLuz，A.， deAlbuquerqueArau'jo，A. ：Vsumm ：设计用于产生静态视频摘要的机制和新颖的评估方法。 PatternRecognition Letters32（1），5612. Furini，M.，Geraci，F.，Montangero，M.，Pellegrini，M.：专辑中文名：Still and MovingWeb场景的视频故事板。Multimedia Tools and Applications 46（1），47 -69（2010）13. Gers，F.A. Schmidhuber，J.，康明斯，F.：学会忘记：用lstm进行连续预测。神经计算12（10），245114. 戈德曼，D. B.Curless，B.，Salesin，D.，Seitz，S.M.：的示意性故事板视频可视化和编辑。ACM Transactions on Graphics 25（3），862-871（2006）15. Gong，B.，Chao，W.L.，格劳曼K. Sha，F.：多样序贯子集选择用于监督视频摘要。在：NIPS（2014）16. 格雷夫斯，A.，Jaitly，N.：使用递归神经网络进行端到端语音识别In：ICML（2014）17. 格雷夫斯，A.，Schmidhuber，J.：使用双向lstm和其他神经网络架构的逐帧音素分类。神经网络18（5），602-610（2005）18. Gygli，M.，Grabner，H.，Van Gool，L.：通过学习目标的子模混合物的参见：CVPR（2015）19. Gygli，M.，Grabner，H.，Riemenschneider，H.，Van Gool，L.：从用户视频创建摘要。In：ECCV（2014）20. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算9（8），1735-1780（1997）21. 洪河唐，J.，香港谭Yan，S.，Ngo，C.，Chua，T.S.：用于网络视频的事件驱动的总结在：SIGMM研讨会（2009）22. Jean，S.，周，K.，Memisevic，R.，Bengio，Y.：使用非常大的目标词汇进行神经机器翻译。In：ACL（2015）23. Jean，S.，菲拉特岛周，K.，Memisevic，R.，Bengio，Y.：蒙特利尔神经机器翻译系统wmt15。电影WMT（2015）16K. Zhang，K. Grauman和F. 沙24. 吉志Xiong，K.，彭，Y.，李X：使用基于注意力的编码器-解码器网络的视频摘要。ArXiv预印本（2017）25. Kang，H.W.，Matsushita，Y.，唐，X.，C

下载后可阅读完整内容，剩余1页未读，立即下载