全卷积序列网络在视频摘要中的应用

141 浏览量更新于2023-10-15 收藏 941KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

全卷积序列网络Mrigank Rochan[0000 - 0001 - 9513 - 6573]，叶林伟[0000 - 0002 - 7375 - 452X]，王阳[0000- 0001 - 9447 - 1791]曼尼托巴大学，温尼伯MB R3T 2N2，加拿大{mrochan，yel3，ywang}@ cs.umanitoba.ca抽象。本文研究了视频摘要的问题。给定输入视频，目标是选择帧的子集来创建最佳地捕获输入视频的重要信息的摘要视频。随着大量的视频在线可用，视频摘要提供了一个有用的工具，协助视频搜索，检索，浏览等。在本文中，我们制定视频摘要序列标记问题。与现有的方法，使用回流模型，我们提出了完全卷积序列模型来解决视频摘要。我们首先建立了一个新的语义分割和视频摘要之间的联系，然后适应流行的语义分割网络的视频摘要。在两个基准数据集上的大量实验和分析证明了我们的模型的有效性。关键词：视频摘要·全卷积神经网络·序列标记1介绍随着视频捕获设备的日益普及和成本的降低视频已经成为最重要的视觉数据形式之一。由于视频数据量庞大，人类观看这些视频并识别有用信息是不现实的。根据2017年思科视觉网络指数[1]，预计到2021年，一个人将需要大约500万年的时间才能观看每个月上传到互联网上的所有视频！因此，开发能够有效浏览大量视频数据的计算机视觉技术变得越来越重要特别是，视频摘要已经成为一个有前途的工具，以帮助应付大量的视频数据。给定输入视频，视频摘要的目标是创建捕获输入视频的重要信息的较短视频。视频求和在许多现实世界应用中可以是有用的例如，在视频监控中，人类浏览由监控摄像机捕获的许多小时的视频如果我们能提供一个短2Mrigank Rochan、Linwei Ye和Yang Wang摘要视频从长视频中捕捉重要信息，将大大减少视频监控所需的人力。视频汇总还可以在视频搜索、检索和理解中提供更好的用户体验。由于短视频更容易存储和传输，因此它们对移动应用程序很有用。摘要视频还可以帮助许多下游视频分析任务。例如，运行任何其他分析算法（例如，动作识别）。在本文中，我们认为视频摘要的关键帧选择问题。给定一个输入视频，我们的目标是选择帧的子集来形成摘要视频。等效地，视频摘要也可以被公式化为序列标记问题，其中每个帧被分配二进制标签以指示其是否在摘要视频中被选择。当前最先进的方法[40，24]将视频摘要视为序列标记问题，并使用称为长短期记忆（LSTM）[11]的递归神经网络LSTM模型中的每个时间步对应于输入视频中的一帧在每个时间步，LSTM模型输出指示该帧是否在概要视频中被选择的二进制值。LSTM的优势在于它可以捕获帧之间的长期结构依赖关系。但是这些基于LSTM的模型有其固有的局限性。LSTM中的计算通常是从左到右的。这意味着我们必须一次处理一帧，并且每一帧都必须等待，直到前一帧被处理。尽管存在双向LSTM（Bi-LSTM）[31]，但Bi-LSTM的任一方向上的计算仍然存在相同的问题。由于这种顺序性质，LSTM中的计算无法轻松并行化以充分利用GPU硬件。在我们的工作中，我们提出了完全卷积模型，可以同时处理所有我们的模型部分受到动作检测，音频合成和机器翻译方面的一些最新工作[17，7，3]的启发，这些工作表明卷积模型可以优于递归模型，并且可以充分利用GPU并行化。在本文中，我们建议使用全卷积网络的视频求和marization。全卷积网络（FCN）[22]已广泛用于语义分割。与视频摘要相比，语义分割是计算机视觉中一个更广泛的研究课题传统上，视频摘要和语义分割被认为是计算机视觉中两个完全我们的见解是，这两个问题实际上有很多相似之处。在语义分割中，输入是具有3个颜色通道（RGB）的2D图像。语义分割的输出是具有与输入图像相同的空间维度的2D矩阵，其中2D矩阵的每个单元指示图像中的对应像素的语义标签。在视频摘要中，让我们假设每个帧被表示为K维向量。这可以是原始像素值的向量或预先计算的特征向量。然后，视频摘要的输入是具有K个通道的1D图像（在时间维度上）。输出是具有与输入视频相同的长度的1D矩阵，其中每个元素指示该1D矩阵是否是输入视频。全卷积序列网络3图像000000010002110022120222200002标签语义分割视频概要视频标签0110110010Fig. 1.视频摘要和语义分割之间的关系的说明。（左）在视频摘要中，我们的目标是从输入视频中选择帧以生成摘要视频。这相当于为视频中的每个帧分配二进制标签（0或1），以指示该帧是否被选择用于摘要。这个问题与语义分割（右）有密切的联系，其目标是用其类别标签标记图像中的每个像素。为概要选择对应的帧。换句话说，虽然语义分割和视频摘要是两个不同的问题，但它们仅在输入的维度方面有所不同（2D与3D）。1D）和通道数量（3与K）。图1说明了这两个任务之间的关系。通过建立这两个任务之间的联系，我们可以直接利用语义分割模型，并将其用于视频摘要。在在本文中，我们基于流行的语义分割模型（如FCN [22]）开发了视频摘要方法。我们称之为全卷积序列网络（FCSN）。FCSN适用于视频摘要，这有两个重要原因。首先，FCSN由卷积堆栈组成，其有效上下文大小随着我们在网络中的深入而增长（尽管开始时较小）。这允许网络对视频摘要所必需其次，FCSN是完全卷积的。与LSTM相比，FCSN允许更容易地对输入帧进行并行化。本文的贡献是多方面的。(1)据我们所知，我们是第一个提出完全卷积模型的视频求和。(2)我们建立了一个新的连接两个看似无关的问题，即视频摘要和语义分割。然后，我们提出了一种方法，以适应流行的语义分割网络的视频总结。（3）我们提出了监督和无监督的全卷积模型。（4）通过在两个基准数据集上的大量实验，我们表明我们的模型达到了最先进的性能。2相关工作给定输入视频，视频摘要旨在产生捕获视频中的重要信息的缩短版本。针对该问题提出了各种表示，包括视频概要[30]、时间间隔[12，16，28]、蒙太奇[13，35]和故事板[8我们的工作是4Mrigank Rochan、Linwei Ye和Yang Wang大多数与故事板相关，故事板选择几个代表性的视频帧来概括整个视频中存在的关键事件。基于故事板的求和具有两种类型的输出：关键帧[8，18，21]，其中选择某些隔离帧以形成概要视频;以及关键镜头[9，10，24，39，40]，其中考虑时隙内的一组相关的连续帧以用于概要生成。视频摘要的早期工作主要依赖于手工制作的摘要。这些方法中的大多数是无监督的。他们定义了各种启发式方法来表示帧的重要性或代表性[14，15，18，23，26，34，27]最近的工作已经探索了用于视频摘要的监督学习方法[8这些方法使用由人类生成的视频及其地面实况摘要组成的训练数据这些有监督的学习方法往往优于无监督方法的早期工作，因为它们可以隐式地学习人类用来生成摘要的高级语义知识。最近，深度学习方法[40，24，32]在视频摘要中越来越受欢迎与我们最相关的工作是使用诸如LSTM [11]的再流模型的方法。使用LSTM的直觉是有效地捕获视频帧之间的长程依赖关系，这对于有意义的摘要生成至关重要。Zhang等人[40]将视频求和任务视为对顺序数据的结构化预测问题，并使用两个LSTM对可变范围依赖性进行建模。一个LSTM用于前向方向的视频它们通过结合决定点过程模型[8，39]进一步提高了子集选择的多样性。Mahasseni等人[24]提出了一个由摘要器和判别器组成的无监督生成对抗框架。摘要器是一个变分自动编码器LSTM，它首先选择视频帧，然后解码输出以进行重建。鉴别器是一个学习区分输入视频及其重建的LSTM网络。他们还通过引入关键帧正则化将他们的方法扩展到监督学习。与这些基于LSTM的方法不同我们的工作是第一个使用完全卷积模型来解决这个问题。3我们的方法在本节中，我们首先描述问题公式化（Sec.第3.1节）。然后，我们介绍我们的全卷积序列模型和学习算法（Sec. 3.2）。最后，我们提出了一个扩展的基本模型，用于视频摘要的无监督学习（第二节）。3.3）。3.1问题公式化先前的工作已经考虑了视频求和中的两种不同形式的输出：1）二进制标签; 2）帧级重要性分数。二进制标签输出全卷积序列网络5通常称为关键帧[5，8，25，40]或关键帧[9，10，29，34，40]。关键帧由一组被选择用于摘要的非连续帧组成，而关键镜头对应于视频中的一组时间间隔，其中每个间隔由一组连续的帧组成帧级重要性分数[9，34]指示应该选择帧用于摘要的可能性现有的数据集具有以这两种形式中的至少一种形式可用的地面实况注释。虽然帧级分数提供了更丰富的信息，但实际上更容易收集二进制标签方面的注释。甚至可以从在线编辑的视频内容自动收集二进制标签注释。例如，如果我们可以访问专业编辑的摘要视频及其相应的原始视频，我们可以在帧上以二进制标签的形式自动创建注释。在本文中，我们专注于学习视频摘要只有二进制标签为基础的（特别是，基于关键帧）的注释。让我们考虑具有T帧的视频。我们假设每个帧已经被预处理（例如，通过预训练的CNN）并表示为特征向量。我们将视频中的帧表示为{F1，F2，F3，其中Fi是特征第t个（t ∈ {1，2，.，T}）帧。我们的目标是分配对T个帧中的每一个帧的二进制标记（0或1）。摘要视频通过组合标记为1的帧来获得（参见图1）。①的人。我们假设访问视频的训练数据集，其中每个帧都有一个地面实况二进制标签，指示是否应该在摘要视频中选择该帧。3.2全卷积序列网络我们的模型受到语义分割中使用的全卷积模型的启发。我们的模型具有以下属性。1)语义分割模型使用图像中的2D空间位置上的2D卷积。相比之下，我们的模型在时间序列域上应用1D卷积。2)与用于视频摘要的LSTM模型[40]不同，该模型以序列的方式处理帧。我们的模型使用卷积运算同时处理所有帧。3)语义分割模型通常使用编码器-解码器架构，其中图像首先由编码器处理以提取特征，然后解码器用于使用编码的特征来产生分割掩码。类似地，我们的模型也可以被解释为编码器-解码器架构。编码器被用于处理帧以提取高-层次语义特征和帧间长期结构关系信息，而解码器用于产生0/ 1标签序列。我们称我们的模型为全卷积序列网络（FCSN）。我们的模型主要包括时间模块，如时间卷积，时间池，时间反卷积。这类似于语义分割模型中常用的模块，诸如2D卷积、2D池化、2D去卷积。由于视频摘要和语义分割之间的潜在关系，我们可以很容易地借用网络架构从现有的语义分割模型时，设计FCSN视频摘要。在本节中，我们将描述FCSN6Mrigank Rochan、Linwei Ye和Yang Wang基于流行的语义分割网络，即FCN [22]。我们将此FCSN称为SUM-FCN。重要的是要注意，FCSN当然不限于这种特定的网络架构。我们可以将几乎任何现有的语义分割模型转换为FCSN视频摘要。SUM-FCN：FCN [22]是一种广泛使用的语义分割模型。在本节中，我们将使用FCN（特别是FCN-16）来执行视频摘要任务。我们称之为SUM-FCN模型。在FCN中，输入是形状为m×n×3的RGB图像，其中m和n分别是图像的高度和宽度输出/预测的形状为m×n×C，其中信道维度C对应于类别的数量。在SUM-FCN中，输入的维度为1×T×D，其中T是视频中的帧数，D是帧的特征向量的维度。 SUM-FCN 的输出尺寸为1×T×C。注意，输出通道的维度是C=2，因为我们需要对应于每个帧的2个类别（关键帧或非关键帧）的分数图2显示了我们的SUM-FCN模型的架构。我们将FCN中的所有空间卷积转换为时间卷积。类似地，空间最大池化和去卷积层被转换为相应的时间对应物。我们组织我们的网络类似于FCN。前五个卷积层（conv1到conv5）由多个时间卷积层组成，其中每个时间卷积后面都是批量归一化和ReLU激活。我们在每个卷积层旁边添加一个时间最大池。conv6和conv7中的每一个视频会议1图二. SUM- FCN的体系结构.它基于流行的语义分割架构FCN[22]。与FCN不同的是，SUM-FCN在一段时间内执行卷积、池化和反卷积操作。由时间卷积组成，然后是ReLU和dropout。我们还有conv8，由1× 1卷积（以产生所需的输出通道），批量归一化和沿时间轴的反卷积操作组成。然后，我们获取池4的输出，应用1× 1卷积和批归一化，然后将其与deconv1特征图合并（按元素添加）这种合并对应于[22]中的跳过连接跳过连接广泛用于语义分割，以将粗层处的特征图与细层处的特征图组合以产生更丰富的视觉特征。我们的直觉是，这种跳过连接在视频摘要中也是有用的，因为它将有助于恢复时间信息。F1F2F3 F4FTconv2conv3conv4conv5conv6conv7conv8解v1deconv2帧特征Conv+BN+ReLU池化去卷积预测全卷积序列网络7频率c′ ′t总结所需的信息。最后，我们再次应用时间反卷积并获得长度T的最终预测。学习：在基于关键帧的监督设置中，类（关键帧与非关键帧）是极不平衡的，因为在概要视频中仅选择输入视频中的少量帧。这意味着，与非关键帧相比，关键帧较少。处理这种类不平衡的常见策略是使用加权损失进行学习。对于第c个类别，我们定义其权重wc=中值频率，其中频率c是具有标签c的帧的数量除以视频中存在标签c的帧的总数，并且中值频率简单地是计算的频率的中值。请注意，这种类别平衡策略也已用于像素标记任务[6]。假设我们有一个T帧的训练视频我们也有一个地面实况二进制标签（即类别数，C = 2）。我们可以定义以下学习损失L和L=− 1ΣTW日志.e x p（φΣt，ct）Σ（一）总和TCTt=1Cc=1 exp（φt，c）其中Ct是第t帧的地面实况标签。φt，c和w，c分别表示将第t帧预测为第c类的得分和类c3.3无监督SUM-FCN在本节中，我们将介绍SUM-FCN模型的扩展我们开发了SUM-FCN的无监督变体（称为SUM-FCNunsup），以从原始视频集合中学习视频直观地说，摘要视频中的帧应该在视觉上是多样的[40，24]。我们利用视频摘要的这一特性来设计SUM-FCNunsup。我们通过明确鼓励模型生成其中所选帧在视觉上多样化的汇总视频来开发SUM-FCNunsup为了加强这种多样性，我们对SUM-FCN的解码器进行以下改变我们首先选择Y帧（即关键帧）。接下来，我们对这些关键帧的解码特征向量应用1×1卷积，以重建其原始特征表示。然后，我们使用跳过连接合并这些所选Y关键帧的输入帧级特征向量最后，我们使用1× 1卷积来获得Y个关键帧的最终重构特征，使得每个关键帧特征向量与其对应的输入帧级特征向量具有相同的维度。我们使用排斥正则化器[42]Ldiv来强制所选关键帧之间的多样性。我们将Ldiv定义为所选Y个关键帧之间的成对相似度的平均值：Ldiv=1ΣΣ|（|Y |− 1）"|− 1)′′fTft′d（ft，ft），其中（ft，ft）=ft（二）t∈Yt∈Y，t/=t8Mrigank Rochan、Linwei Ye和Yang Wang其中是帧t的重构特征向量。理想地，帧的不同子集将导致Ldiv的较低值。我们还介绍了一个重建损失L重建计算的平均值重构特征与关键帧的输入特征向量之间的平方误差。SUM-FCNunsup的最终学习目标变为Ldiv+Lrecon。由于此目标不需要地面实况摘要视频，因此SUM-FCNunsup是一种无监督方法。值得注意的是，SUM-FCN将在一定程度上隐含地实现多样性，因为它是受监督的。SUM-FCN学习模仿地面实况人类注释。据推测，地面实况概要视频（由人类注释）在所选择的帧之间具有多样性，因为人类不太可能将两个非常相似的帧注释为关键帧。4实验在本节中，我们首先介绍第二节中的数据集。4.1.然后，我们将在第2节中讨论实现细节和设置四点二。最后，我们提出的主要结果在Sec。4.3和第2节中的附加消融分析。4.44.1数据集我们在两个基准数据集上评估我们的方法：[9]和TVSum [34]。SumMe数据集是25个视频的集合，其涵盖各种事件（例如，运动、假期等）。SumMe中的视频长度为1.5至6.5分钟TVSum数据集包含10个不同类别的50个YouTube视频（例如，制作三明治，狗展，更换汽车轮胎等）。TRECVid多媒体事件检测（MED）任务[33]。此数据集中的视频长度通常为1到5分钟。由于使用小的注释数据集训练深度神经网络是困难的，因此先前的工作[40]已经提出使用额外的视频来增强数据集。在[40]之后，我们使用来自 YouTube 数据集 [5] 的 39 个视频和来自开放视频项目（OVP）数据集[5，2]的50个视频来增强训练数据。在YouTube数据集中，有由新闻，体育和卡通组成的视频在OVP数据集中，存在不同流派的视频，诸如文档。这些数据集在本质上是不同的，并带有不同类型的注释。我们在SEC讨论。4.2关于我们如何处理不同格式的地面实况注释。4.2实施细节和设置特点：在[40]之后，我们统一将视频降采样到2 fps。接下来，我们将预训练的GoogleNet [36]中的池5层的输出作为每个视频帧的特征描述符这个特征描述符的维数是1024。请注意，我们的模型可以用于任何特征表示。我们甚至可以将我们的模型与基于视频的特征（例如，C3D [37]）。我们使用GoogleNet全卷积序列网络9这些特征主要是因为它们在以前的工作中使用[40，24]，并且将允许在实验中进行公平比较。地面实况：由于不同的数据集提供了地面实况注释在各种格式中，我们遵循[8，40]来为数据集中的每个视频生成单组地面实况关键帧（孤立帧的小子集这些基于关键帧的摘要用于训练。为了与最先进的方法进行公平的比较（参见下面的评估），我们需要在最终生成的预测和测试视频的地面实况注释中以关键镜头（基于帧的间隔子集[9，10，40]）的形式进行总结对于SumMe数据集，地面实况注释以关键帧的形式提供，因此我们直接使用这些地面实况摘要进行评估。但是，TVSum数据集中缺少关键帧注释TVSum提供由多个用户注释的帧级重要性分数。为了将重要性分数转换为基于关键镜头的摘要，我们遵循[40]中的过程，其包括以下步骤：1）使用KTS[29]在时间上分割视频以生成不相交的间隔; 2）计算平均间隔得分并将其分配给间隔中的每个帧; 3）对帧进行排序根据他们的分数来播放视频; 4）应用背包算法[34]来选择帧，使得总长度低于特定阈值，这导致该视频的基于关键镜头的地面实况摘要。我们使用这种基于关键镜头的注释通过选择具有最高重要性分数的帧来获得用于训练的关键帧[40]。注意，基于关键帧的概要和基于关键镜头的概要都被表示为长度等于视频中的帧的数量的0/ 1向量这里，标签0/ 1表示在概要视频中是否选择了帧。表1示出了地面实况（训练和测试）注释及其针对不同数据集的转换。表1.在训练和测试不同数据集期间使用的地面实况（GT）注释。‡我们将来自多个用户的帧级重要性分数转换为单个关键帧，如[34，40]所示†我们遵循[40]将多个帧级分数转换为关键帧。§在[8，40]之后，我们为每个视频生成一组关键帧请注意，YouTube和OVP数据集仅用于补充训练数据（如[40，24]），因此我们不会在它们数据集#注释培训GT测试GTSumMe15-18帧级分数‡关键镜头TVSum20帧级分数‡帧级分数†YouTube5关键帧§-OVP5关键帧§-训练和优化：我们在训练期间使用基于关键帧的地面实况注释。我们首先将每帧的视觉特征连接起来。对于一个T帧的视频，我们将有一个维度为1×T× 1024的输入到神经网络。我们还从每个视频中统一采样帧，例如10Mrigank Rochan、Linwei Ye和Yang Wang我们最终得到T= 320这种采样类似于语义分割中的固定大小裁剪，其中训练图像通常被调整大小以具有相同的空间大小。请注意，我们提出的模型SUM-FCN也可以有效地处理更长和可变长度的视频（参见第2节）。4.4）。在训练过程中，我们将学习率设置为10 −3，动量设置为0。9，批量大小为5。除了使用预训练的GoogleNet来提取帧特征之外，网络的其余部分使用随机梯度下降（SGD）优化器进行端到端训练。测试：在测试时，将具有T= 320帧的均匀采样的测试视频转发到训练模型以获得长度320的输出。然后，使用最近邻将该输出缩放到视频的原始长度。为了简单起见，我们使用此策略来处理测试视频。但由于我们的模型是完全卷积的，因此它并不局限于视频长度的这种特定选择。节中4.4，我们尝试将视频采样到更长的长度。我们还尝试直接操作原始非采样（可变长度）视频。4.4我们遵循[40，24]将预测的关键帧转换为关键镜头，以便我们可以与其他方法进行公平的比较。我们首先应用KTS[29]将测试视频暂时分割成不相交的间隔。接下来，如果一个间隔包含一个关键帧，我们将该间隔中的所有帧标记为1，并将没有关键帧的间隔中的所有帧标记为0。这将生成视频的基于关键帧的为了最小化生成的关键镜头的数量，我们基于间隔中的关键帧的数量除以其长度来对间隔进行排名，并最终应用背包算法[34]以确保生成的基于关键镜头的摘要的长度最大为原始测试视频的15%评估指标：在[40，24]之后，我们使用基于关键镜头的评估指标。对于给定的视频V，假设SO是所生成的概要，并且SG是地面实况概要。我们使用它们的时间重叠来计算精度（P）和召回率（R）P= |SO∩ SG|，R = |SO∩ SG|（三）|SO||SG|最后，我们使用F分数F=（2P×R）/（P+R）×100%作为评估度量。我们遵循[34，10，40]中描述的标准方法来计算具有多个地面实况摘要的视频的度量。实验设置：类似于以前的工作[39，40]，我们在以下三种不同的设置下评估和比较我们的方法。1. 标准监督设置：这是一种传统的监督学习设置，其中训练，验证和测试数据来自同一数据集（使得它们不重叠）。我们随机选择20%用于测试，剩下的80%用于训练和验证。由于数据是随机分割的，因此我们在多个随机分割上重复实验并报告平均F分数性能。2. 增强设置：对于给定的数据集，我们随机选择20%的数据进行测试，剩下的80%用于训练和验证。我们还使用全卷积序列网络11其他三个数据集来增强训练数据。例如，假设我们在SumMe数据集上进行评估，那么我们将有80%的SumMe视频与TVSum，OVP和YouTube数据集中的所有视频相结合进行训练。同样，如果我们在TVSum上进行评估，我们将有80%的TVSum视频与SumMe，OVP和YouTube中的所有视频相结合进行培训。与标准监督设置类似，我们在多个随机分割上运行实验，并使用平均F分数进行比较。通过增加其他数据集来增加训练数据大小的想法在计算机视觉中是众所周知的。这通常被称为数据增强。最近的方法[40，24]表明，数据增强提高了性能。我们的实验结果表明类似的结论。3. 转移设置：这是一个具有挑战性的监督设置，由Zhang等人介绍。[39、40]。在此设置中，不使用来自给定数据集的视频来训练模型。相反，该模型在其他可用数据集上进行训练，并在给定数据集上进行测试例如，如果我们在SumMe数据集上进行评估，我们将使用TVSum，OVP和YouTube数据集中的视频来训练模型然后，我们只使用SumMe数据集中的视频进行评估。类似地，在TVSum上进行评估时，我们将在SumMe，OVP，YouTube上的视频上进行训练，然后在TVSum中进行测试该设置对于实际应用特别如果我们能够在此设置下实现良好的性能，这意味着我们可以在野外执行视频摘要。换句话说，我们将能够为来自我们在训练期间没有任何相关注释视频的领域的视频生成良好的摘要。4.3主要结果和比较我们将我们的方法（SUM-FCN）的性能与表2中的SumMe数据集上的先前我们的方法优于其他国家的最先进的方法由一个很大的利润。表2.不同设置下SumMe数据集上SUM-FCN和其他方法之间的汇总性能（F分数）比较数据集方法标准监督增强转移Gygli等人[9]第一章39.4––Gygli等人[10个国家]39.7––Zhang等人[39]第三十九届40.941.338.5SumMeZhang等人（vsLSTM）37.641.640.7Zhang等人[40]（dppLSTM）38.642.941.8Mahasseni等人[24]（监督）41.743.6–Li等人[19个]43.1––SUM-FCN（我们的）47.551.144.1表3比较了我们的方法与以前的方法在TVSum数据集上的性能同样，我们的方法实现了最先进的性能-12Mrigank Rochan、Linwei Ye和Yang Wang曼斯。在标准监督设置中，我们优于其他方法。在增强和转移设置中，我们的性能与其他最先进的性能相当。注意 Zhang et al.[40]（vsLSTM）使用帧级重要性得分和Zhang等人。[40]（dppLSTM）使用基于关键帧的符号和帧级重要性分数。但我们只使用基于关键帧的注释在我们的方法。先前的方法[40]还表明，帧级重要性分数提供比二进制标签更丰富的信息。因此，我们的方法在TVSum上的性能非常有竞争力，因为它在训练期间不表3. SUM-FCN和其他方法在TVSum数据集上的性能（F分数）。†Zhang etal.[40]（vsLSTM）使用帧级重要性得分。‡Zhang等[40]（dppLSTM）在其方法中使用帧级重要性分数和关键帧与这两种方法不同的是，我们的方法只使用基于关键帧的标注数据集方法标准监督增强转移Zhang等人（vsLSTM）54.257.956.9†Zhang等人[40]（dppLSTM）54.759.658.7‡TVSumMahasseni等人[24]（监督）56.361.2–Li等人[19个]52.7––SUM-FCN（我们的）56.859.258.24.4分析在本节中，我们对模型的各个方面进行了额外的消融分析无监督SUM-FCNunsup：表4将SUM-FCNunsup的性能与文献中的其他无监督方法进行了SUM-FCNunsup在两个数据集上都实现了最先进的性能。这些结果表明，我们的全卷积序列模型可以有效地学习如何以无监督的方式总结视频这是非常有吸引力的，因为收集用于视频摘要的标记的训练数据是困难的。表4. SUM-FCN unsup与最先进的无监督方法的性能（F分数）比较数据集[五]《中国日报》[20个][14个][34个][41个][24日]SUM-FCN取消支持SumMe 33.7 26.6–26.6–39.141.5TVSum––36.0 50.0 46.0 51.752.7SUM-DeepLab：为了展示FCSN的通用性，我们还采用了DeepLab[4]（特别是DeepLabv 2（VGG 16）模型），另一个流行的语义段-全卷积序列网络13心理模型，用于视频摘要。我们称这个网络为 SUM-DeepLab 。DeepLab模型有两个重要特征：1）扩张的卷积; 2）空间金字塔池。在SUM-DeepLab中，我们类似地执行时间扩张卷积和时间金字塔池化。表5比较了不同设置下SumMe和TVSum数据集上的SUM-DeepLab与SUM-FCNSUM-DeepLab在所有设置下都在SumMe上实现了更好的性能在TVSum上，SUM-DeepLab的性能在标准监督设置中优于SUM-FCN，并且在其他两个设置中相当。我们注意到SUM-DeepLab在某些设置中的性能略差于SUM-FCN（例如TVSum的传输设置）。一种可能的解释是，DeepLab中的双线性上采样层可能不是最佳选择。与语义分割不同，平滑标记（由于双线性上采样）在视频摘要中不一定是理想的。换句话说，双线性上取样可产生关键帧的次优子集。为了验证因此，我们用可学习的去卷积层（也用于SUM-FCN）替换SUM-DeepLab的双线性上采样层，并检查该修改的SUM-DeepLab在传输设置中的性能。由于这种简单的修改，SUM-DeepLab的性能得到了改善。事实上，SUM-DeepLab现在在TVSum的传输设置上也实现了最先进的性能（参见表5中的最后一列表5. SUM-DeepLab在不同设置下的性能（F分数）。我们在括号中包括SUM-FCN的性能（取自表2和表3）我们还将双线性上采样替换为可学习的去卷积层，并在传输设置中报告结果（最后一列）数据集标准监督增强转移转移（去核）SumMe48.8（47.5）50.2（51.1）45.0（44.1）45.1TVSum58.4（56.8）59.1（59.2）57.4（58.2）58.8视频长度：我们还进行了实验，以分析我们的模型在较长视频上的性能。同样，我们选择具有挑战性的传输设置来评估当视频被均匀采样到T =640帧时的模型。表6（前两列）显示了我们的模型在这种情况下的结果与T= 320（在表6中的括号中示出）相比，T= 640的性能这表明视频长度对于我们提出的全卷积模型来说不是问题。如前所述，均匀采样视频背后的主要思想是模仿语义分割中流行的裁剪策略。尽管如此，由于我们的模型是完全卷积的，它也可以直接处理可变长度的视频。表6的最后一列显示了应用SUM-FCN（在传输设置中）而不对视频进行采样的结果。性能与将视频采样到固定长度的结果相当（在SumMe上甚至更高14Mrigank Rochan、Linwei Ye和Yang Wang表6.我们的模型在较长视频上的性能（F分数）（即T =640）和原始（即可变长度）视频。在括号中，我们显示了T=320时模型的性能（从表2、3和5中获得）数据集SUM-FCNT=640（T=320）SUM-DeepLabT=640（T=320）SUM-FCN可变长度SumMe45.6（44.1）44.5（45.0）46.0TVSum57.4（58.2）57.2（57.4）56.7定性结果：在图3中，我们显示了SUM-FCN在SumMe [9]数据集中的两个视频上生成的示例视频摘要（好的和差的）。视频1（F评分= 60）标签为0的帧标签为1的帧视频2（F评分= 34.9）图三. SumMe [9]数据集中两个视频的示例摘要。绿色背景上的黑条显示了选择用于形成摘要视频的帧。对于每个视频，我们显示地面实况（顶部栏）和预测标签（底部栏）。5结论我们已经引入了用于视频摘要的全卷积序列网络（FCSN）。我们提出的模型的灵感来自于语义分割中的完全卷积网络。在计算机视觉中，视频摘要和语义分割通常被作为两个独立的问题来研究。我们已经表明，这两个看似无关的问题有一个潜在的联系。我们已经适应了流行的语义分割网络的视频总结marization。与其他主要使用LSTM的监督和无监督最先进的方法相比，我们的模型具有非常有竞争力的性能。我们认为，完全卷积模型提供了一个有前途的替代LSTM为基础的方法，视频摘要。最后，我们提出的方法不限于我们介绍的FCSN变体使用类似的策略，我们可以将几乎任何语义分割网络转换为视频摘要。作为未来的工作，我们计划探索更近的语义分割模型，并在视频摘要中开发相应的模型致谢：这项工作得到了NSERC、马尼托巴大学研究生奖学金和马尼托巴大学GETS计划的支持。我们感谢NVIDIA捐赠了一些用于这项工作的GPU。全卷积序列网络15引用1. 思科可视网络索引：预测和方法，2016-2021年。电子邮件www.cisco.com/2. 打开视频项目。https://open-video.org/3. Bai，S.，Kolter，J.Z.，Koltun，V.：序列建模的一般卷积和递归网络的经验评估。1803.01271（2018）4. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。IEEETransactions on Pattern Analysis and Machine Intelligence（2017）5. DeA vila，S. E. F.、 Lopes，A. P. B、 daLuz，A.， deA lbuquerqueA rau'jo，A. ：Vsumm：设计用于产生静态视频摘要的机制和新颖的评估方法。第32（1），56- 68页6. Eigen，D. Fergus，R.：使用通用的多尺度卷积架构预测深度、表面法线和语义标签。IEEE International Conference on Computer Vision（2015）7. Gehring，J.，Auli，M.，Grangier，D.，Yarats，D. Dauphin，Y.N.：卷积序列到序列学习。国际机器学习会议（2017）8. Gong，B.，Chao，W.L.，格劳曼K. Sha，F.：用于监督视频摘要的多样顺序子集选择。神经信息处理系统进展（2014）9. Gygli，M.，Grabner，H.，Riemenschneider，H.，Van Gool，L.：从用户视频创建摘要。欧洲计算机视觉会议（2014）10. Gygli，M.，Grabner，H.，Van Gool，L.：通过学习目标的亚模混合物来进行视频摘要IEEE计算机视觉与模式识别会议（2015）11. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算9（8），173512. Joshi，N.，Kienzle，W.，Toelle，M.Uyttendaele，M.，Cohen，M.F.：通过最佳帧选择实时超延时创作ACM Transactions on Graphics 34（4），63（2015）13. Kang，H.W.，Chen，X.Q.：时空视频剪辑在：IEEE计算机视觉和模式识别会议（2006年）14. Khosla，A.Hamid，R.，Lin，CJ.Sundaresan，N.：使用网络图像先验的大规模视频在：CVPR（2013）15. Kim，G.，Xing，E.P.：从网络社区照片重建故事情节图用于图像在：IEEE计算机视觉和模式识别会议（2014）16. Kopf，J.，Cohen ，M.F.，Szeliski，R.：第一人称超延时视频ACMTrans- actions on Graphics 33（4），78（2014）17. Lea，C.，弗林医学博士维达尔河Reiter，A.，Hager，G. D.：用于动作分割和检测的时间卷积网络。IEEE计算机视觉与模式识别会议（2017）18. Lee Y.J. Ghosh，J.，Grauman，K.：发现重要的人物和物体，以实现自我中心的视频摘要。IEEE计算机视觉与模式识别会议（2012）19. Li，X.，Zhao，B.，Lu，X.：一种用于编辑视频和原始视频的通用框架。IEEETransacti o nso nImageProcessi ng26（8），365216Mrigank Rochan、Linwei Ye和Yang Wang20. 李，Y.，Merialdo，B.：基于video-mmr的多视频摘要在：多媒体互动服务的图像分析研讨会（2010年）21. Liu，D.，中国科学院，Hua，G.，陈T：一种用于视频对象求和的层次视觉模型。 IEEE Transactions on Pattern Analysis and Machine Intelligence 32（12），217822. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。IEEE计算机视觉与模式识别会议23. 吕志，Grauman，K.：故事驱动的摘要，用于以自我为中心的视频。IEEE计算机视觉与模式识别会议（2013）24. Mahasseni，B.，Lam，M.，Todorovic，S.：使用对抗性LSTM网络进行无监督视频摘要IEEE计算机视觉与模

下载后可阅读完整内容，剩余1页未读，立即下载