视频摘要评分预测

161 浏览量更新于2023-10-18 收藏 827KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

重要性评分预测代表性等。4321视频分割段选择对视频摘要Mayu OtaniCyberAgent，Inc.大坂大学坦佩雷大学奥卢大学摘要视频摘要是一种在保留主要故事/内容的同时创建原始视频的简短略读的技术。由于可用材料的快速增长，对自动化该过程存在很大的兴趣。公共基准数据集促进了最近的进展，这些数据集使方法的目前，已建立的评价方案是将生成的总结与数据集提供的一组参考总结进行比较。在本文中，我们将使用两个流行的基准数据集对该管道进行深入评估。令人惊讶的是，我们观察到随机生成的摘要实现了与最先进技术相当或更好的性能。在某些情况下，随机摘要甚至比留一法实验中人工生成的摘要更好。此外，事实证明，视频分割，这通常被认为是一个固定的预处理方法，具有最显着的性能指标的影响基于我们的观察，我们提出了用于评估重要性分数的替代方法以及估计得分和人类注释之间的相关性的直观1. 介绍可用视频材料的巨大增长已经升级了对使用户能够快速浏览和观看视频的技术的需求自动视频摘要提供了一种补救方法，其目的是产生保留原始视频中最重要内容的短视频略读。例如，体育赛事的原始镜头可以压缩成几分钟的摘要，说明最重要的事件，如进球，点球等。在文献中已经提出了许多自动摘要方法最新的方法遵循一个范例，包括视频分割，重要性分数预测，和视频片段选择，如图1所示。这个管道中最具挑战性的部分是重要性分数预测，其中的任务是突出显示图1.一个常用的视频摘要管道和我们的随机化测试的说明。我们利用随机总结来验证当前的评估框架。对视频内容最重要的部分不同的因素影响视频部分的重要性，并且给定不同的重要性标准，对于单个视频可能有不同的视频摘要事实上，以前的工作已经提出了各种重要性标准，例如视觉感兴趣度[2，3]，紧凑性（即，[28]和多样性[25，29]。尽管在自动视频摘要方面做出了广泛的努力，但是对生成的摘要的评估仍然是一个未解决的问题。一种直接但仍令人信服的方法是利用主观评价;然而，收集人的反应是昂贵的，并且由于主观性，结果的再现几乎是不可能另一种方法是将生成的视频摘要与由人类注释者准备的一组固定参考摘要进行比较。为此，要求人类注释者创建视频摘要，然后将其视为地面实况。这种方法的优点是参考摘要的可重用性，即，不同的视频求和方法可以被评估而无需附加的注释，7596随机化测试随机分数生成随机视频分割7597rization评价协议，这促使我们提出了一个新的框架，评估的重要性排名。本文的主要贡献如下：• 我们评估了当前基于参考摘要的评估框架的有效性，并揭示了随机方法能够达到类似的性能是目前最先进的技术• 我们证明了广泛使用的F1分数主要由视频片段长度的分布决定。我们的分析提供了一个简单的解释-国家对于这一现象。图2.比较两种最近的方法和我们的随机方法创建的摘要（第4节）。蓝线显示相对于时间（帧）的段级别重要性分数橙色区域表示为最终汇总选择的帧。这三种方法都使用相同的线段边界• 我们证明评估的重要性排名使用预测的排序和排序之间的相关性由人类注释。此外，我们亲-提出几个可视化，让洞察预测得分与随机得分。”[14]“是的。有趣的是，所有方法（包括随机方法）都产生非常相似的输出，尽管重要性得分存在明显差异。并且实验可以重复。用于基于参考的评估的最流行的数据集这些数据集为每个原始视频提供一组视频以及多个人工生成的两个数据集使用的基本评价方法是使用F1评分测量生成的总结与参考总结之间的一致性。自引入以来，SumMe和TVSum已在最近的视频摘要文献中被广泛采用然而，以前没有研究过基于参考摘要的评价的有效性。本文使用SumMe [2]和TVSum [18]数据集深入研究了当前基于参考的我们将首先审查框架，然后应用随机化测试来评估结果的质量。所提出的随机化测试生成基于随机重要性分数和随机视频分割的视频摘要。这些总结提供了一个可以偶然获得的基线分数。图2说明了我们工作的主要发现之一事实证明，随机方法产生与现有技术几乎相同的摘要，尽管它根本不使用视频内容进行重要分数预测。更深入的分析表明，虽然重要性分数存在差异，但在组装最终摘要时，它们被忽略了。随机化测试揭示了当前视频总结中的关键问题2. 相关工作2.1. 视频摘要在文献中已经提出了各种各样的视频摘要方法。一组工作旨在通过测量视觉兴趣度[2]来检测重要镜头，例如视觉特征的动态性[8]和视觉显著性[11]。Gygli等人[3]结合了多个特性，包括显著性、美学和帧中人的存在另一组方法旨在通过丢弃冗余炮点来实现紧凑性[28]。输出视频中的代表性和多样性的最大化也是最近作品中广泛使用的标准[1，14，25]。这些方法基于这样的假设，即一个好的摘要应该有不同的内容，而采样的镜头解释了原始视频中的事件。最近，已经提出了基于LSTM的深度神经网络模型来直接预测人类注释者给出的重要性分数[26]。该模型还扩展了决定点过程[7]，以确保多样化的段选择。最后，Zhouet al.[21]应用强化学习来获得用于帧选择的策略，以便最大化所生成的摘要的多样性和虽然这些作品使用不同的重要性标准，但其中许多作品采用了类似的处理管道。首先，为原始视频中的每个帧产生重要性分数。其次，将获得的视频分割成短片段。最后，输出摘要是通过选择一个子集的视频片段，通过最大化的重要性分数与背包约束。dppLSTM随机化方法DR-DSN7598表1. F1措施SumMe和TVSum基准在最近的工作报告。平均值（Avr）表示所有参考摘要中F1评分的平均值，最大值（Max）表示参考摘要中的最高F1评分[3]。此外，我们还显示了我们的随机测试和人类注释（留一法测试）的F1值。可以注意到，随机总结实现了与最新技术水平甚至与人类注释相当的结果。视频分割SumMe平均最大TVSum平均最大LSVS [5]- -0.36-[第28话]均匀分割- -0.46-CSUV [2]超帧分割0.23-- -[18]第十八话变点检测- -0.50-VS-LMM [3]均匀分割-0.40- -dppLSTM [26]KTS-0.430.60-[第12话]均匀分割0.18-- -[25]第二十五话KTS-0.41- -DR-DSN [29]KTS-0.410.58-re-seq2seq [27]基于LSTM的分割-0.450.64-[21]第二十一话KTS-0.450.58-随机试验KTS0.19 0.410.57 0.78随机试验双峰0.14 0.270.58 0.71人类KTS0.31 0.540.54 0.782.2. 视频摘要评估视频摘要的评估是一项具有挑战性的任务。这主要是由于质量标准的主观性质，该质量标准随观看者而变化，并且随时间而变化。有限数量的评估视频和注释进一步放大了这种模糊性问题。大多数早期作品[10，11，19]以及一些近期作品[22]采用用户研究，其中观众主观地对仅为相应作品准备的输出视频摘要的质量进行这种方法的关键缺点是相关的成本和重复性。也就是说，即使同一组观看者将重新评估相同的视频，也不能获得相同的评估结果。许多最近的作品通过将它们与参考摘要进行比较来评估它们的摘要。Khosla等人[5]建议使用参考和生成的摘要中关键帧之间的像素级距离Lee等[9]使用包含感兴趣对象的帧的数量作为相似性度量。Gong等[1]计算精确度，并重新调用由人类注释者选择的关键帧的分数。Yeung等人[24]提出了一种不同的方法，并评估基于文本描述的摘要的语义相似性。为此，他们生成了一个以自我为中心的长视频数据集，其中的片段用文本描述进行了注释。该框架主要用于基于用户查询评估视频摘要[13，16]。最近，计算参考摘要和生成摘要之间的重叠已经成为视频摘要评估的标准框架[2，3，14，17，18，28]。本文研究了评估框架，将生成的概要与一组人工标注的参考进行比较。目前，有两个公共数据集可以促进这类评估。SumMe [2]和TV- Sum [18]数据集提供手动创建的参考总和，是目前最流行的评估基准。SumMe数据集包含从15- 18个注释者收集的个人视频和相应的参考摘要。TVSum数据集为YouTube视频提供镜头级别的重要性分数。大多数文献使用生成摘要和参考摘要之间的F1度量作为性能指标。表1显示了两个数据集的报告评分。SumMe数据集有大约15个不同的参考摘要，有两种可能的方法来聚合F1分数：一种是计算所有参考摘要的F1度量的平均值，另一种是使用最大分数。3. 目前的评价框架3.1. SumMeSumMe是一个视频摘要数据集，包含从YouTube获得的25个个人视频这些视频是未经编辑或最低限度编辑的。该数据集为每个视频提供15- 18个参考摘要。人工注释者单独制作参考摘要，使得每个摘要的长度小于原始视频长度的15%。对于评估，生成的摘要应遵守对摘要长度的相同限制。3.2. TVSumTVSum包含50个YouTube视频，每个视频都有标题和类别标签作为元数据。而不是提供-7599我yΣN*通过参考摘要，TVSum数据集为每个视频的每两秒提供人类注释的重要性分数。为了评估，使用以下过程从这些重要性分数生成具有预定义长度的参考摘要：首先，将视频划分为短视频片段，其与生成的摘要中的相同。然后，对视频片段内的重要性分数进行平均以获得片段级重要性分数。最后，通过找到使摘要中的总重要性得分最大化的片段的子集来生成参考摘要。这种方法的优点是能够生成具有所需长度的摘要。3.3. 评价尺度最常见的评估方法是计算预测和参考总和之间的F1度量令yi∈ {0，1}表示指示来自原始视频的哪些帧被选择到概要的标签（即，如果选择第i帧，则yi=1，否则为0）。对于参考文献摘要，给定类似的标签y，分值被定义为2PRE· REC通过对相应的帧级随机分数进行平均池化而产生对于视频分割，我们使用下面定义的选项。均匀分割将视频划分为恒定持续时间的片段。我们在实验中使用了60帧，大致对应于2秒（SumMe和TVSum数据集中的帧速率分别为30 fps和25 fps）。单峰分割从单峰分布中对每个片段中的帧的数量进行我们假设相邻镜头边界之间的帧数遵循事件率λ=60的泊松分布。双峰分割类似于单峰分割，但是利用双峰分布，即，两种Pois的混合物son分布，其事件率分别为λ=30和λ=90。对于采样，我们随机选择具有相等概率的两个泊松分布中的一个，然后对帧的数量进行采样。因此，视频被分割成较长和较短的片段，但片段中的预期帧数是60帧。除了完全随机的方法，我们评估了一种常用的分割方法及其变化与随机分数。哪里F1=PRE +REC、（1）核时间分割（KTS）[14]是基于视频的视觉内容，是最广泛使用的方法在最近的视频摘要文献（Ta-PRE=ΣN*i=1yi·yiΣNi=1yiREC=ΣN*i=1yi·yi，（2）i=1i表1）。 KTS通过检测视觉特征的变化。如果视觉特征没有显著改变，则视频片段往往很长。随机KTS首先用KTS分割视频是帧级精确度和召回率分数。 N表示原始视频中的帧总数。在实验中，分别为每个参考摘要计算F1分数，并通过平均或选择每个视频的最大值来对分数进行求和。前一种方法意味着生成的摘要应该包括具有最大数量一致性的片段，而后者认为所有人类注释者都提供了合理的重要性分数，因此如果生成的摘要与至少一个参考摘要匹配，则它应该具有高分。4. 随机化测试一般的视频摘要流水线由三部分组成：重要性分数估计、视频分段和镜头选择（图1）。我们设计了一个随机化测试来评估每个部分对最终评估分数的贡献。在这些实验中，我们通过利用随机重要性分数和随机视频片段边界来生成独立于视频内容的视频摘要。具体而言，每个帧的重要性分数独立于均匀分布[0，1]绘制。当需要时，段级分数为然后打乱段排序;因此，分段长度的分布与KTS的完全相同，但是分段边界与视觉特征不同步。通过这些随机化（和部分随机化）总结获得的F1评分可作为完全随机达到的基线。合理的评估框架应该为产生合理重要性分数的方法产生更高的分数。此外，人们会期望人类生成的地面事实摘要应该在留一实验中产生最高分数。4.1. SumMe数据集分析图3显示了使用不同版本的随机化方法获得的F1评分（平均值和最大值）（见上一节）。我们对每个随机设置进行了100次试验，黑色条是95%置信区间。此外，同一图包含每种随机分割方法的相应F1分数，但使用来自一种最近发布的方法DR-DSN [29]的帧级重要性分数参考性能是使用人工创建的参考摘要在留一法方案。在这种情况下，最终的结果是cal-7600图3.不同分段的F1得分和SumMe的重要性得分组合。浅蓝色条表示随机汇总，深蓝色条表示手动创建的参考汇总的分数（留一检验）。紫色条显示采用不同分割方法的DR-DSN重要性评分的分数。左图：平均F1评分与参考总结的平均值。右：最大分数的平均值。图4.最近报道的F1分数的方法使用KTS分割SumMe。采用KTS分段的随机总结的平均评分用浅蓝色虚线表示。通过平均每个参考摘要获得的F1评分（平均值或最大值）计算。有趣的是，我们观察到，性能明显取决于分割方法，并且对重要性评分的影响很小（如果有的话）。此外，人类表现和最佳表现自动方法之间的差异在幅度上类似于分割方法之间图4显示了SumMe数据集的最新最新结果。令人惊讶的是，具有随机重要性分数的KTS分割获得了与最佳公开方法相当的性能。第4.3节为这种现象提供了可能的解释。4.1.1SumMe的人性化评价我们进行了人类评估，以比较SumMe数据集的摘要。受试者比较两个视频摘要，并确定哪个视频更好地总结了原始视频。在第一个实验中，我们要求受试者对使用随机重要性分数和DR-DSN分数生成的视频摘要进行评分。这两种方法都使用KTS分段。总体而言，随机得分比DR-DSN得分略高，然而，46%的答案是总结同样好（坏）。该结果与第4.1节中的观察结果一致，即重要性评分几乎不影响SumMe数据集的评价评分。我们还比较了KTS和均匀分割与随机重要性评分。结果，受试者更喜欢对记录长时间活动的视频进行均匀分割，参观自由女神像和潜水。另一方面，KTS对于没有表格事件或活动的视频效果更好。对于这样的视频，重要部分几乎没有歧义，因此基于生成的摘要和参考摘要之间的一致性的F1分数有关人体评价的详细结果，请参见补充材料。4.2. TVSum数据集TVSum数据集包含原始视频中每2秒片段的人工注释重要性分数，而不是参考摘要这种方法的主要优点是能够生成任意长度的参考摘要。也可以使用不同的分割方法。由于这些原因，TVSum为研究重要性评分和分割在当前评估框架中的作用提供了一个出色的工具。图5显示了使用随机和人工标注重要性分数的不同分割方法的F1分数。在后一种情况下，使用留一法计算结果。令人惊讶的是，对于大多数分割方法，随机重要性分数具有与人类注释相似的性能。另外，完全随机的双峰分段与基于内容的KTS分段同样好地执行此外，表1中的结果表明，我们的随机结果与文献中报道的最佳结果相当（或至少相当）。均匀和单峰分割不会达到相同的结果，但在这些情况下，更好的重要性评分似乎有所帮助。总的来说，所获得的结果突出了利用目前基于F1的评价框架的挑战。4.3. 讨论正如在前面的章节中所观察到的，随机总结导致了令人惊讶的高性能分数。结果与最先进的水平相当，有时甚至超过了人类水平的分数。特别是，分割方法，产生大的变化，在段长度（即。双峰、KTS和随机KTS）产生高F1分数。可以通过检查片段长度如何影响视频摘要方法中最常用的背包公式中的选择过程来理解结果7601段子集选择图5.不同分割方法的F1得分与TVSum数据集的随机或人工注释重要性得分（留一法）相结合浅蓝色条表示随机分数，深蓝色条表示人工注释。有趣的是，在大多数情况下，随机注释和人工注释获得相似的F1分数。一个动态规划求解器，通常用于背包问题，选择一个段，只有当相应的整体得分的影响是大于剩余的段，其总长度较短的任何组合。换句话说，只有当不存在组合长度小于A的段B和C并且对总得分的影响大于或等于A时，才选择段A在当前摘要任务中，对于较长的段很少如此，因此摘要通常仅由较短的段组成。这种现象显著地限制了可用于片段子集选择的合理选择。例如，双峰分割从模式为30帧和90帧的两个分布中提取段长度;因此，我们可以粗略地说，较长的段占据了总长度的三分之二。如果这些较长的片段全部被丢弃，则所生成的概要仅由原始视频的其余三分之一组成。为了生成长度为原始视频持续时间的15%的概要，期望大多数片段被共享用于所生成的概要和参考概要，而不管相关联的重要性分数。这在图6中示出由于同样的原因，如果所有的段都具有相同的长度，则重要性分数具有更大的影响（参见图5中的均匀和单峰结果）。使用帧级分数的总和可以减轻挑战;然而，大多数作品采用平均法，因为这大大增加了TVSum上的F1分数。通过求和，人类总结明显优于随机总结，但我们仍然可以看到分割的效果。第4.1节中SumMe数据集的结果说明了另一个挑战。对于这个数据集，基于KTS的引用获得了非常高的性能分数。使用KTS implementation结合小冗余策略，其目的是创建一个视觉上无冗余的视频摘要。也就是说，KTS将视觉上相似的帧分组到单个分段中。因此，长片段可能是多余的，不那么生动，因此它们不那么有趣。人类注释者不希望在他们的双峰分割图6.长段被隐式地从总和中丢弃，并且仅选择短段。上图：绿色和浅绿色区域显示了由双峰分割方法生成的分割边界.下图显示了由动态编程算法选择的片段（蓝色），最短视频片段的前15%（浅绿色），以及它们之间重叠的片段（紫色）。请注意，大多数选定零件都在最短线段组内。摘要。同时，如上所述，基于动态编程的段子集选择倾向于避免长段。因此，生成的摘要往往符合人类的偏好。5. 重要性评分评价框架上述挑战使得目前的基准不适用于评估重要性分数的质量。与此同时，最近的视频摘要文献中，大多数提出的方法，特别是重要性分数预测。为了克服这个问题，我们提出了一种新的替代方法的评价。5.1. 使用秩序统计量进行在统计学中，等级相关系数是比较有序关联（即，等级之间的关系）。我们利用这些工具来测量内7602预测人类注释表2. Kendall的τ和Spearman的ρ相关系数在不同的重要性分数和TVSum数据集上手动标注的分数之间计算。方法肯德尔斯皮尔曼dppLSTM [26]0.0420.055DR-DSN [29]0.0200.026随机0.0000.000人类0.1770.204图7.评分曲线形成概述。如[20]中所述，由生成的和人工注释的帧级重要性得分提供的排名更准确地说，我们使用Kendall为了获得结果，我们首先根据生成的重要性分数和人类注释的参考分数对视频帧进行排名（每个注释器一个排名）。在第二阶段中，我们com-counting相对于每个参考排名生成的排名。然后通过对各个结果求平均值来获得最终的相关性得分。我们通过评估两种最新的视频摘要方法（ dp-pLSTM [26]和DR-DSN [29]）来展示秩序相关性测量。对于这两种方法，我们都利用了原始作者提供的实现。对于健全性检查，我们还使用随机评分来计算结果，根据定义，随机评分应该产生零平均分数。这些结果是通过为每个原始视频在[0，1]中生成100个均匀分布的随机值序列并对所获得的相关系数进行平均来获得的人的绩效是使用留一法产生的。表2总结了TVSum数据集的所得结果。放视频摘要我们比较了视频摘要生成的重要性分数，正相关的人类注释和那些使用的重要性分数与负相关。人工评价结果表明，使用正相关的重要性分数生成的视频摘要优于其他方法。结果详情见补充材料。5.2. 可视化重要性分数相关性视频摘要评价的主要挑战之一是人工注释之间的不一致性。事实上，尽管人工注释导致表2中的最高相关系数，但相关性的绝对值仍然相对较低。这是由于重要性评分的主观性和模糊性造成的可以想象，视频中的重要内容可能是高度主观的，注释者可能会同意也可能不会同意。此外，即使注释者同意某个视频内容是重要的，视频中也可能存在多个部分，这些部分以不同的视点和表达包含相同的内容。从这些部件中选择可能仍然是模糊的问题。为了突出注释中的变化，我们建议相对于参考注释可视化预测的重要性分数排名要做到这一点，我们首先计算人类注释器的帧级平均得分在第二阶段，我们按照预测的重要性分数以降序对帧进行排序（图7，中间）。在最后一步中，我们根据第二阶段获得的排名累积平均参考分数。更准确地说总体而言，该指标显示了测试方法和随机评分之间的明显差异。此外，人工注释的相关系数显著Σiai=t=1Stnj=1、（3）高于任何其他方法，这证实了人类重要性分数彼此相关。从测试的方法来看，与DR-DSN相比，dppLSTM的性能更高。这是有意义的，因为dppLSTM经过专门训练，可以预测人工注释的重要性分数，而DR-DSN旨在最大化生成的摘要中内容的多样性。然而，这两种方法都明显优于随机评分。我们进一步研究了重要性分数的量化措施与输出质量之间的关系，其中si表示排序视频中第i帧的平均人工注释分数分母中的归一化因子确保最大值等于1. 如图7（底部）所示，ai在排序的帧上形成单调增加的曲线。如果预测的分数与人类分数具有高相关性，曲线应迅速上升。使用留一法可以为人类评分产生类似的曲线。图8显示了从TVSum数据集生成的两个视频的相关曲线。红色的线表示按预测得分排序ΣSJ7603(a)（b）第（1）款图8.为两个视频生成的相关曲线示例来自TVSum数据集（sTEELN-vY 30和kLxoNp-UchI是视频ID）。红线表示每个人类注释者的相关曲线蓝色和绿色曲线分别显示了dppLSTM和DR-DSN方法的相应结果有关更多结果，请参见补充资料。曲线，黑色虚线是随机重要性分数的期望值。蓝色和绿色曲线分别显示了dp- pLSTM和DR-DSN方法的相应结果浅蓝色表示相关曲线所在的区域也就是说，当预测的重要性分数与平均的人工注释分数完全一致时，即，基于分数的排名是相同的，曲线位于浅蓝色区域的上界另一方面，当分数的排序与参考相反时，在图8中，大多数注释人员获得的曲线都远高于随机基线此外，图8（a）示出了dppLSTM和DR-DSN都能够预测与人类注释正相关的重要性分数。另一方面，图8（b）显示了两条红色线，它们远低于黑色虚线。这意味着这些注释者对总体共识的反应几乎是相反的图9中的详细观察表明，情况确实如此。异常值突出显示了1500和3000帧左右的片段，另一方面，其他注释者对片段显示了几乎相反的意见。所提出的可视化提供了直观的工具来说明这种趋势。6. 结论公共基准数据集发挥着重要作用，因为它们促进了方法的简单和公平比较。基准评估的质量具有很高的影响力，因为研究工作往往是为了最大限度地提高基准结果。在本文中，我们已经评估了两个广泛使用的视频摘要基准的有效性。我们的分析表明，目前的F1分数为基础的评价框架存在严重的问题。图9.人类注释分数的比较下面一行显示了所选两个人类注释器（离群值）的帧级别重要性分数。中间一行显示了通过对剩余的人类注释者（内点）求平均值而获得顶行示出了来自相应视频的关键帧。人们可以注意到，内值和离群值突出显示了视频中几乎完全相反的部分。在大多数情况下，结果表明，随机生成的总和能够达到与最先进方法相似甚至更好的性能分数。有时完全随机方法的性能超过了人工注释。更仔细的分析表明，分数的形成主要取决于视频分段，特别是分段长度的分布这主要是由于广泛使用的子集选择程序。在大多数情况下，基准测试完全忽略了重要性分数的贡献根据我们的观察，我们建议使用预测和人工注释的重要性分数之间的相关性来评估这些方法，而不是使用片段子集选择过程给出的最终摘要。介绍的评估提供了额外的见解的行为的摘要方法。我们还提出了通过累积分数曲线来可视化相关性，该曲线直观地说明了关于各种人类注释的重要分数的质量。所提出的新的评估框架只包括估计帧级重要性分数的方法。它不适合于其它方法，基于聚类的方法，挑选出靠近聚类中心的视频片段此外，我们主要解决了基于与人类注释的相关性的评估。其他因素如视频中故事的可理解性、视觉美学和与用户查询的相关性对于各种应用也是有价值的我们认为，必须在今后的工作中处理这些方面的问题。此外，我们认为，新的实质上更大的数据集需要推动视频摘要的研究向前发展。鸣谢本工作得到了 JSPS KAKENHI Grant Nos.16K16086和18H03264。7604引用[1] B.龚，W.- L. Chao，K. Grauman和F.煞监督视频摘要的多样顺序子集选择。神经信息处理系统（NIPS）进展，第2069-2077页，2014年[2] M. 吉格利H.Grabner，H.Riemenschneider和L.范古尔。从用户视频创建摘要。在 European Conference onComputer Vision（ECCV）中，第505-520页[3] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合的视频求和。在IEEE计算机视觉和模式识别会议中，第3090-3098页[4] M. G. 肯德尔排序问题中关系的处理Biometrika，33（3）：239[5] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。在IEEE计算机视觉和模式识别会议（CVPR）中，第2698-2705页[6] S. Kokoska和D.兹威林格CRC标准概率统计表和公式。中国科学技术出版社，1999年。[7] A. Kulesza和B. Taskar机器学习的行列式点过程。机器学习的基础和趋势，5（2[8] R. 拉冈尼埃雷河。Because，A.Hocev ar，P.Lamber t，G.Pa？s，以及B. E.约内斯库基于时空特征的视频摘要。在 ACMTRECVID视频摘要研讨会，第144-148页[9] Y. J. Lee，J.Ghosh和K.格劳曼发现重要的人物和物体，以实现自我中心的视频摘要。在IEEE计算机视觉和模式识别会议中，第1346-1353页[10] Z. Lu和K.格劳曼以自我为中心的视频的故事驱动的摘要在IEEE计算机视觉和模式识别会议（CVPR）中，第2714-2721页[11] Y.马湖，加-地Lu，H. Zhang和M.李一种用于视频摘要的用户注意力模型。ACMInternational Conference onMultimedia（MM），第533-542页[12] M. 大谷 Y. 中岛 E. 拉图 J. Heikkila？，和N.横谷使用深层语义特征的视频摘要。在亚洲计算机视觉会议（ACCV），第10115卷，第361-377页[13] B. Plummer，M. Brown和S. Lazebnik通过视觉语言嵌入增强视频摘要。在IEEE计算机视觉和模式识别会议（CVPR）中，第5781-5789页[14] D.波塔波夫M. Douze，Z. Harchaoui和C.施密特类别特定视频摘要。在 European Conference on ComputerVision（ECCV），第540[15] J. Sang和C.徐基于角色的电影摘要。ACMInternationalConference on Multimedia（MM），第855-858页[16] A. 沙尔吉湾龚，M。Shah. 以查询为中心的提取视频摘要。在欧洲计算机视觉会议，第3-19页[17] Y.歌雅虎电子竞技实时视频集锦。在神经信息处理系统（NIPS）研讨会，5页，2016年。[18] Y. Song，J. Vallmitjana，A. Stent和A.詹姆TVSum：使用标题总结网络视频。在IEEE计算机视觉和模式识别会议（CVPR）中，第5179-5187页[19] C. M. 塔克斯伊朗，Z.Pizlo，A.Amir，D.庞瑟里昂，E. E. J. Delp.自动视频节目摘要使用语音转录。IEEETransactions on Multimedia，8（4）：775[20] A. B.瓦苏代万Gygli，A. Volokitin和L.范古尔通过质量感知相关性估计的查询自适应视频摘要在ACM多媒体国际会议中，第582-590页[21] H.韦湾，澳-地Ni，Y. Yan，H. Yu，X. Yang和C.耀基于语义参与网络的视频摘要。在AAAI人工智能上，第216[22] T. Yao，T. Mei和Y.瑞用于第一人称视频摘要的具有成对深度排名的高光检测。在IEEE计算机视觉和模式识别会议，2016年。[23] T. Yao，T. Mei和Y.瑞用于第一人称视频摘要的具有成对深度排名的高光检测。在IEEE计算机协会计算机视觉和模式识别会议，2016年。[24] S. Yeung、A. Fathi和L.飞飞 VideoSET ：通过文字进行视频总结评价。arXiv预印本arXiv：1406.5824v1，2014.[25] K.张文-- L. Chao，F. Sha和K.格劳曼汇总传输：用于视频求和的基于示例的子集选择。在IEEE计算机视觉和模式识别会议（CVPR），第1059-1067页[26] K. 张文--L. Chao，F.Sha和K.格劳曼具有长短期记忆的视频在欧洲计算机视觉会议（ECCV），第766-782页，2016年5月。[27] K. Zhang，K. Grauman和F.煞用于视频摘要的回顾性编码器。在欧洲计算机视觉会议，第383-399页[28] B. Zhao和E. P. Xing。消费者视频的准实时摘要。在IEEE计算机视觉和模式识别会议（CVPR）中，第2513-2520页[29] K. Zhou，Y.乔和T.翔具有多样性代表性奖励的无监督视频摘要的深度强化学习。2018年。

下载后可阅读完整内容，剩余1页未读，立即下载