视频摘要中的视觉语言嵌入方法及其在提高摘要能力方面的效果

27 浏览量更新于2023-10-16 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5781通过视觉语言嵌入布莱恩A.普卢默马修布朗<$斯维特拉娜Lazebnik伊利诺伊大学香槟分校（University of Illinois at Urbana Champaign）@ www. example.illinois.edumtbr@google.com摘要本文讨论了视频摘要，或将原始视频提取为较短形式，同时仍捕获原始故事的问题。我们表明，通过扩展最近的子模块摘要方法[9]，利用联合视觉语言嵌入空间中的特征计算代表性和兴趣度目标，我们对两个不同的数据集进行了评估，UT自我中心[18]和TVEpidemic [45]，并表明与单独的标准视觉特征相比，我们的新目标提供了改进的摘要能力。我们的实验还表明，视觉语言嵌入不需要在特定领域的数据上进行训练，而是可以从标准的静态图像视觉语言数据集学习并转移到视频中。我们的模型的另一个好处是能够在测试时使用自由形式的文本输入来指导摘要，允许用户自定义。1. 介绍今天的人们正在以不断增长的速度制作和上传视频内容。为了吸引潜在的观众，视频应该经过精心编辑，只包含重要的亮点，同时仍然传达整体的故事。这对于来自可穿戴相机的视频尤其重要，这些视频可能包含数小时的单调原始镜头。自动视频摘要技术[36]可以促进更快速的视频搜索[40，42]，并减轻手动编辑长视频的负担[35]。因此，研究人员已经提出了许多用于计算视频摘要的方法[1，5，6，8，15，20，25，30，42，48，47]。总结视频通常涉及在包括本身有趣的片段和代表整个故事的片段之间进行权衡有些事件可能是有趣的孤立，但如果他们重复太频繁的摘要可能会成为重新-·在Google实习时完成的主要工作多余的或无代表性的。Gygli等人[9]，其工作，我们的基础上，提出了一种优化方法，平衡的标准，有趣和代表性。先前的工作已经用抽象的术语定义了这些标准（例如，使用稀疏性、图连通性或统计显著性的概念）[2，17，49]或试图使用隐式或显式监督来学习它们[30，35，43，47]。一般来说，人们认为，引入明确的语义理解，或将视频镜头与高级类别或概念相关联的能力，有助于实现有意义的摘要。许多方法都集中在从网络收集的图像和/或视频的大型数据库中学习有限的概念词汇表（通常以弱监督方式）[1，14，15，41]。当自由形式语言（标题，屏幕上的文本或隐藏字幕）形式的丰富监督可用时，可以使用更复杂的联合视觉语言模型来捕获更广泛的概念并提取更有意义的视频摘要[33]。视觉内容和文本的联合建模对于视频摘要和检索变得越来越普遍，通常用于帮助识别给定镜头是否与视频的整体故事或特定用户查询相关[23，32，34，42]。最近，我们看到了基于最先进的前馈和递归神经网络的强大视觉语言模型的激增。这种模型已被用于跨模态检索[16，19，26，29，27，37，39]，图像字幕生成[12，13，27，38，44]和视觉故事讲述[11，50]。受这些成功的appli-阳离子，我们实验与联合图像-文本嵌入作为视频摘要的表示。这样的嵌入是由函数给出的，该函数被训练成将图像和文本特征（其最初可能具有不同的维度）投影到公共潜在空间中，在该公共潜在空间中，样本之间的接近度反映它们的语义相似性。我们使用的两个分支的神经网络的王等。[39]使用成对的图像和文本（或视频和专门制作的注释）来学习非线性嵌入然后，在测试时，我们使用嵌入来计算两个视频片段之间的相似性，而不需要任何语言输入。从图1中可以看出，即使是在5782视频帧查询最近的Flickr30k测试图像2. 语义感知的视频摘要总结视频的一种常见方法是选择最能代表输入剪辑中内容的片段序列。根据Gygliet al.[9]，我们将此选择过程表述为目标的线性组合的优化，这些目标捕获输出摘要中所需的不同性状。我们之所以选择Submod框架，是因为它有两个吸引人的特性。首先，它是通用的，并且容易适应可能具有不同要求的不同汇总任务。其次，通过将组合中的权重约束为非负，并将目标约束为子模块，可以有效地找到接近最优的解决方案[28]。给定由n个片段组成的视频V，我们的目标是基于仅视觉目标φo（V，Y）和视觉语言目标φo′（V，Y）的加权组合来选择最佳摘要YV（通常受到萌芽或基数约束）：最大参数Σwo φo（V，Y）+Σwo′φo′（V，Y）.（一）图1.示例查询视频帧（左列）及其最佳匹配的静态图像与来自Flickr30k数据集的标题[46]（右两列）。相似度计算如下：YV奥什托克斯仅视觉目标′联系我们视觉语言目标将描述视频帧和静止图像的视觉特征映射到学习的视觉语言空间中，这为视频求和提供了语义上一致的表示。不同的域，即，静态图像和字幕的Flickr30k数据集[46]可以检索查询视频帧的语义一致的结果（例如，对于第二个查询，返回户外市场的图像，或者对于第三个查询，返回坐在桌子旁的女人的图像）。我们的系统概述如图2所示。我们从Gygli等人的方法开始。”[9]这是一种创造。基于在仅视觉特征之上的子模块对象的混合的视频概要。我们用一组在跨模态嵌入空间中计算的视觉语言目标来增强这种方法，下面我们将其称为Submod。这种方法的有效性在UT自我中心[18]和TV Epidemic [45]数据集上进行了实验证明，这些数据集具有不同的统计数据和视觉内容。我们的实验表明，嵌入可以在传统的视觉语言数据集上学习，如Flickr30k [46]，同时仍然为目标视频数据集提供良好的表示。我们能够利用这种改进的表示来创建更引人注目的视频摘要，并使用相同的基础模型，允许用户创建自定义摘要指导权重是从成对的视频和输出摘要中学习的，如[9]所示。目标被限制为子模的，并且权重是非负的，这使得可以使用贪婪算法来获得近似解Eq。（1）保证近似质量。我们从与原始Submod方法[9]相同的仅视觉目标开始，这将在第2.1节中进行审查。我们工作的贡献在于提出了新的视觉语言目标，这将在2.2和2.3节中介绍。2.1. 视觉物镜Submod [9]将子镜头选择任务分解为三个目标的混合，强制执行代表性，一致性和有趣性，如下所述。代表性。一个好的摘要需要包括视频的所有主要事件。为了测量当前摘要表示原始视频我们可以将摘要视为一组码本中心，对于由某个特征向量fi表示的原始视频中的每个片段，我们可以将其映射到最近的码本中心fs上，并计算总平方重建误差：ΣnL（V，Y）=min||f−f||二、（二）通过文本输入。i=1 s∈Yi s2一个男人和一个女孩都是一个男人喝着啤酒，看着另一个男人面对每个兴趣的东西。其他的，说话。一个穿红色衬衫的人正在向一个蓝色的登记处走去，他正在聊天。市场摊位。一个女人坐在外面一个女人在写一个一张桌子，用刀切笔记本电脑，而坐在一个三明治。柳条椅`O5783产出概要所需输入：视频可选输入：所需视频的文本摘要图2. 方法概述。在测试时，我们假设我们得到了一个视频，以及可选的所需摘要的书面描述。我们的方法将视觉特征投射到一个学习的视觉语言嵌入空间中，在这个空间中，相似性反映了语义的接近程度。通过使用这种表示，我们可以产生比仅使用视觉特征创建的摘要更多样化和更具代表性的摘要。跨模态嵌入空间进一步使我们能够使用文本输入直接修改摘要。这被重新表述为一个子模块目标：其中Y表示Y中所有帧的并集。在我们φrep（V，Y）=L（V，{p′}）−L（V，Y<${p′}），（3）实验中，我们只在一个数据集上使用这个术语，UTEgo- centric [18]，它具有每帧兴趣度注释。其中p′表示一个幻影样本[6]，这确保了我们与[9]中一样，我们通过所有帧上的图像特征的平均值来表示片段然而，我们将[9]中使用的DeCAF特征[4]替换为更先进的Deep Residual Network特征[10]（我们在ImageNet上训练的152层ResNet的最后一个全连接层之前使用2048维激活[3]）。均匀性。第二个目标旨在加强时间连贯性，因为片段之间过大的时间间隔可能会中断故事的流程，而彼此太接近的片段可能是多余的。均匀性对象iv eφunif（V，Y）完全与等式（1）相对应。（3），除了表示每个帧的特征仅仅是其平均帧索引（即，在这种情况下它是标量快乐。在摘要中，某些片段可能比其他片段更受欢迎，即使它们都表示同一事件。例如，一个孩子对着摄像机微笑和挥手的片段可能比他们背对着摄像机的片段更受欢迎。什么是“兴趣度”的概念通常对于所期望的概要和/或应用领域的确切性质是高度特定的，尽管也已经提出了“兴趣度”的一些通用定义（例如，[8，18]）。我们使用与[9]中相同的方法来为视频片段中的所有帧生成每帧兴趣度得分。由于原则上不同的分段可能重叠，因此我们对当前摘要Y中的所有唯一帧y的有趣度得分I（y）求和：Σφint（V，Y）= I（y），（4）y∈Y可以用于训练分类器以产生分数I（y）的条件。关于这一点的更多细节将在第3节中给出。2.2. 视觉语言目标我们希望将视频特征投影到学习的联合视觉语言嵌入空间中，在该空间中，我们期望相似性更能反映不同视频片段之间的语义接近度。由于其在视觉语言检索任务上的最先进性能，我们选择使用Wang等人的双分支网络来学习我们的嵌入模型。[39 ]第39段。这个网络的一个分支接受原始视觉特征A，另一个接受文本特征B。每个分支由两个完全连接的层组成，它们之间具有ReLU非线性，然后进行L2归一化。该网络是用组合双向排序项（对于每个图像特征，匹配的文本特征应该比不匹配的文本特征更接近，反之亦然）的基于边缘的三元组损失，以及邻域保留项（例如，对应于同一图像的文本特征应当比不匹配的文本特征彼此更接近）。在本文中，我们实验了两种不同的嵌入。第一个是使用我们的视频数据集附带的密集文本注释进行训练的。然而，由于这些数据集的规模和词汇量较小，以及其描述的特定领域性质，这种嵌入可能无法很好地推广。因此，我们在Flickr30k数据集[46]上训练了第二个嵌入，该数据集包含31，783张静态图像，每张图像包含5个句子。通过使用Flickr30k，我们可以评估它的表现如何可以转移到视频，这具有相当不同的属性。我们使用[39]的作者提供的代码来训练这两个嵌入。在视觉方面，我们使用相同的ResNet视觉特征汇总模型我和朋友一起走过杂货店。我和我的朋友坐在桌旁，一起吃了一顿饭。视觉语言嵌入5784如第2.1节所示。在文本方面，我们使用与[16，39]相同的嵌入空间的输出维数为512。在学习嵌入之后，我们将视觉特征映射到共享语义空间，并使用它们来计算我们将两个附加目标称为语义代表性和语义有趣性。这些共享仅可视版本的形式，即，等式（ 3 ）和（4），分别虽然人们可能会认为这些语义目标应该取代它们的视觉对应物，但我们的实验将表明，两者都需要获得最佳结果。正如语义代表性提供了两个视频片段在语义上如何相似的概念，视觉代表性提供了更低级别的视觉相似性的概念。理想情况下，一个好的摘要应该在语义和视觉上都是多样的，以便在当前预算下提供最大量的信息。2.3. 文本引导摘要将视觉语言嵌入到我们的汇总模型中不仅允许我们选择语义上更具代表性和有趣的片段，而且还为我们提供了一种在创建摘要时合并人工输入的直接方法，如图2所示。用户可以提供所需摘要的自由形式描述，并且可以用一个项来增强目标函数，该项使结果与该描述一致这类似于Sharghi等人的以查询为中心的摘要框架。[32]，但不是由可以应用于许多视频的关键字组成，我们的描述可以是特定于输入视频的自由形式的句子。我们考虑两种情况下对应于不同的projections- tions的形式的可选的语言输入。受约束的文本指导。在这个版本的文本指南中，我们假设我们给出了一个书面描述，其中每个句子都映射到一个所需的片段。也就是说，从视频中选择的第一个片段应该与输入描述中的第一个句子一致，第二个片段应该与第二个句子一致，等等。我们引入了一个额外的视觉语言目标的均衡。（1）基于每个摘要片段与其对应句子之间的跨模态得分更准确地说，让gs表示片段s的特征表示（即，视觉语言嵌入空间中的每帧特征向量的平均值），ts是来自描述D的对应句子的表示，并且sim（gs，ts）是它们之间的余弦相似度。然后，我们的新文本指导目标由下式给出：Σφ text（V，Y，D）=sim（g s，t s）.（五）s∈Y视频检索不同之处在于句子作为集合提供并且对于作为整体的概要存在全局成本（例如，统一性和代表性目标）。因为我们假设句子是以正确的时间顺序给出的，所以当为句子选择一个片段时，它极大地限制了剩余句子的可用片段。由于我们的目标视频有连续的镜头，对于冗余段，标准的检索方法可能会在前几个结果中返回许多非常相似的邻近段全球摘要一级的费用是提供多样性所必需的。不受约束的文本指导。对于包含数小时的镜头的视频，或者在拍摄视频之后不能立即写入所需概要的描述的情况下，可能难以记住事件的正确顺序或提供时间对齐的描述。在相关场景中，用户可能想要总结他们没有拍摄并且可能甚至没有看过的视频有人可能想总结一场足球比赛，并且对角球特别感兴趣。出于这些原因，我们还实现了文本引导的无约束版本，其中输入的句子和相关联的视频片段不必以相同的顺序出现这将导致一组候选片段和句子列表之间的bipartite匹配问题，我们使用Hungar- ian算法解决该问题。在获得分配后，我们使用等式计算文本引导目标。（五）、3. 实验3.1. 协议和实施细节数据集。我们在两个数据集上评估了我们的方法，其中详细的片段级文本注释可用：UT自我中心（UTE）数据集[18]和TV Epperiment数据集[45]。UTE数据集由四个可穿戴相机视频组成，捕捉一个人的日常活动。每段视频时长三到五个小时，总共超过17个小时。TVEpidemic数据集[45]由三个不同电视节目的四个视频组成，每个视频长45分钟。对于UTE和TV Epidemic数据集，Yeunget al. [45]分别为每个5秒和10秒的视频片段提供了密集的文本注释。虽然UTE数据集视频是在不受控制的环境中拍摄的第一人称视频，但电视剧集是经过良好编辑的第三人称视频。由于这些变化，文本注释在统计上也有一些明显的差异（例如，UTE注释通常以第一人称的对摄像机佩戴者的自我引用开始，而TV剧集通常在剧集中通过他们的名字来引用人）。请注意，还有其他流行的视频摘要基准，包括SumMe [8]和TVSUM [34]数据集。但是，我们没有将其纳入评估范围-这是类似于一个人会做什么，因为他们没有文本注释上的一个愿景-5785可以训练语言嵌入模型。训练对于UTE和TV Epidemic数据集中的每个视频，Yeunget al. [45]已经提供了三个人工编写的参考文本摘要。为了在Submod方法中训练针对不同目标的权重，需要通过将来自摘要的句子与原始的每段视频注释进行匹配来将这些摘要映射到视频中的段的合适子集。我们遵循与先前工作相同的贪婪n-gram匹配和有序子镜头选择过程[9，45]，为每个视频获得15个训练摘要。对于每个数据集，我们使用四重交叉验证设置，对三个视频的每个子集进行训练，并对第四个进行测试。这涉及训练视觉语言嵌入（对于不使用Flickr30k训练的嵌入的模型），兴趣度函数（仅在UTE数据集上，如第3.2节所述）和等式中的权重。（一）.对于后一步，训练数据由45个视频摘要对组成。测试和评估。对于这两个数据集，我们设置预算（即，可以选择的最大片段数），在24处生成关于UTE数据集的2分钟摘要和关于TV Epperiment数据集的4分钟摘要。在[9，32，45]之后，我们评估了文本域中的视频求和。在测试时，给定由我们的方法生成的视频摘要，我们通过连接组成摘要的片段的原始文本注释来创建相应的文本摘要。我们为每个数据集使用非重叠片段，以便具有到文本注释的非模糊映射，尽管Submod方法仍然适用于产生重叠片段的视频分割[9]。使用基于召回的ROUGE指标将自动生成的摘要与三个人工提供的参考摘要进行比较[22]。请注意，该评估是基于内容的：如果多个片段与相同或非常相似的文本描述相关联而不管它们的相对视觉质量如何，模糊片段可以被认为与清晰片段一样好）。与之前的工作一样[9，32]，我们使用ROUGE-SU评分报告了每个数据集的召回率和f-测量，这表明与人类判断的相关性最强[45]。我们使用与[9，45]中相同的ROUGE参数，通过与作者的个人沟通获得。在我们的评估中，我们比较了以下基线和我们方法的变体：1. 取样. 在测试视频中均匀或随机采样片段的基线。我们将这些基线各运行五次，并报告平均结果.2. 视频MMR。[21]的方法，由[45]的作者他们给我们提供了他们的输出总和-仅在UTE数据集上使用颜色，我们使用ROUGE设置对其进行评估3. seqDPP。[7]使用他们的代码的方法。我们将他们基于SIFT的特征表示[24]替换为我们的ResNet特征，我们也使用这些特征来计算该方法中所需的基于上下文的表示。我们将这些与在显着图上计算的特征连接起来[31]，如[7]中所示。4. Submod-V.使用Gygli等人的代码的原始Submod方法。[9]其视觉效果。5. Submod-S。Submod用语义版本取代了视觉上的代表性和有趣性。6. Submod-V + Sem.中间截留语义兴趣度目标与仅视觉目标的组合。7. Submod-V + Sem.代表性：语义代表性对象与视觉对象的结合。8. Submod-V +两者。语义兴趣性和语义代表性目标与纯视觉目标相结合。请注意，上面的变体6和变体8仅在UTE数据集上可用，因为它是唯一具有兴趣函数的数据集。3.2. UTE数据集结果对于这个数据集，Leeet al.[18]已经提供了可用于训练兴趣度分类器的重要性注释在[9]之后，我们学习使用具有径向基函数内核的支持向量机在我们的视觉或视觉语言特征上预测视频片段的兴趣度（作为二进制标签）与[9]一样，我们计算整个图像的特征，而不是像[18]那样计算区域。作为参考，使用视觉特征得到的分类器在注释帧上的平均精度为56.2。我们在表1中对我们的方法进行了两分钟的总结。我们在UTE数据上训练的新语义特征提供了近5%的f-测量综合改善，召回率提高了4%，如表1（c）的最后一行所示。大部分收益来自我们的语义代表性目标。尽管在具有不同统计数据的图像上具有非常不同的文本注释，但在Flickr30k数据集上训练的语义特征图4显示了我们的最佳性能模型中五个目标的权重。我们可以看到视觉和语义代表性得到了两个最高的权重，5786Sematnic代表性21%均匀度16%忠诚度12%代表性47%语义相似度4%（一）无语义特征我在市场周围看了看。我和我的朋友看到一辆车经过。我朋友开车，我坐在副驾驶座上。我看着墙上的菜单。我看了墙上的电视。我和朋友一起吃披萨。我坐在桌边，看着墙。我和朋友看了看电视。我坐在桌旁喝了一杯。我看了看柜台。我坐下来吃冷冻酸奶。我吃了冻酸奶，看了电视。过境市场过境餐厅酸奶店具有语义特征（b）第（1）款我的朋友开了车，我坐在副驾驶座上看了看。我身边的朋友开着车，我坐在市场上。在乘客座位上。我和我的朋友开着他的车。我看着墙上的菜单。我和朋友坐在桌旁。我和朋友一起吃披萨。我看了墙上的电视。我和朋友一起吃披萨。我和朋友坐在桌旁。我吃了冻酸奶，看了电视。我看了看窗外。无语义特征我走在人行道上。我和朋友一起走在街上。我抬头看着天花板。我在玩LEGO。我从一个盒子里拿了一个东西，把它和我手里的一个连接起来。我把乐高拼在一起。我坐在地板上。我翻了一本书。我看了电视。我在玩LEGO。我在水池里洗盘子。我站在厨房的水槽边。过境玩乐高看电视/阅读玩乐高洗碗具有语义特征我走在人行道上。我和我的朋友走在人行道上。我抬头看着天花板。我在玩LEGO。我和我的朋友一起玩LEGO。我看了看说明书。我看了电视。我翻了一本书。我坐在椅子上，看着一本书。我在玩LEGO我把水倒在海绵上。我在水池里洗盘子。图3. 分别对应于表1（c）和（a）的最后一行中的模型的具有和不具有语义特征的UT自我中心视频2的输出概要。（a）和（b）部分是概述的前半部分和后半部分。为了更好的可读性，我们添加了一个彩色编码的时间轴，用高级场景手工注释（例如，运输、市场）。（a）第一个过境场景被捕捉到语义特征，否则就会错过。（b）虽然这两个摘要表示每个场景具有相同数量的片段，但我们可以看到所选择的精确片段的差异：在洗碗场景中，基于语义特征的摘要选择更能代表洗碗的片段，而不是简单地站在水槽旁。UTE目标重量图4. 我们在UT自我中心数据集上的最佳性能模型的五个目标的学习权重，在四个训练测试分割中取平均值。表1. UT自我中心总结性能。（a）包含我们的基线，包括我们使用具有更新的视觉功能的代码对[7，9]的复制(b-c)使用在不同数据集上训练的嵌入式来证明我们的视觉语言目标在此任务上的有效性。占总量的60%以上，其次是均匀性。两个兴趣度目标的贡献最小（尽管仍然不可忽略），表明代表性完成了捕获故事元素的大部分工作。从质量上讲，由语义特征提供的性能增益似乎主要源于添加缺失的故事元素。图3（a）中显示了一个例子，其中汽车驱动到市场完全方法F-measure召回(a)基线随机26.5125.23均匀28.1325.76视频MMR [21]22.7320.80seqDPP [7]28.8726.83[9]第九话29.3527.43(b)Flickr30k嵌入Submod-S27.1829.69Submod-V+Sem. 中间截留31.4428.28Submod-V+Sem. 众议员32.4030.00Submod-V+两者33.5031.16(c)UTE嵌入Submod-S29.5431.01Submod-V+Sem. 中间截留31.5829.245787数据集文本指导F-measure召回UTE无约束约束34.9035.2131.7732.31电视Eps无约束约束41.1841.1738.1438.11表3.文本约束摘要的性能，当所需概要的书面描述在测试时作为附加输入给出。我们正在使用我们的完整模型，其中视觉语言嵌入在相应的数据集上训练（对应于表1和表2的最后一行）。表2. 电视节目摘要性能。（a）基线，包括我们使用具有更新的视觉功能的代码复制[7，9（b，c）分别使用在Flickr30k和TV Epsilon上训练的嵌入的视觉语言目标的不同组合。在没有语义特征的情况下从输出概要中丢失另一种表现，虽然更微妙，可以在图3（b）的洗碗部分利用语义特征选择的分段对应于在洗碗中常见的动作（冲洗海绵），而在没有语义特征的情况下，用户只是站在那里。3.3. 电视剧结果TV Epidemic数据集不提供用于训练语义兴趣度分类器的每帧（4）在这里。表2中的结果表明用语义代表性对象来增强视觉代表性和统一性对象再次提供了改进。从表2（c）中可以看出，在TV Epperiment嵌入之上计算的语义代表性使f度量增加了1.5%，召回率增加了3%。与UTE数据集一样，在数据集上训练的嵌入比Flickr30K训练的嵌入性能总体而言，ROUGE评分的绝对改善事实上，在四种训练-测试分割中，添加语义代表性在两种情况下改善了结果，实际上在另外两种情况下使它们变得更糟，尽管绝对改善最终更大。我们还看到，在TV Eppery上通过Submod方法学习的每个目标权重的方差要比在UTE上高得多。部分问题在于训练数据量有限。我们还怀疑用于UTE数据集的兴趣度目标将有助于稳定摘要并使其更有意义。图5比较了在第四个电视节目视频.具有语义目标的结果与参考文献摘要中的片段较为一致。在左侧，具有语义特征的片段集中于选择被认为对原始视频的故事更关键的片段（即，乔尔被攻击vs.他在他的房子周围散步）。对于片段的中心对，语义代表性选择在警察局显示Joel的攻击的视频时的片段3.4. 文本引导摘要结果表3显示了文本引导总结的评估，其中在测试时提供参考文本描述作为附加输入这些结果是使用我们的完整模型获得的，其中视觉语言嵌入在相应的数据集上进行了训练。将表3中的结果与表1和表2的最后一行进行比较，我们可以看到两个数据集的收益虽然人们可能会认为约束版本（按时间顺序提供书面描述）会执行得更好，但我们只在UTE数据集上看到此清单在TV Eppery数据集上，两个版本的表现大致相同。我们认为这不仅是由于原始视频长度的差异，而且是由于不同场景的再现性。尽管UTE数据集中的视频形成了一个连续的流，并且往往会逐渐改变，但一旦离开某个地方，就不会经常被重新访问。查看图3（a）和图3（b）中的不同故事元素，只有Transit和Playing withLEESTYLE重复出现。相比之下，TV Epidemic数据集的性质意味着对应于不同集合的一般视觉元素人们工作的办公室无约束模型似乎对这种混淆更鲁棒4. 结论在本文中，我们证明了视频摘要可以通过使用视觉语言EM，方法F-measure召回(a)基线随机32.8328.88均匀33.9029.15seqDPP [7]35.3932.12[9]第九话38.1833.47(b)Flickr30k嵌入Submod-S38.9235.28Submod-V+Sem. 众议员39.8736.50(c)电视节目嵌入Submod-S37.2932.75Submod-V+Sem. 众议员40.9037.025788乔尔·桑托斯走进厨房。这是监控录像大卫讨论了一个在互联网上找到的视频。拉里和梅根互相道别。巴兹·奥尔德林等着接拉里。所选细分：无语义特征参考摘要（含语义特征）乔尔·桑托斯的头部被一个不明袭击者的棒球棍乔尔桑托斯显示在视频中，绑定被连环杀手殴打梅根开始哭，因为拉里是去外太空图5. 在有和没有语义代表性目标的情况下，比较来自TV Epperiment数据集的视频4的视频摘要。为了完整起见，我们还显示了参考摘要中的框架具有语义特征的摘要该图示出了来自三个这样的事件的帧以及摘要中没有语义特征的最接近的所选片段。在与文本注释配对的图像特征上训练的beddings相似类型的视频）或来自完全不同的视频（具有不同内容的静止图像嵌入空间中的特征表示有可能更好地捕获故事元素，并使用户能够直接使用自由形式的文本输入来指导摘要虽然我们的工作显示了视频摘要数据集伴随着丰富的文本注释的承诺，如由Yeung等人发布的。作为其VideoSET框架的一部分[45]，它也显示了其局限性。特别是，这些数据集只有少数视频可能是高度可变的。因此，训练和测试数据的数量不一定足以得出关于不同摘要方法的相对优势的确切结论（在我们的案例中，我们在TV Epperiment数据集上遇到了不稳定问题）。使问题复杂化的是可用于不同数据集的注释种类（特别是，可用于训练良好兴趣度目标的注释）和文献中提出的评估方法的不一致性虽然像VideoSET这样的工具是一个很好的开始，但它们需要在范围上大大扩展鸣谢：我们要感谢Emily For-tuna和Aseem Agarwala对这项工作的讨论和反馈。这项工作得到了国家科学基金会CIF-1302438和IIS-1563727基金、Xerox UAC和Sloan基金会的部分支持。引用[1] W.- S. Chu，Y. Song和A.詹姆视频共摘要：基于视觉共现的视频摘要。CVPR，2015。1[2] Y. Cong，J. Yuan，and J.罗通过稀疏字典选择实现消费者视频的可扩展求和。IEEE Transactions on Multimedia ， 14 （ 1 ）： 66-75 ，2012。1[3] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。3[4] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。Decaf：用于通用视觉识别的深度卷积激活功能。arXiv预印本arXiv：1310.1531，2013。3[5] M. Ellouze，N. Boujemaa，和A. M.阿利米Im（s）2：交互式电影摘要系统. J. Vis. Comun.图像表示。，21（4）：283-294，2010. 1[6] R. Gomes和A.克劳斯从数据流中学习非参数ICML，2010年。第1、3条[7] B.龚，W.- L. Chao，K. Grauman和F.煞监督视频摘要的多样顺序子集选择。在NIPS，2014。五、六、七[8] M. 吉格利H.Grabner，H.Riemenschneider和L.范古尔从用户视频创建摘要。2014年，在ECCV。一、三、四[9] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合的视频求和。CVPR，2015。一、二、三、五、六、七[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。3[11] T.- H. K. Huang，F.Ferraro，N.穆斯塔法扎德岛Misra，J.De-vlin，A.阿格拉瓦尔河格希克，X。He，P. Kohli，D. 巴-5789特拉湖Zitnick，D.帕里克湖Vanderwende，M.厨房，和M.米切尔视觉故事。在NAACL，2016年。1[12] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。 CVPR，2015。 1[13] A.卡帕西A. Joulin和L.飞飞用于双向图像句子映射的深度片段嵌入在NIPS，2014。1[14] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。CVPR，2013。1[15] G.金湖，澳-地Sigal和E. P. Xing。大规模网络图像和视频集合的联合摘要用于主线重建。CVPR，2014。1[16] B. Klein、G. Lev，G. Sadeh和L.狼使用Fisher向量将神经词嵌入与深度图像表示相关联。CVPR，2015。1、4[17] J. Kwon和K.M. 李你事件汇总和稀有事件检测的统一框架CVPR，2012。1[18] Y. J. Lee，J.Ghosh和K.格劳曼发现重要的人物和物体，以实现自我中心的视频摘要。CVPR，2012。一、二、三、四、五[19] G. Lev，G.Sadeh湾Klein和L.狼用于动作识别和图像注释的RNN Fisher在ECCV，2016年。1[20] L. Li，K.周，G.- R.薛，H. Zha和Y. Yu.基于可迁移结构化学习的视频摘要。在WWW上，2011年。1[21] Y. Li和B. 我是里亚尔多。基于video-MMR的多视频摘要在WIAMIS，2010年。五、六[22] C.是林书Rouge：一个用于自动评估总结的软件包.在ACL-04研讨会上。第八卷。，2004年。5[23] W. Liu，T.梅，Y. Zhang C.，中国古猿科Che和J.Luo。多任务深度视觉语义嵌入视频缩略图选择。CVPR，2015。1[24] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV，60（2）：91-110，2004. 5[25] Z. Lu和K.格劳曼以自我为中心的视频的故事驱动的摘要CVPR，2013。1[26] L. 妈Z。卢湖，加-地Shang和H.李用于图像和句子匹配的多模态在ICCV，2015年。1[27] J. Mao，W. Xu，Y. Yang，J. Wang，and A.尤尔。深度字幕与多模态递归神经网络（m-RNN）。 2015年，国际会议。1[28] G.内姆豪泽湖Wolsey和M.费雪。最大化次模集函数的近似分析I. 数学规划，1978年。2[29] B. A.普卢默湖Wang，C. M.塞万提斯C. 凯塞多J. Hockenmaier和S. Lazebnik Flickr30k实体：收集区域到短语的对应关系，以获得更丰富的图像到句子模型。IJCV，2016年。1[30] D. 波塔波夫 M. 笨蛋 Z. 哈沙维和C. 施密特类别特定视频摘要。2014年，在ECCV。1[31] E. Rahtu，J. Kannala，M. Salo和J.嘿，从图像和视频中分割显著对象。ECCV，2010年。5[32] A. 沙尔吉湾龚，M。Shah. 以查询为中心的提取视频摘要。在ECCV，2016年。一、四、五[33] M. A. Smith和T.卡纳德通过图像和语言的结合，使视频略读和图像和视频数据库基于内容的访问国际研讨会，1998年。1[34] Y. 宋，J。Vallmitjana，A.Stent和A.詹姆TVSum：使用标题总结Web视频。CVPR，2015。1、4[35] M. Sun，A. Farhadi和S.塞茨通过分析编辑的视频对特定领域的精彩片段进行排名。2014年，在ECCV。1[36] B. T. Truong和S.文卡特什视频摘要：系统回顾与分类。ACM Trans. Multimedia Comput. Commun. Appl. ， 3（1），Feb. 2007. 1[37] I.文德罗夫河Kiros、S. Fidler和R.乌塔松顺序-图像和语言的嵌入。ICLR，2016. 1[38] O. Vinyals，A. Toshev，S. Bengio和D.二汉Show andtell：A neural image caption generator. CVPR，2015。1[39] L. Wang，Y. Li和S. Lazebnik学习深度结构保持图像-文本嵌入。在CVPR，2016年。一、三、四[40] M. 王河，巴西-地Hong，G.李志J. Zha，S.Yan和T.-S.蔡基于标签定位和关键镜头识别的事件驱动网络视频摘要。IEEE Transactions on Multime-dia，14（4）：975-985，2012. 1[41] B. Xiong和K.格劳曼检测捕捉点在自我中心的视频与网络照片之前。2014年，在ECCV。1[42] B. Xiong，G. Kim和L.西格自我中心视频的故事线表示及其在基于故事的搜索中的应用。在ICCV，2015年。1[43] J. 许湖，加-地Mukherjee，Y.Li，J.Warner，J.M. 格，以及V. Singh通过约束子模块最大化的支持注视的自我中心视频摘要CVPR，2015。1[44] K. Xu，J. Ba，R. Kiros，A. 库维尔河萨拉胡季诺夫，R. Zemel和Y.本吉奥。显示、出席和讲述：具有视觉注意的神经图像标题生成。ICML，2015。1[45] S. Yeung、A.Fathi和L.飞飞Videoset：通过文本进行视频总结arXiv：1406.5824，2014年。一、二、四、五、八[46] P. Young，A.赖，M。Hodosh和J.霍肯迈尔从图像描述到视觉表示：基于事件描述的语义推理的新相似性度量。TACL，2：67-78，2014。二、三[47] K.张文-- L. Chao，F. Sha和K.格劳曼汇总传输：用于视频求和的基于样本的子集选择。在CVPR，2016年。1[48] K. 张文--L. Chao，F.Sha和K.格劳曼具有长短期记忆的视频在ECCV，2016年。1[49] B. Zhao和E. P. Xing。消费者视频的准实时摘要。CVPR，2014。1[50] Y. 朱河，巴西-地基罗斯河泽梅尔河萨拉胡季诺夫河乌尔塔孙A. Torralba和S.菲德勒对齐书籍和电影：通过看电影和阅读书籍来进行故事式的视觉解释。ICCV，2015年。1

下载后可阅读完整内容，剩余1页未读，立即下载