视频摘要的数据集、评估和基于记忆网络的方法

28 浏览量更新于2023-10-15 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1以查询为中心的视频摘要：数据集、评估和基于记忆网络的方法Aidean Sharghi†，Jacob S.LaurelJiang，Jiangand Boqing Gong<$†Center for Research in Computer Vision，University of Central Florida，Orlando，FL 32816计算机科学系，阿拉巴马大学伯明翰分校，AL 35294aidean. knights.ucf.edu，jslaurel@uab.edu，bgong@crcv.ucf.edu摘要近年来，人们对视频摘要的兴趣重新抬头。然而，用户的主观性是视频摘要研究的主要障碍之一- 用户对摘要具有各种偏好。这种主观性至少造成了两个问题。首先，没有一个视频摘要器适合所有用户，除非它与个人用户交互并适应个人用户。其次，评估视频摘要器的性能是非常为了解决第一个问题，我们探讨了最近提出的查询为中心的视频摘要，介绍了用户的喜好，在文本查询的形式进入摘要过程中的视频。提出了一种基于记忆网络的参数化顺序决定点处理方法，用于处理用户对不同视频帧和镜头的查询为了解决第二个挑战，我们认为，一个好的评价指标的视频摘要应该集中在语义信息，人类可以感知，而不是视觉功能或时间重叠。为此，我们收集密集的每视频镜头的概念注释，编译一个新的数据集，并建议一个有效的评估方法定义的概念注释。我们进行了大量的实验对比我们的视频求和器现有的，并提出了详细的分析数据集和新的评价方法。1. 介绍近年来，人们对视频摘要的兴趣重新抬头，这可能是由于我们日常生活中出现的大量视频。事实上，消费者和专业人士现在都可以使用无处不在的视频采集设备。虽然视频数据是信息提取和知识发现的重要资产，但由于其大小和可变性，用户很难监视或找到其中的事件。Jacob S.劳雷尔贡献了这项工作，而他是一个NSF REU学生在UCF感谢NSF CNS #1461121的支持。智能视频摘要算法通过捕捉视频的本质并去除冗余信息，使我们能够快速浏览冗长的视频。早期的视频求和方法主要建立在基本的视觉质量（例如，低级外观和运动特征）[13，16，24，28，36，43，52]，而最近更抽象和更高级的线索在摘要框架中被利用[14，17，18，23，37，44，47，50]。然而，视频摘要研究的主要障碍之一是用户的主观性-用户对他们想要观看的摘要有各种各样的偏好。这种主观性至少造成了两个问题。首先，没有一个视频摘要器适合所有用户，除非它与用户交互并适应用户。其次，评价视频摘要器的性能是一个非常有挑战性的问题为了解决第一个问题，我们研究了- 提出了一种新的视频摘要机制，即以查询为中心的视频摘要[37]，它以关于视频的文本查询的形式将用户偏好引入到摘要化过程中。虽然这可能是个性化视频摘要的一个有前途的方向，但在[37]是在最初为传统的通用视频摘要[25，48]收集的数据集上进行的。目前还不清楚真实用户是否会为不同的查询生成不同的摘要，如果是的话，以查询为中心的摘要彼此之间有多大的差异。在本文中，我们更深入地探讨了以查询为中心的视频摘要，并建立了一个新的数据集，特别是专为它设计的。当我们收集用户注释时，我们遇到了如何定义一个良好的评估指标以将系统生成的摘要与用户标记的摘要进行对比的挑战-上述第二个问题是由于用户对视频摘要的主观性。我们认为，对视频摘要新算法的追求实际上留下了一个未被探索的基本问题，即，如何对不同视频求和器进行基准测试。用户研究[26，29]太耗时，无法大规模比较不同方法及其变化。在使评估过程自动化的现有技术47884789密集标签：人脸电脑男士电话手椅房间办公桌大厅描述：我看了看我的手机密集标签：椅子电脑室办公桌描述：我在卧室里走来走去密集标签：女士食品男士饮料手帽子计算机市场大楼描述：我和我的朋友书桌密集标签：天街大厦手推车树窗口描述：我在车流中开车图1：比较[ 48 ]中的标题和我们收集的概念标签捕获的语义信息。然而，在一端，系统生成的摘要必须由完全相同的关键单元（帧或镜头）组成，在用户摘要中，以便被视为一个好的[9，39，46]。另一方面，像素和低级特征用于比较系统和用户的总和[14，17，18，50，52]，而不清楚哪些特征和距离度量与用户的标准相匹配有些作品试图在两个极端之间找到平衡，例如，使用两个摘要之间的时间重叠来定义评估指标[15，16，35，51]。然而，所有这些度量都是从视频的时间或视觉表示中导出的，而没有明确地编码人类如何感知信息-毕竟，系统生成的摘要旨在向用户传递与用户直接标记的信息类似的在定义一个更好的衡量标准，密切跟踪人类可以从视频摘要中感知到什么方面，我们与Yeung等人的观点相同。s [48]：关键是评估系统摘要能够保留用户提供的视频摘要的语义信息（而不是视觉量）的可以说，语义信息最好由表示我们在视频中看到的内容的基本特征的概念来表达，对象、地点、人、动作及其更细粒度的实体等）。因此，作为我们的第一个贡献，我们为我们的数据集收集密集的换句话说，我们表示每个视频中的语义信息镜头由二进制语义向量表示，其中1表示镜头中存在相应的概念。我们提出了一个新的评价指标为查询为重点的（和通用）视频摘要的基础上，这些语义向量，TOR表示的视频镜头1。此外，我们提出了一种记忆网络[40]参数化的顺序决定点过程[14]，用于跟踪以查询为中心的视频摘要。与[37]中的分层模型不同，我们的方法不依赖于昂贵的用户监督，即哪些查询概念出现在哪些视频镜头或任何预先训练的概念检测器中。相反，我们使用内存网络隐式地将用户对视频的查询放在每个镜头内的不同帧上。大量的实验验证了我们的方法的有效性。本文的其余部分组织如下。我们将在第二节讨论一些相关的工作。第3节详细阐述了编译数据集，获取注释的过程，以及一个新的视频摘要评估指标。在第4节中，我们描述了我们新的以查询为中心的汇总模型，然后在第5节中详细介绍了实验设置和定量结果。2. 相关工作我们将在本节中讨论一些相关的工作这项工作扩展了我们之前在个性化视频摘要方面的努力[37]。两部作品都探讨了这个问题-1新评估指标的数据集和代码均可在http://www.aidean-sharghi.com/cvpr2017上公开获取。4790121086420图2：概念在视频镜头中出现的频率，分别为每个视频计数。重点视频摘要，但我们在本文中通过一个新的数据集与密集的每视频镜头标记的概念，更彻底地研究这个问题。我们的基于记忆网络的视频摘要器比[37]中的分层模型需要更少的训练监督。不像我们的用户注释的语义向量的视频镜头，杨等人。要求注释者用一句话为每个视频镜头配上标题[48]。一句话只针对视频镜头中有限的信息，错过了许多细节。图1将我们数据集中的概念注释与一些视频镜头的标题进行了对比。概念注释清楚地提供了关于镜头中的语义信息的更全面的覆盖。记忆网络[4，40，41，42，45]在神经网络中对注意力模式进行建模方面是通用的。它们被广泛用于解决问题回答和视觉问题回答[3]。在我们的求和任务中的查询聚焦类似于在以前的作品中对“事实”的关注问题，但是在我们的上下文中的事实是时间视频序列。此外，我们在记忆网络之上放置了一个序列决定点过程[14]，以促进摘要的多样性。一个决定点过程（DPP）[21]定义了一个基集的幂集上的离散，该基集在子集的项之间产生多样性。在机器学习和计算机视觉中，DPP的兴趣越来越大[1，2，5，7，11，12，19，20，22，27，30，31，38]。我们模型通过记忆神经网络扩展了DPPs3. 数据集在本节中，我们将详细介绍如何编译用于视频摘要的综合数据集。我们选择建立在现有的UT自我中心（UTE）数据集[25]上，主要有两个原因：1）视频是消费级的，在不受控制的日常场景中拍摄，2）每个视频长3 - 5 小时，包含各种一组事件，使视频摘要自然是一个理想的，但具有挑战性的任务。在下文中，我们首先解释我们如何定义概念字典并确定针对以查询为中心的视频摘要的所有可能性的最佳查询。然后，我们描述了收集用户摘要的查询过程。我们还显示了有关收集的数据集的信息统计。3.1. 概念词典与词典我们计划使用注释器将每个视频镜头中的语义信息转换为二进制语义向量（参见图1和3），1这样的注释作为第3.2.1节中描述的视频摘要的有效和自动评估方法的基础。因此，关键是要有一个涵盖广泛和多层次概念的字典，以便有正确的基础来编码语义信息。在[37]中，我们通过将视频镜头标题[48]中的名词与SentiBank [6]中的名词重叠来构建概念词典。这些名词对我们来说是一个很好的起点，因为它们大多是入门级的单词。我们剔除与视觉内容弱相关的概念（例如，”A此外，我们合并了冗余的概念，如我们还增加了一些新的概念，以构建一个有表现力的和全面的字典。采用两种策略来寻找新的概念候选。首先，在观看视频后，我们手动添加出现频率很高的概念，例如，”C其次，我们使用公开的YouTube和Vine搜索词的统计数据来添加用户经常搜索的词”P最后的词汇是一个简洁而多样的48个概念（参见。图2），被认为是全面的日常生活的视频1视频2视频3视频44791用户1：天空图3：所有注释者都同意视频镜头中的突出概念，而他们错过了不同的微妙概念。食品饮料电话帽图4：同一用户分别为查询{HAT，PHONE}和{FOOD，DRINK}生成的两个摘要。绿色条旁边的两个摘要中的快照彼此完全匹配，而橙色条显示特定于查询的快照。我们还构造查询，以获取以查询为中心的用户摘要，使用两个或三个概念，而不是单例。想象一个视频搜索引擎的用例。用户输入的查询往往不止一个单词。对于每个视频，我们正式化46个查询。它们涵盖以下四种不同的情况：i）查询中的所有概念一起出现在相同的视频镜头中（15个这样的查询）;i i）所有概念都出现在视频中，但从不共同出现在单个镜头中（15个查询），iii）构成查询的概念中只有一个出现在视频的某些镜头中（15个查询），以及iv）查询中的概念都不出现在视频中（1个这样的查询）。我们在Suppl.材料我们如何获得46个查询，以涵盖四个场景。这样的查询及其用户注释摘要从不同的方面和程度上挑战智能视频摘要器。3.2. 收集用户注释我们计划建立一个视频摘要数据集，提供1）高效和自动的评估指标和2）用户摘要，以响应不同的查询有关的视频。对于前1），我们收集用户关于每个视频镜头中概念的存在/不存在的注释这是一个相当艰巨的任务，取决于视频的长度和我们概念词典的大小我们使用 Ama-zonMechanicalTurk （ MTurk ）（http://www.mturk. com/），以实现经济性和效率。对于后2），我们聘请了三名学生志愿者对标记的视频摘要进行更好的质量控制。我们将视频统一划分为5秒长的镜头。3.2.1镜头标记：视觉内容到语义向量我们要求MTurkers为每个视频镜头添加标签，其中包含所有存在的概念。为了节省工作人员观看镜头的时间，我们统一提取五帧，每一枪。假设一个概念与镜头相关，只要它在五个帧中的任何一个中被发现。图3示出了由三个不同的工作人员对同一个镜头的标记结果。虽然所有的研究人员都捕捉到了一些重要的概念，如 SKY 、 LADY 、STREET、TREE和CAR，但他们忽略了一些微妙的概念。然而，他们所有注释的联合提供了比任何单个注释者更全面的关于视频镜头的语义描述。因此，我们要求三个工作人员注释每个镜头，并将其合并以获得镜头的最终语义向量。我们平均收购了4家。十三，三。95，3。18和3。四个UTE视频的每个镜头分别有62个概念。与之形成鲜明对比的是，从镜头字幕[ 48 ]自动推导出的概念[37]远远不够;平均只有0。29，0。58，0。23和0。26个概念分别与四个视频的每个镜头相关联。评估视频摘要。由于每个视频镜头的密集概念注释，我们可以方便地将系统生成的视频摘要与用户摘要根据它们所包含的语义信息进行比较。我们首先定义了一个相似性函数之间的任何两个视频镜头的相交，其相应的概念（IOU）例如，如果一个镜头由{CAR，一个人，它们之间的IOU相似度为1/4 = 0。二十五为了找到两个摘要之间的匹配，通过二分图的最大权匹配来执行它是方便的，其中摘要在图的相对侧上。因此，匹配对的数量使我们能够计算精度，召回率和F1得分。虽然在以前的工作中已经使用了这个过程[17，10]，但是边缘权重是通过低级视觉特征计算的，这些视觉特征与人类从视频中获得的语义信息完全不与此形成鲜明对比的是，4792t=1表1：通过F1评分（%）评估的用户间一致性（U1、U2和U3：三名学生志愿者，O：Oracle摘要）。U1-U2 U1-U3 U2-U3 U1-O U2-O U3-O表2：不同查询的总和的平均长度和标准差。用户1用户2用户3 Oracle55.2755.8562.6764.9779.7580.07Vid1143.7±32.580.2±47.162.6±15.782.5±33.9Vid2103.0±45.049.9±25.264.4±11.764.1±11.7直接在用户注释的语义上定义的相似性，视频397.3±38.950.1±9.658.4±9.359.2±9.6tic向量作为边权重。视频479.9±30.334.4±7.328.9±8.735.6±8.53.2.2获取用户摘要除了密集的每个视频镜头的概念标记，我们还要求注释者为第3.1节中描述的46个查询标记以查询为中心的视频摘要。为了确保总结的一致性和对总结过程的更好质量控制，我们从MTurk切换我们亲自会见和培训志愿者。他们每个人都通过考虑查询来对所有四个视频进行求和-annotator总共接收4（视频）×46（查询）摘要任务因此，我们为每个用户获得三个用户摘要查询-视频对。然而，我们承认让注释者从头开始总结所有查询视频对是不可行的-每个UTE视频都有3-5个小时长。为了克服这个问题，我们将每个时间视频扩展为一组静态关键帧。首先，我们以与第3.2.1节相同的方式统一提取五个关键帧来表示每个镜头。其次，我们将与三个文本摘要[48]相对应的所有镜头作为初始候选集。第三，对于每个查询，我们进一步将与之相关的所有镜头包含到集合中。如果与镜头相关的概念和查询的交集非空，则镜头与查询相关因此，我们为每个查询提供了一组候选镜头，这些镜头涵盖了视频中的主要故事以及与查询相关的内容。注释器通过从集合中删除冗余镜头来总结视频在候选集合中有2500到3600个镜头，而由参与者标记的摘要平均只包含71个镜头甲骨文摘要监督视频摘要方法[14，16，37，50，51]通常从一个摘要两个不同的查询，{HAT， PHONE}和{FOOD， DRINK}。请注意，总结都跟踪主要事件发生-在视频中打开，而它们在特定于查询的部分中不同。此外，表2报告了每个用户每个视频的摘要长度的平均值和标准偏差我们可以看到，查询高度影响结果的总和;大的标准差归因于查询。总结。对于迄今为止的所有摘要，我们不要对要包括在摘要中的镜头总数施加任何约束然而，在我们收到注释后，我们让同样的参与者进一步将他们的摘要长度分别减少到20个镜头和10个镜头。我们称之为预算摘要，并将其留给未来的研究。4. 方法我们在本节中详细阐述了我们的方法，以查询为中心的由V={Vt}T表示被分割成T个片段的视频，并且由q表示关于视频的查询。在我们的实验中，每个片段Vt由10个视频镜头组成，每个视频镜头的长度为5秒，并在第3.2节中用于收集概念注释。4.1. 查询条件顺序DPP顺序决定点过程（DPP）[14]是通用视频求和的最先进模型之我们以查询q为条件作为我们的总体视频摘要模型，P（Y1= y1，Y2= y2，···，YT= y T|V，q）（1）YT每个视频，或每个查询视频对查询为重点的总结，而我们有三个用户生成的摘要，=P（Y1= y1|V1，q）t=2P（Yt= y t| Vt，y t−1，q）（2）查询.我们通过贪婪算法将它们聚合成一个，称为Oracle总和，每个查询视频对。出租权从三个用户汇总中的常用镜头开始然后，它每次都选择一个镜头，使得这个镜头产生最大的边际增益。其中第t个DPP变量Yt从第t个段Vt中选择子集，即，y t<$Vt，分布P（Yt=y t| Vt，y t−1，q）由条件DPP[21]指定，det[L（q）]ytyt−1评价F1评分。我们把细节留给Supplier。伙计们。甲骨文摘要实现了更好的协议，P（Yt= y t| Vt，yt−1，q）=det.L（q）+ItΣ。（三）用户之间的共识（cf.表1）。同一视频的摘要因查询而不同。图4显示了由同一用户标记的两个摘要，4793右手边的提名子是（L-系综）核矩阵L（q）的主子式，由子集ytyt−1索引。分母计算行列式4794i不有条件DPP我…1Ni i+N...查询图5：我们的以查询为中心的视频摘要器：记忆网络（右）参数化序贯决定点过程（左）。核矩阵和一个损坏的身份矩阵的总和，其索引为yt-1的元素是0读者可以参考关于DPP的伟大教程[21]了解更多细节。注意，DPP内核L（q）由查询q参数化。我们必须仔细设计参数的方法其中Pk携带查询Q在帧Fk上引起多少关注。配备了注意力分数{pk}，我们将通过图5中的映射矩阵B获得的帧的另一个嵌入{ck}组装到视频镜头表示中。考虑到以下特性，对其进行测试。在以查询为中心的视频摘要中，用户出于两个可能的原因选择摘要的镜头。一是sentationo：Σo=pick，（5）K该镜头与查询非常相关，因此变得对用户有利。另一种可能归因于镜头的语境重要性;例如，在一个实施例中，用户可能会选择镜头来表示视频中的突出事件，即使该事件与查询不太相关。为此，我们使用一个记忆网络模型的两种类型的重要性（查询相关和上下文）的视频镜头同时。4.2. 参数化DPP内核的内存网络记忆网络[40]提供了一种神经网络架构，可以自然地将问题与图5的最右边的面板）。在我们的工作中，我们将测量查询q和视频镜头之间的相关性，并将这些信息合并到DPP内核L（q）中。因此，用我们的查询来代替记忆网络中的问题是很简单的，但如第3.1节所述，查询和快照可能有各种场景。所有查询概念可能出现在镜头中，但可能出现在不同的帧中;查询的一个或两个概念可能不存在于镜头中;也可能没有一个概念与镜头中的任何帧相关。换句话说，记忆网络应该筛选所有视频帧，以便确定镜头因此，我们从每个镜头中统一采样8帧作为视频帧使用与[37]相同的特征来表示（参见f1，···，fK（在图5的最右边的面板上）。存储器网络将视频帧作为输入{fk}和查询q。通过嵌入矩阵A将帧变换为记忆向量{mk}。类似地，由二进制指示表示的查询q使用嵌入矩阵C将向量映射到内部状态u。注意力方案简单地通过点积和softmax函数来实现，pk=Softmax（uT mk），⑷其以查询Q为条件，并且需要镜头对查询的相关强度。因此，我们期望DPP内核由以下参数化：[L（q）]ij=oTDTDoj（6）在建模要被选择到视频摘要中的镜头的重要性方面也是灵活的。这里i和j索引两个镜头，D是另一个嵌入矩阵。注意，镜头的上下文重要性可以通过核矩阵从镜头与其他镜头的相似性中推断出来，而查询相关的重要性主要是通过记忆网络中的注意力方案来推断的4.3. 学习与推理我们通过最大化训练集中用户摘要的对数似然来学习整个视频摘要器，包括我们使用随机梯度下降与最小的最优，将嵌入矩阵{A，B，C，D}进行最小化。学习率和时期的数量是使用valida选择的设置。在测试阶段，我们顺序地访问视频片段V1，···，V1，T，并使用学习的摘要模型从它们中选择镜头值得注意的是，我们的方法需要比SH-DPP更少的用户注释[37]。它直接从用户摘要中学习，并隐式地参与对视频镜头的查询。然而，SH-DPP需要关于视频镜头和查询之间的相关性的非常昂贵的注释。我们的新数据集确实提供了这样的监督，因此我们将包括SH-DPP作为我们实验中的基线方法。5. 实验结果我们在本节中报告了实验设置和结果功能.我们提取相同类型的特征，在现有的SH-DPP方法中[37]，1民进一K一...KSoftmax嵌入内积包埋CKK存储器网络存储器网络11…1Q…NN…N照片#1镜头#NQ存储器网络存储器网络我我…我Q…I+NI+N…I+N镜头#i拍摄#i+NQ479545表3：针对以查询为中心的视频摘要的比较结果（%）。[37]第三十七话：我的世界精度召回F1精度召回F1精度召回F1Vid153.4329.8136.5950.5629.6435.6749.8653.3848.68Vid244.0546.6543.6742.1346.8142.7233.7162.0941.66视频349.2517.4425.2651.9229.2436.5155.1662.4056.47视频411.1463.4918.1511.5162.8818.6221.3963.1229.96Avg.39.4739.3530.9239.0342.1433.3840.0360.2544.1955比较首先，我们使用了70个概念检测器，50SentiBank [6]并使用特征的检测分数每个关键帧（每5秒长镜头8个关键帧40不过，值得一提的是，我们的做法并非35条仅限于使用概念检测分数，更重要的是-30与SH-DPP不同的是，它不依赖于每次拍摄的annota-25关于与查询的相关性的信息-每次拍摄用户20标记的语义向量仅用于评估目的。15此外，我们提取了一个六维上下文有限元-视频1视频2视频3视频4每个镜头的真实向量作为时间窗口中低级特征（包括颜色直方图，GIST [33]，LBP [32]，Bag-of-Words以及属性特征[49]）的平均相关性，其大小从5到15个在实验中，六维上下文特征被附加到关键帧特征上数据分割。我们运行了四轮实验，每轮实验留下一个视频用于测试，一个用于验证，而剩下的两个用于训练。由于我们的视频摘要器和基线是顺序模型，因此少量（即，二）培训视频不是问题，因为视频非常长，在培训阶段提供了许多5.1. 比较结果面向查询的视频摘要。我们将我们的视频摘要，基于记忆网络的顺序决定点过程，几个密切相关的方法。我们首先包括SH-DPP [37]，这是以查询为中心的视频摘要的最新方法。我们的模型通过考虑查询并通过内存网络参数化 DPP 内核来改进 SeqDPP [14] 因此，SeqDPP与我们的直接可比。我们将查询特征（二进制指示向量）与镜头特征连接起来，并将它们输入到SeqDPP和SH-DPP。我们为我们和两个基线方法中的所有嵌入空间设置了相同的维度事实证明，选择128D嵌入是因为它们在验证视频上的表现。表3比较了三种视频摘要器的性能。每个视频依次作为测试视频，并在每行中显示相应的结果。最后一行包括平均结果。精确度，重新-NoAttention NoEmbD EmbSize 256完整模型图6：我们提出的视频摘要器中各个组件的有效性。呼叫，并为所有视频求和器报告F1分数。我们的方法远远优于其他两种方法（平均F1分数超过10%）。看起来视频4对所有方法都特别具有挑战性。对于视频2，我们的摘要器生成的摘要比其他的要长一些在未来的工作中，我们将探讨如何控制摘要长度在顺序DPP模型。智慧分析为了研究我们框架中的每个组件如何对最终结果做出贡献，我们通过删除或修改它们来进行更多的图6显示了相应的结果。内存网络的主要好处是注意力机制（参见。方程（6））。如果我们对注意力分数{pi}使用统一分布，并将查询信息u直接附加在记忆网络输出o之后，则所有四个视频的结果都会变得更糟。（参见图6中的无注意）。NoEmbD结果是在我们计算DPP核时移除最后一个嵌入矩阵D之后获得的。最后，EmbSize 256是当我们将方法中的128 D嵌入更改为256D时的结果。从我们的完整模型的性能下降验证，所有相应的组件是互补的，共同贡献的最终结果。通用视频摘要。回想一下，我们的查询会引发四种不同的场景（参见第3.1节）。当没有与查询相关的视频镜头时，它以某种方式简化为通用视频摘要。我们挑出这样的查询，并将我们的摘要器与一些现有的和最近的通用视频摘要方法进行F1-评分4796表4：通用视频摘要的比较结果，即，当没有视频镜头与查询相关时[52]第52话我的世界精确召回F1精确召回F1精确召回F1视频1 47.86 51.28 49.51 57.37 49.36 53.0665.88 59.7562.66视频2 56.53 46.50 51.03 46.75 63.3453.8035.0767.3146.11视频3 62.46 66.72 64.52 53.93 46.44 49.9165.95 53.1258.85电话：+86-510 - 8888888传真：+86-510 - 8888888Avg.50.3450.44 50.22 42.76 59.25 44.77 47.361.98 50.2910.80.60.40.2010 20 30 40 50 607010.80.60.40.2010 203040 50 607010.80.60.40.210 203040 50 60 70腐败百分比腐败百分比腐败百分比图7：我们的评估指标的一个很好的行为。当我们从用户摘要中随机删除视频镜头时，原始用户摘要和损坏的用户摘要之间的召回率几乎呈线性下降ROUGE-SU 4 [48]的评价也包括在内，以供参考。SubMod [16]采用子模函数来增强多样性，Quasi [52]是一种基于组稀疏编码的无监督方法。与DPP类型的摘要器不同，这里的基线方法不能自动确定摘要的长度。我们在Quasi中调整阈值参数，使输出长度不超过或少于oracle摘要的20个镜头。对于SubMod，我们设置budget参数，使其生成的摘要与Oracle摘要一样长如表4所示，我们的方法仍然给出了最佳的整体性能，即使我们揭示了基线方法的或目标总和5.2. 我们的评价指标的一个很好的行为我们的视频摘要的评价方法主要是由杨等人的动机。48.特别是，我们同意的意见是，评估应该集中在人类可以感知的语义信息，而不是低层次的视觉特征或时间重叠。然而，[48]中使用的标题是多种多样的，使得ROUGE-SU 4评估不稳定，与人类判断的相关性很差[8]，并且经常丢失微妙的细节（参见。图1为一些示例）。我们通过收集密集的概念注释来纠正这些警告图1展示了几个视频镜头，其中我们收集的概念比镜头中关于语义的字幕提供了更好的此外，我们方便地基于任何两个镜头之间的IOU相似性函数来定义评估度量（参见图1）。第3.2.1节）多亏了概念注解。我们的评估指标有一些很好的行为。如果我们从用户摘要中随机删除一些视频镜头，并将损坏的摘要与原始摘要进行比较，则类似准确性的度量应该会产生线性递减的值。这确实是我们的回忆所发生的事情，如图7所示。相比之下，ROUGE-SU 4召回，作为输入的镜头字幕，表现出一定的非线性。更多关于随机替换用户摘要中的一些镜头的结果材料.6. 结论在这项工作中，我们的中心主题是研究主观性的视频摘要。本文分析了造成主观性的主要挑战，并提出了解决办法。特别是，我们编译了一个数据集，该数据集使用一组全面的概念进行了密集注释，并设计了一个新的评估指标，该指标受益于所收集的注释。我们还设计了一种新的方法，通过考虑用户查询来生成个性化摘要。我们在摘要器中采用了记忆网络和决定点过程，因此我们的模型分别利用了它们的注意力机制和多样性建模能力大量的实验验证了我们的方法的有效性，并揭示了我们的评价指标的一些良好的鸣谢。这项工作得到了NSF IIS #1566511的支持，这是Adobe Systems的礼物，以及NVIDIA的GPU。我们感谢Fei Sha，匿名评论者和区域主席，特别是R2，他们提出了有见地的建议。ROUGE-SU 4交叉连接0.890.79交连ROUGE-SU40.690.790.590.620.500.470.390.340.290.230.150.08精度0.940.880.880.820.77交连ROUGE-SU40.740.660.640.560.510.450.380.250.14召回F1得分4797引用[1] R. H. Affandi，E.B. 福克斯河P. Adams，and B.Taskar学习行列式点过程核的参数在ICML，第1224-1232页，2014中。3[2] A. Agarwal，A. Choromanska和K. 乔罗曼斯基使用决定点过程进行聚类的注释及其在文本聚类中的应用。arXiv预印本arXiv：1410.6975，2014年。3[3] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在Proceedings of the IEEE International Conference onComputer Vision，第2425-2433页，2015年。3[4] D.巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。3[5] N. K. Batmanghelich，G. Quon，A. 库莱萨湾凯利斯P. Golland和L.伯恩利用变分决定点过程使稀疏性多样化。arXiv预印本arXiv：1411.6307，2014年。3[6] D. Borth，T.陈河，巴西-地Ji和S.- F.昌Sentibank：用于检测视觉内容中的情感和情绪的大规模本体和分类器。第21届ACM国际多媒体会议论文集，第459- 460页ACM，2013年。三、七[7] W.- L. Chao湾龚，K. Grauman和F.煞大边际决定点过程。UAI，2015年。3[8] X. Chen，H. 方，T.- Y. 林河，巴西-地 Vedantam、S.古普塔P. Doll a'r和C. L. 齐特尼克Microsoftcococaptions：数据收集和评估服务器。 arXiv 预印本 arXiv ：1504.00325，2015。8[9] W.- S. Chu，Y. Song和A.詹姆视频共摘要：基于视觉共现的视频摘要。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第3584-3592页2[10] S. E. F. De Avila，A.P. B. Lopes，A.da Luz和A.阿尔布·奎克你来了。Vsumm：一种用于生成静态视频摘要的机制Pat-tern Recognition Letters，32（1）：56-68，2011. 4[11] M.加特雷尔大学Paquet和N.科尼格斯坦行列式点过程的低秩分解。arXiv预印本arXiv：1602.05436，2016年。3[12] J. A. Gillenwater，A. Kulesza，E. Fox和B. Taskar学习决定点过程的期望最大化。神经信息处理系统的进展，第3149-3157页，2014年。3[13] D. B.戈德曼湾Curless，D. Salesin和S. M.塞茨用于视频可视化和编辑的示意图故事板在ACM Transactions onGraphics（TOG），第25卷，第862ACM，2006年。1[14] B.龚，W.- L. Chao，K. Grauman和F.煞监督视频摘要的多样顺序子集选择。神经信息处理系统进展，第2069-2077页，2014年一二三五七[15] M. 吉格利H.Grabner，H.Riemenschneider和L.范古尔从用户视频创建摘要。在欧洲计算机视觉会议上，第505-520页。Springer，2014. 2[16] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合物进行视频总结。在IEEE计算机视觉和模式识别会议的Proceedings，第3090-3098页，2015年。一、二、五、八[17] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。在IEEE计算机视觉和模式识别会议的Proceedings，第2698-2705页，2013年。一、二、四[18] G.金湖，澳-地Sigal和E. P. Xing。大规模网络图像和视频集合的联合摘要，用于故事情节重建。IEEE计算机视觉和模式识别会议论文集，第4225- 4232页，2014年一、二[19] A. Kulesza和B. Taskar k-dpps：固定大小的决定点过程。第28届国际机器学习会议（ICML）论文集，第1193-1200页，2011年。3[20] A. Kulesza和B.Taskar 学习行列式点过程。2011. 3[21] A. Kulesza和B.Taskar 机器学习的行列式点过程arXiv预印本arXiv：1207.6083，2012。三五六[22] J. T. Kwok和R.P. 亚当斯生成潜变量模型中多样性的先验神经信息处理系统进展，第2996-3004页，2012年。3[23] J. Kwon和K.M. 李你事件汇总和稀有事件检测的统一框架在CVPR，第1266- 1273页1[24] R. 拉冈尼埃雷河。Because ，A.Hocev ar， P.Lamber t，G.Pa？s，以及B. E.约内斯库基于时空特征的视频摘要。第二届ACMTRECVID 视频摘要研讨会论文集，第 144-148 页。ACM，2008年。1[25] Y. J. Lee，J.Ghosh和K.格劳曼发现重要的人物和物体，以实现自我中心的视频摘要。在CVPR，第2卷，第7页，2012中。第1、3条[26] Y. J.Lee和K.格劳曼自我中心视频摘要的重要对象预测。 International Journal of Computer Vision ， 114（1）：38-55，2015. 1[27] C. Li，S. Jegelka和S. SRA. nystr\arXiv预印本arXiv：1603.06052，2016。3[28] T. Liu和J.R.肯德变长关键帧序列选择的优化算法。欧洲计算机视觉会议，第403Springer，2002年。1[29] Z. Lu和K.格劳曼故事驱动的摘要，用于以自我为中心的视频。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第2714- 2721页1[30] Z. Mariet和S.SRA. 学习定点过程的定点算法神经信息系统进展，2015年。3[31] Z. Mariet和S. SRA. Kronecker行列式点过程。arXiv预印本arXiv：1605.08374，2016年。3[32] T. Ojala，M. Pietikainen和T.门帕基于局部二值模式的多分辨率灰度和旋转不变纹理分类。IEEE Transactions onpattern analysis and machine intelligence，24（7）：971-987，2002。74798[33] A. Oliva和A.托拉尔巴建模场景的形状：空间包络的整体表示。国际计算机视觉杂志，42（3）：145-175，2001。7[34] V. Ordonez，J.邓，Y. Choi，A. C. Berg和T. L.伯格。从大规模图像分类到入门级分类。在IEEE计算机视觉国际会议论文集，第2768-2775页3[35] D.波塔波夫M. Douze，Z. Harchaoui和C.施密特类别特

下载后可阅读完整内容，剩余1页未读，立即下载