动态控制局部多样性的视频摘要算法

181 浏览量更新于2023-10-13 收藏 12.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0局部多样性有多局部？通过动态基准集加强顺序行列式点过程进行监督视频摘要0Yandong Li 1 0000000320051334，Liqiang Wang 1 0000000212654656，TianbaoYang 2 0000000278585438，和 Boqing Gong 3 000000033915597701 中佛罗里达大学，奥兰多，佛罗里达州 2爱荷华大学，爱荷华城，爱荷华州 3腾讯AI实验室，西雅图，华盛顿州0摘要。大量的视频内容和高频观看需求自动视频摘要算法，其中一个关键特性是能够建模多样性。如果视频像几个小时长的自我中心视频一样长，就需要跟踪视频的时间结构并强制实施局部多样性。局部多样性是指从短时间段中选择的镜头是多样的，但是如果它们在视频中相隔很远，那么允许存在视觉上相似的镜头。在本文中，我们提出了一种新颖的概率模型，基于SeqDPP构建，以动态控制施加局部多样性的视频段的时间跨度。特别是，我们使SeqDPP能够从输入视频中自动推断局部多样性的程度。由此产生的模型通过标志性的最大似然估计（MLE）进行训练非常复杂，而且还受到暴露偏差和不可微分的评估指标的影响。为了解决这些问题，我们设计了一种强化学习算法来训练所提出的模型。大量实验证实了我们的模型和新的学习算法相对于基于MLE的方法的优势。01 引言0互联网时代已经进入了一个新阶段，高清视频在由视频分享网站、在线电影和电视节目以及新兴的直播视频流服务推动的IP流量中既普遍又占主导地位。一些统计数据表明，每分钟有大约300小时的视频上传到YouTube，每天有超过5亿小时的视频在YouTube上观看。这样大量的视频内容和高频观看需求需要自动视频摘要算法。通过从原始视频中提取重要事件并将它们压缩成短视频剪辑（或故事板、文本描述等），视频摘要在许多实际应用中具有巨大潜力。视频摘要一直是计算机视觉和多媒体领域的基础研究领域之一[2]。针对不同的视频摘要场景，已经提出了各种技术。一般来说，一个好的视频摘要应该描述视频中发生的主要事件[3–5]，同时删除冗余[6, 7]和/或不重要[8,9]的视频镜头。02 Yandong Li，Liqiang Wang，Tianbao Yang，Boqing Gong0图1. 动态顺序DPP（DySeqDPP）用于视频摘要0我们将视频摘要视为一个多样化的子集选择问题：给定一个视频，可以将其视为一组镜头，目标是从该组中选择一个子集来总结整个视频。这种观点为视频摘要的监督学习方法打开了大门[1,10–13]，这些方法将子集选择模型拟合到用户注释的视频摘要中。与传统的无监督视频摘要方法[7, 8, 5, 9, 3, 4, 14,15]不同，监督方法隐含地推断用户的意图和摘要标准，而不是由领域专家手工制作。在监督视频摘要模型中，它们应该包含的一个关键因素是所选视频镜头子集的多样性。这通常通过子模性[10, 16]和行列式[1, 11,17]来实现。当视频序列很短时，整个序列上的全局多样性似乎是一个自然的选择[11,10]。然而，如果视频很长，比如通常持续几个小时的自我中心视频，就需要跟踪视频的时间结构，并且强制实施局部多样性[1,18]。局部多样性是指从短时间段中选择的镜头是多样的，但是如果它们在视频中相隔很远，那么允许存在视觉上相似的镜头。考虑一个关于“早上离家去购物，然后回家吃午饭”的视频序列。尽管早上的“家庭”场景的视频镜头可能与中午的相似，但摘要应该包含两者的一些镜头，以便使摘要成为视频所承载的完整故事。在本文中，我们主要关注总结极长（例如自我中心）视频的能力，并相应地关注能够观察到局部多样性的模型。在现有的工作中，顺序行列式点过程（SeqDPP）[1]和dppLSTM[19]都考虑了视频的时间动态。然而，它们都没有探索“局部多样性”应该有多“局部”。以SeqDPP为例，它要求用户手动将视频划分为相同长度的不相交段落，并在每个段落内和相邻段落之间都施加多样性。关于如何最佳划分视频序列为这些段落没有指导原则。此外，将段落划分为相同长度可能是次优的，因为不同类型的事件通常以不同的帧速率展开。dppLSTM中存在相同的问题。0通过动态Ground Sets增强SeqDPP进行监督视频摘要0我们提出通过一个潜变量来改进SeqDPP模型[1]，该潜变量动态地控制片段的时间跨度，然后以条件DPP的形式定义局部多样性。换句话说，我们使SeqDPP能够学习自动推断输入视频中局部多样性的程度。图1说明了我们的主要思想。给定顶部面板上显示的输入视频，我们的动态SeqDPP从中选择适当且可能不同长度的片段（参见中间面板），然后选择视频镜头（底部面板）并将它们放置在故事板上或将它们链接成视频摘要。本文的另一个贡献是为所提出的动态SeqDPP（DySeqDPP）提供了一种新颖的强化学习算法。虽然DySeqDPP看起来像是对纯SeqDPP的直接扩展，但如何高效地训练模型并不明显。除了大边界DPP [21]和贝叶斯DPP [22]之外，DPP[20]及其变种（例如SeqDPP [1]，dppLSTM [19]和SH-DPP[17]）几乎都是通过标志性的最大似然估计（MLE）进行训练。然而，对于具有潜变量的顺序模型来说，最大化似然函数往往是困难的；梯度上升无法追踪统计结构，EM算法[23]变得复杂且低效，除非假设顺序模型具有特殊的组合[24]。鉴于这些挑战，我们提供了一种强化学习的视角来理解SeqDPPs。所提出的DySeqDPP被用作代理与环境（输入视频）交互的策略。因此，我们通过策略梯度下降[25]来训练这个DySeqDPP模型。我们不仅不必明确处理潜变量，而且还可以通过将奖励函数定义为某些评估指标来在摘要生成器的训练和验证阶段之间建立桥梁。我们在标准视频摘要数据集上评估这个动态SeqDPP模型。广泛的结果表明，它明显优于竞争基线，尤其是纯SeqDPP，验证了动态确定局部多样性程度的必要性。本文的其余部分安排如下。第2节讨论了一些相关的现有视频摘要工作。之后，我们在第4节中描述了我们的动态SeqDPP和强化学习算法。我们在第5节报告实证结果，然后在第6节总结本文。02 相关工作02.1 视频摘要0自动视频摘要的不同算法通常基于相同的原则进行设计。这些信息性指导方针包括三个主要因素：（1）个体的趣味性或相关性[8,9]，即选择视频中重要的帧/镜头；（2）代表性[3-5]，即摘要应包含视频的主要事件；（3）集体多样性或覆盖范围[6,7]，即减少冗余的帧/镜头而不会丢失太多信息。这些因素在大多数现有工作中都得到了应用。接下来，我们将回顾两个常见类别中的代表性方法，即无监督和监督视频摘要。无监督视频摘要：许多先前的工作都是基于基本的视觉质量，如低级外观和运动线索[7, 8, 5, 9, 3, 4, 14, 15, 26, 6]。某些方法中利用图模型来进行事件检测[26,5]。总的来说，这些方法中用于决定包含或排除镜头的标准是由系统开发人员经验性地设计的。此外，一些方法利用Web图像进行视频摘要，基于的假设是静态Web图片往往包含人们感兴趣的信息，因此Web图像揭示了用户导向的重要性选择视频镜头/帧[4, 27-29]。监督视频摘要：最近，已经进行了几项关于监督视频摘要的探索，以实现各种目标[1,10-13, 9, 8, 30, 17-19]。它们在传统的无监督聚类算法上取得了更好的性能。其中，Gygli等人尝试添加一些监督特性，通过学习每个准则的权重来优化混合目标[12,10]。提出了一种分层模型，用少量标签进行学习，并优化生成包含有趣对象的视频摘要[30]。以自我为中心的视频[31]可以通过人和物体的重要性进行压缩；另一方面，郑等人明确考虑了一个子事件如何导致另一个子事件，以便为这类视频提供更好的故事感[9]。同时，姚等人提出了一种成对深度排序模型，以突出第一人称视频的视频片段[32]。总之，监督方法能够利用用户对合格视频摘要的意图，而不仅仅依赖于专家自己的观点来设计系统。此外，作为一种强大的多样子集选择模型，确定性点过程（DPP）已被广泛用于视频摘要。例如，Gong等人提出了第一个监督视频摘要方法[1]（SeqDPP），据我们所知，它模拟了局部多样性以捕捉视频的时间信息，而不是模拟全局多样性。将长短期记忆（LSTM）与DPP相结合已在[19]中研究，以同时模拟视频帧之间的可变范围时态依赖性和多样性。在[11]中，已经花费了一些精力研究如何将摘要结构从注释视频转移到未见过的测试视频中。Sharghi等人在[17,18]中探索了以查询为焦点的视频摘要。大边界分离原则已被用于DPP中估计参数[13]。我们将在第3.1节和第3.2节中详细介绍DPP和SeqDPP。强化学习（RL）为上述两个问题提供了统一的解决方案。REINFORCE算法[38]被用于训练循环神经网络[33]。Rennie等人从[33]中借鉴了一些思想，并在图像字幕任务中取得了非常有希望的结果[39]。我们注意到，在这些情境中使用RL只是锦上添花，因为虽然RL在一定程度上提高了结果，但MLE仍然适用。然而，对于我们的DySeqDPP模型，RL成为一种必要的选择，因为通过MLE高度涉及处理DySeqDPP中的潜变量。4Yandong Li, Liqiang Wang, Tianbao Yang, Boqing Gong26, 6]. Graph models are utilized for event detection in some approaches [26, 5]. Ingeneral, the criteria applied in those methods for making decisions about includingor excluding shots are devised by the system developers empirically. Besides, someapproaches leverage Web images for video summarization based on the assumptionthat the static Web pictures tend to contain information of interest to people, so the Webimages reveal user-oriented importance selecting video shots/frames [4, 27–29].Supervised video summarization: Recently, several explorations on supervised videosummarization have been exerted for various goals [1, 10–13, 9, 8, 30, 17–19]. Theyachieve superior performance over the traditional unsupervised clustering algorithms.Among them, Gygli et al. try to add some supervised ﬂavor to optimize mixture ob-jectives with learning each criterion’s weight [12, 10]. A hierarchical model has beenproposed to learn with few labels, and it is optimized to generate video summary con-taining interesting objects [30]. Egocentric videos [31] can be compacted with impor-tance of people and objects [8]; on the other hand, Zheng et al. explicitly consider howone sub-event leads to another in order to provide a better sense of story for those kindsof videos [9]. Meanwhile, Yao et al. propose a pairwise deep ranking model to highlightvideo segments of ﬁrst-person videos [32]. In conclusion, supervised methods are ca-pable of utilizing the intentions of users about what a qualiﬁed video summary is ratherthan designing the systems only relying on the experts’ own perspective.Besides, as a powerful diverse subset selection model, the determinantal point pro-cess (DPP) has been widely used for video summarization. For instance, Gong et al.propose the ﬁrst supervised video summarization method [1] (SeqDPP) as far as weknow, it models local diversity to capture the temporal information of videos ratherthan modeling global diversity. Combining long short-term memory (LSTM) with DPPshas been studied in [19] to model the variable-range temporal dependency and diver-sity among video frames at the same time. Effort has been spent to study transferringsummary structures from annotated videos to unseen test videos in [11]. Sharghi et al.explore the query-focused video summarization in [17, 18]. Large margin separationprinciple has been leveraged for DPPs to estimate parameters in [13].We will provide more details of DPPs and SeqDPP in Sections 3.1 and 3.2.Reinforcement learning (RL) provides a uniﬁed solution to both problems above.The REINFORCE algorithm [38] is utilized to train recurrent neural network [33]. Ren-nie et al. borrow ideas from [33] in the image captioning task and obtain very promisingresults [39]. We note that the use of RL in those contexts is icing on the case in the sensethat, while RL boosts the results to some degree, the MLE is still applicable. For ourDySeqDPP model, however, RL becomes a necessary choice because it is highly in-volved to handle the latent variables in DySeqDPP by MLE.03背景：DPP和SeqDPP0我们在本节中简要回顾了确定性点过程（DPP）和顺序DPP（Se-qDPP）。很快就会清楚前者如何促进所选子集的多样性，后者如何实现局部多样性。3.1DPPs3.2Sequential DPPs0通过使用动态基础集合增强SeqDPP进行监督视频摘要50离散DPP定义了一个在一个基础集合的子集上的分布，并且如果其项目彼此之间具有多样性，则为子集分配高概率。多样性的概念是由一个核矩阵引起的，其条目可以理解为项目之间的成对相似性。两个项目越相似，它们在从DPP中抽样的子集中共同出现的可能性就越小。更具体地说，给定一个基础集合Y = {1, 2, ..., N}，其中N个项目，令K ∈ R N × N0是一个称为DPP的对称正半定矩阵，它测量N个项目之间的成对相似性。随机子集Y �Y的分布是DPP，如果对于每个y � Y，我们有0P dpp ( y � Y ; K ) = det( K y ) , (1)0其中P dpp ( ∙ )是一个事件的概率，Ky表示由y索引的K的平方子矩阵，det( ∙)是一个矩阵的行列式。核矩阵K的所有特征值都在0和1之间。由于P (i, j ∈ Y ; K) = KiiKjj − K2ij，即，任意两个项目i,j在随机子集Y中共存的概率由它们的相似性Kij折扣。换句话说，其项目彼此之间不太相似的子集比其他子集被分配更高的概率。0L-ensemble。在实践中，使用所谓的L-ensembleDPP通常更方便，它直接为所有可能的子集分配原子概率。设L为R N ×N中的对称正半定矩阵。L-ensemble DPP以概率绘制子集y � Y，概率为0P L ( Y = y ; L ) = det( L y ) / det( L + I ) , (2)0其中I是一个单位矩阵。对应的边际核函数，用于定义（1）中的边际概率，由K = L (L +I)−1给出。0条件DPP。DPP的一个吸引人的特性之一是它存在条件分布的解析形式。对于任何y1 �Y和y0 � Y，y1 ∩ y0 = �，0P L ( Y = y1 ∪ y0 | y0 � Y ; L ) = det( L y1 ∪ y0 ) / det( L + I Y\ y0 ) , (3)0其中IY\y0是一个对角线条目由Y \y0索引的矩阵，其他地方都是零。Kulesza和Taskar在关于DPP的教程中写得很好。0为了进行监督视频摘要，提出了顺序DPP（SeqDPP）[1]。它遵循视频序列中固有的时间结构，从而克服了DPP的不足之处，DPP将视频帧/镜头视为随机可置换的项目。其主要技术是使用条件DPP构建马尔可夫链。给定一个长视频序列V，将其划分为T个不相交但连续的短段�Tt=1Vt=V。在第t个时间步，SeqDPP选择一个多样性子集的项目6Yandong Li, Liqiang Wang, Tianbao Yang, Boqing GongYYY�0Y1 Y2 ∙ ∙ ∙0X1 X2 ∙ ∙ ∙0V1 V2 ∙ ∙ ∙0图2。从左到右：确定性点过程（DPP）[40]，马尔可夫DPP[41]和顺序DPP（SeqDPP）[1]。阴影节点表示基础集合。0（例如，帧或镜头），通过变量Xt �Vt从相应的段中选择，条件是从最近的段中选择的项目xt−1 �Vt−1。这个子集选择变量Xt遵循由条件DPP给出的分布。0P seq (X t = x t | X t − 1 = x t − 1, V t) := PL(Y t = x t ∪ x t − 1 | x t − 1 � Y t; L t) (4)0= det(L t x t ∪ x t − 1) / det(L t + It V t), (5)0其中P L (Y t; L t)是一个具有ground set x t − 1 ∪ V t的L集合。记x 0 =�。所有子集选择变量的SeqDPP被分解为0P seq ({X t = x t} T t = 1, V) =0t = 1 P seq (X t = x t | X t − 1 = x t − 1, V t)。(6)0图2说明了SeqDPP并将其与vanilla DPP和Markov DPP[41]进行了比较。与将视频帧/镜头视为无序项目的vanilla或MarkovDPP不同，SeqDPP保持了段之间的时间顺序，但在单个段内的帧/镜头之间忽略了时间顺序。此外，它保留了相邻视频段的多样性特性，但对于相隔较远的视频段则没有。实际上，如果用户希望在冗长的视频中保留视觉上相似的视频剪辑，以完整地讲述视频的故事，那么它们可以相隔很远。03.3强化学习0考虑一个根据某种策略采取行动与环境进行交互的代理。遵循流行的马尔可夫决策过程（MDP）形式化，我们通过（S，A，P，R，γ）描述问题，其中S和A分别是状态（s）空间和动作（a）空间，P（s t +1 | s t，a t）是状态转换分布，R（s t +1；s t，at）是代理在状态s t处采取行动a t并导致状态s t+1时接收到的奖励，γ∈（0，1）是折扣因子。策略由π：S →A表示，它实质上是给定任何状态的动作的条件分布π（a t | st）。强化学习旨在找到使代理从时间步t开始最大化预期总折扣奖励Eπ∞i = 0 γ i R t +i的策略。04增强动态SeqDPP0现在我们准备介绍我们的动态SeqDPP（DySeqDPP）以及用于估计模型参数的强化学习算法。0通过动态Ground Sets增强SeqDPP以进行监督视频摘要704.1 DySeqDPP0我们使用MDP形式描述DySeqDPP模型（S，A，P，R，γ），使得相应的学习算法自然地遵循。我们注意到，除了新的DySeqDPP之外，本节的另一个贡献是强化学习对SeqDPP的理解。在这个框架下，SeqDPP和DySeqDPP可以看作是两种类型的随机策略。0时间步t的状态st：信息状态是关于代理对环境的观察（和奖励）历史的。它用于确定代理采取行动后接下来会发生什么。在我们的上下文中，状态st ={�t−1t′=1xt′，Vt}包括时间步t处视频Vt的动态分区和当前步t之前生成的视频摘要�t−1t′=1xt′。人们可能会想要将直到步骤t的所有视频段V1，∙∙∙，Vt作为状态来处理。我们认为这是压迫和不必要的，因为过去的摘要通过设计传达了类似数量的信息。时间步t的动作at：在DySeqDPP中，代理采取以下两个动作：1）从视频段Vt中选择子集Xt，2）提议下一个段Vt+1的长度Lt。子集选择变量Xt�Vt和分区提议变量Lt∈L共同定义了动作空间。换句话说，一个动作的形式为At = (Xt，Lt)，其实现被表示为at =(xt，lt)。我们将段的长度搜索限制在L ={5，6，∙∙∙，15}镜头的范围内。策略π：我们让代理以以下方式采取随机策略，0π(a_t | s_t) = P(x_t, l_t | s_t) = P(x_t | s_t) P(l_t | x_t, s_t), (7)0其中P(x_t | s_t)是用于构建SeqDPP的条件DPP，即0P(x_t | s_t) = P(x_t | ∪_{t-1}^{t'} x_{t'}, V_t) := P_L(Y_t = x_t ∪ x_{t-1} | x_{t-1} � Y_t; L_t) (8)0而P(l_t | x_t, s_t)被定义为softmax函数，0P(l_t | x_t, s_t) = P(l_t | ∪_{t'}^t x_{t'}, V_t) := softmax(w^T l_t φ(∪_{t'}^t x_{t'}, V_t)). (9)0上述内容中有几个值得澄清和讨论的要点。首先，方程(7-9)描述了我们的DySeqDPP模型的主体。它通过分区建议变量L_t改进了SeqDPP。它是一个潜在变量，因为用户在不明确知道他们心中的局部差异边界的情况下注释视频摘要。其次，我们在方程(8)中仅将DPP条件化于其最近的过去时间步(x_{t-1})，而不是包括在状态s_t中的摘要的整个历史。这是由于与SeqDPP相同的建模直觉，即为了保持摘要中的局部差异。第三，方程(9)中的φ(∙)通过最大池化当前状态s_t中所有视频镜头的表示以及根据方程(8)选择的新摘要x_t来提取特征。这确保了关于整个过去历史和当前视频的足够信息被提供给softmax，以便代理能够预测下一个段的适当长度。最后但同样重要的是，{w_l, l ∈L}是从用户注释的摘要中学习的模型参数。重要的是要注意，这些参数与任何特定的环境/视频都没有绑定，因此策略也可以推广到未见过的视频。我们将L集合DPP的核L的参数化推迟到第4.2节。状态-动作值函数：我们的目标是学习一种策略，以最大化代理接收到的预期总折扣奖励，称为状态-动作值函数，initial state and action (s0, a0) which are ﬁxed to s0 = ∅ and a0 = (x0 = ∅, l0 = 10)in our experiments. In contrast to conventional setups in reinforcement learning, we donot care about the state-action values at other states because only the initial state givesrise to a whole summary of the video, which is our interest. This insight also suggests aspecial design of the discount function g(γ, t). Instead of using the common practice γt,we let it be g(γ, t) = γ|V−t|, γ ∈ (0, 1), monotonically increasing with respect to t inorder to weigh the reward of the whole summary more than the incomplete summariesat any other time steps.Those differences highlight the fact that video summarization actually lacks somecharacteristics of reinforcement learning (e.g., delayed feedback). Hence, we have tocustomize the MDP formalism in order to match it with the goal of interest. Nonethe-less, by casting DySeqDPP as a policy, we can conveniently learn its model parametersby algorithms in reinforcement learning — we employ gradient descent in this paper.[Lt]ij = zTi W T W zj,zi = ReLU(U ReLU(V fi))(11)08 Yandong Li, Liqiang Wang, Tianbao Yang, Boqing Gong0t=0 g(γ, t) R_t | S_0 = s_0, A_0 = a_0，(10)0Q_π(s_0, a_0) :=E_π[∑_{t=0}^T g(γ, t) R_S_0 = s_0, A_0 = a_0],0其中 g(γ, t) ∈ [0, 1] 是一个折扣函数，奖励 R_t = R(s_{t+1}; s_t, a_t)是状态和动作的函数。对于视频摘要，奖励可以是评估指标，如精确度、召回率或F-score，计算代理选择的视频镜头∪_{t'}^tx_{t'}与用户对视频的摘要（直到当前段V_t）之间的差异。代理可以采取的总时间步数为T，满足条件∑_{t=0}^{T-1} l_t < |V|且∑_{t=0}^T l_t ≥ |V|。04.2学习DySeqDPP的策略梯度下降0在推导学习算法之前，我们先回顾一下DySeqDPP中的模型参数。我们对DySeqDPP中的两个条件分布进行参数化，以便进行样本外扩展，这样就可以将学习到的模型轻松应用于未见过的测试视频。第一个是分区提议分布（eq.(9)），第二个是每个时间步t的条件DPP（eq. (8)），其L集合核构造如下，0其中f i 是时间步t的地面集合x t − 1 ∪ V t中视频镜头i的特征表示。该特征向量通过具有ReLU激活函数的前馈网络。用θ表示网络（W，U，V）的权重和eq. (8)中的未知数{ w l , l ∈L}的并集。我们接下来使用策略梯度下降[42]推导出一个学习算法来估计模型参数θ。∇θJ|θ=θold = −Eτ∼π(θold)�T�t=1g(γ, t)Rt∇θ log p(τ; θ)|θ=θold�(12)≈ − 1KK�k=1� Tk�t=1g(γ, t) rtk ∇θ log p(τk; θ)|θ=θold�(13)∇θEx∼θ[f(x)]|θ=θold = Ex∼θold�∇θ log p(x; θ)|θ=θoldf(x)�.(14)∇θ log p(τ; θ) = ∇θ log�p(s0, a0)T�t=1p(st|st−1, at−1)π(at|st; θ)�(15)= ∇θT�t=1log π(at|st; θ) =T�t=1�∇θ log P(xt|st) + ∇θ log P(lt|xt, st)�(16)J(τ; θ) = −T�t=1g(γ, t) rt�log P(xt|st; θ) + log P(lt|xt, st; θ)�,0使用动态基准集增强SeqDPP进行监督视频摘要90回想一下，我们的目标是最大化初始状态和动作的状态-动作值函数。用J表示−Q π ( s0 , a 0 )，我们可以通过梯度下降将其最小化，0其中最后一个方程是通过从由旧参数θ old 实例化的策略中采样K条轨迹{ τ k }获得的，rtk 是代理在第t个时间步的第k条轨迹上获得的奖励，第一个方程是由以下事实导致的，0我们仍然需要计算eq. (13)中的� θ log p ( τ ; θ)。关键在于，在我们在第4节中提出的上下文下，状态转移分布p ( s t +1 | s t , a t)实际上是确定性的（因为动作a t 完全确定了摘要x t 和下一个段V t +1，从而确定了下一个状态）。因此，对于轨迹s 0 , a 0 , s 1 , a 1 , ∙ ∙ ∙ ，我们有0其中最后一个方程的第一项是相对于条件DPP的参数的梯度，第二项是softmax的梯度（eq. (9)）。0实现：我们可以使用许多现有深度学习工具的“autodiff”功能来获得梯度，而不是显式计算梯度。以PYTORCH（http://pytorch.org）为例。我们可以为一个轨迹编写以下程序，0然后使用backward()函数自动计算梯度，然后调用step()函数进行一步梯度下降。之后，我们采样另一个轨迹并重复该过程，直到终止条件。05个实验0我们在三个数据集UTE [8]，SumMe [12]和TVSum[43]上进行实验，并将我们的方法与几个竞争基线进行比较。010 Yandong Li，Liqiang Wang，Tianbao Yang，Boqing Gong05.1 UT自我中心（UTE）数据集0数据和特征。UTE[8]包含四个自我中心视频，每个视频持续时间在三到五个小时之间。它捕捉到了日常活动，如在杂货店购物，吃午饭，工作，与朋友聊天，与同事会面等。除了内容的多样性外，由于自我运动，这些视频也非常具有挑战性-结果，视角经常变化。运动模糊比“第三人称”视频更频繁且更严重。一般来说，一个活动的视频镜头放置在模糊帧和干扰视图之间。按照[18]的实验协议，我们进行了四轮实验。在每一轮中，我们使用两个视频进行训练，一个进行验证，最后一个进行测试。我们将视频均匀地分成5秒钟的镜头。从每个视频帧中，我们提取4,096D的深度CNN特征，作为在ImageNet[45]上预训练的VGG19网络的最后一个全连接层的激活。之后，我们使用PCA将特征维度从4,096D降低到512D，然后在每个镜头内进行最大池化，以获得镜头级特征表示（即eq.（11）中的f i）。0竞争方法。我们主要将我们的方法（DySeqDPP）与以下方法及其变体进行比较，这些方法像我们的方法一样在视频摘要中局部促进多样性：SeqDPP [1, 9]，dppLSTM[19]和均匀采样（Uniform）。我们让这些方法自动确定摘要的长度，除了均匀采样外，我们提供了oracle的长度。然而，对于SeqDPP，每个段的长度必须手动设置。除了原始工作[1]中建议的10-shot段，我们还包括5-shot和12-shot段的结果。最后，我们通过使用我们的强化学习算法改进了原始SeqDPP。这是通过将分区提议分布P（L t | xt，s t）固定为Dirac delta函数δ（L t = l）来实现的，其中l =10与时间步骤无关。此外，我们使用整个摘要的奖励进行学习，设置g（γ，t）=0，对于t < T和g（γ，T）= 1，除非另有说明。0评估。在文献中，系统生成的摘要已经以各种方式进行评估，包括但不限于用户研究[46]，与用户摘要重叠的帧的百分比[19]，基于低级视觉特征距离的二分图匹配[18]等。可以说，用户研究是“黄金”标准，但非常耗时。在本文中，我们使用基于“语义距离”的二分图匹配，即每个镜头的概念之间的汉明距离。这模拟了用户研究，因为“语义距离”与用户对系统生成的摘要和实际用户摘要之间的差异的感知强相关。每个视频镜头的概念是从Sharghi等人的早期工作中借用的[18]，在该工作中，作者要求用户从54个概念中选择与给定视频镜头相关的概念。给定两个摘要（即系统生成的摘要和用户摘要），我们在它们之间构建一个二分图，以镜头作为节点。一部分中的一个节点与另一部分中的所有节点连接，边的权重是从每个镜头的概念计算出的（负）汉明距离[18]。之后，我们找到大小K=8K=12K=16K=1520253035404550550使用动态基准集强化SeqDPP进行监督视频摘要110F-度量（%）0DySeqDPP强化SeqDPPSeqDPP（5-shotsegment）SeqDPP（10-shotsegment）SeqDPP（12-shotsegment）Uniform dppLSTM0图3.UTE数据集中不同K用于局部二分图匹配的平均F1分数的比较结果（越高越好）的结果，其中水平轴表示不同的K。0最大二分匹配的长度除以用户（系统）摘要的长度，以获得召回率（精确度）。此外，我们通过删除相距超过 K个时间步的视频镜头之间的边来改进此度量。换句话说，如果两个镜头相距超过 5 K秒，改进的评估度量中它们之间就没有边。0比较结果。图3报告了在 K =

下载后可阅读完整内容，剩余1页未读，立即下载