没有合适的资源?快使用搜索试试~ 我知道了~
一种改进的有监督视频摘要艾迪安·沙尔吉1[000000320051334]、阿里·博尔吉1、李成涛2[0000000323462753]、杨天宝3[0000000278585438]、龚伯清4[0000000339155977]1中央佛罗里达大学计算机视觉研究中心,佛罗里达2麻省理工学院,剑桥,马萨诸塞州3爱荷华大学,爱荷华州爱荷4腾讯AI实验室,华盛顿抽象。现在制作视频比以往任何时候都容易。虽然无处不在的视频数据是信息发现和提取的重要来源,但计算挑战是无与伦比的。自动总结视频已经成为浏览、搜索和索引视觉内容的实质性需要。本文是在静脉的监督视频摘要使用顺序决定点过程(SeqDPPs),模型的多样性的概率分布。我们改进了这个模型在两个折叠。在学习方面,我们提出了一个大的利润率算法来解决SeqDPP中的曝光偏差问题。在建模方面,我们设计了一个新的概率分布,使得当它被集成到SeqDPP中时,所得到的模型接受关于摘要的预期长度的用户输入。此外,我们还通过1)更多以自我为中心的视频,2)密集的用户注释和3)精细的评估方案来显着扩展流行的视频摘要数据集。我们在这个数据集上进行了大量的实验(总共大约60小时的视频),并将我们的方法与几个有竞争力的基线进行了比较。1介绍由于无处不在的采集功能,现在制作视频比以往任何时候都要容易得多。无人机和无人机从地面监控和随身携带的摄像机捕获的视频每天可以轻松达到千兆字节的规模。2017年,据估计全球至少有23.2亿部活跃的拍照手机[25]。2015年,全球共售出240万台GoPro机身相机[13]。虽然大视频数据是信息发现和提取的重要来源,但计算挑战是无与伦比的。自动总结视频已经成为浏览、搜索和索引视觉内容的基本需求。在提取视频摘要框架下,摘要由底层视频的重要镜头组成。然而,这种重要性的概念在文学作品中因作品Wolf将重要性定义为运动提示的函数[42]。Zhao和Xing通过重建误差[48]制定了它。Gygli等人学习兴趣性、代表性和一致性的混合度量,以找到重要的内容[12]。这些差异突出了视频求和的复杂性摘要的标准在很大程度上取决于内容、风格、长度等。2Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGong更重要的是,用户的偏好。例如,概括监控视频,跑步动作可能标志重要事件,而在足球比赛中,它是在整个视频中观察到的正常动作。为了克服这些挑战,文献中有两大类方法。一种是将问题域约束到共享大约相同特性(例如,长度和风格),以便专家可以设计一些特定于领域的良好摘要标准[35,27]。另一种是设计可以自动学习标准的模型,通常是以监督的方式从人类注释的摘要中学习[9,31,32,47]。后者更有吸引力,因为学习者可以针对不同的选择设置进行训练,而前者则不是那么可扩展。本文也是基于确定点过程(DPP)的有监督视频摘要[19]。DPP源于量子物理和随机矩阵理论,是平衡重要性和多样性的强大工具,这是提取视频摘要中的两个公理属性。事实上,一个好的摘要必须是集体多样的,在这个意义上,它不应该有冗余的信息。而且,一个被选入摘要的镜头必须为摘要的质量增加价值;否则,它在概要的上下文中并不重要。由于DPP的多功能性及其用于处理序列的扩展之一SeqDPP [9],它们已被用于视频摘要的丰富近期作品中[31,32]。本文从模型灵活性和学习策略两个方面对这些模型进行了改进。在学习方面,我们提出了一个大的利润率算法,以解决SeqDPP的曝光偏差问题解释如下。在建模方面,我们设计了一个新的概率块,使得当它被集成到SeqDPP中时,所得到的模型接受关于摘要的预期长度的用户输入。我们首先解释现有SeqDPP作品的暴露偏差问题-它实际上是许多序列到序列(seq 2seq)学习方法中的失配问题[36,37,1,40,30]。当通过最大化用户注释的可能性来训练模型时,模型将用户注释的“oracle”摘要作为输入。然而,在测试时,模型通过以贪婪的方式在输出空间上搜索来生成输出,并且其中间条件分布可以从偏离预言的前一个时间步接收输入换句话说,模型分别在训练和测试阶段暴露于不同的环境这种暴露偏差还导致训练阶段和推断之间的损失评估不匹配[28]。为了解决这些问题,我们将最初用于训练LSTM [41]的大间隔算法适应于SeqDPP。其主要思想是通过将测试时间的技术纳入用于训练的目标函数来减轻暴露偏差与此同时,我们添加到大利润率制定一个乘法奖励条款,这是相关的评估指标,以减轻损失评估不匹配。除了新的大利润率学习算法,我们还改进了Se-qDPP模型的一种新的概率分布,以允许用户控制系统生成的视频摘要的长度。为此,我们提出了一个广义DPP(GDPP),其中可以对大小施加任意的先验分布视频镜头的子集因此,香草DPP和k-DPP [17]两者都可以是序列决定点过程的改进。视频摘要3被认为是GDPP的特殊情况此外,我们可以方便地用GDPP替换当用户给出摘要的预期长度时,我们动态地将其分配给视频的不同片段,然后从片段中选择正确数量的视频镜头。我们进行了广泛的实验,以验证改进的技术监督视频摘要。首先,我们通过另外八个以自我为中心的视频[8]显著地扩展了UTE数据集[20]、其视频摘要的注释和每镜头概念[32]。按照[32]中描述的协议,我们为每个小时长的视频收集三个用户摘要,以及每个视频镜头的概念注释。我们评估的大利润率的学习算法,不仅建议的顺序GDPP,但也现有的SeqDPP模型。2相关工作及背景我们在本节中简要回顾相关工作。此外,我们还描述了DPPs和SeqDPPs的主体。读者可以参考[19]和[9]了解两个通用概率模型的更多细节和属性。监控视频摘要。近年来,数据驱动学习算法在各种计算机视觉问题中盛行。这主要是因为它们可以从数据中学习复杂的关系,特别是当底层关系过于微妙或复杂而无法手工制作时。视频摘要是这种情况的一个实例。不同用户偏好不同摘要的事实是问题复杂性的有力证据。为了克服这些障碍,一个解决方案是学习如何以监督的方式制作好摘要。然而,在文献中的监督程度是不同的。在[15,16,43,4]中,弱监督的网络图像和视频pri- ors帮助定义视觉重要性。[34,23]使用与视频相关的字幕最后,许多框架(例如,[47,9,31,32,12])直接从用户注释的摘要中学习摘要器。序列到序列学习。序列到序列(Seq2seq)建模已经成功地用于大量应用中,特别是在自然语言处理(NLP)中。通过使用递归神经网络(RNN),在各种领域中实现了令人印象深刻的建模能力和结果,例如机器翻译[1]和文本生成应用(例如,用于图像和视频字幕[39,44])。Seq2seq模型被方便地训练为条件语言模型,从而最大化观察到以输入和目标单词为条件的下一个地面实况单词的概率。这转化为仅仅使用单词级损失(通常是词汇表上的简单交叉熵)。虽然上述训练过程已被证明在各种单词生成任务中是有效的,但在测试时的推理过程中,学习的模型不被用作条件模型。传统上,采用贪婪方法来生成输出序列。此外,当评估时,使用序列水平评估度量如ROUGE [22]和BLEU [26]将完整的输出序列与金靶序列进行4Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGongIJtxt决定点过程(DPP)。 离散DPP [19,14]定义了测量每个子集中元素的负相关或排斥的基集的所有子集上的分布。 给定基集Y ={1,… N},可以定义K ∈RN×N,这是一个半正定核矩阵,表示每个元素的重要性以及N个元素之间的成对相似性。随机子集YY上的分布是DPP,如果对于每个yY,以下成立:P(yY;K)=det(Ky)(1)其中Ky是K的平方子核,其中行和列由y中的元素索引,并且det(. )是行列式函数。K被称为边际核,因为可以计算任何子集y被包括在Y中的概率。行列式的性质促进了多样性:为了具有高概率P(i,j ∈ Y; K)= KiiKjj−K2,每个元素的重要性项Kii和Kjj必须高,同时成对相似性项Kij必须低。为了直接指定Y的所有子集的原子概率,Borodin和Rains通过半正定矩阵L=K(I-K)−1[2]导出了另一种形式的DPP,其中I是单位矩阵。它以概率对子集y进行采样det(Ly)PL(Y=y;L)=,(2)det(L+I)其中分母det(L+I)是归一化常数。顺序DPP(seqDPP)。 Gong等人建议SeqDPP [10]保留偏序在地面上的元素给定元素的长序列V(例如,视频shots),我们将它们分成T个不相交但连续的分区STV=V。的不每个分区内的元素是无序的以应用DPP,并且分区之间的顺序在第t个时间步,SeqDPP通过变量XtVt从相应的分区中选择不同的元素子集并以从前一个分区中选择的元素xt−1Vt−1为条件在特别地,子集选择变量Xt的分布由条件民进党P(Xt=Xt|Xt−1=xt−1):=PL(Yt=xt∪xt−1|xt−1Yt;Lt)(3)代特=PL(Xt=xt;Ω)=,(4)det(Ωt+I)其中PL(Yt;Lt)和PL(Xt;Ωt)是两个L-系综DPP,其基集分别为xt−1∪ Vt和Vt,即条件DPP本身是“收缩”基集上的有效DPP两个L-系综核之间的关系[2][3][4][5][6][7][8][9]Ωt=.[(Lt+IVt)−1]VtΣ−1−I,(5)其中,IVt是与Lt大小相同的单位矩阵,除了对应于xt-1的对角项是0t=1序列决定点过程的改进。视频摘要5不1:t1:t−11:tt−1不3一种大间隔的SeqDPPs学习算法我们在本节中介绍了主要的大间隔学习算法。我们首先回顾了SeqDPPs [9]的训练和推理之间的不匹配,然后详细描述了大间隔算法SeqDPP的训练和推断 对于监督视频摘要的应用,通过最大化用户摘要的似然性(MLE)来训练SeqDPP。然而,在测试时,采用近似的在线推断:x1=a r gma xx∈V1P(X1=x),x2=a r gma xx∈V2P(X2=x|X1=x(1), …(六)我们注意到,在推断阶段中,在一个时间步长处的可能错误(例如,x(1)传播到未来,但MLE总是在训练阶段将oracle摘要馈送到SeqDPP(即,暴露偏倚[28])。此外,在训练中使用的基于似然的目标函数不一定与测试阶段中的评估度量很好地相关损失评估不匹配[28])。上述问题在seq2seq学习中很常见已经表明,如果明确地解决它们,可以实现改进的结果[6,29,5,28,33]。受这些发现的启发我们的算法是从[41]扩展而来的,[41]研究了训练递归神经网络的大间隔原则然而,我们不受波束搜索的约束,不需要将概率SeqDPP模型改变为任何非概率版本,并且还将测试时间评估度量拟合到大裕度公式中。我们现在设计一个损失函数如下:ΣTL(θ)=δ(x)∪x(t,x*)M(x*,x(t,x*);L),(7)t=11:t−11:ttt−1其包括两个分量:1)序列级成本δ,其允许我们根据测试时推断与oracle摘要相比有多错误来缩放损失函数,以及2)边际敏感损失项M,其惩罚oracle序列的概率未能超过模型推断的概率的情况。用xt和x*表示从第t个分区Vt分别由SeqDPP和“oracle”用户执行设x*代表直到时间步t的oracle摘要。序列级代价δ(x≠ 0∪xt,x*)可以任何准确度度量(例如,1-F分数),将系统生成的摘要与用户摘要假设SeqDPP能够从分区Vt−1中选择正确的子集x*,给出下一个分区Vt,边际敏感损失惩罚了模型从oraclex*中选择不同的子集xt,M(x,xt,x;L):=[1−logP(Xt=x*|x*)+logP(Xt=xt|x*)]+t t−1t t−1=[1−logdet(Lx∪x∪ )+logdet(Lxt∪x*t−1)]+(8)tt−1t−16Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGongt−1nnk=0其中[·]+=max(·,0)。当我们使用这个损失项来训练SeqDPP时,我们通常假设正确的子集xt−1=x*在前一个时间步长t-1选择。换句换句话说,我们逐步惩罚模型,而不是检查整个序列由模型预测的子集。这允许更有效的训练,因为它1)强制模型在每个时间步选择正确的子集,并且2)使我们能够根据评估度量的角度,根据时间步的错误程度而不是所有步骤的整个序列来设置梯度权重。与MLE相比,特别吸引人的是,大裕度公式灵活地考虑了评估度量。因此,它不需要SeqDPP来预测与oracle完全相同的摘要。相反,当根据评估度量,预测的和oracle摘要是等效的(不一定相同)时,不更新模型参数。4解开SeqDPP在本节中,我们提出了广义DPP(SeqG DPP)的顺序模型,其接受其内容遵循DPP分布的子集的大小的任意分布它允许用户提供要选择的全部项目的先验或约束。我们首先提出了广义DPP,然后描述如何使用它来设计的顺序模型,SeqG DPP。4.1广义DPPKulesza和Taskar对vanilla DPP进行了有趣的观察:它合并了变量Y的大小和内容,以便从基集中选择子集Y[17]。为了更清楚地看到这一点,我们可以将DPP重写为基本DPPPE(Y)的混合[18,引理2.6],1PL(Y;L)=det(L+I)ΣJYPE(Y;J)Yn∈Jλn,(9)ΣNΣ∝PE(Y;J)Yλn(10)k=0 J Y,|J|=kn∈J其中,第一求和是对子集的所有可能大小的求和,并且第二求和是关于每个子集的特定项将L系综内核特征分解为LΣ=Nn=1 λnvnvT,初等DPPPE(Y;J)的边际核为KJ=n∈J 有趣的是注意到,由于边际核的这种形式基本DPP不具有它们的对应L-系综。初级民进党PE(Y; J)总是选择|J |1、A=A,A=B,B=C,C=C,D=|Y|为|J|)= 1。当量公式(10)指示,为了从普通DPP中采样,可以从均匀分布中采样子集的大小,然后针对该子集绘制项目/内容我们建议扰动这个过程,并明确施加分布π={πk}N序列决定点过程的改进。视频摘要7Z在子集的大小上,PG(Y;L)∝ ΣNk=0ΣπkJ Y,|J|=kP(Y;J)Yn∈Jλn(11)因此,广义DPP(GDPP)PG(Y;L)需要DPP和k-DPP [17]作为特殊情况(分别当π是均匀分布和π是狄拉克δ分布时),提供了更大的另一个有趣的结果是,对于子集大小上的截断均匀分布π,我们得到了一个DPP,它选择具有有界基数的子集P(Y |k1≤ |Y |≤ k2; L)。这样的约束来自实际应用,如文档摘要,图像显示和传感器放置。标准化。GDPP的归一化常数ΣJYπ|J|Qn ∈ J λn。详情见补充材料(补编)。计算器COM-这种归一化的复杂性取决于L的特征分解。利用特征值λn,我们可以在多项式时间O(N2)内计算常数ZG,其中一些对recursiv e algoΣrithm [1Q8,Algorithm 7]的轻微改变,其中ich计算所有el-i-i互补对称多项式|=k|=kn∈J λn,其中k = 0,···,N,时间复杂度为O(N2).因此,计算GDPP的归一化常数的总体复杂度为与归一化L-系综DPP的复杂度大致相同(即,计算det(L+I))。评价利用归一化常数ZG,我们准备写出从GDPP的基集合中选择特定子集yY的概率,π|y|PG(Y=y;L)=det(Ly)(12)G其中简明的形式是由于初等DPP的性质:y(J)= 0,当|y|为|J|.作为k-DPP的混合物的GDPP。上面表达的GDPP与k-DPP密切相关[17]。由于GDPP的定义,这并不奇怪(参见。当量(11))。实际上,GDPP可以被精确地解释为N+1k-DPPPk(Y= 1)y;L),k=0,1,...,N,PG(Y=y;L)=π|y| Σ|J|=|y|ZGQn∈Jλn P|y|(Y=y; L)如果所有k-DPP,即,混合成分,共享相同的L-系综核L作为GDPP。如果我们为混合权重引入一个新的符号,GDPP可以写成,πk/ZGΣ|J|=k Qn∈J λn,PG(Y;L)= ΣNk=0pkpk(Y; L).(十三)此外,没有必要坚持所涉及的pk表达式。在一些场景下,直接玩pk可以显著地简化学习过程。在下一节中,我们将在形式(13)的G8Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGongi=0时|不|t不KK精确采样。 在将G DPP解释为以下各项的加权组合之后k- DPP,我们有以下概率分解P(Y |Y G DPP)= P(Y |Y k-DPP)P(k|k G DPP),其中,稍微滥用了一点符号,我们让kGDPP表示从GDPP中抽取k-DPP的概率因此,我们可以采用来自GDPP的两阶段采样– 从离散分布p ={pi}N中 采 样 k 。– 来自k-DPP的样品Y补充材料通过马尔可夫链提出了另一种抽样方法4.2GDPP的序列模型(SeqG DPP)在本节中,我们构建了广义DPP(SeqG DPP)的顺序模型,使得它不仅像SeqDPP那样对时间和多样性属性进行建模,而且还允许用户指定视频摘要长度上的先验或约束我们将长视频序列V分割成T个不相交但连续的短片段t=1Vt=V。SeqG DPP的主要思想是自适应地分配期望长度M0的视频摘要到不同的视频片段,在每个视频片段上定义。特别地,我们替换SeqDPP中的条件DPP(参见图1)。当量(4)由GDPP,P(Xt=Xt|Xt−1=xt−1)(14),PG(Xt=xt;Ωt)= pt P|X|(Xt= xt; Ωt),(15)其中最后一个等式遵循Eq. 并且回想一下,L系综内核Ωt对从刚刚过去的片段xt-1Vt-1中选择的视频帧/镜头的依赖性进行编码(参见第2节,等式(5))。 离散分布pt={pt}为在时间步长t处的子集的所有可能大小{k}上。我们根据下式自适应地更新ptpt<$exp(−α(k−µt)2),(16)其中,[0,|Vt|]是我们关于应该从当前视频片段Vt中选择多少项目的信念,并且集中因子α> 0调整信念的置信度。当α接近无穷大时,GDPPPG(Xt;Ωt)退化为k-DPP,并在视频摘要中精确选择µt项我们对参数化平均值μt的直觉包括三条信息:整个视频摘要上的预期长度M0、直到第t个时间步长为止已被选择到摘要中的项目的数量以及当前视频片段中的视觉内容的多样性Vt。具体地说,Σt−1µt,M0−t′=1 |xt′ |+ wTφ(V)(17)T−t+1t序列决定点过程的改进。视频摘要9t=1t=1我其中,第一项是要从剩余视频片段中的每一个中选择以构成长度为M_0的总体概要的项目的平均数量,第二项是取决于当前视频片段的平均数量的偏移并且Φ(·)e从片段中提取特征向量我们从培训中学到了数据-用户注释的视频摘要及其底层视频。我们期望视觉上均匀的视频片段产生负的wTφ(Vt),使得将从中选择少于平均数量的项目,反之亦然。4.3学习与推理为了样本外扩展的目的,我们将以这样的方式参数化SeqG DPP,即在时间步长t,它以对应的视频片段Vt和来自紧接的前一时间步长的所选镜头Xt-1=xt-1为我们使用D基GDPP的简单凸组合,其内核在视频上被预定义用于参数化。具体地,在每个时间步长t处,ΣDP(Xt|xt−1,Vt)=PG(Xt;Ωt,Vt),i=1βiPG(Xt;Ωt(i),Vt)Σ|Vt|=k=0ΣD不Ki=1βiPk(Xt;Ωt(i),Vt)(18)其中,基本G个DPP的L系综k∈L_t(i),i=l,…,D是从条件DPP的对应的核L_t(i)导出的(等式1)。(5))。我们从部分Vt和预先选择的子集中计算Lt(i)的不同高斯RBF核xt−1通过改变带宽。组合系数(βi≥0,iβi=1)为从培训视频和总结中学习。考虑单个训练视频V=∪TVt及其用户摘要{xtVt}T以便于呈现。我们通过最大化对数似然来学习SeqG DPPΣTL= logSeqt=1llogP(Xt=Xt|xt−1,Vt)ΣT=t=1不|xt|ΣT+t=1日志.ΣDi=1βiP|xt|.ΣΣXt= xt; t(i).5实验装置和结果在本节中,我们提供了关于编译以自我为中心的视频摘要数据集、注释过程和所采用的评估过程的细节,随后是对该数据集的广泛比较实验。数据集。虽然存在各种视频摘要数据集[11,34,7],但我们优先考虑消费级以自我为中心的视频。它们通常很长,并且具有很高的冗余度,这使得下游应用程序迫切需要摘要。plogP10Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGong表1:关于三个注释器生成的摘要长度的一些统计数据。用户1用户2用户3OracleMin79744574Max174222352200Avg. 105.75±27.21133.33±54.04177.92±90.96135.92±45.99UT Egocentric [20]数据集包含4个视频,每个视频长3到5小时,涵盖驾驶,购物,学习等活动。在不受控制的环境中。在本文中,我们通过从社交互动数据集[8]中扩展另外8个以自我为中心的视频(平均每个视频超过6小时)来构建我们的视频摘要数据集。这些视频是使用个人在参观迪斯尼公园期间佩戴的头戴式摄像机录制的。我们的努力产生了一个由12个长的以自我为中心的视频组成的数据集,总持续时间超过60小时。用户摘要集合。 我们招募了三名学生来总结视频。我们给他们的唯一指令是在5秒视频拍摄水平上操作也就是说,一旦选择了镜头中的任何帧,则将完整镜头选择到摘要中在没有任何进一步约束的情况下,参与者使用他们自己的偏好来以他们选择的粒度表1的一些统计数据表明,用户对摘要长度有自己的不同偏好。Oracle摘要。受监督的视频摘要方法常规上在每个视频的一个目标摘要每个视频获得3个用户摘要后,我们使用贪婪算法将它们聚合成一个oracle摘要,该算法已在以前的几个作品中使用[9,31,32],并使用它们作为监督进行学习。我们把贪婪算法的细节留给补充材料。功能. 我们遵循Zhang等人。[47]在提取特征时,即,使用预先训练的GoogleNet[38]来获得帧评价 有许多不同的指标来评估质量。包括用户研究[21,24]的视频摘要的完整性,使用低级或像素级测量来比较系统摘要与用户摘要[9,15,16,46,48],以及为两个摘要定义的时间重叠[11,12,27,47]。我们与[45,31,32]有相同的观点,即视频摘要的评估应考虑摘要传达的高级语义。从语义的角度来衡量系统摘要的质量,Sharghi等人。[32]提出获得密集镜头级概念注释,称为语义向量,其中1/0指示视觉概念的存在/不存在(例如,SKY、CAR、TREE等)。我们可以直接测量两个镜头之间的相似性-计算它们的概念向量的交并(IoU )例如,如果一个镜头由{STREET ,TREE,SUN}标记,而另一个镜头由{LADY,CAR,STREET,TREE}标记,则IoU为2/5 = 0。4.第一章在定义了镜头之间的相似性度量之后,可以序列决定点过程的改进。视频摘要11100000100001000100101图1:12个视频的所收集的注释中的概念出现的计数。在二分图上方便地执行最大权重匹配,其中用户和系统摘要被放置在图的相对侧。在收集每个镜头的概念之前,我们必须指定一个好的字典。我们从[32]的字典开始,并删除不经常出现的概念,如BOAT和OCEAN。此外,我们在视频的帧上应用SentiBank检测器[3](具有超过1400个预先训练的分类器),以列出在整个数据集中常见的视觉概念。接下来,通过观看视频,我们从该列表中选择最佳候选项,并将其附加到包括54个概念的最终词典中(参见图1)。配备了概念词典,我们从每个镜头中统一采样5帧这里的指令是,如果一个概念出现在5个帧中的任何一个中,则必须选择该概念。我们每次拍摄都雇佣3个土耳其人,并通过工会来汇集他们的注释。对平均而言,每个镜头都标记了11个概念。这显著大于Sharghi等人的4个标记/拍摄的平均值。[32]这是一种更可靠的评估方法。评价亚马逊机械土耳其人图1显示了我们数据集中出现的每个视觉概念的总数。虽然[32]中引入的度量使用高级概念比较摘要,但它允许一个摘要中的镜头与另一个摘要中的任何镜头匹配,而没有任何时间限制。我们通过对成对相似性应用时间滤波器来修改该度量。我们使用两种类型的过滤器:1)Π(矩形)函数和2)高斯函数。Π滤波器将时间范围之外的相似性设置为零,因此迫使度量仅将镜头与其时间上接近的候选匹配。另一方面,高斯滤波器对相距很远的匹配应用衰减因子为了评估摘要,我们将其与所有3个用户注释的摘要进行比较,并求平均值。我们通过改变滤波器的参数(分别在Π和高斯滤波器中的时间窗口大小和带 宽 ) 来 报 告 性 能 此 外 , 我 们 计 算 了 表 2 中 平 均 F1 评 分 的 曲 线 下 面 积(AUC)。值得一提的是,将滤波器的参数设置为无穷大导致由Sharghi等人定义的相同度量。[32 ]第32段。12Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGongi=1数据分割。为了对模型进行全面评估,我们采用了留一策略。因此,我们运行了12组实验,每次留下一个视频用于测试,两个用于验证(调整超参数),剩下的9个用于训练。我们报告了12轮实验的平均结果。大幅度训练/推理。与seq2seq学习[41,28]中的实践类似,我们通过使用SGD最大化用户摘要的可能性来预训练模型。这为模型找到了良好的初始化,从而导致更快的训练过程和更好的测试视频泛化在测试时,我们遵循Eq.(6)生成系统摘要。SeqGDPP详细信息。 给定使用GoogleNet提取的特征,我们计算高斯RBF核{Lt(i)}D通过改变带宽σi= 1。其中σ0是视频镜头之间的所有成对距离的中值然后通过等式计算G个DPP的基本核{Ωt(i)}(5)使得它们考虑两个相邻时间步长之间的相关性我们还需要提取特征向量Φ(Vt)以捕获每个视频片段Vt中的可变性。由方程式(17),我们使用这样的特征向量来帮助确定分布p在可能的子集大小上的平均值。直观地说,较大的子集应该是从具有更频繁的视觉外观变化的片段中选择。因此,我们计算针对φ(Vt)的分段Vt内的每个特征维度的标准偏差。SeqG DPP中有三组参数:在子集大小上的分布中的α和w,以及针对一些基GDPP的凸组合的{βi}我们将w和{βi}视为要通过MLE或大裕度算法学习的模型参数,并且α作为根据验证集调整的超参数。计算成本比较。SeqDPP花费约28秒完成MLE训练的一个时期,并且SeqG DPP花费约4秒。后者更快,因为SeqG DPP的内核参数化不太复杂。在我们使用大间隔方法对其进行训练之后,任何一个模型的训练时间都增加了一倍。这并不奇怪,因为大余量方法引入了用于计算余量的额外成本。然而,我们发现,可以通过以下方式控制该成本我们首先通过常规MLE训练模型(SeqDPP或SeqGDPP)之后,我们通过大余量方法对其进行通过这样做,大间隔算法收敛所需的时间少于10个历元5.1定量结果和分析在本节中,我们报告了将我们提出的模型与各种基线进行比较的定量结果:– 制服顾名思义,我们从视频中以固定步长对镜头进行采样,使得生成的摘要具有与oracle摘要相同的长度(相同的镜头数量– 子模式Gygli等人[12]以监督的方式从用户摘要中学习兴趣度、代表性和一致性的凸组合。在试验序列决定点过程的改进。视频摘要13LM-SeqDPPLM-SeqGDPPSubModUniformSeqDPPF1(%)表2:监督视频摘要的比较结果(%)。通过图2中绘制的F1评分曲线计算AUC,直至60秒标记。蓝色和红色将基本模型及其大边距版本分组。AUCΠAUC高斯制服SubMod [12] 11.20 11.12SuperFrames [11] 11.46 11.28LSTM-DPP [47] 7.38 7.36SeqDPP [9]9.71 9.56LM-SeqDPP15.05 14.69SeqGDPP15.29 14.86LM-SeqGDPP15.87 15.435050404030302020101000 10 20 30 40 50 60inf秒(a) Π时间滤波器00 10 20 30 40 50 60 inf秒(b) 高斯时域滤波器图2:监督视频摘要的比较结果。X轴表示时间滤波器的参数。在高斯滤波器的情况下,它表示匹配在时间上可以相隔多远(以秒为单位),而在高斯滤波器中,它是内核带宽。时间,给定预期的摘要长度,这是Oracle摘要的长度,模型生成该长度的摘要。– 超级帧。在[11]中,Gygli et al.首先将视频分段成超帧,然后测量它们各自的重要性分数。给定分数,实现最高累积分数的子集被认为是期望的总结。由于镜头在我们的数据集中是5秒长,因此我们跳过超帧分割组件。我们训练了一个由三个完全连接的层组成的神经网络来测量每个镜头– LSTM-DPP。在[47]中,Zhang et al.利用LSTM来对视频镜头之间的时间依赖性进行建模,并且进一步使用DPP来在选择重要镜头时实施多样性。与以前的基线类似,此模型可以访问测试时的预期摘要长度。LM-SeqDPPLM-SeqGDPPSubModUniformSeqDPPF1(%)14Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,and BoqingGong– SeqDPP. 这是Gong等人的原始框架[9]的文件。与其他基线不同,此模型自动确定摘要长度。比较结果如表2和图2所示。有一些有趣的观察结果如下所示。1) 比较SeqDPP和大间隔SeqDPP(由LM-SeqDPP表示),我们观察到由于大间隔训练算法的显著性能提升。如图(2)所示,在不同的滤波器参数中,性能差距始终很大虽然SeqDPP和LM-SeqDPP自动确定摘要长度,但我们发现后者在长度和传达的语义信息方面都类似于2) 将SeqG DPP与SeqDPP进行比较,对于SeqDPP,用户不能调整摘要的预期长度,我们可以看到SeqG DPP显著优于SeqDPP。这并不奇怪,因为SeqDPP没有考虑用户提供的摘要长度的机制因此,SeqDPP选择的快照数量有时会比用户摘要的长度少得多或多得多在此,SeqG DPP和SeqDP两者都通过MLE训练。3) 大间隔SeqG DPP(LM-SeqGDPP)的表现略好于SeqG DPP,并且优于所有其他方法。两个模型都没有生成摘要在oracle长度中,LM-SeqGDPP的优点仅仅是由于它选择比SeqG DPP更好地匹配用户摘要的镜头。4) 如前所述,我们的改进评估方案是每镜头概念的二分匹配的推广[31]-如果我们将过滤器参数设置为无穷大(因此过滤器没有强制执行的时间限制),我们可以获得原始度量的性能。我们可以从图2中看到,在不同的评估指标下,不同方法的相对顺序保持大致相同,但改进后的方法在方法之间提供了更清晰和一致的裕度。因此,F1评分曲线下的AUC给出了比原始度量更可靠的定量比较(即,图(2)中曲线的最右点6结论在这项工作中,我们对改进监督视频摘要的顺序决定点过程(SeqDPP)模型我们提出了一个大利润率的培训计划,促进学习模型更有效地通过广告-敷料的共同问题,在大多数seq 2seq框架-此外,我们引入了一个新的概率模块,GDPP,这使得所得到的顺序模型接受先验的预期总和玛丽长度。最后,我们编译了一个大型视频摘要数据集,包括12个以自我为中心的视频,总计超过60小时。我们收集3个用户注释的摘要,每个视频以及密集的概念注释所需的评估。在该数据集上的实验验证了我们的大间隔训练算法以及顺序GDPP模型的有效性鸣谢。这项工作得到了NSF IIS 1741431 1566511的部分支持,Adobe的礼物和NVIDIA的礼物GPU。序列决定点过程的改进。视频摘要15引用1. Bahdanau,D.,周,K.,Bengio,Y.:通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv:1409.0473(2014)2,32. Borodin,A.,Rains,E.M.: 统计物理学报121(3),2913. Borth,D.,Ji,R.,陈,T.,Breuel,T.,Chang,S.F.:大规模视觉情感本体和使用形容词名词对的检测器。第21届ACM多媒体国际会议论文集。pp. 223-232.ACM(2013)114. Chu,W. S.,Song,Y.,Jaimes,A.:视频共同总结:通过视觉共现的视频摘要。IEEE计算机视觉和模式识别会议论文集。pp.第35845. Collins,M.Roark,B.:使用感知器算法的增量解析第42届计算语言学协会年会论文集p. 111. 计算语言学协会(2004)56. Daume',H.Langford,J.Marcu,D.:基于搜索的结构化预测。机器学习75(3)、2977. DeAvila,S.E. F.、 Lopes,A. P. B., daLuzJr,A., deAl buquerqueAr au'jo,A.:Vsumm :一种用于生成静态视频摘要的机制和一种新颖的评估方法。PatternRecognition Letters32(1),568. Fathi,A.,Hodgins J.K.J. M. Bogg社交互动:第一人称视角。在:COM-计算机视觉与模式识别(CVPR),2012年IEEE会议。pp. 1226-1233. IEEE(2012)3,109. Gong,B.,Chao,W.L.,格劳曼K. Sha,F.:用于监督视频摘要的多样顺序子集选择。在:神经信息处理系统的进展。pp. 206910. Gong,B.,Chao,W.,格劳曼K.Sha,F.:用于监督视频摘要的多样顺序子集选择神 经 信 息 处 理 系 统 进 展 ( Advances in Neural Information Processing Systems ,NIPS)。pp. 206911. Gygli,M.,Grabner,H.,Riemenschneider,H.,Van Gool,L.:从用户视频创建摘要。在:欧洲计算机视觉会议pp. 505-520 Springer(2014)9,10,1312. Gygli,M.,Grabner,H.,Van Gool,L.:通过学习目标的子模块混合进行视频摘要。IEEE计算机视觉和模式识别会议论文集pp. 309013. Hirsch,R.:抓住光:摄影的社会美学史泰勒·弗朗西斯(2017)114. Hough,J.B., Krishnapu r,M.,Peres,Y., Vi ra'g ,B. 等:决定性过程和独立性。概率调查3,20615. Khosla,A.Hamid,R.,Lin,CJ.Sundaresan,N.:大规模视频摘要网络图像先验。IEEE计算机视觉和模式识别会议论文集pp. 269816. Kim,G.,锡加尔湖Xing,E.P.:大规模网络图像和视频集合的联合摘要,在:计算机视觉和模式识别IEEE会议论文集. pp. 422517. Kulesza,A.,Taskar,B.:k-dpps:固定大小的决定点过程。第28届国际机器学习会议(ICML)论文集pp. 119318. Kulesza , A. , Taskar , B. : 机 器 学 习 的 行 列 式 点 过 程 。FoundationsandTrendsRinMachineLearning5(216Aidean Sharghi,Ali Borji,Chengtao Li,Tianbao Yang,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功