没有合适的资源?快使用搜索试试~ 我知道了~
1主题相关视频Rameswar Panda和Amit K.Roy-ChowdhuryDepartment of ECE,UC Riversiderpand002@ucr.edu,amitrc@ece.ucr.edu摘要大量的视频集合通过主题关键字(如“埃菲尔铁塔”或“冲浪”)分组为集群这样一个主题紧密的视频集合彼此之间具有相互影响,可以通过利用集合中其他视频的信息我们基于这种直觉开发了一种新颖的方法来提取一个总结,该总结同时捕获给定视频中出现的重要细节以及从视频集合中识别的一般性。与主题相关的视频提供视觉上下文,以识别正在总结的视频的重要部分。我们通过开发一种协作稀疏优化方法来实现这一点,该方法可以通过半二次最小化算法有效地求解我们的工作建立在信息检索和自然语言处理的协作技术的思想之上,这些技术通常使用其他类似对象的属性来预测给定对象的属性。在两个具有挑战性和多样性的数据集上的实验很好地证明了我们的方法在最先进的方法上的有效性1. 介绍随着最近互联网上“大(视频)数据”的爆炸式增长因此,视频摘要,自动化这一过程,引起了强烈的关注,在最近几年。通过探索不同的设计标准(代表性[25,11,66,8,49,6],兴趣-重要性[13,31,41],重要性[17,60]),或者开发监督算法[27,18,15,40,50]。然而,除了[6]的显著例外,现有方法的一个常见假设是视频彼此独立,因此通过忽略可能存在于视频之间的关系来单独进行摘要任务。让我们看一下图1a中的视频。 视频是代表-(a)(b)(c)图1. 考虑三个视频的主题每一行示出了来自相应视频的由中间帧表示的六个均匀采样的镜头。很明显,所有这些视频都相互影响,因为许多视觉概念往往会在它们之间反复出现因此,我们假设,这样的主题关闭视频可以提供更多的知识和有用的线索,从给定的视频提取摘要基于这种直觉,我们提出了一种摘要算法,该算法从视频(b)(c)中提取与主题相关的视觉上下文,以自动地从给定的视频(a)中提取信息摘要。被六个均匀采样的镜头所憎恨。现在考虑图1b和1c中的视频以及图1a中的视频。这些视频是相互独立的,还是它们之间存在某种共同点?答案很清楚:所有这些视频都属于同一个主题因此,这些视频的摘要将彼此具有重要的共同信息。因此,附加的主题相关视频的上下文可以通过提供更多的知识和附加的线索来从指定的视频中提取信息量更大且更紧凑的摘要而有益。我们建立在这种直觉,提出了一个新的视角来总结一个视频,利用邻域知识,从一组主题相关的视频。在本文中,我们提出了一个协作视频总结(CVS)的方法,利用视觉上下文从一组主题相关的视频提取一个信息摘要的一个给定的视频。我们的工作建立在来自信息检索(IR)和自然语言处理(NLP)的协作技术[2,28,61]的思想基础上,这些技术通常使用其他类似对象的属性来预测给定对象的属性。我们通过找到一组稀疏的代表性和多样的镜头来实现这一点,70837084····Neously捕获在给定视频中出现的重要的特殊性我们的基本假设是,一些主题接近的视频实际上相互影响,因为许多重要的视觉概念往往会在它们之间重复出现。我们的方法如下。首先,我们使用时间分割算法将每个视频分割成多个非均匀镜头,并使用提取的C3D特征上的均值池方案通过特征向量表示每个镜头(第3.1节)。然后,我们开发了一种新的协作稀疏代表选择策略,通过利用主题相关视频的视觉上下文(第3.2节)。具体来说,我们制定的任务,发现摘要作为一个2,1-范数稀疏优化问题,其中的非零行的稀疏系数矩阵表示的相对重要性,相应的镜头。最后,该方法输出由具有最高重要性分数的镜头组成的视频摘要(第3.3节)。请注意,该摘要将仅针对感兴趣的一个视频,而从其他主题相关的视频中挖掘视觉上下文1我们工作的主要贡献如下:我们提出了一种新的方法来提取一个信息丰富,通过利用来自主题相关视频的附加知识来对指定视频进行分散式摘要。附加的主题相关视频提供视觉上下文以识别视频中的重要内容我们开发了一个协作稀疏代表性选择策略,通过引入一个共识正则化器,该正则化器同时捕获给定视频中出现的重要特殊性,以及从附加主题相关视频中识别的一般性。本文提出了一种基于半二次函数理论的非光滑优化算法,将最小化问题简化为两个独立的线性系统问题。我们证明了我们的方法在两个视频摘要任务的有效性-面向主题的视频摘要和多视频概念可视化。通过在CoSum [6]和TVSum50 [49]视频数据集上进行的大量实验,我们证明了我们的方法优于两种摘要任务的竞争方法。2. 相关工作视频摘要已经从多个角度进行了研究[34,53]。虽然这些方法可能是监督的或无监督的,但摘要的目标永远不会是产生一个紧凑的视觉摘要,封装视频中信息量最大的部分。1在这项工作中,我们假设额外的主题相关的视频是可用的事先。然而,在大多数实际情况下,从搜索引擎检索的视频与主题名称作为查询可能包含离群值和不相关的视频由于不准确的查询文本和多义。一个可行的选择是使用聚类[23]或额外的Meta数据来细化结果。已经提出了许多工作来使用监督学习来总结视频。代表性方法使用类别特定的分类器进行重要性评分[40,50]或学习如何从人类创建的摘要中选择信息丰富且多样化的视频子集[18,15,45,65]或学习重要的方面,如面部,手部,物体[27,30,5]。尽管这些方法已经显示出令人印象深刻的结果,但它们的性能在很大程度上取决于大量的标记示例,这些示例对于无约束的Web视频是难以收集的。另一方面,我们的CVS方法利用来自主题相关视频的视觉上下文,而不需要任何标记的示例,因此可以容易地应用于对具有不同内容的大规模网络视频进行总结。在没有监督的情况下,摘要方法必须依赖于低级视觉索引来确定视频部分的相关性。已经研究了各种策略,包括聚类[1,9,16,38],兴趣预测[31,17]和能量最小化[42,13]。利用抓取的网络图像也是视频摘要的另一个最新趋势[25,49,26]。然而,所有这些方法通过忽略可能存在于视频之间的关系来独立地对视频进行求和。使用相邻主题相关视频来改进摘要仍然是一个新颖的并且在很大程度上未得到解决的问题。与 我 们 最 相 关 的 工 作 是 视 频 共 同 摘 要 方 法(CoSum)[6]。它旨在基于共性分析的思想[7]在同一主题的视频中找到视觉上共同出现的镜头。CoSum还为面向主题的视频摘要引入了一个新的基准数据集然而,CoSum和我们的方法有很大的不同。CoSum为每对视频构建加权二分图,以便找到最大biclique,其在给定大量主题相关视频的情况下在计算上是低效的。另一方面,我们的方法提供了一种更灵活的方式,通过协作稀疏优化框架找到最具代表性和多样化的视频镜头,可以有效地解决同时处理大量网络视频的问题。此外,CoSum采用计算密集型镜头级特征表示,即观察和交互特征的组合[21],其中涉及提取低级 别 特 征 , 如 CENTRIST , Dense-SIFT 和 HSV 颜 色矩。相比之下,我们的方法利用了通用的深度学习特征,这些特征在表征外观和运动方面更有效,更准确。我们把稀疏编码作为CVS的构建块,主要是受到其在数据摘要中的稀疏性和代表性建模方面的吸引力的启发。与之前的作品[8,11,66,36,37]相比,我们开发了一种新的协作稀疏优化,可以找到关于给定视频的信息以及主题相关视频集的镜头。7085··∈∈|| || /近年来,协作技术已经被广泛应用于几个IR和NLP任务:协作推荐[2,44],协作过滤[61],协作,[3]和文本摘要[56,54,55]。所有这些工作(包括我们的工作)的共同思想是,在假设相似的对象将具有相似的行为和特征的情况下,利用多个对象之间的交互。3. 协作视频摘要摘要是一个浓缩的概要,传达了原始视频中最重要的细节。具体地说,它由几个镜头组成,这些镜头代表了短时间内输入视频的最重要部分。自从,3.2. 协作稀疏代表性选择我们开发了一个稀疏优化框架,该框架将给定视频的信息内容和主题相关的视频,以提取指定视频的信息摘要。令v是要被总结的视频,并且v表示来自视频集合的剩余主题相关视频的集合 令视频的特征矩阵v和varegiv enbyXRd×n和XRd× n D是C3D特征的维数,并且n表示视频v中的镜头的数量。 表示剩余的主题相关视频v中的镜头的总数。制定。稀疏优化方法[8,11]通过最小化线性重建误差,从视频本身中找到代表性镜头,重要性是一个主观的概念,我们定义一个好的总和-最小值1 <$X −XZ<$2+λ<$Z <$(一)玛丽是一个具有以下特性的人。Z∈Rn×n2Fs2, 1• 代表.原始视频应该是侦察-哪里||Z||二,一卢恩i=1 ||2||2和||Zi||2是以下的2-范数使用提取的摘要以高精度构造我们将这种代表性的概念扩展为找到同时最小化给定视频以及主题相关视频集的重构误差稀疏。虽然摘要应该代表输入视频,但长度应该尽可能小多样性摘要应该是集体多样的捕捉视频的不同方面,否则,在不丢失太多信息的情况下删除其中的一些。所提出的方法CVS分解为三个步骤:i)视频表示;ii)协作稀疏表示选择; iii)摘要生成。3.1.视频表示时间分割。我们的方法从使用现有算法分割视频开始[6]。我们将每个视频分割成多个不均匀的镜头,Z的第i行。 λ s> 0是一个正则化参数,用于控制重建中的稀疏程度。 一旦问题(1)被解决,则代表被选择为其对应的Zi2= 0的点。显然,上述公式总结了一个视频新-收集可能存在于视频中的相互关系。考虑到主题相关视频之间的关系,我们的目标是选择一组稀疏的代表性镜头,以平衡两个主要目标:(i)它们是关于给定视频的信息,以及(ii)它们是关于主题相关视频的完整集合的信息。换句话说,我们的目标是提取一个摘要,同时最大限度地减少指定视频的重建误差,以及与主题相关的视频集。鉴于上述目标,我们制定了以下目标函数,1. 2约束,以确保帧内Z,Z 2名女.˜Σ(二)每个镜头都在[32,96]的范围内。分割的镜头用作特征提取和后续处理的基本单元,以提取视频摘要。特征表示。深度学习的最新进展表明,从上层提取的特征卷积神经网络(CNN)的中间层是具有良好迁移学习的通用特征-在不同领域的能力[46,67,24,43]。在视频的情况下,与单独使用每个帧提取的特征相比,C3D特征[52]最近表现出更好的性能[51,64]。因此,我们提取C3D特征,通过采用16个输入帧的集合,应用3D卷积滤波器,并提取FC6层的响应,如[52]中所建议的。其次是一个时间平均池方案,以保持局部排序结构内的镜头。然后,池化结果用作要在稀疏优化中使用的镜头(4096维)的最终特征向量我们将讨论性能的好处,效益采用C3D功能稍后在我们的实验。+λs<$ZH2, 1+<$ZH2, 1其中,参数α>0平衡了er-视频V的重构中的误差和集合V′ 2中 剩余 视频 的重 构 中的 误差。目标函数是直观的:(2)的最小化有利于选择同时重建目标视频X到Z以及目标视频X到Z的代表性镜头的稀疏集合。一组主题相关的视频X通过Z的,具有高精度。多样性正规化。(2)中的数据重建和稀疏优化公式倾向于选择炮点其可以覆盖指定的视频以及主题相关的视频的集合。然而,不存在选择捕获视频集合中描述的不同但也重要的信息的不同镜头的明确趋势[8,11]2请注意,为了简化说明,我们使用公共α来对与(2)中的主题相关视频相关的重建项进行加权。然而,如果我们有一些关于哪个视频关于主题或接近指定视频的信息更多的先验信息,我们可以为不同的主题相关视频分配不同的α。我们把α的不同选择问题作为一个有趣的未来工作。=70862∈22˜˜FFαTCC通过从提取的摘要中手动过滤冗余镜头来处理这个问题最近关于稀疏代表性选择的工作[62,58]也通过在目标中显式添加非凸正则化器来解决这个分散性问题,这使得它难以优化。受最近关于主动学习[12]和文档压缩[63]的凸公式的工作的启发,我们引入了两个多样性正则化函数fd(Z)和fd(Z)来选择一个稀疏的表示ive和iverse视频中的镜头我们的动机是稀疏系数矩阵中对应于两个相似镜头的行不同时为非零。这是合乎逻辑的,因为代表性镜头应该是非冗余的,捕获输入视频的不同方面。定义1. 给定稀疏系数矩阵Z和在图2中,离散正则化函数被定义为:其中一致性矩阵Zc上的1,2,1-范数使得Z和Zc具有相似的稀疏模式并共享公共分量。 联合范数起协调作用,正则化如下。在本文后面开发的优化算法的每一轮中,可以使用前一轮中更新的稀疏系数矩阵以规范当前的优化准则。因此,它可以通过抑制不相关的或有噪声的视频镜头来取消Z和Z_c的共享知识,这导致用于选择代表性视频镜头的最佳Z_c优化. 由于问题(5)是涉及多个2,1-范数的非光滑问题,因此很难优化去噪。正确。半二次优化技术[19,20]已被证明在几个计算机视觉应用中有效地解决了这些稀疏优化[57,39,59,29,4]。受这些方法的启发,我们设计了一个迭代算法,通过最小化其增广的卢恩fd(Z)=卢恩dij Zij= tr(DTZ),我是一个很好的选择。特别是y,如果我们定义φ(x)=i=1j =1x2+1,其中1是常数,我们可以将1ΣnΣn˜(三)不卢恩i=1 √||2 +,根据2,1-||2+ǫ,accordingtotheanalysisofℓ2,1-fd(Z)=dijZij=tr(DZ)i=1j =1其中,D是度量X中镜头的成对相似性的权重矩阵,并且D度量X和X中镜头之间的相似性。构造D的方法很多和D。在本文中,我们用内积来表示-[19]中的标准通过这种转变,我们可以优化(5) 以如下的替代方式有效地进行根据半二次理论[19,20,14],(5)的增广成本函数可以写成如下。1. 2确保相似性,因为它很容易实现,Z,Z 2.不F电子邮件˜ΣF.TT在实践中表现良好。这些函数的最小化试图通过惩罚两个相似镜头的行同时非零的条件来选择不同的镜头。+λstr(ZPZ)+tr(Z QZ)+λd tr(D+ β。r(ZTRZ)Z)+tr(DZ)(六)在将多样性正则化函数添加到问题(2)中之后,我们的目标函数如下:其中P,Q,R Rn×n是三个对角矩阵,对应的第i个元素定义为1.min2˜ ˜2Σ 1 1X−XZ˜2Pii=1,Qii=1,Z,Z(四)2||Zi||2+12˜2.好吧不˜T˜Σ2||Zi||2+1(七)+λs<$ZH2,1+<$ZH2, 1+λd tr(DZ)+tr(D Z)1其中λd是与函数相关的权衡因子。Rii=2||ZCI||2+ ǫ共识正规化。 目标函数(4)倾向于通过利用视觉上下文从目标视频X中选择稀疏的代表性和不同的从额外的主题相关的视频X.具体而言,请参见Z提供每个镜头的相对重要性信息其中,λ是平滑项,通常设置为小的常数值。在Z和Z上优化(6)等于优化以下两个问题。min1<$X −XZ <$2+λd tr(DT Z)Z-Z 2F(八)在描述视频X时,而Z中的行给出信息讨论了X中每个镜头在描述X中的相对重要性。+λstr(ZTPZ)+βtr(ZTRZ)给定两个稀疏系数矩阵,我们的下一个目标是最小值2联系我们选择一组统一的镜头,同时覆盖Z-2X−XZ(九)˜T ˜ ˜T ˜在目标视频中出现的重要特性,以及+λstr(Z QZ)+βtr(Z RZ)作为视频集合中出现的一般性。为了实现上述目标,我们建议最小化以下目标函数:现在,对于固定的P、Q、R,可以通过求解以下线性方程组来计算(8)和(9min 1.2ΣX−XZ(XTX +2λsP +2βR)Z =(7087XTX−λdD)(十)Z,Z 2名女(αXTX+2λQ+2βR)Z<$=(αXTX<$−λD<$).- 是的+λZ˜T˜ΣS D(五)第2条,第 1条二,一 +λd tr(DZ)+tr(DZ)阿尔戈1总结了替代最小化过程。+β||ZC||二,一S. t. Zc=[Z|Z∈Rn×(n+n<$)优化(5)。在步骤1中,我们计算辅助7088算法1解决问题的算法(5)输入:视频特征矩阵X和X∈;参数α,λs,λd,β,设置t= 0;利用内积相似性构造D和D_∞,随机初始化Z和Z_∞,使Z_c=[Z,Z_∞];输出:最优稀疏系数矩阵Zc。虽然不收敛,1. 使用(7)计算Pt、Qt和Rt2. 使用(10)计算Zt+1和Zt+13. 将Zt+1计算为:Zt+1 = [Zt+1|最大值+1稀疏编码(SMRS和LL):我们测试了两种方法:稀疏建模代表性选择(SMRS)[11]和LiveLight(LL)[66]。SMRS使用整个视频作为字典并基于编码向量的零模式选择关键镜头来找到代表性镜头。请注意,[8]还使用与[11]中相同的目标函数来总结消费者视频。唯一的区别在于用于求解目标函数的算法(近端与ADMM)。我们只与[11]比较。LL通过测量一段时间内的C c4. t= 1;end whileZ];使用在线更新的镜头字典来消除冗余。我们使用SPAMS库[ 32 ]实现了它,字典大小为200,阈值为0。15、如[66]。矩阵P、Q和R,它们在代表选择中起着重要的作用。在步骤2中,我们通过求解如(10)中所定义的两个线性系统来找到最优稀疏系数矩阵Z和Z∞步骤3对应于共识矩阵,其预期揭示Z的共享知识,Z通过使用联合2,1-范数强制执行相同的稀疏模式来实现3.3.概要生成在上文中,我们描述了如何通过利用来自主题相关视频的视觉上下文来计算最佳稀疏系数矩阵Zc为了生成摘要,我们首先根据Zc中的行的102范数通过降低重要性来对镜头进行排序(通过偏爱较短的视频镜头来解决平局),然后从符合长度约束的排名最高的镜头构建最佳摘要。4. 实验数据集。我们使用两个数据集来评估我们的方法的性能:(i)CoSum数据集[6]和(ii)TVSum50数据集[49]。据我们所知,这是仅有的两个公开可用的多个视频的摘要数据集,这些视频被组织成具有主题关键字的组。这两个数据集都非常多样化:虽然Co-Sum数据集由51个视频组成,涵盖来自SumMe基准的10个主题[17],但TVSum 50数据集包含来自TRECVid多媒体事件检测任务的50个视频,组织成10个主题[48]。实施细节。我们的结果可以通过以下参数重现。正则化参数λs和β取为λ0/γ,其中γ>1,λ0为根据数据进行分析计算[11]。其他参数α和λd根据经验分别设置为0.5和0.01,并对所有结果保持固定。比较方法。我们将我们的方法与以下基线进行比较。对于所有的方法,我们都使用了已发表的工作中推荐的方法。聚类(CK和CS):我们首先使用k均值(CK)和谱聚类(CS)对镜头进行聚类,k设置为20 [6]。然后,我们通过选择最接近顶部最大聚类的质心的镜头来生成摘要。共现统计(CoC和CoSum):我们使用两个基线进行合并,利用主题相关视频的视觉联合聚类(CoC)[10]通过将图划分为联合聚类来生成摘要,使得每个聚类包含具有高视觉相似性的镜头对另一方面,CoSum使用块坐标下降算法从完全二分图中找到最大二分图。我们通过基于视觉同现分数选择排名靠前的镜头来生成摘要,并将选择最大biclique的阈值设置为0.3,遵循[6]。所有方法(包括所提出的方法)都使用相同的C3D功能,如第2节所述。3.1.这样的实验设置可以为各种方法提供公平的比较。4.1. 面向主题的视频摘要目标:给定一组共享共同主题的网络视频(例如,Eiffel Tower),目标是为用户提供与主题相关的每个视频的摘要。溶液目标函数(5)通过利用主题相关视频的视觉上下文来提取指定视频给定一组视频,我们的方法可以通过利用剩余视频中的额外知识来找到每个视频的摘要。此外,我们可以很容易地并行计算,以提高计算效率,在Algo交替最小化。1.这为我们同时处理大量网络视频的方法提供了可扩展性评价受[6,25]的启发,我们通过将自动生成的摘要与人类的判断特别是,给定一个建议的摘要和一组人类选择的摘要,我们计算成对平均精度(AP),然后报告平均值,这是因为不存在单个地面实况摘要,但可能有多个摘要平均查准率是查准率和查全率变化的函数,其中查准率表示所有代表性镜头与参考摘要的匹配程度,查全率表示检索结果中返回的代表性镜头的数量和准确程度。对于CoSum数据集,我们遵循[6]并比较每个7089表1. CoSum数据集上的实验结果。数字显示了同一主题的所有视频的平均前5名AP分数。我们强调了最好的和第二好的基线方法。总的来说,我们的方法优于所有的基线方法。视频主题人类计算方法最糟糕是说最好CKCSSMRs会COCCoSumCVS定点跳伞0.6520.8310.8960.4150.4630.4870.5040.5610.6310.658自行车马球0.6610.7920.8900.3910.4570.5110.4920.6250.5920.675埃菲尔铁塔0.6970.7580.8810.3980.4450.5320.5560.5750.6180.722挖掘机河兴0.7050.8140.9120.4320.3950.5160.5250.5630.5750.693孩子们在树叶0.6790.7460.8630.4080.4420.5340.5210.5570.5940.707MLB0.6980.8610.9140.4170.4580.5180.5430.5630.6240.679NFL0.6600.7750.8650.3890.4250.5130.5580.5870.6030.674巴黎圣母0.6830.8250.9040.3990.3970.4750.4960.6170.5950.702自由女神像0.6870.8740.9210.4200.4640.5380.5250.5510.6020.715冲浪0.6760.8370.8790.4010.4150.5010.5330.5620.5940.647是说0.6790.8120.8930.4070.4360.5110.5250.5760.6020.687相对于普通人百分之八十三百分百百分之一百一十百分之五十一百分之五十四百分之六十二百分之六十四百分之七十百分之七十四百分之八十五表2.TVSum50数据集上的实验结果视频主题人类计算方法最糟糕是说最好CKCSSMRs会COCCoSumCVS更换汽车轮胎0.2850.4610.5890.2250.2350.2870.2720.3360.2950.328让车辆摆脱困境0.3920.5050.6340.2480.2410.3050.3240.3690.3570.413梳理动物0.4020.5210.6270.2060.2490.3290.3310.3420.3250.379制作三明治0.3650.5070.6180.2280.3020.3660.3620.3750.4120.398跑酷0.3720.5030.6220.1960.2230.3110.2890.3240.3180.354游行0.3590.5340.6350.1790.2160.2470.2760.3010.3340.381第一千零七十五章快闪聚集0.3370.4840.6060.2180.2520.2940.3020.3180.3650.365养蜂0.2980.5150.5910.2030.2470.2780.2970.2950.3130.326尝试自行车技巧0.3650.4980.6020.2260.2950.3180.3140.3270.3650.402狗展0.3860.5290.6140.1870.2320.2840.2950.3090.3570.378是说0.3560.5050.6130.2110.2490.3010.3060.3290.3450.372相对于普通人百分之七十一百分百百分之一百二十一百分之四十二百分之四十九百分之六十百分之六十一百分之六十五百分之六十八百分之七十四对于TVSum50数据集,我们将每个摘要与通过众包创建的二十个地面实况摘要进行比较。由于TV-Sum 50数据集中的地面实况注释包含逐帧重要性分数,因此我们首先通过对每个镜头内的帧重要性分数取平均值来计算镜头级重要性分数,然后为每个视频选择前50%的镜头,如[6]所示。除了与基线方法进行比较外,我们还计算了人类创建的摘要之间的平均精度我们展示了人类选择的最差、平均和最好分数。最差的人类分数使用与其余摘要最不相似的摘要来计算,而最佳分数表示包含由许多人选择的大多数镜头的最相似的摘要。这为这项任务提供了一个伪上限,因此我们还通过将人类选择的平均AP重新缩放为100%来报告归一化的AP分数。与基线方法的比较。选项卡. 1显示了CoSum数据集汇总中包含的前5个快照的AP。我们可以看到,我们的方法显着优于所有基线方法,以实现平均每-85%,而最接近的竞争对手,CoSum,达到74%。此外,如果我们与人类的表现进行比较,我们可以看到,我们的方法甚至在大多数情况下表现出每个主题的最差人类3原始CoSum数据集包含三个人工创建的摘要。我们增加了另外两个地面实况摘要,它们是使用类似的实验收集的,如[6]。例这表明我们的方法产生的摘要与人类创建的摘要相当。同样,对于前15个结果,我们的方法达到了83%的最高平均得分,而CoSum基线为69%。我们的方法在视频上表现得特别好,通过与主题相关的视频很好地描述了他们的视觉概念,例如,主题为埃菲尔铁塔的视频包含示出铁塔的夜景的镜头,并且集合中的其余视频也描绘了该井(图1)。虽然我们的方法总体上产生更好的总和,但它对于某些视频具有低性能,例如,主题冲浪的视频。这些视频包含快速运动和微妙的语义,定义了视频的代表性镜头,如冲浪或海上游泳。我们相信,如果没有额外的语义分析,这些是很难捕捉的[33];我们将其作为未来的工作。选项卡. 2示出了TVSum50数据集的前5个AP结果。由于主题关键字不受约束,因此在此数据集中进行摘要更具挑战性。我们的方法仍然优于所有的替代方法显着实现74%的平均性能。同样,对于前15名结果,我们的方法获得了75%的最高分数,而CoSum基线为66%。统计显著性检验。为了显示统计学意义,我们对我们的结果进行了t检验,并观察到所提出的方法CVS在统计学上显著优于所有六种比较方法(p<。01.除了最坏的人为了进一步解释关于最差人类的无统计学显著性结果,我们进行了-7090表3.2D CNN(VGG)和3D CNN(C3D)功能之间的性能比较数字显示了同一主题的所有视频的平均前5名AP分数* 简化主题名称以便于显示。见table 1为全名。方法基础*自行车 *艾菲尔铁塔 *挖掘机 *儿童*MLBNFLNotre*雕像 *冲浪是说CVS(特性[6])0.5800.6320.6770.6140.5980.6070.5750.6120.6550.6230.618CVS(VGG)0.5910.6260.7240.6380.6170.6420.6150.6040.7210.6490.643CVS(C3D)0.6580.6750.7220.6930.7070.6790.6740.7020.7150.6470.687表4.在不同约束条件下对所提出的方法进行烧蚀分析(5)。方法基础*自行车 *艾菲尔铁塔 *挖掘机 *儿童*MLBNFLNotre*雕像 *冲浪是说CVS-邻域0.5520.5430.5510.5830.5100.5290.5340.5320.5160.5270.538CVS-多样性0.6430.6500.6780.6720.6450.6530.6190.6660.6880.6090.654CVS0.6580.6750.7220.6930.7070.6790.6740.7020.7150.6470.687埃菲尔铁塔尝试自行车技巧图2.主题相关视觉背景在视频摘要中的作用。顶行:CVSw/o与主题相关的可视上下文,底行:CVSw/与主题相关的可视上下文。可以看出,CVSw/o视觉上下文通常会选择一些不相关的镜头,并且与主题不真正另一方面,CVSw/visual context通过利用来自其他邻域视频的信息来自动选择最大信息量的镜头最好用彩色看。形成统计功效分析(α = 0. 01),并看到CoSum数据集上前5个mAP结果的计算功效为0.279,而与前15个结果组合时,其达到0.877。类似地,对于将两个数据集的前5名和前15名结果组合的测试,功效达到1因为,高质量测试的功率通常应该> 0。80,我们可以得出结论,对于大样本量,我们的方法在统计上优于最差的人类C3D功能的有效性。我们通过比较C3D特征与2D镜头级别的深度特征,并发现后者产生较差的结果,CoSum数据集上的前5 mAP得分为0.643(表1)。3)。我们利用Pycaffe [22]和VGG网络预训练模型[47]来提取帧的4096-dim特征向量,然后使用时间均值池来计算单个镜头级特征向量,类似于第2节中描述的C3 D特征。3.1.我们还与[6]中提出的浅特征表示进行了比较,并观察到C3D特征在总结视频时的表现明显优于浅特征(0.618 vs 0.687)。我们认为这是因为C3D功能利用了视频中通常显示的活动的节奏方面单个组件的性能。为了更好地理解(5)中各个组件的贡献,我们分析了所提出的方法的性能,通过消融每个约束,同时设置相应的规则,零(Tab.)4)。在所有组件都工作的情况下,CoSum数据集的mAP为0.687。通过关闭来自主题相关视频的邻域信息,mAP降低到0.538(CVS邻域)。这证实了主题相关视频的额外知识有助于提取更好的摘要,更接近人类选择的事实(参见图2的定性示例)。表5. 用户研究-概念可视化实验中的平均专家评分。我们的方法在这两个数据集上的表现都明显数据集CKCSSMRs会COCCoSumCVSCoSumTVSum503.702.464.033.065.604.025.634.206.644.87.535.708.206.36类似地,通过关闭分集约束,mAP变为0.654(CVS-Diversity)。我们可以看到,主题相关视频的附加知识在总结网络视频时的贡献大于多样性约束。4.2. 多视频概念可视化目标:给定一组与主题相关的视频,我们能否生成一个单独的摘要来描述这个集合?具体来说,我们的目标是生成一个单一的视频摘要,更好地估计人类溶液一个简单的选择是合并第节生成的单独摘要。4.1并选择排名靠前的镜头,而不管视频,如现有的现有方法[6]。然而,这样的选择会产生大量的冗余事件,最终降低了最终摘要的质量。我们认为这是因为,尽管单个摘要信息丰富且多样,但在提取的与主题相关的摘要中存在冗余。我们的方法可以通过将摘要合并到单个视频中来处理这个问题,比如X,然后使用最终的对象提取单个不同的摘要tiv e函数(5),其中设置(α,β,Dβ)等于零。评价为了评估多视频概念可视化,我们需要所有主题相关视频的单一地面实况摘要,以共同描述集合然而,由于这两个数据集都没有这样的基础事实摘要,我们使用10名专家进行了人工评估。给研究专家一段视频,7091i=12ǫI2i=1i2DZS|2, 1Z2, 1从(6)可以看出,当我们将{P,Q,R}固定为{Pt,Qt,Rt}时,在第t次迭代中,计算Zt+1<$t+1,Zt+1,如下:不等式成立,,Zc1.t +1 2中国+12小时T t+1X-XZ2F+αF+λd tr(D Z)中国+1t+1 Ttt +1+λd tr(D Z)+λstr((Z)P Z)+λtr((Z<$t+1)TQtZ<$t+1<$.t+1)TRtZt+1)s)+β tr((Zc c≤1。t2200万t2<$X− XZ <$F+α<$X−XZ<$F +λd tr(D Z)˜T ˜tt Tt t(十一)+λd tr(D Z)+λstr((Z)P Z)特鲁姆特T别这样。t T不t+λstr((Z) QZ)+β tr((Zc) R Zc)添加密码2√||Zt||2+1 对于(11)的两边,我们有图3.由不同的构造的摘要的图示方法为主题艾菲尔铁塔。我们展示了前5名的结果代表-I21. X−XZt+12+12小时T t+1每一个镜头的中心画面都充满了怨恨最好用彩色看。2F+αF +λd tr(D Z)T t+1卢恩||Zt+1||2+1首先示出主题关键词(例如,艾菲尔铁塔),然后+λdtr(D<$Z<$)+λs第二次世界大战2||2 +1||2+ ǫ显示了使用不同方法构建的摘要。i=1i2他们被要求对每份摘要的总体质量进行卢恩||Zt+1||2+1卢恩||Zt+1||2+1+λsα2+βI2通过分配从1(最差)到10(最佳)的等级。结果选 项 卡. 5显示专家对两者的平均评分i=1 2||兹赫特||2+12||2+ 1||2+ ǫCoSum和TVSum50数据集。类似的结果≤1。t2t 2t面向主题的摘要,我们的方法显着2<$X−XZ <$F+α<$X −XZ <$F+λd tr(D Z)不敦||Zt||2+1优于所有基准方法,这表明,+λdtr(DZ)+λs第二次世界大战我们的方法生成了比DE-2||2 +1||2+ ǫ把视频集全部抄下来而且我们2002年2月i=1i2T2型||Zi||2+1||ZCI||2+1请注意,不同方法的相对排名是+λs不+β-羟色胺2||2 +1||2+ ǫ与面向主题的汇总结果相比,大部分被保留我们在图中显示了不同方法产生3. 如可以i=12||佐吉||2+1根据[35]中的引理i=1第二次世界大战(十二)可以看出,我们的方法,CVS,生成一个更好的摘要-Σn√卢恩||2+1||2+ ǫ||Zt+1||2+ −第二次世界大战ter估计与主题相关的人类我22 ||2 +1||2+ ǫi=1i=1i2(十三)Σn√卢恩||2 +1||2+ ǫ5. 结论≤|| Zt||2+ −第二次世界大战我22 ||2 +1||2+ ǫi=1i=1i2在这项工作中,我们提出了一种新的视频摘要框架,利用视觉上下文从一组主题-减去Eq.(13)从Eq。(12)我们有相关的视频,以提取一个给定的信息摘要1. X −XZt+12中国+12小时T t+12<$F+α<$X−XZF +λd tr(D Z)视频. 因为观察到重要的视觉效果概念往往会在视频中反复出现,+λtr(DTt+1)+ λ。|Zt+1||最大值+1||Σ||Σ+β||ZC电话+1||2, 1同样的主题,我们开发了一个协同稀疏优化算法,≤1。t2200万t找到一组稀疏的有代表性的不同的镜头2<$X−XZ <$F+α<$X −XZ<$F+λd tr(D Z)不好意思。 不特鲁姆特通过同时捕捉这两个重要的特性,在给定的视频中出现,以及,+λd tr(DZ)+λs||Z||2、1+||Z||二,一+β||ZC||二,一(十四)在视频收藏中。我们在两个标准数据集上证明了我们的方法的有效性,显著优于几种基线方法。附录CKSMRS CSCoSumCoCLLCVS7092由于我们已经使用交替极小化求解了(5),因此我们想展示其收敛行为。具体来说,就是Algo中的迭代方法1将在每次迭代中单调地减小(5其确定目标函数(5)单调-在每次迭代中减少。注意目标函数有下界,所以它会收敛。实验结果表明,该算法收敛速度快,只需几次迭代即可收敛.因此,所提出的方法可以应用于大规模的实际问题。鸣谢本工作得到了NSF资助IIS-1316934的部分支持。我们非常感谢NVIDIA公司的支持,捐赠了用于本研究的Tesla K40 GPU。7093引用[1] J. Almeida,N. Leite和R. da S.托瑞斯VISON:在线应用程序的视频摘要。PRL,2012年。2[2] M. Balabanovic和Y.肖汉姆Fab:基于内容的协同推荐。ACM通讯,1997年。1、3[3] S. Balakrishnan和S.乔普拉 协作排名。 在WSDM,2012年。3[4] R. 贝格曼河 H. 昌河 Hielscher,J. P. P.G.史泰德流形值图像的半二次最小化复原。arXiv预印本arXiv:1505.07029,2015年。4[5] G. K. Bo Xio
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功