没有合适的资源?快使用搜索试试~ 我知道了~
………………………………30730学习视频亮点检测的像素级区分0魏凡跃1* 王彪2 葛铁铮2 江宇宁2 李文1 段立新1†01. 电子科技大学计算机科学与工程学院&深圳高等研究院 2. 阿里巴巴集团0{ wfanyue, liwenbnu, lxduan } @gmail.com, { eric.wb, tiezheng.gtz, mengzhu.jyn } @alibaba-inc.com0摘要0视频亮点检测的目标是从长视频中选择最有吸引力的片段,以描述视频的最有趣的部分。现有方法通常侧重于建模不同视频片段之间的关系,以学习能够为这些片段分配亮点得分的模型;然而,这些方法并没有明确考虑到单个片段内的上下文依赖性。为此,我们提出学习像素级区分以改进视频亮点检测。这种像素级区分指示一个视频中的每个像素是否属于一个有趣的部分。建模这种细粒度区分的优势有两个。首先,它允许我们利用一个视频中内容的时间和空间关系,因为一个帧中像素的区分高度依赖于该帧之前的内容以及该帧中该像素周围的内容。其次,学习像素级区分还对于视频亮点任务提供了一个很好的解释,即在一个亮点片段中哪些内容会吸引人们。我们设计了一个编码器-解码器网络来估计像素级区分,在其中我们利用了3D卷积神经网络来利用时间上下文信息,并进一步利用视觉显著性来建模空间区分。在三个公共基准测试中的最先进性能明确验证了我们的视频亮点检测框架的有效性。01. 引言0随着移动设备的爆炸性发展,每天都会产生大量的视频并上传到互联网上。因此,从冗长的视频中挑选出最有吸引力的视频片段,以创建一个闪光时刻的选择,变得越来越重要,特别是对于社交视频平台等。0* 阿里巴巴集团实习期间完成的工作 † 通讯作者0(b) 我们的方法0视频帧序列0视频帧序列0亮点0帧0非亮点0帧0模型0模型0亮点像素图0亮点像素图0(a) 现有方法0亮点片段0亮点评分模型0视频片段对0图1.视频亮点检测高度依赖于上下文。虽然以往的方法通常是直接训练以预测视频片段的亮点得分,但我们的方法考虑了时间和空间信息,并将细粒度像素级区分作为替代任务进行预测。0如YouTube和Instagram等,视频亮点检测的目标是从未编辑的视频中选择最有吸引力的片段,这引起了研究界的越来越多的兴趣。大多数现有的工作[9, 12,36]将视频亮点检测任务解释为一个片段级别的排序问题。这些方法将每个片段视为一个独立的样本,并提取视频片段的特征。然后,它们比较成对的片段,以学习一个将亮点得分分配给这些片段的模型,使得亮点片段从原始视频中获得比非亮点片段更高的得分。最近,SL[34]开发了一种基于集合的机制,能够通过变换器识别一个视频片段是否是亮点。然而,这些现有方法确实利用了时间和局部化信息,但并没有明确考虑到片段内的上下文依赖性,而这对于视频亮点检测来说实际上是至关重要的。直观地说,当人们观看视频时,特定的部分是30740通常认为有趣的视频片段通常取决于观众之前观看的部分。例如,考虑一个体操运动员做翻筋斗的视频,翻筋斗之前的跳跃和翻筋斗之后的跳跃在视觉上非常相似;然而,人们倾向于将翻筋斗之前的跳跃视为比翻筋斗之后的跳跃更吸引人;因为前者为翻筋斗的高潮做出了贡献,而后者降低了高潮后的亮点水平。这表明预测一个帧的亮点得分高度依赖于当前帧之前的上下文。同样,空间上下文对于视频亮点检测也很重要。如果一只狗和一群狗一起出现,它可能不会引起兴趣,而在狗展场景中,它肯定会成为焦点。在这种情况下,帧内的上下文信息对于估计亮点得分非常有帮助。因此,为了利用时间和空间上下文进行视频亮点检测,在本文中,我们将视频亮点检测转化为一个新的任务:像素级区分估计。具体而言,我们不是为视频片段分配高亮得分(如现有工作中所做的),而是旨在预测视频中每个像素的吸引力。这种细粒度的任务有两个好处。首先,由于一个帧中像素的区分通常取决于时间和空间上下文,预测像素级区分允许在我们的模型中利用这种上下文信息,从而得到更稳健的亮点检测结果。其次,学习像素级区分还为视频亮点任务提供了一个很好的解释,即高亮片段中的哪些内容可能更吸引人,使得视频亮点检测模型更具可解释性。在估计像素级区分之后,可以通过对片段中所有像素的区分进行平均来获得视频片段的亮点得分。我们开发了一个编码器-解码器网络来估计像素级区分。该网络旨在为输入视频中的每个帧输出一个区分图。为了利用时间上下文,我们使用三维卷积神经网络来将当前帧之前的帧合并到一起,以预测区分图。为了建模空间区分,我们利用视觉显著性来为亮点片段中的帧生成像素级伪区分标签。我们证明了上述策略可以简单地集成到编码器-解码器网络中。在YouTube [24]、TvSum [23]和CoSum[5]三个具有挑战性的基准上的实验结果表明,我们提出的方法在性能上超过了现有方法。我们进一步通过消融研究验证了我们提出的模块的有效性,并提供了定性结果来展示我们提出的模型的可解释能力。0总之,本文的主要贡献如下:0•我们提出了一种新的视频亮点检测的像素级区分估计任务,能够探索细粒度的上下文以预测特定片段的吸引力。0•我们设计了一个编码器-解码器网络来估计像素级区分,该网络利用了三维卷积神经网络和视觉显著性图来分别利用时间和空间上下文。0•我们在三个公共基准上实现了新的最先进性能。此外,我们的模型还具有良好的可解释性,能够直接输出高亮视频片段中最吸引人的区域。02. 相关工作02.1. 视频亮点检测0视频亮点检测的目标是找到视频中最吸引人的部分。以往的方法主要集中在从体育视频中生成亮点[28, 32, 33,45]。最近的方法则着重解决互联网视频和第一人称视频。这些最近的方法可以分为两个方面:有监督和无监督(或弱监督)。有监督方法主要将视频亮点检测视为一个片段级别的排序或评分任务[1, 9, 12, 34,36]。这些方法通常为两个视频片段(亮点和非亮点片段)构建了一个成对排序约束。Video2GIF[9]提出了一种从手动生成的视频-GIF对中学习的方法。通过利用自适应Huber损失来克服噪声数据,一个强大的深度RankNet可以生成一个视频片段的排序列表。此外,GNN[40]引入了对象语义到视频亮点任务中,并通过图神经网络进一步建模对象之间的关系。SL[34]利用变换器结构来捕捉对目标片段有贡献的多个片段。此外,SA[1]提出音频和视觉信息与亮点检测密切相关。他们通过注意力将音频和视觉信息融合起来进行视频亮点检测。无监督或弱监督方法通常引入一些先验信息作为监督信号,而不是使用亮点注释进行训练。LIM-s[31]利用视频持续时间作为隐式的监督信号。他们认为用户生成的视频具有这样的关系:来自较短视频的视频片段比来自较长视频的视频片段更有可能是亮点。因此,他们提出了一种模型,学习将亮点片段的得分高于非亮点片段。更多(2)30750最近,MINI-Net[11]将视频亮点检测视为多实例学习问题。他们将每个视频表示为一组片段,目标是将与特定事件相关的正样本包的得分高于与事件无关的负样本包。大多数方法通过基于片段级特征表示对亮点和非亮点片段进行排序,生成亮点剪辑。与现有方法不同,我们的工作通过滑动窗口捕捉视觉时序差异,并引入视觉显著性以像素级损失来空间建模亮点。02.2. 视频摘要0视频摘要的目标是生成包含整个给定视频完整情节的最具信息量的剪辑[19, 27, 37,39]。视频摘要模型通常学习对一系列选定的帧[15]或剪辑[8]进行评分。此外,一些视频摘要方法不仅考虑重要性,还考虑表示[44]、多样性[7]和连贯性[16]。[17]旨在选择一组最佳代表给定视频的帧,通过对抗LSTM网络进行无监督视频摘要。该模型包括一个摘要器,旨在获得新视频的最佳摘要,以及一个鉴别器,用于区分原始视频和从摘要器获得的重构视频。[44]将视频摘要形式化为一个顺序决策过程。通过训练一个端到端的强化学习框架,该模型预测每个帧被选择为摘要的概率。此外,一些方法[42,43]采用分层循环神经网络来利用帧之间的长时序依赖关系进行视频摘要。[41]以LSTM和GCN的层次方式捕捉时间依赖性。02.3. 视觉显著性0视觉显著性旨在建模注视点。以前的方法利用光流来利用时间信息[2,30]。此外,一些方法使用LSTM来聚合时间信息[3]。ACLNet[29]通过使用逐帧注意掩码增强了LSTM捕捉动态显著性的能力。最近,TASED-Net[18]在空间上采用编码器-解码器结构,以滑动窗口的方式预测给定视频的逐帧显著性地图。STAViS[26]结合了时空听觉和视觉信息来处理视频显著性。03. 方法0在本文中,我们提出利用片段内的时间和空间关系来改进视频亮点检测。我们的动机源于这样一个事实:0视频亮点高度依赖于上下文;即视频片段中的内容是否应该被突出显示取决于时间维度上之前的内容和空间维度上周围的内容。以前的方法[1, 9, 24, 34,40]提出了不同的学习评分函数f(si)的策略,主要涉及将高分分配给亮点片段和低分分配给非亮点片段。这些方法通常从每个视频片段获取整个特征表示,并以不同的方式学习评分函数。然而,这些方法往往忽视了每个片段内帧之间的空间-时间关系,而这实际上对于视频亮点检测非常重要。为了捕捉这种上下文依赖性,我们不是对每个视频片段的全局特征表示进行评分,而是提出了一种预测每个像素每帧亮点得分的方法,即本文中所称的像素级区分视频亮点检测(PLD-VHD)。03.1. 建模时间依赖性0形式上,对于一个视频V,将S = {s1, ...,sn}表示为分割后的视频段集合,其中每个si是一个段落,i= 1, ..., n。每个si都伴随着一个标签yi,其中yi =1表示si是一个亮点段落,而yi =0表示相反。我们从一个基本模型开始进行像素级区分估计。由于未知地面真实像素级区分dt(i,j),我们需要使用段落级亮点标签ys构建每个像素的伪区分标签。我们的方法的基本概念很简单。对于来自非亮点段落sn的帧,我们将所有像素的区分标签设置为零;对于来自亮点段落sh的帧,它们的区分标签被设置为1。伪区分标签可以定义如下:0dt(i,j) = { -1, It ∈ sh 0, It ∈ sn (1) }0为简单起见,我们使用Dt表示帧It的区分图,其中dt(i,j)是在公式(1)中定义的伪区分标签。为了方便表示,我们还使用f(It)表示整个帧It的像素级区分估计函数。然后,我们采用简单的均方误差(MSE)作为损失函数,学习像素级区分的问题可以表述为:0min L(f(It), Dt) = 10W × H0W×0i=10j=1 (pt(i,j) - dt(i,j))^2GT=0GT=130760学习时间模块03D卷积03D卷积0编码器网络03D0转置卷积03D0转置卷积0解码器网络0辅助空间模块0显著性掩码0生成器0亮点标签显著性掩码0非亮点标签0输出0亮点0损失0图2.我们的网络遵循编码器-解码器结构。编码器网络是一个3D卷积网络,用于提取输入帧的特征,而解码器网络旨在获得与输入帧相同大小的地图,用于像素级区分。学习时间模块将目标帧之前的帧合并在一起,而辅助空间模块生成伪标签。蓝色和红色框中的帧分别表示具有两种标签的目标:亮点和非亮点。0其中,f(∙)是区分估计函数,pt(i,j)表示由f(∙)获得的像素级区分,W和H表示帧的宽度和高度。区分估计函数可以通过编码器-解码器网络实现。首先将输入帧It馈送到编码器中以获得潜在特征表示,然后通过解码器网络对特征图进行上采样,以进行像素级区分预测。然而,正如上面讨论的那样,创建视频亮点高度依赖于上下文。当人们观看视频时,当前帧变得有趣是因为人们已经观看了之前的帧。这意味着当前帧的区分应该取决于之前的帧。因此,为了考虑时间依赖性,我们不直接使用每一帧作为输入,而是使用一个视频剪辑来预测像素级区分。该剪辑包含当前帧和之前的若干帧。给定第t帧It,我们将相应的视频剪辑表示为Ct = {It-L+1,It-L+2, ...,It},其中L是视频剪辑的总长度。因此,用于预测像素级区分的模型可以更新如下:0min L(f(Ct), Dt) (3)0其中L是定义为方程(2)中的MSE损失。在我们的实现中,我们对视频应用了一个长度为L的滑动窗口来生成视频片段。对于每个视频中的前T-1帧,我们反转了帧的顺序0辅助空间模块0显著性0掩模0生成器0显著图0显著性掩模0图3.我们方法的空间区别。使用我们的显著性掩模生成的伪标签可以消除对高光没有贡献的噪声(例如背景)。0这些帧并将它们填充到视频的开头,以确保滑动窗口正常工作。然后,将每个视频片段输入到3D卷积神经网络(例如C3D [25]或TASED[18])中,以自动利用每个视频片段内帧之间的时间关系,如图1所示。03.2.使用视觉显著性的空间高光0除了视频片段内的上下文时间依赖性之外,对象的吸引力通常还取决于周围的环境。例如,当一只狗出现在一张照片中的一群狗中时,它可能不是特别吸引人,但在狗展场景中它是明星。因此,我们进一步考虑学习像素级别的空间关系。具体来说,对于非-LSVMRRAEVideo2gifLIM-sMINI-NetAFM-F-MGNNSLSAPLD-VHDKVSDPPsLstmSMQuasiMBFCVSSGLIM-s VESDDSNMINI-NetSLSAPLD-VHDˆdt(i, j) =� 0,Mt(i, j) ≤ β1,Mt(i, j) > β(4)min L(f(Ct), ˆDt)(5)f(sd) =N�t=1H�i=1W�j=11N · H · W (f(Ct)(i,j))(6)30770表1. YouTube高光数据集上不同方法的视频高光检测结果。0狗 0.60 0.49 0.308 0.579 0.582 0.72 0.67 0.708 0.649 0.749 体操 0.41 0.35 0.335 0.417 0.617 0.56 0.66 0.5320.715 0.702 跑酷 0.61 0.50 0.540 0.670 0.702 0.75 0.83 0.772 0.766 0.779 溜冰 0.62 0.25 0.554 0.578 0.722 0.680.70 0.725 0.606 0.575 滑雪 0.36 0.22 0.328 0.486 0.587 0.64 0.69 0.661 0.712 0.707 冲浪 0.61 0.49 0.541 0.6510.651 0.78 0.69 0.762 0.782 0.7900平均 0.536 0.412 0.464 0.564 0.644 0.68 0.69 0.693 0.705 0.7300表2.在TVsum数据集上,不同方法的实验结果(前5个mAP得分)。0BK 0.342 0.395 0.406 0.407 0.295 0.313 0.326 0.417 0.663 0.441 0.368 0.717 0.726 0.681 0.845 BT 0.419 0.464 0.471 0.4730.327 0.365 0.402 0.483 0.691 0.492 0.435 0.769 0.789 0.950 0.809 DS 0.394 0.449 0.455 0.453 0.309 0.357 0.378 0.4660.626 0.488 0.416 0.591 0.640 0.608 0.703 FM 0.397 0.442 0.452 0.451 0.318 0.365 0.365 0.464 0.432 0.487 0.412 0.5590.589 0.669 0.725 GA 0.402 0.457 0.463 0.469 0.342 0.325 0.379 0.475 0.612 0.496 0.428 0.754 0.749 0.844 0.764 MS0.417 0.462 0.477 0.478 0.375 0.412 0.398 0.489 0.54 0.503 0.436 0.813 0.862 0.865 0.872 PK 0.382 0.437 0.448 0.4450.324 0.318 0.354 0.456 0.604 0.478 0.411 0.780 0.790 0.703 0.719 PR 0.403 0.446 0.461 0.458 0.301 0.334 0.381 0.4730.475 0.485 0.417 0.545 0.632 0.675 0.740 VT 0.353 0.399 0.411 0.415 0.336 0.295 0.328 0.423 0.559 0.447 0.373 0.8030.865 0.834 0.744 VU 0.441 0.453 0.462 0.467 0.369 0.357 0.413 0.472 0.429 0.493 0.441 0.653 0.687 0.647 0.7910平均 0.398 0.447 0.451 0.461 0.329 0.345 0.372 0.462 0.563 0.481 0.424 0.698 0.733 0.748 0.7710高光片段的伪标签仍然全部为零,因为这些片段中的像素都不感兴趣。对于高光片段,我们利用视觉显著性来利用每帧中的空间上下文。一方面,如图3所示,视觉显著性可以看作是稳健的一般视觉信号,旨在模拟人们在观看视频时显示的凝视固定点,这与视频高光检测的目标一致。使用显著性有助于识别吸引人的细粒度区域。另一方面,虽然我们在方程(1)中为高光片段中的所有像素注释了像素级别的区别,但并非所有高光片段中的区域都真正具有吸引力,这在优化方程(3)中的学习问题时产生了相当多的噪声。使用显著性信息消除背景噪声有助于学习更稳健的像素级别区别估计模型。具体而言,我们使用显著性掩模作为伪标签,为高光片段中的像素注释像素级别的区别。给定高光片段中的任何帧It,我们将其显著性掩模表示为Mt。像素级别的区别可以定义如下:0其中 β是一个超参数阈值,在大多数情况下我们将其简单设置为0.0005。注意,通过使用上述像素级别的定义,可以计算出视频片段的高光得分,而通过将具有最高得分的视频片段集合在一起,可以获得突出显示的视频,这与现有的视频高光检测方法类似。0用 ˆ d t ( i, j ) 替换方程(1)中的原始像素级别区分 d t ( i,j ),空间区分可以与时间依赖性学习框架无缝集成。我们还能够共同利用空间和时间依赖性来估计像素级别的区分。将 ˆD t 表示为帧 I t 的新区分图,学习目标可以更新如下:0在学习像素级别的区分估计模型之后,给定任何视频的一个片段,可以通过对片段中所有像素级别的区分进行平均来计算高光得分,如下所示:0其中 s d 表示视频中的第 d 个片段,而 f ( C t ) ( i,j )是估计的区分图的第 ( i, j )个元素;此外,N、H和W分别表示 s d中的帧数、帧的高度和宽度。视频片段的高光得分可以通过使用该片段中所有像素级别的区分的平均值来估计,而突出显示的视频可以通过类似于现有的视频高光检测方法的方式来组合具有最高得分的视频片段来获得。KVSDPPsLstmSMSMRSQuasiMBFCVSSGVESDDSNMINI-NetPLD-VHDBJ0.6620.6720.6830.6920.5040.5610.6310.6580.6980.6850.7150.7760.900BP0.6740.6820.7010.7220.4920.6250.5920.6750.7130.7140.7460.9630.970ET0.7310.7440.7490.7890.5560.5750.6180.7220.7590.7830.8130.7860.817ERC0.6850.6940.7170.7280.5250.5630.5750.6930.7290.7210.7560.9531.000KP0.7010.7050.7140.7450.5210.5570.5940.7070.7290.7420.7720.9591.000MLB0.6680.6770.7140.6930.5430.5630.6240.6790.7210.6870.7270.8691.000NFL0.6710.6810.6810.7270.5580.5870.6030.6740.6930.7240.7370.8970.970NDC0.6980.7040.7220.7590.4960.6170.6940.7020.7380.7510.7820.8900.958SL0.7130.7220.7210.7660.5250.5510.6240.7150.7430.7630.7940.7870.844SF0.6420.6480.6530.6530.5330.5620.6030.6470.6810.6740.7090.7271.00030780表3. CoSum数据集上的结果(top-5 mAP得分)。我们的方法在所有比较方法中表现出色。0平均 0.684 0.692 0.705 0.735 0.525 0.576 0.602 0.687 0.720 0.721 0.755 0.861 0.94603.3. 网络架构0如图2所示,我们的模型由编码器网络(用于提取输入视频剪辑的特征)和解码器网络(用于生成与目标帧对应的区分图)组成。时间模块旨在获取当前要预测的帧的辅助过去信息。它利用由过去连续帧和当前目标帧组成的3D卷积神经网络输入。此外,辅助空间模块是一个视觉显著性模型,作为编码器网络生成显著性掩模。为此,我们采用了在DHF1K上预训练的TASED-Net[18]。我们整个框架的最终输出是与输入目标帧大小相同的高光图。04. 实验0在本节中,我们在几个具有挑战性的公共基准数据集(YouTube [24]、TvSum [23]和CoSum[5])上验证了我们的模型,并将结果与几种最先进的视频高光检测方法进行了比较。更多实验细节请参见补充材料。04.1. 实验设置04.1.1 数据集和评估指标0• YouTube Highlight[24]是一个流行的视频高光检测数据集,收集了来自六个不同领域的视频。每个领域包含50到90个不同持续时间的视频。每个视频被分成几个包含大约100帧的片段,每个片段都用三种不同的标签进行注释:1-由用户选择为高光;0-边界情况;-1-非高光。我们将边界情况视为非高光。0• TvSum [23]包含10个类别的50个视频。按照[11,31]的做法,我们选择按照镜头质量的前50%进行选择。0使用注释者为每个视频提供的分数作为人工创建的真实值。0• CoSum[5]包含10个事件的51个视频。在这项工作中,按照[11]的做法,我们将每个生成的高光与三个人工创建的真实值进行比较。0与大多数现有方法[11, 31]一样,我们遵循Video2gif[9],使用平均精度(mAP)作为评估指标。04.1.2 比较方法0我们将我们的方法(PLD-VHD)与以下三个数据集上最先进的视频高光检测基线进行比较。0• 弱监督方法。此类别中的比较方法包括RRAE[35],MBF [5],SMRS [6],Quasi [14],CVS[21],SG [17],VESD [4],DSN [20],LIM-s[31]和MINI-Net [11]。0• 监督方法。还选择了几种监督方法进行比较,即LSVM[24],Video2gif [9],KVS [22],DPP [7],sLstm[38],SM [8],AFM-F-M [12],GNN [40],SL[34]和SA [1]。0尽管其中一些方法用于视频摘要,但按照[11,31]的做法,它们的性能是使用与本研究中使用的相同指标进行评估的。04.2. 视频高光检测结果0公共数据集包含不同情况下的视频,例如摄像机视角变化。就整体实验结果而言,我们提出的具有伪区分标签的方法实现了最佳性能。表1展示了不同方法在YouTubeHighlight数据集[24]上进行视频高光检测的结果。我们报告了使用TASED-Net[18]作为骨干网络的我们提出的方法的结果,标记为“PLD-VHD”。对于30790高 低 分数0滑冰0滑雪0冲浪0中等0图4.来自不同领域的展示示例。红色表示更高的高光分数,浅绿色表示较低的高光分数,蓝色表示中等高光分数。0表4. YouTube Highlights数据集的消融研究结果。0C3D无时间 C3D无空间 C3D全 TASED无时间 TASED无空间 TASED全0狗 0.594 0.700 0.718 0.668 0.734 0.749 体操 0.707 0.716 0.730 0.691 0.701 0.702 跑酷 0.578 0.677 0.7460.658 0.756 0.779 滑冰 0.360 0.405 0.490 0.411 0.521 0.575 滑雪 0.667 0.670 0.696 0.654 0.705 0.707 冲浪0.725 0.756 0.758 0.736 0.779 0.7900平均 0.651 0.664 0.712 0.667 0.702 0.7300基准方法的结果是从原始论文中复制或从[11,31]中借用的。此外,PLD-VHD在TvSum和CoSum上分别提高了SOTA方法(即SA [1]和MINI-Net[11])的3.1%和9.9%,如表2和表3所示。这清楚地证明了我们的方法通过学习像素级别的区别的有效性。就限制而言,我们的方法主要在手持相机拍摄的第一人称视频中失败,特别是在YouTubeHighlight中的滑冰视频,这些视频由于无法控制的相机运动而包含大量杂乱的背景。我们还在不同领域的视频高光检测中提供了一些视觉示例。如图4和补充材料所示,通过学习像素级别的区别,我们的框架可以有效地执行视频高光检测。04.3. 消融研究0我们进行了一项额外的实验,将骨干网络更改为在Sports-1M上预训练的C3D[25],这与video2gif中使用的设置相同,比MINI-Net中使用的设置更简单。如图所示0表5. 在TvSum和CoSum上的消融研究结果。0无时间TASED 无空间TASED 完整TASED0TvSum 0.729 0.741 0.771 CoSum 0.888 0.915 0.9460表4中,尽管由于使用了较弱的骨干网络,Ours(C3D)的性能略低于Ours(TASED),但仍优于所有其他现有方法。这再次证实了我们的方法即使在使用不同的骨干网络时也是有效的。我们进一步验证了我们提出的方法中不同组件的有效性。具体而言,我们的方法使用了两种线索:时间线索和空间线索。为了验证它们的效果,我们通过分别删除这两种线索来进行消融实验,共有四个变体:0•无空间C3D采用C3D[25]作为骨干网络,但不使用显著性掩码生成伪区分标签。换句话说,我们在这种情况下使用了等式(1)中定义的区分标签。30800dog0无空间TASED0完整TASED0体操0(a)dog0(b)体操0无空间TASED0完整TASED0图5. 每个子图的第一行是从YouTube突出数据集中的dog(体操)中采样的帧。在第三行中,我们的完整模型推断出的白色区域呈现了dogshow的轨迹和体操片中女演员的动作,而没有空间模块的第二行可能包含一些背景噪声,无法提供清晰的突出线索。0•无时间C3D通过复制目标帧It来填充视频剪辑Ct,从而消除了时间上下文的影响。如等式(4)所述,只使用It进行区分估计。0•TASED无空间遵循与无空间C3D相同的设置,但使用TASED-Net作为骨干网络。0•无时间TASED遵循与无时间C3D相同的设置,但使用TASED-Net作为骨干网络。0不同变体和完整模型的结果如表4所示。我们可以从这些结果中观察到时间和空间线索都很重要。特别是当去除空间线索时,我们使用C3D(TASED)的模型性能从0.712下降到0.664(0.730下降到0.702)。由于空间突出线索的帮助,我们的模型可以更加鲁棒,对噪声更具抵抗力,并且在视频突出检测中可以更好地学习像素级别的区分,如图5所示。类似地,当去除时间上下文时,我们使用C3D(TASED)的模型性能从0.712下降到0.651(0.730下降到0.667)。我们在TvSum和CoSum上对我们的时间和空间模块进行了类似的消融研究,结果见表5。关于TvSum和CoSum上每个领域的更详细结果,请参阅补充材料。这证实了我们的分析。0视频突出任务高度依赖于当前帧之前的上下文,无论是时间上还是空间上。05. 结论0在这项工作中,我们通过利用视频片段内的时间和空间关系来进行视频突出检测的像素级别区分。对于时间关系,我们利用3D卷积神经网络来捕捉通过当前帧之前的帧来进行区分,并利用视觉显著性来建模空间关系的区分。我们进一步采用编码器-解码器结构来预测用于突出检测的像素级别区分。除了实现最先进的性能外,我们提出的方法还具有可解释性的优势。0致谢0本工作得到了新一代人工智能重大项目的支持,编号为2018AAA0100400,中国国家自然科学基金(编号62176047),北京市自然科学基金(Z190023)以及阿里巴巴集团通过阿里巴巴创新研究计划的支持。2, 630810参考文献0[1] Taivanbat Badamdorj,Mrigank Rochan,Yang Wang和LiCheng。联合视觉和音频学习用于视频亮点检测。在ICCV中,第8127-8137页,2021年。2, 3, 6, 70[2] Cagdas Bak,Aysun Kocak,Erkut Erdem和AykutErdem。用于动态显著性预测的时空显著性网络。IEEE多媒体交易,20(7):1688-1698,2017年。30[3] Loris Bazzani,Hugo Larochelle和LorenzoTorresani。用于时空视觉注意力的循环混合密度网络。在ICLR中,2017年。30[4] Sijia Cai,Wangmeng Zuo,Larry S Davis和LeiZhang。使用变分编码器-解码器和网络先验进行弱监督视频摘要。在ECCV中,第184-200页,2018年。60[5] Wen-Sheng Chu,Yale Song和AlejandroJaimes。视频共摘要:通过视觉共现进行视频摘要。在CVPR中,第3584-3592页,2015年。2, 60[6] Ehsan Elhamifar,Guillermo Sapiro和ReneVidal。通过查看少数对象来查看全部:用于找到代表性对象的稀疏建模。在CVPR中,第1600-1607页,2012年。60[7] Boqing Gong,Wei-Lun Chao,Kristen Grauman和FeiSha。用于监督视频摘要的多样化顺序子集选择。NIPS,27:2069-2077,2014年。3, 60[8] Michael Gygli,Helmut Grabner和Luc VanGool。通过学习子模块混合物进行视频摘要。在CVPR中,第3090-3098页,2015年。3, 60[9] Michael Gygli,Yale Song和LiangliangCao。Video2gif:从视频自动生成动画GIF。在CVPR中,第1001-1009页,2016年。1, 2, 3, 60[10] Kensho Hara,Hirokatsu Kataoka和Yutaka Satoh。时空3DCNN能否追溯2DCNN和ImageNet的历史?在CVPR中,第6546-6555页,2018年。70[11] Fa-Ting Hong,Xuanteng Huang,Wei-Hong Li和Wei-ShiZheng。Mini-net:用于视频亮点检测的多实例排序网络。在ECCV中,第345-360页,2020年。3, 6, 70[12] Yifan Jiao,Zhetao Li,Shucheng Huang,XiaoshanYang,Bin Liu和TianzhuZhang。基于三维注意力的深度排序模型用于视频亮点检测。IEEE多媒体交易,20(10):2693-2705,2018年。10[13] Andrej Karpathy,George Toderici,SankethShetty,Thomas Leung,Rahul Sukthankar和LiFei-Fei。使用卷积神经网络进行大规模视频分类。在CVPR中,第1725-1732页,2014年。70[14] Gunhee Kim,Leonid Sigal和Eric PXing。联合总结大规模网络图像和视频以进行故事重建。在CVPR中,第4225-4232页,2014年。60[15] Yong Jae Lee,Joydeep Ghosh和KristenGrauman。发现自我中心视频摘要的重要人物和对象。在CVPR中,第1346-1353页,2012年。30[16] 郑路和KristenGrauman。以故事为驱动的自我中心视频摘要。在CVPR中,第2714-2721页,2013年。30[17] Behrooz Mahasseni,Michael Lam和SinisaTodorovic。使用对抗性LSTM网络进行无监督视频摘要。在CVPR中,2017年7月。3, 60[18] Kyle Min和Jason JCorso。Tased-net:用于视频显著性检测的时间聚合空间编码器-解码器网络。在ICCV中,第2394-2403页,2019年。3, 4, 60[19] Mayu Otani,Yuta Nakashima,Esa Rahtu和JanneHeikkila。重新思考视频摘要的评估。在CVPR中,第7596-7604页,2019年。30[20] Rameswar Panda, Abir Das, Ziyan Wu, Jan Ernst, and AmitK Roy-Chowdhury. 弱监督的网络视频摘要. In ICCV, pages3657–3666, 2017. 60[21] Rameswar Panda and Amit K Roy-Chowdhury.协作主题相关视频摘要. In CVPR, pages 7083–7092, 2017. 60[22] Danila Potapov, Matthijs Douze, Zaid Harchaoui, andCordelia Schmid. 类别特定的视频摘要. In ECCV, pages 540–555,2014. 60[23] Yale Song, Jordi Vallmitjana, Amanda Stent, andAlejandro Jaimes. 使用标题摘要化网络视频. In CVPR, pages5179–5187, 2015. 2, 60[24] Min Sun, Ali Farhadi, and Steve Seitz.通过分析编辑视频对领域特定亮点进行排序. In ECCV, pages787–802, 2014. 2, 3, 60[25] Du Tran, Lubomir Bourdev, Rob Fergus, LorenzoTorresani, and Manohar Paluri. 使用3D卷积网络学习时空特征.In ICCV, pages 4489–4497, 2015. 4, 70[26] Antigoni Tsiami, Petros Koutras, and Petros Maragos.Stavis: 时空音频视觉显著性网络. In CVPR, pages 4766–4776,2020. 30[27] Arun Balajee Vasudevan, Michael Gygli, Anna Volokitin,and Luc Van Gool.通过质量感知相关性估计进行查询自适应视频摘要. In ACM M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功