基于时间线索的低秩视听融合视频精彩片段检测

99 浏览量更新于2023-10-16 收藏 888KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7950.....基于时间线索的低秩视听融合视频精彩片段检测叶庆浩1、2*<$奚悦申3*高元4*王梓睿1*齐碧5李萍1<$杨广61杭州电子科技大学2加州大学圣地亚哥分校3华东师范大学4牛津大学5武汉大学6伦敦帝国理工学院摘要视频高光检测在社交媒体内容过滤中起着越来越重要的作用，然而，由于缺乏时间注释（即，其中精彩时刻在长视频中）用于监督学习。在本文中，我们提出了一种新的弱监督的方法，可以学习检测亮点挖掘视频特征与视频水平的注释（主题标签）。特别是，我们exploit视听功能，以提高视频表示，并考虑到时间线索，以提高检测。（一）没有突出性能。我们的贡献有三个方面：1）我们提出了一种视听张量融合机制，该机制有效地建模了两个模态之间的复杂关联，同时减少了两个模态之间的异质性差距;2）引入了一种新的分层时间上下文编码器，将局部时间线索嵌入到相邻片段之间; 3）最后，我们从理论上解决了模型优化过程中的梯度消失问题。在两个基准数据集（YouTube Highlights和TVSum）上的广泛实验表明，我们的方法优于其他最先进的方法，具有显着的改进。1. 介绍近来，短形式视频共享应用（例如，TikTok和Reels）在互联网上引起了全世界的关注。从内容制作者的角度来看，手动修剪长视频并本地化那些精彩片段对他们来说不是令人愉快的体验。因此，迫切需要一种自动化的方法来识别未修剪的视频中的精彩片段。视频精彩片段检测在计算机视觉领域受到了广泛的关注。已经提出了许多方法[24，31，28]来自动地从标记有特定主题或关键词的未修剪视频中裁剪突出部分，其通常可以分为两类，*同等贡献。†通讯作者：yuan.gao2@gmail.com图1.用于高光检测的时间关系推理。部分（A）包含不同的冲浪教程部分，其中几乎没有时间线索来推断突出部分。然而，在部分（B）中，具有虚线的框中的剪辑包含起飞和擦除片段，其指示冲浪的发生，并且它们在这些剪辑中编码可用于推断高光的上下文特征。即，基于监督学习和弱监督学习的方法。监督方法[22，9，11]通常训练具有帧级注释的排名器检测器来对高光片段进行排名，其分数高于非高光片段的分数。然而，手动地注释逐帧高光是极其劳动密集且耗时的。为了克服这个问题，弱监督方法[20，3，30]使用弱标记视频来训练模型。对于方法，通常基于是否存在呈现的主题特定片段将视频分成两个类别：肯定视频包含至少一个突出显示的片段，而否定视频应该没有突出显示。经训练的高光检测器需要从那些特定于主题的视频片段中学习，以识别未看到的视频的高光。然而，这些弱监督方法在以下方面具有有限的能力：（1）有效地捕获视频中音频流和视频流之间的复杂交互，同时保持效率;（2）通过利用视频片段之间迄今未探索的时间演变来增强语义连续性建模。对于前一个瓶颈，以前的方法[12，29]倾向于采用线性融合方案（例如，级联时间上下文编码……剪辑t-k夹t剪辑t+k（B）冲浪亮点时间上下文编码……剪辑t-k夹t剪辑t+k7951或者两个模态之间的总和）来传送视频表示。尽管如此，由于音频并不总是对应于视觉帧，因此由于每种模态的不同特征分布，这种线性融合方法不能完全捕获两种模态随后，双线性池[8]被设计为通过对成对相互作用进行建模来融合两种特征。然而，一个缺点是，它需要大量的参数来训练用于视频精彩部分检测的领先的低效训练，这在面临过拟合的风险的同时是非常昂贵的资源。由于高秩张量可以分解为几个矩阵和核心张量[16]，我们引入了视听张量融合方案，并对核心张量应用低秩约束，这不仅可以通过有效地建模模态交互来提供丰富的视频表示，而且还可以减少作为正则化的模型的可训练参数的数量。在另一方面，大多数现有方法[30，12]倾向于单独处理视频片段，而没有充分利用跨连续片段的时间演进。如图1中所描绘，归因于视频的时间特性，那些非精彩部分片段可提供用于推断精彩部分且前阴影精彩部分的发生的富有成效的线索。为了进一步说明，精彩场面事件的开始或结束将指示精彩场面片段的发生，起飞和擦除片段暗示冲浪的发生（在图1（B）中示出）。受此启发，我们提出了一个分层的时间上下文编码方案，它利用本地相邻段之间的时间上下文关系，通过利用时间线索的第一次。特别地，视频片段以分层范例对来自其相邻片段的上下文信息进行编码，这对于片段之间的高阶内容交互是有益的。因此，时间上下文特征包括原始片段的表示，并且还对相邻片段之间的局部依赖性进行总之，我们提出了一种低秩视听张量融合机制和分层时间上下文编码方案来解决上述限制，我们认为这是弱监督视频精彩部分检测取得进展的重要标志最后，考虑到只有视频级注释可用，正确地对视频进行分类可以为特定于主题的突出部分检测提供有用的归纳偏差，因为视频可能包含各种事件的突出部分。因此，我们利用这一优势，通过引入一种新的注意力门控实例聚合模块，它派生代表性的视频分数从个别段的分数。更重要的是，当视频中的片段的分数高时，梯度消失问题不断发生，并且传统方法[2，4]不具有针对梯度消失的理论洞察力。溶液理论分析表明，本文提出的实例聚合模块可以有效地缓解这一问题。我们的研究的主要贡献可以强调如下：• 我们开发了一种低秩视听张量融合机制来捕获两种模态之间的复杂关联，从而可以有效地生成信息丰富的视听融合特征。• 我们提出了一种新的分层方案，以编码的时间上下文特征之间的视频片段与时间线索的第一次在视频高光检测。实验结果表明，我们的模型优于竞争方法的显着保证金。• 我们引入了一个注意力门控实例聚合模块来制定视频分数，并利用诱导偏差进行特定主题的亮点检测。理论分析表明，该算法能有效地解决优化过程中的梯度消失问题.2. 相关工作视频精彩片段检测技术在多媒体分析中的应用越来越广泛，并在实践中有着巨大的应用潜力，近年来有许多相关的研究。先前的方法主要集中于从体育视频中检测精彩部分[24，31，28]。最近，提出了各种监督方法来检测来自互联网的视频[27]和第一人称视频[34]的亮点。Gygli等人[11]手动创建Video-GIF对，并利用这些对视频片段进行排名，以便选择高亮片段。然而，这种监督方法需要手动标记的高光，其可能不容易在互联网上收集。相比之下，弱监督和无监督方法可以减轻依赖于高光注释的问题。这些方法可以分为主题不可知和主题特定的方法。对于主题不可知方法，Yanget al. [32]采用类别感知重建损失来缩小精彩片段和简短视频之间的差距目前，在共享相同主题的一组视频上训练的主题特定方法[30，12 熊等人[30]挖掘了视频持续时间和精彩片段之间的关系。Hong等人[12]在突出显示和非突出显示段之间采用秩损失。然而，这些方法在进行预测时丢弃了片段之间的时间依赖性，因此它们通常7952我S∈V{∈|}∈（一）V{∈|}联系我们输入视频视听张量融合分层时域环境编码注意门控实例聚合图2.所提出方法的概述。注意，fa是音频特征，fv是帧特征，T是融合音频和帧特征的三向投影张量，并且c（T）是片段v i的时间上下文特征。导致高光检测的次优性能。为了探索的时间线索的视频，我们引入层次上下文建模，通过将上下文信息之间的相邻段，以更好地本地化的亮点段。视频摘要视频摘要[7，19，35]是视频亮点检测的相关任务，旨在从视频中选择几个代表性和不同的片段作为输出摘要。然而，突出部分检测仅选择最感兴趣的片段作为突出显示的部分，这所有片段的编码的上下文特征和对应的精彩部分分数，以估计输入视频的精彩部分概率。特别地，实例聚合模块减轻了梯度消失问题，从而导致更好的收敛。我们的方法概述如图2所示。3.1. 初步给定η个视频的集合V ={V（1），V（2），···，V（η）}，对于每个视频V⑴ ={v}m，具有m个分段，不需要整个视频的完整性。最近，观察标号（一）% s % s=1提出了几种基于深度学习的方法来生成高质量视频摘要。例如，Zhanget al. [37]利用决定点过程（DPP）来增强生成的摘要的多样性。 Zhao等人[39]应用LSTM的分层结构来编码视频片段之间的长距离时间信息。最近，Liet al. [18]探索了有效视频摘要的全局多样性。此外，Rochanet al.[23]在无监督的情况下，使用来自不同来源的未配对样本训练模型。3. 所提出的方法在这项工作中，我们探讨了主题特定的突出检测与视频级标签只（例如，冲浪、玩guitar等）。我们将候选视频均匀地划分为片段（片段）。在第3.2节中，我们首先介绍了具有秩约束的视听张量融合方案，以便捕获视频和音频信号之间的关联，从而构建视频片段的更好的特征表示。然后，在第3.3节中，我们建立了一个上下文层次结构，用于探索以前最先进的方法完全丢弃的时间线索。此外，成对的上下文信息被认为是为了在正视频或负视频内对实例关系进行建模。此外，我们还在第3.4节中提出了一个注意力门控实例聚合模块，该模块采用y0，1指示该视频是否包含感兴趣的主题。在这个公式中，每一个环节-段v（i）被认为是我们不能评估它是否包含主题特定突出的实例。如果视频包含感兴趣的话题片段，则视频被视为假定视频（y （i）= 1），而假定视频（y（i）= 1）被视为假定视频（y（i）= 1）。0）仅由不包含特定主题的片段组成。最后，P=i[l，m]y（i）=l是所述位置视频的整数集合，并且n=i[1，n]y（i）=0表示负视频的索引。3.2. 视听张量融合方案已经广泛证明，音频信息可以丰富各种计算机视觉任务中的视频表示[1，13]。对于高光检测，视频片段的表示不仅应该从帧的出现中学习，而且还可以从其对应的音轨中学习。因此，给定一个视频片段，我们开发了一个视听张量融合方案，以利用音频和视觉信息进行视频表示学习。给定任意段的帧特征表示fvRdv和音频特征faRda，为了增强视频特征表示，我们对高级特征表示进行建模。音频和视觉特征之间的交互以完全参数化的方式使用双耳池化融合特征fa2Rda...（T）Ci......S音频特征......C（2）...{ci }i=1...（T）m我L视觉特征...c（1）...我{ci }i=1（T）m视频...↵ 1 ↵2...维姆......（0）F2RDvCivLvar...7953fh2RdhWhWa=Tcfa2RdaRdvdadhWvfv2RdvNR不.Σ∈∈T ∈×∈ ≪ ≪≪T∈◦H s=1T ××（一）Hs+jhc=Σ(a) 视听张量融合术的机制分解[17]，高秩矩阵可以由一组秩为1的矩阵表示。对于每个维度k∈[1，d′h]，~fv和~fa之间的成对相互作用可以用公式表示为~fh[k]=~fvTc[：，：，k]~fa.（四）如图3（b）所示，我们将张量c[：，：，k]的每个维度分解为R个秩一矩阵的组合，并将其插入到等式2中。（4）、即Mr2Rd0vd0h+Nr2Rd0ad0hTc2Rd0vd0ad0hM1M 2MRr= l，···，R~fh[k]=~fvΣ=Rr=1.Mr[：，k]Nr[：，k]ΣΣ。~faΣ(b) 核心张量Tc由一组低秩（R）矩阵构成。图3.视听张量融合方案概述。fh∈Rdh可以计算如下其中 Mr[：，k]和 Nr[ ：， k]是 MrRd′v×d′hnrRd′a×d′h。因此，我们可以将R秩一矩阵的组合写为如下所示：fh=（T×1fv）×2fa，（一）~fh=Σ Σ。~fvMrΣ◦.~faNr中国（6）哪里Rdv×da×dh是一个三向投影张量需要学习，i是模式i乘积运算符。虽然双线性池化可以有效地对视觉特征和音频特征之间的成对交互进行建模，但是它也带来了大量的可训练参数，从而产生了高的计算和存储器成本。为了克服这个问题，受张量分解方法[16]的启发，T可以分解为核心张量Tc和三个因子矩阵Wv、Wa和Wh：T=（（Tc×1Wv）×2Wa）×3Wh（2）用cRd′v×d′a×d′h，WvRd′v×dv，WaRd′a×da，WhRd′h×dh。特别是r，dad′a，dv德夫dh.因此，Eq. （1）可以改造为：fh= （（ Tc×1 （ Wvfv ）） ×2 （ Wafa ））×3Wh. （ 3）从上面的等式，我们可以定义~fv=Wvfv和~fa=Wafa。同时，我们将~fh=（c1~fv）2~fa表示为是帧和音频之间的成对交互嵌入空间中的特征。融合特征fh可以r=1其中表示Hadamard乘积。在这样做时，融合的多模态特征可以充分利用音频和视觉信息来增强视频表示。3.3. 分层时态上下文编码先前的方法[30，12]直接从输入特征估计单独的我们认为，建模的时间背景是必不可少的亮点检测。然而，高光常常导致时间背景中的可解释的变化，即，在相邻段中，因此是有用的指示器。我们设计了一个分层的时间上下文编码机制作为一种策略，通过聚合连续的片段来生成时间上下文特征。所提出的分层时间上下文编码机制能够在时间线索的帮助下定位高光片段，所述时间线索估计个体高光分数和上下文特征之间的变化。最初，从以下中提取融合特征{fs}m视频V（i）={v}m，其中，m表示因此通过投影~f而获得H其中因子矩阵Wh.% s % s=1片段。然后，每个锚定段fs及其相邻的上述分解过程如图所示。第3（a）段。具有邻居大小k的分段回归为：此外，为了平衡成对相互作用的复杂性和容量，我们将低秩约束的过程。根据矩阵（吨）Sj=−k，···，k， j =0Wjc（t−1）+W0~fs+bc，（7）其中，c（t）是分段v（i）在N1≈+N2+RRr=1 ~fvMr[：~faNr[：、（五）...7954∈11024×1024×2048的float32张量占用8GBytes，s s这是非常消耗存储器的，因此需要大的GPU存储器来计算。第t次迭代，k是邻域大小，WjRdh×dh 是相邻第j段的可学习投影矩阵7955SXΣΣSSSnSVVΣ1L=−VLLSHs−ks−1s+1S+K1（一）1（j）s−1Sp（i）=1−Y（1−p（i）），（15）=L−（一）和b∈Rdh是偏置项。初始化y，我们设置c（0）=~fs，变化损失L变化为：并且上述过程执行T次以编码段v（i）及其2k邻域的内容信息var= maxi，j=l，···，m|、（十二）|,(12)bor_segments（v（i），···，v（i），v（i），···，v（i））. 最后，我们具有时间上下文特征，由分段v（i）的c（T）表示。然后，采用时间连续特征来预测高光置信度得分，表示为对于分段v（i），其被公式化为Lvar= max{0，1 -1}|i∈Vp|i∈VpXvar+ |j∈Vn|j∈VnXvar}。（十三）Ssps=σ（Wpc（T）+bp），（8）此外，考虑到分数在正视频和负视频中都是稀疏的，我们使用加权因子β对上述损失函数添加稀疏性约束，即其中σ（·）是Sigmoid作用函数，Wp∈R1×dh和bp∈R是线性变换参数βΣ。（一）（i）学习。此外，我们用余弦相似度对两个相邻段之间的变化进行建模，Lins=Ls+Lvar+ni=1Xs. （十四）作为（1 cos（c（T），c（T）/2。直观地，分段之间的变化越大，余弦距离将越大。是. 在实践中，我们使用二阶变分来测量锚定段c（T）与其相邻段之间的差异，φs=.2− cos（c（T），c（T））− cos（c（T），c（T））Σ/4。（九）3.4. 注意门控实例聚合早期的MIL相关作品[2，4]指出，简单地将视频标签应用于片段标签可能是不准确的，因为正视频中的标签可能是有噪声的。我们不是直接为每个单独的片段分配视频标签，而是聚合实例分数来估计s−1s% s% s+1视频属于特定主题。在会议之后--我们可以用概率来为了学习精彩片段检测模型，我们预计在特定主题的视频中，精彩片段的分数将大大大于非精彩片段的分数。然而，不太可能使用时间注释来确定哪些片段将是弱条件监控场景同样的，大量的负面视频对于视频V（i）为：MVSs=1其中p（i）是视频的片段v（i）的置信度分数预期小于正视频的分数并且片段的得分应该均匀分布并且在负视频中全部接近于零因此，为了比较高光置信度，我们采用最大分数余量（i）。然后将二进制交叉熵损失应用于视频级监督，并且其可以定义为：在成对段之间，如下：nVn i=1Σy（i）logp（i）+（1−y（一））lo g（1−p（i））Σ.s= maxi，j= l，···，m |、（10）|,(10)（十六）然而，优化Eq.（15）会遭受我们使用铰链损失将其公式化为梯度消失问题。对于正视频，Lv的梯度被计算为：L= max{0，1 −1ΣX（i）+1ΣX（j）}。（ 11）M|V P|i∈Vp|j∈Vn|j∈VnLYp（i）（1−pk）。（十七）sVk=1，k s通过最小化分数损失s，鼓励模型区分高光片段与非高光片段。类似地，我们还期望最大化正视频和负视频之间的差异。为了做到这一点，我们引入了变化损失var，以利用等式中定义的二阶变化φ来扩大正视频和负视频（九）、我们定义最大变化余量Xvar和从上面的推导，我们知道当存在置信度得分接近1的一个分段时，来自其他分段的梯度这与从原始视频中定制多个精彩片段的假设为了缓解这个问题，我们聚合视频中的所有片段的时间上下文特征以生成时间上下文特征。XSSCS7956j=1SLq=1C QCΣm（T）--话题监督方法弱监督方法的gifLSVMRRAELIM-s迷你网*我们狗0.3080.600.490.5790.57680.5538体操0.3350.410.350.4170.57370.6266跑酷0.5400.610.500.6700.69750.7088滑冰0.5540.620.250.5780.52190.6906滑雪0.3280.360.220.4860.53900.6005冲浪0.5410.610.490.6510.59310.5976平均0.4640.540.380.5640.58370.6297表1.YouTube High-lights数据集上的性能比较（mAP评分）*表示我们的实现是在自收集的数据集上训练的。详见补充资料。视频评分为：在当前的评估协议[30，12]中，我们对帧级重要性分数求平均以获得片段级分数，并且选择每个视频的前50%片段作为人类创建的高光。我们将我们的模型预测的高光片段与人类创建的摘要进行比较，并报告两个数据集的平均精度（mAP）。4.2. 定量结果我们将我们提出的模型与众多最先进的视频亮点检测方法进行比较，包括监督和弱监督方法。对于监督方法，我们与Video2GIF方法进行比较[11]，(i)Σ（T）Latent SVM [27]，KVS [22]，DPP [9]，sLSTM [37]和SM [10]。注意，这些方法需要详细的节奏-pV =σWpj=1αjcj+bp，（18）我们的方法不需要训练所有的注释。此外，许多弱监督方法是exp（Wcc（T）+bc）αj=j，（19）exp（Wc+b）也比较了，包括RRAE [33]，MBF [5]，SMRS [6]，[14][15][16][17][18][[20]和[12]。所有这些方法都是其中，αjm是加权因子，Wc和bc是要学习的参数，并且Wp和bp共享等式中的相同（八）、可以从理论上证明，所提出的具有等式（18）的实例聚合方法可以缓解梯度消失问题，这在附录中提供。此外，还对梯度/p（i）进行了可视化在附录中证明非零梯度的区域-通过我们的方法，梯度显著增大。最后，我们应用Eq。（16）计算视频的视频分类损失。通过结合Eq.（14）和Eq.在公式（16）中，我们可以获得所提出的模型的总损失：L=Lins+ LV。（二十）4. 实验在本节中，我们在两个公共数据集上广泛评估了所提出模型的高光检测性能，并与其他最先进的方法进行了比较。更多的实验结果和实施细节在补充材料中报告和分析。4.1. 数据集和指标我们在两个基准数据集上评估了不同的高光检测方法，YouTube High-lights [27]和TVSum [25]。YouTubeHighlights数据集包括六个特定主题类别：狗、体操、跑酷、滑冰、滑雪和冲浪，其中每个主题包含约100个视频和总累积长度是1,430分钟TVSum有50个从YouTube收集的用户视频，其中有10个特定主题的查询标签，包括：换轮胎、给动物梳理毛发、游行、快闪族集会等。因为在TVSum中仅提供帧级重要性分数，所以在使用上述相同的度量进行评估。YouTube Highlights数据集上的结果表1总结了不同最先进方法的实验结果我们可以发现，我们的方法实现了最好的性能相对于所有六个顶级IC的平均mAP。特别是，我们的方法比多模态方法MINI-Net [12]的性能高4.6%。这验证了经由分层时间编码将上下文信息添加到视频表示学习中的益处此外，我们提出的低秩分解技术，我们的模型能够有效地利用视听结构，从而学习更多的区分视频表示，我们相信这也是至关重要的改进。此外，可以观察到我们的方法优于监督方法，即，GIF [11]和LSVM [27]，这进一步证明了事件特定的时间注释是微不足道的，并且我们的弱监督模型能够利用未标记的视频片段来精确地捕获亮点由于我们的方法不需要任何人类创建的符号，因此我们的方法更适用于社交媒体上具有主题标签的视频的现实世界场景。TVSum数据集的结果表2显示了TVSum数据集的实验结果[25]。我们的方法优于所有的比较方法的一个很大的保证金。特别是，我们发现MINI-Net [12]是最具竞争力的多模态弱监督方法，它也将单个视频-音频对视为处理视频结构的实例。我们的方法实现了6.62%的相对增益平均顶部5 mAP比MINI-Net。该结果进一步加强了视频和音频剪辑中的时间线索有助于更好的高光检测的优点。我们表明，建模的时间背景是有用的，必不可少的亮点检测。比如说跑酷M7957话题监督方法弱监督方法KVS民进党sLSTMSMSMRs准MBFCVSSGLIM-sDSNVESD迷你网*我们车辆轮胎0.3530.3990.4110.4150.2720.3360.2950.3280.4230.5590.3730.4470.78540.8501车辆未卡住0.4410.4530.4620.4670.3240.3690.3570.4130.4720.4290.4410.4930.56590.7144梳理动物0.4020.4570.4630.4690.3310.3420.3250.3790.4750.6120.4280.4960.73600.8187制作三明治0.4170.4620.4770.4780.3620.3750.4120.3980.4890.540.4360.5030.75290.7859跑酷0.3820.4370.4480.4450.2890.3240.3180.3540.4560.6040.4110.4780.76870.8021游行0.4030.4460.4610.4580.2760.3010.3340.3810.4730.4750.4170.4850.63250.7552快闪族0.3970.4420.4520.4510.3020.3180.3650.3650.4640.4320.4120.4870.61150.7155养蜂0.3420.3950.4060.4070.2970.2950.3130.3260.4170.6630.3680.4410.75600.7727自行车技巧0.4190.4640.4710.4730.3140.3270.3650.4020.4830.6910.4350.4920.75560.7860狗展0.3940.4490.4550.4530.2950.3090.3570.3780.4660.6260.4160.4880.65550.6812平均0.3980.4470.4510.4610.3060.3290.3450.3720.4620.5630.4240.4810.70200.7682表2.TVSum数据集上的性能比较（前5 mAP评分）我们的方法优于所有的比较方法显着。* 表示我们的实现在自我收集的数据集上进行了训练。正视频负视频（一）S图4.最后给出了该方法的预测结果。亮点检测模型的目的是检测“跑酷”的亮点。正面视频标注为0.750.700.650.600 1 2K3 4 5表3. YouTube和TVSum数据集上不同组件的平均mAP比较。图5.改变邻居大小导致的性能变化K. 它表明，我们的模型实现了最佳性能与k=3。在一些场景中，当有人跳进来并从一个点快速移动到另一个点时，高亮将发生，从而导致前景上下文的剧烈变化我们认为，活动的过渡是一个重要的时间线索，表明出现的亮点时刻。为了进一步验证我们的直觉，我们在图4中可视化了跑酷的正面视频和负面视频中的片段分数。我们可以看到负面视频中的片段分数几乎是均匀的，接近0。同时，我们观察到，在正视频中，即使它们在时间上稀疏地和片段地同时，我们也可以看到与主题无关的片段。“跑酷”的概率很低。所有这些证据都验证了我们的对比学习设计的有效性损失函数Lins4.3.消融研究在本节中，我们将研究模型的每个组件在不同条件下的行为邻居大小k的影响。首先，如图5中所描绘的，我们研究针对时间上下文编码调谐相邻大小k的效果。可以观察到，随着k的增加，平均mAP作为聚合更多上下文特征的结果而增加，直到点，即，k=3（其中获得最佳性能），模型不再受益于添加过多的上下文信息。这表明结合局部时间上下文确实有效地提高了高光检测，而对长期decencies进行建模是微不足道的，并且添加过多的上下文可能会阻碍模型学习有区别的高光特征，并且因此导致检测性能退化。………………p（i）S……优图TVSum被平均地图pExp.YouTubeTVSum1L√√L√√LV√0.56250.680520.57490.716130.59440.732640.60110.747050.62970.76827958不不不损失条款的影响。此外，我们还研究了各个损失项的贡献，结果如表3所示。从表中可以看出，与单独使用它们的那些（实验1和实验2）相比，变异损失和分数损失的组合（实验4）分别在YouTube和TVSum此外，我们发现视频级监督（实验3）对检测也是至关重要的，其在YouTube和TVSum上分别将最终检测结果（实验5）提高了2.8%和2.1%，因为它不仅估计视频包含亮点的总体概率，而且还利用归纳偏差进行特定主题的亮点检测。视听融合方案的影响。我们比较了各种视听融合方案，以解释表4中的性能变化。融合两种模态的最常见实践是两种特征向量的总和或直接连接它们。如前两行（即求和和连接），由于线性模型的有限表达能力，它们实现了类似的性能。为了缓解这个问题，[12]提出了一个子模块多层感知器来建模局部复杂特征交互，并且在YouTube和TVSum上分别获得了1.5%和1.4%的改进。紧凑双线性池化方法[8]甚至进一步提升了性能，如在表4的第四行中可以看到的，它实现了迄今为止的最佳性能。然而，该方法的一个缺点是，与上述方法相比，它引入了更多的可训练参数，这使得它在实践中易于过拟合，而我们方法中的低秩约束用作减轻过拟合风险的正则化[15]。相比之下，我们的模型超过了紧凑的双线性池方法[8]，同时节省了85%的可训练参数。这强烈表明，通过我们的低秩分解方法正则化双线性模型提供了模型容量和参数数量之间的有效权衡此外，因子化双线性池化方法[38]将整个张量约束为低秩，这实现了与紧凑双线性池化相当的结果。然而，它仅仅通过计算逐元素产生将音频和视觉特征投影到共享的R维空间中，这限制了两个模态的内部维度之间的相互作用。相比之下，我们的方法不是对整个张量进行约束，而是对核心张量进行低秩约束c导致比[38]更好的性能，其允许将视觉和音频特征建模到独特的投影空间中，从而导致更好的视听表示。视频评分建模的影响。进一步证明我们提出的实例聚合模块更适合于高光检测。我们比较了几个最流行的-方法|Θ|YouTubeTVSum求和0.3288M0.58090.7259连接[29]0.3271M0.59530.7187子模块MLP [12]0.7886M0.61030.7328压缩双线性池[8]8.3887M0.62560.7509[38]第38话0.9197M0.61470.7511我们1.2499M0.62970.7682表4.YouTube和TVSum数据集上不同视听融合方法的平均mAP比较MLP表示多层感知器，并且|Θ|表示参数的数量。DMIL-RM [26日][36]第三十六话[12]第十二话我们YouTube0.52350.58680.58360.6297TVSum0.67310.68380.70200.7682表5. YouTube和TVSum数据集上不同视频评分建模方法的平均mAP比较。在高光检测的背景下的较大视频分数建模方法。DMIL-RM [26]引入了排名方法来在没有直接视频级监督的情况下对视频片段的分数进行排名。然而，我们已经在早期的会议中证明，在训练过程中添加视频级监督有助于提高检测性能。清楚地表明，我们的方法在两个数据集上分别以较大幅度（4.3%和6.6%）优于Noisy-OR视频得分聚合方法和MINI-Net方法[12表5中的结果表明，我们提出的实例聚合方法优于最先进的视频分类方法。5. 结论本文提出了一种新的视频亮点检测模型，它集成了音频和视觉特征与一个有效的低秩张量融合机制。为了利用视频中的时间线索，该模型对广告片段进行编码，以分层的方式生成时间上下文特征，我们认为上下文特征的变化被认为是在特定主题的视频中重现精彩时刻的关键在优化阶段期间，重新制定视频分数以减轻梯度消失问题。此外，我们在两个公开数据集上进行了大量的实验，实验结果验证了该方法的有效性和优越性。确认感谢李国敦和陈洪祥对本工作提出的宝贵意见和建议。这项工作得到了国家自然科学基金61872122、61502131的部分资助。引用[1] Relja Arandjelovic和Andrew Zisserman。看，听，学。IEEE国际会议7959计算机视觉，第609-617页，2017年。3[2] 阿夫里姆·布鲁姆和亚当·卡莱关于从多实例示例中学习的说明。Machine learning，30（1）：23二、五[3] Sijia Cai ， Wangmeng Zuo ， Larry S Davis ， and LeiZhang.基于变分编解码器和网络先验的弱监督视频摘要。在欧洲计算机视觉会议（ECCV）的会议记录中，第184- 200页，2018年。1、6低秩双线性池的乘积。在第五届国际学习表征会议上，ICLR 2017，法国土伦，2017年4月24日至26日，会议跟踪程序。OpenReview.net，2017年。8[16] Tamara G Kolda和Brett W Bader。张量分解及其应用。SIAM review，51（3）：455-500，2009. 二、四[17] Yehuda Koren，Robert Bell，Chris Volinsky.推荐系统中的矩阵计算机，42（8）：30-37，2009. 4[4]马克-安德烈卡尔博诺VeronikaCheplygina，Eric[18]李平，叶庆浩，张鲁明，李媛，向华格兰杰和吉斯林·盖格农。多实例学习：问题特征和应用的调查。Pattern Recognition，77：329-353，2018。二、五[5] 朱文生，宋耶鲁，亚历杭德罗·海姆斯。视频共同总结：基于视觉共现的视频摘要。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第3584-3592页6[6] Ehsan Elhamifar、Guillermo Sapiro和Rene Vidal。通过查看几个来查看所有内容：稀疏建模用于寻找代表性对象。2012年IEEE计算机视觉和模式识别会议，第1600-1607页。IEEE，2012。6[7] Hui Fang，Jianmin Jiang，and Yue Feng.一种用于视频镜头边界检测的模糊逻辑方法。Pattern Recognition，39（11）：2092-2100，2006. 3[8] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 317-326，2016中。二、八[9] 龚伯庆、赵伟伦、克里斯汀·格劳曼和费莎。用于监督视频摘要的多样顺序子集选择神经信息处理系统的进展，第2069-2077页，2014年。1、6[10] Michael Gygli Helmut Grabner和Luc Van Gool通过学习对象的子模块混合来进行视频摘要。在IEEE计算机视觉和模式识别会议论文集，第3090-3098页，2015年。6[11] Michael Gygli ， Yale Song ， and Liangliang Cao.Video2gif：从视频自动生成动画GIF。在IEEE计算机视觉和模式识别会议的论文集，第1001-1009页，2016年。一、二、六[12] 洪发庭，黄轩腾，李伟宏，郑伟世。Mini-net：用于视频亮点检测的多实例排名网络。2020年欧洲计算机视觉会议。一二四六八[13] Chiori Hori ， Takaaki Hori ， Teng-Yok Lee ， ZimingZhang，Bret Harsham，John R Hershey，Tim K Marks，and Kazuhiko Sumi.基于注意力的多模态视频描述融合。在IEEE计算机视觉国际会议论文集，第4193-4202页3[14] Gunhee Kim，Leonid Sigal，and Eric P Xing.对大规模网络图像和视频集合进行联合汇总，以重建故事情节。IEEE计算机视觉和模式识别会议论文集，第4225-4232页，2014年。6[15] Jin-Hwa Kim 、 Kyoung Woon On 、 Woosang Lim 、Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-Tak Zhang 。Hadamard徐和凌少。基于成对时间关系的视频摘要全局多样注意研究。模式识别，111：107677，2021。3[19] Behrooz Mahasseni、Michael Lam和Sinisa Todorovic。对抗性lstm网络的无监督视频摘要。在IEEE计算机视觉和模式识别集，第202三、六[20] Rameswar Panda，Abir Das，Ziyan Wu，Jan Ernst，andAmit K Roy-Chowdhury.网络视频的弱监督在IEEE计算机视觉集，第36571、6[21] Rameswar Panda和Amit K Roy-Chowdhury。主题相关视频的协作摘要。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第7083-7092页，2017年。6[22] Danila Potapov 、 Matthijs Douze 、 Zaid Harchaoui 和Cordelia Schmid。类别特定视频摘要。在欧洲计算机视觉会议上，第540 - 555页。Springer，2014. 1、6[23] Mrigank Rochan和Yang Wang。通过从非配对数据学习的视频摘要。在IEEE计算机视觉和模式识别会议论文集，第7902-7911页，2019年。3[24] Yong Rui，Anoop Gupta，and Alex Acero.自动提取电视棒球节目的精彩片段。第八届ACM多媒体国际会议论文集，第105-115页，2000年。一、二[25] Yale Song ， Jordi V

下载后可阅读完整内容，剩余1页未读，立即下载