跨类别视频亮点检测的基于集合学习方法

31 浏览量更新于2023-10-13 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7970基于集合学习的跨类别视频亮点检测徐明浩1王航1倪冰冰1* 朱日恒2孙振邦2王常虎21上海交通大学上海2002402字节跳动人工智能实验室{xuminghao118，sjtu.edu.cn{zhuriheng，sunzhenbang，wangchanghu} @ bytedance.com摘要自主高光检测对于增强社交媒体平台上的视频浏览效率至关重要。为了以数据驱动的方式实现这个目标，人们可能经常面临这样的情况，其中在实践中使用的目标视频类别上没有可用的高光注释，而对另一个视频类别（称为源视频类别）的监督是可实现的。在这种情况下，可以通过将从源视频类别获得的精彩部分知识转移到目标视频类别来导出目标视频类别上的有效精彩部分检测器。我们称这个问题为跨类别视频高光检测，这在以前的作品中很少研究。为了解决这一实际问题，我们提出了一个基于双线性算子的视频高光检测（DL-VHD）框架。在此框架下，我们首先设计了一个基于Set的学习模块（SL模块），通过在更广泛的背景下评估视频片段的亮点程度来改进传统的基于配对的学习。基于这样的学习方式，我们引入了两个不同的学习器来获得目标类别视频的基本区别和源视频类别上的精彩时刻的特征，分别。这两种类型的亮点知识通过知识提炼进一步巩固。在三个基准数据集上的大量实验证明了所提出的SL模块的优越性，并且DL-VHD方法在各种跨类别亮点检测任务上优于五种典型的非监督域自适应（UDA）算法。我们的代码可在https://github.com/ChrisAllenMing/Cross_Category_Video_Highlight获得。1. 介绍如今，人们对在YouTube和Instagram等社交媒体平台上分享记录他们日常生活的视频表现出越来越大的兴趣。在所有这些视频中，剪辑得很好的那些总结了spe的亮点* 通讯作者：倪冰冰。高亮段非高亮段未标记段源类别（带注释）：冲浪目标类别（实践中使用）：滑雪图1.实际中使用的目标视频类别缺乏监督，而另一视频类别（即源视频类别）具有注释的情况显然，商业活动对观众的吸引力更大。然而，在大多数情况下，真实世界事件的原始视频包含许多与其主旨无关的内容，并且手动挑选视频的高光部分是繁重且耗时的任务。因此，为了提高视频内容细化的效率，期望开发用于自主视频精彩部分检测的机器学习模型。为了赋予模型识别视频内的精彩片段的能力，现有的工作已经探索了各种监督方式，包括显式的精彩片段注释[10，49，15]、特定视频片段的频繁出现[23，48，21]、视频的持续时间[41]等。特定视频类别（例如冲浪、滑雪、跑酷等）），而在先前的工作中较少研究了在不同视频类别上的精彩部分检测模型的可转移性。事实上，在实际应用中，可能会遇到这样的情况，即在实际使用的目标视频类别上缺少监控信号，而在另一个视频类别上有监控信号，如图1所示。1.在这种情况下，我们考虑跨类别的视频亮点检测问题。这个问题的设置类似于无监督域自适应（UDA）[20]，其中一个寻求适应7971从标记的源域（具有监督的源视频类别）到未标记的目标域（未监督的目标视频类别）学习的知识。此外，为了优化高光检测器，大多数现有方法[10，49，15，23，41，14]遵循基于配对的学习的理念，即将阳性样本（例如高光视频片段或包含高光的片段包）与阴性样本进行比较，并且在训练后，预计前者的排名高于后者。然而，这样的学习方式可能不能完全利用跨越不同视频片段之间的上下文信息。例如，在足球比赛中，球员运球的时刻比球员进入球场的时刻更具吸引力，而两者都不如进球的时刻令人兴奋。这些关系很难被单个片段对捕获，这使得基于对学习的模型的精彩部分预测在整个视频的跨度中可能不精确。受上述事实的启发，在这项工作中，我们提出了一个基于双线性算子的视频高光检测（DL-VHD）框架来解决跨类别视频高光检测问题。在此框架下，我们首先设计了一个基于集合的学习模块（SL模块），以改善传统的基于对的学习方式的亮点检测。简而言之，该模块学习回归来自同一视频的一组片段上的高光分数分布，其中采用Transformer编码器[37]来对各种视频片段之间的相互关系进行建模。基于这种学习机制，我们进一步引入了两个不同的学习器来捕获两种类型的亮点时刻的知识。具体而言，粗粒度学习器获得关于区分目标类别的视频与其他视频的基本概念，并且细粒度学习器获得源视频上的精确亮点概念。通过将这两种知识中的每一种提取到另一个学习器中来进一步集成这两种知识，并且这种集成的知识形成关于目标视频类别上的精彩时刻的更完整的概念。在实践中，当分段级注释在目标视频类别上可用时，SL模块可以单独应用于导出有效的精彩部分检测器，而当这样的注释不可获得时，我们可以求助于DL-VHD方法用于精彩部分知识传递。我们的贡献可归纳如下：• 据我们所知，这项工作是第一次尝试跨类别视频精彩时刻检测，其中我们利用基于双学习器的方案来跨不同视频类别转移有关精彩时刻的概念。• 我们提出了一种新的基于集合的学习机制，它能够识别视频片段是否是亮点或没有在更广泛的背景下。• 在类别特定的设置下，我们验证了SL-模块的性能优于以前的方法。对于跨类别的亮点检测，DL-VHD模型大大超过现有的UDA算法，并与目标视频类别上训练的监督模型进行匹配。2. 相关工作视频高光检测。该任务旨在为每个视频片段分配其作为亮点的价值的分数。近年来，这项任务研究的视频从体育视频[24，42，33]扩展到社交媒体[32]或第一人称相机拍摄[49]的一般视频。根据监管方式的不同，现有的监管工作大致可以分为两类。对于监督方法[10，49，15，32]，给出了视频中所有片段的高亮注释。对于弱监督方法[23，48，21，41，14]，已经利用各种弱监督信号来定义亮点，包括视频类别中特定片段的频繁出现[23，48，21]，视频的持续时间[41]和来自片段包的信息[14]。对于模型优化，大多数这些方法[10，49，15，32，41，14]遵循基于配对的学习理念，即比较阳性样本和阴性样本。改进现有方法。在这项工作中，我们新颖地探索跨类别的视频亮点检测问题，通过学习两种类型的知识亮点时刻，并将它们整合到目标视频类别。此外，提出了一种基于集合的学习机制，通过对一组视频片段进行高光预测来改进基于对的学习，使得可以利用丰富的上下文信息更精确地判断每个片段的高光程度。无监督域自适应（UDA）。UDA专注于将从标记的源域学习到的模型推广到另一个未标记的目标域。为了实现这一目标，常用的策略是最小化用于测量域偏移的特定度量[2，20]，例如，最大平均偏差（MMD）[8，36]、多核MMD[17]、加权MMD [47]、Wasserstein距离[28，16]以及特征协方差[31]或特征范数[46]的差。在另一条研究线上，采用对抗学习来促进像素级[3，27，13]或特征级[6，35，18，45]上的域不变性。为了在目标域上引入区分信息，最近的工作[40，5，25，44，38，43]利用目标样本的伪标签进行类别级域对齐。这项工作探讨了跨类别视频高光检测，这是与UDA类似的问题，其中打算将从源视频类别获得的高光知识转移到目标类别。7972i=1联系我们···|···j=1j=1j=1Kj=1k=1不Kk=1----3. 方法1在跨类别视频亮点检测问题中，0包含源视频类别的精彩时刻的视频集合，即，e.DS={vS}|DS|，areg iv en，andeach语境化片段嵌入视频v_D_S被划分成N个片段其中yi表示片段si的真实高光标签。此外，我们还有一组其他的视频，包括目标的精彩时刻视频猫戈里岛e. D={vT}|DT|，而该片段-在这些视频上不能使用目标类别的水平突出显示注释。在这种情况下，主要目标是通过充分利用已标记的源视频和未标记的目标视频，得到一个有效的目标视频类别的亮点检测器。片段集合(a) 总体框架段嵌入(b) Transformer编码器3.1. 动机和概述跨类别视频突出部分检测。在现实世界应用中，片段级高光注释可能不可用于模型所应用到的目标视频类别，而可以获得对另一视频类别（被命名为源视频类别）的监督。因此，在这种情况下，要问的自然问题是如何将关于源视频类别上的精彩时刻的知识转移到目标视频类别，即执行跨类别视频精彩时刻检测。一个简单的答案是利用现有的无监督域自适应（UDA）技术的两个不同的视频类别之间的特征分布对齐。然而，此分布对准对于高光检测问题来说是困难的（如果不是不适定的话），因为目标类别的高光片段对于源类别可能是讨厌的，且反之亦然，这在第12节中以实验方式说明。四点三。为了使用来自两个类别的数据来获取目标视频类别的精确高光概念，我们提出了基于双L载体的视频高光检测（DL-VHD）框架。在此框架下，模型学习了两类关于精彩时刻的知识，即目标类别视频与其他类别视频的区别和源类别视频上精彩时刻的特征。这两种类型的知识进一步融合，以形成关于目标视频类别的更完整的亮点概念。基于集合的学习。以前的作品[10，49，32，41，14]通常通过将高光片段s+与非高光片段s-进行对比来训练高光检测模型，其试图对条件分布进行建模p（y+，y−|s+，s−）。然而，这种基于配对的学习可以图 2. （ a ） SL 模块的总体框架（ b ）本模块中使用的Transformer编码器的架构L学习模（SL-模）。其核心思想是训练模型来预测一组视频片段上的精彩部分分数分布，并且单个片段的预测取决于该组中的所有其他片段，其对p（yi，y2，，y Ns1，s2，.，S N）（N表示集合大小）。通过包括跨越不同视频片段的这种上下文信息，预期模型可以向每个片段分配更准确的精彩部分分数。基于集合学习的跨类别视频高光检测。为了桥接两个不同的视频类别的突出模式，必须探索同一类别内以及不同类别之间的视频片段之间的相互关系。在段集提供的丰富上下文下，可以更好地捕获这种复杂的关系模式。基于这样的动机，在DL-VHD，我们采用SL-模块作为基本的学习模块，以获得更精确的亮点知识。3.2. 基于集合的学习模块SL模块对集合中的视频片段之间的相互依赖性进行建模，并且预测在这样的集合确定的上下文下的每个片段的精彩部分分数，如图1B所示。第2段（a）分段。接下来，我们将介绍该模块的详细学习和推理方案。学习计划。在每个学习步骤中，从同一视频中随机采样的一组N个注释片段I. e. x=（s， j ，y， j）N，是given，并且预先训练的C3D[34]模型F提取每个片段的特征嵌入，I. e. z={zj}N={F（s，j）}N（F在学习中被固定未能发现两个以上片段之间的更复杂的高光关系。例如，足球比赛的兴奋程度随时刻而不同，并且这些时刻的相对精彩程度不能被成对的视频片段充分地捕获。出于这样的限制，我们提出了一个基于Set相）。在这些片段嵌入上，Transformer编码器[37] T对不同片段之间的相互关系进行建模，并输出上下文化的片段嵌入，即。e. z~=z~jN=T（z）。在我们的方法中使用的T变换器编码器高光分数分布评分员CTransformer编码器TC3D提取器FLx多头自注意图层规范前馈图层规范7973j=1j=1L···j=1j=1j=1j=1j=1j=1j=1j=1predKLJ j=1J j=1联系我们--−f粗f蒸馏f精细图3.DL-VHD的图示。该算法利用标记源视频和未标记目标视频构造三种类型的片段集合，并通过C3D提取器和Transformer编码器得到片段嵌入。粗粒度和细粒度学习器分别由混合段集和源段集监督，并且通过知识蒸馏进一步巩固它们的知识和前馈网络。相比之下，我们删除了用于集合学习的置换不变性的位置编码模块，并且，如[39]中所建议的，在每个自注意和前馈模块之前应用层规范化（LN）[1]。Transformer器编码器的架构如图所示。第2段（b）分段。我们建议读者参阅原始文献[37]以了解更多细节。在情境化片段嵌入之后，评分模型C预测每个视频片段的精彩部分分数，I. e. y=yN=C（z~j）N。这是最精彩的部分在获得对段集合的预测之后，我们定义学习目标。在学习阶段期间，基本需要的是将由模型预测的集合X上的突出得分分布与地面实况分布相匹配。为实现此目标，我们将学习目标定义如下：最小预测值，（1）T、CL=D。σ。{y}NΣ，σ。{y}N中国（2）目的是通过充分利用已标记的源视频DS和未标记的目标视频DT，得到一种有效的目标视频类别的精彩部分检测器.为了实现这一目标，我们试图从两个方面捕捉目标视频类别的亮点概念。一方面，存在一些明显的特征，将目标类别视频与其他主题的视频区分开来，例如冲浪视频中的冲浪板，滑雪视频中的滑雪杆等。这些特征的感知赋予模型从混合不同内容的视频中挑选目标类别片段的基本能力。另一方面，在不同的视频类别之间共享的精彩时刻存在一些共同的特性。例如，站立的人在场景的某些表面上移动的时刻可以是冲浪和滑雪视频的亮点。这样的一般知识可以用于识别目标视频类别的高光时刻。然而，这两种类型的概念都不能单独充分定义目标类别上的亮点，这需要一个整合不同知识的方案。其中σ（）表示产生预测高光分数分布及地面实况高光分数分布的softmax函数，且DKL（）表示推理方案。为了从测试视频中推断片段s的高光得分，我们首先构造包含s和视频中与s相邻的其他N1个上下文片段的片段集合，表示为x=sjN。这些上下文片段中的一半正好在视频中的s如果s周围的段不能填充集合，则进行段复制。这里，为了抑制预测的方差，我们不像在学习阶段那样使用由随机段组成的集合。根据上述直觉，我们设计了一个基于双学习器的框架，其中两种突出知识分别由粗粒度学习器和细粒度学习器学习，并通过知识蒸馏方案进一步整合。该框架的图示如图所示。3.我们陈述详细的学习和推理方案如下。学习计划。在每个学习步骤中，我们使用从DS中的视频中随机采样的一组标记片段，表示为xS={（sSj，yjS）}N，以及从DT中的视频随机采样的未标记片段的集合，表示为xT={sTj}N. 在此基础上，我们进一步证明了然后，我们推断集合中所有片段的高光得分，构造具有来自两个视频类别的片段的混合集合I. e. y={yj}N，将其输入C3D功能Gories，表示为xM={（sMj，yjM）}N（yjM等于提取器、Transformer编码器和评分模型成功。最后，我们挑选出y（id（s）（id（s）代表x中s的索引）作为要评估的视频片段的精彩部分分数。3.3. 基于双学习器的视频亮点检测1ifsMj是一个target category片段，否则为0），其中一半的片段是从xS随机采样的，另一半是从xT随机采样的。使用C3D特征提取器和Transformer编码器，我们分别导出这三个集合的上下文化片段嵌入，即。z~S={z~jS}N，z~T={z~Tj}N和z~M={z~Mj}N.在SL-模的基础上，我们研究了跨类别视频精彩片段检测问题。其主要业务--在这些段嵌入的基础上，一方面，我们引入了一个粗粒度的学习器Ccoarse来学习基本的数据。高光片段无标记段段嵌入重点分数混合段集目标段集源段集C罚款C粗提取器FTransformerT7974j=1j=1ID（s）j=1j=1j=1j=1×j=1Jj=1Jj=1σ{yM}N， σ{yM}NJj=1Jj=1Jj=1Jj=1Jj=1Jj=1JJj=1蒸馏2Jj=1J联系我们j=1.Σ 。Σjj=1jj=1--目标视频片段与源视频片段的着色这通过在混合集合i上匹配 C_coarse 的高光预测来实现。 e. yM={yjM}N={Ccoars e（z~jM）}N、在第二节的推理部分中描述。3.2. xT中的每个片段的突出部分分数分别由粗粒度和细粒度学习器推断，其导出与现场实况的精彩分布它定义了粗粒度的高光预测损失：高光预测y（T，coarse）={y（T，coarse）}N，以及yT，fine={yT，fine}N. 这两种预测是..Σ 。ΣΣJj=1Jj=1进一步平均产生yT，avg={yT，avg}N. 最后，我们挑选出y（T，avg（id（s）表示xT中s的index）为另一方面，引入细粒度学习器Cfine这是通过对集合xS的监督学习来实现的，其中，Cfinn e，i. e.yS=ySN=Cfine（z~jS）N，与地面实况突出得分分布对齐：Lfine=DK L。σ{yjS}N ，σ{yjS}NΣ。（四）现在，两种类型的知识的亮点时刻获得了两个不同的学习者，我们的目标是整合他们的目标视频类别。受知识蒸馏思想的启发[12]，我们希望将每个学习者的知识蒸馏到另一个学习者中，而不损害其原始知识。具体地，粗粒度和细粒度学习器都用于预测集合XT中的片段的精彩部分分数，这给出了段s的突出得分。4. 实验在本节中，我们分别在类别特定和跨类别设置下将所提出的SL模块和DL-VHD方法与现有的视频精彩部分检测方法进行比较。4.1. 实验装置型号详情。在[10，41]之后，在UCF 101数据集[30]上预训练的C3D模型[34]作为特征提取的骨干，其参数在训练过程中是固定的。 Transformer编码器由5层自注意和前馈模块构成，每个多头自注意模块配有8个atten-tion头。评分模型C、粗粒度学习器C、粗粒度学习器C和细粒度学习器C_fine都被实例化为outy（T，coarse）={y（T，coarse}N ={Ccoarse（z~T）}N 以及yT，finne={yT，finne}N={Cfinne（z~T）}N. 然后基因r--ReLU- FC（1024，256）-ReLU- FC（256，1），其中通过平均y（T，coarse）和y（T，finne）来计算反映两种突出知识的预测，其产生FC是全连接层的缩写。培训详情。在所有实验中，SGD优化器yT，avg={yT，avg}N={（yT，coarse+yT，fine）/2}N. 在（初始学习率：0.001，动量：0.9，重量衰减：为了在两个学习者之间执行知识蒸馏，我们约束来自粗粒度或细粒度学习者的个体预测以接近平均预测，其将蒸馏损失定义如下：510-4）用于训练模型50个时期，并且每20个时期将学习率乘以0.1。对于每个视频片段，以相同的间隔从其采样16帧。在没有另外指定的情况下，集合大小N被设置为20，并且权衡参数λ被设置为1。0（参数灵敏度分析见第2节。5.2）。我们利用一个L=1。D.σ。{y{T，avg}NΣ，σ。{yT，coarse}NΣΣNVIDIA Tesla V100 GPU用于训练。我们的方法是-使用PyTorch [22]深度学习框架，+DK L.σ。{y{T，avg}NΣ，σ。{yT，finne}NΣ。（五）并且源代码将被发布用于再现性。性能比较。在类别特定的设置下，六种有监督的视频精彩部分检测（或视频摘要）方法，即Video2GIF[10]，LSVM [32]，总体学习目标可以概括为：KVS [23]，DPP [7]，vsLSTM [50]和SM [9]，以及六个弱监督方法，即 RRAE [48]、SG [19]、minT、C粗、C细 L粗+L细+λL蒸馏，（6）[21]，[22]，[23]，[24]，[25]，[26]，[27]，[28]，[29]，[29]，[29]。介绍了比较。对于跨类别设置，其中λ是高光预测与知识蒸馏损失之间的权衡参数。推理方案。在推断期间，给定来自目标类别视频的片段s，我们首先将其扩展到与其他N-1个上下文段相邻的相同的视频，并且该集合被表示为N.这些上下文段的选择遵循以下方案L粗=DKL.（FC（4096，1024）结构的多层感知器KLΣΣ7975在源/目标视频类别上训练的SL模块用作模型性能的下限/上限。为了公平比较，五种UDA算法，即DAN[17]，DeepCORAL [31]，RevGrad [6]，MCD [26]和AFN [46]与SL-模块相结合，与建议的DL-VHD方法进行比较，并在补充材料中提供详细的组合方案。7976表1.YouTube Highlights数据集上弱监督和监督方法的高光检测结果（mAP）类别弱监督方法监督方法RRAE [48]LIM-s [41]MINI-Net [14]Video2GIF [10个国家]最小二乘支持向量机[32]SL模块（不带不） SL-模狗0.490.5790.5370.3080.600.6900.708体操0.350.4170.5280.3350.410.5060.532跑酷0.500.6700.6890.5400.610.6900.772滑冰0.250.5780.7090.5540.620.6870.725滑雪0.220.4860.5830.3280.360.6360.661冲浪0.490.6510.6380.5410.610.6950.762平均0.3830.5640.6140.4640.5360.6510.693表2.突出显示TVSum数据集上弱监督和监督方法的检测结果（前5 mAP得分）类别弱监督方法监督方法SG [19][21]第二十一话VESD [4]LIM-s [41]MINI-Net [14]KVS [23]DPP [7]vsLSTM [50]SM [9]SL模块（不带不） SL-模VT0.4230.3730.4470.5590.8030.3530.3990.4110.4150.8370.865VU0.4720.4410.4930.4290.6530.4410.4530.4620.4670.6630.687GA0.4750.4280.4960.6120.7540.4020.4570.4630.4690.7240.749MS0.4890.4360.5030.5400.8130.4170.4620.4770.4780.8510.862PK0.4560.4110.4780.6040.7800.3820.4370.4480.4450.7670.790PR0.4730.4170.4850.4750.5450.4030.4460.4610.4580.5940.632FM0.4640.4120.4870.4320.5590.3970.4420.4520.4510.5800.589BK0.4170.3680.4410.6630.7170.3420.3950.4060.4070.7080.726BT0.4830.4350.4920.6910.7690.4190.4640.4710.4730.7790.789DS0.4660.4160.4880.6260.5910.3940.4490.4550.4530.6120.640平均0.4620.4240.4810.5630.6980.3980.4470.4510.4610.7120.733表3.突出显示ActivityNet数据集上弱监督和监督方法的检测结果（mAP）。类别弱监督监督[14]第十一届中国国际汽车工业展览会LSVM [32]SL- 模块（w/o 不）SL-模Eat Drink0.6380.7020.6700.7160.736个人护理0.6630.6890.6570.7250.744家庭0.6210.7450.7070.7630.787体育0.7100.7940.7690.8350.849社会0.7430.7600.7400.7580.779平均0.6750.7380.7090.7590.7794.2. 类别特定的视频高光检测当高光注释在旨在使用的视频类别上可用时，SL模块可以单独应用于在类别特定设置下训练高光检测器。在本节中，我们将其与现有的视频亮点检测和视频摘要方法进行比较。数据集。YouTube Highlights[32]由六个视频类别组成，即狗，体操，跑酷，滑冰，滑雪和冲浪，每个类别约有100个视频。提供片段级注释以指示片段是否是高光时刻。我们遵循标准的训练-测试分割[32]进行模型评估。TVSum[29]是由10类视频事件组成的视频摘要数据集，每类中有5个视频，并且在该数据集中提供帧级重要性分数。根据先前的工作[41，14]，我们对帧级重要性分数进行平均以实现片段级高光分数。对于每个视频类别，我们选择两个最长的视频（总共约10分钟）用于训练，其余三个用于测试。ActivityNet[11]是用于人类活动分类和检测的大型数据库。我们采用的数据的时间动作定位跟踪的亮点检测。具体而言，我们根据第一级动作标签将视频样本分为五个类别，即饮食、个人护理、家居、运动及社交。视频片段与特定类别的地面实况事件之间的联合上的时间交点（tIoU）被用作该视频类别的片段的突出显示标签。我们总共使用了2520个视频进行训练，1260个视频进行测试，补充材料中提供了所有视频类别的详细数据集统计。YouTube Highlights上的结果。在选项卡中。1，我们比较了我们的方法与现有的方法在六个视频类别的YouTube亮点。可以观察到，所提出的SL模块在所有六个类别上优于先前的基于配对学习的算法，即LIM-s、MINI-Net、Video 2GIF和LSVM，并且当从我们的模型中移除Transformer编码器T时，仍然获得优异的平均mAP。这种现象说明了基于集合的学习优于基于对的方法，其中片段集合内的更广泛的上下文信息使得能够对每个视频片段进行更精确的精彩部分预测。TVSum上的结果。选项卡. 2报告了TVSum上的各种视频精彩部分检测和视频摘要方法的性能。在10个视频类别中的9个类别上，建议的SL模块实现了最佳性能，并且，当去除Transformer编码器时，它仍然在10个类别中的7个类别上优于最先进的MINI网络。这些结果验证了基于集合的7977方法→狗 →体操 →跑酷 →滑冰→滑雪方法→吃饮料→个人护理 →家庭→社会→→→表4.YouTube Highlights数据集上的跨类别高光检测结果（mAP）（源视频类别：surfng;带下划线的结果超过了target-oracle。只有源0.4850.5050.5470.5680.545丹麦[17]0.6520.4870.7130.6380.611DeepCORAL [31]0.6340.5130.7320.6590.620RevGrad [6]0.6280.4930.6540.6400.597中文（简体）0.5670.5290.4990.6420.654法国全国联盟[46]0.6250.5170.5750.6530.626DL-VHD（仅L粗0.5740.4850.6300.6490.4980.5050.5290.5400.7040.5470.7180.7480.6350.5680.6830.7130.6310.5450.6580.686DL-VHD（仅限LfineDL-VHD（不含L蒸馏液）DL-VHD（全型号）目标-oracle0.7080.5320.7720.7250.661在训练数据有限的情况下学习，即每个类别只有两个视频用于训练。ActivityNet上的结果。在选项卡中。3.对现有的三种方法和两种模型配置进行了性能评价。由于Activ-ityNet数据集上的实验通常不包括在以前的作品中，我们通过发布的源代码（对于MINI-Net和LSVM）或我们的重新实现（对于LIM-s）来检查这些作品。在这个大规模数据集上的实验结果进一步验证了所提出的集合学习方法的优越性（即在所有五个视频类别上获得最高测试mAP）。4.3. 跨类别视频精彩片段检测在跨类别的亮点检测设置下，我们评估了DL-VHD和各种UDA算法在将亮点知识从源视频类别转移到目标类别上的有效性。在所有实验中，源类别的视频具有分段级注释，而目标类别的视频是未注释的。任务YouTubeHighlights由六个视频类别组成，我们使用冲浪作为源类别，并评估其他五个类别中的一个作为目标类别的每个案例。此外，我们考虑了一个更困难的设置，其中狗被用作源类别（即从狗的活动适应人类的活动），和该设置的结果在补充材料中ActivityNet包含五个人类活动类别，我们以体育为来源类别，旨在将体育精彩片段的知识转移到其他四个视频类别。分别检查针对每个目标视频类别的适配。YouTube Highlights上的跨类别结果。选项卡. 4报告了各种方法在五个跨类别亮点检测任务上的性能，其中冲浪作为源类别。仅源（目标oracle）方法表示以监督方式在源（目标）视频类别上训练的SL模块，其中它们之间存在明显的性能差距。我们可以观察到表5.ActivityNet数据集上的跨类别高亮检测结果（mAP）（来源视频类别：体育 ; 下划线的结果超过了目标 -oracle。）只有源0.6740.6670.7070.722丹麦[17]0.6560.6780.6940.735DeepCORAL [31]0.7080.7050.7650.744RevGrad [6]0.6870.7010.7220.731中文（简体）0.7120.7130.7610.756法国全国联盟[46]0.7180.7040.7500.749DL-VHD（仅L粗0.6890.6740.7130.7300.6940.6670.7150.7280.7420.7070.7780.7930.7410.7220.7540.766DL-VHD（仅限LfineDL-VHD（不含L蒸馏液）DL-VHD（全型号）目标-oracle0.7360.7440.7870.779DL-VHD的完整模型在五个任务中的四个任务上超过了五个现有的UDA算法，并且在两个任务上，即冲浪体操和冲浪滑雪上，它令人惊讶地超过了目标预言模型。这样的结果说明，跨类别的视频精彩部分检测不能被容易地视为UDA问题的变体，并且更专用的技术（例如，所提出的双学习器和知识蒸馏方案）可以更好地发现跨不同视频类别的可转移的精彩部分模式。ActivityNet上的跨类别结果。在选项卡中。5，我们将所提出的DL-VHD模型与ActivityNet的跨类别亮点检测任务上的五种UDA方法进行了比较，并且在所有这些任务中，体育都被用作源类别。DL-VHD的完整模型在所有四个任务上实现了比UDA算法更高的mAP，并且它甚至在运动家务任务上优于目标预言模型。这些实验结果验证了DL-VHD模型在标记源视频和未标记目标视频的指导下成功地捕获了目标视频类别上的人类相关动作模式。5. 分析在本节中，我们将对我们的方法进行更深入的分析，以定量和定性地评估主要模型组件的有效性。5.1. 消融研究Transformer编码器的效果。在所有三个视频高光检测数据集中，我们比较了具有和不具有Transformer编码器T的SL模块的性能，如选项卡中所示。1、2和3。可以观察到，在应用Transformer编码器之后，所提出的基于集合的学习方法在所有任务上获得了明显的性能增益，这证明了当从一组视频片段学习时相互关系建模的重要性。双重学习者效应与知识升华。在选项卡中。在图4和图5中，我们通过三个额外的模型配置来研究DL-VHD的主要组成部分：(1)Lcoarseonly：只使用粗粒度的学习器7978→LL0.2 0.40.60.8重点分数图4.突出显示三种方法对冲浪→滑雪任务的预测（每个视频片段由其第一帧和最后一帧表示0.800.750.700.658 12 1620N（一）24280.800.750.700.650.6000.51（b）第（1）款1.5 2指示在这种条件下达到两个不同优化目标之间的适当平衡。5.3. 可视化对于滑雪的跨类别亮点检测任务，图4可视化了三种方法的亮点预测结果，即仅源、AFN和DL-VHD图5.集合大小N（左）和权衡参数λ（右）的灵敏度分析预测一个片段的高亮范围到目标视频类别;（2）仅细粒度：仅细粒度学习器被用于目标类别上的突出预测（该配置等同于仅源基线）;（3）无蒸馏：粗粒度和细粒度学习器都得到了训练，但他们的知识没有被知识蒸馏损失所整合。当单独应用两个学习器时，粗粒度学习器优于细粒度学习器，我们认为这是因为粗粒度学习器的监督比应用于细粒度学习器的监督更依赖于目标视频类别上的突出模式。在完整模型中，知识蒸馏方案能够通过整合两个学习者的知识来进一步提升模型5.2. 敏感性分析集合大小N的灵敏度。在这个实验中，我们分析了建议的SL-模块的设置大小的敏感性。图5（a）示出了在不同集合大小下的两个高光检测任务上的模型性能。可以观察到，我们的基于集合的学习方法可以实现稳定的性能增益时，每个段集的大小是足够大的，即N16。权衡参数λ的灵敏度。在这一部分中，我们讨论了平衡亮点预测和知识提取目标的折衷参数λ的选择。在图5（b）中，我们使用各种λ值绘制了DL-VHD在两个跨类别高光检测任务上的性能。当λ的值在1附近时，获得目标视频类别上的最高mAP。0，其中目标类别视频。对于每种方法，我们选择具有与对应坐标值（0.2、0.4、0.6或0.8）最接近的高光分数的片段，并且每个片段由其第一帧和最后一帧表示。只有源的模型不能捕捉滑雪的高光模式，AFN算法表现得更好，但仍然高估一个非精彩片段的得分接近0.6。通过比较，DL-VHD最适当地向各种视频片段分配高光分数。有关其他任务的更多可视化结果，请参阅补充材料。6. 结论和未来工作在这项研究中，我们新颖地探索了跨类别的视频亮点检测问题的双学习器为基础的视频亮点检测（DL-VHD）框架。在此框架下，提出了一个基于集合的学习模块（SL-模块），以改进常用的基于对的学习，并进一步引入了双学习器和知识提取方案，以实现重点知识的传递。在特定类别和跨类别设置下的综合实验验证了所提出的方法的卓越性能。我们未来的探索将包括进一步改进跨类别精彩检测算法，将所提出的方法应用到更复杂的现实世界的应用和研究的泛化能力的视频精彩检测模型。7. 确认本工作得到了国家自然科学基金项目（U20B2072，61976137）的资助。作者感谢上海交通大学学生创新中心和字节跳动人工智能实验室提供GPU。作者也感谢周杰、李佳文和朱轩宇的宝贵意见。狗冲浪冲浪滑雪运动Eat DrinkAFN地图DL-VHD只有源地图7979引用[1] Lei Jimmy Ba、Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。CoRR，abs/1607.06450，2016。[2] Shai Ben-David 、John Blitzer、Koby Crammer 、AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan 。从不同领域学习的理论。 MachineLearning，79（1-2）：151[3] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。2017年在IEEE计算机视觉和模式识别会议上发表[4] 蔡思佳，左旺猛，Larry S.戴维斯和张磊。基于变分编解码器和网络先验的弱监督视频摘要。2018年欧洲计算机视觉会议[5] Chaoqi Chen ， Weiping Xie ， Wenbing Huang ， YuRong ， Xinghao Ding ， Yue Huang ， Tingyang Xu ，Junzhou Huang.无监督局部自适应的渐进式特征对齐。在IEEE计算机视觉和模式识别会议，2019。[6] Yaroslav Ganin和Victor S.Lempitsky 通过反向传播的无监督主适应2015年国际机器学习会议[7] 龚伯庆、赵伟伦、克里斯汀·格劳曼和费莎。用于监督视频摘要的多样顺序子集选择神经信息处理系统进展，2014年。[8] Arthur Gretton ， Karsten M. Borgwardt ， Malte J.Rasch，BernhardScho¨ l k opf，andAl e xanderJ. 斯莫拉一个核心的双样本测试

下载后可阅读完整内容，剩余1页未读，立即下载