多模态自监督学习的渐进式视频摘要方法

137 浏览量更新于2023-10-15 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于多模态自监督学习的渐进式视频摘要李浩鹏1，柯秋红3，龚明明2，Tom Drummond11墨尔本大学计算与信息系统学院2墨尔本大学数学与统计学院3莫纳什大学数据科学人工智能系www.example.comhaopeng.li @student.unimelb.edu.au，{mingming.gong，tom.drummond}@www.example.com，www.example.comunimelb.edu.au @qiuhong.ke monash.edu摘要现代视频摘要方法基于深度神经网络，需要大量带注释的数据进行训练。然而，现有的用于视频求和的数据集考虑到大规模数据集的标注非常耗时，本文提出了一种多模态自监督学习框架来获取视频的语义表示，这有利于视频摘要任务的完成具体地说，自监督学习是通过以粗粒度和细粒度的方式探索视频和文本之间的语义一致性以及恢复视频中的掩蔽帧多模态框架在新收集的由视频-文本对组成的此外，我们介绍了一个渐进式视频摘要方法，其中视频中的重要内容被精确定位，逐步生成更好的摘要。大量的实验证明了我们的方法的有效性和优越性的秩相关系数和F-得分1。1. 介绍视频摘要的目的是通过提取包含视频主要内容的最重要的帧或镜头来生成视频的简短版本，这大大提高了视频浏览和检索的效率。最先进的视频摘要方法基于深度神经网络，其对帧/镜头之间的依赖性进行建模并估计其重要性[42，17，16，32，41，14]。然而，现有的视频摘要数据集相对较小[12，34]，这很容易导致深度模型的过度拟合。同时，收集用于视频摘要的大规模注释数据集是具有挑战性和耗时的，因为多个注释1代码和数据集将很快发布。多模态视频时域视频摘要自我监督学习依赖捕获地面实况评分细粒度建模MSE损失粗粒度建模预测评分文本编码器视频编码器文本序列视频序列图1.提出的多模态自监督视频摘要框架摄影师需要提供帧/镜头级注释以最小化主观性。当注释数据稀缺时，自监督学习在各种场景中提升深度模型的性能方面表现出巨大的力量，例如图像检索[28]，动作识别[1]和语言理解[8]。在这些成功的故事的鼓舞下，人们可能会问一个自然的问题，“自我监督学习能使视频摘要受益吗？“在本文中，我们表明，上述问题的答案是肯定的。受视频和文本信息之间语义相关性的启发，我们提出了一种新的多模态自监督视频摘要框架。在这个框架中，从两个方面捕获多模态相关性：1）粗粒度建模使用视频和文本的序列级表示来预测它们是否具有语义对应; 2）细粒度建模将视频和文本视为两个集合，并使用单个单词和帧来测量它们的距离。同时，我们还试图通过建模掩蔽帧和视频之间的关系来捕获视觉模态中的所提出的多模态自监督框架如图1所示。为了训练我们的多模态编码器，我们收集了一个由视频-文本对组成的新数据集。我们特别55845585首先从Google Trend2中获取几个视频类别和搜索查询。然后，我们收集搜索次数最多的视频，其持续时间为3-最后，收集了由3，081个Y ouT ubeVideo-T extpairs（YTVT）组成的数据集用于多模态自监督学习。在自监督预训练之后，获得多模态序列编码器，并进一步针对视频摘要任务进行微调。现有的视频摘要方法[42，17，16，14]主要基于单阶段方式，其中视频仅被检查一次以生成最终摘要，这可能不足以确定重要内容。在这项工作中，我们提出了一个渐进的视频摘要方法，使用预先训练的多模态编码器，其中输入序列是细化迭代强调的重要内容，在多阶段的方式。此外，本文还介绍了如何在视频摘要中加入文本信息.我们的贡献总结如下：1) 我们引入多模态自监督学习，其中多模态相关性以粗粒度和细粒度方式建模。同时，通过对被掩蔽帧与整个视频之间的关系进行建模，捕获视频中的2) 我们收集了一个YouTube视频文本对的数据集，用于多模态自监督学习。每段视频的文本都包含四类信息，对视频进行了从一般范畴到具体描述的描述。3) 基于预训练的视频编码器，我们提出了一种渐进的视频摘要方法，其中输入的视频序列是在一个多阶段的方式增强。我们还在企业的文字信息更好的视频摘要.2. 相关工作2.1. 视频摘要视频摘要方法大致可以分为有监督的方法和无监督的方法。我们回顾现有的方法，根据它们所属的类别。无监督视频摘要[24，45，14，25，24]依赖于人类设计的标准，例如代表性[7，27]和多样性[45]。传统的机器学习算法，如聚类和字典学习，在无监督方法中得到了广泛的应用.例如，在[25]中，L2，0约束稀疏字典学习被用于解决视频摘要此外，在最近的工作中提出了基于深度神经网络的无监督方法SGAN [24]使用对抗生成网络来生成摘要，这些摘要很难与原始视频区分开来。大多数监督方法都基于深度神经网络来对时间依赖性进行建模[40，43，2https://trends.google.com/trends44，9，42，41，32，16]，这需要人类的总结训练。开发了许多深度模型来以局部方式或全局方式捕获时间依赖性。例如，利用长短期记忆（LSTM）对视频进行建模并预测 vsLSTM/dppLSTM 中的帧级分数[40]。此外，还提出了LSTM的层次化适配，以解决普通LSTM的问题[43，44]。此外，注意力模型和图模型被用来捕捉全局依赖性。例如，在RSGN [42]中开发了一种序列图结构，该结构依次对帧级依赖性和镜头级依赖性进行建模考虑到视频之间的语义相关性，VJMHT [21]是基于分层Transformer开发的。然而，大多数现有方法以单阶段方式执行视频求和，其中视频仅被相比之下，我们提出了渐进式视频摘要，以迭代地细化输入并确定重要内容。虽然SumGraph [30]也使用递归思想，但我们的方法在动机和方法论方面与SumGraph不同。具体来说，Sum-Graph递归地获得节点由故事而不是相似性连接的图，而我们的方法通过多次检查视频来迭代地此外，SumGraph递归地细化GCN中的相邻矩阵，而我们的方法则根据前一阶段输出的分数重新加权输入。2.2. 多模态自监督学习自监督学习已被广泛用于深度模型的预训练，这在很大程度上提高了它们在各个领域的性能[10，37，15，39，20，23，8]。考虑到多模态数据中的语义一致性，利用对比学习对不同模态之间的对应性进行建模[19，22，3，5，4]。例如，在[19]中，利用视频和音频的一致性此外，图像和文本之间的语义相关性被用来获得语义表示[22，35，46]。这种预训练在许多任务中被证明是有效的。此外，在[3，2]中考虑了视频、音频和文本这三种模态之间的一致性，由此可以获得通用网络。自监督学习已被用于视频摘要。具体来说，CLIP-It [26]使用预训练的CLIP来提取帧特征，并使用六层Transformer来获得高性能。但在测试过程中也带来了较大的计算量。然而，我们的方法使用传统的GoogLeNet特征和三层Trans-former，以合理的计算成本实现了显著的结果（特别是在基于排名的评估中）。此外，对于自监督学习，我们提出了一个框架，该框架利用粗粒度和细粒度方式之间的对应关系，同时考虑5586表1. YTVT的统计数据。“最小/最大/平均持续时间”表示视频的最小/最大/平均持续时间。“平均值。标题/描述伦。”表示标题/描述中的平均字数。图2.一个来自YTVT数据集的例子。给出了五个采样帧和视频的文本信息视频中的时间依赖性3. 多模式自监督渐进式视频摘要深度学习已广泛用于视频求和[17，42，44]，但大多数现有数据集[12，34]相对较小，导致深度模型的过度拟合为了解决这个问题，我们探索自监督学习来改进视频摘要。在本节中，我们提出了多模态自适应渐进式视频摘要化（SSPVS）。具体来说，我们首先介绍多模态自监督学习的收集数据集。然后，我们详细阐述了多模态自监督学习的框架。我们进一步提出了基于预训练编码器的渐进式视频摘要。最后，我们说明了如何将文本信息更好的视频摘要。3.1. 用于自监督学习的通常，视频与其相关联的文本信息（诸如标题和描述）之间存在语义相关性。这种相关性提供了可以用于以自监督方式训练多模态网络的监督。这鼓励多模态网络学习视频和文本的更好表示，这有利于视频摘要任务。为了学习视频和文本信息之间的为此，我们首先收集视频数据以及与其相关的文本信息。3.1.1数据收集在本文中，我们从YouTube上收集视频数据及其相关的具体来说，我们首先从Google趋势中获得23个视频类别，如汽车和美容健身。对于每个类别，我们使用其子类别作为搜索查询，并在YouTube上获得搜索结果。例如， HobbyLeisure 类别具有诸如 Cycling 和Bowling的子类别，并且这些子类别用作搜索查询以收集更多信息包含很少的一般场景。为了使自监督模型对复杂的多模态语义相关性具有鲁棒性，我们只收集长于3分钟的视频，以保证数据具有足够的视觉多样性。此外，考虑到GPU内存限制，也排除了超过20分钟的视频。收集具有所需长度的搜索结果除了类别，我们还收集视频特定的文本信息，包括标题和描述。总之，获得了每个视频的四种类型的文本：类别、搜索查询、标题和描述。图2显示了YTVT3的示例。3.1.2数据预处理收集到的文本信息中含有大量的噪声和无语义的无关文本，特别是在描述部分，不能直接用于自监督学习。在这种情况下，我们首先通过删除嘈杂和无意义的文本来执行表单数据清理，包括额外的空格，特殊符号，非Unicode字符，URL，电子邮件等。通过这种方式，剩余的文本与相应的视频语义相关，可以用于视频-文本联合建模。此外，遵循NLP中传统的预处理步骤，我们对每个单词应用词形还原并删除所有字母。最后，收集了 3 ， 081 个 Video-Text 对的基于YouTube的数据集用于多模态自监督预训练，称为YTVT。YTVT（预处理后）的详细统计数据见表1。3.2. 多模态自监督预训练鉴于视频-文本数据，我们研究了多模态网络，以利用视频和文本信息之间的相关性，并对视频中的时间依赖性进行建模。框架如图3所示。具体来说，它包括两个单峰编码器的文本信息和视觉信息，分别。我们解释网络结构和学习目标如下。具体视频请注意，我们手动消除趋势查询，如八卦和名人，因为这样的视频3更多的例子可在补充材料中找到。类别：业余爱好搜索查询：跑步标题：行走VS跑步|有什么区别，哪一个更好？| 融化你的奶酪产品描述：散步或跑步都是令人惊叹的心血管锻炼。但是，是什么让他们不同呢？它们对肌肉有什么不同的影响？这些都是一些疑问，弹出在我们的脑海中，而开始...5587···i=0时∈···∈不t=0···∈gtMLPT（z）i¨¨LgtMLPT（z）i联系我们联系我们GZZ G=我=t#时间依赖性捕获中国$3��̂3⋯��L��$��2��3��4⋯ℒ3电子邮件文本编码器E视频编码器E��&美元��/美元��2��公升��（）*��$电子邮件⋯文本信息帧序列词嵌入CNN特征提取DescCat查询标题[CLS]2粗粒度建模（CQ1）细粒度建模（Fine-grainedModeling）蒙面图3.我们的多模态自监督框架概述它由文本编码器和视频编码器组成视频和文本之间的对应关系以粗粒度和细粒度的方式建模。此外，通过预测掩蔽帧来捕获视频中的时间依赖性，考虑掩蔽帧与整个视频之间的关系3.2.1网络结构文本编码器。对于输入，考虑每个视频的四种不同类型的文本信息，即，类别、搜索查询、标题和描述，每个都由一个单词序列组成。四个单独的文本序列被组合以形成更大的序列，其中[SEP]令牌放置在每两种类型的文本序列之间以彼此分离[CLS]标记被预先添加到整个序列中，以聚合文本中的信息每个单词都由BERT的预训练单词嵌入模块转换为向量[8]。词嵌入的维数dw为768。采用预训练的BERT模型[8]来稳定文本编码。形式上，编码的单词序列表示为zi，其中z0Rdw是整个文本的表示，z1，zLRdw是编码的嵌入，L是单词的数量。视频编码器。在 [40 ， 24 ， 44] 之后，采用在ImageNet [ 33 ]上预训练的GoogLeNet [ 36 ]的倒数第二层（池5）的输出作为帧特征，这与大多数用于公平比较的视频摘要方法一致。框架结构的尺寸df为1，024。类似于用于text编码的[CLS]到ken，一个可学习的特征（fclsRdf）被预先添加到帧特征，以聚合帧特征中的时间信息。视频中的片段，每个片段的解释如下。跨模态语义对应。设计了两个子目标来对视频和文本之间的对应关系进行建模：粗粒度建模和细粒度建模。粗粒度建模利用序列级表示来捕获语义相关性。对于训练过程中的每个视频-文本对，文本信息以50%的概率被另一个视频的文本信息替换，以生成否定对。形式上，给定视频和文本的表示g0，z0，我们使用三层感知器MLPcls（）来预测视频和文本是否对应，即，pc=MLPcls（[g0，z0]），其中[，]表示级联.在之前的自监督学习[22，35]之后，二进制交叉熵被用作子目标，L1=−（ylog（pc）+（1−y）log（1−pc）），（1）其中y是指示视频-文本对是否对应的二进制标签粗粒度建模侧重于序列级表示，只包含全局信息。然而，视频和文本中的局部基于此，我们提出了视频和文本之间的对应关系的细粒度建模形式上，给定编码帧视频.视频编码器是一个三层Transformer，随机初始化形式上，编码帧的特征是G={gt}t=1Z={zi}以及编码的字嵌入，我们首先测量表示为gtT，其中g0Rdf是整个视频序列的表示，g1，，gTRdf是编码的帧特征，T是帧的数量。i=1两组使用豪斯多夫距离dH如下，dH（G，Z）= max{d（G，Z），d（Z，G）}，（2）3.2.2学习目标在这项工作中，我们提出了两种类型的自监督学习的学习目标：1）语义相关的视频和文本之间，和2）时间依赖，d（，）=max mintigt2MLPT（zi）22d（，）=max minitgt2MLPT（zi）22、（3）、（四）L5588·∈·不 ∈不∗不∈1不1不···∈其中，我们使用两层感知器MLPT（）将编码的单词嵌入映射到视觉空间中。基于两个集合的距离，我们利用对比损失为了将相应的视频-文本集合拉到一起并将不匹配的集合推开，即，请注意，ps没有标签，我们只对恢复的帧应用超级视觉，这迫使模型自适应地重新加权来自两个场景的预测。总之，多模态框架的训练涉及三个损失函数，我们使用它们的组合2、自我监督学习，即L2=ydH+（1−y）max{0，m-dH}，（5）其中m是预定义的裕度。在这个子目标中，而不是使用一个整体表示的视频或文本，我们通过检查单个帧和单词的视频和文本之间的语义相关性建模。通过这种方式，该框架可以发现更多的细粒度的跨模态信息的视频理解。视频中的时间重叠。我们还捕获视频中的时间依赖性。与BERT的训练类似，我们随机屏蔽一帧，并要求模型恢复它。具体来说，我们用可学习的特征（m）替换随机选择的帧Rdf）。代替像大多数方法那样使用编码的掩蔽特征来预测掩蔽帧，我们通过考虑掩蔽帧和整个视频之间的时间依赖性来恢复帧，即，被掩蔽帧是平滑过渡还是突变过渡。为此，将两层感知器MLPs（）应用于编码的掩蔽特征来预测平稳过渡的可能性。作为-如果第t帧被掩蔽，则概率计算为ps=MLPs（gt），其中gt是m的编码特征。然后，从两个方面恢复掩蔽帧：1）如果它是一个平滑的过渡，我们通过只使用它的邻居（本地信息）来恢复它。Transformer（TV）和线性投影如下，LSSL=L1+αL2+βL3，（10）其中α、β是平衡这三项的超参数3.3. 渐进式视频摘要在本节中，我们将描述如何使用预训练的编码器执行摘要。现有的方法执行单阶段的方式，其中视频只检查一次，这可能是不足以查明的重要内容的视频摘要为了解决这个问题，我们提出了渐进式视频摘要。如图4（a）所示，框架是具有相同架构的多个模型的堆栈。每个模型被称为一个阶段，其结构如图4（b）所示更具体地，第n级的输入被计算为基于前一级的输出的前一级的输入的加权增强，即，Fn=Fn−1<$sn−1+Fn−1，（11）其中Fn=[Fn，，fn]TRT×df表示第n级输入特征的序列. fnRdf表示序列Fn在第t个时间步的特征.sn−1=<$sn−1，· · ·，sn−1<$T∈RT是一个序列，由第（n-1）级输出的TV帧分数sn−1∈[0，1]R=TV（[ft−k，···，m，···，ft+k]+Epos），（6）是一个标量，表示不t-sn−1。f1=W1Rc（7）其中k是预定义的风半径，EpVos∈R（2k+1）×df是位置编码，R∈Rdf是T表示序列中的帧的数量。表示行乘法。对于第一阶段，F0被初始化为由预训练的CNN提取的原始帧特征，并且s0：=0。R中的特征对应于m和CW1∈ Rdf×d f是公式化Fn的基本动机如在Eq.可学习参数2)如果掩码帧是一个突然的过渡（这意味着只有本地信息是不足以推断掩码帧），我们使用gt来恢复它，因为gt包含视频的全局信息。具体而言，将简单的线性投影应用于gt以预测屏蔽帧，即，f2=W2gt，其中W2Rdf×df是可学习的参数。考虑到这两种情况，通过组合F1和F2来接收经掩蔽的帧，即，（11）是通过强调重要内容来迭代地细化视频序列。我们发现，即使视频编码器在第n级（n >1）（由于残差连接）接收到输入序列的缩放版本，它仍然可以正确地对序列进行建模，并且每个比没有残留连接的配方好得多（详见补充资料）。在第n阶段，输入特征Fn由t t预训练视频编码器（EV），即，ft=psf1+（1−ps）f2。（八）t tGn= E（Fn+EV），（十二）损失被定义为被掩蔽帧和恢复帧之间的均方误差，即，558911不V阳性其中Gn=[gn，···，gn]T∈RT×df是¨ˆ¨F编码特征。gn∈Rdf表示第t时刻的特征不L3=d“ft− ft”。（九）步骤Gn。EpVos∈RT×df是位置编码，255901112⋯��1不1阶段11121不化文本信息表示视频编码器E文本编码器E不1⋯2111视频视频摘要视频汇总[CLS]···∈·⊙∈∈∈∈∈∈···∈2不猫查询标题Desc（一）（b）第（1）款（c）第（1）款图4. (a)概述了所提出的两个阶段的渐进式视频摘要，其中每个阶段的结构和过程是相同的。(b)第一阶段视频摘要的细节。(c)文本信息编码的细节。视频序列。注意，不同阶段中的视频编码器是相同的并且共享参数。包含序列的全局时间信息，然后利用Gn来预测帧级重要性分数。此外，在线性投影之前应用剩余连接以提高训练稳定性[13]，即，将token作为整个序列的前缀，并应用预先训练的词嵌入模型将文本转换为词嵌入序列X=[x0，，xL]TR（L+1）×dw，其中L和dw是词序列的长度和词嵌入的维数。这个...然后由预训练的文本编码器（ET）对序列进行编码Sn=σ（（Gn+Fn）Wn+bn），（13）Z=ET（X+EpTos ），（十六）其中snRT是第n阶段的帧分数的输出序列，WnRdf，bnR是第n阶段的可学习参数，σ（）是Sigmoid函数。最后的帧分数是通过考虑到con...考虑所有阶段输出的分数序列，即，s=s1<$s2<$··<$sN∈RT，（14）其中是逐元素乘法，N是级数。更多计算最终分数的方法请参见补充资料。优化和摘要生成。我们使用数据集中提供的地面实况帧级重要性分数来训练所提出的视频摘要框架。形式上，给定地面实况帧分数sgtRT和视频的预测帧分数st t，均方误差被用作损失函数，即，其中Z =[z0，，zL]TR（L+1）×dw是编码的w阶嵌入的序列。EpTos R（L+1）×dw是单词序列的位置编码。最后，考虑[CLS]令牌的编码特征zRdw，作为如下融合到用于视频摘要的视觉模态中的文本信息的特征s1= σ（（G1+ F1+ MLPT（z0））W1+ b1）.（十七）请注意，文本表示仅用于第一阶段。通过这种方式，通过不仅考虑视觉信息而且考虑相关联的文本信息来预测帧级分数。4. 实验通过实验验证了该方法的有效性。首先解释实验设置。然后，我们将我们的方法与其他视频摘要进行比较-LV S =1s−s2.（十五）训练方法和视频文本预训练方法。最后，我们进行消融研究，以证明为了生成摘要，我们遵循[40，24，45]并选择镜头以最大化总得分，限制条件是摘要的长度小于原始视频的15%。基于内核的时间分割（KTS）[31]用于将视频分割为镜头。一个镜头的得分是该镜头内帧的平均得分。3.4. 带文本信息的视频摘要1阶段第二阶段GT5591使用预训练的文本编码器，我们可以选择将文本信息合并到视频摘要中。如图4（c）所示，给定文本信息，[CLS]我们的贡献。此外，预测分数在补充材料。4.1. 实验设置4.1.1用于视频摘要的我们使用SumMe [12]和TVSum [34]数据集进行视频摘要。对于SumMe，我们将其在数据集中的视频名称作为文本信息的搜索查询，其他三类文本信息留空。对于TVSum，在数据集中提供视频标题，并且TVSum中的10个类别被视为5592√文本信息。此外，我们从YouTube重新收集类别信息（如果不可用，则留空），描述为空。除了SumMe和TVSum，YouTube [7]和OVP4用于增强设置和传输设置[40，45]。4.1.2实现细节多模态自我监督预训练。YTVT中的视频被子采样到2FPS以减少时间冗余，这与SumMe和TVSum一致。对于视频编码器（EV）和Transformer（TV），在等式（1）中，（6）、多头关注中的头数设置到8.前馈网络的维度设置为4，096。为了提高泛化能力，我们从每个视频中随机裁剪256帧进行训练。BERT模型的未封装的基本版本用作文本编码器（ET）。为了解决训练过程中文本长度的不一致性问题，我们设置了类别、搜索查询、标题和描述为3、3、10和50。对于那些短于要求的文本序列，最后用[PAD]标记填充它们等式中的裕度m（5）设为2。等式中的窗口半径k（6）设置为4。我们在等式中设置α=1，β=5。（十）、框架优化Adam [18]，批量大小为8，学习率为10−6。渐进式视频摘要。该框架是由Adam训练了40个epoch，批量大小为4，学习率为10-5。设置视频的最大长度到512帧。短于要求的视频最后用零填充。当用文本信息训练模型时，考虑到每种类型文本的平均长度，我们将类别、搜索查询、标题和描述的最大长度设置为1、3、10和15。在[14，16，45]之后，进行五重交叉验证。4.1.3评估指标F分F分数测量生成的视频摘要和人类摘要之间的重叠。具体地，给定所生成的视频概要Vs和人类总和，MaryVgt，精确度P和召回率R计算为：P=| VsVgt|，R=| VsVgt|. 计算F分数F表2.在SumMe和TVSum上的结果（Kendall第一行中的方法是无监督方法，而第二行中的方法是有监督方法。方法SumMeτ ρTVSumτ ρSGAN [24]--0.0240.032WS-HRL [6]--0.0780.116DRDSN [45]0.0470.0480.0200.026RSGNU [42]0.0710.0730.0480.052dppLSTM [40]--0.0420.055CSNets [16]--0.0250.034[第17话]--0.0700.091SumGraph [30]--0.0940.138[44]第四十四话 0.0640.0660.0820.088RSGN [42]0.0830.0850.0830.090SSPVS0.1780.2400.1770.233SSPVS+文本0.1920.2570.1810.2384.2. 与最新技术4.2.1秩相关系数我们使用秩相关系数、Spearman结果示于表2中。如表2所示，SSPVS在两个数据集上都在很大程度上优于现有方法，这意味着所提出的方法可以比以前的工作更准确地建模帧之间的相对重要性此外，通过在摘要过程中包含文本信息，进一步提高了两个数据集的性能。4.2.2F分数的比较我们还比较了我们的方法与以前的作品中广泛使用的F-分数。结果示于表3 .第三章。由于未收集OVP和YouTube中视频的文本信息，因此未报告增强设置和传输设置中的SSPVS+Text结果如表3所示，SSPVS优于大多数比较方法，这证明了它在精确定位重要镜头方面的有效性。我们还发现我们的方法|V S||Vgt|[47][48][49]然而，DSNet作为P和R的调和平均，即，F=2PR。基于等级的评价。P+R基于等级的评价是有利的，将视频摘要公式化为时间检测，需要复杂的培训和测试策略，”[29]这是一个关于“以德治国”的问题。具体地说，给定预测的帧级分数和人工注释的分数，两个秩相关系数Kendall对于具有多组注释的视频，平均系数被视为最终结果，并且F分数也是如此。4开放视频项目：https://open-video.org适用因对于MSVA，它使用了额外的基于C3D的特征，这是有效的，但也带来了巨大的计算量。4.2.3自监督模型我们还将所提出的自监督学习方法与其他框架进行了比较，包括VideoBERT [35]，VideoClip [38]和VATT[2]。为了公平比较，我们5593表3.在SumMe和TVSum上不同设置下的F分数。表5基于等级评价的消融研究结果第一行中的方法是无监督方法，而第二行是监督方法。Can/Aug/Tran表示规范/增强/转移设置。方法可以SumMeAugTran可以TVSumAugTranSGAN [24]0.3870.417-0.5080.589-DRDSN [45]0.4140.4280.4240.5760.5840.578ACGAN [14]0.4600.4700.4450.5850.5890.578WS-HRL [6]0.4360.445-0.5840.585-vsLSTM [40]0.3760.4160.4070.5420.5790.569[24]第二十四话0.4170.436-0.5630.612-H-RNN [43]0.4210.438-0.5790.619-[44]第四十四话0.4230.421-0.5870.598-[41]第四十一话0.4250.449-0.6030.639-S-FCN [32]0.4750.5110.4410.5680.5920.582CSNets [16]0.4860.4870.4410.5850.5710.574DSNet [47]0.5020.5070.4650.6210.6390.594MSVA [11]0.534--0.615--SSPVS0.4870.5040.4580.6030.6180.578SSPVS+文本0.507--0.604--表4.不同自监督方法的结果（Kendall方法SumMeτ ρTVSumτ ρ基线0.1370.1870.1410.185VATT[2]0.1370.1850.1430.188视频BERT [35]0.1420.1910.1450.190视频剪辑[38]0.1390.1880.1480.195SSPVS0.1540.2070.1510.199使用与我们的方法相同的输入形式在YTVT上预训练比较模型具体来说，我们不使用图像（或其量化）作为视频输入，而是使用#Stages Pretrain TextSumMe TVSum信息.考虑到计算复杂度和GPU内存限制，我们将阶段数设置为1-4。对于每个阶段数，评估三个模型结果示于表5中。如结果所示，自我监督预训练显著提高了每个阶段的性能。我们发现，对SumMe的影响大于TVSum。我们认为原因是SumMe包含的训练视频比TVSum少，因此预训练在SumMe上更有用。此外，利用文本信息也有利于视频摘要，但当阶段数量增加时，影响变得不那么明显。对于渐进机制，随着阶段数的增加，性能在两个数据集上都有所在SumMe 上的三个阶段和TVSum上的四个阶段达到最佳性能。提取帧的VGG特征。此外，VATT中的声学模态被丢弃。然后，预训练的视频编码器被微调用于视频摘要，其中不应用渐进机制和文本信息。基线是我们没有预训练的模型。我们在表4中报告了基于等级的评价结果。结果显示，VATT预训练对视频摘要的影响很小，而VideoBERT在两个数据集上都略微提高了性能。此外，视频剪辑显著改善了TVSum的结果.对于我们的框架，它显着改善了结果，这表明我们的方法优于其他自监督方法在视频摘要。此外，本发明还每种建议的自我监督损失（L1、L2和L3）的影响在补充材料中示出。4.3. 消融研究我们进行消融研究，以证明多模态自我监督预训练，渐进式摘要和文本5. 结论我们已经成功地将视频摘要纳入到自监督学习框架中，该框架利用了视频和文本之间的粗粒度和细粒度语义一致性以及视频中的基于预训练的编码器，我们开发了渐进式视频摘要，其中输入序列以多级方式进行细化，并且还可以利用文本信息大量的实验验证了我们的贡献的有效性。与以往的工作相比，我们的方法已经取得了国家的最先进的性能，基于排名的评价。确认本研究使用墨尔本大学托管的LIEF HPC-GPGPU Facility进行该设施是在LIEF赠款LE170100200的协助下建立的。MG得到ARC DE 210101624的支持。τρτρ0.1370.1870.1410.18515.154美元0.2070.1510.199价格0.1590.2120.1570.2060.1400.1890.1590.2092016年12月16日0.2170.1610.212价格0.1740.2350.1630.2140.1660.2240.1620.212178.00美元0.2400.1720.2261992年0.2570.1730.2280.1450.1980.1630.21417.172美元0.2310.1770.233价格0.1750.2370.1810.2385594引用[1] Unaiza Ahsan ， Rishi Madhok ， and Irfan Essa. Videojigsaw：用于视频动作识别的时空上下文的无监督学习。 2019 年 IEEE 计算机视觉应用冬季会议（WACV），第179-189页。IEEE，2019。[2] Hassan Akbari，Liangzhe Yuan，Rui Qian，Wei-HongChuang，Shih-Fu Chang，Yin Cui，and Boqing Gong.Vatt：Transformers，用于从原始视频、音频和文本进行多模态自监督学习。神经信息处理系统进展，34，2021。[3] Jean-BaptisteAlayrac 、 AdriaRecasens 、 RosaliaSchneider 、 Relja Arandjelovic 、 Jason Ramapuram 、Jeffrey De Fauw 、 Lu-cas Smaira 、 Sander Dieleman 和Andrew Zisserman 。自监督多模态通用网络。NeurIPS，2（6）：7，2020。[4] Relja Arandjelovic和Andrew Zisserman。看，听，学。在IEEE计算机视觉国际会议论文集，第609-617页[5] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页[6] 陈一燕，李涛，王雪婷，矢正崎俊彦.基于神经强化学习的弱监督视频摘要。ACM Multimedia Asia，第1-6页。2019年。[7] Sandra Eliza Fontes De Avila ， Ana Paula BrandaoLopes，AntoniodaLuzJr，andArnaldodeAlbuquerqueArau'jo. Vsumm：一种用于生成静态视频摘要的机制和一种新颖的评估方法。Pattern RecognitionLetters，32（1）：56[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[9] Jiri Fajtl ， Hajar Sadeghi Sokeh ， Vasileios Argyriou ，Dorothy Monekosso，and Paolo Remagnino.关注视频。亚洲计算机视觉会议，第39-54页。Springer，2018.[10] Basura Fernando，Hakan Bilen，Efstratios Gavves，andStephen Gould.自监督视频表示学习与奇一网络。在IEEE计算机视觉和模式识别会议论文集，第3636-3645页[11] Junaid Ahmed Ghauri ， Sherzod Hakimov ， and RalphEw- erth.通过具有并行注意力的多个特征集进行监督视频摘要。在 2021 年 IEEE 多媒体和博览会国际会议（ICME）上，第1IEEE，2021。[12] MichaelGygli、HelmutGrabner、HaykoRiemenschneider和Luc Van Gool。从用户视频创建摘要。欧洲计算机视觉会议，第505Springer，2014.[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Xufeng He ， Yang Hua ， Tao Song ， Zongpu Zhang ，Zhenggui Xue，Ruhui Ma，Neil Robertson，and HaibingGuan.无监督视频摘要与注意的条件生成对抗网络。在第27届ACM国际多媒体会议论文集，第2296[15] 景龙龙和田英丽。使用深度神经网络的自监督视觉特征学习：一个调查。IEEE Transactions on Pattern Analysisand Machine Intelligence，2020。[16] Yunjae Jung，Donghyeon Cho，Dahun Kim，SanghyunWoo和In So Kweon。用于无监督视频摘要的鉴别特征学习。在AAAI人工智能会议集，第33卷，第8537-8544页[17] Yunjae Jung，Donghyeon Cho，Sanghyun Woo，and InSo Kweon.用于无监督视频摘要的全局和局部相对位置嵌入。欧洲计算机视觉会议ECCV 2020Springer，2020年。[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Bruno Korbar，Du Tran，and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型arXiv预印本arXiv：1807.00230，2018。[20] Zhenzhong Lan ，Mingda Chen ， Sebastian Goodman ，Kevin Gimpel ， Piyush Sharma ， and Radu Soricut.Albert：一个用于语言表示的自我监督学习的arXiv预印本arXiv：1909.11942，2019。[21] Haopeng Li ，Qiuhong Ke ， Mingming

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多模态自监督学习的渐进式视频摘要方法

2019-多模态学习方法综述1

多模态dbms学习多模态表示

多模态深度学习paper

多模态大模型学习路线

写一篇关于《自主学习中基于多模态数据的学习风格高精度识别》的文献综述

多模态 图像分类 监督

多模态特征融合和多模态学习的区别

cmu 多模态学习 下载

对比学习和多模态学习

多模态小样本学习存在问题

是transformer的出现使得多模态的表征学习成为可能吗？

请简述多模态学习的研究进展

多模态学习率是什么？

多模态知识图谱零基础学习路线

SimCLR的多模态对比学习是什么

详细介绍一下自监督学习

多模态学习 keras

基于深度学习的多模态融合识别有哪些方法？

多模态融合地理大数据

什么是多模态学习，先沿的多模态学习有哪些，并具体说明一下各个多模态学习模型

最新资源

多模态图像分类监督

cmu 多模态学习下载