腾讯-MVSE：多模态视频相似性评估的大规模基准数据集及基线模型

115 浏览量更新于2023-10-25 收藏 13.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

梅西告诉你，点球不是非要射门，成人之美也是一种美德！(Messi tells you, we don’t have to shoot when playing stop kick, helping others is also a virtue!)面对这样的门将，连穆勒都无可奈何，足球场上运气也很重要！(Facing such a goalkeeper, even Muller has no alternative, luck is also important on the football field!)德云社“大小姐”郭麒麟，你这是要出师了么？这么狠呢(Deyunshe “young madam” Qilin Guo, are you going to finish your apprenticeship? So cruel)德云社，不愧是亲搭档，郭德纲和于谦借着唱戏名义占高峰便宜！(Deyunshe, be worthy of partners, Degangand Qian profit at Feng’s expense in the name of singing!)用了这个灵敏度，不仅能压平底锅，还能压信号枪！(Using such sensitivity, not only can press pan, but also can press flare gun!)光子，你卖的什么破伞，我要退钱(Guangzi, what broken parachute you sell, I want a refund)visual contents about “playing football”. Videos from thesecond pair have different visual contents, while they areboth crosstalks acted by the same troupe according to theirtitles. For the third example, the two videos have differentvisual contents and titles, while they share “similar” visualand text information related to the same game. Since thesimilarity exists in such diverse manners, in real applicationscenarios, video similarity should be evaluated by consider-ing multi-modal information. Inspired by the recent successin the field of natural language processing and computer vi-sion, large-scale labeled datasets are mandatory to advanceresearch progress. However, when creating a video similar-ity benchmark dataset, the multiple modalities bring signif-icant challenges for data annotation and evaluation.Learning video representations for similarity evaluationrequires the supervision of video pairs similarity.Mostexisting approaches learn video representations via multi-label classification by using the semantic tags as supervi-31380腾讯-MVSE：用于多模态视频相似性评估的大规模基准数据集0曾兆阳，罗永胜，刘振华，饶凤云，李典，郭卫东，文震 QQ浏览器实验室，腾讯 {zhaoyanzeng,yongshenluo,edinliu,fengyunrao,goodli,weidongguo,zhenzwen }@tencent.com0摘要0多模态视频相似性评估对于视频推荐系统（如视频去重、相关性匹配、排序和多样性控制）非常重要。然而，目前仍缺乏一个可以支持监督训练和准确评估的基准数据集。在本文中，我们提出了腾讯-MVSE数据集，这是第一个用于多模态视频相似性评估任务的基准数据集。腾讯-MVSE数据集包含视频对的相似性注释，以及包括中文标题、自动语音识别（ASR）文本和人工注释的类别/标签在内的多样的元数据。我们提供了一个简单的基线模型，使用多模态Transformer架构进行监督式多模态视频相似性评估。我们还探索了预训练策略，以利用未配对的数据。整个数据集以及我们的基线模型将发布以促进多模态视频相似性评估的发展。数据集已在https://tencent- mvse.github.io/上发布。01. 引言0近年来，在线视频分享平台得到了快速发展。越来越多的平台，如YouTube、优酷、爱奇艺、腾讯视频和抖音，已成为我们日常生活中重要的一部分。为了满足用户的多样化需求，这些平台实施了复杂的视频推荐系统，执行各种任务，包括视频去重、相关性匹配、排序和多样性控制等。所有这些应用都依赖于有效的相似性评估算法，这些算法需要对视频内容进行全面的理解。视频内容的“相似性”体现在多个模态中，包括视觉内容和元数据。图1显示了一些可能“相似”的视频对的示例。对于第一个示例，这两个视频在视觉内容上相似，关于“踢足球”。第二个示例中，这两个视频在视觉内容上不同，但根据标题，它们都是由同一剧团表演的相声。对于第三个示例，这两个视频在视觉内容和标题上不同，但它们共享与同一场比赛相关的“相似”的视觉和文本信息。由于相似性以如此多样的方式存在，因此在实际应用场景中，视频相似性应该通过考虑多模态信息来评估。受到自然语言处理和计算机视觉领域最近的成功启发，大规模标记数据集对于推进研究进展至关重要。然而，创建视频相似性基准数据集时，多个模态为数据注释和评估带来了重大挑战。学习用于相似性评估的视频表示需要视频对相似性的监督。大多数现有方法通过使用语义标签作为监督进行多标签分类来学习视频表示。0图1.一些相似视频对的示例。三行中的视频对在视觉内容、标题和语义信息上相似。31390sion [ 1 , 19 , 33]。这些标签总结了来自不同语义层次和感知的视频，因此可以简要估计视频对的相似性。然而，在真实的视频推荐系统中，这些语义标签无法满足更高的精确度要求。CDML [ 23]和GCML [ 22]尝试利用用户行为来估计视频对的相似性。他们的想法在概念上与协同过滤相一致，许多用户在隐式地协同过滤相关项目。然而，用户行为的相关性受到许多因素的影响，不仅仅是视频内容。更糟糕的是，用户行为在不同平台上是不同的。此外，研究界没有一个视频相似性评估基准。这些限制极大地限制了多模态视频相似性评估的发展。0在本文中，我们提出了一个大规模的腾讯-MVSE数据集，这是多模态视频相似度评估任务的第一个基准数据集，以促进多模态视频相似度评估的发展。我们收集了135,705个视频对，并对它们的相似度进行了精细的注释。提供了详细的相似度注释规范，以确保注释的相似度得分与人类的感知相一致。我们提供视频以及包括中文标题、自动语音识别（ASR）文本和人工注释的类别和标签在内的丰富元数据，以支持多模态方式下的视频相似度评估。注释的视频对数据被分为成对的拆分、测试开发拆分和测试标准拆分，用于监督训练、验证和最终评估。此外，我们还收集了一个逐点拆分，其中包含100万个带有视频帧和元数据的单个视频。收集的逐点拆分旨在鼓励研究人员通过利用更易获取的无标注数据来探索先进的无标注注释方法。与现有的带有语言注释的视频理解数据集相比，腾讯-MVSE数据集具有两个主要特点。首先，腾讯-MVSE将视频文本视为一个整体项目，并注释了项目之间的相似度，而现有数据集[29, 39,42]则侧重于探索视频和文本之间的关系。其次，腾讯-MVSE提供了328个类别和64,903个标签，远远大于现有数据集[1, 19, 21,33]。所有的类别和标签都是由人工注释的，以确保高质量。腾讯-MVSE数据集已经在国际领先的数据挖掘会议的比赛中得到验证。它使数百名参与者能够实施创新的测量方法。0除了收集腾讯-MVSE数据集外，我们还为多模态视频相似度评估任务提供了一个简单的基准。受到视觉语言理解方法（如UNITER [6]，VL-BERT [34]，SOHO[16]和VideoBERT）的巨大成功的启发。0[36]，我们采用先进的单流多模态Transformer（MMT）作为基础模型架构。将句子令牌嵌入和视频帧特征的串联作为输入，MMT通过使用多模态注意机制学习输入视频文本项目的联合视频文本嵌入。注释的相似度得分被用作监督信号，通过均方误差（MSE）损失来优化视频对之间的嵌入余弦距离。通过这种方法学习到的联合视频文本嵌入具有丰富的区分能力，因此可以更精确地评估视频相似度。此外，受到最近工作的有效预训练策略的启发[6, 10, 16, 34,36]，我们尝试利用逐点拆分对MMT进行多模态预训练。我们采用广泛使用的掩码语言建模（MLM）、掩码帧建模（MFM）和视频文本匹配（VTM）预训练任务来预训练MMT。我们的结果表明，所有的预训练策略都可以大幅提升模型性能，揭示了无标注数据的潜力。总结起来，本文的贡献包括：0•我们收集并注释了腾讯-MVSE数据集，这是研究界中第一个多模态视频相似度评估基准；0•我们构建了一个简单的基准，采用了Transformer进行多模态学习的优势，并进行了充分的消融实验，以展示每个模块的有效性；0•我们采用先进的多模态预训练策略来挖掘MMT模型的潜力。实验结果表明，预训练策略对多模态视频相似度评估任务的有效性。02. 相关工作02.1. 视频理解数据集0视频理解研究的发展应归功于大规模数据集。HMDB51[21]、UCF-101 [33]、Sport1M [18]和Thumous[17]是提供基于视频的标签的早期数据集，都是广泛使用的视频分类基准。Kinetics[19]是一个更大的数据集，包含超过30万个视频剪辑和400个类别。ActivityNet[4]提供分段级别的动作注释，使智能能够执行时序动作检测。上述数据集仅关注人类动作和体育场景，而真实世界的视频具有更丰富的语义。YouTube-8M提供了800万个视频，属于4800个类别，其规模和多样性可以支持强大的表示学习。随后，研究人员发现，如果我们想要进行更像人类的视频理解，我们需要弥合31400填补视频和语言之间的差距，提出了几个带有语言注释的视频数据集。YouCook [8]、MSR-VTT [42]、VATEX[39]和STAR[41]是带有人工编写句子注释的视频数据集，可以支持视频字幕生成和视频检索任务。HowTo100M[29]是最大的视频-文本数据集，包含130万个带有ASR文本注释的视频剪辑。作者表明，HowTo100M[29]可以帮助学习稳健的视频和文本嵌入，并极大地提升视频检索任务的性能。尽管提出了许多视频理解数据集，但仍然没有专门为视频相似性评估任务设计的数据集。我们提出的腾讯-MVSE数据集是第一个视频相似性评估基准数据集。通过视频对的相似性注释，研究人员可以进行监督训练和准确评估。腾讯-MVSE还提供了丰富的元数据，支持多模态和多任务学习。02.2. 视觉-语言预训练0在过去的几年中，许多作品尝试通过自监督预训练来探索改进视觉-语言理解，并在一系列图像-文本任务（例如VQA[3]、VCR [43]、NLVR [35]、STAR [41]、图像检索[12]）和视频-文本任务（例如视频QA [25]、视频字幕生成[42]、视频检索[20]）中取得了巨大成功。其中，大多数作品采用单流架构来共同学习视觉和语言领域之间的跨模态和内模态关系。UNITER [6]采用视觉BUTD特征[2]作为输入，提出了几个预训练任务，并在几个图像-文本下游任务上展示了它们的有效性。VL-BERT[34]将整个BUTD特征提取网络附加到多模态模型上，并使整个网络可训练。SOHO[16]突破了边界框注释的限制，使用简单的CNN骨干网络生成网格特征，并表明整个网络的端到端训练可以产生出色的结果。除了与图像相关的任务外，VideoBERT[36]研究了视频-文本任务的预训练，提出使用离散标记来表示视频帧，并在视频特征上应用了掩码预测策略。HERO[25]提出了视频-字幕匹配和帧顺序建模的预训练策略，以捕捉多模态之间的时序对齐。CLIPBERT[24]探索了视频-文本预训练的端到端训练策略，并证明即使使用较少的剪辑也可以获得更好的性能。在本文中，我们遵循广泛使用的自监督预训练方法，在腾讯-MVSE点对点拆分上进行预训练，并发现它可以显著提高多模态视频相似性评估任务的性能。预训练的细节将在第4.2节中解释。03. 腾讯-MVSE数据集0为了推动多模态视频相似度评估研究和应用的发展，我们构建了腾讯-MVSE数据集，这是多模态视频相似度评估任务的第一个基准。腾讯-MVSE数据集提供了视频对的相似度分数，以及丰富的元数据，包括中文标题、ASR文本和人工注释的类别和标签。在本节中，我们将详细介绍如何构建这个数据集。03.1. 数据收集0我们从腾讯看点1收集视频数据，这是中国规模庞大的推荐平台。腾讯看点每天接收数十万个PGC（专业生成的内容）短视频和其他更多视频。我们只选择PGC视频，因为它们的质量更好。我们首先从腾讯看点服务中获取100万个短视频来构建逐点分割。这么多的视频可以确保类型分布与在线系统一致。在获取的视频中，主要选择60秒以下的短视频，因为它们在移动设备上很受欢迎。然后，我们再获取200万个短视频作为成对注释的图库，最后注释了135,705个视频对。注释的详细信息将在3.2中解释。注释的对被分为成对分割、测试开发分割和测试标准以进行监督训练、验证和最终评估。我们确保训练和测试分割中没有视频重叠，以避免数据泄漏，并且所有分割都具有一致的数据分布。对于每个视频，我们提供丰富的信息，包括中文标题、ASR文本、预提取的帧特征和人工注释的类别和标签。标题由视频的作者编写，ASR文本是基于音频使用腾讯云ASR API2生成的。由于原始数据的版权限制，我们只提供视频id3作为对应原始视频的链接。03.2. 数据注释03.2.1 视频类别和标签注释0我们为每个训练视频提供了类别和标签注释。类别总结了视频的类型，标签指示视频内容的概念。我们01 https://kandian.qq.com/ 2https://cloud.tencent.com/document/api/1093/35636 3视频id可用于使用模式https://kandianshare.html5.qq.com/v3/video/{id}构建URLTitle: 大货车体验了一把VIP的待遇！一条船就装一辆车！(Truck experiences VIP treatment! A ship only holds a truck!)ASR: 大货车体验了一把VIP的待遇。一条船就装你一辆车。(Truck experiences VIP treatment. A ship only holds a truck.)Category: 生活-生活记录 (life-life recording)Tag: 生活随手拍；记录生活；货车；船；随记(life snapshot; record life; truck; shop; snapshot)Title: 烧烤小妙招，怕肉质太硬，那就用这一物，让肉质鲜嫩！(Barbecue lifehack, afraid tough meat, you can use this thing, whichcan make the meat fresh and tender.)ASR: 切一片洋葱圈。将肉馅放进去。能够保持肉馅的多汁(Cut an onion ring, put the meat stuffing in, and it can keep the meatfresh and tender)Category: 美食-菜谱 (food-menu)Tag: 烹饪妙招；烤肉；美食达人；鲜嫩多汁(cooking lifehack; barbecue; food master; fresh and tender)Title: 和平精英：如何对待胆小的敌人？没有什么是一颗雷解决不了的(PLUG: How to treat coward? Nothing can not be solved by a grenade.)ASR: 但他好像并没有来找我的勇气，面对这种胆小鬼只能主动出击…(But he seems do not to have the courage to find me. Faced with this situation,I have to be proactive…)Category: 游戏-手游 (game-mobile game)Tag: 海岛地图；生存游戏；和平精英；军事题材；射击游戏；达人解说(island map; survival game; PLUG; military subject; shooting game; masterexplanation)31410图2. 腾讯-MVSE数据集的一些示例。数据集中的所有视频都包含视频帧、中文标题、ASR文本和几个语义标签。成对数据使用相似度分数进行注释。0相似度程度注释规范示例0相似度较高（1.0）0主题一致，核心元素（如IP、角色、动作、场景）相同0都是同一部电影/系列/节目，相似的情节或相同的演员都是直播视频流，相似的节目或相同的主播都是美妆视频，相似的妆容或相同的主播都是体育视频，相同类型的运动和相同的国家都是烹饪视频，相似的食物或相同的厨师0相似度较低（0.5）0主题一致，核心元素略有不同0都是同一部电影/系列/节目，不同的主题或演员或角色都是直播视频流，相关内容但不同的主播都是美妆视频，不同的主播和多样化的妆容都是体育视频，相同类型的运动但不同的国家或比赛都是烹饪视频，不同的食物和厨师0不相似（0.0）0主题不一致，或者主题一致但核心元素差异很大0都是电影/系列/节目，主题不同且没有共同的演员都是体育视频，不同类型的运动都是游戏视频，不同类型的游戏不同的地方和人0表1. 多模态视频相似度的简化注释规范0总共定义了328个类别，可以进一步分类为29个超类别和64,903个标签。我们通过首先从大规模视频分享平台的用户搜索查询和知识图谱中进行挖掘，然后由人工验证来构建类别和标签词汇表。每个视频属于且仅属于一个类别，可能有一个或多个标签。我们雇佣标注员对视频进行手动标注，每个标注员在观看视频（包括视频标题和视频本身）后被要求选择类别和标签。图2显示了一些标注视频的示例。03.2.2 多模态视频相似度注释0多模态视频相似度可以衡量两个视频内容之间的语义相似度，这需要每个视频对的真实相似度。然而，人类很难准确判断相似度分数。受语义文本相似度（STS）任务[5]的启发，我们定义了三个相似度程度并设计了详细的注释规范。对于每对视频，我们邀请十个标注员在观看两个视频和标题后根据规范选择相似度程度。表1列出了一个简化版本。我们定义了三个相似度程度，包括“强烈相似”，“弱0相似”和“不相似”，它们的相似度分数分别为1.0、0.5、0.0。对于每对视频，我们将所有注释分数的平均值视为其最终相似度分数。在现实世界中，大多数视频对被归类为“不相似”，形成了一个至关重要的长尾分类。然而，为了创建一个基准，我们应该保持相对平衡的类别分布。为此，我们根据以下过程选择候选视频对。首先，我们为视频对选择训练了三个视频嵌入模型。这三个模型都是通过标签进行多标签分类任务的监督训练的，遵循[1]。这三个模型分别以视频、标题和视频+标题作为输入，因此可以从不同的感知中总结样本，从而为候选视频对提供更多的多样性。然后，我们在拥有200万个视频的库中随机选择查询视频。对于上述每个嵌入模型，我们根据它们的余弦距离检索出前200个相似的候选视频，并分别从前50个、50-100个和100-200个结果中随机选择三个视频。根据我们的观察，在前100-200个列表中几乎没有相似的样本。这三个采样范围大致可以表示三个相似度程度，并导致候选视频对的相对平衡分布。给定来自三个模型的九个视频，以及查询视频及其检索到的视频050001000015000200002500000.10.20.30.40.50.60.70.80.9100.020.040.06.080.10.120.140.160.18lifefunnytalentgamefoodfasionpetbabyentertainmentsportstvtravelautocomicsocialemotionmovieshowtechnologysciencemusicinspirationhealtheducationastrofolkartpoliticsmilitaryothers00.020.040.060.080.10.1259131721252933374145495357>6031420#视频对0相似度0分数0逐对分割0比例0类别0逐点，逐对和测试分割的类别分布0逐点逐对测试0比例0持续时间（秒）0持续时0MVSE数据集0（a）（b）（c）0图3. 我们提出的腾讯-MVSE数据集的数据分析。0数据集 #视频 #剪辑持续时间（小时） #类别 #标签 #文本文本类型来源0MSR-VTT [42] 7.2K 10K 40 257 200K字幕 YouTube YouCook II [45] 2K 14K 176 89 14K字幕 YouTube ActivityNet Captions [19] 20K100K 849 200 100K密集字幕 YouTube TGIF [26] 102K 126K 103 - 126K字幕 Tumblr LSMDC [31] 200 128K 150 - 128K电影描述电影How2 [32] 13.2K 185K 298 - 185K字幕 YouTube VATEX [39] 41.3K 41.3K 115 600 825K英文和中文字幕 YouTube HowTo100M [29] 1.2M136M 134K - 136M ASR文本 YouTube YouTube-8M [1] 8.3M 8.3M 500K 4,800 - - YouTube0腾讯-MVSE 1.1M 1.1M 5,805 328 64,903 2.3M中文标题和ASR文本看点0表2. 腾讯-MVSE与其他视频理解数据集的分析和比较。腾讯-MVSE提供了最大规模的人工注释类别和标签，以及作者编写的标题。0随机选择进行注释。在过滤掉方差大于0.25的低质量注释后，我们最终获得了135,705个带注释的视频对。这里的0.25阈值是由具有五个1.0得分和五个0.5得分的数组的方差决定的。我们对注释进行10折交叉验证，其中当前注释被视为预测值，其他注释的平均值被视为真值。10折平均Spearman等级相关系数为0.9096，可以认为是人类得分。这证明了不同注释者之间的注释具有很强的相关性，因此是可靠的。03.3. 数据统计0我们将带注释的视频对分为成对、测试-开发和测试-标准三个划分。成对划分包含63,613个视频和67,854个视频对，用于训练。测试-开发划分包含31,514个视频和27,161个视频对，用于验证。测试-标准划分包含43,027个视频和40,726个视频对，用于评估。测试-开发划分和测试-标准划分有10,581个相同的视频，而成对划分中的所有视频都不出现在测试划分中。图3显示了腾讯-MVSE数据集的类别、得分和时长分布。我们提供328个类别和64,903个标签。这328个类别属于029个超类别，按照图3(a)所示的分布进行划分。三个划分的类别分布一致，能够反映在线系统的真实分布情况。从图3(b)所示的注释相似度分布中，我们发现除了具有1.0或0.0相似度得分的视频对外，得分分布相对平衡。腾讯-MVSE数据集的时长为5805小时，其中90%的视频时长在7-35秒之间，如图3(c)所示。表2显示了腾讯-MVSE以及其他视频数据集的统计信息。腾讯-MVSE数据集的标签系统是研究界最大的。与YouTube-8M的标签由YouTube视频注释系统生成相比，我们的注释类别和标签是基于手动注释和复杂处理过程的，因此更具代表性和可靠性。03.4. 数据预处理0我们以1FPS的速度提取视频帧。我们采用三种典型模型来提取视频帧特征。第一个模型是ResNet-50[15]，它是一个经典的在ImageNet数据集[9]上训练的图像分类模型。我们按照标准策略对帧进行预处理，将短边调整为256像素，然后裁剪中心224×224的正方形区域。第二个模型L1L2L11L1231430文本嵌入视频特征0注意力特征0BERT0MMT0[MASK] [MASK]0文本嵌入视频特征0MLM MF0平均0VTM TAG0MMT0文本视频0平均0TAG0MMT0文本视频0平均0TAG MSE0多模态Transformer（MMT）预训练0微调0图4.我们提出的MMT框架的概述。左侧显示了MMT模型架构，它将文本和视频特征的连接作为输入，并输出多模态注意力特征。右侧显示了预训练和微调的概述流程。0我们使用的是EfficientNet-B3[37]，在ImageNet数据集[9]上的性能优于ResNet-50。对于EfficientNet-B3，我们将输入帧的短边调整为300，并裁剪中心的300×300区域。我们采用的第三个网络是CLIP[30]。CLIP是一个在自然语言监督下进行大规模预训练的模型，可以弥合视觉和语言领域之间的差距。它采用ViT[11]作为图像主干。我们通过将输入帧的短边调整为256，然后裁剪中心的256×256区域来预处理输入帧。我们使用的具体CLIP模型是ViT-B/32。这三种特征的有效性在第5.3节中进行了介绍。它们的性能比较说明了分类特征的表示能力对最终的多模态理解结果的影响。我们没有采用专门设计用于视频理解任务的模型（例如SlowFast [13]，S3D[44]），因为采样FPS的不一致。为了减少获取数据的时间成本，所有特征也都发布给研究人员。04. 基准0我们提出了一种简单的多模态Transformer（MMT）用于联合视频文本嵌入学习。MMT的概述框架如图4所示。04.1. 模型架构0MMT以视频帧特征和文本标记作为输入。给定视频特征序列，我们使用全连接层将特征投影到具有d维度的常用隐藏空间中，然后进行LayerNorm处理。0对于文本输入，我们遵循BERT[10]的预处理策略，首先使用词片段对句子进行分词，然后使用嵌入层将标记序列嵌入到d维度中。然后根据序列长度将文本特征与视频特征进行连接。我们在序列的开头添加一个[CLS]标记，并添加一个[SEP]标记来表示句子的结束。我们使用一个12层的Transformer[38]作为多模态编码器，其参数继承自公开可访问的预训练模型。注意力特征的平均池化随后由线性层编码为目标嵌入维度。在本文中，我们将目标嵌入维度设置为256。线性层的特征输出被视为联合视频文本嵌入。04.2. 预训练0我们采用三个预训练任务来利用大规模的点对点分割，包括掩码语言建模（MLM），视频文本匹配（VTM）和掩码帧建模（MFM）。对于MLM任务，我们遵循BERT[10]的做法，随机掩盖文本。每个标记有15％的概率被掩盖。如果一个标记被掩盖，有80％的概率被替换为[MASK]标记，10％的概率被替换为另一个随机标记，10％的概率保持不变。在原始标记作为地面真实标签的情况下，模型需要以自我监督的方式预测掩盖的标记。对于VTM任务，我们将输入的视频和文本视为正对。对于每个视频，我们随机从另一个视频中抽样一个文本来构建一个负对。31440在每个批次中，正样本对和负样本对的比例设置为1:1。我们对注意力特征进行平均池化，进行2路分类，预测输入的视频-文本对是正样本还是负样本。对于MFM任务，我们随机屏蔽视频帧特征，用[MASK]标记嵌入进行掩码。我们收集被屏蔽帧的注意力特征，并将其输入到线性层中，将其投影到与输入帧特征相同的维度。我们按照[25]的方法采用噪声对比估计（NCE）损失，将原始帧特征视为真值，将同一批次中的其他帧特征视为负样本。除了三个自监督预训练任务，我们还对注意力特征进行平均池化，进行类别和标签分类。我们将注释的类别和标签转换为独热向量进行监督，并采用“pemcls”[27]损失函数，因为与通常使用的交叉熵损失相比，它可以更好地处理长尾标签分布，并且在[14]中已被证明有效。我们将这些分类任务在本文的其余部分中称为TAG。我们实验性地将标签和类别分类的损失权重分别设置为1.0和0.1。此外，由于标签和类别也是由pairwise分割提供的，我们在微调阶段也采用TAG，并发现它可以提升最终结果。在进行预训练时，我们使用预训练的BERT参数来初始化词嵌入、Transformer和MLM预测层。在进行微调时，我们使用预训练的参数来初始化整个网络，除了最后的投影层。05.实验05.1.实现0我们在pointwise分割上进行预训练，使用pairwise分割进行有监督微调，使用test-dev和test-std分割进行评估。对于预训练，我们在8个NVIDIA A100GPU上进行实验，每个GPU的批量大小设置为32个视频。我们使用AdamW优化器，因为它已被证明对基于Transformer的模型有效。我们将模型预训练20个epochs，初始学习率设置为5e-5。我们采用线性学习率衰减策略，其中包括2个预热epochs。在pairwise分割上进行微调时，我们在2个NVIDIA A100GPU上训练模型。我们进行10个epochs的微调，其中包括1个预热epoch。其他超参数与预训练保持相同。预训练过程大约需要3个小时，微调过程大约需要40分钟。对于输入视频，我们使用第3.4节中描述的方法提取视频特征。我们将最大视频帧长度限制为32。如果视频帧长度大于32，我们将选择前32帧。我们将标题和ASR文本的最大文本长度分别限制为32和128。05.2.评估指标0视频嵌入的核心思想是为推荐、排名、匹配任务提供服务。这些任务都可以看作是排序问题，只对相对相似性得分敏感。因此，我们按照[5]的方法采用Spearman等级相关作为评估指标。Spearman等级相关的计算方式是0r s = 1 - 6 � d 2 i0n(n 2 - 1)，(1)0其中d i表示每个观察值的预测排名与原始排名之间的差异，n是观察值的数量。为简化起见，我们将嵌入空间中给定视频对之间的余弦距离视为相似性得分，并计算所述相似性得分的Spearman等级相关分数作为最终评估。05.3.消融研究05.3.1 模态选择0我们的基准模型采用三种输入模态，包括视频特征、标题和ASR文本。我们评估了每种模态及其组合的有效性。在这个消融研究中，我们采用了使用EfficientNet-B3[37]特征和BERT[10]架构的设置。实验结果报告在表3中。我们主要比较在test-dev分割上的性能。我们首先采用单一模态作为输入，观察到仅有视频的模型取得了最高得分0.6046，仅有标题的模型取得了次高得分0.5696，而仅有ASR的模型表现较差。这些单一模态消融结果表明，视觉信息在视频相似性评估任务中起着最重要的作用，这也与人类的感知一致。然后我们评估“视频+标题”和“视频+ASR”模型，发现标题和ASR信息都可以提升性能。我们将三种模态组合起来，发现这样的模型可以达到0.7561的得分，超过了所有先前的结果。之后，我们尝试利用标签和类别进行多任务训练，并发现标签可以将性能提升到0.7778，而类别可以进一步将性能提升到0.7825。这些消融研究表明，提供的所有信息都可以对多模态视频相似性任务做出贡献。05.3.2 视频特征选择0视频特征的表示能力也可能影响最终性能。我们尝试了三种特征提取器，包括ResNet-50 [15]，EfficientNet-B3[37]和CLIP[30]。表4展示了这些视觉特征的基准性能。实证结果证明，视频特征的表示能力将会对性能产生很大影响。在这三种特征中，31450视频标题 ASR 标签类别 test-dev test-std0� 0.6046 0.60140� 0.5696 0.55770� 0.1989 0.1940 � � 0.7539 0.7525 � � 0.5816 0.5724 � � � 0.75610.7512 � � � � 0.7778 0.7734 � � � � � 0.7825 0.77870表3. 多模态的消融研究。0视觉特征 Transformer初始化 test-dev test-std00.7496 0.7442 EFN-B3 [37] 0.7825 0.7787 CLIP [30] 0.80140.800400.7480 0.7403 EFN-B3 [37] 0.7849 0.7805 CLIP [30] 0.80030.800600.7441 0.7399 EFN-B3 [37] 0.7840 0.7776 CLIP [30] 0.80170.80060表4. 视觉特征和Transformer初始化的消融研究。0CLIP特征在test-dev和test-std分割上分别比EfficientNet-B3特征和ResNet-50特征提高了0.02和0.05的性能。05.3.3 Transformer初始化0我们研究了Transformer初始化的三个变种，包括原始的BERT [10]，RoBERTa [28]和MacBERT[7]。这三个模型在它们的预训练策略上有所不同。我们选择这三个初始化模型是因为已经有开源实现和预训练模型[40]，这可以大大降低我们的实验成本。从表4中我们可以发现，这三个初始化模型取得了可比较的结果。05.3.4 预训练0许多视觉语言工作[6, 10, 16, 24, 25,36]展示了预训练策略的有效性，并已经提出了几种新颖的预训练任务。在这个消融研究中，我们研究了三种广泛使用的自我预训练任务，包括遮蔽语言建模（MLM），视频文本匹配（VTM）和遮蔽帧建模（MFM）。此外，我们还通过使用来自点对点分割的注释类别和标签作为监督，整合了类别和标签分类任务。我们采用CLIP[30]作为视频特征提取器，BERT[10]作为Transformer架构。我们简单地采用了所有预训练任务的相同损失权重，遵循[16]的方法。在微调阶段，我们使用第5.3.1节中的最佳设置。我们首先应用MLM进行预训练，因为在许多视觉语言工作中已经证明了其有效性[6, 16,34]。从表5的前两行可以看出，预训练0预训练任务 test-dev test-std0- 0.8014 0.8004 MLM 0.8164 0.8168 TAG + MLM0.8268 0.8246 TAG + MLM + VTM 0.8276 0.8261TAG + MLM + VTM + MFM 0.8289 0.82500表5. 预训练的消融研究。0预训练微调 test-dev test-std0MLM+VTM+MFM - 0.8119 0.8089 MLM

下载后可阅读完整内容，剩余1页未读，立即下载