没有合适的资源?快使用搜索试试~ 我知道了~
5036××利用大规模视频转录提高徐宏伟*,韩天凯*,曾艳红*,孙玉冲*,刘蓓,杨欢,傅建龙,郭柏宁微软亚洲研究院{v-honxue,v-tiahang,t-yazen,v-yuchongsun,bei.liu,huayan,jianf,bainguo} @microsoft.com摘要我们研究了联合视频和语言(VL)预训练,以实现跨模态学习,并使大量的下游VL任务受益。现有的工作要么提取低质量的视频特征,要么学习有限的文本嵌入,而忽略了高分辨率的视频和多样化的语义可以显着提高跨模态学习。在本文中,我们提出了一个新的高分辨率和D-多样化的VIdeo-LA语言预训练模型(HD-VILA)的许多视觉任务。特别是,我们收集了一个具有两个不同属性的大型数据集:1)第一个包括371. 5k小时720p视频的高分辨率数据集,2)覆盖15个热门YouTube类别的最多元化数据集。为了实现VL预训练,我们通过学习丰富时空特征的混合Transformer和强制学习的视频特征与多样化文本的交互我们的预训练模型在10个VL理解任务和2个新的文本到视觉生成任务中实现了新的最先进的结果。例如,我们在零镜头MSR-VTT文本到视频检索任务中的相对增长率为40.4%R@1,在高分辨率数据集LSMDC中的相对增长率为55.4%。学习的VL嵌入在文本到视觉编辑和超分辨率任务中生成视觉上令人愉悦且语义上相关的结果也是有效的1. 介绍近年来,我们见证了越来越多的视频,吸引人的视频 网 站 和 移 动 应 用 程 序 ( 例 如 , , YouTube ,TikTok).随着智能手机摄像头、设备存储和5G*按英文字母顺序平均分摊。这项工作是在薛宏伟、杭天凯、曾艳红和孙宇冲作为研究实习生访问微软亚洲研究院时完成的。相应作者:刘备,桓阳,傅剑龙。网络、高质量视频创建以及像旅行、体育和音乐这样的多样化内容共享成为新时尚。因此,视频分析能力以及与语言的联合高级理解在许多视频任务中起着关键作用,例如视频搜索[3,39],视频推荐[6]和视频编辑[38,48]。为了促进视频理解,我们研究了联合视频和语言(VL)预训练,这是自然语言处理[8]和计算机视觉[19,52]的新范式。现有的视频语言理解模型在视频语言数据集的规模或范围上都非常有限。 早期的数据集(例如,,MSR-VTT [53],DiDeMo [2])由人类手动注释的视频和描述组成。繁重而昂贵的注释成本限制了数据的规模。此外,只有描述性句子的数据集在复杂性和可变性方面受到限制,这在很大程度上阻碍了泛化能力。最近,通 过使用ASR (自动语 音识别)的视 频,transmitting提出了几个数据集[3,37其中最具代表性的作品是HowTo100M [37],它由百万级教学视频组成。然而,在视频质量和语义多样性方面,这些视频数据集与真实场景视频之间仍然存在很大的差距。为了解决上述限制,我们提出了HD- VILA-100 M数据集(即,、高分辨率和D多样化的VIdeo和LA语言),其覆盖了广泛的视频类别,并有益于大量的VL任务,例如文本到视频检索[39]和视频QA [27]。此数据集具有以下关键属性:(1)大:我们收集了最大的视频语言数据集之一,其中包括来自330万个视频的1亿个视频片段和句子对,总计371.5K小时(2。8个视频小时和8个平均句子长度比HowTo 100 M [37])。(2)高分辨率:所有的视频都是720p,这比现有的大多数240p或360p的数据集质量要高得多。(3)多样而平衡:我们涵盖了YouTube上广泛的主题,有15个热门类别(例如,体育、音乐、汽车)。同时,我们确保均衡的视频剪辑5037留半英寸的余量,在样板上画一个小一点的心形把它剪下来,使心脏两侧相同。把它折成两半,修剪一下。墨西哥菜就在我们身边在洛杉矶,每个角落都有塔可用点画的动作而不是扫动的动作来涂粉,因为我不想打扰我的粉底刷。你们中的一些人已经看到了我在这里的东西是我的哈士奇收藏和我的填充动物。一个小闹剧喜剧手表。乔什·唐纳森把一个界外球打到了一垒边,AJ·里德撞倒了一名警官。手套可以让佩戴者用一个响指同时使用所有的宝石力量。图1.建议的HD-VILA-100 M数据集中的视频剪辑和ASR生成的传输示例。我们提出了六个样本(每个四帧),不同的视频类别,包括如何风格,人物博客,体育,旅游活动,宠物动物,电影动画。自动生成的视频传输中的相关单词以红色手动突出显示。[Best[彩色]每个类别的数量,以缓解不足的问题。为了实现视频语言预训练,有效的视频表示至关重要。由于计算限制(例如,存储器),先前的工作或者1)采用简单的基于帧的编码器并转向端到端视觉编码和多模式融合[27],或者2)选择高级空间时间编码器[5,49],同时必须逐步进行视觉编码和多模式融合。很少有作品能够通过端到端的视频语言预训练来学习联合时空视频表示在本文中,我们提出了利用混合图像序列,由少数高分辨率(HR)帧和更多的低分辨率(LR)的邻居帧的多个视频学习任务。这样的设计使得能够利用高分辨率时空视频表示进行端到端训练。为了实现这一目标,我们要解决两个问题:(1)应该对哪些HR和LR帧进行采样?(2)如何利用混合图 像 序 列 学 习 时 空 特 征 ? For the first problem, werandomly sample HR frames from a video clip to ensurethe robustness of learned video features. LR帧从其周围均匀采样,考虑到相邻帧包含相似的空间信息并且对于时间特征学习是关键的。其次,我们提出了分别编码HR和LR帧,同时通过混合Transformer将HR特征映射到具有LR特征的联合嵌入空间。这种设计确保视频的时空表示以可学习的方式覆盖HR和LR帧学习的时空特征进一步与详细的空间特征相结合,然后是多模态转换器,该转换器学习以端到端的方式优化视频和语言嵌入。本文的主要贡献如下:1)利用自动视频翻译技术,建立了迄今为止最大的高分辨率、多样化的视频语言数据集; 2)提出了一种新的预训练框架,用于从由HR和LR帧组成的混合图像序列中学习用于视频表示的时空信息;3)大量的实验验证了学习的跨模态嵌入的有效性在10个视频理解和2个文本到视觉生成任务。数据集、模型和代码发布1.2. 相关工作视频表示视频表示通常使用2D/3D CNN [5,46,49]或变压器[4]设计。VL预训练的开创性工作[39,44,63]采用预提取的视频特征(例如,、S3D [60]、I3D[5])用于视频表示。而在图像语言预训练中,研究人员发现端到端训练将减少视觉表征的主要差距,并提高图像文本任务的概括性[19]。而对于视频表示,使基于视 频的编码器 (例如,, S3D,I3D,ResNet[17],SlowFast [11])可训练。因此,一些作品[27,57]利用基于图像的编码器(例如,,ResNet [17],ViT[9]),具有稀疏采样机制,以使视觉编码器可训练。在本文中,我们将探讨如何使视频编码器在考虑空间和时间特征的情况下可训练。视觉和语言的预训练近年1 https://github. com/microsoft/XPretrain/tree/迈恩5038数据集域#视频剪辑#句子平均长度(秒)发送len持续时间(h)决议[53]第五十三话开放10K200K15.09.340240pDideMo [2]Flickr27K41K6.98.087-LSMDC [41]电影118K118K4.87.01581080p[62]第六十二话烹饪14K14K19.68.8176-[43]第四十三话教学80K80K90.020.02K-[25]第二十五话行动100K100K36.013.5849-WebVid-2M [3]开放2.5M2.5M18.012.013K360p[37]第三十七话教学136M136M3.64.0134.5K240pHD-VILA-100M(Ours)开放103M103M13.432.5371.5K720p表1.HD-VILA-100 M的统计数据及其与现有视频语言数据集的比较年随着图像语言预训练[19,20,54]和应用[7,12-其中,一些工作集中在特定类型的下游任务,如视频文本检索[3,52]和视频问题回答[57]。在本文中,我们探索在多样化和大规模的数据上预训练一个通用模型,以适应不同的视频语言任务。视频语言预训练任务主要分为两类:重构型任务和对比型任务。重建方法[29,44,45,63]通常采用早期融合架构,旨在在视觉或文本域中重建被掩蔽的部分。典型的预训练任 务 是 掩 蔽 语 言 建 模 ( MLM ) 、 掩 蔽 框 架 建 模(MFM)、框架顺序建模(FOM)。对比方法[35,57]受到对比学习的启发,目标是学习视频-文本匹配。在本文中,我们结合这两类目标的最终目标。3. 数据集为了促进多模态表示学习,我们收集了HD-VILA-100 M,这是一个大规模,高分辨率和多样化的视频语言数据集。3.1. 视频采集我们选择YouTube作为视频资源,因为它涵盖了不同用户上传的不同类别的视频为了涵盖更多主题,我们从YouTube视频的几个官方主题开始。为了确保视频的高质量以及视频和转录的更好对齐,我们在YouTube网站和视频分析网站2上搜索以找到流行的YouTube频道,例如BBC Earth、National Geog-raphy等 。 这 些 频 道 中 的 视 频 和 YouTube-8 M [1] 和 YT-Temporal-180 M [57]中出现的视频构成了1400万个视频的列表。我们只保留带字幕和720p分辨率的视频然后,我们将每个类别的时间长度限制为3万小时,以避免长尾。我们只下载有英文成绩单的视频。最后,我们得到了3.3mil-2https://socialblade.com/youtube/图2.HD-VILA-100 M数据集中的类别分布:(a)录像,(b)录像片段。[Best[彩色]狮子视频总数与高质量和分布在15个类别的平衡(如图2)。3.2. 视频剪辑选择和文本处理为了有效地生成视频-文本对,我们使用trans-mix和视频作为HD-VILA-100 M中的语言。与传统的视频语言数据集[2,53]不同,这些数据集使用手动注释的视频描述,transmittance可以大量使用,并且涉及更丰富的信息。然而,YouTube视频中的许多字幕是由ASR生成的,通常是碎片化的,缺乏标点符号。为了分割完整句子的字幕,我们利用现成的工具3,其在测试集上显示出75.7%的准确率。然后,我们通过使用原始字幕的时间戳,通过动态时间规整将句子与相应的剪辑对齐来制作视频剪辑。经过处理后,HD-VILA-100 M中的每一对由平均约13.4秒的视频剪辑和平均32.5个单词的句子组成3.3. 数据统计HD-VILA-100 M的详细数据统计见表1。与其他视频语言数据集相比,HD-VILA-100 M在时长和字数方面是最大的视频语言数据集。更多的视频表明HD-VILA-100 M包含更丰富的视觉信息,更长的句子意味着语言包含更多的de-3https://github.com/ottokart/punctuator25039VHR−×SIV不{\fn黑体\fs19\bord1\shad1\1cHD8AFAF\4cHC08000\b0}t+kr44HW{∈∈相邻帧和一个混合的Transformer通过自注意学习时空特征的方法HR编码器由4级ResNet Fhr和适配器Dhr组 成。 LR编码器是一个3级ResNet Flr来编码LR帧。请注意,Fhr和Flr是可学习的,以确保HR和LR帧在馈送到混合Transformer之前可以在相同的空间中编码。 我们提取的混合时空特征hy的段si作为输出的Thy。此外,我们使用由F hr的阶段3提取的HR帧特征(表示为F 3)作为T hy的HR输入:s3s图3. HD-VILA的框架。黄色和绿色分别表示HR和LR相关的输入、操作和输出。Hybrid Transformer从HR和LR特征学习时空表示。[Best[彩色]更丰富的语义。 与HowTo100M[37] HD-VILA-100 M仅包含教学视频,HD-VILA-100M来源于广泛的领域,每个类别的视频相对平衡,如图2所示。这个优点可以提高预训练模型的泛化能力此外,HD-VILA-100 M中的所有视频总之,HD-VILA-100 M代表了用于视频和语言学习的最大、高分辨率和多样化的数据集。4. 方法图3示出了由三个部分组成的高分辨率和多维化VIdeo-LA语言(HD-VILA)模型的总体框架:(a)混合视频编码器,(b)语言编码器,以及(c)多模式联合学习。4.1. 混合视频编码器由于我们数据集中的视频片段是长距离的,13.4平均每秒,我们采用从视频剪辑中稀疏采样一系列 片 段 的 策 略 , 然 后 聚 合 它 们 的 预 测 , 类 似 于ClipBERT。作为在第1节中解释过,对于每个片段si,我们在第t个时间步长Xsi∈R3×H×W处随机取一个HR帧,以及2个N个周围LR帧XsiR3× ×,k( N, . - 是的- 是的 、1、1、. - 是的- 是的 ,N)来构建混合图像序列,其中r是LR帧采样率。在图3中,混合视频编码器包括三个部分:用于HR帧的HR编码器、用于LR的LR编码器Vhy= Thy(Flr(Xti Nr),...,(Fhr(Xti)),. ),(1)其中,插值是用于对齐特征尺寸的插值操作在本文中,我们采用了与[4]类似的划分时空注意来编码时空信息我们通过以下方式提取片段si的详细空间特征Vhr作为Ehr的输出Vhr=Dhr(Fhr(Xt)),(2)为了使HR编码器的输出适应混合空间时间特征hy,Dhr由用于调整输出特征通道的卷积层以及用于下采样的2 × 2最大池化层组成。 段特征是通过线性层融合Vhr和Vhy:V=Lvr([Vh r,Vhy])。(三)4.2. 语言编码器与多模态联合嵌入学习对于语言编码器和多模态联合嵌入学习,我们使用自注意来建模单模态和多模态的关系。更具体地说,我们采用了一个24层,1024维的Trans-former,镜像BERT-large并使用预训练的BERT-large参数对其进行初始化我们使用前12层作为纯语言的Transformer,最后 12 层 作 为 多 模 态 的 Transformer 。 纯 视 频 的Transformer提取语言表示,并将其与片段的视频特征连接起来作为多模态Transformer的输入。我们将可学习的1D和2D位置嵌入分别添加到语言和视觉标记中。这种模态无关设计具有两个优点。首先,它能够为下游任务中的单模态输入提供强大的嵌入。例如,视觉感知的仅语言嵌入可以用于语言引导的视频生成任务。第二,在视频语言检索等特定的下游任务中,双流结构将视频和语言之间的相似度的计算效率4.3. 培训前任务我们在HD-VILA中采用两个预训练任务:视频-语言 匹 配 , 以 增 强 跨 模 态 匹 配 和 掩 蔽 语 言 建 模(MLM),以鼓励细粒度的视觉和语言标记之间的映射(a)混合视频编码器视频HRLR(b)语言编码器语言做意大利面需要简单的原料。但是把面粉弄得一团糟的时候很棘手。完整的时间是放在一起为最好的面食。LR编码器单词嵌入HR编码器HR参考混合式Transformer时间注意力BERT-L空间注意X4保险对比(c)多模态联合学习多模态Transformer传销5040BΣBΣBWV.ΣW V×J在馈送到多媒体之前,生成的特征图的大小在我们的数据集中模拟视频剪辑。另外,我们随机方法ACC方法ACC方法行动反式帧ST-VQA [21]30.9CT-SAN [56]66.4ST-VQA [21]60.867.149.3[16]第十六话32.0美国职业棒球大联盟76.1[16]第十六话68.274.351.5AMU [50]32.5JSFusion [55]83.4PSAC [31]70.476.955.7[10]第十话33.0[63]第六十三话85.7HCRN [26]75.081.455.9HCRN [26]35.6[27]第二十七话88.2QuST [22]75.981.059.7[27]第二十七话37.4[52]第五十二话92.1[27]第二十七话82.887.860.3我们40.0我们的97.1我们84.390.060.5(a)MRSVTT-QA测试集。(b)MRSVTT多项选择测试。(c)TGIF-QA测试集。表2. HD-VILA与最先进的视频问答任务方法的比较。(a)ST-VQA和共存储器的结果由[10]实现。(b)CT-SAN和MLB的结果由[55]实施。水平 特别是,由于视频和语言之间的匹配与视频描述数据集相比有些弱,我们应用对比视频语言匹配来利用大数据。对比视频-语言匹配为了对齐视频和语言的特征空间,我们使用对比损失来最大化视频片段和句子的相似性。具体来说,我们将一个批次中的匹配对视为阳性,而所有其他成对组合视为阴性:1倍预期寿命viti/τi=1j=1我J(四)5.1. 培训前详情受“融合前对齐”思想的启发在第一阶段,我们执行对比视频语言匹配任务来学习跨模态对齐。在第二阶段中,MLM任务被执行以促进跨模态理解。对于视频编码器,我们使用ResNet-50用于Fhr和Flr,并使用具有16个头和1024个隐藏大小的4层Transformer用于Thy。我们根据经验将视频剪辑分为两个片段,并为每个片段采样七帧。在这种情况下,两个部分Lv2t=−B日志exp. vt/τ可以覆盖大约6s的视频内容,这足以1Σexp. tivi/τ裁剪中间HR帧的640×1024区域,并选择Lt2v=−B日志exp. tv/τLR相邻帧的对齐的160×256区域的其中vi和tj是大小为B的一批中第i个视频和第j个句子的归一化嵌入,τ是温度。视频和句子的功能计算我们的混合视频编码器和语言编码器。段嵌入的平均值被用作视频级嵌入。Masked Language Modeling我们采用Masked LanguageModeling(MLM)来更好地建立视觉域和语言域之间的映射。MLM的目标是从上下文化的令牌中预测掩码文本令牌的地面真实标签LMLM=−E(W,V)logp wi|(5)哪里表示文本嵌入标记集,表示视觉记号集,并且wi表示掩码记号。(,)是从文本-视频对的分布中采样的。我们采用与BERT中相同的掩码策略,并使用MLP作为MLM头来输出词汇表上的logits我们汇总不同片段的logits以获得共识,以便MLM能够在视频级别计算,因为我们采用了这种方法。5. 实验在本节中,我们进行了大量的实验来评估所提出的HD-VILA预训练模型。timodal Transformer 为 10 16 。 对 于 语 言 , 我 们 遵 循BERT [8]采用WordPiece标记器来分割一个句子,将其转换为最大长度为50的单词标记。在预训练中,我们使用AdamW优化器[34],初始学习率为5e-5,固定权重衰减为1 e-3。我们还采用了一个线性衰减学习率时间表与热身策略。我们在第一阶段使用128个NVIDIA Tesla V100 GPU训练模型,在第二阶段使用32个GPU训练模型。批量大小设置为1024,对比相似度是根据从所有GPU收集的特征计算的。我们训练7个epoch用于第一阶段,4个epoch用于第二阶段。我们在第二阶段冻结编码器,并在两个阶段保持在下游任务中,如果没有另外指定,我们将保持相同的模型配置。我们在预训练期间从我们收集的HD-VILA-100 M中排除下游任务中的YouTube Id。5.2. 视频问答数据集(a)MSRVTT-QA[50]基于MSR-VTT [53]中的视频和字幕创建。 给定一个完整句子中的问题,模型从预定义的集合中选择答案。(b)MSRVTT多项选择测试[55]是一项多项选择任务,以视频作为查询,标题作为答案。每个视频包含五个候选字幕,只有一个正匹配。(c)TGIF-QA[21]是建立在GIF视频上的。我们尝试了三个TGIF-QA任务:B、i=1j=1我5041方法R@1↑R@5↑R@10↑MedR↓HowTo100M [37] 14.9 40.2 52.8 9.0粤ICP备16036888号-1[45]第45话第46话第47话第48话第49话[29] 2016年10月31日[27] 20.0 46.8 59.9 6.0VLM [51] 28.1 55.5 67.4 4.0市场失当行为审裁处[15] 26.6 57.1 69.6 4.0方法R@1↑R@5↑R@10↑MedR↓ HERO [29]2.1 - 11.4-S2VT [47] 11.9 33.6 - 13.0FSE [59] 13.9 36.0 - 11.0CE [32] 16.1 41.1 - 8.3[27] 20.4 48.0 60.8 6.0我们的28.8 57.4 69.1 4.0表4.DiDeMo上文本到视频检索的比较[2]。支持集[39] 30.1 58.5 69.3 3.0视频剪辑[52] 32.2 62.6 75.0-我们的35.6 65.3 78.0 3.0Zero-shotHT MIL-NCE [35] 9.9 24.0 32.4 29.5方法R@1↑R@5↑R@10↑MedR↓[55] 2016年12月25日电话:+86-21 - 6666666传真:+86-21 - 66666666电话:+86-10 - 8888888传真:+86-10 - 88888888我们的14.644.1 15.0表3. MSR-VTT中文本到视频检索的比较[53]。我们灰显一些线条,以突出与传统检索模型和一般预训练模型的公平比较。该标记也适用于表5、6。动作被定义为多项选择任务,用于识别视频中重复的动作。转换的目的是在另一个状态之前或之后识别状态。FrameQA是关于给定视频的开放式问题任务目标与MSRVTT-QA相同。更多细节在补充材料中。对于TGIF Action和Transi- tion,我们分别将五个候选答案与问题连接成五个序列。在问题的[CLS]令牌之上,我们训练一个双层MLP来预测具有交叉熵损失的五个候选者的置信度对于MSRVTT-QA和TGIF帧,我们以one-hot方式对答案进行编码,并在所有答案候选项上训练2层MLP分类器,其中在问题的[CLS]令牌之上对于MSRVTT多项选择,我们直接选择具有最高相似度的答案我们将最大批处理大小设置为在8个V10032G GPU上进行微调更多细节在补充材料中。结果在表2中,HD-VILA对视频QA的结果显示,我们的模型在所有三个数据集中的五个任务上都优于现有方法。在MSRVTT-QA和MSRVTT多项选择测试中,我们比SOTA方法获得了2.6和5.0的在TGIF-QA数据集上,我们在Action,Trans和Frame任务上有1.5,2.2和0.2的绝对改进Frame的增益有限是由于Frame专注于单帧,而阻碍了我们的混合图像序列的优势在所有比较的方法中,ClipBERT [27]和ActBERT [63]是预训练模型。我们可以看到,使用更多数据进行预训练与在图像语言数据集上预先训练的ClipBERT相比,视频提供了更丰富的信息。请注意,ClipBERT预训练中使用的语言在内容和长度上都更接近下游任务,而lan表5.LSMDC上文本到视频检索的比较[41]。方法R@1↑R@5↑R@50↑MedR↓ FSE [59]18.2 44.8 89.1 7.0电话:+86-21 - 6666666传真:+86-21 - 66666666HSE [59] 20.5 49.3[27] 2016 - 06 - 15[15] 28.7 61.4 94.5 3.3支持集[39] 29.2 61.6 94.7 3.0我们的28.5 57.4 94.0 4.0表6.ActivityNet上文本到视频检索的比较[25]。HD-VILA-100 M中的语言与TGIF和MSR-VTT语言存在域差距。这进一步表明了我们的HD-VILA学习的视频表示的5.3. 视频文本检索数据集我们在四个数据集上进行视频文本检索实验。(a)MSR-VTT[53]包含10 K YouTube视频和200 K描述。我们遵循以前的工作[32,55],在9 K视频上训练模 型 , 并 在 1 K-A 测 试 集 上 报 告 结 果 。( b )DiDeMo[2]由10K Flickr视频和40K句子组成。我们遵循[32,59]来评估段落到视频检索,其中视频的所有描述都连接起来形成一个查询。(c)LSMDC[41]由来自202部电影的118,081个视频剪辑组成。每个视频都有一个标题。对来自与训练集和验证集不相交的电影 的 1 , 000 个 视 频 的 测 试 集 进 行 评 估 。 ( d )ActivityNet Captions[25]包含20K YouTube视频,并标注了100K句子。我们遵循段落到视频检索协议[32,59]在10K视频上训练,并在具有4.9K视频的val1集合上报告结果。实现细节我们根据每个数据集视频的平均时间调整采样片段和帧的数量。我们采用第一阶段的模式,并采用相同的培训方法和目标进行微调。我们将每个片段的HR帧调整为720p,LR帧调整为180p。更多细节在补充材料中。结果表3、4、5、6显示了HD-VILA在四个数据集上的文本到视频检索结果。对于MSR-VTT,我们[39]第三十九话8.723.031.131.0MMT [15]12.929.940.119.3视频剪辑[52]10.422.230.0-我们17.434.144.115.05042这个男人有黑色浓密的眉毛和刘海。这个人胖乎乎的,脸颊红扑扑的。×她留着卷发,涂着红色唇膏。这个人留着山羊胡,他在微笑。这个人胖乎乎的,脸颊红扑扑的。这个男人有黑色浓密的眉毛和刘海。输入我们的风格CLIP TediGAN图4. 与StyleCLIP相比,文本引导操作[38] ”[48]《明史》:我们的模型能够更好地处理复杂的描述,并根据目标属性(以红色突出显示)编辑输入。所有输入都是1024×1024大小。在零拍和微调设置方面都大大优于以前的作品。特别是,与VideoCLIP [52]相比,我们在零拍摄设置中的R@1相对增益为40.4%,这表明了我们预训练特征的泛化能力。在LSMDC中,我们进一步获得更大的相对收益,在公平比较下为55.4%。这是因为LSMDC中的电影视频与我们的HD-VILA-100 M COM之间的域差距较小,其中包括两个方面:语义(开放域)和分辨率(高分辨率)。在DiDeMo和ActivityNet上,我们的模型也取得了更好的性能。这两个数据集中的视频在规模和类别上都是多样化的,并且更长。结果表明,我们的模型在HD-VILA-100 M上预训练,具有更长的视频和更丰富的语义,表现出更好的时间理解能力。请注意,还有一些预训练模型是专门为视频-文本检索任务设计的,通过改进噪声对比学习,如SupportSet[39],或者使用除视觉和运动之外的更多特征,如MMT [15]。为了进行公平的比较,我们在表格中将它们灰化。5.4. 文本到视觉生成最近的研究,如StyleCLIP [38]和TediGAN [48],提出利用跨模态预训练能力来促进语言指导的生成任务,并获得了这个人有着金色的头发,拱形的眉毛,鹅蛋脸,红润的 脸颊。她涂口红。她有拱形的眉毛和直发。这个男人有高颧骨,大鼻子,戴着眼镜。那个人有黑色的头发和短胡子。输入我们的pSp SR3图5.与pSp [40]和SR3 [42]相比,文本引导超分辨率。我们的模型能够重建更准确的目标属性与描述(例如。在第三种情况下是眼镜)。所有输入均从16×16上采样至1024×1024。一些有希望的结果。正如他们的工作所示,视觉生成结果的质量可以反映跨模态嵌入的质量。因此,在本节中,我们将详细说明我们的预训练模型如何实现此任务,并通过显示与SOTA模型相比更高质量的可视化结果来验证我们学习的嵌入。数据集为了进行这项研究,我们引入了第一个Face-D描述-Video数据集(FDVD)。该数据集由613个高分辨率(1024 1024)视频组成,产生了74,803帧人脸。这些视频来自Ryerson视听数据集[33]。我们为每个视频生成十个不同的文本描述,然后是大量的作品[48]。为了增加人脸的多样性,我们还利用多模态CelebA-HQ [48]进行培训。实现细节我们遵循以前的工作[38,48],利用预先训练好的StyleGAN [23,58,61]作为我们的生成器,由于其优越的性能。在实践中,我们学习了几个线性层 , 以 将 HD-VILA 中 的 视 觉 和 文 本 嵌 入 映 射 到StyleGAN中使用的潜在代码w+然后,可以通过潜码生成图像。为了确保视觉质量、身份保留以及与生成结果的描述的匹配,我们仔细选择了一组损失进行优化。更多细节在补充材料中.5043××文本到视觉编辑我们将我们的模型与最近最先进的文本引导编辑模型进行了比较,如图4中的Style- CLIP[38]和TediGAN [48]。实验结果表明,该模型能够根据文本描述对输入的目标属性进行编辑。例如,在图4中的第一种情况下,我们的模型将头发变成波浪形头发,并且还在嘴唇上涂口红,而StyleCLIP和TediGAN没有在脸上涂口红。一些视频案例将在补充材料中介绍。我们进一步将我们的模型与SOTA超分辨率方法SR 3[42]和pSp [40]进行比较。 我们生成1024个1024张图片1616 LR对应方。请注意,这项任务非常由于这种低分辨率的输入而具有挑战性。所示图5的第二种情况,SR 3 [42]和pSp [40]不能仅通过使用视觉信息来重建高质量的面部相比之下,我们的模型能够准确地重建口红和直发的帮助下,文本描述,由于预先训练的模型。5.5. 消融研究在本节中,我们进行了消融研究,以进一步验证新的HD-VILA-100 M数据集和拟议的混合视频编码器的有效性。(1) HD-VILA-100 M的多样性。我们从HD-VILA-100M中抽取了两个视频子集,每个子集有两百万个剪辑文本对。一个子集仅包括“HowTo”类型,而另一个子集由从完整数据集中采样的多样化和平衡的分类组成。如表7所示,与具有有限语义的“HowTo”数据集相比我们选择MSR-VTT零镜头检索任务进行这项消融研究,因为它是视频语言预训练中使用最广泛的评估任务。我们还与HowTo100M进行了公平的比较[37]。wehave tried our best to collect HowTo100M at 720p, inwhich 69% videos are originally at 720p, and 31% are at240p (w/o HR source) and upsampled to 720p by applyingthe most commonly used bicubic inter- polation.我们选择MSR-VTT检索,这是用于预训练评估的最广泛使用的基准。我们在表8中报告了比较结果。我们比较了两个数据集上相同步骤(145K)的预训练和相同设置的微调。HD-VILA-100 M预训练模型大幅超越HowTo 100M。这显示了HD-VILA-100 M的优势。(2) HD-VILA-100 M的高分辨率。我们将这样的评价表明了所提出的数据集的多样化类别和更高分辨率的优越性。字体大小R@1↑R@5↑R@10↑MedR↓ HowTo720p 3.3 8.2 13.5113.0表7.对预训练数据的两个子集进行消融研究。我们报告的结果零拍摄MSR-VTT检索。720p* 表示双三次上采样帧(360p至720p)。数据集R@1↑ R@5↑ R@10↑ MedR↓HowTo100M 19.6 49.0 61.96.0我们的30.0 58.1 72.3 4.0表8.使用相同步骤比较MSR-VTT检索的预训练数据集。#HR #LR R@1↑R@5↑R@10↑MedR↓1 0 16.3 40.0 53.3 9.0电话:+86-10 - 8666666传真:+86-10 - 866666661633.064.476.23.011035.665.378.03.011433.764.176.23.0表9.瓣架选择的消融研究。 我们报告MSR-VTT检索的结果,其中#HR/#LR是高/低分辨率帧的数量。(3) HR/LR帧的数量。由于用于视频建模的高/低分辨率帧的数量通常在视频预训练中起关键作用,因此我们在不同的设置下调整帧如表9所示,与仅使用低分辨率输入的设置相比,高分辨率帧导致显著增加。特别地,与0-HR 10-LR(“0”表示移除一个分支)和1-HR0-LR相比,1-HR10-LR的设置实现了最佳性能6. 结论在本文中,我们提出了通过对大规模视频语言对进行预训练来学习高分辨率和多样化的视频语言多模态表示。为了增强预训练的能力,我们引入了一个新的数据集HD-VILA-100 M,这是最大的高分辨率和多样化的视频语言数据集。为了更有效地利用视频中更丰富 的 信 息 ,我 们 提 出 了 一 种 新 的 预训 练 模 型 HD-VILA , 该 模 型 使 用 HR 和 LR 帧 作 为 具 有 混 合Transformer的混合图像序列来学习时空信息。在12个视频语言理解和文本到视觉生成任务上的实验表明了HD-VILA-100 M数据集的能力和我们的模型的有效性。鸣谢我们谨此感谢陈教授的深入讨论、宝贵建议及热心协助。罗杰波教授宋瑞华教授王利民,彭厚文,陈东东。我们360p3.911.018.367.0我们720p*4.513.020.262.0我们720p5.513.120.558.05044引用[1] Sami Abu-El-Haija,Nisarg Kothari,Joonseok Lee,PaulNatsev , George Toderici , Balakrishnan Varadarajan ,and Sudheendra Vijayanarasimhan. Youtube-8 m:一个大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。3[2] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化在ICCV,第5803一、三、六[3] 马克斯·贝恩、阿尔沙· 纳格拉尼、古尔·瓦罗尔和安德烈·齐塞·拉曼。《时间冻结》:用于端到端检索的联合视频和图像编码器。ICCV,2021。第1、3条[4] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部在ICML,2021年7月。二、四[5] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页2[6] Bisheng Chen,Jingdong Wang,Qinghua Huang和TaoMei。基于三方图传播的个性化视频推荐。在ACMMM,第1133-1136页,2012年。1[7] 陈世哲、刘北、付建龙、宋瑞华、秦进、林平平、齐晓宇、王春亭、周进。神经故事板艺术家:用连贯的图像序列可视化故事。在ACM MM中,第2236-2244页,2019年。3[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练在NAACL,第4171-41
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功