没有合适的资源?快使用搜索试试~ 我知道了~
2630HowTo 100 M:通过观看亿级叙事视频片段学习文本-视频嵌入Antoine Miech1,2迪米特里·朱可夫1,2让-巴蒂斯特·阿莱拉克2+马卡兰·塔帕斯维2伊万·拉普捷夫1,2 约瑟夫·西维奇1,2,31E'coleNormaleSupe' rilliant2Inria3CIIRC,CTUhttps://www.di.ens.fr/willow/research/howto100m摘要学习文本视频嵌入通常需要一个视频剪辑的数据集和手动提供的字幕。然而,这样的数据集是昂贵的,并且创建起来耗时,因此难以大规模获得。在这项工作中,我们建议,而不是学习这样的嵌入视频数据与现成的自然语言注释的形式自动转录的叙述。这项工作 的 贡 献 是 三 方 面 的 。 首 先 , 我 们 介 绍 了HowTo100M:一个包含1.36亿个视频片段的大规模数据集,这些视频片段来自1.22 M的叙事指导性网络视频,这些视频描绘了人类执行和描述超过23k个不同的视觉任务。我们的数据收集过程是快速的,可扩展的,不需要任何额外的手动注释。其次,我们证明了在此数据上训练的文本视频嵌入可以在YouCook2或CrossTask等教学视频数据集上获得最先进的文本到视频检索和动作本地化结果。最后,我们证明了这种嵌入可以很好地转移到其他领域:对通用Youtube视频(MSR-VTT数据集)和电影(LSMDC数据集)的微调优于仅在这些数据集上训练的模型。我们的数据集、代码和模型都是公开的[1]。1. 介绍使用语言交流视觉世界是人类作为智能生物的一项关键能力。一个三岁的孩子可以操纵物体,观察自己的行为,并用语言向他人描述;而成年人可以通过阅读书籍或观看视频来学习新技能。视频和语言之间的相互作用*同等缴款。+现在在DeepMind。1De′ partement3捷克信息学、机器人学和控制论研究所布拉格捷克技术大学图1:我们通过观看数百万人执行不同视觉任务的叙事视频片段来学习联合文本视频嵌入学习的嵌入很好地转移到其他教学和非教学文本视频数据集。自然倾向于人工代理,需要了解视觉世界并与人交流。仍然代表当前人工系统的重大挑战的任务的示例包括文本到视频检索[25,32,54,55,63],基于文本的动作或事件记录,calization [15],视频字幕[36,61]和视频问题回答[51,63]。然而,在这些问题上的进展是重要的主机的应用程序,从搜索视频档案,人机通信。用语言描述的视觉概念建模的一种常见方法是学习文本和视频到共享嵌入空间的映射,其中相关的文本片段和视频片段彼此接近[15,32,37,38,59]。学习一个好的表示通常需要大量成对的视频剪辑和文本字幕。事实上,考虑到视频场景及其文本描述的巨大可变性,学习通用嵌入空间可能需要数百万配对的视频剪辑和文本字幕。然而,前数据集(例如,[15]第五十八话,我是你的女人2631厨房[7]),是成千上万的规模,这样的对已被手动注释手动收集这些数据集是昂贵的,难以扩展。这也是主观的,因为视频注释通常是一个定义不清的任务,注释者一致性低[58]。在这项工作中,我们探索了不同的监督来源我们观察到,叙述教学视频可在大量(例如,在YouTube上),并提供大量的视觉和语言数据。特别是,教学视频[2,30,68]通常包含带有解释屏幕上视觉内容的明确意图的叙述为了利用这一丰富的数据来源,我们收集了一个新的大规模数据集,其中包含来自122万段讲解教学视频,描述了人类执行23,000多项不同任务的情况。每个剪辑都以自动转录的叙述形式与文本注释捐款. 这项工作的贡献是三方面的.首先,我们收集了一个新的闭路字幕视频片段数据集HowTo100M,它比任何其他现有的视频文本数据集都大几个数量级(第3节)。其次,我们表明,这些数据可以用来学习强大的 视 频 语 言 表 示 。 我 们 的 模 型 ( 第 4 节 ) 在HowTo100M 上 训 练 , 在 教 学 视 频 的 前 数 据 集YouCook2 [67]和CrossTask [68]上为基于文本的动作定位和文本到视频检索设置了新的最先进技术最后,我们探索了在我们的数据上训练的模型转移到非教学视频的能力。特别是,我们证明了在HowTo 100 M上预训 练 的 模 型 可 以 通 过 在 MSR-VTT 数 据 集 ( 通 用Youtube视频)和LSMDC数据集(电影)上进行微调来成功传输。2. 相关工作大量的计算机视觉应用依赖于对视觉和文本线索的联合理解。这些应用包括自动图像和视频字幕[20,36,60,61]、视觉问答[9,29,51,63]、基于文本查询的视觉内容检索[32,56,63]、使用自然语言[15,26]或使用自然语言[38]的视频摘要对视频中的事件进行时间定位视觉、语言和言语。建模视觉和语言的一种常见方法是学习一个联合嵌入空间,当且仅当视觉和文本提示在语义上相似时,它们才相邻[6,8,10,11,25,32,35,37,38、59、54、55、57]。这些作品中的大多数依赖于中等规模的良好注释的数据集,其中为每个视频片段收集描述性字幕。 这个过程代价高昂因为它需要相当大的人工注释努力,数据集剪辑字幕视频 持续时间源年[第48话]10k16k10,00082h家2016[第58话]10k200k7,18040h YouTube2016YouCook2 [67]14k14k2,000176小时 YouTube2018EPIC厨房[7]40k40k43255h家2018DiDeMo [15]27k41k10,46487hFlickr 2017M-VAD [52]49k56k9284h电影2015MPII-MD [43]69k68k9441h电影2015[26]第二十六话100k100k20,000849小时 YouTube2017TGIF [27]102k126k 102,068103hTumblr 2016LSMDC [44]128k128k200150h电影2017[45]第四十五话185k185k13,168298小时 YouTube2018100M136M136M 1.221M134 472hYouTube2019表1:现有视频描述数据集的比较。我们新的HowTo100M数据集的大小绕过了三个数量级的最大可用数据集M表示百万,K表示千。这些数据集很难扩展(见表1)。在这项工作中,我们训练一个联合的视频和语言模型,没有一个单一的手动注释的视频描述,利用自动转录的叙述视频。使用来自叙述视频的口语文本来监督视觉模型最近引起了一些兴趣[2,5,13,30,45,62]。Harwath等人[13]利用原始语音波形来监督视觉模型,然而,他们的方法不成比例,因为注释者被支付记录数千个图像的音频描述的费用。Chen等人[5]使用纪录片的字幕来自动获取对象标签,但他们的重点是学习对象检测器,而不是文本视频嵌入,他们的数据集只包含9部纪录片电影,与这项工作中考虑的大约15年的视频内容相同。从教学视频中学习。 教学视频在复杂任务的学习步骤[2,16,41,42,46,68],视觉语言参考分辨率[17,18],长未修剪视频中的动作分割[66]以及对象状态和动作的联合学习[3]的背景下越来越受欢迎。与我们的工作相关,[2,30,62]还考虑自动生成的叙述指导视频的转录作为监督的来源。然而,与我们的工作相反,这些作品通常只从transmitting中提取少量预定义的标签。在过去的几年里,提出了许多网络教学视频数据集[2,30,45,47,50,67,68]。在第一批收获教学视频,塞纳等人。[47]使用WikiHow,一个关于如何做文章的百科全书,收集17个流行的物理任务,并通过在YouTube上查询这些任务来获得视频。类似地,COIN[50] 和 CrossTask [68] 数 据 集 的 收 集 首 先 通 过 在WikiHow上搜索任务,然后在YouTube上搜索每个任务的视频。我们使用相同的方法收集HowTo100M。我们的数据集和以前的努力之间的主要区别是前所未有的规模,无论是在品种(来自12个不同领域的23,000多个任务)和大小(来自120万个指令的1.36亿个剪辑)2632图2:在我们的联合嵌入的帮助下检索的剪辑标题对的示例根据视觉外观和相应叙述之间的相似性来选择配对例子取自4个不同的集群,对应于针织,木工/测量,烹饪/调味和电气维修。视频)。用于模型预训练的大规模数据。使用来自网络的大规模和潜在的噪声数据是预训练语言和视觉模型的一个令人兴奋的前景。在自然语言处理中,BERT [19],GPT [39]和GPT-2 [40]是在大规模数据上训练的语言模型 的 例 子 事 实 上 , 在 Reddit 的 40 GB 文 本 数 据 集WebText [40]上训练GPT-2即使在零拍摄设置下也达到了最先进的水平。在视觉中,[28,49]探索使用图像元数据(如Instagram主题标签)来预训练图像分类器。我们受到这些作品的启发,并将我们的努力集中在学习一个强有力的嵌入式联合理解上。视频和语言。我们证明,我们的视频语言嵌入从数以百万计的YouTube视频学习,不仅优于以前的工作有关的任务,教学视频没有微调,但也推广到非教学视频与一些微调。我们发布了我们的数据集、特征提取管道和模型参数,作为视频和语言社区可以构建的资源。3. HowTo100M数据集我们收集了一个新的叙事视频数据集,其中包括内容创建者教授复杂任务的教学视频。这确保了大多数叙述描述了观察到的视觉内容。HowTo100 M拥有来自YouTube的122万个视频,活动来自烹饪,手工制作,个人护理,园艺等领域。每个视频都与一个叙述相关联,3.1. 数据收集视觉任务。为了获得描述如何执行某些活动的教学视频,我们首先使用WikiHow 1获取大量活动列表-这是一个在线资源,包含120,000篇关于如何执行某些活动的文章。用于从烹饪到以层级结构构成的人际关系的各种领域我们主要对“视觉任务”感兴趣制作花生酱,修剪一棵树)相比,其他更抽象的(如。结束一段有毒的关系,选择一份礼物)。为了获得优势视觉任务,我们将其限制为12个类别之一(见表2)。我们排除了诸如关系、金融和商业等可能更抽象的类别我们通过以半自动的方式过滤它们来进一步细化任务集。特别是,我们将主要动词限制在物理行为上,如制造,建造和改变,并放弃非物理动词,如be,接受和感受。这个过程总共产生了23,611个视觉任务。教学视频。我们搜索与任务相关的YouTube视频,方法是形成一个查询,其中包含如何在任务名称之前(例如,如何油漆家具)。我们选择有英文字幕的视频-无论是手动上传,由YouTube ASR自动生成,还是由YouTube API从不同语言翻译后自动生成。我们通过采用以下标准来提高数据集的质量和一致性。我们限制到前200个搜索结果,因为后面的搜索结果可能与查询任务无关。观看次数少于100次的视频将被删除因为它们通常质量很差或者是业余的。我们也手动编写或输出的字幕自动语音识别(ASR)系统。1https://www.wikihow.com2633i=11 1 2 1 12类别任务视频剪辑食品和娱乐11504497k54.4M家庭和花园5068270k29.5M业余爱好和手工艺4273251k29.8M汽车其他车辆81068k7.8M宠物和动物55231k3.5M节日与传统41127k3.0M个人护理和风格18116k1.6M运动健身20516k2.0M健康17215k1.7M教育和宣传23915k1.6M艺术和娱乐13810k1.2M电脑和电子产品585k0.6M总23.6k 1.22M 136.6M表2:每个类别中的任务、视频和剪辑的数量忽略少于100个单词的视频,因为这可能不足以学习良好的视频语言嵌入。最后,我们删除超过2,000秒的视频。由于某些视频可能会出现在多个任务中,因此我们会根据YouTube ID对视频进行重复数据删除。但是,请注意,如果视频上传多次或编辑并重新上传,则数据集可能仍然包含重复内容。当然,这不是我们规模的问题。3.2. 成对的视频剪辑和字幕字幕通常被组织为文本块(行)的列表,并且不需要形成完整的句子。每一行都与视频中的时间间隔相关联,通常是说出行的持续时间。我们选择字幕的每一行作为标题,并将其与对应于该行的时间间隔的视频剪辑配对。我们在图2中展示了剪辑-标题对中的一些示例。与其他具有剪辑字幕对的数据集不同(例如,MSR-VTT),我们的字幕不是手动注释的,而是通过旁白自动获得的。因此,在本发明中,egories及其子类别以及我们数据集中所选任务和相应视频的数量。我们在表1中比较了现有剪辑-标题配对数据集的大小。HowTo100M比现有数据集大几个数量级然而,与以前的数据集不同,HowTo100M没有干净的注释帽。由于视频包含复杂的活动,它们相对较长,平均持续时间为6.5分钟。平均而言,一个视频产生110个剪辑字幕对,每个剪辑平均持续时间为4秒,每个字幕4个单词(不包括停止词)关于更多细节,我们在附录A [33]中显示了名词和动词的分布我们的数据收集过程假设在YouTube上使用如何查询进行搜索将导致主要是教学视频。我们通过随机选择100个视频并标记其类型来验证这一点。71%的视频是教学视频,12%是视频博客,另外7%是产品评论或广告。请注意,视频博客、评论和广告也可能包含视觉内容和叙述之间的对应关系。特别是,我们注意到屏幕上显示的对象经常在叙述中提到。我们不丢弃这种非教学视频,因为它们仍然可以用于学习联合嵌入。4. 文本-视频联合嵌入模型我们现在提出我们的模型,从我们数据集中自动配对的视频剪辑和字幕中学习联合文本-视频嵌入更正式地,我们被给予一组n个视频剪辑和相关联的字幕{(Vi,Ci)}n。我们用v∈Rdv和c∈Rdc分别表示视频剪辑V和字幕C的dv和dc维特征表示鉴于此,我们的目标是学习两个映射函数:f:RdV→Rd和g:Rdc→Rd分别将视频和字幕特征嵌入到一个共同的d维空间中,使得余弦相似度它们可以被认为是弱配对的。不连贯的典型例子包括内容制作者询问视图-s(V,C)=f(v),g(c)(c)2002年(一)订阅他们的频道,谈论一些与视频无关,或者描述发生之前或之后的事情。此外,我们的字幕经常是不完整的,缺乏标点符号,或者是语法错误的句子,因为它们来自连续的叙述和10个ASR。我们已经手动检查了400个随机抽样的sam-当字幕C描述视频剪辑V时为高,否则为低。在这项工作中,我们使用[32]中使用的非线性嵌入函数类,由下式给出:f(v)=(Wvv+bv)<$σ(Wv(Wvv+bv)+bv)(2)1 1 2 1 1 2pledclip-caption对,发现在51%,至少有一个标题中提到的物体或动作在视觉上是可见的,g(c)=(Wcc+bc)<$σ(Wc(Wcc+bc)+bc),(3)视频剪辑。其中Wv∈ Rd×dv,Wc∈ Rd×dc,Wv,Wc∈Rd×d,1 1 2 2统计 视觉任务的初始集合通过以下方式获得:bv,bc,bv,bc∈Rd是可学习的参数,σ是112 212个WikiHow分类表2显示了数字。收集的WikiHow任务以及每个类别的相应视频和剪辑的数量。在附录A [33]中,我们展示了WikiHow层次结构的前两个级别:十二猫--2634元素方面的sigmoid激活,而sigmoid是元素方面的Hadamard 乘积(Hadamard Product )在实践中,dv=4096,dc=4096,d=4096,导致由67M个参数组成的模型。注意,2635等式(2)和(3)中的右侧是线性全连接层,第二项对应于输出范围在0和1之间的上下文选通函数[31因此,该嵌入函数可以对输入特征向量的维度之间的非线性乘法相互作用进行建模,这在其他文本视频嵌入应用中已被证明是有效的[32]。损失我们使用最大边际排名损失训练我们的嵌入模型[21,32,54,55,64]。在我们的训练算法的每次迭代中,我们对一个小批次进行采样B={i1,...,ib}{1,. . . ,n}的字幕剪辑训练对(Vi,Ci)i∈B,并以以下损失的梯度步长更新模型参数:Σ Σmax(0,δ+si,j−si,i)+ max(0,δ+sj,i−si,i),i∈Bj∈N(i)其中si,j=s(Vi,Cj)是视频剪辑Vi和字幕Cj之间的相似性得分(1),N(i)是字幕剪辑i的负对的集合,并且δ是余量。等式(B)中的第一项对应于在对负面字幕进行采样时的排名损失,而第二项对应于对负面视频剪辑进行采样。我们固定δ=0。1在实践中我们的模型参数使用Adam [23]更新,学习率为10−4。损失的实施细节见附录B [33]。抽样策略。类似于[15],我们应用视频内负采样策略来定义N(i)。 我们在5.3节中展示了这种方法对于良好的性能至关重要。 更准确地说,我们的负对中有一半{(Vi,Cj):i/=j},使得视频剪辑Vi和字幕Cj属于相同的原始YouTube视频(如(Vi,Ci)),而另一半是从其他YouTube视频采样的。我们应用内负采样来确保学习的嵌入集中在视频剪辑的相关方面(例如,人的手显示如何揉面团),而不是无关的背景fea-tures(例如,厨房)。在附录C [33]中,我们还提供了对正对抽样策略的实证分析我们表明,即使训练数据是嘈杂的,我们的尝试,在训练过程中自动选择正确的积极对没有产生改善。我们认为这可能是由于我们的模型很浅,并且是在大量数据上训练的。剪辑和标题表示。剪辑特征v由时间上最大池化的预提取CNN特征组成字幕特征c是在预先计算的单词嵌入之上的浅1D-CNN的输出更多细节在第5.1节中。5. 实验在本节中,我们将演示视频和文本的强大联合表示可以从我们的阴性采样M(R@10)L(R@10)Y(R@10)C(AVG Recall)无内阴性30. 112. 3 18. 1 25. 7内负29.614.0 24.8 33.6表3:训练期间视频内负对的影响。M:MSR-VTT,L:LSMDC,Y:YouCook2,C:CrossTask。HowTo100M数据集我们提供了各种领域的实验结果,从CrossTask中的教学视频[68],YouCook 2中的烹饪视频 [67] , MSR-VTT 中 的 通 用 YouTube 视 频 [58] 到LSMDC中的电影视频剪辑[44]。具体来说,我们评估了我们在CrossTask [68]的教学视频中本地化步骤的任务以及YouCook 2 [67],MSR-VTT [58]和LSMDC [44]数据集上基于文本的视频检索的学习嵌入。我们的主要调查结果如下:(i)对于教学视频数据集 , 如 CrossTask [68] 和 YouCook2 [67] , 我 们 在HowTo100M上训练的现成嵌入显著优于在更小和手动注释 的 数 据 集 上 训 练 的 最 先 进 模 型 。 ( ii) 在 通 用YouTube视频(MSR-VTT [58])上,我们的HowTo100 M嵌入式提供了与MSR-VTT上训练的最先进方法相媲美的具有竞争力的检索性能。此外,我们表明,在MSR-VTT中仅五分之一的注释视频上微调我们的预训练嵌入模型的性能优于最先进的技术。(iii)我们表明,微调我们在LSMDC上的嵌入,使泛化到电影视频和脚本,尽管有很大的域差距。(iv)最后,我们展示了HowTo 100 M中规模的重要性,以学习更好的联合视频-文本嵌入。5.1. 实现细节视频功能。我们使用预训练的2D和3D CNN提取帧级和视频级特征。使用ImageNet预训练的Resnet-152 [14]以每秒一帧的速率提取2D特征。使用Kinetics [4]预训练的ResNeXt-101 16帧模型[12]提取3D特征,以每秒获得1.5个特征。我们通过时间最大池化从较长的视频片段中聚集特征,并将2D和3D特征连接起来,为每个视频片段形成一个4096维向量。文本预处理。我们通过丢弃常见的英语停止词来预处理 转 录 的 视 频 叙 事 。 对 于 单 词 表 示 , 我 们 使 用GoogleNews预训练的word2vec嵌入模型[34]。训练时间。一旦提取了视频和文本特征,在完整的HowTo100M数据集上训练我们的嵌入模型相对较快,在单个Tesla P100 GPU上只需不到三天的时间。5.2. 数据集和评估设置动作步骤定位。我们在最近的CrossTask上评估了教学视频中动作步骤2636数据集[68]。CrossTask包括18个任务和2.7k个带有手动注释动作片段的说明视频。每个视频可以包含对应于不同动作的多个片段。它还为每个任务提供了一个操作步骤的有序列表,并带有简短的自然语言描述。我们将仅在HowTo100M上训练的模型应用于步骤定位问题,通过计算视频中的每一帧与CrossTask的动作标签名称之间的相似性为了与[68]进行比较,我们遵循类似的推理过程。我们使用与[68]中相同的召回度量,它由落入正确的地面真值区间的步骤分配数量定义,除以视频中的步骤总数。来自CrossTask测试集的视频从HowTo100M训练集中删除,以确保它们在训练时不会被观察到。基于文本的视频检索。我们还评估了我们的学习嵌入视频剪辑检索使用自然语言查询的任务。给定一个文本描述,目标是从一个大的视频库中检索有代表性的视频片段,视频.我们使用标准召回度量R@1,R@5,R@10和中位数秩(中位数R)来评估我们学习的嵌入。我们提供了以下领域特定的视频描述数据集的实验结果YouCook2是一个从YouTube上收集的烹饪视频数据集。它包含89种不同的食谱和14k视频剪辑,所有这些都带有从付费人类工人那里收集的文本描述。由于没有描述是亲-对于测试集剪辑,我们在验证剪辑(总共3.5k)上评估YouCook2剪辑检索任务。请注意,我们已经注意删除了HowTo100M中也存在的几个验证MSR-VTT[58]是从257个流行视频查询中收集的通用视频数据集,描述了20个类别(包括音乐,体育,电影等)。来自YouTube它能-包含200 k唯一的视频剪辑-标题对,所有这些都由付费的人工注释。我们在[63]中使用的MSR-VTT剪辑检索测试集上评估了我们的模型,因为报告了其他几种方法的性能。LSMDC[44]是电影剪辑的数据集它具有101k独特的视频剪辑字幕对。所有剪辑都与来自电影脚本或音频描述。我们在包含1000 个视频字幕对的官方LSMDC测试集2上评估我们的模型HowTo100M培训视频数量图3:改变HowTo100M数据集的训练大小时的检索和步骤本地化结果。CrossTask 是 比 MSR 更 细 粒 度 的 数 据 集 - VTT 和LSMDC。在本文的其余部分,我们使用我们的模型报告了使用内部负采样策略训练的数字。5.4. 规模很重要一个自然的问题是,我们的大规模数据集是否真的需要实现高性能。为了回答这个问题,我们在数据集的较小子集上训练嵌入模型。这些较小的HowTo100M子集是通过逐渐降低允许的Youtube搜索排名创建的(有关更多详细信息,请参见第3.1节中关于数据收集的段落)。我们使用以下等级阈值进行实验:前2名(15k视频)、前3名(28k视频)、前5名(52k视频)、前10名(104k视频)、前20名(197k视频)、前40名(364k视频)、前80名(648k视频)和前200名(整个HowTo100M数据集)。这个过程确保我们对训练视频进行子采样,这些视频更有可能与查询任务相关,因为我们减少了训练数据集的大小。图3显示了当改变训练数据集的大小时,CrossTask上的平均重新调用以及LSMDC、MSR-VTT和YouCook 2上的R@10剪辑检索结果。随着训练数据量的逐渐增加,所有评估的任务都有明显的改善。有趣的是,我们没有观察到任何饱和,因此我们可以通过收集更容易获得和未标记的视频数据来期待进一步的改进5.5. 与最新技术水平的比较5.3.负对抽样策略我们首先研究了在训练我们的嵌入时,对负面字幕视频片段对进行采样的替代策略的效果表3显示,与从其他YouTube视频中随机抽样相比,使用来自同一视频 的 底 片 ( 内 部 底 片 ) 是 有 益 的 。 这 一 改 进 在YouCook2上尤为显著,2https://sites.google.com/site/描述电影/lsmdc-2016/电影检索CrossTask。我们将我们在HowTo100M上训练的现成嵌入与Alayrac等人提出的方法进行比较。[2] Zhukovetal.[68]这是当前针对弱监督方法的CrossTask的最新技术。注意,Zhukovet al.[68]可以访问任务级别的操作标签的有序列表,并且叙述是培训期间唯一的监督形式。我们还报告了[68]中的完全监督上限,该上限是用一个模型获得的,该模型是在具有地面实况注释的动作片段上训练的结果示于表4中。我们的ap-2637做泡菜饭泡椒黄瓜制作香蕉冰淇淋烧烤牛排千斤顶车制作果冻更换轮胎做柠檬水给汽车制作拿铁构建工具架做玉米卷沙拉法式吐司使爱尔兰咖啡制作草莓蛋糕做煎饼制作蛋白酥皮使鱼肉咖喱平均完全监督的上限[68]19.125.3 38.0 37.5 25.7 28.2 54.3 25.8 18.3 31.2 47.7 12.0 39.5 23.4 30.9 41.1 53.4 17.331.6Alayrac等人[二]《中国日报》15.610.67.5 14.2 9.3 11.8 17.3 13.1 6.4 12.9 27.2 9.2 15.7 8.6 16.3 13.0 23.2 7.413.3Zhukov等人[68个]13.318.0 23.4 23.1 16.9 16.5 30.7 21.6 4.6 19.5 35.3 10.0 32.3 13.8 29.5 37.643.0 13.322.4我们的人只在HowTo100M上训练过33.527.1 36.6 37.9 24.1 35.6 32.7 35.1 30.7 28.5 43.2 19.8 34.7 33.6 40.4 41.641.927.433.6表4:CrossTask [68]教学视频数据集上的步骤定位结果方法Trainset R@1 R@5 R@10 Median R方法Trainset R@1 R@5 R@10 Median R随机没有一0.030.150.31675随机没有一0.10.51.0500[25]第二十五话YouCook24.614.321.675C+LSTM+SA+FC7 [53]MSR-VTT4.212.919.955我们的YouCook24.2十三点七21.5 65我们的HowTo100M6.1十七点三24.8 46我们我们的PT:HowTo100MFT:MSR-VTT14.9 40.252.8 9即使Proach不是专门为视频中的步骤定位的任务而设计的,它也明显优于现有技术。我们的方法所做的改进在所有任务中都是一致的(除了制作蛋白酥皮),这表明训练的模型不会偏向任何特定的领域。大多数任务的召回率都在30%以上请注意,我们的方法平均也优于完全监督的上限[68]。因此,我们得出结论,在大量的叙述视频上训练比在一个小但仔细注释的训练集上训练一个步骤定位模型更好。YouCook2[67]没有提供官方基准,也没有任何报告的剪辑检索数量。作为一个结果,我们已经应用了一个国家的最先进的文本视频嵌入模型从克莱因等人。[25](HGLMM FV CCA)在YouCook2上使用我们的功能 。 我 们 还 在 表 5 中 报 告 了 在 YouCook2 而 不 是HowTo100M上训练的模型的结果。首先,我们注意到我们在HowTo100M上训练的现成模型明显优于直接在YouCook2和[25]上训练的完全相同的模型。此外,在YouCook2上对我们在HowTo100M上预训练的模型进行微调,结果R@10比[25]显著总之,我们证明了现成的HowTo100M训练模型在这个特定领域的教学视频数据集上的表现优于最先进的模型。此外,我们证明了我们的模型可以从微调中获得进一步的好处。MSR-VTT。我们比较我们模型培训( i ) 仅 HowTo 100 M , ( ii ) 仅 MSR-VTT , 以 及(iii)在HowTo 100 M上进行预训练,然后在MSR-VTT表6:MSR-VTT结扎夹回收结果。PT表示:预先训练,而FT表示:微调。与表6中直接使用MSR-VTT进行培训的先前工作(在[63]中重现)进行对比。我们的现成HowTo 100 M模型优于直接在MSR-VTT上训练的[22,24,53,64,65]。在这里,在MSR-VTT上微调HowTo 100 M预训练模型后,我们观察到比在MSR-VTT上训练的最先进的JSFusion [63]有显著的改进。然而,与教学视频(CrossTask)和烹饪视频(YouCook 2)相反,在MSR-VTT上直接训练我们的模型比在HowTo 100 M上训 练 的 现 成 模 型 表 现 更 好 。 我 们 认 为 这 是 由 于MSR-VTT视频是通用的Youtube视频,不同于主导HowTo 100 M的教学或视频类型。在图4中,我们还研究了微调预训练模型时不同监督量对性能的影响。它表明,仅用20%的MSR-VTT样品就可以达到最先进的性能[63]这具有很大的实际意义,因为使用显著减少的注释可以获得相当的性能。LSMDC。最后,我们在表7中比较了LSMDC的最新技术水平。这个数据集甚至更加令人困惑,因为电影剪辑与HowTo100M视频截然不同。我们与[63]中复制的其他几个先前的作品进行了比较,并直接在LSMDC上进行了训练。在这里,我们再次看到,在HowTo100M上预训练我们的模型并在LSMDC上对其进行微调,也提供了对直接在LSMDC上训练的模型的PT:HowTo100M考夫曼等人[22日]MSR-VTT4.716.624.141FT:YouCook28.224.535.324CT-SAN [65]MSR-VTT4.416.622.335JSFusion [63]MSR-VTT10.231.243.213表5:YouCook2剪辑检索结果。PT表示:预先培训,我们100M7.521.229.638而FT表示:微调。我们MSR-VTT12.135.048.012VSE-LSTM [24]MSR-VTT3.812.717.166SNUVL [64]MSR-VTT3.515.923.8442638方法Trainset R@1 R@5 R@10 Median R随机没有一0.10.51.0500C+LSTM+SA+FC7 [53]LSMDC4.312.618.998VSE-LSTM [24]LSMDC3.110.416.579SNUVL [64]LSMDC3.614.723.950考夫曼等人[22日]LSMDC4.715.923.464CT-SAN [65]LSMDC4.514.120.967JSFusion [63]LSMDC9.121.234.136我们100M4.09.814.0137我们LSMDC7.218.325.044我们的PT:HowTo100MFT:LSMDC7.119.627.940表7:LSMDC结扎夹回收结果。PT表示:预先训练,而FT表示:微调。图4:对HowTo 100 M预训练模型进行微调的评估,其中MSR-VTT监督的数量不同,用于文本到视频剪辑检索。LSMDC YouCook2MSR-VTT图5:不同数据集上预训练模型的剪辑检索结果对LSMDC、YouCook 2和MSR-VTT的评估这一发现很有趣,表明HowTo100M预训练模型在对来自不同领域的视频进行微调时仍然有用。5.6. 跨数据集微调评估在本节中,我们评估了HowTo100M在预训练方面与其他较小数据集上的预训练相比的优势。图5显示了在YouCook 2、MSR-VTT和LSMDC剪辑检索(R@10)上使用无预训练(无PT)的评估,以及在YouCook2、MSR-VTT、LSMDC和HowTo 100 M数据集上使用预训练同时微调到目标数据集的评估。对于所有评估的 数 据 集 , 在 对 目 标 数 据 集 进 行 微 调 之 前 , 在HowTo100M上进行预训练始终会产生最佳结果。图6:使用我们训练的联合嵌入的HowTo100M上的示例视频剪辑检索结果5.7. 定性结果图6展示了使用我们训练的联合文本-视频嵌入从HowTo 100 M检索的视频剪辑的示例。例如,我们学习的表示可以正确区分查询Cut paper和Cut wood。该检索系统的演示可在线获得[1]。6. 结论我们已经介绍了HowTo100M,这是一个视频数据集,包含超过1.3亿个视频片段,从120万个执行复杂视觉任务的人的叙事网络视频中我们的数据收集方法快速,可扩展,不需要任何手动注释。我们使用这个数据集来学习联合文本视频嵌入,利用超过1.3亿的视频剪辑字幕对。我们已经通过各种实验表明,我们学习的嵌入可以更好地与在现有仔细注释但较小的视频描述数据集上训练的模型进行比较。数据集,预训练模型和代码可在[1]中获得。鸣谢。该项目得到了Antoine Miech Google PhD奖学金、MSR-Inria联合实验室、Louis Vuitton-ENS人工智能主席,ERC授予LEAP(第336845),CIFAR机器大脑学习&计划,以 及 IMPACT 项 目 下 的 欧 洲 区 域 发 展 基 金 ( reg. CZ.02.1.01/0.0/0.0/15003/0000468)。R@102639引用[1] 项目网页。https://www.di.ens.fr/willow/research/howto100m/,2019年。1、8[2] Jean-Baptiste Alayrac , Piotr Bojanowski , NishantAgrawal,Ivan Laptev,Josef Sivic,and Simon Lacoste-Julien. 从 叙 述 式 教 学 视 频 中 进 行 非 监 督 式 学 习 在CVPR,2016年。二六七[3] Jean-Baptiste Alayrac , Josef Sivic , Ivan Laptev , andSimon Lacoste-Julien.对象状态和操作动作的联合发现。InICCV,2017. 2[4] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。5[5] Kai Chen,Hang Song,Chen Change Loy,and DahuaLin.从纪录片中发现和学习新的对象。在CVPR,2017年。2[6] 米森·乔杜里,潘达·拉米斯瓦,埃万杰洛斯·帕帕莱克斯-阿基斯,阿米特·罗伊·乔杜里。用于跨模态图像-文本检索的网络监督联合ACM国际多媒体会议,2018年。2[7] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.扩展以自我为中心的愿景:epic-kitchens数据集。在ECCV,2018。2[8] Jianfeng Dong,Xirong Li,Chaoxi Xu,Shouling Ji,Yuan He,Gang Yang,and Xun Wang.用于零示例视频检索的双重编码在CVPR,2019年。2[9] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功