没有合适的资源?快使用搜索试试~ 我知道了~
视频诱导视觉不变性:一个通用的转移学习框架
13806视频诱导视觉不变性Michael Tschannen Josip Djolonga Marvin Ritter Aravindh Mahendran NeilHoulsby Sylvain Gelly Mario LucicGoogle Research,Brain Team摘要我们提出了一个通用的框架,可转移的视觉表示的视频诱导的视觉不变性(VIVI)的基础上的自监督学习。我们考虑视频中存在的隐式层次结构,并利用(i)帧级不变性(例如,对颜色和对比度扰动的稳定性),(ii)拍摄/剪辑级不变性(例如,对对象取向和照明条件的变化的鲁棒性),以及(iii)视频级不变性(镜头/剪辑之间的场景的语义关系),以定义整体自监督损失。在YouTube-8 M(YT 8 M)数据集的视频上使用所提出的框架的不同变体训练模型,我们在视觉任务适应基准(VTAB)的19个不同下游任务上获得了最先进的自监督迁移学习结果,每个任务仅使用1000个标签然后我们展示如何进行联合训练我们的模型与标记图像联合使用,在标记图像减少10倍的情况下,比ImageNet预训练的ResNet-50的性能高出0.8个点,并且使用完整的ImageNet数据集,比之前的最佳监督模型高出3.7个点。1. 介绍监督式深度学习需要收集和手动注释大量数据,这通常是昂贵的,难以扩展,并且可能需要领域经验(例如,在医疗数据的背景下)。因此,昂贵的数据注释是一个瓶颈,阻碍了深度学习方法应用于各种先前未充分探索的问题。学习可转移的视觉表示,即通过在一个任务(或任务集合)上训练模型获得的表示,然后可以使用很少的样本适应多个看不见的下游任务,因此是一个关键的研究挑战[69]。一个新兴的机构的工作的基础上自我监督已经证明,这是可能的学习这种可转移的视觉表示。这个想法是仔细构建一个借口任务,它不依赖于手动注释,但鼓励模型从内部提取有用的特征方法MEANNAT。SPEC。STR.前ImageNet59.550.581.456.4VIVI-EX(4)62.5 (+3.0)55.980.959.1VIVI-EX(4)-大63.3 (+3.8)57.581.059.5[69]第六十九话65.370.281.952.7VIVI-Ex(4)-Co(10%)67.2 (+1.9)63.382.662.9[69]第六十九话66.473.582.552.1[69]第六十九话68.0 (+1.6)73.683.155.5VIVI-Ex(4)-Co(100%)69.4 (+3.0)69.983.362.1VIVI-Ex(4)-Co(100%)-大71.7 (+5.3)72.584.364.7表1:在VTAB基准[69]1的 19个不同下游任务(基于NAT ural、SPEC化、STR结构化数据集)上微调的模型的平均测试准确度和每个类别的平均准确度,每个任务仅使用1000所提出的无监督模型(VIVI-Ex(4)/VIVI-Ex(4)-Big)在原始YT 8 M视频上训练,并与10%/100%标记的ImageNet数据(VIVI-Ex (4) -Co(10%)/ VIVI-Ex(4)-Co(100%))共同训练。执行相应的无监督(Ex-ImageNet),半监督(Semi-Ex-10%)和完全监督(Sup-100%,Sup-Rot-100%)基线。放。视频是一种很有前途的数据形式,可以设计这样的借口任务,因为它们可以捕获图像中不存在的随时间变化的此外,互联网上有大量的视频,几乎涵盖了任何可以想象的领域。因此,随着最近研究视频数据集的出现[1,59],视频已经在自我监督的背景下进行了研究(例如,[40,64,63,28,65,73,41,51,42,3,2])。我们-我相信,捕获这些不同努力的整体方法可以与基于图像的借口任务相结合,以进一步提高自监督模型的性能。在这项工作中,我们提出了一种新的,多功能的基于视频的自我监督框架学习图像表示。我们将视频数13807据集划分为自然层次1我们使用VTAB基准测试的版本1(arXiv:1910.04867v1);版本2(arXiv:1910.04867v2)结果请参见附录E。13808帧、镜头和视频。直觉是,模型可以利用(1)帧来学习对颜色扰动或对比度变化是鲁棒的,(2)镜头信息对场景中的对象的刚性和非刚性变换是鲁棒的,以及(3)明确地考虑视频级上下文应该鼓励模型跨镜头/剪辑捕获场景的语义关系。与单个帧、镜头或视频级自我监督对象相比,我们的整体方法产生了一种更好地转移到大量下游任务的表示。作为一个额外的好处,我们的方法不需要预先计算光流或运动分割掩模,也不依赖于对象跟踪。我们在YouTube-8 M(YT 8 M)数据集上训练了所提出的模型(不使用视频级标签),并表明这种方法在视觉任务适应基准(VTAB)的19个不同下游任务上产生了最先进的自我监督结果[69]。然后,我们展示 了 如 何 与 标 记 图 像 联 合 训 练 模 型 , 性 能 优 于ImageNet预训练的ResNet-50减少10倍的标记图像。我们还研究了我们的共同训练模型对自然扰动这是由视频中相邻帧之间的变化引起的[54]。总的来说,我们的贡献是:• 我们提出了一个通用的框架,通过学习帧,镜头和视频级的不变性,从野外的非策划视频• 我们在3上训练各种模型。7M视频从YT8M数据集,并实现了3. 8%的绝对改善-在VTAB基准测试的19个不同任务中,基于图像/帧的基线上进行测量[69],这在无监督方法中树立了新的艺术水平。• 我们使用ImageNet的数据,通过监督分类损失来增强自监督学习(SSL)训练框架结果模型-仅使用10%标记的ImageNet图像(并且没有额外的未标记图像)执行ImageNet预训练网络,并在与完整的ImageNet数据集共同训练时实现最新的技术水平,比之前的最佳监督结果高出3倍。七分。2. 相关工作图像表示的自监督学习SSL是计算机视觉领域的一个研究热点。最近的方法[67,25,4,45,24,60]在学习表示方面已经发展了最先进的技术,可以在1000个ImageNet类别之间进行线性分离[50]。先前的工作已经探索了各种自我监督线索,例如预测空间背景[12],着色[71],变换的等方差[18,44];以及无监督技术,例如聚类[6,72],生成建模[14,32]和示例学习[15]。我们在我们的框架中在帧级采用了其中一些SSL损失。从视频中学习图像表示与我们的贡献更相关的是关于视频中图像表示的SSL的文献。视频数据中帧的时间上下文已被广泛利用。 例如,[40,35,16,5,64]利用帧在视频中出现的顺序。时间上下文的其他形式包括其与空间上下文的组合[63],以及时空共现统计的使用[28]。正交于这些努力,试图选择帧之间的差异,沿着缓慢特征分析的路线的先前工作[65,73]也利用视频作为学习不变表示的手段。时间相干性在联合训练环境中被早期工作[41]用于学习卷积神经网络(CNN)以进行视觉对象识别和面部识别。缓慢而稳定的特征分析[30]试图学习表现出高阶时间相干性的表示。该对象变形信号可以通过使用非监督方法跟踪对象来从全局相机运动中分离。这些跟踪的补丁已被用于学习图像表示[62]。跟踪也可以由时空匹配区域提议代替[17]。受这些工作的启发,我们探索从视频像素中的时间信息学习不变性。一些最早的工作利用时间consideration使用未来帧预测[56]作为借口任务。这一任务的一个更具挑战性的版本是单帧未来合成。单帧预测中的模糊性已经通过时间不可知预测[29],运动分割[47],跨像素匹配[38]以及通过向模型提供运动提示作为输入[70]来避免。后两者需要从视频像素中提取时间信息到光流场。在多模态设置中,光流被视为与RGB像素分离的模态[51,60]。除了光流,网络上的视频本质上是多模态的,因为它们包含音频和字幕。结合视觉和音频[42,9,46,3]以及视觉和文本[57]的多模态学习方法比单模态基线实现了更好的性能。在机器人设置中,RGB像素可以与自我运动一起考虑[2,31]。时间对比网络[53]考虑同一动作的两个视图来学习不变表示。Doersch等人[13]表明,基于运动的SSL可以与其他自 我 监 督 线 索 ( 即 exemplar , colorization 和 spatial-context)相结合,以预先训练比这些线索中的每一个都表现得更好的模型。从他们的成功中获得灵感,我们的框架提出了SSL方法的协同组合可转让的陈述微调模型,13809k,kk,kKKk,kk,1k,Lk,Lk,kk,kM1千米图1:(左)本工作中使用的帧级、镜头级和视频级编码管道的图示每个帧xi使用帧编码器F进行编码。 帧嵌入f(x i),然后使用池化(pooling)函数p以获得镜头嵌入ei。然后使用预测函数gm计算视频级上的预测。(右)直观地说,我们希望选择帧/镜头和视频级别的损失,将来自同一镜头的帧彼此靠近,而来自不同镜头或视频的帧彼此远离,同时鼓励来自同一视频的镜头嵌入使用(简单的)预测函数来预测彼此。2在ImageNet标签上训练是将表示转移到新任务的流行策略[26]。Kornblith等编码器f、帧嵌入池化函数p以及一个或多个镜头级预测函数g_m(参见图1B)。1)。[34]显示更好的监督模型倾向于更好地转移pooling函数计算嵌入ei关于K-当被微调的时候。其他监督学习基准专注于多个数据集的性能,无论是通过trans-fer学习,元学习还是多任务学习[49,61]。在表示学习文献中,模型通常通过将每一帧馈送通过帧编码器并应用池化函数,e i= p(f(x i),. - 是的- 是的,f(x i))。评价 在域内, 通常 对 ImageNet [70, 和k k,1k,L参考文献]。然而,自监督模型现在在表面法线估计,检测和导航等任务上表现良好[19]。VTAB基准评估了自然图像域中对象分类之外的表示到许多域和任务语义(如计数和定位)的可转移性[69]。类似地,自然语言处理(NLP)的最新发展已经导致表示有效地转移到许多不同的任务[11]。池函数可以有不同的形式,从简单的平均池化到注意池化,注意池化将各个帧嵌入f(x,i)的值取到ACCOUNT。训练镜头级预测函数以从镜头嵌入预测借口(无标签)目标。我们定义了帧/镜头级损失和视频级损失,以学习不同抽象级别的不变性。更具体地,帧/镜头级损失采取以下形式:Σ3. 学习视频诱导的视觉不变性LS=i,kLS(f(xi)、。-是的- 是的,f(x i我k,1,的。. .,yi),首先,我们对拟议的框架进行概述其中yi是镜头级别借口标签,LS是镜头级别在SEC工作3.1,并讨论帧/镜头级和视频级损失的细节。3.2和第二节3.3分别。3.1. 概述我们考虑包含N个视频的数据集X,每个视频损失,其可以被实例化为仅作用于帧级,在LS分解为帧上的和的意义上,. .,L(参见第二节)。3.2损失的具体实例)。视频级损失由下式给出:Σ由多个镜头组成。为了简化说明,我们假设每个视频由K个镜头组成,并且每个镜头具有L个帧。如果我们将第k帧表示为LV=i,mLV(g m(e i,. - 是的- 是的 ,ei)); y i),⑴第i个xi的视频镜头,我们可以将数据集写为其中yi是视频级的借口标签,LV是我1:K,1:LNi=1. 我们的框架包括一个框架-视频级丢失(参见第3.3具体损失)。 去-则总损耗由LSSL=LS+λLV给出,其中λ >02视频信用:https://vimeo.com/362621732和https://en.wikipedia.org/wiki/Big_Buck_Bunny网站。平衡镜头级别和视频级别损失。LSSL是迷你-与w.r.t.联合使用f、p和gm的参数。);yX= {x}13810MK+mg(e)我e我们还考虑了除了视频数据之外还可以访问有限数量的标记图像的情况。[68]先前研究了将基于图像的SSL损失与应用于图像子集的监督损失相结合。他们发现,这种方法导致了最先进的半监督模型,并在所有图像都被标记时提高了监督模型的性能。在这里,我们考虑相关的设置,其中SSL损失是在视频数据上计算的,并且监督损失是基于来自不同数据集的图像数据具体来说,我们还将f和线性分类器应用于小批量的标记图像,计算预测之间的交叉熵损失L图片和标签。然后,总损失计算为LSSL+γL,其中γ >0平衡了自监督损失项和监督损失项的贡献。与先前工作的关系我们不知道先前的工作使用视频中的帧,镜头和视频级不变性的自然层次结构进行自我监督图像表示学习。此外,我们的方法旨在减少对策划数据集和昂贵的标记程序的需求相比之下,许多现有的从视频数据中学习图像表示的方法通常依赖于由单个剪辑组成的短策划视频,甚至将训练集视为一袋帧[7,13]。3.2. 学习镜头级别不变性为了定义帧/镜头级损失LS,我们建议建立在为图像设计的任何SSL损失上,例如分类样本[15],解决图像补丁的拼图游戏[43] 或旋转预测[18]。为了学习镜头诱导的不变性,可以采取两种方法:(i) 将基于图像的SSL损失独立地应用于每个帧,使得通过池化函数和视频级预测任务的组合来隐式地学习镜头引起的不变性,或者随机增强,我们从同一个镜头中选取M个连续的帧,并对每一帧进行一次增强。因此,我们的特征提取器学习由视频中的时间变化引起的不变性以及由数据增强引起的不变性。3.3. Learning video levelinvariances与动作识别网络相反,动作识别网络学习视频表示,必须是有区别的。帧之间的变化,我们的框架的目标是学习表示是不变的,这样的变化。对于学习动作识别的表示有用的永远是有区别的任务,例如预测帧序列是向前还是向后播放[64],验证帧是有序的还是混洗的[40],或者预测与未来帧相对应的特征[21],当应用于明智选择的聚合帧组时,可以用于学习抽象的可转移表示。根据这种直觉,我们的框架允许将这些任务中的任何一个应用于镜头嵌入,而不是单独的帧嵌入。尽管在视频水平上是有区别的,但这些任务鼓励表示对所有人都是不变的,除了那些对于借口任务来说必要的线索;从而间接地导致不变性。例如,确定镜头嵌入序列是向前还是向后播放需要理解每个镜头中的场景和对象的高级语义。类似地,从过去的镜头嵌入预测未来的镜头嵌入鼓励学习每个镜头的抽象摘要。在本文中,我们将探讨这两种方法。对于镜头顺序预测,我们随机反转镜头嵌入的顺序,并训练预测函数g以从级联镜头嵌入预测镜头顺序,即,(1)中的Lv是交叉熵损失,并且如果镜头嵌入的序列被反转,则yi为1,否则为0。为了训练g来预测未来的镜头嵌入,我们依赖于噪声对比估计[20]。具体来说,我们使用(ii) 明确地确保帧的嵌入镜头的嵌入Ei,. - 是的- 是的,e i以获得预测通过添加一个三元组或埃吉1嵌入式eiK我在他妈的-k+m与基于图像的SSL丢失相比,在这项工作中,本着方法(i)的精神,我们考虑SSL是的。然后,LV应该量化预测的质量,我们使用InfoNCE损失来实现[45][18 ]第18话不求回报,只求回报。1eg(ei(k+m)水平损失为了探索方法(ii),我们依赖于示例SSL的变体[15],其中每个图像都与一个LNCE= −N日志我Σi1千+百万NJjk+m、(二))不同的类别,并且训练特征提取器以在对其进行大量扩增(随机裁剪、旋转、对比度和颜色偏移)之后将每个图像分类到其自己的类别中。接下来[12,33],为了将这种方法扩展到数亿图像(帧),我们采用了三重损失[52],鼓励同一图像的增强接近,不同图像的增强远离。从同一镜头的不同帧中学习不变性,而不是从镜头中随机挑选一帧并应用M其中g被训练为将高分分配给成对的射击em,来自相同视频的beddings,以及从不同视频计算的嵌入的低值。[3]注意,(2)中的项可以被看作是N类分类问题的交叉熵损失,其中正确的标签是i,因此我们可以使用类标签yi将损失重新表达为形式(1)。3在实践中,我们使用来自其他视频的所有镜头嵌入,而不仅仅是时间步长k+m处的镜头嵌入,这可以提高性能[45]。得双曲余切值.得双曲余切值.138114. 实验装置我们的实验包括两个训练阶段,我们称之为上游和下游。首先,在上游阶段,我们使用上一节中提出的方法在视频(和图像)数据上训练我们的模型。然后,我们在第二阶段中对一组下游问题的我们专注于下游数据有限的挑战场景,每个下游任务仅使用1000个示例[69]。上游训练我们在YT8M数据集[1]中的视频上进行训练,该数据集由数百万个YouTube视频ID和超过3800个视觉实体组成。 我们下载了大约4。7M的这些视频以1 Hz采样,并将它们分成3个训练集。7M和1M视频的测试集。我们进一步使用基于颜色直方图的简单策略将视频分割为镜头,类似于[39](参见数据集统计补充材料中的表5)。没有其他预处理或过滤执行,因为我们的目标是从野外的真实世界视频中学习。我们还介绍了几种基线方法的结果,这些方法应用于通过从每个视频中选择单个随机帧获得的数据集,我们将其称为YT8M帧。此外,在联合训练实验中,我们还使用ImageNet(ILSVRC- 2012)训练集[10]。下游评估为了评估学习的表示,我们使用数据集并遵循协议VTAB版本1(arXiv:1910.04867v1)[69]。4本方案由19项任务组成,分为以下三组(详细信息和参考资料见附录)。• 自然-自然图像上的六个经典图像分类问题(数据集 : Caltech101 , CIFAR-100 , DTD ,Flowers102,Pets,Sun397和SVHN)。• 专门-对使用专门设备从遥感系统(data数据集:Resisc45,EuroSAT)和医疗(数据集:斑片状Camelyon,糖尿病视网膜病变)领域。• 结构化-八个任务,以预测出现在图像中的对象的属性(有多少,它们的相对位置和距离),在两个人,dered ( dSprites , SmallNORB , DMLab ) 和 real(KITTI)数据。对于这19个任务中的每一个和我们提出的每个模型,我们启动了对4个超参数的扫描(学习率和时间表,如[69]的轻量级模式)。然后,我们选择在这19个任务中平均时具有最佳验证准确度的模型。这些表现最好的模型然后针对每个数据集进行重新训练,4版本2(arXiv:1910.04867v2)结果请参见附录E;我们的方法相对于基线的相对改进和结论是相似的。从训练集和验证集的联合中随机抽取1000个点,并在测试集上进行评估。为了解释来自新分类头初始化的随机性和数据出现的顺序,我们将该评估方案重复了三次,并报告了中值测试集准确度(见[69])。架构和培训详情帧编码器f使用ResNet-50 v2 [23]架构和BatchNorm [27]进行建模我们还研究了模型容量的影响,通过扩大网络的三倍为了避免两个数据源之间的批量统计不匹配,在协同训练实验中,我们用GroupNorm [66]替换了Batch- Norm,并标准化了卷积的权重我们通过从每个视频中采样2个或4个连续镜头(丢弃镜头较少的视频)来构建小批量,并随机选择8个连续帧用于基于样本的镜头级别SSL和4个连续帧旋转为基础的帧级SSL。对于LNCE损失,当我们采样2个镜头时,我们使用多层感知器(MLP)从另一个镜头的嵌入预测一个镜头的嵌入,即,(2)中的函数g具有形式g(e,e′)=φ1(e)<$φ2(e′),其中φ1、φ2是具有256个单元的单个隐藏层的MLP在在4个镜头的实验中,我们使用具有256个隐藏单元的长短期我们仅使用时间顺序预测与基于样本的SSL一起使用,并且对于每个视频具有2个镜头的数据,依赖于具有512个隐藏单元的单隐藏层MLP作为预测函数。在整个过程中,我们依赖于p的(无参数)平均池化。对于帧级和镜头级SSL方法,我们使用[58]中的增强机制对于基于ImageNet一小部分的监督损失共同训练的模型,我们还使用与[68]相同的HSV空间颜色随机化。我们还进行了实验,用AutoAugment(AA)替换[58] 中 的 虽 然 这 可 能 会 导 致 标 签 泄 漏 时 , 应 用 于unsupervised方法,我们调查它,以了解这些自动学习的不变性相比,那些引起的基于镜头的增强是无标签的。在所有情况下,我们选择批量大小,使得视频数量和镜头数量的乘积为2048,即,NK= 2048。 我们使用随机梯度下降(SGD)对所有无监督模型进行120k次迭代的训练,学习率为0.8,动量为0.9,在90k和110k次迭代后将学习率乘以0.1。共同训练的模型被训练了10万次迭代,并且根据所使用的标记数据的量来选择时间表和批量大小对于权重λ(和共同训练模型的γ),我们最多扫描四个不同的1381264VTAB(1000)-平均值636261605958575658VTAB自然色575655545352515082VTAB专业81807978777660VTAB结构化595857565554图2:来自YT 8 M帧(Ex-YT-F)的示例SSL的VTAB 1000示例平均得分和每类别平均得分,具有额外的镜头级自我监督(Ex-YT-S),建议的方法具有跨4个镜头的InfoNCE视频级预测(VIVI-Ex(4))和额外的3倍更宽架构(VIVI-Ex(4)-Big)。镜头和视频级别的损失都提高了整体得分,收益主要来自自然和结构化子集的更高平均准确度。价值观所有超参数和架构的完整描述可以在附录中找到。我们在ImageNet上训练了一个旋转和样本基线模型,并从训练集中的每个视频中采样一帧(YT8M帧)获得了一个数据集我们使用与[33]相同的训练协议用于相应的此外,对于基于样本的模型,我们取消了视频级预测任务,这相当于独立地处理镜头,并且仅使用来自相同镜头的帧作为样本。此外,我们考虑了[69]中的3个基线:在ImageNet上预训练的标准ResNet-50v2(达到75的top-1/top-5准确率)。5%/92。ImageNet验证集上的6%),在ImageNet上训练的样本模型具有10%的类别平衡标记数据,[68](Semi-Ex-10%),它在ImageNet上实现了最先进的半监督精度,并且旋转模型在ImageNet上训练所有标签[68](Sup-Rot-100%)。我们进一步比较了从视频数据中学习图像表示的三个先前的作品:运动分割(MS)[47]和[ 13 ]的多任务SSL(MT-SSL)模型,以及[ 63 ]的传递不变性(TI)模型。MS基于前景-背景分割借口任务学习表示。使用现成的离线视频分割算法导出分割图。MT-SSL结合MS和其他三个自我监督目标来训练多任务网络。 它的表现形式来自于彩色化、空间背景和运动分割线索。在此评估中微调的MS和MT-SSL模型具有ResNet-101 [22]架构,直到第三块。TI构建了一个结合实例内和实例间边缘的图通过跟踪视频中的补丁来获得实例内边缘。我们公开微调他们的可用的预训练VGG-16 [55]检查点。我们建议读者参考补充材料,了解有关这些基线评估的实施细节。5. 结果在本节中,我们将重点放在低样本量制度上,即,当每个下游数据集由1000个样本组成时,并在补充材料中讨论完整数据集的性能(表4)。简而言之,根据使用所有示例的VTAB平均得分的方法的排名类似于根据VTAB 1000示例平均得分的排名。此外,在这里我们仅呈现最佳配置(w.r.t.发射次数K和预测函数的选择),并将其他配置的结果推迟到补充材料(表4)。我们还提出了对补充材料中的目标检测方法的评估。5.1. 自监督学习示例图2显示了我们的模型和基于示例的基线的结果。仅在YT 8 M帧上训练的基线(Ex-YT-F),在不利用任何时间信息的情况下,实现了59的平均VTAB 1000示例得分。4%。利用镜头内的时间变化来创建范例(Ex-YT-S)将该分数提高了约1 .一、九分。此外,在顶部添加视频级预测损失再添加1。2分。因此,使用我们的方法对镜头和视频级别的不变性进行杠杆老化,与仅使用帧相比,会带来显著的收益。此外,增加模型容量(使用3倍宽的模型)导致另一个增加0。8分。注意这个型号只有2. 0点落后于[68]的半监督模型(Semi-Ex-10%),该模型使用ImageNet中的128 k标记图像进行训练(参见表1)。收益主要来自自然和结构的改善,平均Top-1准确度1381364VTAB(1000)-平均值636261605958575658VTAB自然色575655545352515082VTAB专业81807978777660VTAB结构化595857565554图3:所提出方法的VTAB 1000示例平均得分与示例帧/镜头级SSL和跨4个镜头的InfoNCE视频级预测(VIVI-Ex(4),以及3倍更宽的架构(VIVI-Ex(4)-Big)),基于ImageNet的示例(Ex-ImageNet)和旋转(Rot-ImageNet)基线以及[13]的多任务SSL模型的比较。我们的模型平均表现优于所有基线,特别是在结构化数据集上。tured数据集,而视频级的损失并没有显着提高专门的数据集上的分数(见图2)。2)。我们观察到,当使用K= 4的LNCE时,EXEMPLARRROTATION YT-F公司简介中文(简体)VIVI(4)-BIGYT-FVivi旋转与示例实验类似,我们观察到增益为2。当使用视频级预测任务(表2中的VIVI-Rot)时,平均VTAB1000示例评分超过基于帧的基线(Rot-YT-F)0分。当与LNCE组合时,K= 2的增益小于K= 4的增益,并且当与旋转预测组合时,时间顺序预测不是有效的,因为对于两个K∈ {2,4}都有帧级损失。我们强调在YT8M上通过旋转SSL训练的帧编码器帧的性能比在ImageNet上训练的相同模型要差得多。这并不奇怪,因为ImageNet图像经过精心裁剪,数据具有均衡的类分布。相比之下,从YT8M采样的帧在内容方面不太平衡,并且可以为旋转任务提供许多快捷方式,例如黑色边框,覆盖的徽标,带有文本的帧或缺乏方向提示。AutoAugment(AA)的效果表2显示了使用AA [8]而不是[58]中的增强机制的效果。这种影响在基于帧的基线上最强,使VTAB 1000示例得分至少增加2,并且在涉及镜头和视频级别损失的模型上最弱,其中增加在0.5和1. 五分。因此,由AA引起的不变性在某种程度上是对所提出的镜头级和视频级损失的补充然而,请注意,AA是在标记的ImageNet图像上训练的,这可能会引入标签泄漏。因此,依赖于AA的方法不应该被认为是完全无监督的。与相关工作的比较图3是与基线比较的总结。我们省略了MS和TI,因为它们获得的VTAB 1000示例平均得分可与相对斑块位置预测[12]和拼图相比[43] SSL在ImageNet上训练。这两种方法的VTAB1000示例得分明显低于表2:用AA替换 [58]中通过我们的方法学习的视频诱导的不变性与AA是互补的,因为将AA应用于我们方法的不同变体会不断导致改进。MT-SSL模型,以及旋转和范例SSL。我们的VIVI模型明显优于ImageNet基线和MT-SSL模型。MT-SSL获得的分数与在ImageNet上训练的基于旋转的SSL获得的分数相当,后者得分为1。比基于示例的SSL高4个点我们的模型和MT-SSL在结构化数据集上的表现都明显优于旋转和基于样本的SSL,而基于ImageNet的ex-emplar基线在特定数据集上获得了最高的平均得分。5.2. 与ImageNet在表1中,我们将基于样本的协同训练模型获得的分数与[69]的基线进行了比较。我们的模型具有帧/镜头级和视频级损失以及更广泛的架构(VIVI-Ex(4)-Big),将ImageNet上训练的样本与强大的Semi-Ex-10%半监督基线模型之间的差距缩小了2倍以上。此外,我们的模型使用10%标记的ImageNet示例(类平衡,没有使用额外的未标记ImageNet示例)进行联合训练,在VTAB 1000个示例的平均得分上,超过了Semi-Ex-10%基线和ImageNet预训练的ResNet-50。使用整个标记的ImageNet训练集进行联合训练,结果增加 了2 。 1 分 。 最 后 , 扩 展 架 构 并 应 用 AA 预 处 理ImageNet数据增加了2。3分,导致明确的新状态平均Top-1准确度镜头和更温和的改进,为LNCE和节奏-W/ O AA 五十九点四61.362.563.356.958.9K= 2次射击的有序预测AA61.862.863.064.458.959.913814VIVI-Ex(4)-Co353025型号类型准确度原件精度扰动20151050−5−10图4:我们基于样本的无监督模型(VIVI-Ex(4))及其与完整ImageNet数据集共同训练的对应模型(VIVI-Ex(4)- Co(100%))的每个数据集比较。大多数自然(红色)和专业(绿色)数据集的准确性都有所提高,后者的提高幅度最大,而大约一半的结构化数据集(蓝色)的准确性下降。在VTAB基准上的艺术。使用ImageNet(的子集)的最大收益通常可以在自然数据集上观察到,而在专业化和结构化数据集上的收益明显较低。这个结果并不奇怪,因为自然分类中的许多数据集在语义上图4显示了当将整个ImageNet数据集上计算的分类损失添加到VIVI-Ex(4)时,VTAB 1000示例得分的每个数据集增加/减少对视频扰动的鲁棒性我们的共同训练模型被训练为识别1000个ImageNet类别,并且对视频数据中发现的变形保持不变因此,我们期望模型预测在视频中的相邻帧为了衡量是否确实如此,我们在ImageNet-Vid-Robust[54] 基 准 上 评 估 了 我 们 的 VIVI-Ex ( 4 ) -Co(100%)模型。该基准测试使用来自ImageNet-Vid数据集的视频[50]在更严格的0-1损失定义下测量准确性的下降。给定一组帧,只有当所有相邻帧都被正确预测时,才认为对“一个”帧的预测是直觉上,从锚定帧上的标准top-1准确度到这种更严格的损失函数的每平方米的下降表明缺乏模型鲁棒性。下降越低,模型越稳健。在表3中,我们观察到我们的联合训练模型比纯监督模型稍微更健壮,尽管结果仍然在误差范围内。这类似于在ImageNet-Vid上进行微调时观察到的性能下降差异,如基准测试文件本身所报告的那样[54,表1]。这些初步结果表明,尽管YT 8 M和ImageNet-Vid之间存在域转移,但我们的联合训练方法会产生与微调类似的效果ImageNet 68.0[65.2,70.7]49.9[46.9,52.9]18.1VIVI-Ex(4)-Co(100%)62.2[59.3,65.1] 46.3[43.3,49.2]15.9表3:ImageNet-Vid-鲁棒性评估:我们在ImageNet-Vid-Robust基准上评估了我们的VIVI-Ex(4)-Co(100%)模型(使用ImageNet训练集中可用的所有标记图像进行联合训练)[54]。原始精度是在“锚”帧上测量的最高精度。精度扰动是PM-10的精度从基准。它是在每个“锚”帧周围的相邻20帧[54]上定义的最差情况精度这两者之间的绝对差异是在这个基准上,差 异 越 小 越 好 。 灰 色 的 小 文 本 对 应 于 Clopper-Pearson置信区间。看来,对视频中自然扰动的鲁棒性是极具挑战性的,值得在未来进行研究6. 结论我们提出并评估了一个通用的框架,学习- ING可转移的,数据高效的图像表示,通过开发视频引起的视觉不变性在不同级别的粒度。该框架可以在帧/镜头级别上使用任何基于图像的SSL丢失和在视频级别上使用任意序列预测代理任务来实例化。我们的实验表明,纯粹的自我监督模型从利用视频诱导的不变性中受益匪浅,远远超过在ImageNet上训练的SSL基线,特别是在需要预测数据结构属性的问题此外,当使用监督分类损失来增强所提出的框架时,所产生的模型优于标准ImageNet。使用少10倍的标记示例预训练模型,并在VTAB基准测试中设定新的最新技术水平,使用完整的ImageNet数据集进行联合训练。未来的研究可以更好地理解用于上游训练的损失和数据集的选择虽然我们发现我们的共同训练模型对视频引起的自然扰动的鲁棒性比仅在图像上训练的模型更强,但需要进一步研究克服鲁棒性与视频引起的扰动相关的学习模型。致谢我们要感谢翟晓华的启发性讨论,特别是关于如何从视频镜头中学习的讨论,以及对导致本文的初步实验的贡献。此外,我们还要感谢Raphael Marinier帮助准备YT8M数据集。最后,我们感谢Lucas Beyer实现了GroupNorm的权重标准化。前1位精度增量sNORB-AzimSVHNDMLabdSpr-LocsNORB-Elev视网膜病变EuroSAT欧洲卫星公司CamelyonKITTI-DistResisc 45dSpr-OrientCaltech101花卉102DTDSun397CIFAR-100卡耐基VIVI-EX(4)13815引用[1] Sami Abu-El-Haija、Nisarg Kothari、Joonseok Lee、PaulNat-sev、George Toderici、Balakrishnan Varadarajan和Sud-heendra Vijayanarasimhan。Youtube-8 m:大规模视频分类基准。arXiv:1609.08675,2016。一、五[2] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动看到。在Proc. ICCV,2015中。一、二[3] Relja Arandjelovic和Andrew Zisserman。看,听,学。InProc. ICCV,2017. 一、二[4] PhilipBachman , RDevonHjelm , andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示NeurIPS,2019。2[5] Uta Buchler、Biagio Brattoli和Bjorn Ommer。改善通过深度强化学习进行时空自我监督Proc. ECCV,2018。2[6] 玛蒂尔德·卡隆 彼得·波亚诺夫斯基 阿曼德·朱兰,还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。Proc. ECCV,2018。2[7] Mathilde Caron,Piotr Bojanowski,Julien Mairal,andAr-还有裘琳。在非策划数据上对图像特征进行无监督预训练在Proc. ICCV,第2959-2968页,2019年。4[8] Ekin D Cubuk,Barret Zoph,Dandelion Mane,VijayVasude-van和Quoc V Le。自动扩增:从数据中学习增强策略。在Proc. CVPR,2019中。七、十一、十七[9] 弗吉尼亚河使用未标记数据学习分类在NeurIPS,1994中。2[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在Proc.CVPR,2009中。5[11] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃Bert:用于语言理解的深度双向变换器的预训练。NAACL-HLT,2018年。3[12] Carl Doersch、Abhinav Gupta和Alexei A Efros。不超-通过上下文预测的可视化表示学习在ICCV,2015年。二四七[13] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。InICCV,2017. 二、四、六、七、十二、十三[14] Je f fDonahue
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功