没有合适的资源?快使用搜索试试~ 我知道了~
9577对比自监督学习Mandela Patrick1,2*Yuki M.2*Kaznetsova1Ruth Fong2 JoãoF.Henriques2Geoffrey Zweig1Andrea Vedaldi1,21Facebook AI Researchmandelapatrick@facebook.com2牛津大学视觉几何组yuki@robots.ox.ac.uk摘要在图像域中,可以使用t3t4t5t2mr0g01T01vr1g02T02通过经由噪声对比学习将不变性引入到内容保持变换来学习。本文主要t11I1mar0r1g03T03g04T04将对比学习推广到更广泛的变换集他们的故事,他们的故事。mvr0g05T05r1g06T062r0g07T或寻求独特性。我们表明,这是不是立即明显的现有方法,如Simplified可以mar107g08T08扩展到这样做。相反,我们引入了一些形式上的要求,所有的对比公式必须mvr0g09T09r1g10T103r0g11T满足,并提出满足本款规定而为了最大限度地扩大这种分析的范围,我们表示噪声对比度mar1mvr0r1⌧11g12T12g13T13g14T14作为某些广义变换的选择公式4r0g15T数据(GDT)的计算,包括数据采样。然后,我们将视频视为数据的一个示例,其中可以应用各种各样的转换,占是个我...R115g16T16额外的模态- 和时间的维度。 我们发现,对某些变换保持不变并对其他变换保持独特性对于学习有效的视频表示,通过大幅提高多个基准的最新技术水平,甚至超越监督预训练至关重要。代码和预训练模型可用1.1. 介绍MoCo [31],SimCLR [13],SwAV [12]和BYOL [25]等作品已经表明,可以在不使用任何手动提供的标签的情况下预训练最先进的图像表示。此外,这些方法中的许多使用噪声对比学习的变体[26,27]。*联合第一作者1https://github.com/facebookresearch/GDT图1:广义数据变换(GDT)的分层采样过程。这里显示的是针对视听训练案例分析的五个转换及其组成:数据采样(T1)、时移(T2)、模态拼接(T3)、时间反转(T4)和增强变换G(T5),以通过噪声对比学习来学习视频表示。他们的想法是学习一种表示,这种表示对保持图像含义不变的变换是不变的(例如,几何失真或裁剪)并且对于可能改变其含义的改变(例如,用随机选择的另一图像替换图像)。这些先前的工作还表明,变换的选择对于性能至关重要[12,13]。这不仅仅是选择一个I2...9578这不仅可以用于指定特定类型的变换,而且还可以指定应该如何组合不同的变换,以及应该如何对这些组合进行采样以形成用于训练模型的批次。到目前为止,这些选择大多是由直觉驱动的,很少有正式的理解,为什么某些选择可能是更可取的,以及如何推广这些选择。在这项工作中,我们回答了一些这些问题,通过形式分析的对比学习中的组合转换。我们的分析表明,如何不变性和distinc-独立的转换可以有意义地纳入同一个学习公式。提出了培养批次建设的指导原则。我们解释现有的采样方案,如一个在SimCLR,作为特殊情况下,具有一定的潜在的优点和缺点。我们这样做,通过展示这些结构可以系统地扩展到任何组成的不变和独特的变换。此外,我们通过探索用于学习视频数据表示的对比方法来证明我们的分析的实用性与图像相比,视频包含时间维度和多个模态,已被证明可以提供有效的学习线索;例如[60]利用多个模态,[15,41]时间维度。我们展示了如何将这些影响可以在一个统一的方式在对比学习中考虑一个合适的类的广义数据变换(GDTs)。GDT捕获标准增强以及时间变换、模态切片和数据采样。使用GDT的优点如何编写一个连贯的学习目标和如何抽样批次)上的少数设计原则,我们的分析已经确定。有了这个,我们做了一些显着的对比视频表示学习的结果。首先,我们表明,使用这种更广泛的类的转换大大超过了per-performance,可以通过一个香草应用程序的图像为中心的方法,如SimCLR的视频数据。通过利用时间和多种形式,我们获得了大的性能增益,几乎翻了一番的性能。第二,我们表明,仅仅学习对越来越多的变换不变的表示并不是最佳的,至少在视频数据方面是如此;相反,将对某些因素的不变性与对其他因素的独特性相结合会表现得更好。据我们所知,这是第一次在对比学习中证明这种效果。我们还在视听表示学习方面设置了新的艺术状态,在各种下游任务上使用小型和大型视频预训练数据集 特别是,我们达到了94。1%,67。4%的标准化UCF-101 [67] 和 HMDB-51 [42] 动 作 识 别 基 准, 当 在HowTo 100 M [ 50 ]上预训练时,和95. 2%,72。在IG65M上预训练时分别为8%[21]。2. 相关工作从图像和视频中进行自我监督学习。已经提出了各种各样的借口任务来从未标记的图像中学习表示。一些任务利用图像中的空间上下文[17,56]来训练CNN,而其他任务则通过人工旋转[23]或聚类特征[6,10,11,12,22,37]创建伪分类标签。着色[83,84],修复[62],解决拼图puz-zles [57]以及下面详细介绍的对比方法已经被提出用于自监督图像表示学习。 一些使用空间维度的任务通过制作等效任务,图像的空间-时间维度已经扩展到视频的空间-时间维度。这些包括拼图[40],预测旋转[38]或未来的帧[28]。其他任务利用视频的时间维度来通过预测混洗帧[53]、时间方向[76]、运动[74]、节奏排序[43,80]和回放速度[9,14,19]来学习表示。这些预文本任务可以被框定为GDT。多模式学习。与图像不同,视频是诸如语音、音频和光流等各种模态的丰富来源,并且它们的相关性可以用作监控信号。这个想法早在1994年就已经提出[16]。然而,直到最近,多模态学习才被用于通过利用音频和视觉流之间的自然对应关系[2,4,5,7,54,60]和同步[15,41,59最近的许多论文已经利用语音作为弱监督信号来训练视频表示[46,49,55,68,69],并且最近[1]使用语音,音频和视频。其他作品包括光流和其他模态[29,30,64,85]来学习表示。在CMC [70]中,使用不同的视图(例如不同的颜色通道或模态)来学习表示,以单独引入多视图不变性。相比之下,我们的工作扩展到和分析多模态变换和ex-amines他们的效用作为一个不变的或独特的学习信号。噪声对比损失噪声对比损失[26,27]测量代表空间中样本对之间的相似性,并且是最近几项无监督特征学习工作的核心。他们产生良好的perfor-曼斯学习图像[13,31,33,35,45,52,58,70,71,77]和视频[3,28,34,46,49,54,66,68,82]表示,并且避免了明确指定需要经由设计的任务丢弃什么信息的需要。我们利用噪声对比度损失作为学习框架,以鼓励网络学习数据转换的所需不变性和独特性GDT框架可以用于在单个噪声对比公式中组合和扩展这些线索中的许多9579不不TTXT T|不|X!2{||}@PA2个图2:示例实例化。通过噪声对比(NCE)学习来学习嵌入。在这里,我们展示了视听样本和时移独特性的情况:同时来自同一视频的视频-音频嵌入被拉到一起,而来自不同视频和不同开始时间的视听样本对被推开。3. 方法我们将CPC [58],PIRL [52],MoCo [31],Simplified [13]和SwAV [12]等对比方法推广到学习对于任何数量变换都可以是不变的或独特的表示给定图像或视频等数据的集合x,我们生成训练样本x( t1,. ..,tM)2X.通过应用一序列的M 变换T=(tl,. ..,tM)的集合。我们考虑典型的变换,诸如数据增强(例如,随机裁剪图像)。我们还发现以相同的方式表达其他操作是有用的,诸如从集合中提取特定的图像或视频或从集合中提取特定的图像或视频。移位、时间反转和模态切片。然而,这一首先,当考虑M >2个变换时,我们可以选择使表示对于它们中的每一个独立地是不变的或独特的。例如,视频表示可以受益于与时移和/或时间反转不同而不是对它们不变。如何修改对比学习以纳入这些不同的选择,这一点并不明显另一个不太明显但重要的问题是如何形成训练数据批次。事实上,对比学习公式最小化了涉及比较(对比)不同样本的表示的损失,并且因此是不可分解的。在实践中,损失是通过对数据批次进行采样来近似的,并且如何完成对性能的在前面的Sim- CLR示例中,如果批处理中包含transformation(t1,t2),则必须是互补变换(t1,t02),它只在第二个因子t2上不同t02. 这是为了学习所需的不变性所必需的。这也意味着,转型--不能对一个批次中的多个单元进行独立采样。一种方式为了保证(T1,T2)和(T1,T0,T2)都在该批中,要考虑两组变换1和2的所有可能的组合1和2。然而,这在统计上是低效的,因为它将相同的增强2应用于该批中的所有图像。相反,SimCLR随机采样B/2图像,然后将它们应用于B个独立采样的增强。这比上面仅使用B/1= 2个不同增强的方案更好。然而,目前尚不清楚如何将这种用于对不同变换进行采样的策略扩展到M> 2因子。这是接下来研究的。3.1. 作文对比学习给定一批数据转换,我们考虑学习目标:L(Ø; T)=- c( T,T0) w( T,T0)T,T02T从视频中提取特定模态我们称这些广义数据转换(GDT)。B0ehØ(x(T)),Ø(x(T0))i/C1(1)为了提供一个具体的例子,在标准的对比学习公式(如Simplified)中,第一个变换t1=i1、. ..,X从集合x中提取图像xi,并且第二变换t2= g对其应用随机增广,使得我们可以写为x(t1,t2)=g( xi ) 。 我 们 的 目 标 是 学 习 一 个 表 示 Ø :Rd,它可以识别图像,而不考虑增强;换句话说,Ø应该对t2的选择是不变的,对t1的选择是独特的。我们希望将这种构造推广到更丰富的数据,如视频。与图像相比,视频包含多模态和附加维度,这允许考虑定性的不同变换,例如时间·logw(T,T0 0)eh(x(T)),(x(T00))i/.T002T其中,是温度参数。对比度函数c(T,T0)0,1具有 以 下 解 释 : 当 c ( T , T0 ) = 1 时, 表 示 Ø ( x(T))和Ø(x(T0))被拉在一起(不变性),当c(T,T0)= 0时,它们被推开(区别性)。例如,在SimCLR中,我们设置c(T,T0)= c((i,g),(i0,g0))=6i=i0 以推开不同图像(i,i0)的表示,同时保持对变换对(g,g0)不变。权重函数w是第二个二进制函数,它将学习重点放在信息量更大的变换对上;例如,SimCLRse t sw (T ,T0)=6T6=T0to9580Mm=1|不|···不不^6不QMQQ22JJJJVLdσ02VJth transfor-123,Kc(T,T0)是乘积Qc(tm,t0)。直觉是XJX避免将学习不变性集中到相同的变换T=T0,因为这是平凡满足的。接下来,我们提供了对该公式的半形式化分析,将细节留在附录A.1中。多重不变性和独特性。 推广eq.(1)到M>2的变换是构造函数c(T,T0)。我们一次只做一个因素。如果我们希望表示对因子t m 是 独 特 的,我们设置c(tm,tm)=6tm=t . 如果我们希望它与它保持不变,我们设置c(tm,t0m)=1。在引理4和引理5(附录A.1)中,我们证明了,给定这些选择,唯一一致的定义MM如下所示:表示Ø应区分样品x(T)和x(T0)当且仅当T和T0中至少有一个区别因子不同。形成批次。给定c,剩下的挑战是适当地对训练批次进行采样。我们首先推导出的一些要求,然后制定一个满足这些要求的采样方案(这些都不能保证通过独立地对T和T0进行采样)。(i)首先,为了使EQ。(1)为了不完全为零,对于批次中的T和 T0的至少一些选择,c(T,T0)(ii)此外,当c(T,T0)=1时,这不应该是针对平凡情况T=T0(SimCLR通过设置w(T,T0)=0而忽略的情况)。基于上面的讨论,条件c(T,T0)= 1T=T0意味着T和T0中的所有区别因子一致,并且至少一个不变因子不同。(iii)此外,对于eq中的分数。(1)不是常数,如果c(T,T0)=1,则在批中应该存在另一个T00,使得c(T,T00)=0。后者意味着T和T00中至少有一个区别性因子不同。在不考虑变换的所有可能组合的情况下(如上所述,其在统计上可能是低效的),我们可以对满足这些条件的批次T进行对于tm的所有值(这个数是/(K1Km))。因此,Simplified是作为一种特殊情况获得的。 请参见引理6和引理7(附录A.1)以了解深入讨论。局限性。尽管有这些好处,但该方案也有一些局限性。主要问题是,因子m的差异通常也意味着所有后续因子的差异,这意味着表示可能无法观察并因此学会区分所有个体因子的变化 在附录A.1.3中,我们说明了为什么这不太可能成为本文和文献中考虑的实际情况的问题。然而,我们也提出了其他实际情况下,这可能是一个重大的问题,甚至影响方法,如SimCLR。3.2. 广义数据变换的性质在本节中,我们展示了GDT我们这样做,表明GDT的目标具有相同的平均值,但较低的方差比抽样批次与eq。1,这将枚举所有可能的变换对(这是非常昂贵的),或者通过独立地对变换进行采样来对其进行子采样。我们假定这些区别变换是单射的。这必须近似为真,否则任何方法都不可能与这种变换不同。事实上,我们可以证明以下结果:定理1. 给定一组变换,其中的独特变换是单射的,GDT是广义压缩损失的无偏估计L(等式2)。 1),i. e.E[L] =L(Ø;T). 另外,考虑一个蝙蝠的山姆-M变换的多重复合,具有大小K jM= 3变换,但注意它立即扩展到任何M(这在附录A.1.1和A.1.2中完成)。首先,我们采样K1版本的第一个独特的transforma- tions t1。然后,对于每个t1,我们采样K2变换t2,也是独特的。最后,对于(t1,t2)的每一个选择,我们Mmation定义K I=jIK j和K V=jVK j,其中I和V分别是对应于不变变换和独特变换的索引的子集。用Ljj0和σ20表示平均值和方差。目标的总和(eq. 1)在集合X j<$X j0上,样本K3不变变换t3. 2我们得到一批|不|=K K K变换。Xj={x(T1,T2):T12T1},即样本对对应-该方案具有若干期望的性质。一是对于j为0。然后,GDT估计的方差为每一个T=(t1,t2,t3),都有另一个T0=(t1,t2,t03)在不同的因素上一致,在不同的因素上不同-变式一(性质(一)和(二))。二是V[L]=1K4K2XVVσ20.T00=(t,t0,t0)或T00=(t0,t0,t0),其在一个方面不同V我jj0123123另一方面,朴素估计或更多区别性因素(性质(iii))。第三,在共享特定因子值tm的变换数量相同的意义上,构造是平衡的[]=1K2K2KV,KV21JJ +K2KV,KV(Ljj0-L),V我jj0Vjj02请注意,采样顺序是任意的;特别是,它不需要与转换应用于数据的顺序相同。其大了一个乘法因子或加法因子。证明:见附录A。K2和进一步限制如下。 我们针对以下情况描述该过程:其中K是m响应于具有索引j和K9581不XX2R {}这表明使用GDT对数据进行采样可以降低方差,从而获得更高质量的梯度来学习相同的目标(因为估计是无偏的),这在我们对许多数据集和基准测试的强大性能中得到了经验性的我们注意到,这可能适用于建立在相同采样策略上但以不同于GDT的方式组成转换的其他方法3.1满意。3.3. 应用于视频数据作为我们的框架的具体实例,我们考虑视频数据和类型T=(t1,t2,t3,t4,t5)=(i,t 3,m,r,g)的变换,如图2所示。 1,如下所示。第一分量i选择数据集中的视频 我们对K i2个索引/视频进行采样,并假设独特性,使得c(i,i0)=6i=i0。第二分量对比不同的时间移位。 W e采样K=均匀随机的延迟的2个不同值,e提取在时间开始的1s剪辑xi。对于这种对比,我们将测试区分性和不变性假设,因为[41]表明前者可能更可取。 第三分量m对比模态s,将视频xi投影到其视觉或音频分量m(xi)。 我们假设方差c(m,m〇)=1,并且总是对两个这样的变换m v和m a进行采样以提取两种模态,因此Km= 2。 第四个分量r对比时间反转[63,76],这在对比或跨模态设置中以前没有被探索过。 这由变换r=r0,r1给出,其中r0是恒等式,r1翻转其输入张量的时间维度,因此K r= 2。最后一个分量g应用空间和听觉增强x(T)=g(r(m(xi),也对数据进行归一化。 我们假设不变性c(g,g0)= 1并且选取K g=1,即在采样层中增加该层的每个数据阿 尔 克 河 这 些 选 择 导 致 批 处 理 中 的 K=KiK<$KmKrKg=8Ki变换T(在消融中,我们也测试这些选择的子集)。虽然我们专注于模态分裂,时间反转和移位,但请注意,我们可以使用任何可以产生有用学习信号的变换,例如速度[9,14,18,36,75,81]和时间排序[20,43,53,80]。模态分裂。 模态分裂变换m可用于捕获模态之间的相关性[4,7,41,60,76]。模态分裂意味着样本x(i,,m,r,g)的 性 质是帧序列(m=m v)或声音(m=m a)。形式上,这意味着x(i,,m,r,g)是直和的元素va的视觉和音频信号;同样地,g、r和Ø是定义在这个直接和上。在实践中,这意味着变换g包括一对扩增(gv,ga),其中gv(v)通过将输入视频v的随机空间裁剪的分辨率转换为固定分辨率来提取固定大小的张量,并且ga(a)提取音频信号之后是SpecAugment [61],具有频率和时间掩蔽。同样,Ø=(Øv,Øa)包含一对神经网络,每个神经网络对应一个模态,两个神经网络的值均为Rd(有关架构细节,请参阅附录A.3.4)。在附录A.3.1中,我们展示了模态分裂是性能的关键;因此,我们扩展了Simplified权重函数w,以仅关注跨模态对的学习:w(T,T)=6i6=i·6m6=m0.3.4. 讨论:GDT有了我们的框架,我们现在可以以系统和实用的方式概括当前上面和附录A.1中的理论告诉我们组合转换的意义是什么,应该如何对批处理进行采样,为什么,如何通过使用扩展SimCLR的分层采样方案来实现这一点,以及这样做的局限一个特别的好处是允许单独指定,对于每个转换,如果寻求不变性或独特性,而以前的作品缺乏这种区别,并且在很大程度上考虑只学习所有因素的不变性(SimCLR [13],AVID [54])或独特性(AoT [76])。这个属性允许灵活利用数据集特定的转换在先验知识的情况下,或者,正如我们在这项研究中所示,有用的信号的枚举的探索。找到最佳转化信号甚至可以通过诸如贝叶斯优化的方法进一步优化。最后,与直接应用之前最先进的方法相比,基于图像的方法,如SimCLR [13],PIRL [52]和MoCo [31],我们还可以无缝地结合重要的线索,如交叉模态相关性,大大提高下游性能(见表A.1)。4. 实验我们比较自我监督的方法预训练视听表示。基于预训练的表示转移到下游任务的程度来评估质量我们对视频-音频以及视频-文本无监督表示学习进行了研究,以展示我们框架的一般性,然后将我们的最佳设置与最先进的设置进行比较。自我监督的预培训。对于预训练,我们考虑两个标准的预训练数据集: Kinetics-400 [39]和HT 100 M[50],并使用R(2+1)D-18 [72]和2D ResNet [32]作为编码器(更多详细信息请参见附录)。我们还探索了我们的算法如何扩展到更大,更少的数据集,并在IG65M [21]上进行训练,就像在XDC [2]中所做的那样。下游任务。为了评估预训练的表示fv,我们考虑标准动作识别基准数据集UCF-101 [67]和HMDB-51 [42]。我们测试预训练模型在微调任务上的性能9582·············表1:学习假设消除。在Kinetics-400上预训练50个时期后,显示了HMDB-51上的动作分类性能的微调准确度(Acc)和冻结检索(recall@1)结果。GDT可以杠杆-表2:视频-文本HT 100 M数据集上的GDT。我们还发现了积极的影响,包括更多的方式,并发现以前未探索的有益的转变的非平凡的组合。年龄信号来自不变性和较强的差异性转换信号。我们考虑数据采样(DS),时间反转(TR)和时间移位(TS)。DS TR TS Mod. 访问R@1类SimCLR:仅DS-独特性(a) dV44. 六点十一分8(b) diV36. 九点十三分3(c) diV35. 九点十五3(d)第37章. 八点十三分9交叉模态(e)d·AV52. 四点二十一。8DS TR TS Mod. ACC类SimCLR(a)d··V36。1图文交叉模态(b)dVT59。2(c)ddVT61. 5(d)ddVT62. 9(e)第63章. 8(f)didVT64. 4(g)第六十四章 . 4(f)di·AV58. 八点二十二6我我们还将所有转换组件设置为不变性(g) dAV 57。四 点二十三5我我(0)除了进行样本选择的第一个(h)DAV59. 九点二十四。8c(tm,tm)= 1跨模态+1区别因子(i) ddAV 57。八 点二十六。1(j) ddAV 58。七 点二十二1(k)ddiAV 61. 一百二十五4(l)didAV 61。四 点二十七1跨模态+2个独特因素(m)第57章 .2205预训练的表示,进行少量学习和视频动作检索。详情载于附录。4.1. 广义数据变换在本节中,我们对这里研究的GDT变换的每个参数进行了广泛的研究,T=(i,r,m,r,g),并通过微调我们的网络并在HMDB- 51动作识别基准上进行视频检索来评估性能SimCLR 类 基 线。 首先,我们使用该框架来测试SimCLR对视频数据的直接扩展,如表1(a)-(d)所示通过这一点,我们的意思是仅利用视觉模态(V),并且仅对变换具有不变性,这在所有最近的自监督方法中是标准的[13,31,77]。为此,我们考虑上述类型T=(i,m,,r,g)的GDT,并设置Ki=512(我们可以在我们的设置中拟合的最大值)。在行(a)中,我们仅选取视频模态(m=mv,因此Km=1)。我们还抽样单班(因此K然而,我们确实采样了两个视觉增强g(Kg=2),模拟SimCLR并学习该因素的不变性。在行(b-d)中,我们还通过设置K = 2和K r = 2,实验了将不变性添加到时移(TS)和时变(TR)。我们发现,这样做始终会降低微调的准确性性能,但在一定程度上提高了检索性能,这表明该模型不能以有意义的方式充分利用这些增强信号跨模式学习。接下来,在行(e-h)中,我们重复该实验,但是通过设置Km=2使用两种视听模态(AV)。在这种情况下,如上所述,我们将权重w设置为仅考虑跨模态相互作用,并设置Kg=1。我们注意到两个事实:首先,性能大幅提高(+7.8%(e)vs(a-d))。其次 , 现 在 TS 和 TR 不 变 性 导 致 显 著 的 改 进 ( 高 达+7.5%)。不变性与独特性。接下来,在行(i-1)中,我们探索对个体变换不变或独特的效果,这对于我们的方法是独特的将行(h)与行(k)和(l)进行比较,我们看到切换到对TS或TR之一的区分性进一步提高了性能(高达+1.5%)。另一方面,最后,在行(m)我们发现,同时对TS和TR都是独特的更糟糕,这表明独特性和不变性的混合是优选的。对于检索度量(列R@1)尤其如此。4.2. 语篇情态在表2中,我们通过使用ASR字幕作为HowTo100M数据集[50]的替代模态(而不是音频)来证明我们方法的通用性。对于文本编码器,我们使用简单的Word2Vec[51]嵌入MLP(附录中提供了更多细节Com-9583KNN将表2(a)与(b)进行比较,我们发现从Sim-CLR切换到跨模态基线将性能提高了超过+22%。此外,我们发现从仅数据采样独特性(行(b))切换到包含更多独特性(行c-d)时,收益为3.7%。最后,我们发现-如在视频-音频情况下-将时移独特性与时间反演不变性相结合导致特别强的表示(行(f)),与单独的数据采样独特性相比产生超过+5%的益处。与视频-音频学习(表1(m))相比,我们发现仅用于视频-文本学习的独特的情况(表2(g))具有高度竞争力,突出了探索可能的变换信号的集合以实现最佳下游性能的需要。直觉虽然我们仅分析视频数据的可能变换的子集,但我们仍然发现跨视频-音频和视频-文本学习的一致信号:包含对TS和TR的进一步的独特性总是改进碱基,并且实现了TS独特性和TR不变性的最佳设置。对此的一个解释可能是,在这两个变换中存在有用的信号,其未被先前的“仅增强”朴素噪声对比公式捕获。例如,对于时移(TS),模型受益于必须区分不同的时间点,例如时间点。之间图3:学习时移的独特性:我们的表1(j)中的GDT模型能够比简单的SimCLR变体(表1(a))更好地区分来自不同时间的同一视频的特征。表3:视频检索和少镜头学习。检索精度(%)通过最近邻居在各种水平的neighborhood大小和少数拍摄学习精度(%)通过一个k-最近邻居冻结表示。HMDB UCF1 5 1 5随机3.0 3.5 2.3 4.63DRot [38]一个运动员在跑步,一个运动员在沙坑里着陆可能都在同一个视频里 这直观地充当了模型的硬否定,增加了其区分能力。对于时间反转(TR),所描述的许多动作(例如移动对象)对于反转时间是固有不变的,如[65]所示,因此当用作增强时产生增益。在[76]中,他们表明人类在对Kinetics-400中的视频的时间方向进行分类时具有20%的错误率,从而证明Kinetics-400具有即使在反转时看起来也很逼真的视频子集。这些发现,即额外的独特性与不变性相结合改善了视频表示学习,这是值得注意的,因为它们与图像自监督学习领域的结果相矛盾,在图像自监督学习领域,学习预文本不变性可以导致更多的可转移表示[52]。即使与以前的视频数据自监督学习方法(例如预测时间箭头[76])相比,我们的方法也通过显示独特性和不变性的独特组合产生了新的见解,至少在所考虑的训练集结合这些点,GDT的强大性能是建立在它利用高度信息化的能力,但4.3. 定性分析在这里,我们研究了我们让模型保持不变和独特的不同变换对我们学习的表示有什么影响为此,我们对比GDT(我们的)14.3 15.4 26.7 44.6SP-Net [9]--13.0 28.1VCP [14] 7.6 24.4 18.6 33.6M-DPC [29] 7.7 25.7 20.2 40.4电话:+86-21 - 6666666传真:+86-21 -6666666电话:+86-21 - 6699999传真:+86-21 -66999999SeLaVi [5] 24.8 47.6 52.0 68.6GDT(我们的)26.1 51.7 62.8 79.01 (a)的 SimCLR 基线,并比 较3000个随机选择 的Kinetics- 400验证集的每个视频的10个时移剪辑的归一化特征的平均标准偏差。4.4. 与最新技术水平的比较鉴于我们最好的学习设置之一,从Sec。4.1(行(l)),我们训练更长时间,并将我们的特征表示与标准下游基准上的现有技术进行比较。4.4.1下游基准对于少量镜头分类,如表3所示,我们使用我们的Kinetics-400 预 训 练 模 型 在 UCF-101 上 显 著 击 败 3D-Rotnet [38]基线,平均每个镜头超过10%检索9584表4:具有全微调的视频动作识别的最新技术水平。在UCF-101和HMDB-51基准上进行自我和完全监督培训的方法。方法数据Top-1 Accc %HMDB UCF监督[79]K-400+IN75.996.8监督[2]K-40065.194.2AoT [76]K-400-79.4多感官[59]K-400-82.1SeLaVi [5]K-40047.184.2PEMT [44]K-400-85.2XDC [2]K-40052.686.8[78]第78话K-40054.687.0CoCLR [30]K-40054.687.9[82]第二十二话K-40055.688.3AVTS [41]K-40056.985.8CPD [46]K-40057.788.7AVID [54]K-40060.887.5CM-ACC [47]K-40061.890.2GLCM [48]K-40061.991.2GDT(我们的)K-40062.390.9MIL-NCE [49]HT100M61.091.3GDT(我们的)HT100M67.494.1XDC [2]公司简介68.995.5GDT(我们的)公司简介72.895.2对于视频检索,我们在表3中报告了HMDB-51和UCF-101数据集的分割1的1和5个检索样本的召回率。使用我们在Kinetics-400上训练的模型,GDT显著击败了所有其他自监督方法。特别是,我们优于CoCLR[30],这是一种最新的最先进的自监督方法,它使用光流作为另一种视图来挖掘硬阳性,以改善视频表示的实例识别学习。此外,对于HMDB-51和UCF-101,在1和5的召回率上,我们超过了SeLaVi,一种视听聚类和表示学习方法,平均为2%和10%对于视频动作识别,我们微调我们的GDT预训练网络用于UCF-101和HMDB-51视频分类,并与表4中的最先进的自监督方法进行比较。当在Kinetics数据集上进行预训练特别是,我们使用相同的架构(R(2+1)D-18)和数据集(Kinetics-400),以较大的幅度优于视听预训练方法AVTS [41],SeLaVi [5]和XDC [2],这表明我们的GDT预训练方法的有效性。我们还超过了AVID[54],最先进的视听表示学习方法,1。5%的HMDB-51和3. 8%的UCF-101。AVID使用预训练图1示出了我们的基线方法的方案,其将噪声对比学习扩展到视听域,如表1的行(e)中所示。然而,虽然AVID只是简单地编码样本的distinctiveness和不变性的形式在其视觉表示,tations,我们能够编码的不变性和独特的额外的转换,这显着提高了我们的性能。我们的方法也更有样本效率,因为我们能够在少300个训练时期的情况下实现我们的结果。最后,当在HT100M上进行预训练时,我们获得了+6的强大增益。4%的HMDB-51和+2。与最先进的视频文本方法MIL-NCE相比,UCF-101的8%[49]。与AVID类似,MIL-NCE使用基线跨模态对比框架的变体来学习表示,而我们能够通过学习时间反转和时间偏移等额外转换的不变性和独特性来改 进 此基 线 。 此外 , 通 过HT 100 M 预 训 练, 当 在HMDB-51上进行微调时,我们使用相同的架构优于Kinetics监督基线(67. 四比六十五。1),并与UCF-101(94. 一比九十四。2)的情况。我们通过在IG65M数据集上进行预训练,进一步展示了GDT框架的可扩展性和灵活性[21]。有了这个,我们的视觉特征表示在所有自监 督 方 法 中 设 置 了 一 个 新 的 技 术 状 态 , 特 别 是 在HMDB-51数据集上超过4%的保证金在UCF-101上,我们使用XDC设置了类似的最先进性能。与XDC一起,我们使用相同的架构和微调协议击败了Kinetics监督的预训练基线。5. 结论我们介绍了广义数据变换(GDT)的框架该框架展示了如何获得新的有意义的变换组合,编码有价值的不变性和独特性,我们希望我们的表示学习。遵循这种方法,我们在标准下游视频动作识别基准测试中实现了最先进的自监督预训练结果总的来说,我们的方法显着增加了自我监督的对比学习的表现力,使其成为许多多模式设置的灵活工具,其中存在大量的转换并寻求最佳组合。引用[1] Jean-Baptiste Alayrac , Adrià Recasens , RosaliaSchnei-der,ReljaArandjelo vic´,JasonRamapuram,Jef fre yDeFauw,Lucas Smaira,Sander Dieleman,and Andrew Zisserman.自我监督的多模式通用网络。在NeurIPS,2020年。9585[2] HumamAlwassel , BrunoKorbar , DhruvMahajan,Lorenzo Torresani,Bernard Ghanem,and Du Tran.跨模态音视频聚类的自监督学习在NeurIPS,2020年。[3] Ankesh Anand,Evan Racah,Sherjil Ozair,YoshuaBengio , Marc-Alexandre Côté , and R Devon Hjelm.atari中的非监督状态表示学习。2019年。[4] Relja Arandjelovic和Andrew Zisserman。 听着,丽-十和学习。 InICCV,2017.[5] Yuki M Asano , Mandela Patrick , ChristianRupprecht,and Andrea Vedaldi.通过多模式自我监督从头开始标记未标记的视频。神经IPS,2020年。[6] Yuki M Asano、Christian Rupprecht和Andrea维达尔迪通过同步聚类和表征学习的自我标记。在ICLR,2020年。[7] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴Soundnet:从未标记的视频中学习声音表示。InNeurIPS,2016.[8] Philip Bachman,R Devon Hjelm,and WilliamBuch-Walter. 通过最大化跨视图的互信息来学习表示NeurIPS,2019。[9] Sagie Benaim , Ariel Ephrat , Oran Lang , InbarMosseri,William T.Freeman , Michael Rubinstein , MichalIrani,and Tali Dekel.Speednet:学习视频中的速度。在CVPR,2020年。[10] 玛蒂尔德·卡隆,彼得·波亚诺夫斯基,阿曼德·儒林还有马蒂亚斯·杜兹用于视觉特征的无监督学习的深度聚类。在ECCV,2018。[11] 玛蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿曼德·朱林在非策划数据上对图像特征进行无监督预训练。在ICCV,2019年。[12] Mathilde Caron,Ishan Misra,Julien Mairal,PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。[13] Ting Chen,Simon Kornblith,MohammadNorouzi,and杰弗里·辛顿视觉表征对比学习的一个简单框架。在ICML,2020。[14] Hyeon Cho,Taehoon Kim,Hyung Jin Chang,andWon-黄俊。使用可变回放速度预测的自监督时空表示学习。arXiv预印本arXiv:2003.02692,2020。[15] Joon Son Chung和Andrew Zisserman。 超时:自动对口型在多视图唇读研讨会上,ACCV,2016年。[16] 弗吉尼亚河德萨。用unla学习分类-不可靠的数据 在NeurIPS,1994中。[17] Carl Doersch、Abhinav Gupta和Ale
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功