没有合适的资源?快使用搜索试试~ 我知道了~
10560时空作物出席:改进跨模态视频表示学习。MandelaPatrick*,Po-YaoHuangg,IshanMisra,FlorianMetze,AndreaVedaldiFacebook AI Researchmandelapatrick,berniehuang,imisra,fmetze,vedaldi@fb.com由纪Asano,Joa oHenriques牛津大学yuki,joao@robots.ox.ac.uk摘要从自监督学习获得的图像表示的质量强烈地依赖于在学习公式中使用的数据增强的类型。最近的论文已经从静态图像移植了这些方法 并发现利用音频和视频信号产生强大的收益;然而,他们没有发现对于静止图像非常重要的诸如裁剪的空间增强对于视频也同样有效。在本文中,我们以两种独特的方式来改进这些配方的时空方面的视频。首先,对于空间,我们证明了诸如裁剪之类的空间增强对于视频也很有效,但是由于高处理和内存成本,以前的实现无法在足够的规模上做到这一点。为了解决这个问题,我们首先介绍了特征裁剪,一种直接在特征空间中更有效地模拟这种增强的方法。其次,我们表明,与简单的平均池相反,使用基于transformer的注意力显著提高了性能,并且非常适合处理特征作物。将我们的两个发现结合到一个新的方法中,时空作物参与(STiCA),我们在多个视频表示学习基准中实现了最先进的性能。特别是,我们实现了67的新的最先进的精度。0%开启HMDB-51和93。1%的UCF-101,动力学-400 代码和预训练模型可用1.1. 介绍在过去的二十年里,视觉表征发生了显着的变化。第一代表示法*同等贡献。1https://github.com/facebookresearch/GDT605550450 50 100 150> 200历元图1:HMDB-51精度与历元。我们的方法,STiCA,结合时空作物的特征空间和自我注意力的时间在潜在的空间。与使用两个RGB裁剪或简单地使用默认的仅跨模态损失在输入空间中进行裁剪相比,这不仅在性能上而且在速度上都与最近最先进的跨模态自监督学习方法(XDC [6],GDT [106],AVID-CMA [97],SeLaVi[9])相比在Kinetics-400上进行预训练[69] STiCA能够在更少的时期内实现更好的结果。包括人工设计的SIFT [87]和HOG [30]等算法。第二代包括通过使用深度神经网络和人工监督从数据中学习的表示[31,59,76]。我们现在正在过渡到第三代,其中表示是从数据中学习的,而不需要通过自我监督的方式使用任何手动注释。当前自我监督代表-SeLaViXDC默认ROPS两个RGB CAVTSIDGDTAVStiCAHMDB-51准确度10561⇠从MoCo [57],SimCLR [24]或SwAV [20]等方法获得的图像表示在下游任务(如图像分类,分割和对象检测)上令人信服地优于监督的图像。此外,这些方法中的大多数是基于噪声对比实例辨别,其在ExemplarC-NN [39]中提出并在[142]和[101]中以其当前形式提出。该想法是学习对不相关的变化因素不变的表示,通过诸如图像裁剪的强增强来建模,同时保持对图像的身份的独特性。噪声对比学习当然不限于静止图像。特别是,一些最近的方法[54,93,97,106]已经使用噪声对比公式来学习视觉或视听表示。然而,这些方法并不像静止图像的对应方法那样发展良好,当前最先进的方法[54,106]仍然落后于其监督的对应方法。在本文中,我们确定了当前视频表示学习公式缺乏的两个领域,并对其进行了改进,从而显着改善了该领域的当前技术水平。第一个缺点是缺乏足够的空间不变性的编码。对于静态图像,学习空间不变性已被证明是性能最重要的因素之一[20,24]。几乎所有的方法都可以简单地通过在不同的训练时期对图像应用不同的空间增强来然而,以这种方式学习空间不变性需要持续许多时期的缓慢训练过程(800)。 作者建议,将同一图像的多个增强打包在单个数据批中更有效,因为它为网络学习入侵提供了更强大和更直接的激励[20]。对于视频,这两种策略都不太可行。在Kinetics-400[ 69 ]上训练200个epoch的模型已经需要大约1。在最新的Nvidia V100架构上运行5K GPU小时,并且使用最新的数据集(如IG65M [45]和HowTo100M [94]),只有少数时代可以实际完成。另一方面,将同一视频的多个增强包括在一批中会迅速耗尽GPU的存储器。由于视频数据的大小,每个GPU的批量大小已经是个位数,因此包括几个增强是不可行的。这对于最近的对比学习方法特别不利,例如[24,58],其中减少批量大小意味着减少阴性对比样本的池。为了解决这个问题,我们建议将空间增强移动到特征空间,以一种专门针对对比学习的方式。代替在输入RGB空间中提取大量R个不同的增强,我们只提取其中的两个,应用神经网络提取相应的特征,然后直接在特征空间中提取R/2个以上的增广。以这种方式,需要评估网络的缓慢和存储器繁重的特征提取部分仅两次,而不考虑产生的增强的数量。我们表明,这种特征级增强显着提高表示学习性能。我们解决的第二个挑战是如何在自监督视频表示学习中最好地编码时间信息。目前,大多数自监督视频表示学习方法使用3D-CNN [21,132,133,144]来计算空间和时间上的卷积,但最终表示是通过空间和时间上的朴素全局平均池生成的,关键是丢弃时间排序。为了解决这个缺点,在这项工作中,我们建议使用基于Transformer架构的上下文池函数[135]进行自监督预训练和监督微调。直觉是,通过多头自注意,Transformer可以比平均池更好地捕获时间依赖性,特别是对于较长的输入。变压器也可以从我们的特征级作物中受益,因为后者类似于随机掩蔽变压器输入的常见方法[62]。实验结果表明,这种修改大大提高了学习的视频表示的性能,并与特征裁剪的好处是累积的我们将我们提出的两种改进组合成一种新的自监督学习方法:时空注意和裁剪(STiCA)。总而言之,通过STiCA,我们作出以下三项主要贡献:• 我们首次展示了自监督视频表示学习中更强的空间不变性的好处,并提出了特征级增强来有效地实现后者。• 我们建议在自监督视频表示中使用变换器来更有效地建模时间,将平均值替换为池化函数。• 我们展示了强大的性能增益,通过使用这两种技术,并获得国家的最先进的性能在两个标准的基准测 试 ( 67 。 0% 的 HMDB-51 和 93 。 1% ( UCF-101)。2. 相关作品自监督图像表示学习。自监督学习使用借口任务来自动且容易地从数据本身生成可区分的学习信号,以便训练卷积神经网络。已经提出了各种各样的借口任务,例如着色[148,149],预测人工旋转[46],10562X! Z2XX! XG----B {}PN j=1e厄伊绘画[105]、空间背景[35,100]和聚类特征[11,18,19,20,64,83]。最近,对比方法[50,51]已经被证明在学习可转移图像表示[13,24,49,57,95,96]方面特别有效101、130]。自监督视频表示学习。对于视频,借口任务通常寻求利用时间维度来学习表示。这样的任务包括预测剪辑和序列顺序[79,96,145]、未来事件[52,53]、时间箭头[140]、3D几何变换[65,71]、回放速度[14,40,63,137]、或时间箭头[140]。运动统计[136]。多模式学习。来自视频的多个模态的共现和同步性已经被用于从音频-视频[6,7,9,74,90,97,102,106]和语音-视频[5,7,9,74,90,97,102,106]两者学习视觉表示。73,85,92,93,98,107,123,125,126]数据。多-模态表示学习具有几个实际应用:唇读[3,26,27],视听源分离和定位[2,4,8,56,150,151],语音识别[1,111],有效推理[43,75],自我中心行为[70]和视听导航[22]。数据扩充。 数据增强已被证明在许多领域的深度学习模型训练中非常有用,从视觉[28,29,146]到语音[103]。数据转换是大多数自我监督工作的基础,并且已经有早期尝试甚至学习转换的最佳分布[16,29]。特别是对于对比学习,数据转换的选择对于学习理想的不变性和等变性特别重要[95,106,130,131]。特征空间中的变换。一些工作已经提出了在特征空间中增强的形式,通过添加噪声和线性变换[129],以及通过将样本与特征空间中的原型相关联[78]。然而,这些增广并不对应于可解释的几何运算。特征空间中的裁剪通常用于监督检测管道,例如Faster R-CNN和基于区域的架构[115],以及早期的检测。特征[48,68,138],而后来的工作使用3D卷积神经网络[132,133,144]和递归神经网络[37]。其他方法利用长期时间卷积[134]、自注意力[139]、关系网络[152]、多尺度时间卷积[61]或双流网络中的光流[119]。变形金刚在视觉上随着变换器架构[135]在自然语言处理[62]中的成功,变换器被用于各种视觉领域,如图像表示学习[23,32,38]。一百一十八141],图像一代 [104], 目标检测[17,86],few-shot learning [36],video action recog-[15,47,99,139],视频问答[67],图像文本[84,88,124,127,128]和视频文本[42,73,107,125,126,154]表示学习。3. 方法我 们 的目 标 是 学 习 一 个通 用 的 数 据 表 示 Ø :=RD,将数据x映射到特征向量z=Ø(x)。在监督设置中,表示作为较大系统的组件被端到端地学习,所述较大系统在监督可用于驱动学习过程的假设下解决某些感兴趣的任务,诸如图像或视频分类当监督不可用时,表征仍然可以通过适当的借口任务经由自我监督来学习在后者中,噪声对比学习是最流行和最成功的学习之一[24,101]。接下来我们将总结这个背景,并在下面的章节中讨论我们的扩展3.1. 背景:多模态对比学习这个想法是训练表示法来识别数据点,直到添加噪声,或者更一般地,应用某些讨厌的变换。为此,设g:是在一组可能的干扰中采样的变换(例如随机图像裁剪)。让sim(z0,z00)是比较表示z0和z0 0的相似性函数,例如余弦相似性:hz0,z00i基于手动设计的功能的tors [30]。 怎么-这些转变的目的是列举sim(z0,z00)=.kz0 k kz00 k输出空间(例如,边界框预测)用于监督预测。在自监督学习中,虽然[66]使用特征混合来为对比学习创建更难的否定,但我们对使用特征裁剪增强来实现空间不变性感兴趣。时间建模。视频通过添加时间维度来扩展图像。因此,有一个大家族的研究,已经研究了如何建模节奏-考虑一个数据集或批次= x1,. ......、xN个数据样本。 稍微修改[24],对于每个样本xi,绘制一组随机干扰变换gi1iN,并让zi= Ø(gi(xi))表示变换后的样本。同样 ,考虑第二组变换gØi1iN。噪声对比损失(NCE)为提供者:N1 sim(z,z)视频中的真实信息早期作品包括TEM-经由帧/剪辑级的平均池化的局部信息1XNi=1e⌧↵i 吉吉L( λ,λ)=-日志1sim(zi,z(一))105632LL3DCNN视频'视频跨模式SSL丢失全局时空池以前的方法(AVTS、XDC、MIL-NCE、AVID、GDT等)STiCA...S空间时间潜在C丢弃空间池浅层Transformer时间注意跨模式SSL丢失模态内SSL丢失图2:方法概述。我们提出了一种自我监督的方法,学习视频表示没有标签。视频表示学习中的先前工作没有捕获空间不变性,因为采取许多输入作物(在不同的位置和规模),在计算和内存中很快变得昂贵(底部)所提出的方法通过在潜在空间中裁剪来从仅两个RGB裁剪生成各种各样的视图,并且特别适合于自监督对比学习。潜在的作物基本上是掩蔽的功能,然后进一步处理的轻量级的时间Transformer。与全局池化相比,这允许我们的方法进一步捕获丰富的时间信号。其中,是温度参数。这种损失将仅因变换而不同的样本的表示拉在一起,同时将其他样本推开。注意,这个定义在两个参数中是不对称的(即,(,Ø)(Ø,)。还需要注意的是,我们可以引入任意数量的变换集,Ø,ц。. . 并且对于每一对,我们可以获得Eq的不同变体。(一).最近,诸如[106]的作品已经通过对比模态将这种每个视频x=(v,a)由视觉分量v和音频分量a组成。考虑两组变换gv,提取和增强视觉分量,以及ga,提取和增强音频分量。我们仍然将为视觉和音频分量计算的特征写为(g(x)),但符号意味着根据需要应用模态特定神经网络。2有了这个,我们可以推导出三种不同的方程。(1),涉及─混合视听和同质视听和视听比较。它们的组合是:λ vaL(v,a)+ λavL(a,v)+ λvvL(v1,v2)+ λaaL(a1,a2).其中λva、λav、λvv和λaa是非负混合权重。挑战1:编码模态内不变性。虽然2中的所有项都是表示的理想不变性,但最近的几篇论文[90,97,106]发现混合项λva比其他两项重要得多;事实上,如果设置λaa,λvv6=0,意味着模态内不变性是2换句话说,Ø=(Øv,Øa)实际上是一对网络,产生的嵌入向量z是兼容的,而不管模态2{v,a}。没有成功地杠杆化。我们的假设是模态内不变性可能是有益的,并且这些早期的负面结果是由于当前的学习公式在利用该信号方面是无效的。如SEC所建议。1、视频数据很大的事实意味着学习中使用的批量大小必须很小。因此,一个批次可以仅包含相同视频样本的非常小数量的不同增强。 在当前的多模态学习公式中,每个视频已经被变换两次以便提取视频和音频分量,因此跨模态不变性被很好地学习。但是,缺点是批处理中没有空间用于多个视觉或音频增强。因此,模态内不变性仅间接地学习-特别是,如第2节所述。1,同一视频的两个不同的视觉或音频增强仅在整个训练时期之后才被模型访问。接下来,我们解决这个问题,苏通过使其可行的提取几个内模态变换在同一批甚至视频数据。3.2. 高效立体种植已经发现,自监督学习受益于,并且与监督对应物相比需要更多和更强的增强以获得最佳性能[24]。特别地,几篇论文[10,20,24]已经提出,在静止图像的情况下,最重要的增强类型是裁剪。也就是说,给定具有三个通道以及分别为高度和宽度H和W的RGB图像xR3H W,裁剪由框B=(xmin,xmax,ymin,ymax)给出。首先将图像张量裁剪为:CB(x)=x[:,ymin:y max,x min:x max](3)视频'3DCNN视频»视频......(10564⇥22PP不X不-----0202L其中:符号用于表示索引范围。他们有损失:然后将裁剪张量的大小调整为10s或x~=g(x)=R HW(C B(x))R3H0W0,具有给定的高度和宽度H0W0。在实践中,RH0W0还可以应用附加的增强,例如颜色抖动,如实验对于视频的视觉部分vR3 TH W,情况类似,除了视频还包含额外的时间维度T。 为了避免极端的空间抖动并保持对象对齐,通常在整个时间维度上在输入空间中的相同位置处进行空间裁剪,因此我们考虑管B=L(v L1,v L2)+L(v L2,v L1)+L(v L1,vS)+L(v L2,v S)。虽然在小视频上操作节省了一些计算,但在实践中,这种方法不足以允许总共使用多于少数的作物。高效种植特征空间作为示于图如图2所示,裁剪输入视频的更有效的替代方案是裁剪中间特征。为此,我们首先应用表示的主干到视频v~=RHW(CB(v))2RDT1H1W1。我们就能-(xmin,xmax,ymin,ymax,tmin,tmax),并定义v~=gv(v) =00RH0W0(CB(v))2R3T0H0W0 通过延伸(3)在通过应用直接在每个中间代表上制作Cr opCB<明显的方式。将v映射到其对应代码z的深度神经网络工作z=Ø(v~)被馈送有具有两个spa的张量。空间维度和时间维 度。 这样的 网络, 通常 被称为 3D,包 括R3D[55],S3D [144]和R(2+1)D [133]。按照深度卷积神经网络的惯例,它们首先产生具有较低时空分辨率的中间张量,然后将后者合并以获得整个视频的单个码向量。我们明确地将其分解为三个函数Ø(v~)=(Pt◦Ps◦)(v~)(4)这里,第一个函数是3D卷积神经网络(v~) RD<<<运算符s和t分别在空间和时间维度上折叠。通过平均池化的情况。现在考虑在2中实现项L(v1,v2)。在这屈服v¯=CB¯((v~))=(v~)[tmin:t max,ymin:y max,xmin:x max](五)由于算子CB¯是轻量级的,它可以用来有效地计算多个这样的随机视图;相比之下,裁剪输入的RGB图像需要多次重新计算躯干。在实践中,给定输入视频V,我们生成以下视图。首先,我们在RGB空间中应用两种作物,产生两种大作物L1和L2。 然后,对于其中的每一个,我们使用运算符(5)生成m 中型和n 小型作物I=M1Li,. ..,M m L i,S1L i,. ..,S n L i. 我们定义一个过度-通过对中的每对视图的损失求和的所有模态内损失,两个裁剪都很小的视图对除外:Lvv=L(v,vØ)+L(vØ,v),其中,Ø在这种情况下,来自每个视频X的一个样本是两个不同的空间。时间作物gvi(xi)和gvi(xi),每个对应于(,Ø)2(T1T2)-(S1S2)(6)1 2随机管 B1和 B2分别。然而,管不是完全独立地采样的,因为它们具有相同的时间范围(tmin,tmax)。在实践中,[20,24,82,95]表明,采取多个图像裁剪可以改进自监督图像表示。我们可以通过对损失求和来实现视频 (v,vØ)对于视觉转换vØ,通过采样mul-每个视频都有三个时空管但这实际上这是困难的,这是由于每个作物的大内存占用和缓慢3D CNN的计算开销。由SwAV [20]在图像域中引入的多裁剪方法与我们的非对称对比公式(1)相结合,可以部分降低复杂性。对于多作物,我们考虑三种作物尺寸L1,L2,S,其中L1和L2代表大,S代表小。小裁剪的使用允许在计算表示O时减少存储器我们注意,在该损失中有2((m+n)2n2) 这比两个初始输入空间RGB裁剪所提供的比较次数大得多。3.3. 带变压器的我们现在讨论我们的第二个改进:更好的时间模型。挑战2:造型时间更好。与空间不变性相反,模型不应该完全不随时间变化,因为后者可以编码因果关系和语义:有人放火的视频与有人灭火的反向版本非常不同。在标准的3D网络中,主干中的特征对时间顺序敏感,但是在应用时间平均的最后阶段中丢失了该信息。我们认为,丢失的信息的价值随着视频的长度而增加,并且可以通过切换到不同的池函数来利用这些信息。10565PPP2⇥时空Transformer。我们建议通过在等式中替换时间t(4)用Transformer变压。变压器[135]已被证明有效地表示NLP域[62,81,113,114]中的顺序输入。 空间平均后,输出h=s((v~))网络的RDT1有一个特点每个时间步的向量,并且因此适合于由Transformer处理。在潜在时间维度大小上与其未裁剪变体不同的特征h可以被视为掩盖了Transformer的注意力。掩蔽注意力已用于Transformer编码器-解码器训练中,以防止模型作弊[33]并鼓励它从上下文中杠杆化年龄信息。我们使用一个浅,重量轻的Transformer器上我们的功能裁剪程序,我们证明是足够的,以获得更好的时间建模的好处我们使用2层和4个自关注头,并在附录中提供有关Transformer架构的更多细节。3.4. 整体亏损我们的组合模型,STiCA,更好地学习时空的不变性和关系,通过裁剪时空和利用时间的注意力与Transformer。对于训练,我们批量采样N个视频,并且 对 于 它 们 中 的 每 个 , 在 RGB 空 间 中 计 算 两 个3.2),以及音频增强a.利用这些,通过对来自等式的模态内损失Lvv(6)对于交叉模态损失:其中Lva =L(v L1,a)+L(v L2,a)+L(a,v L1)+L(a,v L2)。4. 实验我们首先描述数据集(Sec. 4)和实施细节(第(4)预培训。节中4.1中,我们描述了用于评估从自监督学习获得的表示的下游任务。节中4.2,我们消融了我们的方法的各个组成部分,以及时间背景和多模态的重要性。四点三。最后,在SEC。4.4,我们与先前在视频和多模态表示学习方面的工作进行了比较。数据我们在Kinetics-400数据集[ 69 ]上进行预训练,该数据集包含约230 K的训练视频和13 K的验证视频,属于400个动作类。该数据集用于视频表示学习的“ImageNet”它的规模适中,公开,允许广泛的访问和可比性。预训练后,我们在HMDB- 51 [77]和UCF-101[120]上评估了视频动作检索和动作识别。HMDB-51[77]由7 K涵盖51种不同人类活动的视频剪辑。HMDB- 51有三个分别为5 K/2K大小的训练/测试分割。UCF-101 [120]包含来自101个人类动作类的13 K视频,并且分别具有大小为11 K/2K的三个训练/测试分割。实作详细数据。在[106]之后,我们使用R(2+1)-18[133]网络作为视觉编码器,使用9层的ResNet [59我们训练了100个历元,并使用30帧,时间步长为1,采样率为30 fps,空间分辨率为112 - 112作为输入。在我们的消融中,我们通过微调HMDB-51 [77]动作识别数据集的折叠1上的视觉编码器来评估学习的表示。附录中给出了进一步的实施细节。4.1. 下游任务视频动作检索。对于视频检索,我们遵循[145]中描述的标准协议。我们使用split 1的UCF-101和另外的HMDB-51。我们对每个视频均匀采样10个剪辑,最大池,然后对每个视频的每个剪辑的最后一个残差块之后的特征进行平均。我们使用这些来自验证集的平均特征来查询训练集中的视频如果检索到的视频的类别我们在k=1,5,20时测量召回率。视频 动作 识别 。作为文献中 的标准,我们通过 在HMDB-51和UCF-101数据集上的视频动作识别任务上微调我们的视觉骨干来评估我们的预训练表示我们密切关注GDT的微调时间表[106]。在微调期间,我们使用初始学习率为0的SGD。0025,我们将其逐渐升温至0.权重衰减被设置为0。005,动量为0。9 .第九条。我们使用32的小批量,训练12个epoch,学习率乘以0。05,在6和10个时期。对于训练,我们对每个视频随机采样1s剪辑,在评估期间,我们从每个视频中均匀采样10个剪辑,并应用3-crop评估,如[41]所示。4.2. 对比实验和消融作物增产。在选项卡中。1a,我们消融了空间增强在学习视频表示中的重要性。我们将我们提出的特征作物增强,CB¯,与最近提出的多作物增强策略[20]和其他基线方法进行比较。多作物已被证明在图像自监督学习中是有效的,因为它通过明确地强制执行大作物的特征和多个小作物的特征之间的不变性,迫使模型学习局部到全局的关联。虽然有效的,它可以是特别计算密集型,其中,与我们的硬件,限制其使用只有两个大作物和一个小作物时,应用于视频表示学习。10566⇥⇥⇥⇥表1:比较实验和消融。我们比较我们所提出的方法的关键参数和设置。除非另有说明,否则我们报告在历元100和30帧并且没有Transformer的结果模型性能。l-空间大小l-时间大小Acc.M S M S254.第54章. 0(a) 裁剪产生效益,但需要更多的计算。我们的特色作物是高效的,并且表现出色[20]。请注意,所有模型都训练了100个epochs。16 2421459. 91⇥622⇥4258. 42⇥624⇥42 60.第二季第3集4(b) 特色作物。 在潜在(I)空间和时间中更重的增强导致更好的表示。预训练微调访问转账?层Params GFLOPSAcc.C空间C时间T?T?Acc.54.第五十四章. 070三十七2M七十七。7五十四0777五十四054.第五十四章670四十二8M八十0五十七3377五十九952.第五十二章. 132四十二4M七十七。8六十岁。3337六十岁。460.第60章我的世界334四十七7M七十七。8五十八3333 62. 0(c) 合并。与平均池化(Pt)相比,基于转换器的池化(Ptransf)提供更强的性能。(d) 架构使用多达两个变换器层给出增益,而不是由于更多的可训练参数。(e) 综合收益。空间中的特征裁剪C空间和 时 间 C 时 间 和 Transformer 池 化(T)添加累积的益处。方法RGB-Crops多尺度RGB-Crops特征裁剪1x2x4倍放大器 2x112 + 1x96 2x112 + 2x96 2x112 +6x96 (1x7,1x4)(2x6 + 4x4,2x3 + 1x2)GPU-h/epoch17.329.3六十46.753.3100.729.330.0(f) 速度 输入作物生长缓慢:方法需要减少批量大小(请参见附录),因为激活不适合GPU。ing.我们提出的功能作物不仅更有效,但优于多作物1。1%,当学习的表示应用于HMDB-51中的动作分类时。通过在特征空间中裁剪,我们实现了类似的效果,但可以在不增加计算时间的情况下将小裁剪的数量从1增加到6。特征裁剪参数。在选项卡中。1b,我们研究了我们的特征裁剪方法的参数。我们发现,即使是我们的基本变体,它做一个中等6 6作物和两个4 4小作物(通过裁剪7 7张量)提高了近6%的性能,这是一个相对的改进超过10%。如果我们在时间和空间上进一步增加作物的数量,则性能从59提高。9%至60。百分之四池化功能。在选项卡中。1c,我们测试时间聚合。我们发现,使用浅层Transformer的性能明显优于简单平均池化5%以上;然而,变换器池化必须用于预训练表示和在目标数据集上对其进行微调。Transformer架构。 在选项卡中。在图1D中,我们测试了Transformer架构的变体,包括一起烧蚀。我们发现,时间建模测量下游性能峰值在两层,可能是由于优化困难的更深的变压器与SGD。我们还比较了与我们的2层Transformer具有近似相同数量的参数的模型(通过增加网络的最后一块的隐藏维度来至640)。我们发现,Transformer仍然产生3%的收益,这表明它不是参数的数量,但时间的建模是至关重要的强大的性能。组合要素裁剪和Transformer池。在选项卡中。1e,我们表明,在空间和时间上组合特征裁剪,然后添加Transformer池化产生附加增益,通过组合所有效果(对应于STiCA)获得最佳结果。这表明时空增强和Transformer池是互补的。收获效率。 在选项卡中。 图1f中,我们比较了所考虑的各种空间作物的Kinetics-400时期的训练时间(归一化为GPU小时)。我们提出两点意见:首先,RGB裁剪的计算成本与其数量成比例缩放,因为每个裁剪都需要完整的前向传递。其次,使用更大数量的RGB裁剪最终需要减小批处理大小,这显著增加了训练时间。相反,无论作物的数量如何,特征作物的成本大致保持不变。4.3. 时间语境与多模态时间上下文的长度。在选项卡中。2,我们展示了利用更长的上下文来改善视频自监督表示学习的重要性。与监督机制类似[134,139],我们观察到随着预训练和微调期间使用的帧数的增加,准确性有所提高。更重要的是Transformer池裁剪策略分辨率GPU-h/epochAcc.1112 217. 3五十四0TwoRGBCrops2112229. 3五十八6Multi RGB Crops [20] 2 1122 + 1 96246. 7五十九310567帧精度预训练微调间隙转换3030五十四0六十岁。310没有五十四0606062. 466岁。10.50.5没有五十八69090五十八066岁。90.50.5是的六十岁。3表2:时间上下文。我们报告的结果与不同数量的帧微调精度。表3:损失。将模态内和跨模态损失与特征裁剪相结合是关键。表5: 与SoTA进行检索比较。 最近方法体系结构数据集前1次访问%HMDBUCF监督R(2+1)D-18K-40070.495.0[9]第九话R(2+1)D-18K-40047.183.1[63]第六十三话R3D-18K-40049.879.3PEMT [80]慢快K-400-85.2XDC [6]R(2+1)D-18K-40052.686.2MemDPC [53]R-2D3DK-40054.586.1AVSF [143]AVSFK-40054.687.0AVTS [74]公司简介K-40056.985.8CPD [85]R3D-50K-40057.788.7AVID [97]R(2+1)D-18K-40060.887.5GDT [106]R(2+1)D-18K-40060.089.3ACC [90]R3D-18K-40061.890.2GLCM [91]R3D-18K-40061.991.2CoCLR [54]S3dK-40062.990.6CVL [112]3R3D-50K-40066.792.2我们的:STiCA R(2+1)D-18K-40067.093.1[9]第九话R(2+1)D-18VGGS53.187.7[98]第98话S3D-G电影58.1-DynamoNet [34]ResNext101Y8M58.687.3[93]第二十三话S3dHT61.091.3AVTS [74]公司简介作为61.689.0AVID [97]R(2+1)D-18作为64.791.5文本[123]S3D-GWVT-70M65.390.3GDT [106]R(2+1)D-18作为66.192.5ACC [90]R(2+1)D-18作为67.293.5电子邮件[110]D-50Y2m67.493.8XDC [6]R(2+1)D-18公司简介68.995.5GDT [106]R(2+1)D-18公司简介72.895.2MMV [5]TSM-50x2AS+HT75.095.2表 4 : 与 SoTA 的 动 作 识 别 比 较 。 虚 线 表 示我 们 的Kinetics-400模型与使用更多视频训练的模型相比的位置。我们遵循3倍的标准评估方案。线性评价结果见表1。7 .第一次会议。层能够更好地利用该附加上下文,对于所有帧长度,比平均池化性能高出4%以上。值得注意的是,当将GAP用于非常长的上下文(90帧)时,性能会下降。损失最后,在Tab。3、研究了多模态学习信号与我们的贡献相结合的效果。在第一行中,我们有一个简单地扩展Sim的基线3并行工作。λvaλvvF. 作物?Acc.UCFHMDB01没四十三3召回@1 5201520MemDPC [53]20.240.464.77.725.757.7VSP [25]24.641.962.710.326.676.8[9]第九话52.068.684.524.847.675.5CoCLR [54]55.970.882.526.145.869.7GDT [106]57.473.488.125.451.475.0我们的:STiCA五十九1七十六。88岁1二十六岁3四十九2七十六。10568⇥邻居动作检索性能@ k ={1,5,20}。CLR [24]到视频域,通过学习两个大作物的空间增强的不变性。与此相比,跨模态基线(第2行)已经实现了超过10%的增益。虽然增加模态内不变性增加了另外4.6%,但我们发现,使用我们的特征作物获得了最佳性能,增加了另外1.7%的性能,并显示出其补充跨模态信号的独特潜力。4.4. 与最新技术水平的比较视频动作识别。在选项卡中。4,我们在Kinetics-400数据集上进行预训练后,在标准HMDB-51和UCF- 101动作识别基准上评估了我们的预训练方法。首先,我们发现我们的模型比类似的基于NCE的GDT [106]模型高7。0%和3. HMDB-51和UCF-101占8%。我们进一步显著优于当前最先进的方法CoCLR[54] 4。1%和2。5%和CVLR [112] 2。占6%和1. HMDB-51和UCF-101分别为0%。更令人印象深刻的是,我们的方法能够超越大多数使用AudioSet [44]预训练的先前作品,它比Kinetics-400大10左右。这表明我们的方法是多么有效和高效,大大缩小了与监督学习的差距。视频动作检索。最后,我们直接评估了UCF-101和HMDB-51上动作检索的预训练表示的可移植性。类似于全微调设置,我们优于所有以前的作品.5. 结论我们已经解决了当前自监督视频表示学习的两个缺点:空间不变性不足,特别是与图像域相比,以及时间建模不足。我们引入了STiCA,通过在特征空间中实施裁剪来以很小的成本提高空间不变性,并通过浅层Transformer提高时间建模。我们的方法使自我监督的视频表示学习更接近监督的情况,提供了显着的收益w.r.t.最先进的10569引用[1]Triantafyllos Afouras 、 Joon Son Chung 、 AndrewSenior、Oriol Vinyals和Andrew Zisserman。深度视听语音识别。IEEE关于模式分析和机器智能的交易,2018。[2]Triantafyllos Afouras、Joon Son Chung和Andrew Zis-瑟曼对话内容:深度视听语音增强。Interspeech,2018.[3]Triantafyllos Afouras、Joon Son Chung和Andrew Zis-瑟曼深度唇读:模型的比较和在线应用程序。2018年。[4]Triantafyllos Afouras,Andrew Owens,Joon SonChung,还有安德鲁·齐瑟曼视频中视听对象的自监督学习。在ECCV,2020年。[5]Jean-Baptiste Alayrac,Adria` Recasens,Rosalia Schnei-der , ReljaArandjelo vic´ , JasonRamapuram , Jef freyDeFauw,Lucas Smaira,Sander Dieleman,and AndrewZis-serman.自监督多模态通用网络。在NeurIPS,2020年。[6]Humam Alwassel , Bruno Korbar , Dhruv Mahajan ,LorenzoTorresani,Bernard Ghanem,and Du Tran.跨模态音视频聚类的自监督学习。 在NeurIPS,2020年。[7]Relja Arandjelovic和Andrew Zisserman。听着学习 InICCV,2017.[8]Relja Arandjelovic和Andrew Zisserman会发出声音的物体。在ECCV,2018。[9]Yuki M浅野、曼德拉·帕特里克、克里斯蒂安·鲁普雷希特和安德里亚·维达尔迪通过多模式自我监督从头开始标记未标记的视频。在NeurIPS,2020年。[10]Yuki M Asano,Christian Rupprecht,and Andrea Vedaldi.自我监督的批判性分析,或者我们可以从一张图片中学到什么。在ICLR,2020年。[11]Yuki M Asano,Christian Rupprecht,and Andrea Vedaldi.通过同时聚类和表示学习的自标记。在ICLR,2020年。[12]尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音-net:从未标记的视频中学习声音表示。InNeurIPS,2016.[13]Philip Bachman,R Devon Hjelm,and WilliamBuchwalter
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功