没有合适的资源?快使用搜索试试~ 我知道了~
统一梯度框架的Siamese自监督学习等价性研究
14431基于统一梯度框架的Siamese自监督学习等价性研究陶晨新1人,王红辉1人,朱锡洲2人,董嘉华3人,宋世基1人,高煌1人,4人,戴继峰1人,4人1清华大学、2商汤科技、3浙江大学4北京人工智能研究院,中国{tcx20,wanghh20}@ mails.tsinghua.edu.cn,zhuwalter@sensetime.com,cnjiahuadong@gmail.comshijis@mail.tsinghua.edu.cn,gaohuang@tsinghua.edu.cn,daijifeng001@gmail.com摘要自监督学习已经显示出其巨大的潜力,可以在没有人类注释的情况下提取强大的视觉表示。从不同的角度提出了各种工作来处理自监督学习:(1)对比学习方法(例如,MoCo,Simplified)利用正负样本指导训练方向;(2)非对称网络方法(例如,BYOL,Sim-Siam)通过引入预测器网络和停止梯度操作来去除负样本;(3)特征去相关方法(例如,Barlow Twins,VICReg)的目标是减少特征尺寸之间的冗余。这些方法似乎是相当不同的设计损失函数从不同的动机。最后的准确性数字也各不相同,不同的网络和技巧在不同的作品中使用。在这项工作中,我们证明,这些方法可以统一成相同的我们没有比较它们的损失函数,而是通过梯度分析得到了一个统一的公式。此外,我们进行公平和详细的实验,比较他们的表现。结果表明,这些方法之间的差距不大,动量编码器的使用是提高性能的关键因素。从这个统一的框架,我们提出了UniGrad,一个简单但有效的自监督学习梯度形式它不需要存储库或预测器网络,但仍然可以实现最先进的性能,并可以轻松采用其他训练策略。线性评价和许多下游任务的大量实验也表明了它的有效性。应发布代码。*同等缴款。[2]本研究是在陶晨欣、王红辉和董嘉华在商汤科技研究院实习通讯作者。图1. 概述了 三种典型的 自监督学习方法和 我们提出的UniGrad。U1和U2是同一图像的两个增强视图。V表示其他图像的视图。我们发现,这些方法具有类似的梯度结构,由正梯度和负梯度组成,这可以类似于对比学习中的正样本和负样本。因为有些方法没有明确地利用负样本,我们强调了每种方法中负梯度的来源。1. 介绍自监督学习(SSL)最近吸引了很多研究兴趣[1,6,8,17,21,34]。它已经显示出提取与监督学习竞争的强大视觉表示的潜力,并在多个视觉任务上提供了卓越的性能。2对比学习法1 21肯定的相似性交叉熵损失1负相似性L = −102+1000������������1非对称网络方法2−ℎ���1������2余弦相似性损失预测因子���从=σL������������������一个封闭的解[28]1= − 102 +1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000������������������������1特征去相关方法2MSE损失1相关矩阵L122���=(+)������������=−2 公司简介 ���11 21 212UniGrad1肯定的相似性2−+2������������������11 221σ��������� ���������21=σ������������������负相似性L =− 公司简介2 1114432最近的作品从不同的角度处理SSL,导致三种典型的方法(见图1),而连体网络总是采用。对比学习方法[6,7,9,17]旨在减少来自同一图像(正样本)的两个增强视图之间的距离,并将来自不同图像(负样本)的视图推开阴性样本在这些方法中起着重要的作用,以避免代表性崩溃。非对称网络方法[8,21]声称仅采用正样本就足够了。关键是引入非对称网络结构。在这些方法中,预测器网络仅附加在连体网络的一个分支之后,而另一个分支与梯度反向传播分离虽然这些方法已经取得了令人印象深刻的性能,但它们仍然很难理解。最近的工作[28]试图分析他们的训练动力学,但仍然缺乏直接的解释。特征去相关方法[1,13,20,34]最近被提出作为SSL的新解决方案相反,他们这些方法似乎在如何学习表示方面存在很大差异,而且由于不同的作品中使用了不同的网络和技巧,因此有这么多不同的方法,很自然地会问:它们之间的关系是什么?它们背后的工作机制之间有什么联系吗?究竟是什么因素导致了性能差异?在这项工作中,我们统一了上述三种典型类型的SSL方法在一个统一的框架。本文不对它们的损失函数进行比较,而是通过梯度分析导出了统一的公式.我们发现所有这些方法都有相似的梯度公式。它们由三个部分组成:正梯度,负梯度和平衡这两项的标量。正梯度是来自同一图像的另一增强视图的表示,而负梯度是来自不同图像的表示的加权组合。这两个术语的效果类似于对比学习方法中的这表明,这些方法共享类似的工作机制,但以不同的方式组织损失函数。此外,由于这些方法在梯度的具体公式上存在差异,我们进行了公平而详细的实验比较。事实证明,不同的梯度公式导致接近的性能,真正重要的是使用动量编码器。在这个统一的框架下,我们提出了一个简洁而有效的梯度公式UniGrad,该公式显式地最大化正样本之间的相似性,并期望负样本之间的相似性为零。该公式不需要存储库或非对称网络,易于采用普遍增广策略(例如,CutMix [33]和multi-crop [4,5]),以进一步提高性能。大量的实验表明,我们的方法是有竞争力的各种任务,包括标准的线性评价协议,半监督学习任务和各种下游视觉任务。我们的贡献可以概括为:• 从梯度分析的角度,为不同的自监督学习方法提出了一个统一的框架.这表明,尽管恶意作品在损失函数上似乎不同,但它们实际上是以类似的机制工作的;• 不同的自监督学习方法在一个公平和受控的实验设置下进行了比较。结果表明,它们可以达到相近的性能,而动量码编码器是影响最终性能的关键因素;• UniGrad是一个简洁但有效的自监督学习梯度公式。大量的实验证明了它的竞争性能。2. 相关工作长期以来,对比学习方法一直是在自我监督学习领域的研究[2,10,31]。其主要思想是区分阳性和阴性样本。自InfoNCE提出以来[26],许多新的研究成果[3,4,6,7,9,17,19,22,23,36]将这一概念推向了一个新的高度。在这些方法中,阴性样品起着关键作用,并且是精心设计的。Mo-Cos [7,9,17]构建了一个带有动量编码器的存储库,以提供一致的负样本,为CNN [7,17]和视觉变换器[9]带来了有希望的结果。Simplified [6]通过强大的数据增强和可学习的非线性投影头增强了负样本的表示。其他方法进一步将对比学习与实例分类[3]、数据增强[22,36]、聚类[4,23]和对抗训练[19]。对比学习方法将正样本拉到一起并将负样本推开,导致超球体上表示的对齐和均匀性[30]。我们的研究发现,尽管非对比学习方法针对不同的目标函数进行优化,但它们与对比学习方法具有相似的梯度结构。非对称网络方法的目标是仅用正对来完成自监督学习[8,21,27]。通过引入非对称网络结构避免了表征的崩溃。BYOL [21]在在线分支后添加预测器网络,并为目标分支采用动量编码器。[27]表明BYOL即使没有批次统计也能够实现有竞争力的性能。SimSiam [8]进一步144331222222211112Σ1示出了停止到目标分支的梯度可以起到与动量编码器类似的作用。DINO [5]采用具有自蒸馏损失的非对称管道。尽管性能令人印象深刻,但人们对非对称网络如何避免崩溃知之甚少。最近的工作[28]对分析训练动力学进行了初步尝试,但仍然缺乏直接的解释。基于[28]的结论,我们的工作建立了非对称网络与对比学习方法之间的联系。从后向梯度的角度来看,我们证明了预测器学习将先前样本的信息编码在其权重中,该权重在反向传播期间充当负梯度。这导致了与对比学习类似的梯度结构。最近提出了用于自监督学习的特征去相关方法,以防止代表性崩溃[1,13,20,34]。W-MSE [13]在计算余弦相似性损失之前对特征表示进行白化,以便表示分散在单位球体上。Bar- low Twins [34]鼓励接近单位矩阵的表示的互相关矩阵,其使表示的不同维度去相关,并加强相同维度中的相关性。VICReg [1]应用方差-不变性-协方差原理来代替批归一化和互相关矩阵的使用Shuffled-DBN [20]探索了批量归一化对嵌入的作用,并开发了一种用于更好的特征去相关的shuffle方法特征去相关方法显示出与对比学习方法相当的结果。然而,目前还不清楚为什么这种方法效果良好。我们的工作表明,特征去相关方法的梯度公式可以转换为正负样本的组合,从而共享类似的梯度结构的对比学习。符号含义u1、u2当前关注样本v非特定样品uo,vo样本来自在线分支机构来自未指定目标分支的ut,v t样本s,vs来自权重共享目标分支的样本来自停止梯度目标分支的ud,vd 样本来自动量编码器目标分支的样本V未指定样本集当前批次的样本集Vbatch存储体的样本集Vbank所有先前样本的V∞样本集表1.本文中使用的符号。传播,对应于u_d和v_d; 3)从在线分支更新的动量编码器,对应于u_m和v_m。如果未指定目标分支类型,则使用ut和vt。请注意,对称损失始终用于两个增强视图,如[8]所述。此外,V表示当前训练步骤中考虑的样本集。不同的方法以不同的方式构建样本集:Vbatch包含来自当前批次的所有样本,Vbank由存储先前样本的存储体组成,并且V∞表示所有先前样本的集合,其可以比存储体大得多。梯度分析的详细信息可参见附录A。3.1. 对比学习法对比学习方法需要负样本来避免代表性崩溃并实现高性能。他们使用来自相同图像的另一个视图作为阳性样本,并使用不同图像作为阴性样本。这些方法的目的是将正对拉在一起,而将负对分开。通常使用以下InfoNCE损失[26Σ Σexp(cos(uo,ut)/τ)L=Eu1,u2-logΣvt∈V12 、(1)exp(cos(uo,vt)/τ)3. SSL的统一框架一个典型的自监督学习框架由一个连体网络组成该网络的两个分支分别称为在线分支和目标分支,在线分支的训练目标是目标分支表示。给定输入图像x,创建两个增强视图x1和x2作为输入的两个分支。编码器f(·)e提取repre senta,从这些观点来看,ui∈f(xi),i=1,2表1说明了本文中使用的符号。u1其中函数cos(·)测量两个表示之间的余弦相似性,τ是温度超参数。当量(1)可以为不同的方法实例化,我们将在下面讨论。与MoCo的关系[7,17]。MoCo采用动量编码器用于目标分支,并且采用存储器组来存储来自目标分支的先前表示。它的负样本来自内存库。因此,样本uo的梯度为.ΣL1和u2表示当前关注的训练样本,=-um+svvm、(二)而V表示未指定的样本。 uo和vo表示奥陶涅2vm∈V银行从在线分支提取的表示。那里有三种广泛使用的目标分支:1)其中sv=exp(cos(uo,vm)/τ)Om是softmax re-ym∈Vbankexp(cos(u1,y)/τ)与在线分支机构分享权重,对应于美国(2)重,但与梯度分离。结果之间的相似性uo和其他样品,和N当前批次中所有样本的数量。114434121111IJ.1与Simplified的关系[6]。对于Simplified,目标分支与在线分支共享权重,并且不会停止反向传播的梯度。它使用来自同一批次的其他图像的所有表示作为负样本。因此,其梯度可以计算为:这些方法避免了崩溃解决方案。最近,Direct- Pred [28]通过研究训练动力学,对这一目标进行了初步尝试并进一步提出了预测器h(·)的解析解。具体来说,DirectPred声称预测器可以是L奥苏岛.=1−us+τ N.1Σvs∈Vbatch\uoΣΣsv vsΣ(三)公式为h(v)=W h v,其中W h可以基于相关矩阵Ev(vv T)直接计算。在实践中,该相关矩阵被计算为mov。计算每个批次的相关矩阵的平均值,即,+−us+tvvs,Fρvo voT,其中ρ是移动平均线τN2vo∈V∞VVvs∈Vbatch\uo联系我们减少到0exp(cos(vs,uo)/τ)每个样品的重量根据其批次顺序。 通过将F分解成其特征值ΛF和特征向量U,Wh可以计算为其中tv=1ss计算二分之一ys∈Vbatch\vsexp(cos(v,y)/τ)在样本vs和其对比sam之间的相似性上,Wh=UΛhUT,Λh=Λ+λmax I,(6)请将Vbatch\vs。 如果通过taget分支的梯度停止,则方程(1)中的第二项将变为:(3)会消失。我们有已验证停止第二梯度项不会影响性能(见附录表6),因此公式(3)可以简化为仅第一项。统一梯度。 从梯度的角度来看,其中,λmax是F的最大特征值,并且λ max是帮助提升小特征值的超参数。虽然DirectPred显示了预测器学习的内容,但我们更进一步,试图揭示预测器和对比学习之间的关系。在Di- recPred的帮助下,梯度可以导出并简化为:方法可以用统一的形式表示:L=∫1−WTut+λΣ (ρvuoTvo)vo、、(7)1吨奥苏岛||2N||2NH21vo∈V∞uo= τ N-u2+svv、(四)不tΣo TOO1vt∈V其中-Whu2,vo∈V∞(ρvu1v)v工作为其中,梯度由以下各项的加权和组成:正梯度和负梯度,λ=uoTW Tu t托赫2o是一个平衡因子。并且N ∈G是I个样本。f−u2的效果是将u1T(F+I)u1样本在一起,并且vt∈Vsv vt的效果是将负样本推开。 我们将这两项分别命名为正梯度和负梯度。唯一不同的是-方法之间的参考是使用什么类型的目标分支以及如何构建对比样本集V。3.2. 非对称网络方法非对称网络方法通过最大化正对的相似性来学习强大的表示,而不使用负样本。这种方法需要对称性破缺网络设计来避免代表性的耦合。失效为了实现这一点,在在线分支之后附加预测器h(·) 到目标分支的梯度也停止.目标函数可以表示为:Σ ΣL= E− cos(h(u o),u t)。(五)u1,u 21 2与BYOL的关系[21]。 对于BYOL,动量编码器用于目标分支,即,ut=um在等式中(五)、这似乎违反直觉,Eq。(7)也是一种组合--正样本和负样本的国家,因为没有负样本显式出现在损失函数中。事实上,它们来自预测器网络的优化根据[28]的发现,预测器Wh的特征空间将逐渐与特征相关矩阵F的特征空间对齐。因此,预测器可以学习将相关矩阵的信息编码在其参数中。在反向传播过程中,编码信息将作为负梯度工作,并有助于优化的方向。3.3. 特征去相关方法特征去相关方法是近年来出现的一种新的自监督学习方法。提出了减少不同特征维数间冗余度的方法,避免了特征维数的崩溃.最近的作品采用不同的损失形式的功能去相关。我们在下面讨论它们的关系。与巴洛双胞胎的关系[34]。Barlow Twins使用以下损失函数:2 2与辛西亚的关系[8]。Simsiam表明,动量编码器是不必要的,并且仅应用停止梯度联系我们L=( Wii−1)2+ λΣ西2,(8FΣ14435)操作到目标分支,即,ut=ud在等式中(五)、i=1i=1j=i2 2Σ统一梯度。虽然非对称网络方法其中W=1os是互相关N v1,v2∈Vbatch1 2已经取得了令人印象深刻的性能,目前还不清楚如何矩阵,C表示特征维数和λ的数量144361uv1111111o1c(N−1)O是一个平衡超参数 v上的对角元素(见表2(j))。事实上,我们已经绘制了余弦模拟图-uW被鼓励接近1,而那些非对角线的元素被强制接近0。被忽视的术语之间的矛盾,vo∈V批11v1N第一眼,Eq。(8)与以往方法的损失函数有很大不同。然而,从梯度的角度来看,它实际上以相同的方式工作,可以计算为在图3(d)中。 预计它们将对因为方向相似。当量公式(11)可以简化为仅第一项而无需去中心操作。统一梯度。 因为v s和v o在数学上是.第2章=Σ−Aus+λSt s2 2voΣ、(9)等价的,特征去相关族的梯度形式可以统一为:努岛“第二章2Svo,vs∈Vbatch N.2吨uoTvo减少到-0。1u212n=N-u2+λvo∈V批次Nv1、(十二)其中A = I −(1 − λ)Wdiag. 这里(Wdiag)ij=δ ij W ij为W的对角矩阵,其中δij是克罗内克δ。其中第一项-ut作为正梯度,我们绘制W的最大值和最小值diag 在图3(c)中,二任期Σvo∈V批次二、uoT vo/NΣvo是负的gra这表明Wdiag接近于缩放的单位矩阵。因此,我们将A替换为单位矩阵乘以0。1在实践中经验证,这种替换实际上对最终结果没有损害(见表2(g))。此外,应该注意的是,Barlow Twins对代表应用批量归一化而不是102归一化泰申湾我们已经验证了更改为1002标准化不会影响性能(见表2(h))。与VICReg的关系[1]。VICReg对Barlow Twins做了一些修改,并使用了以下损失函数:而λ也是一个平衡因子。方法之间的唯一区别是负系数的下标特征去相关方法实际上与其他自监督方法以类似的方式正、负梯度分别来自相关矩阵的对角元素和4. SSL的关键因素正如我们之前分析的那样,不同自监督学习方法的梯度有一个类似的公式:L=1Σ||vo−vs||2+λ1Σc W′2L=λLp+λLn,(13)Nvo,vs∈Vbatch22cIJi=1j=i奥苏岛1+ λ2C2Σci=1max(0,γ− std(vo)i),Σ(十)其中梯度由三个分量组成:正梯度<$Lp、负梯度<$Ln和平衡因子λ。然而,在这方面仍存在分歧。其中W′=1o(vo−v<$o)(vo−v<$o)T是co--这三个部分的具体形式,和一个自然的问题-N−1v1∈V批11 1 1同一视图的方差矩阵,std(v)i表示v的第i个通道的标准偏差,γ是它的恒定目标值,λ1,λ2是平衡权重。类似地,其梯度可以导出为:问题出现了:梯度形式是否会影响性能自我监督学习的方法此外,虽然这些方法具有相似的梯度公式,但它们通常在目标分支的类型和约束条件上彼此第2章= .Σ-us+λΣ你好,v~样品组的结构V. 在本节中,我们将进行这些方法和目前的方法努岛2N1vo∈V批次影响最终性能的关键因素.+2λ1uo−Buo Σ(11)、虽然以前的作品比较他们的冰毒-与其他人一样,训练设置通常是不同的。N λ1 1联系我们减少到0为了提供公平的比较,我们使用统一的训练和评估设置,其中只有损失函数是2变了我们的设置主要遵循[8](见附录B)。其中v<$=v−v<$是偏心样本,λ=2λ1N2,且B=N(2λ1W′+λ2diag(γ−std(vo)>4.1. 梯度形式cλ(N−1)1C11144371diag210) (v o))。这里diag(x)是一个对角线填充向量x的矩阵,diag(·)是指示函数,diag(·)注意到元素除法。VICReg不对v应用任何标准化,而是需要去中心操作和损失函数中的标准我们已经证明,它是能够摆脱这样的条款,通过采用m2归一化我们首先探讨梯度形式在不同方法中可以产生多大的差异。为了公平比较,目标分支对所有方法都采用动量编码器。目标分支类型的影响将在第4.2节中讨论。应注意的是,我们在损失形式中应用动量编码器并导出相应的梯度,因此某些负梯度形式不包含vm。14438211方法标准阳性梯度平衡因子阴性梯度样本集线性评价对比学习法(a)美国[17]−umΣ1vm∈V银行sv vmV银行70.0(b)[6] 1996年,美国的一个州。m osvvmVbatch\uo70.02非对称网络方法v∈Vbatch\u11(c)BYOL [21]2002-70.3(d)BYOL(DirectPred [28])−WTumuoTWTum(ρ uoT vo)voV70.22小时2uoT(F+I)uovo∈V∞v1∞(e)--−um11100(ρ uoT vo)voV70.322特征去相关方法vo∈V∞v1∞(f)[34]第34话:我的世界5×10−3ΣumTvmvo222vo,vm∈V批N1(g)- BN−um5×10−3ΣumTvmvo222vo,vm∈V批N1(h)--−umΣ1 250umTvmvo2222vo,vm∈VbatchN 1(i)VICReg [1]-−um4×10−5Σ12 uoTvovo+1uo−Buo112vo∈V批次N1λ 11(j)--−um25天前vovo1122vo∈V批次N1表2.ImageNet上不同方法的性能比较[12]。 (13)。线性评价遵循[8]中的方案。注意,动量编码器用于目标分支。具体来说,我们首先尝试比较和简化每种方法中的这可以在早期阶段过滤掉不相关的元素,使比较更加清晰。然后,我们可以比较所有这些方法。由于正负梯度的尺度在简化过程中可能变化很大,因此我们为每种组合寻找最佳平衡因子。简化对比学习。表2(ab)报告了不同对比学习方法的性能表2(a)中使用原始MoCo [17]。因为动量编码器应用于表2(b)中的Simplified [6](3)自然减少。这两种方法在最终结果上几乎没有差异。我们还注意到,Simplified使用Vbatch而不是像MoCo中那样使用Vbank,但只有微小的差异。 这表明,通过适当的培训设置,大量的阴性-对于良好的性能,主动采样可能不是必需的。简化为不对称网络表2(c-e)给出了非对称网络法的简化结果。原始BYOL [21]和具有DirectPred[28]形式的BYOL的梯度版本分别在表2(cd)中给出,其结果与[28]的结论一致。这里没有介绍SimSiam[8],因为它的动量编码器变体只是BYOL。在表2(e)中,我们用单位矩阵代替正梯度中的Wh,将动平衡因子降为常数。这种替换不会导致性能下降。因此,非对称网络法的梯度形式可以统一为表2(e)。特征去相关的简化。 我们在表2(f-j)中展示了特征去相关方法的结果。对于Barlow Twins [34],位置中的矩阵A表2(f)的正梯度首先用表2(g)中的单位矩阵代替结果表明,这不会损害性能。在表2(h)中,然后用NH2归一化代替批次归一化,并且没有观察到准确度降低对于VICReg [1],我们在表2(i)中报告了其结果。在表2(j)中,将λ2归一化应用于表示,并且以i ve梯度从n e g中移除λ1u1−Bu1项。这种简化产生了类似的结果。最后,表2(hj)仅在如何计算负系数方面有所不同。比较表明,可以获得类似的性能。因此,特征去相关方法的梯度形式可以统一为表2(j)。不同方法的比较。最后,我们可以比较各种方法及其统一的梯度形式,表2(bej).梯度的三个分量有相同的正梯度,寻找最佳平衡因子,唯一不同的是负梯度。表2显示,不同方法之间的平均值差距实际上很小(0.5%)。另外,非对称网络方法与梯度形式的特征去相关方法相似,只是用V ∞代替V b a t c h。这意味着他V的构造对于自监督学习来说并不重要。4.2. 目标分支类型目标分支的类型对于原始实现中的不同方法是不同的在4.1节中,我们对所有方法都采用了动量编码器。现在,我们在表3中研究不同目标分支类型的效果。目标分支可以有三种选择:权重共享、停止梯度和动量编码器。我们使用统一的形式(即,表2(BEJ))作为这三种类型1H212V批69.0V批69.7V批70.0V批70.0V批69.814439v1对比 非对称特征正梯度负梯度学习网络解相关表2(b)表2(e)停止坡度67.667.967.6势头70.070.269.8势头停止坡度70.170.369.8表3.目标分支类型的影响。我们报告了ImageNet [12]在100个epoch预训练后的线性评估精度。方法,并更改目标分支类型。由于总是采用对称损失,因此梯度形式的权重共享为了简单起见,我们省略了权重共享变量。对于停止梯度目标分支类型,不同自监督学习方法的结果非常相似,这与第4.1节中的结论一致。对于动量编码器目标分支类型,它可以提高所有三种方法的性能,与停止梯度目标分支类型相比,约2%的点。 这表明动量编码器有利于这些自我监督学习方法,并可以提供一致的性能增益。我们进一步考虑了动量编码器对梯度的哪一部分有影响。为了实现这一点,我们只对正梯度采用动量编码器输出。表3表明对正梯度应用动量编码器就足够了这表明,一个一致的和缓慢更新的积极目标可能对自我监督学习非常重要5. SSL的一种简洁梯度形式5.1. UniGrad不同方法的梯度之间的比较引导我们找到一个简洁但有效的自监督学习梯度形式建议的梯度,命名为Uni-Grad,可以表示为∂Lm o与对比学习有关。与MoCo [7,17]和Simplified [6]中使用的In-foNCE [26]相比,Uni-Grad期望与阴性样本的相似性接近于零以避免崩溃,而InfoNCE鼓励与阴性样本的相似性尽可能低于与阳性样本的相似性。此外,UniGrad可以编码无限的负样本通过一个相关的马,与内存相比,更少的内存成本。关系到不对称网络比较与BYOL [21]和SimSiam [8]相比,我们的方法可以在不需要预测器的情况下学习与具有免优化预测器的Direct-Pred [28]相比,UniGrad重新移动了SVD分解的需求。与 特 征 去 相 关 的 关 系 。 与 Barlow Twins [34] 和VICReg [1]相比,UniGrad可以实现类似的效果,在不直接优化协方差或互相关矩阵的情况下对不同通道进行去相关(见图2)。此外,我们的方法使用102归一化,而不是批量归一化或对每个通道的方差的额外限制讨论由于我们已经观察到UniGrad和表2中的其他方法实现了接近的性能,我们想知道通过各种损失学习的表示是否最终具有类似的属性。在图2中,我们从正/负对之间的相似性,k-NN精度和特征去相关程度等方面比较了不同方法的学习轨迹。我们发现,UniGrad和其他方法之间没有显着差异结果表明,这些方法的工作机制相似,这与第4节中的梯度比较一致。例如,Simplified和BYOL也可以学习去相关不同的通道,Barlow Twins也可以学习区分阳性和阴性样本。除了竞争力其中F=Σvo∈Vuo=−u2+λFu1,(14)pv o v oT. 注意,这种梯度形式∞性能,我们的方法作为一个简洁的版本CON-与这三种方法相连接,不需要复杂的部件,如存储库和预测器。这就是表2(e)中所描述的为了充分理解这个梯度,我们通过其相应的目标函数进行分析:5.2. 数据扩充的应用得益于其简洁的形式,UniGrad可以很容易L=Eu1,u2Σ-cos(uo,um)+λ122ΣΣρvcos2(uo,vo),(15)vo∈V∞扩展常用的数据增强[4,5,24,30,33,35],以进一步提高其性能。作为演示,我们展示了如何应用CutMix [24,33]和多个其中,λ默认设置为100。目标函数由两项组成。 第一项使正样本之间的余弦相似性最大化,这鼓励对数据扩增的不变性进行建模。第二项期望负样本之间的相似性接近于零,以避免代表性崩溃。[4,5]我们的方法如下。CutMix通过将随机选择的图像区域替换为另一个图像的补丁来生成新样本。给定一批图像,我们以打乱的顺序从这批图像中剪切补丁,并将它们粘贴到原始批次上。对于这些混合图像,计算它们的正梯度。1144400.90.80.70.60.5SimCLRBYOL巴洛双胞胎UniGrad0 20 40 60 80100时代(a) 正余弦相似度0.80.70.60.50.40.30.20 20 40 60 80100时代(b) 负余弦相似度6050403020100 20 40 6080100时代(c) k-NN精度504030201000 20 40 6080100时代(d) 主成分比图2.不同方法的学习轨迹。主成分比度量是对特征去相关程度的评价。我们将PCA应用于表示,并计算其累积和首次超过90%的特征值的数量。方法时代时间线性评价方法时代线性评价UniGrad10038.2h70.3MoCov2 [7]80071.1UniGrad+CutMix10038.2h71.2SimCLR [6]100069.3UniGrad+多种作物100114.6h71.7BYOL [21]100074.3UniGrad+CutMix+多作物100114.6h72.3新加坡[8]80071.3表4. CutMix和多作物上的消融。巴洛双胞胎[34]VICReg [1]1000100073.273.2DINO(+多作物)[5]80075.3从正常图像中提取,然后根据混合比率进行混合。F仅从正常图像计算。多裁剪采样额外的较小尺寸的裁剪,以增加图像的视图数量我们特别使用2×224全局视图和6×96局部视图,全局比例设置为(0. 4,1)和局部缩放设置为(0. 05,0。4)分别。对于每个全局视图,其正梯度为从另一个全球视角来看。对于每个局部视图,其正样本由两个全局视图的平均值组成。F仅从全局视图计算消融研究。我们首先进行消融研究,以验证在第4节所述的实验设置下CutMix和多作物对UniGrad的影响。如表4所示,CutMix和多作物分别实现了0.9%和1.4%的改善,并且将这两种策略结合在一起将改善提高到2.0%。我们还在表4中报告了培训时间。与正常训练相比,CutMix的实现只增加了微不足道的训练开销可以根据可用的计算资源来使用这些变体。更多训练时间 我们用更多的训练时期来评估我们的方法的性能。为了更快的预训练,我们采用了另一组训练设置(见附录B).线性评估设置遵循第4节。表5将我们的结果与以前的方法进行了比较。使用CutMix的Un-iGrad已经可以超越其他不使用多重裁剪的方法。通过进一步采用多作物,它显示出与当前最先进的方法相当的性能我们还将预先训练的模型转移到下游任务 中 , 包 括 ImageNet [12] 上 的 半 监 督 学 习 以 及PASCAL VOC [14]和COCO [25]上的对象检测我们的模型能够实现与其他领先方法竞争的结果(见附录C)。表5. ImageNet上的线性分类[12]。6. 结论在本文中,我们提出了一个统一的框架,为三个典型的自监督学习方法从梯度分析的角度。虽然以前的作品似乎是不同的损失函数,我们证明,他们共享一个类似的梯度形式。这种形式由正梯度、负梯度和平衡因子组成,表明这些方法的工作机理是相似的我们进一步比较他们的表现下,一个公平的实验设置。结果表明,它们可以提供相似的性能,动量编码器是提高性能的关键因素。最后,我们提出了UniGrad,一种简单但有效的自监督学习梯度形式。大量的实验表明,该算法在线性评价和下游任务中是有效的.局限性。本工作仅采用线性评估进行性能比较,而不同的方法可能对下游任务产生不同的影响,例如,对象检测和语义分割。我们将迁移学习的性能比较留给未来的工作。潜在的负面社会影响。这项工作可能继承了自我监督学习的负面影响。由于通常需要进行大规模的培训,因此可能会消耗大量电力并造成环境污染。该方法还从训练数据集学习表示,并且可能包含数据偏差。今后的工作可以寻求一种更有效、更公正的训练方法。鸣 谢 本 论 文 得 到 了 国 家 重 点 研 发 计 划(2020AAA0105200)北京人工智能研究院的支持。SimCLRBYOL巴洛双胞胎UniGradSimCLRBYOL巴洛双胞胎UniGrad正余弦相似性SimCLRBYOL巴洛双胞胎UniGrad负余弦相似性k-NN accc(%)主成分比率(%)[29]第29话我爱你80075.5UniGrad+CutMix80074.9UniGrad+CutMix+多作物80075.514441引用[1] Adrien Bardes,Jean Ponce,and Yann LeCun. Vi-creg:Variance-Invariance-Covariance Regularization for Self-Supervised Learning。arXiv预印本arXiv:2105.04906,2021。一、二、三、五、六、七、八、十三[2] Jane Bromley、Isabelle Guyon、Yann LeCun、Eduard S ¨ckinge r和RoopakShah。使用“连体”时间延迟神经网络的签名验证神经信息处理系统进展,1993年6月。2[3] Yue Cao,Zhenda Xie,Bin Liu,Yutong Lin,ZhengZhang,and Han Hu.用于非监督视觉特征学习的参数化实例分类。在NeurIPS,2020年。2[17] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。一、二、三、六、七、十一、十四[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。14[19] 胡钱江、小王、胡伟、祁国军。Adco:对抗对比,用于有效学习来自自我训练的消极对手的无监督表示。在CVPR,2021年。2[20] Tanyu Hua,Wenxiao Wang,Zihui Xue,Yue Wang,Sucheng Ren,and Hang Zhao.自监督学习中的特征去相关研究。ICCV,2021。二、三[4]Mathilde Caron,Ishan Misra,Julien Mairal,PriyaGoyal,Pi-[21]第21话Florent,TallecOtr Bojanowski和Armand Joulin。 无监督学习通过对比聚类分配来分析视觉特征。在神经IPS,2020年。二、七[5] 玛蒂尔德·卡隆、雨果·图夫龙、伊尚·米斯拉、埃尔韦·伊古、朱利安·梅拉尔、彼得·博亚诺夫斯基和阿曼德·儒林。自我监督视觉转换器中的新兴特性。ICCV,2021。二、三、七、八、十五[6] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。一、二、四、六、七、八、十一、十二、十四、十五[7] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。二、三、七、八、十五[8] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR,2021年。一、二、三、四、五、六、七、八、十四[9] Xinlei Chen,Saining Xie,and Kaiming He.训练自我监督 视 觉 转 换 器 之 实 证 研 究 。 arXiv 预 印 本 arXiv :2104.02057,2021。2[10] Sumit Chopra Raia Hadsell和Yann LeCun。 学习相似性度量有区别地,与应用到人脸验证。在CVPR,2005年。2[11] ImageNet贡献者。 Imagenet访问条款。https://image-net.org/download,2020年。15[12] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功