没有合适的资源?快使用搜索试试~ 我知道了~
2829自蒸馏自监督表示学习Jiho Jang1,Seonhoon Kim2,Kiyoon Yoo1,Chaerin Kong1,Jangho Kim3,NojunKwak1首尔国立大学2,Coupang3,国民大学{geographic,961230,rin4616,nojunk} @ www.example.com,www.example.com,www.example.comsekim625@coupang.com @jangho.kim kookmin.ac.kr snu.ac.kr摘要自监督学习中最先进的框架最近表明,与传统的CNN模型相比,充分利用基于transformer的模型可以提高性能现有的作品力求最大限度地提高图像两个视图的相互信息,将对比损失应用于最终表示。受监督机制中的自蒸馏的启发,我们进一步利用这一点,允许中间表示通过对比损失从最终层学习。通过自蒸馏,中间层更适合于实例鉴别,使得早期退出的子网络的性能这使得托词任务对于最终层也更容易,从而导 致 更 好 的 我 们 的 方 法 , 自 蒸 馏 自 监 督 学 习(SDSSL),在各种任务和数据集上使用ViT超过了竞争基线(Simplified,BYOL和MoCo在线性评估和k-NN协议中,SDSSL不仅在最后几层有优异的性能,而且在大多数较低的层也有优异的性能。此外,定性和定量分析表明如何更有效地形成沿Transformer层的表示。代码可在https://github.com/hagiss/SDSSL上获得。1. 介绍GPT[49]和BERT[15]是自监督学习(SSL)中的两个代表性作品,它们使用transformer[57]进行自然语言处理(NLP)任务。受这些成功的激励,在视觉领域也进行了各种关于自我监督表示学习的努力[41,26,3,29,18],其中许多都遵循最近的实例判别范例,该范例匹配由单独增强生成的同一图像的不同视图的表示[9,22,21,7,10]。最近的自我监督框架集中于使用Transformer-性能优于传统ResNet[23]架构。MoCo v3[11]和DINO[8]在自监督学习中使用ViT实现了最MoCo v3研究了ViT的学习不稳定性,并解决了这一问题以提高性能,而DINO则利用ViT的特性,提出了一种独特的MLP头来改进表示学习。与此同时,在监督机制中,通过自蒸馏[61]进行的知识优化(鼓励低层输出遵循最终或更高层的输出)已被证明是有效的,并试图通过集成[39]和正则化[1]的机制来解释其性能提升。尽管其有效性,自蒸馏(SD)尚未在自我监督框架中使用,其工作仅关注学生和教师网络(由学生的指数移动平均值组成)的最终输出1受此启发,我们提出了自蒸馏自监督学习(SDSSL),这是SD在自监督学习中的自然应用当应用于SSL方法(如Simplified和MoCo)时,自蒸馏有一个直观的解释:将较低层的表示与最终表示对齐可以增强较低层表示的线性可分离性,如图1所示。1.一、这又使得后续层更容易执行实例区分任务。因此,通过比其对应物更好地解决实例鉴别借口任务,我们实证地证明SDSSL提高了多个下游任务的性能。此外,我们定量和定性表明,SDSSL产生更好的中间体,吃的陈述。因为我们的方法以正交的方式运行到其他SSL方法,我们可以简单地将我们的方法应用到现有的工作之上。在这项工作中,我们将我们的方法应用于三个代表 性的SSL 框架 ,即 Simplified[9], BYOL[21]和MoCo v3[11],使用ViT[16]作为骨干,并表明我们的方法在已经具有竞争力的基线上有所改进。我们证明了[16]这是一种基于模型的方法,1DINO使用术语“自蒸馏”来指蒸馏之间*同等贡献学生网络和教师网络。2830图1:超球面中的表示。学生的低层和教师的输出在超球面上的表示的说明。中间自蒸馏损失明确地将低层的表示转移到输出表示。通过k-最近邻(k-NN)和线性评估在ImageNet上进行SDSSLSDSSL的优越性在拷贝检测、视频分割、图像检索等实际应用中也得到了体现。我们进一步研究了SDSSL使用最近提出的度量[58]学习的表示,并发现SDSSL与基线相比,使一个更线性的可分离表示空间。最后,类似于[44,61],通过鼓励中间层明确学习借口任务,我们表明即使是中间特征也可以成功用于下游任务,表现优于基线对照。总的来说,我们提出了一种自蒸馏方法,让中间层明确学习歧视的立场。我们表明,我们的方法改进了传统的SSL框架,如Simplified,BYOL和MoCo v3的各种基准测试。通过彻底的消融研究,我们证明了天真地应用我们的方法会导致性能下降,并展示了我们的方法如何克服这些潜在的陷阱。2. 相关工作尽管深度神经网络(DNN)在多个领域取得了令人印象深刻由于更大的模型需要更大的数据集,注释成本很容易变得无法承受。出于这个原因,许多工作已经探索了自监督学习领域,这是一系列无监督学习框架,其中引导模型从一组借口任务中学习对潜在下游任务有用的表示。DIM[26]最大化输入和输出之间的互信息AMDIM[3]使输入的多个视图,并尝试使用不同视图最大化输入和输出之间的互信息的关键区别AMDIM 和 我 们 的 SDSSL 之 间 的 区 别 在 于 , 虽 然AMDIM鼓励最终表示使用卷积神经网络模仿来自特定层的中间特征,但SDSSL强制每个中间表示模仿最终特征,这最适合于借口任务,即,实例歧视。CPC[41]通过使用对比方法在序列模型中训练表示,并表明InfoNCE损失最大化了输入和表示之间的互信息的下限。Simplified[9]和MoCo[22]通过将强大的增强与对比学习目标相结合,在各种基准测试中表现出令人印象深刻的性能,但它们仍然受到限制,因为它们要么需要 巨 大 的 批 量 大 小 , 要 么 需 要 单 独 的 内 存 库 。BYOL[21]通过仅使用阳性样本成功克服了这一限制,同时提高了性能。同时,随着transformers[57,16]在视觉领域越来越受欢迎,使用transformer的自监督学习也得到了研究[11,8,19],进一步推动了先前的最新技术水平,并引入了传统CNN模型中缺少的几个有益特性。尽管定量评估在稳步改进,但很少有人谈到这些方法如何以及为什么ReLIC[38]引入了解释SSL的因果机制,[58]引入了定量分析的对齐和一致性。我们提供以秒为单位的测量均匀性分析。4.4阐明推动SDSSL成功的基本因素。知识蒸馏知识蒸馏(KD)是广泛用于提高模型性能的正则化方法之一[25,31,24]。传统的离线KD框架利用预先训练的教师网络向用标签预先训练的学生网络提供额外的学习信号相比之下,在线KD方法采用并行培训方案,其中教师和学生同时接受培训,从彼此中提取信息。最近,一些工作已经探索了自蒸馏的概念,其中来自模型的先前快照的知识被蒸馏到当前快照[50,52]。其中,多出口[44]强制执行较低层的预测以匹配较高层的预测,这与我们的高级思想中的SDSSL相似然而,与上述方法不同,SDSSL是完全自我监督的,在训练过程中不需要任何标签我们还注意到,我们的方法不同于其他人在制定蒸馏,因为我们是由基于实例判别的SSL目标。3. 方法3.1. 基线Simplified为输入图像创建两个视图X1和X2X(阳性样本),通过执行单独的随机Aug-X-X-X(阳性样本),2831L- ·+L⟨··⟩Σ·ΣL表达方式首先投影来自骨干网络的X 1和X 2的表示,并且对比目标强制使正样本之间的余弦相似性最大化,同时使负样本之间的余弦相似性最小化(批次中的其他图像)[6]。MoCo v3像Simplified一样从对比损失中学习,但不是使用相同的网络来生成X1和X2的特征,而是使用具有指数移动平均(EMA)参数的教师网络。随机扩增的视图X1和X2分别转发到学生网和教师网,然后投影。学生网络的投影输出通过额外的MLP头进行进一步处理,以执行对比学习。BYOL也有一个EMA老师和一个像MoCo v3这样的预测器因此,与上述利用负样本的SSL框架不同,性能对批量大小的选择是鲁棒的不同基线的SSL目标按照惯例,让q表示学生的最后一个MLP头(投影仪或预测器)的输出那么BYOL的目标是图2:MoCo v3和BYOL中的SDSSL说明。对于Simplified,预测器实线由Lssl更新,而虚线用于Lisd和Lpred。其中,q_l是通过对应于每一层的MLP头的学生编码器的第l层的表示,并且z_L是教师MLP头的输出。停止梯度算子sg(zL)意味着梯度不通过zL传播,因此只有ql学习预测zL而不影响zL。SDSSL的目标由Lssl和Lisd组成,导致Lsdssl:Lsdssl=Lssl(qL,zL)+αLisd,(4)Lssl(q,z)=2 2Ziq,zq(一)其中α的选择,控制自蒸馏损失的重量4.1.我们观察到,对于存在预测因子的框架,而对于两种对比方法,eq,z/τ使用Eq. (4)导致一些性能改进,但可以进一步增强。这是因为中间层的预测器只更新我们-Lssl(q,z)=−logeq,z+/τ +z−eq,z−/τ(二)与能够利用Lisd和Lssl两者的编码器相反,因此,opti-其中,表示内积,τ是温度参数,z+/z-是针对i v e样本的Δ iv e/n eg。我们注意到,q和z在等式中是L2归一化的(二)3.2. SDSSL我们提出了自蒸馏自监督表示学习(SDSSL),它通过诱导中间表示来模仿输出表示,从而为中间表示提供显式信号,如图所示。二、我们的方法可以应用于任何现有的SSL框架,从多视图表示对齐。自蒸馏SSL我们定义我们的中间自蒸馏损失isd,它试图最大化中间层l和最终层L(I(f1;f2))的输出的互信息,如下所示:中间层的预测器的质量是不被保证的,这是[21]所讨论的SSL训练的关键组成部分。简单地扩大α会导致编码器的最后一层是次优的,因为这也会更新中间骨干层。为了缓解这个问题,我们采用另一个损失Lpred:LLpred=Lssl(pred( sg(hl)), sg(zL)),(5)l=1其中hl是学生在通过投影仪之后的第l层的表示。为了只更新预测器,sg()运算符用于hl。通过这样做,我们获得了更好的预测器,因此,具有预测器的SSL框架的最终目标是LISDL l1L−1= L−1l=1SSL(ql,sg(zL)),(3)L=Lssl(qL,zL)+αLisd+βLprd.(六)我们在等式中使用β=1。(六)、Alg. 1提供了SD-MoCo v3的伪代码,它将SDSSL应用于MoCo v3。2832算法1SD-MoCo v3:类PyTorch伪代码# f_s:student:ViT +投影机# f_t:动量老师:ViT +投影仪# p:预测因子# alpha:中间自蒸馏比# tau:温度# L:ViTforxin loader:# load a minibatch x with Nsamplesx1,x2 = aug(x),aug(x)#随机扩充q1,q2 = f_s(x1),f_s(x2)# shape:[L* N,dim]框架ViT-S/32k-NN 线性ViT-S/16k-NN 线性ViT-B/16k-NN 线性SimCLRSD-Simplified51.553.452.855.357.859.162.165.062.164.470.572.1BYOLSD-BYOL56.457.959.861.866.067.270.371.568.170.373.774.5MoCo v3SD-MoCo v357.159.060.763.766.568.070.071.569.772.075.176.0表1:ImageNet评估。 与三个竞争对手的比较z1,z2 = f_t(x1),f_t(x2)# shape:[N,dim]loss_pred = ctr(p(q1.detach()),z2,L)loss_pred += ctr(p(q2.detach()),z1,L)q1,q2 = p(q1),p(q2)q1_isd,q1 = split(q1,[(L-1)*N,N])q2_isd,q2 = split(q2,[(L-1)*N,N])loss_isd = ctr(q1_isd,z2,L-1)loss_isd += ctr(q2_isd,z1,L-1)损失= ctr(q1,z2)+ ctr(q2,z1)loss += alpha* loss_isd + L* loss_predloss.backward()optimizer.update(f_s,p)momentum_update()#对比损失defctr(q,z,num_layers=1):logits = mm(q,z.t())# [num_layers* N,N]对标签=重复(arange(N),num_layers)loss = CrossEntropyLoss(logits/tau,labels)返回2* tau* loss4. 实验在本节中,我们将详细介绍我们的实现。我们遵循MoCo v3[11]的约定,除非另有说明。我们证明了SDSSL在包括ImageNet在内的各种下游任务中的表现优 于 此 外 , 我 们 采 用 t-SNE[55] , 中 心 内 核 对 齐(CKA)[13,32]和一致性对齐框架[58]来分析SDSSL的表示,试图揭开其成功的神秘面纱。正如我们后面所展示的,关键是在较低的层中学习更好的表示,将整体性能曲线向上推。彻底的消融显示了SDSSL单个组件的有效性,并将SDSSL与ResNet主干进行比较,证实了我们方法的有效性。4.1. 实现细节ViT架构我们在2-D中采用正弦-余弦变体[57]进行位置嵌入,并冻结随机初始化的补丁投影仪。我们将补丁嵌入与可学习的[CLS]令牌连接起来,并添加其位置嵌入。表示是[CLS]令牌在通过每个Transformer块和层规范化层[2]之后的输出。MLP头[9,21]之后,投影仪和预测器分别设置为3层MLP和2层MLP基线和SDSSL。ViT-S/32、ViT-S/16和ViT-B/16在ImageNet上训练了300个epoch。对于每个框架,ViT-S/32,ViT-S/16和ViT-B/16共享相同的超参数集,除了批量大小。批量归一化[27]适用于所有输出层,除了BYOL和所有方法的隐藏层。隐藏层的尺寸是4096为最后的projec-tor和所有的预测,但2048为中间投影仪。所有输出都有256维。对于使用指数移动平均(EMA)教师的框架,教师在SDSSL中也可以只使用最后一台投影仪。在烧蚀研究中,我们发现中间投影器的作用与层的数目有关。我们使用AdamW[36]作为优化器,ViT-S/32的批量大小为4096,ViT-S/16的批量大小为1024[54]和ViT-B/16。MoCo v3和BYOL的学习率为1.5e-4,Simplified为1.3e-4 我们还采用了40个epoch的学习率预热和预热后的余弦衰减[20]。重量衰减为0.1。对于α,从0到1.0执行余弦调度[35]。4.2. 主要结果ImageNet Pretraining我们在三个自监督学习框架上使用ViT-S/32,ViT-S/16和ViT-B/16进行了实验 在表1中,我们通过使用k-NN验证了 ImageNet[14]预训练编码器[60]和线性评价。我们遵循MoCo v3的方案在所有框架、模型和评估中,应用SDSSL可以提高性能。基线准确度低于MoCo v3论文[11]中报告的准确度,因为由于计算限制,使用了1024批次而不是4096批次对比框架特别受批量大小的影响。尽管如此,我们的方法在我们复制的基线上有了显著的改进。在ViT-S模型中,线性评价性能的改善大于或等于在k-NN上的改善,而在ViT-B/16模型中,k-NN性能的改善更大。我们分别使用8台和4台NVIDIA A100训练ViT-B/16和ViT-S/16模型五天,使用4台NVIDIA A6000训练ViT-S/32模型三天。由于自蒸馏使较低层能够从较高层学习,因此我们预计SDSSL的较低层学习到的表示比2833框架ROx RParM H M H模拟器20.1 3.942.8 15.3SD-Simplified22.0 5.042.3 15.1BYOL27.7 6.9 51.7SD-BYOL28.57.752.022.5MoCo v326.36.451.021.9图3:多出口。 在ImageNet上使用预先训练的ViT-S/16对每一层进行基线和SDSSL的线性评估,持续300个epoch。SDSSL方法在所有层上的性能都优于相应的基线,并且在早期层上表现出更少的退化。图4:拷贝检测和视频分割。 (左)MoCo v3和SD- MoCo v3上每层的拷贝检测和视频分割任务的结果。除了某些层之外,SD-MoCov3优于MoCo v3。在拷贝检测和视频分割方面,SD- MoCo v3的性能最好的层是第7层,MoCo v3的性能最好的层是第10层。BYOL/SD-BYOL(中)和Simploy/SD-Simploy(右)的趋势几乎相同。那些基线。这在图3中得到了验证,图3显示了SDSSL较低层的表示比对应层更适合作为特性。我们使用每层的冻结表示对ImageNet进行了线性评估。在最后一层中,准确度提高了1.2%p,第6层显示出MoCo v3中34.3%p的最大性能差距。类似的现象也发生在BYOL和Simplified中。4.3. 转让性在本小节中,我们评估了我们的方法在各种下游任务上的可移植性。在DINO[8]之后,我们对图像检索任务进行了评估。此外,我们还评估了复制检测任务和视频分割任务,该任务使用补丁而不是[CLS]令牌的特征。三个评估协议不需要编码器的额外训练。然后,我们评估了其他图像分类数据集,如CIFAR- 10、CIFAR-100[34]、 Oxford Flowers-102[40]、 Oxford-IIT-102 [41]。宠物 [42], CUB [59],AirCraft [37], 汽车[33], 狗[30],NABirds [56]和ImageNet通过k-NN,线性评估和端到端微调[16]。使用ViT-S/16的所有三个框架进行实验。牛津和巴黎图像检索数据集[43]包含3个不同难度的查询和数据库对。我们评估所有基线和SDSSL的中和硬分割。我们直接应用k-NN进行图像检索。如表2所示,SDSSL的表现优于基线。SD-MoCo v326.76.452.4 22.7表2:图像检索。基线和SDSSL在图像检索任务上的性能比较。ViT-S/16使用ImageNet上的每个框架进行了300个epoch的预训练。我们使用k-NN评估图像(JF)mJmFmMoCo v3 74.8 62.0 60.2 63.8SD-MoCo v376.3 62.1 60.4 63.9表3:拷贝检测和视频分割。对于所有分数,越高意味着越好。报告的分数是每种方法中最佳层的性能。ImageNet预训练的ViT-S/16模型用于评估。复制检测我们报告了INRIA Copydays数据集强子集上复制检测的平均精度(mAP)[17]。复制检测的目标是在给定失真(例如,失真)时识别原始图像。模糊、插入、打印、扫描)版本。在[4]之后,我们使用YFCC 100M数据集[53]的10K样本作为干扰项,而20K样本用于白化[4]特征。[CLS]令牌和补丁令牌的功能使用GeM[47]进行池化并连接。我们使用所有层的特征来验证是否发生与多出口实验中类似的趋势。我们在图4中观察到,大多数SD-MoCo v3中间特征超过MoCo v3的中间特征,并且在各自的最佳性能特征上具有更好的性能。对于SD-MoCo v3和MoCo v3,这分别是第7层和第10层。我们认为,对于利用补丁功能而不是仅使用[CLS]令牌的某些任务,最佳性能的功能不是在最终层此外,对于SDSSL,性能最好的层形成在比基线低的对于SD-Simplified和Simplified,性能最好的层分别是第9层和第10层;对于SD-BYOL和BYOL,分别为第6层和第10层。这可能是由于我们的知识提取方法,旨在提取更多的信息在较低的层。通过提供一个明确的损失,我们的方法形成了一个合适的功能,复制检测早在较低的层比基线。视频分割我们在DAVIS-2017数据集上执行视频实例分割[45]。 我们遵循Jabri等人的实验方案。[28]第28话:框架收到D地图V伊代奥山SimCLR74.761.859.963.6SD-Simplified75.562.160.364.0BYOL74.560.258.162.3SD-BYOL74.260.959.062.728342框架CI-10CI-100花宠物幼崽ACraft汽车狗NABirdsINetAvg.SimCLR-knn87.265.777.871.828.522.915.650.117.357.849.586.966.079.173.929.222.815.752.818.259.150.4线性81.982.858.459.080.481.671.474.239.841.924.322.617.516.958.962.231.432.562.165.052.653.9罚款97.898.586.188.695.896.888.089.973.674.275.981.285.187.072.580.068.769.378.678.782.284.4BYOL-knn90.091.570.672.585.285.083.485.352.854.531.132.419.921.567.069.038.240.766.568.060.462.0线性89.992.473.475.292.792.687.588.070.773.446.446.642.343.876.878.561.663.270.371.571.272.5罚款98.698.989.389.497.497.291.191.478.979.980.480.488.788.980.981.174.975.779.379.586.086.2MoCo v3-knn91.873.885.483.651.230.421.367.736.066.060.791.273.485.584.453.132.522.669.438.567.261.8线性90.190.273.974.492.692.687.687.570.671.747.347.241.243.877.778.359.661.670.071.571.171.9罚款98.798.789.589.297.297.390.991.478.579.381.681.386.887.878.879.774.175.879.479.685.686.0表4:分类。我们报告了10个分类数据集的k-NN,线性和微调性能。上面一行是基线精度,下面一行是SDSSL精度。DINO中连续帧之间的最近邻。当所有层的所有表示都像在复制检测中那样被测试时,在视频分割任务中也观察到类似的趋势对于SD-MoCo v3和MoCo v3,表现最好的层分别是第7层和第10层,并且如表3所示,SD-MoCo v3 优 于 MoCo v3 。 对 于 SD-Simplified 和Simplified,性能最好的层分别是第8层和第9层;对于SD-BYOL和BYOL,分别是第8层和第10层分类在本节中,我们展示了CIFAR-10、CIFAR-100、OxfordFlowers-102 、 Oxford-IIT-Pets 、 CUB 、AirCraft、Cars、Dogs、NABirds和ImageNet上的图像分类 由于端到端的微调可能会导致特定数据集上的过度拟合,这可能会模糊对预训练编码器的表示质量的评估[48]。为了解决这个问题,我们还报告了k-NN和线性评估的分数。在选项卡中。4,我们见证了SDSSL在所有三个基线的大多数数据集上的改进。k-NN和线性评估的性能提升尤其明显,这意味着SDSSL的表示在特征上更加可分离这意味着自蒸馏鼓励模型从较低层形成更好的表示,使整个自监督学习任务更容易。结果见Fig.图3和图4支持这一说法。[13,32]图中的CKA图6示出了层之间的表示对于MoCo v3基线,来自相邻层的表示显示出高相似性(黑框,左),而远距离层的分数大大降低(红框,左)。另一方面,SDSSL显示出更均匀的相似性结构(右),具有较低的局部相似性和较高的全局相似性。由于先前的工作[51]指出跨层的均匀表示相似性是区分视觉变换器与卷积网络的关键属性,我们推测这可能是SDSSL成功重新增强ViT特征的驱动因素之一。定量分析Wang等人。[58]证明对比学习优化了两个不同的指标:(1)对齐,其量化正样本的表示的紧凑性γ空间关于这些表征的进一步分析将在第二节中介绍。4.4. 端到端微调ali(f;γ)βE(x,y)双极正[f(x)−f(y)<$2],γ>0,(7)显示典型的递减增益,因为整体基线性能已大大提高。4.4. 分析对于某些γ,以及(2)均匀性,它使用高斯势核测量整个表示在超球体中的分散程度[12,5]定性分析图5显示了来自10个随机选择的Im类的表示的uni(f;t)对数E(x,y)双曲线数据[e-t<$f(x)-f(y)<$2],t>0。( 八)ageNet验证集,其中MoCo v3上的SDSSL(右)与MoCo v3基线(左)相比显示出更清晰的可分离表示。对比学习框架的基本功能之一是通过实例获得对下游任务有用的这里,ppos是通过从输入数据随机扩增生成的正对的分布,pdata是总体数据分布。他们断言,低对齐意味着阳性样本彼此接近,而低均匀性意味着阴性样本彼此接近。LL2835−L −LL2L(f;γ)εE阿里阿里LR LL图5:表示可视化。使用t-SNE可视化MoCo v3和SD-MoCo v3的每个层的表示。每层的左侧是MoCo v3,右侧是SD-MoCo v3。抽取了ImageNet验证集的10个随机类。我们观察到,当应用SDSSL时,较低层的表示按类聚合得更好。MoCo v3(左)和SD-MoCo v3(右)的所有层对。黑框表示SDSSL两个人的距离更远。因此,低对齐和低均匀性导致具有高线性可分离性的更好的表示,尽管这两个度量固有地处于权衡关系中。根据经验,我们观察到SD-MoCo v3在较低层中具有较低的取向,但比vanilla MoCo v3具有较高的均匀性在更高的层中,模式是相反的。换句话说,虽然正样本和负样本的距离在较低层中都很近,但在较高层中,两者都更远。考虑到它们相互冲突的特点,很难确定哪一种代表是图7:ImageNet验证集上MoCo v3和SD-MoCo v3各层测量的对齐度和均匀度。 因为均匀性和对齐由于均匀性的对数而具有不同的符号,所以我们报告一致性的uni。此外,我们计算uni/ali来估计表示空间的效率。图8:负对齐。我们使用Imagenet预训练的MoCo v3和SD-MoCo v3绘制负比对和比对比R。负取向和取向比分别与均匀性和均匀性取向比显示相似的图案。好多了为了回答这个问题,我们提出了一个新的度量,均匀性对齐比,除以对齐的均匀性。为了公式化的简单性,我们计算负-纳阿里(x,y)双曲线数据[<$f(x)− f(y)<$γ],γ> 0.(九)主动对准,即,负样本之间的距离,如下所示,并将其除以原始对齐,即,阳性样本之间的距离。这成功地消除了潜在的尺度模糊性,并以直观的方式指示负样本与正样本相比之间的相对距离。较高的n意味着阴性样本彼此进一步分开,类似于均匀性。负比对的比率除以正比对的比率n/ali然后量化阳性和阴性样品之间的平均距离有多远。如图8所示,SD-MoCo v3具有更高的对准比,图6:表示相似性。 我们计算CKA热图,2836LLLL比MoCo v3在所有层中的均匀性,如图3的第三列中所示的对准比。7.第一次会议。直观地说,学习一个表示空间,其中与正样本相比,负样本被放置得彼此定性分析,如图。5也支持这一观点,就自我升华如何帮助自我监督学习提供了一致的信息。4.5. 消融研究在这一小节中,我们展示了比率恢复的有效性和通过消融的预测损失,并验证了图9:超参数扫描。我们改变α和 β, 看 看 它们 对 MoCo v3上ImageNet k-NN准确性的影响。扫描某个参数时,另一个参数固定为1.0。k-NNMoCo v3 60.5k-NNMoCo v360.5+预测值 损失60.8(+0.3)SD-MoCo v3 62.6- 比率退火60.2(-2.4)- pred。损失61.9(-0.7)表5:消融。这表明比率调度对于SDSSL是不可缺少的,并且可以预测。损耗也有利于最终性能。这些是最佳性能的必要因素毛皮-不带MLP 60.3(-2.3)然后,我们实验了SDSSL的性能随α和β值的变化。选项卡. 5表明烧蚀预测器损失的性能正如所讨论的,这与[21]中的结果一致,其中指出预测器的最优性是至关重要的。此外,当2L-MLP 61.3(-1.3)MLP/4 61.3(-1.3)MLP/3 61.5(-1.1)MLP/2 61.5(-1.1)MLP/1 62.6表6:消融设计选择。我 们 探 讨 了 MLP 设 计的效果。线性第一第二第三最后MoCo v3 60.5 10.5 23.7 45.3 60.3SD-MoCo v361.2 24.7 43.5 59.2 62.2表7:ResNet上的SDSSL。我们使用MoCov3 在 ImageNet 上 训 练 ResNet-50 200 个epoch。在没有中间蒸馏损失pred的情况下仅使用预测损失,相对于MoCo v3的性能增益是最小的(+0.3%p)。这证明中间蒸馏损失是一个关键组成部分.在训练过程中,我们在方程中使用比率退火。(4)和等式(6),即,α在初始迭代时设置得很低,然后逐渐增加,而不是在整个训练中使用固定的α。如果没有比率退火,性能会显著下降,这表明一旦进行了一些训练,自蒸馏是重要的。图9显示了在α和β范围内的性能变化。对于这两个参数,性能通常增加,直到达到1。如上所述,控制Lisd的α对性能的影响大于β。在选项卡中。6我们讨论了投影机和isd的一些设计选择的影响。直接提取[CLS]令牌而不使用投影仪(w/o MLP)不会导致任何性能增益,而使用较小的MLP(2层)会导致较小的性能增益。此外,当每n层(MLP/n)应用isd时,性能增益小于在SDSSL(MLP/1)中每层应用它。4.6. ResNet上的SDSSL我们进一步在ResNet-50主干上应用SD-Moco v3框架,并对200次训练进行评估。对于我们提出的自蒸馏,我们将平均池化应用于每个残差块的输出激活,并将其通过MLP头转发到计算sdssl。从选项卡可见。7,我们也观察到ResNet主干上的显著性能增益,这与在监督学习中引入自蒸馏的先前工作的发现一致[61,44]。此外,我们注意到,为了简单起见,我们优化了自蒸馏对象-仅对每个剩余块的输出激活有效,导致每批蒸馏项更少。我们希望通过将自蒸馏应用于更多的中间激活来进一步提高性能,如表1所示。6、把它留给未来的工作。5. 讨论由于SDSSL通过自适应MLP头计算自蒸馏损失,因此模型训练的内存占用和计算成本在使用ViT-B/16的简单实现中,内存占用增加不到6%,训练时间增加约16.9%。然而,通过并行计算,挂钟时间的增加可以减少到8.6%,我们认为这是适度的。由于这种额外的成本与模型大小无关,因此当我们使用具有较小补丁大小的较大骨干模型时,相对负担变得较小,这在最近的实践中通常是这种情况。6. 结论在这项工作中,我们提出了一个自蒸馏方法一般适用于现有的自监督学习框架。我们的方法是基于低层表征和输出表征之间的自升华可能有利于可分离表征学习的假设,并通过实验验证了该方法的有效性通过多出口实验,我们表明鸣谢本工作得到了NRF赠款(2021 R1 A2 C3006659)和IITP赠款(No.2022-0-00953)的支持由韩国政府(MSIT)资助。k-NN2837引用[1] Zeyuan Allen-Zhu和Yuanzhi Li。深度学习中的集成理解 、 知 识 升 华 和 自 我 升 华 arXiv 预 印 本 arXiv :2012.09816,2020。[2] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。[3] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示arXiv预印本arXiv:1906.00910,2019。[4] MaximBerman , Herve 'Je'gou , AndreaVedaldi ,IasonasKokkinos,and Matthijs Douze.Multigrain:类和实 例 的 统 一 图 像 嵌 入 。 arXiv 预 印 本 arXiv :1902.05509,2019。[5] Sergiy V Borodachov,Douglas P Hardin,and Edward BSaff.可整流集上的离散能量。Springer,2019年。[6] 约翰·S·布瑞德将随机模型识别算法训练成网络,可以得到参数的最大互信息估计神经信息处理系统的进展,第211-217页,1990年[7] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 arXiv 预 印 本 arXiv :2006.09882,2020。[8] Mathil deCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv:2104.14294,2021。[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。[10] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第15750[11] Xinlei Chen,Saining Xie,and Kaiming He.训练自我监督视觉转换者的实证研究。arXiv电子印刷品,第arXiv-2104页[12] 亨利·科恩和阿比纳夫·库马尔球面上点的普遍最优Journal of the American Mathematical Society , 20(1):99[13] Corinna Cortes,Mehryar Mohri和Afshin Rostamizadeh。基 于 中 心 对 齐 的 核 学 习 算 法 The Journal of MachineLearning Research,13:795[14] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[15] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[16] AlexeyDosovitskiy
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功