没有合适的资源?快使用搜索试试~ 我知道了~
2750# # ## # #一种嵌入动态的自监督学习方法苏红月亮加州大学伯克利分校suhong. berkeley.edu加州大学伯克利分校dominykas@berkeley.edu金镇奎成铉公园Clova AI Research,NAVERCorpseung. navercorp.com约翰·坎尼高丽大学jinkyukim@korea.ac.kr加州大学伯克利分校canny@berkeley.edu摘要最近的一些自监督学习方法在图像分类和其他任务上表现出令人印象深刻的性能。有些令人困惑的各种技术已被使用,并不总是有一个清晰的理解的原因,他们的好处,特别是当使用组合。在这里,我们把图像的嵌入看作点粒子,并把模型优化看作是这个粒子系统上的一个动态过程我们的动力学模型结合了相似图像的吸引力,局部分散力以避免局部崩溃,以及全局分散力以实现粒子的全局均匀分布。动态视角突出了使用延迟参数图像嵌入(a la BYOL)以及同一图像的多个视图它还使用了一个纯动态的局部分散力(布朗运动),显示出比其他方法更好的性能,并且不需要其他粒子坐标的知识。该方法被称为MSBReg,其代表(i)多视图质心损失,其施加吸引力以将不同的图像视图嵌入拉向它们的质心,(ii)奇异值损失,其将粒子系统推向空间均匀密度,(iii)布朗扩散损失。我们评估了MSBReg在ImageNet上的下游分类性能以及迁移学习任务,包括细粒度分类、多类对象分类、对象检测和实例分割。此外,我们还表明,将我们的正则化项应用于其他方法,进一步提高了它们的性能,并通过防止模式崩溃来稳定训练。1. 介绍一个好的表示应该包括有用的特征(那些促进下游预测任务的特征),而ig(1) 布朗扩散损失(2) 多视图质心损失(3) 白化损失K视图在线网络K视图输入图像目标网络图1.我们提出的SSL的MSBReg包含以下三个正则化项。(1)布朗扩散损失(红色),导致嵌入的随机运动。这提供了一种隐含的对比效果,防止了emebddings的崩溃,并平均拉伸了较弱的链接。(2)多视图质心丢失(绿色),我们训练在线网络,以最小化同一图像的不同视图的在线和目标网络嵌入的质心之间的距离。(3)奇异值损失(蓝色),它将不同的特征维度去相关,以在嵌入空间中均匀地分散嵌入。阳性对用相同的形状表示。无“滋扰”功能[3]。在最著名的自监督方法中,对比方法将相似图像之间的吸引项(通常是同一图像的不同扰动)与不同对之间的显式排斥项相结合。最近,BYOL [14]在目标网络中利用具有滞后(移动平均)参数的连体神经网络(称为在线和目标),并简单地最小化在线和目标网络嵌入之间的距离。虽然BYOL中没 有 明 确 的 排 斥 项 , 但 后 来 证 明 它 高 度 依 赖 于BatchNorm层的使用。BatchNorm和其他方法中的激活归一化可以被视为嵌入集合的全局、维度分散,这是表 示 的 理 想 特 征 。 然 而 , 其 他 归 一 化 方 法 ( 如LayerNorm)在BYOL中的效果要差得多,这表明故事比归一化和全局分散更复杂[1,21,11,23]。对BatchNorm中梯度的检查表明,2751它们具有强的随机分量(超出全局“归一化”分量),其取决于图像激活和它们的批质心之间的差异(即,在任何其他图像上碰巧在同一小批中)。从我们的角度来看,这些力提供了嵌入之间的局部(随机)分散力因此,Batchnorm实现了良好表示的两个理想特征(嵌入的局部和全局分散),但以次优的方式。在这里,我们为局部和全局色散定义了单独的损耗项通过将色散移动到损耗层,我们允许独立设计网络归一化层(理想情况下,它会影响网络训练和稳定性,但不会影响损耗)我们还可以分别定义和优化局部和全局色散损耗。如果我们假设用于训练网络的优化方法是无状态的或足够优化器使用动量= 0。9对于10步的有效时间常数),则嵌入是二阶动力系统的一部分嵌入由两个网络(在线和目标)的参数以及相应的输入图像定义在目标网络上实现的移动参数平均值,以及作为损耗梯度积分器的快速优化器我们以两种方式利用这个系统的动态:通过对吸引力和色散力使用“快-慢”优化,并通过表明注入系统的随机能量应该“拉伸”平均具有相等势能的吸引力链接,因此较弱的吸引力链接将被进一步拉伸。多视图对比训练,其中比较了两个以上的增强,对于滞后臂网络非常有效。分散力在网络中作用,以使嵌入具有全局均匀的密度。虽然损失梯度充当施加到在线网络的力,但在线嵌入经历了来自它们被吸引到的相应目标网络嵌入的强烈粘性因此,嵌入以滞后网络的时间常数在全球范围内移动,该时间常数通常为数千到数万个时间步长。另一方面,同一组内的嵌入,即,同一图像的视图的嵌入不会经历相对于它们的质心的“拖拽”。它们崩溃,并在在线网络的时间常数下保持在一起。给定一个滞后臂,连体架构的灵感来自BYOL,我们探索多视图,奇异值,布朗扩散正则化。这三个损失项分别解决,(i)快-慢吸引/分散优化,(ii) 嵌入的整体、均匀、分散性(iii)局部分散力。我们评估我们的方法对视觉基准包括-使用ImageNet-100 [8],STL-10 [7]和ImageNet [8]。我们表明,我们的模型显着优于以前的工作在图像分类任务。此外,我们表明,联合本地/全球色散力导致一个更大的相异性的负对相比,其他方法。我们总结我们的贡献如下:• 我们使用嵌入的动态模型来分析和优化自监督学习。• 为了优化嵌入的位置,我们提出了一种MSBReg损失,包括1)多视图质心损失和3)奇异值损失3)布朗扩散损失,MSBReg的性能明显优于其他基线。2. 相关工作自我监督学习。最近的工作表明,一个国家的最先进的图像表示可以成功地和有效地学习的判别方法与自我监督学习。 这些方法最初依赖于对比度损失,其鼓励表示相同图像的不同视图(即,正对)在嵌入空间中接近,以及来自不同图像的视图的表示(即,负对)被推离彼此。对比方法通常需要小心处理负对,这需要很大的数据开销,因为它们需要从内存库[27,15]或当前小批量数据[5]中采样。从建模的角度来看,对比方法也不令人满意-图像不同并不意味着它们不同-但是对比方法将大的排斥梯度应用于不同的,接近的图像对。出于克服对比方法的困难的愿望,最近的作品[14,6]使用两个神经网络(称为在线和目标网络)进行训练,以最小化相同图像的嵌入之间的距离。一些作品使用一个手臂的参数移动平均[14],而其他作品使用相同的参数[15,6]。这些方法是有效的,但它们的成功有点神秘,因为没有明显的力来防止嵌入的崩溃,因为力只是吸引力。事实证明,批量标准化[17]是BYOL成功的重要因素。相反,我们采用明确的本地和全球分散损失,除了吸引力的多个图像视图的群体。奇异值一致性的正则化。白化是正则化奇异值一致性的最相似的方法。最近,白化输出嵌入作为一种避免模式崩溃的方法受到关注白化删除输入中的冗余信息,并防止对嵌入的所有维度进行编码2752XXXXXX××J目标网络图2. MSBReg .这种架构的灵感来自BYOL的架构。每个模型将K个增强视图作为其输入。MSBReg最小化(1)多视图质心损失,(2)奇异值损失,(3)布朗扩散损失和。第一种方法是让在线网络预测目标网络对K个第二个损失有利于空间均匀(球形)分布。最后一种方法在嵌入空间引入噪声,使嵌入平均相互排斥,防止模型收敛到崩溃解。吸引力弹簧(初始长度= 0)(A) 吸引力布朗扩散力(B) 扩散力多视图丢失。 在监督学习设置中,提出了批处理重复方法[16],以提高图像分类性能和训练效率。最近的基于对比学习的自监督学习通常使用同一图像的两个视图作为正对。它被训练来最小化这两个视图的嵌入的距离或最大化最近的工作[4]提出了多作物方法,该方法最大化视图之间的相似性超过2。以减少计算图3. (A)多视图质心丢失对在线网络生成的嵌入施加吸引力。实线是在线网络生成的嵌入,虚线是目标网络生成的嵌入的几何中心。我们可以把这样的系统建模为弹簧-质量系统。(B)布朗扩散损失导致嵌入的随机行走,防止模型承认崩溃的解决方案。相同的代表性。白化特征通过分散嵌入来诱导嵌入的对比效果这[9]通过Cholesky decomposition执行显式白化进行Cholesky分解需要计算样本协方差矩阵的逆,不仅计算量大而且不稳定。该方法[29]计算互相关矩阵,使其在Frobenius范数下接近单位矩阵。本文[2]提出了类似的方法。与上面提到的仅使用正对计算协方差矩阵的方法不同,MSBReg中的奇异值损失项沿批次维度(使用负对)计算协方差矩阵,并通过使嵌入各向同性分布来帮助嵌入的全局分布。为了强调这一点,我们将我们的损失定义为奇异值损失,它正则化了经验协方差矩阵奇异值的一致性它生成2个高分辨率视图(ImageNet为224 224)和其他几个低分辨率视图(ImageNet为96 96)。该方法[9]生成多个正视图以在它们之间执行白化。相反,我们的方法使用相同图像的正视图的多个视图来计算质心和嵌入与质心之间的距离。讨论了批量重复法与多视图的阑尾的质心丢失嵌入的均匀性 我们的工作与[25]一致,因为我们的方法也试图在嵌入空间上尽可能均匀地分布嵌入。该工作声称,对比学习是使嵌入均匀分布在超球面上。同样,我们的工作也试图在嵌入空间上均匀分布嵌入。该方法将对比度损失重新表示为对准损失和均匀性损失之和。第一个术语,对齐损失,对齐积极的观点。第二项均匀性损失使单位球面上的嵌入分布均匀。均匀性损失由高斯核定义。与我们的方法不同的是,1)[25]是基于递归方法,2)[25]假设嵌入空间是超球面。然而,我们的方法寻求更一般的嵌入空间与动力系统建模。 的优点骨干投影预测K单位正态分布K!!!13$布不拉吉X在线网络t'Y���£$���′布拉���′���′���′123J向前传球向后传球损失���联系22753∈ X∈ XKK−j2Kl=1LLLL 2两个增广视图vt(x)和v′t′(x)是Σ∥ ∥ ∥ ∥j=1l=12动态系统建模的一个重要方面就是可以用这个模型来研究嵌入物的运动并对其进行控制。我们在附录中进一步研究了我们的损失项对均匀性和对齐权衡的影响。3. 方法3.1. BYOL架构我们遵循最近的BYOL架构[14],该架构学习图像x的联合嵌入两 个网络– consists of two neural networks referred to as the 为了完整起见,我们总结了BYOL架构的一些关键细节。如图2所示,在线网络-训练工作以预测目标网络总损失定义如下:L(θ,λ;X)=Lc(θ,λ;X)+λsLs(θ;X)+λbLb(θ;X)多视图质心损失。与BYOL相反,我们训练在线网络来预测目标网络 给定图像x,我们生成K dif-通常增强的视图(即, multi-vie w):vj∈j(x)和vl∈ l(x),其中j,l ∈ {1,2,. . . ,K},通过应用随机图像增强t j,t lT。给定K个输出,对于目标网络zl′=g(f(vl′)),我们使用这K个输出的几何中心作为质心表示,即 1Kz′其中z′=z′/z′。最后,我们计算同一张图片的增强视图。这个网络-目标网络的质心与目标网络的质心之间的L2K个不同维{z∈′}K的嵌入表示工作由一组可学习的权重θ和l1参数化由三个连续的部分组成:主干fθ、投影头gθ和预测头hθ。目标网络由一组权值f *参数化,由两个部分组成:骨干f*和投影头g*。通过在线网络的参数的偏差校正指数加权移动平均来更新参数k并且在线网络的表示-因此,这种损失施加吸引力,以将同一图像的多个增强表示(正对)拉到几何质心中最终,我们得到以下多视图质心损失Lc:每个训练步骤的参数θ,即ξ=τ+(1−τ)θ1Σ¨1Σ¨t+1t t t t其中τt∈[0,1]是目标衰减率。Lc(θ,θ;X)=Kpzl′¨K¨(三)通过将图像增强应用于T_T而生成,并且给定图像增强的两个分布,其中,pj=pj/pj2是来自T和T′。在线网络输出zg(f(v)),在线网络用于相同输入的增强视图第一增强视图θθ即 pj=hθ(gθ(fθ(vj))). 注意,最小化Eq. 3v,而目标网络亲,从第二增强视图v′引入z′g(f(v′))。(二)22754L将预测头hθ和投影头gθ分开,在数学上等同于最小化成对距离在{p′}K和{z′}K之间。因此,这一损失产生了来自在线网络p<$hθ(z)的预测则为l2-j1l12755归一化以计算余弦相似性损失L标比更强的吸引力聚集了2756NKBK j=1J∥ ∥在等式中BYOL损失的相同图像。1.一、2757测量归一化的预处理之间的均方误差,dictionp和归一化的目标预测z′:2758′2p,z′22759布朗扩散损失我们使用色散损耗,称为布朗扩散损失,导致布朗运动2760(or随机游走)的在线网络2761Lbyo l(θ,θ;X):=2=2−2||p||·||z′||2(一)2762pj是输入的第j个增强视图。D维的2763随机向量n∈Rd是从单位正态分布中抽样的,式中,p=p/p2,z=z′/z′2。注意,损失byol仅关于θ而不是θ优化。梯度不会通过目标网络反向传播,如图2中的停止梯度所 经过培训,双方carded和在线网络的表示z用于下游任务。3.2. MSBReg基于BYOL架构,我们使用以下损失L(θ,θ;X)(而不是使用Lbyol),它由以下三个损失项组成:(i)多视图质心损失Lc,(ii)奇异值损失Ls,和(iii)布朗扩散损失Lb。2764bition,即n(0,Id),其中单位矩阵Id。我们布朗扩散损失定义如下:2765L(θ;X)=1n(4)其中n=n/n2。 噪声矢量n通过径向推动嵌入空间中的粒子而产生有向运动,该运动在单位超球上均匀采样。重要的是,我们对给定图像的所有增广嵌入使用相同的随机向量这意味着共享相似语义的正对不会分散开。相反,来自不同国家的观点2766−1τLΣ不2ΣΣJ2Σ图像移动到不同的方向,并且该方向可能与其他图像的移动方向正交即布朗扩散损失使嵌入局部分散,从而在不同图像的嵌入之间产生隐含的对比效应。我们观察到我们的布朗扩散损失对于防止模式崩溃至关重要[14]。由于目标网络这种不平衡可能导致模式崩溃,因为在线网络的表示可以快速地崩溃成单个点,而在奇异值损失最后,我们使用奇异值损失w,使投影p的不同特征维度去相关,以防止这些维度包含相同的信息,从而避免维度崩溃。我们最小化嵌入的经验协方差矩阵与识别矩阵Id之间的以下欧几里德距离,因此,我们惩罚协方差矩阵的非对角系数并使分布为球形。设pij是第i个批处理和第j个增广嵌入。则第j个增广嵌入的经验协方差矩阵Sj为:n4. 实验4.1. 使用MSBReg评估在ImageNet-100和STL-10上进行评估。遵循线性评估协议,我们使用编码器中的冻结表示训练一个简单的线性我们首先在小型ImageNet-100 [22]和中型STL-10数据集上评估编码器的我们在表1中观察到,MSBReg的性能通常优于两个数据集上的其他最先进的方法,特别是我们在STL-10数据集上观察到很大的增益。性能 的 提 高 更 加 明 显 , 以 下 三 种 方 法 , MoCo 、Simplified和Wang and Isola,使用了比我们的ResNet-18主干更具表现力的基于ResNet-50的主干我们还观察到,学习表示的质量随着视图数量K的增加而提高(比较底部两行)。在ImageNet上进行评估。我们进一步评估了在大规模ImageNet数据集上使用MSBReg进行自我监督预训练后获得的表示,其中包括两个评估指标:1)线性评估协议和2)使用ImageNet子集的半监督学习和3)kNN分类。对于线性评价方案,与表1相同,虚线表示原始论文未报告相应值。我们在表2中观察到,S=1(pn−1i=1-p<$j)(p-p'j)(5)MSBReg的性能优于其他方法,并得到了与多作物SwAV兼容的结果,这可以证实MSBReg对于其中n是批次数,p<$j=1<$npi j.学习更好的视觉表现。 特别是,com-然后我们将奇异值损失定义为:1KLs(θ; X)=K<$Sj−Id<$Fj=1KDni=1(六)与其他训练了400个epoch的基线不同,我们的方法只训练了300个epoch。这意味着它有足够的空间来改进很多。同样,请注意,我们使用的批量大小比除MoCo-v2 之 外 的 替 代 品 更 小 ( 即 , 512 对 4096 或1024),但显示出匹配或更好的性能。=1(σKijj=1i =1-1)(7)为了评估我们的方法的半监督学习能力,我们报告前1名和前5名的准确率超过1%,其中σij是协方差矩阵Sj的奇异值。我们发现,当与布朗扩散损失相结合时,这种损失得到改善。一些先前的作品[2,9,29]证明白化损失是不同嵌入之间的重新移动相关性。然而,在我们的方法中,我们将奇异值损失视为鼓励嵌入分布均匀性的分散力。尽管布朗扩散损失解决了嵌入空间中的局部分散,但奇异值损失表现出将嵌入分布的形状正则化为大尺度下的全局球形的力量10%的ImageNet子集。实验结果见表3。对于1%和10%的子集,我们的方法优于基线,当我们将方法与top-1精度特别是,在ImageNet数据集的1%子集的微调结果中(参见表3中的第1列),我们的方法以较大的幅度超过。对于前5名的准确性,我们的方法得到匹配的性能与[13]和优于其他方法。kNN评价结果见表4。我们报告了20-NN和200-NN分类结果的准确性。我们的方法优于基线。IJ2767†表1. 线性分类器和5-最近邻(5-NN)分类器在两个视觉基准上针对不同损失函数的分类准确度(前1和前5):ImageNet-100 [8]和STL-10 [7]。请注意,BYOL(第1行),W-MSE 4(第5行)和我们的(底部2行)基于ResNet-18编码器,而其他编码器则基于更具表现力的ResNet-50编码器。†:分数来自我们的复制品。[22]第七届全国人大常委会第十三次会议审议通过《中华人民共和国宪法》。表2. ImageNet上的下游任务结果比较。所有方法的主干架构都是ResNet-50。请注意,基线结果来自[6]和[9]。粗体是最好的准确性,下划线是第二好的准确性。这意味着我们的模型被训练了300个epoch。方法批量时期表 3. ImageNet 子 集 上 的 半 监 督 分 类 结 果 比 较 。 我 们 用ImageNet的1%和10%的标记数据微调分类器和编码器。我们报告top-1和top-5准确度。大胆的表情是最好的准确性。方法顶 部 -1 ( % )前 5 名(%)百分之一百分之十百分之一百分之十SimCLR [5]48.365.675.587.8BYOL [14]53.268.878.489.0VICReg [2]54.869.579.489.5SwAV [4](with multi-crop)53.970.278.589.9[29]第二十九话55.569.779.289.3OBoW [13]--82.990.7我们的(K=4)58.670.681.990.14.2. 各种下游任务的迁移学习我们进一步评估了在ImageNet上使用MSBReg训练的特征的可转移性,通过将特征转移到各种下游任务。在表5中,我们比较了MSBReg与基线的性能。我们前1名(%)前5名(%)5-NN(%)前1名(%)5-NN(%)[14]第十四话71.5691.1863.1889.5085.15美国[15]72.8091.64---[5]第五届中国国际汽车工业展览会---90.5185.68[25]第二十五话74.6092.74---W-MSE 4 [9] ResNet-1879.0294.4671.3291.7588.59我们的(K=4)ResNet-1880.3894.9274.3093.0090.38我们的(K=8)ResNet-1881.5695.2075.2493.1990.56100200400BYOL [14]4,09666.570.673.2SimCLR [5]4,09666.568.369.8[第15话]25667.469.971.0W-MSE 4 [9]1,02469.3-72.56SwAV [4](w.o. 多作物)4,09666.569.170.7SwAV [4](with multi-crop)4,09672.173.974.6新加坡[6]25668.170.070.8我们的(K= 4)512七十7七十74.6†2768表4. ImageNet上的kNN分类结果比较。我们报告了20-NN和200-NN的准确性。方法20-NN(%)200-NN(%)NPID [26]-46.5洛杉矶[31]-49.4PCL [18]54.5-VICReg [2]64.562.8SwAV [4](with multi-crop)65.762.7我们的(K= 4)66.263.0表5.评估在各种下游任务中使用MS-BReg预训练的表示:1)冻结ResNet-50主干上的性能线性分类器和2)具有微调的对象检测。对于线性探测,我们报告了VOC 07 [10]基准的mAP,Places [30]和iNaturalist 2018 [24]基准的Top-1准确度(%对于目标检测任务,我们报告了VOC07+12基准的AP50、AP75和AP方法分类(%)VOC检测VOC 07地点iNat 18AP50AP75AP全部[第12话]79.351.1-81.361.153.5[15]第十五话86.451.838.682.463.657.0[19]第十九话81.149.8-80.759.754.0OBoW [13]89.356.8-82.964.857.9BYOL [14]86.654.047.681.461.155.3新加坡[6]---82.463.757.0[29]第二十九话86.254.146.582.663.456.8SwAV [4]88.956.548.682.662.756.1[28]第二十八话---83.867.760.2我们的(K=4)87.856.447.983.063.556.7首先报告VOC07 [10],Places205 [30]和iNaturalist [24]视觉基准的线性分类结果。每一个基准都是为了评估1)多标签分类,2)场景和3)细粒度分类。我们评估了线性分类器的性能,该线性分类器是在使用MS-BReg方法预训练的冻结ResNet-50编码器上进行的。我们报告了VOC07数据集的mAP和其他基准的前1精度(%我们观察到,我们的方法与其他方法相比,显示出普遍匹配的结果2769××ΣL表6. BYOL [14]和我们在STL-10数据集上的表示质量比较[7]。Top-1分类准确度使用不同类型的归一化技术报告:批量归一化(BN)[17]和层范数(LN)[1]。为了查看我们提出的布朗扩散损失Lb的效果,我们还报告了具有L b的BYOL的分数(第4行)。方法规范层批量λbTop-1(%)相对于第6行)。虽然我们观察到前1分类准确性略有下降,但我们的方法充分避免了崩溃表示。此外,我们评估的BYOL与我们的布朗扩散损失,以证明其对模式崩溃的有效性。我们观察到,我们的布朗扩散损失有助于避免崩溃的表示(com-m3 vs.第四排)。我们还观察到,表示的质量取决于超参数λ b的强度,当λ b=5×10−4时,我们获得最佳性能。当我们看到一个较小的BYOL0或更大的λb会略微降低表示的质量。我们的LN 2565×10−382.3我们的LN 2565×10−278.7对于对象检测任务,我们使用PASCAL VOC 07+12对象检测基准[10]微调预训练的ResNet-50主干。我们使用具有C4主干的Faster R-CNN [20]作为我们的基线模型。我们报告AP50,AP75和AP所有。我们在表5中观察到,我们的模型与替代品相比显示出大致匹配的结果,但PixPro [28]除外,其建议用于。对于AP50,我们的方法比基线表现得更好,而我们的方法显示出匹配或略低于其他方法的性能我们在附录中报告了COCO数据集上的实例分割结果4.3. 布朗扩散损失对抗模式崩溃BYOL [14]成功地只使用了正对,但是在线和目标网络可以避免所谓的模式崩溃的原因,即。所有示例的表示被映射到嵌入空间中的同一点,尚未清楚地解释。现有4.4. 与多作物方法的我们进一步比较了多视点质心损失与多裁剪方法。在SwAV中,多视图质心丢失和多裁剪之间的主要区别我们在表7中观察到,使用多作物方法的BYOL模型显示出退化(比较第一次与第二次)。第2行),而MSBReg以较大幅度提高了BYOL的性能(比较第1行与第3行)。这一事实也在[2]中报道。在这里,我们描述了实验的细节。为了进行公平的比较,我们在BYOL框架中实现了多作物方法。多重裁剪方法生成2个全分辨率视图(ImageNet为224 224)和低分辨率V视图(ImageNet为96 96)。裁剪图像的小部分用于生成低分辨率图像。我们在[4]中选择V=6。为了将多作物方法应用于BYOL,我们重新制定BYOL损失(即,当量1)如下所示V+2Lmc-byol(θ,θ;X):= <$p<$−z<$′ <$21(i<$=j)工作[11,6,22,21]讨论了批量范数(BN)的使用隐含地有助于避免生成折叠表示。特别是原作者i,jV=+2。=Ij2 −22pi,zj′1(i j)[14]的结果表明BYOL在没有BN的情况下工作[21]。怎么-然而,这些方法在限制i、j||2·||zj′ ||2||2网络体系结构设计和这一事实意味着这些方法是次优的。在我们的工作中,我们建议使用布朗扩散损失b,它将嵌入推向径向方向,以便在单位超球体上均匀采样。这有助于避免折叠表示,而不需要使用批量规范(BN)。我们将在附录中进一步讨论这一点。在表6中,我们凭经验观察到,当我们用另一种归一化技术(层范数)替换批范数(在预测和投影头中)时,BYOL遭受模式崩溃(比较第一次与第二次)。第3行)。前1分类准确率从89.5%大幅下降到10.6%,即。模式崩溃。我们的布朗扩散损失Lb不是这种情况(比较第二这表明多裁剪方法最小化了嵌入对之间的距离,而我们的多视图质心损失最小化了每个视图与多视图的几何质心之间的距离表7.ImageNet上下游图像分类任务在多视图丢失和多裁剪之间的准确性比较我们对BYOL采用多作物方法。方法100 epochs200个纪元300个纪元BYOL [14] 65.9 70.1 72.3BYOL+多种作物65.868.770.3我们的(K=4)70.273.674.4BYOLBN256089.5我们BN2565 ×10−291.4BYOLLN256010.6BYOL+我们的LBLNLN25610245 ×10−375.310.6我们LN2565 ×10−480.7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功