没有合适的资源?快使用搜索试试~ 我知道了~
定向自监督学习:一种面向重图像增强的新方法
166929590858050352050 200 400 600800↔←×面向重图像增强的定向自监督学习白亚龙1*杨一凡2*张伟1†陶梅1北京大学北京大学ylbai@outlook.com,yifwww.example.com,www.example.comyang@pku.edu.cn @wzhang.cu gmail.com,tmei@jd.com摘要尽管有很大的增强家族,但只有少数精选的鲁棒增强策略有利于自监督图像表示学习。在本文中,我们提出了一个定向自监督学习范式(DSSL),这是兼容的显着更多的增强。具体而言,我们在标准增强的视图轻微增强后采用重增强策略,以生成更硬的视图(HV)。HV通常比轻度增强的标准视图(SV)与原始图像有更高的偏差。与以往的方法不同,DSSL将同一实例的增强视图视为偏序集合(方向为SV SV,SVHV),然后根据视图间的关系构造一个有向目标函数.DSSL可以很容易地用几行代码实现,并且对流行的自 监 督 学 习 框 架 非 常 灵 活 , 包 括 Simplified , Sim-Siam,BYOL。在CIFAR和ImageNet上的大量实验结果表明,DSSL可以稳定地改善各种基线,并兼容更广泛的 增 强 。 代 码 可 以 在 : https : //github 上 找 到 。com/Yif-Yang/DSSL.1. 介绍无监督视觉表征学习的目标是在不使用人工语义标注的情况下学习图像特征。最近,由实例辨别任务[3,13,22,27,29]或连体架构[5,12]驱动的自监督学习在学习高质量视觉特征和缩小各种计算机任务的监督预训练的性能差距自监督学习方法的视觉嵌入空间是通过最小化来自同一图像的变化的表示之间的不相似性和/或增加表示之间的距离*同等贡献。†通讯作者。增强SimSiam带DSSL标准八月92.17带竖锯(2)带竖锯(4)92.7989.7293.5691.95含RA(1,1)88.0092.29含RA(2,1)82.8093.09含RA(2,5)9.7894.17带UA91.1193.2795908580SimSiam50 SimSiam w/RA(2,5)DSSL+SimSiam w/RA(2,5)352050epochs800图1.左:SimSiam [5]在CIFAR-10上的线性评估准确度,除原始标准增强外,还添加了额外的重增强。JigSaw(n)的网格数为n n。RA(m,n)是RandAugment [8],具有m量级的n个增强变换。[19 ]第19话:不一样的人右:在预训练期间验证kNN分类的准确性。在SimSiam上进行大量的增广会导致性能不稳定甚至崩溃(对崩溃模型的线性评价我们的DSSL始终受益于更高性能的大量增强。来自不同图像的增强视图的组(负对)。图像变换的目的是从同一图像生成变化[3,5,12,13],在自监督视觉表示学习中起着至关重要然而,这些自监督学习方法有一个共同的基本弱点:只有少数经过仔细选择的增强策略和适当的设置才有利于模型训练。随机裁剪、颜色失真、高斯模糊和灰度的组合对于实现良好的性能至关重要,其被用作许多流行的实例式自监督学习方法的基本增强设置[2,5,12,13,17]。这里我们把这些增广定义为标准增广.我们将通过标准增强的图像表示为标准视图。最 近 的 研 究 发 现 , 一 些 其 他 的 增 强 ( 例 如 ,RandAugment,JigSaw)可以进一步提高依赖于负对的自监督学习方法的性能[23]。然而,对于像Sim- Siam[5]这样的无负对自监督学习方法,引入这种增强通常会导致16693↔←标准增强重度增强对称损失非对称损失集群(c)第(1)款(b)第(1)款(一)相似不相似不相似相似图2.标准自监督学习和我们的DSSL概述。原始标准图像变换生成标准视图,并且通过应用重增强RandAugment从标准视图导出较硬视图。(a)使用标准视图的标准实例学习(b)在引入大量增强(更硬)视图后的实例式自监督学习应用对称损失来最大化标准视图和重度增强视图之间的相似性,粗略地扩展了视觉嵌入空间中的特征聚类该模型可能会混淆实例级标识。(c)DSSL:为了防止严重增强视图丢失信息的不利影响,DSSL避免任意最大化其视觉一致性。为了收紧特性集群,DSSL应用了一个非对称损失,只将每个高度增强的视图收集到其相关的标准视图中。一个糟糕的性能,甚至在训练过程中模型崩溃,如图1所示。我们将这些不稳定和有风险的数据增强策略命名为重增强,因为它们通常会在很大程度上改变图像外观。受以前的作品[5,17]的启发,将实例自监督学习公式化为来自同一实例的所有增强视图的K均值聚类,我们假设一个给定图像实例的所有视图的黄金标准特征聚类存在于视觉fea中。 真实嵌入空间,定义d为增强视图的特征与其相关的金标准特征簇的核心点的偏差。标准的自监督学习方法公平地对待同一图像的所有增强视图以构建训练对。如图2(a),这种策略工作良好,并且该模型对于标准图像变换能够稳定收敛然而,在合并从重图像变换增强的视图(图2(b))之后,出现了两个明显的风险。1)将标准视图的表示关闭到大量增强的视图将粗略地扩展嵌入空间中的特征集群。这将增加构造嵌入空间的难度,其中所有实例都是分离的,并且还可能导致与其他实例分布的意外混淆[1,26]。2)在大量增强的视图中最大化视觉一致性不符合由于具有大d的视图之间的相互信息通常较低,因此对比这些视图会导致信息缺失,并导致下游任务的性能较差。为了解决这个问题,我们提出了定向自监督学习(DSSL),一种新的无监督的表示学习可以通过完全应用更重的图像变换来稳定地提高实例式自监督学习图2(c) 显示了DSSL的图示。对于从原始鲁棒图像变换增强的每个标准视图(SV),我们可以通过应用额外的重增强策略来生成从其导出的这些高度增强的视图具有比其相关标准视图更大的d。通过这种方式,我们可以将同一图像的所有增强视图视为d的偏序集(SVSV,SV HV)。引入非对称损失以鼓励每个重增强视图(HV)的表示接近其相关源标准视图(SV)。通过这种方式,所有增强视图的特征聚类可以呈现为非凸的,而不是K均值凸聚类,整个聚类被收紧。此外,DSSL放弃了RV之间的实例式自监督学习,以绕过HV之间的低互信息因此,可以引入更多DSSL是一个简单的算法,可以很容易地在几行伪代码中实现。此外,在DSSL中不需要调整额外的超参数。我们通过在几个自监督基准测试中进行评估来验证DSSL的有效性。特别是在ImageNet线性评估协议上,DSSL实现了稳定的性能提升。所有基于DSSL的预训练模型在CIFAR-10线性评估上都超过了有监督的预训练模型。此外,trans-16694检测和分割任务的性能进一步证明了DSSL的效率与重增强。主要贡献概述如下:• 提出了一种新的无监督视觉表示学习的方向性自监督学习(DSSL)范式。我们引入了一个偏序集来组织增强视图,并引入了一个不对称的损失,利用丰富的信息,从沉重的增强视图。• DSSL是易于实现的,并适用于各种标准的实例式自监督学习框架-作品通过引入微小的修改,没有任何超参数。• DSSL在标准基准测试中稳定地改进了各种自监督学习方法,即使在彻底应用对以前的方法产生不利影响的繁重图像变换时也是如此。2. 相关工作我们的工作涉及实例式自监督学习和数据增强策略的研究。实例自监督学习。实例级分类任务将每个图像及其变体视为一个特定的类。它旨在通过将同一类中的所有样本拉近,同时将其他类中的样本推远来构建视觉嵌入空间。由于很难将所有训练样本直接分类到大量类别中[10],早期的实例对比学习方法用记忆库[27]代替分类器,以存储前一阶段计算的所有样本的先前特征,并从记忆库中对正负对进行基于该方法,还采用并扩展了其他几种技术,例如引入局部相似性[32]和邻域细化[15],以进一步提高特征嵌入的质量He等人[13]通过存储来自动量编码器的表示而不是训练的网络来增强基于存储体的对比学习模型的训练。其他一些方法不是存储先前计算的表示,而是在当前批次中探索不同实例所有上述方法都需要大批量、存储库或队列来提供足够的阴性样本用于聚类或区分。最近,一些工作提出了在不使用负样本的情况下推进自监督预训练,例如,[12]第五节:中国的改革开放政策这些无负对的自监督学习方法对批量大小的变化更有弹性,对低资源实现更友好。数据扩充政策。多个组成部分,在定义产生有效表示的对比预测任务时,简单的数据增强操作是至关重要的[3,5,12]。到目前为止,大多数高性能对比学习框架都被设计为通过在特征嵌入空间中的对比损失来最大化同一图像的不同增强视图之间的一致性来学习表示。然而,与可以受益于各种复杂数据增强策略的监督学习方法不同[6-随机裁剪、可选的左右翻转、颜色失真、高斯模糊的组成被视为标准和鲁棒的增强设置,用于在无监督视觉表示学习方法中生成训练图像的增强视图[2,5]。还我们的实验研究还表明,直接应用复杂/繁重的数据增强策略会导致负对自由实例自监督学习方法的性能下降甚至模型崩溃。这些繁重的数据扩充构建了具有小互信息的视图。根据infoMin原则[23,24],在这种观点上训练的无监督学习方法将导致性能的即使是这种大量增强的视图也已被证明包含丰富的信息[25],但它们仍然可能误导嵌入空间中的特征聚类。与[28]中提出的用于在3D人体姿态估计任务中利用不同分辨率的输出一致性的方向性自监督损失的另一个概念不同,在本文中,我们提出了一个通用的自监督学习框架DSSL,用于引入各种图像变换以进行实例自监督学习,具有更好的理论依据。禁用具有丢失信息的强概率的重度增强视图之间的对比此外,DSSL将实例自监督学习视为优化非凸聚类任务。提出了一种非对称损失的收紧功能集群。结果表明,DSSL能够利用大量图像变换所带来的丰富信息和基于数据特征的学习策略,在各种实例自监督学习方法上3. 方法实例式自监督学习方法旨在通过最大化潜在视觉特征空间中相同数据示例的不同增强视图之间的一致性来学习表示。为了便于讨论,我们首先用统一的公式简要总结标准的实例式自监督学习。16695不·不可以基于v_t(I)通过ap_t(v)来产生vi_wv_t(vL^^^^SS·SS^,.,Σ^^ ^您的位置:^^T^^^^^作为完全无向图中的边的集合^ ^您的位置:3.1. 统一的提法遵循最近工作的基本设置,标准的实例式自监督学习框架具有四个主要组件:• 一个数据增强模块,包括用于生成增强视图的增强策略集 对于给定的图像。���������(• 深度神经网络编码器f(·),用于投影将图像输入到潜在空间。• 投影头g(),用于将编码器网络的输出映射到应用实例式自监督损失的空间。• 为实例判别任务或特征预测任务定义的自监督损失函数给定没有注释的输入图像I,数据增强模块产生增强视图对,其被设置为VT={(t(I),t′(I))|t,t′T}。(一)其中t和t′是从中采样的随机扩增。在训练期间,从VT采样增强视图对(v,v′)。增强视图v之一被馈送到编码器中以得到它们的视觉表示f(v)。投影头将增强视图的特征转换为向量zg(f(v))。实例式自监督学习的目标函数是最大化VT中增强视图对之间的一致性:S(z,y(v′)),其中���′(���图3.我们的定向自监督学习(DSSL)框架的插图。左:偏序视图的构造。右:用于双向最大化从VT采样的增强视图对之间的一致性的对称损失LS保持相同。提出了非对称损失A,用于鼓励重增强视图的表示接近其源标准视图,尊重部分有序关系。在V中的位置- 是的T→T所述数据增强模块用于从T和T联合生成增强视图。特别是,新的增强图像增强试验,t. 这意味着每个光增强视图v将具有各种相关的更硬增强视图v,并且v从v导出。对于一个训练有素的无监督学习模型,所有y作为一种操作来生成神经网络的标签工作培训。对于不同的实例式自监督学习方法,函数和操作y以不同的方式实现:• 在Simplified [3]中,y(v′)=g(f(v′)),并且是跨v,v′和从mintbatch中的其他图像中增加的负视图v −的公式化softmax风格函数。• 在BYOL [12]中,y(v′)=f(v′),其中f()是具有f的指数移动平均权重的连体编码器。测量归一化z和y(v′)之间的均方误差。• 在SimSiam [5]中,y(v′)=f(v′),但在计算y(v′)的神经通路中,没有梯度向后传递。度量给定特征向量对的负余弦相似性由于增强视图是随机生成的,因此上述目标函数被实现为对称形式:LS=S(z,y(v′))+S(z′,y(v)),(2)其中z′≠g(f(v′)).3.2.偏序视图构造相同图像的视图应该在视觉嵌入空间中紧密聚集[2,5,17]。我们将增强视图偏离程度的定量测量并不容易。但是,一般来说,生成v的较大失真幅度导致较大d(v)。在标准增强视图上应用额外的重增强策略可以生成与原始视图具有更高偏差的新由于没有政策重叠,和,并且t的运算是非恒等的。因此,我们可以比较d(v)>d(v)的两个视图之间d的相对大小,因为v是通过对v应用附加的不同重增广运算t而产生的,如图3(左)所示。通过这种方式,我们可以构造一个有向训练对col-从偏序增强视图集合中选择V,为T←TVT ←T =t(I),t(t(I))| t ∼ T , t ∼T.(3)在组合由以下生成的原始训练对之后:T,我们得到最终的增强视图对集合,训练为VTVT←T^。特别是,VT可以被重新定义为其顶点是增强视图。V可以在本文中,我们引入额外的重数据增强策略T,除了以前仔细选择的标准数据增强策略T。我们推进可以看作是有向边sT←inTadi的集合用d(·)的大小来度量顶点间关系的无圈图。������Ƹℒ������′ℒ������′ℒ������ ′���(���′(���投影头���编码器编码器′16696y,y′,y^^′′^′,y=f(v),f(v),f(v^),f(v)^^^^^^^^^^←^ ^您的位置:^不不其中z^^′^′=g(f(v^))且z=g(f(v))。操作·^DL·L^T^TT×LA在所有图像上平均DSSL可以很容易-算法1SimSiam伪代码的DSSL,类似PyTorch其中V和V是增强视图集合# f:特征编码器; g:预测头;对于dataloader中的I:v,v′=t(I),t′(I)#标准数据扩充v,v′=t(I),t′(I)#重数据扩充z,z′,z,z′=g(y),g(y′),g(y),g(y′)#损失计算根据公式Ti n←gT, (1)和方程 (3)尊重价值。表示预测或对比的方向。α、β、γ和δ是损失各部分的权重以往的自监督学习方法公平地对待所有的增强视图,因此这些方法的目标函数可以看作是α=γ=β=δ=1的情况。而L=D(z,y′)/4+D(z′,y)/4+D(z,y)/4+D(z′,y′)/4L.backward()#back-propagateDSSL(L)DSSL )可视为update(f,h)# SGD updatedefD(z,y):# negative cosine similarityy= y.detach()#停止渐变#l2-normalizez = normalize(z,dim=1)y = normalize(y,dim=1)return-(z* y). sum(dim=1).mean()3.3.定向自监督学习对于从VT采样的每两个视图v和v′,我们从VT采样两个有向增广视图对(v,v^),(v′,v^′),V. 对于v之间的偏序关系,α = γ = 1,β = δ = 0的情形。考虑到从附加的重增强策略增强的视图将倾向于比从其源视图增强的视图丢失更多的信息,自然的解决方案是当它们作为用于优化自监督丢失的目标时,为重增强的视图拟合较低的置信度分数。因此,损失权重的理想设置应确保α,γ > β,δ。此外,我们在SEC中设计了各种自监督学习范式。4.3分析各组成部分的积极/消极影响,当量(6)论证了非对称损失的必要性anTd<$v,T^我们引入一个v<$v^方向非对称损耗a^sLA=D(z,y(v))+D(z^′,y(v′)),⑷y()与Eq保持相同。(2)遵循标准实例式自监督学习方法中的设置,但y()仅在A中的标准视图上计算。这使得自监督学习具有方向性和非对称性。这意味着A的优化目标是强制表示严重增强的视图接近其相关源视图的表示。简单地测量两个之间的负余弦相似性对于Eq. (五)、4. 实验结果4.1. 实现细节标准增大术。我们使用与之前的实例式自监督学习方法相同的图像增强序列[3,5,12],包括随机裁剪和缩放、水平翻转、颜色失真、灰度和高斯模糊。上述每一种增强都在至少一种典型的实例式自监督学习方法中被证明是有效的。所有上述图像增强的组合被视为向量:阿利什岛标准扩增试验D(z,y)=−z.∥y ∥2大量的扩增。受In-foMin [23]中设置的启发,我们使用RandAugment[8]和Jigsaw[6,20]如图3(右),我们的目标函数对于给定的两个标准视图及其相关的更硬视图,所提出的定向自监督学习可以表示为:LDSSL=LS+ LA。(五)DSSL的总损耗可以通过测量DSSL的总损耗来测量。Vas heavy重augmentations扩增.这两个增强已被证明是有效的监督表示学习,负对需要实例对比学习。但我们发现,这些增强导致性能不佳,甚至模型崩溃的负对自由无监督学习。我们将RandAugment表示为RA(n,m),其中n是增强策略ilyiTm←pTl^mentedonvariousinstance-wiseself-supervised学习框架只需几行伪代码。Al-出租m1显示了将DSSL应用于非监督学习框架SimSiam [5]的伪代码。与以前的自我监督学习方法的关系。我们将一般的自我监督学习公式化,考虑到所有由和共同增强的视图组合:从14个预定义的扩增中随机选择,m是所有变化的幅度。除特殊说明外,本文还采用了RA(2,5)和Jigsaw的4× 4网格的顺序组合,作为本文实验结果的强增强。比较方法。我们比较了三种典型的自监督学习框架,包 括 SimSiam 、 BYOL 和 Simplified , 如 表 1 所 示 。SimCLR使用2^16697ΣVΣVSΣαLS+βVTLS+γT^VT←TLA+δT^←TLA,(6)归一化的温度标度交叉熵为得双曲正弦值.模型训练需要正反两种观点的比较BYOL和SimSiam都是16698×方法负停止势头报道复制我们在ImageNet上的复制结果为67.4%(原始论文中报告的为67.7%)。这种性能差距是可以接受的。4.2. 主要结果和讨论ImageNet上的线性评估。我们应用线性表1.本文对三种基于实例的自监督学习方法进行了比较和分析。负样本自由方法,并且它们停止神经分支的梯度来计算标签y,除了BYOL应用动量编码器来更新y。为 了 公 平 比 较 , 我 们 每 次 为 负 样 本 自 由 方 法(SimSiam和BYOL)生成每个图像两个增强视图对,以保持特征预测对的数量与其相应的w/ DSSL版本相同。此外,对于在整个min-batch(批量大小为n)中考虑负样本的Simplified,其w/ DSSL版本仅为每个样本添加一个额外的具有不对称损失项的增强视图。对于每种情况,计算从2n2略微增加到2n2+2n在Simplified上应用DSSL后的最小批处理的数量前馈和反向传递保持相同。比较方法和DSSL的更多实现细节可以在附录中找到。培训详情。遵循之前自监督学习方法的实践,我们分别使用ResNet-50和ResNet-18作为ImageNet ILSVRC-2012 [21]和CIFAR-10 [16]数据集上的实验的基本特征编码器f我们严格遵循这些方法的原始文件中所提出的投影头g、初始化、优化器的网络结构。除了我们将相同 的 SGD 优 化 器 和 SimSiam 的 学 习 率 调 度 应 用 于BYOL,因为它可以稍微提高BYOL的性能。现有的作品在批量大小和训练时期上有很大的不同,这可能会显着影响性能。因此,我们在ImageNet上比较了相同批 量 大 小 为 512 和 训 练 时 期 为 100 的 所 有 模 型 ,ImageNet是一种资源友好的实现。我们在下面详细阐述了比较方法的实现细节• Simplified:我们使用了作者正式推荐的PyTorchrepo1• BYOL:我们重新实现的BYOL比SimSiam论文中报告的ImageNet线性评估的BYOL(100ep)结果具有更高的线性评估准确度(67.8% vs.66.5%)。• SimSiam:为了对齐本文中所有比较方法的设置,我们使用了具有余弦衰减的lr,但在线性评估期间没有固定预测MLP的lr1https://github.com/AndrewAtanov/simclr-pytorch在ImageNet数据集的未标记训练图像上进行自我监督预训练后,评估基于DSSL的模型具体来说,我们在预先训练的表示之上训练线性分类器。在训练过程中,骨干网络(特征编码器)的参数被冻结,而只有最后一个完全连接的层通过反向传播更新。选项卡. 2报告了比较方法及其DSSL版本的前1精度。最大化不同实例之间的相异性是学习分离的视觉嵌入空间的一种直接有效的方法。这种方式,在某种程度上,对缺失信息硬观点是稳健的。然而,对于无负对方法Sim-Siam,大量的增广通常会导致模型崩溃.动量编码器可以提高模型训练的稳定性,因为动量可以抵消不一致表示的误导信息BYOL比SimSiam对硬视图更健壮。虽然在当前的增强设置下,DSSL对BYOL和Simplified的改进有限,但在引入更多更重的增强后,这种限制很容易被打破,如表1所示。3和Tab。4.第一章我们将在后面的小节中进一步分析这些机制的鲁棒性。此外,为了展示DSSL的通用性,我们还将DSSL应用于另外两个SSL框架,MoCo v2 [4]和Barlow Twins[31],通过在Simplified w/ DSSL上遵循相同的设置和实现细节。DSSL始终使这两个框架受益。我们的DSSL防止关闭高度增强的视图之间的相似性,因为这些视图之间的共性通常是稀缺的,并且强制同化它们将导致模型崩溃。因此,DSSL可以使这些观点在无负对的自监督学习方法中不再有风险CIFAR-10的线性评价。与ImageNet数据集中的实现类似,我们使用CIFAR-10中的未标记训练图像在ResNet-18主干上进行自监督学习。我们遵循SimSiam [5]的CIFAR实验中使用的标准设置,SGD的学习率为0.03,余弦lr衰减时间表为800个epoch,图像大小为32 32,批量大小为512.我们在未标记的CIFAR-10图像上训练ResNet-18特征编码器,然后冻结主干,在CIFAR-10上训练带有注释的线性任务特定头部。选项卡. 2报告了在CIFAR-10上训练的线性分类器的前1精度。我们的SimSiam复制品(92.1)对梯度编码器SimCLR [3]✓60.159.5新加坡[5]✓67.767.4BYOL [12]✓✓66.567.816699^^T^方法SimCLRCIFAR-10BYOLSimSiamImageNetSimCLRBYOLSimSiamMoCo v2巴洛双胞胎复制91.592.292.159.567.867.464.462.4w/T^92.294.4崩溃60.068.3崩溃64.262.0带DSSL93.294.794.560.368.368.665.362.6表2. 线性评价准确度(%)的比较。 repro:我们对每种方法的复制。 塌陷:模型塌陷期间训练W/T:训练视图从标准和重增强中联合增强 重增强甚至模型崩溃也不稳定,而DSSL始终受益于T^。方法SimCLRBYOLSimSiamw/T^55.767.1崩溃带DSSL60.869.367.7表3.通过应用更多的协方差增强(+ T ^),BYOL的线性评估准确度(%)。和Simsiam(91.5)在相同的设置下比SimSiam的论文(91.8,91.1)有更高的性能。与Ima-geNet中的实验结果类似,在应用DSSL后,所有三种无监督学习方法都优于有监督的ResNet-18,其top-1准确率为93.02%。动量码盘的鲁棒性分析。如Tab.所示。2、基于动量编码器的方法BYOL比SimSiam具有更好的鲁棒性。为了研究无负样本自监督方法的局限性,并研究编码器的动量更新边界,我们进一步加强了BYOL的重增强幅度。特别地,增加了具有更多增强策略和更高失真幅度的RA。结果见表1。3表明,虽然动量编码器可以部分地缓解严重增强视图的副作用,但这种改进是不可靠的。增加增强视图的失真幅度将导致性能显著下降甚至模型崩溃。DSSL的鲁棒性分析。根据上述实验结果,在In-foMin[23]中提出的增强设置下, DSSL稳定地受益于各种SSL此外,我们引入了更多的重扩展策略来研究DSSL的鲁棒性 。如Tab.所示。 4 、本文给 出了Jigsaw 、RandAugment和UniformAugment三种重增广的组合[19表4.当将T设置为三个重增强{RA,UA,Jigsaw}的组合时,ImageNet线性评估的结果。预训练COCO检测AP50AP75COCO分割APmAPm50 75ImageNet59.237.740.955.833.935.8BYOL(复制)BYOL w/DSSL56.957.836.937.640.240.854.155.034.034.636.537.0SimSiamSimSiam(复制)SimSiamw/DSSL57.558.058.237.937.738.140.940.941.554.255.055.533.234.735.135.237.137.6表5.目标检测和实例分割的结果在COCO上进行了微调。我们采用Mask R-CNN R50-FPN和1x时间表,并在COCO 2017val上报告边界框AP和掩码AP我们的复制和DSSL版本基于ImageNet中的100 epoch预训练。 †:报告的200个epoch结果。有关DSSL对失真幅度的鲁棒性的更多分析,请参见附录。转移到其他视觉任务。我们评估了DSSL在与计算机视觉从业者相关的不同任务上的表现,包括COCO [18]对象检测和实例分割。与线性评估不同,我们在COCO数据集中端到端地微调100个epoch预训练的BYOL和SimSiam模型。我们应用公共代码库Detectron[11]来实现Mask R-CNN [14]检测器并评估COCO 2017val。选项卡. 5表明DSSL可以持续改进下游对象检测和实例分割任务的标准自监督学习方法4.3. 合理性说明和消融研究为了理解非对称损失和部分有序视图如何影响表征学习,我们在CIFAR-10数据集上设计了各种实例自监督学习设置的实验我们应用方法CIFAR-10ImageNetBYOL(复制)92.267.8+T^:RA(4,10)RA(8,16)RA(8,16)BY OL w/T^BYOL w/DSSL84.1倒塌94.4 94.060.667.816700���′92.14������′崩溃12���′1���′291.68������′���′崩溃������′���′20.37������′���′94.20������′���′93.10������′���′59.74������′���′93.68������′���′崩溃↓↓−^T^↑T←TΣ(一)(b)第(1)款(c)第(1)款(d)(e)(f)(g)(h)(i)(j) DSSL标准增广重增广对称损耗非对称损耗图4.不同视图构建和实例自监督学习机制的比较。在冻结表示上训练的CIFAR-10线性分类器的前1准确度(%)列于下框中。以彩色失真的随机大小裁剪作为标准图像变换,并应用RA(2,5)作为重增强。图4显示了增广、损失函数设计V.S. 线性评价精度显然,直接使所有视图相似而不区分标准和大量增强 的 视 图 会 损 害 性 能 ( c : 崩 溃 , d : 59.7 , e :20.4)。根据InfoMin [23]中提出的假设,硬视图丢弃的是关于任务相关变量的信息,从而降低了性能。此外,我们研究了Eq中每个组件的影响(6)并发现以下四种现象有效地说明了我们提出的DSSL的合理性(Eq.(五)。(i) 在大量增强的视图中引入对称损失VLS导致训练期间的崩溃(c,f)。(ii) 标准视图和大量增强视图之间的公平对比具有负面影响。在比较了(h:collapse)和(j:94.2↑)的结果后,影响V ^LA可以明显观察10080604020000.10.20.30.40.50.60.70.80.91图5. SimSiam的CIFAR-10线性评估准确度根据等式优化。(6)通过设置α= 1,β= 0,并且λ= 1δ跨越变化的δ。RA用于构造硬视图。增强视图将是高风险和低回报。此外,Eq.(6)是标准的实例式自监督学习方法的理论公式,同时公平地对待所有视图。我们的DSSL只激活两个训练视图对(比较Eq.(6)和等式(5))。因此,当考虑到所有可能的情况下,DSSL在训练过程中查看配对。(iii) 之间的设备pTin<$gT方向特性大量增强视图和标准视图导致稳定性能改进(D:59.7vs. g:93.1)。(iv) 在(g:93.1,i:93.7,j:94.2:)中比较,偏序视图构造机制具有更好的性能。这主要是由于v与其导出的较硬视图v之间的相互信息在一定程度上得到了保证。这样的机制可以防止意外丢失信息的问题。对于影响的更严格的分析,V洛杉矶,我们根据Eq训练SimSiam模型。(6)设λ+δ=1,α=1,β=0。如图5、测绘的负面影响大幅放大只有当δ值提高到一定阈值时,视图在早期阶段,线性评价精度保持稳定。这一现象进一步揭示了映射标准视图5. 结论与讨论我们提出了一个方向性的自监督学习(DSSL)框架的无监督视觉表示学习。与标准的自监督学习方法相比,我们提出的框架受益于更重的图像变换,并在各种视觉任务上获得稳定的性能改善。此外,DSSL易于实现,并与大多数典型的实例式自监督学习方法兼容。DSSL的核心概念可以进一步指导自监督学习的损失根据我们在Eq.(6)考虑视图特性的软加权DSSL也值得进一步研究。鸣谢本工作得到国家重点研发计划项目资助,项目编号:2020AAA0108600。准确度(%)16701引用[1] 齐彩、王宇、潘英伟、姚婷和陶梅。联合对比学习,无限 可 能 。 神 经 信 息 处 理 系 统 的 进 展 , 33 : 12638-12648,2020。2[2] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 arXiv 预 印 本 arXiv :2006.09882,2020。一、三、四[3] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。一、三、四、五、六[4] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。6[5] Xinlei Chen,Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv:2011.10566,2020。一、二、三、四、五、六[6] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏与构造学习在IEEE/CVF计算机视觉和模式识别会议论文集,第5157-5166页,2019年。三、五[7] Ekin D Cubuk, Barret Zoph ,Dandelion Mane ,VijayVasude-van,and Quoc V Le.Autoaugment:从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集,第113-123页3[8] Ekin D Cubuk,Barret Zoph,Jonathon Shlens,and QuocV Le. Randaugment:实用的自动数据扩充,减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第702-703页,2020年。一、三、五[9] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。3[10] Alexey Dosovitskiy , Philipp Fischer , Jost TobiasSpringenberg,Martin Riedmiller,and Thomas Brox.使用示例卷积神经网络进行区分性无监督特征学习。IEEETransactionsonPatternAnalysisandMachineIntelligence,38(9):1734-1747,2015。3[11] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。探测器 http s://github.com/facebookresearch/detectron , 2018年。7[12] Jean-BastienGrill , FlorianStrub , FlorentAltche' ,CorentinTallec,PierreHRichemond,ElenaBuchatskaya , Carl Do- ersch , Bernardo Avila Pires ,Zhaohan Daniel Guo,Moham- mad Gheshlaghi Azar,etal. Bootstrap your own latent : A new approach to self-supervised learning.arXiv 预 印 本 arXiv : 2006.07733 ,2020。一、三、四、五、六[13] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页第1、3条[14] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页7[15] 黄佳波、齐东、龚绍刚、朱夏天。通过邻域发现的无监督 深 度 学 习 国 际 机 器 学 习 会 议, 第 2849-2858 页 。PMLR,2019年。3[16] Alex Krizhevsky,Geoffrey Hinton等人,从微小图像中学习多层特征。2009. 6[17] Junnan Li , Pan Zhou , Caiming Xiong , RichardSocher,and Steven CH Hoi.非监督表征的原型对比学习。arXiv预印本arXiv:2005.04966,2020。一、二、四[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的公共对象。欧洲计算机视觉会议,第740Springer,2014. 7[19] Tom ChingLingChen , AvaKhon
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功