没有合适的资源?快使用搜索试试~ 我知道了~
自监督学习中的学习何处学习
parts for various downstream tasks, such as object detec-tion [11,25] and semantic segmentation [11]. There remain,however, several important issues unresolved. Two of themare mainly attributed to the rigorous invariance to randomcropping because it would risk introducing more irrelevantnuisance (e.g., background information) and spatial mis-alignment of objects for augmentations. Though, for SSL,random cropping might be the most effective data augmen-tation option [7] and a good degree of spatial misalignmentis beneficial [38], it remains unclear how to choose the opti-mal degree of misalignment. Furthermore, the involved nui-sance will hinder the discrimination ability of image-levelrepresentations while the misalignment discards some im-portant spatial information of objects.144510跨视图自监督学习中的学习何处学习0Lang Huang 1,Shan You 2*,Mingkai Zheng 3,Fei Wang 2,Chen Qian 2,Toshihiko Yamasaki 101东京大学;2商汤研究;3悉尼大学0{langhuang,yamasaki}@cvm.t.u-tokyo.ac.jp0{youshan,wangfei,qianchen}@sensetime.com, mzhe4001@uni.sydney.edu.au0摘要0自监督学习(SSL)取得了巨大的进展,并且在监督学习方面的差距大大缩小,其中表示学习主要通过投影到嵌入空间来引导。在投影过程中,当前的方法仅采用像素的均匀聚合来进行嵌入;然而,这样做可能会涉及与对象无关的干扰和不同增强之间的空间不对齐。在本文中,我们提出了一种新的方法,即学习何处学习(LEWEL),以自适应地聚合特征的空间信息,从而能够准确对齐投影的嵌入,并更好地引导特征学习。具体而言,我们将自监督学习中的投影头重新解释为逐像素投影,并通过这个共享权重的投影头从原始特征中预测一组空间对齐图。通过根据这些对齐图的空间加权聚合特征,从而获得一系列对齐的嵌入。由于这种自适应对齐,我们观察到在图像级预测和密集预测方面都有显著的改进:LEWEL在ImageNet线性/半监督分类、PascalVOC语义分割和目标检测方面将MoCov2 [15]提高了1.6% / 1.3% / 0.5% /0.4%点,将BYOL [14]提高了1.3% / 1.3% / 0.7% / 0.6%点。†01. 引言0近年来,自监督学习(SSL)[7, 12, 14,015, 29, 30,42]由于其从大量无标签数据中学习良好表示的出色能力而受到了极大的关注。其中,最先进的实例判别方法[7, 14, 15, 30,42]鼓励通过对一组随机数据变换(例如随机裁剪和颜色扭曲)进行图像级不变性的表示学习。这些方法甚至在各种下游任务(如目标检测[11,25]和语义分割[11])中表现出优越的性能。然而,仍然存在一些未解决的重要问题。其中两个主要归因于对随机裁剪的严格不变性,因为这可能会引入更多不相关的干扰(例如背景信息)和对象的空间错位。尽管对于SSL来说,随机裁剪可能是最有效的数据增强选项[7],并且适度的空间错位是有益的[38],但如何选择最佳的错位程度仍然不清楚。此外,所涉及的干扰将阻碍图像级表示的判别能力,而错位则丢弃了一些重要的对象空间信息。0*通讯作者。†代码:https://t.ly/ZI0A。0最近的一些文献致力于通过事先涉及一些下游任务的本地化先验来缓解这些问题。例如,[40,44]的工作探索了两个增强视图之间的像素级一致性,而其他一些工作则提出在两个视图之间匹配一组预定义的边界框[35,43]或预计算的掩码[19]的表示。尽管在密集预测任务上性能有所提高,但这些方法仍然存在一些缺点,例如,它们依赖于特定下游任务的先验,并且无法推广到其他任务。具体而言,这些方法在分类任务上的表现比它们的实例判别对应方法要差,因为它们是为密集预测而精心设计的,并且强调局部特征学习。0我们认为一个好的自监督表示学习算法不应该依赖于任务特定的先验知识,而是应该自发地学习本地表示。在本文中,我们提出了一种新的自监督学习方法,即学习何处学习(LEWEL),以纯粹的端到端方式进行。我们首先将现有SSL方法的嵌入的空间聚合(例如全局平均池化)视为由一组对齐图加权的所有空间像素的求和。这种表述表明,我们可以通过操作对齐图来明确控制在SSL中学习的位置。此外,与以往的方法手动基于下游规则指定对齐图不同,我们的方法在训练过程中学习仅预测对齐图。然而,直接建模对齐图而没有任何监督信号是相当具有挑战性的。因此,我们提出了一种新的重新解释方案,借助全局表示来引导这个过程。如图1b所示,我们将SSL中的全局投影头重新解释为每像素投影,直接预测这些对齐图,这受到语义分割学习范式的启发。通过这种方式,全局嵌入和语义对齐图与共享权重的投影头相耦合。这种重新解释使得模型能够自动找到语义一致的对齐,产生一组空间对齐图来“监督”对齐过程。实际上,LEWEL中的耦合投影头具有多个优点。一方面,基于生成的对齐图,我们可以获得一系列对齐的嵌入。使用这些嵌入实施SSL因此有望有益于表示学习,因为不相关的干扰和空间不对齐问题在很大程度上得到解决。另一方面,使用对齐嵌入进行学习反过来有助于全局表示提取更真正有区别性的特征。由于这种自适应对齐和耦合投影头,我们观察到图像级别和密集预测都有显著的改进。我们的主要贡献总结如下:1.我们引入了一种新的自监督学习方法,即学习何处学习(LEWEL),这是一个通用的端到端框架,不涉及任何下游任务的先验知识,以实现更自适应和准确的表示学习。144520对齐图0全局语义向量0�0a) 图像级自监督学习。0b) 重新解释投影头。0�0图1.对齐图预测的示意图。基于标准的图像级自监督学习,我们去除了全局平均池化(GAP)层,并将全局投影重新解释为每像素投影,从而产生一组自动激活到特定语义的对齐图。0与以往的工作手动基于下游规则指定对齐图不同,我们的方法在训练过程中学习仅预测对齐图。然而,直接建模对齐图而没有任何监督信号是相当具有挑战性的。因此,我们提出了一种新的重新解释方案,借助全局表示来引导这个过程。如图1b所示,我们将SSL中的全局投影头重新解释为每像素投影,直接预测这些对齐图,这受到语义分割学习范式的启发。通过这种方式,全局嵌入和语义对齐图与共享权重的投影头相耦合。这种重新解释使得模型能够自动找到语义一致的对齐,产生一组空间对齐图来“监督”对齐过程。实际上,LEWEL中的耦合投影头具有多个优点。一方面,基于生成的对齐图,我们可以获得一系列对齐的嵌入。使用这些嵌入实施SSL因此有望有益于表示学习,因为不相关的干扰和空间不对齐问题在很大程度上得到解决。另一方面,使用对齐嵌入进行学习反过来有助于全局表示提取更真正有区别性的特征。由于这种自适应对齐和耦合投影头,我们观察到图像级别和密集预测都有显著的改进。我们的主要贡献总结如下:1.我们引入了一种新的自监督学习方法,即学习何处学习(LEWEL),这是一个通用的端到端框架,不涉及任何下游任务的先验知识,以实现更自适应和准确的表示学习。02.在LEWEL中,我们提出了一种新的重新解释方案,用于生成具有耦合投影的对齐图。0头部,因此对齐和全局嵌入可以相互增强,从而提升学习到的表示。03.LEWEL在图像级别预测和密集预测方面相对于先前的技术带来了实质性的改进。我们在线性/半监督分类、语义分割和目标检测任务上进行了广泛的评估,使用了ImageNet-1K[36]、Pascal VOC [11]和MS-COCO[25]基准。实验结果表明,在所有设置下,LEWEL能够改善强基线模型MoCov2 [15]和BYOL[14]。具体而言,LEWEL在ImageNet线性/半监督分类、Pascal VOC语义分割和目标检测上分别将MoCov2[15]提高了1.6% / 1.3% / 0.5% / 0.4%点,将BYOL[14]提高了1.3% / 1.3% / 0.7% / 0.6%点。02. 相关工作0长期以来,学习良好的表示一直是计算机视觉中的基本问题之一。近年来,自监督学习(SSL)作为一种有前途的表示学习范式出现。一般来说,SSL方法解决了一个代理任务来推动训练,包括使用自动编码器恢复输入[32,39],在输入空间中生成像素[13,22],预测旋转[12]和解决拼图问题[29]。最近,对比学习方法显著推进了自监督表示学习。这些方法的核心思想是学习对一组数据变换不变的表示,例如随机裁剪、随机颜色抖动和随机高斯模糊。大量的对比学习方法[7, 15, 30, 37, 42,47,48]都是基于实例区分框架的,其中模型学习最大化正样本之间的相似性,同时最小化负样本之间的相似性。由于实例区分依赖于大量的负样本数量来获得良好的性能,一些其他的工作提出通过聚类算法[1, 3, 4,23]、简单地预测同一图像的另一个增强视图的表示[9, 14,20]、特征去相关[46]或自蒸馏[5]来摆脱负样本。然而,大多数最先进的对比学习方法仅在全局特征上操作,这可能涉及与对象无关的干扰和不同增强视图之间的空间错位。所提出的LEWEL框架属于对比学习的范畴,可以自适应地解决上述缺点。已经有一些研究致力于缓解这些问题。其中大多数提出在预训练阶段保持骨干特征的空间分辨率并涉及下游任务的先验知识。例如,一些工作通过匹配最相似的像素[40]或原始图像上相邻区域中的像素[33,44]来执行像素级对比学习;[35,43]的工作通过RoI池化[17]学习匹配与原始图像中相同补丁对应的区域的表示;[19]的工作使用一组预计算的掩码来汇集相应的特征进行匹配。与使用预定义匹配规则的这些方法相比,我们提出了在自监督学习中学习何处学习的方法,通过在训练过程中预测一组对齐映射。尽管LEWEL预测对齐映射的方式受到语义分割的经典学习范式的启发(即逐像素分类),但我们在预训练阶段不涉及任何语义分割的先验知识,例如通过强制像素级一致性。此外,由于全局投影的重新解释用于预测对齐映射,LEWEL将全局表示和对齐表示的学习耦合在一起,并同时提高它们的性能,而其他方法则导致分类性能下降。In this section, we first introduce the generalized spa-tial aggregation formulation of contrastive learning. Then,we present our methodology, Learning Where to Learn(LEWEL), and finally, we discuss the connections betweenour method and prior works.144530在本节中,我们首先介绍对比学习的广义空间聚合公式。然后,我们介绍我们的方法,即学习何处学习(LEWEL),最后,我们讨论我们的方法与之前的工作之间的联系。03. 学习何处学习03.1. 广义空间聚合0符号表示。让 θ 表示要优化的模型参数,ξ表示通过指数移动平均(EMA)更新的动量参数 ξ ← αξ + (1 −α)θ。根据这个表示,我们用 f θ 表示编码器(例如,ResNet-50 [18]),用 f ξ表示其动量对应物。此外,我们用 x表示未标记的训练图像,用一组数据增强操作(例如,随机裁剪、颜色抖动等)表示 T,这些操作用于生成自监督学习的增强视图。全局对比学习。在大多数现有的对比学习框架中,每个训练图像都独立地通过两个随机选择的增强操作 t ′ , t ′′ ∈ T进行变换,以获得 x ′ = t ′(x) , x ′′ = t ′′(x) 。如图1a所示,从第一个增强视图 x ′,编码器 f θ 输出骨干特征 F ′ = f θ (x ′) 。然后,全局平均池化(GAP)操作在特征 F ′上操作,以获得表示 y ′ = � H i =1 � W j =1 10H×WF′�,i,j∈RD,其中D、H和W分别是F′的通道数、高度和宽度。表示y′进一步通过投影头gθ转换为嵌入z′=gθ(y′)∈Rd0其中d是z′的维度。同样,第二个增强视图x′′可以产生骨干特征F′′、表示y′′和嵌入z′′。0通过动量编码器fξ、GAP操作和动量投影头gξ对其进行处理。最后,对两个嵌入应用自监督损失Lg=ℓ(z′,z′′)来驱动训练,其中ℓ(∙,∙)的具体实例将在后续介绍。学习何处进行学习。GAP操作是一种有效的空间聚合方式,引入了平移不变性。一方面,这种不变性对于图像级别的预测是有利的;另一方面,对所有空间位置进行平均会引入与对象无关的干扰(例如背景信息),并且会丧失空间信息,而这对于空间敏感的任务至关重要。在本文中,我们提出了自动学习何处进行学习的自监督学习方法。我们的方法的定义是学习一个空间聚合的对齐图W′∈RH×W:0y′=W′�F′=0H�0i=10j=1W′i,jF′�,i,j,(1)0其中�Hi=1�Wj=1W′i,j=1,W′i,j≥0,y′∈RD。式(1)是一个通用的公式,允许模型对不匹配的增强视图进行对齐,排除不希望的干扰。此外,我们可以看到GAP是式(1)的一个特例,其中W′i,j=1。0H×W,�i,j,这表明我们的方法能够通过操作对齐图W′在统一的框架中聚合局部和全局表示。03.2. 重新解释和耦合投影头0重新解释和耦合。对于全局对比方法,给定输入图像x′,模型输出全局表示y′和嵌入z′∈Rd。该嵌入z包含d个标量,其中第k个元素记录了图像x′对第k个语义的激活。这里,“语义”的概念被宽泛地定义,可以表示对象、模式或模型编码的其他内容。从这个角度来看,投影头gθ就像是全局表示y′之上的“分类器”。基于这个概念,我们的方法受到了语义分割的学习范式的启发,即逐像素分类[26]。我们将全局投影头g重新解释为逐像素投影,并将gθ应用于GAP之前的特征(即F′)。然后,如图1b所示,当输入第一个增强视图x′时,模型输出W′=gθ(F′)∈Rd×H×W,其中包含一组热图,记录了所有H×W位置对所有d个语义的激活。这种重新解释通过gθ的权重共享将全局投影和对齐图预测耦合在一起,使模型能够同时学习更好的全局表示和对齐表示。𝑑𝑡′𝒙′′𝐅′′𝐖′′𝒛′}{𝒛′𝒌" }W144540对齐嵌入0�0�′′0�′�′0�′0{��0�′′0图2. Learning Where to Learn(LEWEL)框架概述。这里,θ表示要学习的模型参数,ξ是θ的指数移动平均值。在LEWEL中,原始图像的每个随机裁剪独立地经过编码器f、全局平均池化(GAP)层和全局投影器g的处理,产生全局嵌入z,然后应用全局损失Lg。此外,我们将投影头g重新解释为逐像素投影,直接预测一组空间对齐图W,即将投影头和对齐图预测过程耦合起来。基于对齐图,LEWEL自适应地聚合一系列对齐嵌入{zk}并在其上最小化对齐损失La。为了清晰起见,这里省略了通道分组方案。0与全局对比学习一样,热图�W′0然后,对齐表示沿着通道维度进行ℓ2归一化,如下所示:0||�W′�,i,j||2, �i, j,对于每个位置独立地进行。0最后,为了获得对齐映射W′,我们独立地沿着空间维度对W′中的每个热图进行归一化,使得W′k = softmax(W′k) ∈RH × W,其中softmax函数在高度和宽度维度上操作。0sions,i.e., W′k,i,j = exp(W′k,i,0� Hu=1 � Wv=1 exp(W′k,u,v),0通道分组。我们引入了一种分组方案,将F′的通道均匀地分成h个等大小的组,即F′ = [F′(1), ∙∙∙,F′(h)],其中[∙]表示连接操作。给定对齐映射{W′k}dk=1,我们可以相应地聚合一组对齐表示{y′k: y′k ∈RD}d/hk=1,以及0y′k = [W′(k−1) × h+1 � F′(1), ∙∙∙, W′k × h � F′(h)], �k, (2)0其中�是在公式(1)中定义的空间聚合操作。我们在附录A.1中提供了分组方案的图示,以便更直观地说明。这种分组方案允许我们明确控制对齐表示的数量,同时将更多的语义信息编码到每个对齐表示中。对齐表示然后通过语义投影器pθ投影到对齐嵌入{z′k: z′k =pθ(y′k) ∈Rc}d/hk=1,其中c是投影器pθ的输出维度。按照相同的过程,第二个增强视图的对齐嵌入{z′′k}d/hk=1可以根据公式(2)和动量投影器gξ和pξ产生。最后,自监督损失La = h0d � d/hk=1ℓ(z′k, z′′k)应用于对齐嵌入以推动训练。03.3. 实现0损失函数。将所有内容放在一起,我们将自监督学习公式化为最小化以下目标:0L = (1 − β)Lg + βLa, (3)0其中β是全局损失和对齐损失之间的权衡项,默认情况下在本文中设置为0.5。LEWEL的整体流程在图2中显示,以更直观的方式进行说明。上述公式是通用的,不依赖于特定的自监督损失选择。在这里,我们提供了两种损失函数的实例化。第一种变体称为LEWEL M,基于InfoNCE损失[30]:0ℓInfoNCE(z′, z′′) = −log esim(z′, z′′)/τ0e sim(z′, z′′)/τ + �0z− sim(z′, z−)/τ,0其中sim(∙,∙)是输入对的余弦相似度,τ是一个温度项,z−是负样本的嵌入。在我们的实现中,负样本存储在一个先进先出队列[15]中,用于全局损失Lg,或者由当前小批量中不同图像的嵌入组成,用于La,因为数量足够大。此外,我们提出了第二个变体,称为LEWEL B,它不依赖于负样本。LEWELB采用与BYOL[14]相同的归一化均方误差作为损失函数:0ℓMSE(z′, z′′) = 2 − 2 × sim(qθ(z′), sg(z′′)), (5)0其中sg代表停止梯度操作。qθ是一个额外的预测器,有助于全局学习。144550表示,对于对齐表示,采用单独的预测器sθ。数据增强。LEWEL采用与MoCo[15]和BYOL[14]相同的数据增强配置。一般来说,我们首先从输入图像中随机裁剪两个,并将每个裁剪调整为224×224。然后,对每个裁剪独立地应用以下随机扭曲操作:水平翻转、颜色抖动、转换为灰度、高斯模糊和(对于LEVELB)太阳化。架构。我们使用ResNet-50[18]实例化编码器f(∙),这是本文中最常见的选择。投影器g(∙)和p(∙)由多层感知机(MLPs)实现,其中包括一个隐藏层,后面是一个批归一化[21](BN)层和ReLU[28]非线性激活。投影器g(∙)和p(∙)的隐藏/输出维度分别设置为2048/128(LEWELM)和4096/256(LEWEL B),这意味着LEWELM/LEWEL B的d为128/256,而d默认为c。此外,LEWELB的额外预测器q(∙)和s(∙)也由两层MLP实例化,具有与投影器相同的架构。我们遵循MoCo[15]的设置,在动量编码器fξ中使用ShuffleBN。对于LEWELB,默认情况下使用动量编码器中的EMABN统计数据进行更快的训练,遵循[2]。通过400个训练时期,我们使用SyncBN以获得更好的性能,遵循BYOL[14]。优化。我们使用随机梯度下降(SGD)来最小化我们的目标函数,动量为0.9。对于LEWELM,我们使用批量大小为256,初始学习率为0.06,权重衰减为10-4,温度项τ为0.2,并将编码器的动量α固定为0.999。对于LEWELB,我们使用批量大小为512,初始学习率为1.8,权重衰减为10-6,并将编码器的初始动量α设置为0.98,根据余弦调度[14]增加到1。默认情况下,我们使用单机八个GPU在ImageNet-1K[36](IN-1K)数据集上进行自监督预训练。使用余弦退火调度[27]和PyTorch[31]上的自动混合精度训练,模型训练100/200/400个时期。对于LEWELB,将偏差和BN层的权重衰减设置为0。在我们的消融研究中,我们在ImageNet-100[37](IN-100)数据集上对模型进行快速迭代的预训练。在这种情况下,我们只需将LEWEL的初始学习率加倍,并按照[37]的要求训练模型240个时期,其余部分保持不变。03.4. 讨论0从空间对齐的角度来看,公式(1)的表述概括了大多数先前的SSL方法,包括基于GAP的方法和基于像素或基于补丁的方法。例如,基于像素的方法的目标是学习像素-0表1.使用在IN-1K数据集上预训练的ResNet-50模型进行线性分类的比较。†:引用自[9]的结果。�:我们的复现结果。0方法 100个Epochs 200个Epochs 400个Epochs0准确率@1 准确率@5 准确率@1 准确率@5 准确率@10InstDisc [42] - - 56.5 - - PCL [23] - - 67.6 - - SimCLR [7] 64.6- 66.6 - - SimCLR [7]† 66.5 - 68.3 - 70.4 BYOL [14]† 66.5 -70.6 - 73.2 SwAV [4]† 66.5 - 69.1 - 70.7 SimSiam [9]† 68.1 -70.0 - 70.8 MoCov2 [15]� 64.5 86.1 67.5 88.1 - BYOL [14]�70.6 89.9 71.9 90.4 -0LEWEL M 66.1 87.2 68.4 88.6 -0LEWEL B 71.9 90.5 72.8 91.0 73.80从空间对齐的角度来看,公式(1)的表述概括了大多数先前的SSL方法,包括基于GAP的方法和基于像素或基于补丁的方法。例如,基于像素的方法的目标是学习像素的对齐映射,基于补丁的方法则采用一组预定义的对齐映射,仅激活补丁区域以进行空间对齐。与这些方法形成鲜明对比的是,我们提出了根据模型自身的一般公式(1)自动学习学习的位置。此外,由于预训练阶段没有涉及特定下游任务的先验知识,LEWEL能够在图像级和密集预测上表现良好,而不是在任务之间进行性能折中。从嵌入的角度来看,对于全局对比方法,给定输入图像x,模型输出一个全局嵌入z∈Rd。从嵌入的角度来看,该嵌入z由d个标量组成,其中第k个元素记录了输入图像x对第k个语义的激活。相比之下,根据语义感知的对齐映射,LEWEL(h=1)相应地为所有语义编码了d个对齐嵌入,每个嵌入的维度为c。换句话说,在我们的框架下,通过对齐嵌入分配更多的表达能力给每个语义,使得对齐嵌入的学习隐含地有益于全局嵌入z的学习。我们将在第4.4节讨论c的影响。04. 实验04.1. 线性评估0实验设置。按照先前的工作[9,14],我们移除LEWEL中的投影器和预测器,并在固定的骨干fθ上训练一个线性分类器来评估学习到的表示。对于LEWELM,我们使用批量大小为4,096、初始学习率为3.2、权重衰减为0、LARS优化器[45]和余弦退火调度[27]对线性分类器进行90个epoch的训练,参考[9]。144560表2.使用在IN-1K数据集上预训练的ResNet-50模型进行半监督分类的比较。�:我们的复现结果。0方法 Epochs 1%标签 10%标签0准确率@1 准确率@5 准确率@1 准确率@50PCL [23] 200 - 75.3 - 86.5 MoCov2 [15]� 200 43.8 72.3 61.984.6 BYOL [14]� 200 54.8 78.8 68.0 88.50LEWEL M 200 45.1 71.1 62.5 84.90LEWEL B 200 56.1 79.9 68.7 88.90SimCLR [7] 1000 48.3 75.5 65.6 87.8 SwAV [4] 800 53.9 78.570.2 89.9 BYOL [14] 800 53.2 78.4 68.8 89.0 BarlowTw. [46]1000 55.0 79.2 69.7 89.30LEWEL B 400 59.8 83.2 70.4 90.10LEWELB,我们使用批量大小为256、权重衰减为0、带有动量的SGD优化器、学习率为0.4(在第30和第40个epoch时衰减10倍)对分类器进行了50个epoch的训练,参考[2]。结果:在IN-1K上报告了top1和top5的验证准确率,见表1,其中包括引用的结果和我们复现的结果,以进行公平比较。总体而言,提出的LEWEL在所有设置下都明显优于现有方法:在进行了100个训练epoch的情况下,LEWEL M/LEWELB将基线方法MoCo [15]/BYOL[14]的top1验证准确率提高了1.6%/1.3%;在进行了400个训练epoch的情况下,LEWEL B的表现优于BYOL 0.6%。04.2. 半监督分类0实验设置。我们进一步评估了自监督预训练的ResNet-50在IN-1K数据子集上的微调性能。为了公平比较,我们使用了Chen等人[7]随机选择的1%和10%的子集。我们在这两个子集上对模型进行了50个epochs的微调,分类器学习率为1.0(0.1),骨干网络学习率为0.0001(0.01),在第30个和第40个epoch时衰减了10倍。结果。在IN-1K验证集上报告了top1和top5半监督分类准确率,如表2所示。在相同的预训练epochs下,LEWEL在很大程度上优于其他方法:特别是当只有1%的标签可用时,LEWELB的top1/top5准确率达到了56.1%/79.9%,在200个预训练epochs的设置下,相对于其他方法提高了最多1.3%/1.1%。此外,我们发现LEWELB在2倍或更多的预训练epochs下优于最先进的SSL方法,例如,400个epochs的LEWELB明显优于800个epochs的BYOL。半监督分类和线性分类的结果表明,LEWEL对于图像级别的预测学习到了更好的表示。0表3.使用在IN-1K数据集上预训练的模型进行Pascal-VOC目标检测和语义分割的迁移学习。所有条目都基于Faster R-CNN[34]架构和ResNet-50C4骨干网络[41]。†:引用自[9]的结果。�:我们的重现。0方法 Epochs VOC 07+12 Det. 12 Seg.0AP AP 50 AP 75 mIoU0Supervised† 90 53.5 81.3 58.8 67.70MoCov2 [15]� 100 56.1 81.5 62.4 66.3 BYOL [14]� 10055.5 81.9 61.2 66.90LEWEL M 100 56.5 82.1 63.0 66.80LEWEL B 100 56.1 82.1 62.3 67.60SimCLR [7]† 200 55.5 81.8 61.4 - SwAV [3]† 200 55.481.5 61.4 - BYOL [14]† 200 55.3 81.4 61.1 - SimSiam [9]†200 56.4 82.0 62.8 - MoCov2 [15]� 200 57.0 82.2 63.466.7 BYOL [14]� 200 55.8 81.6 61.6 67.20LEWEL M 200 57.3 82.3 63.6 67.20LEWEL B 200 56.5 82.6 63.7 67.804.3. 迁移学习到其他任务0为了评估预训练模型在其他任务上的迁移学习性能,我们使用了两个标准基准:Pascal VOC [11]和MS-COCO [25]。0VOC目标检测和语义分割。对于目标检测,我们使用预训练模型初始化Faster-RCNN[34]模型的ResNet-50-C4骨干网络。模型在trainval07 +12分割(约16.5k张图像)上进行训练,并在test12分割(约5k张图像)上进行评估,使用开源代码库detectron2[41]。我们遵循[41]中的标准训练计划,即使用批量大小为16的24k次迭代,在总步数的3/4和11/12处衰减学习率,并使用SyncBN。对于语义分割,我们使用输出步幅为8的扩张FCN [26]模型,在Pascal VOC 2012 train +aug分割(约10.6k张图像)上进行训练,并使用mmsegmentation[10]代码库在val分割(约1.5k张图像)上进行评估。我们使用批量大小为16、SyncBN和“poly”学习率计划[6]对模型进行20k次迭代训练。对于所有模型,我们搜索最佳的微调学习率并报告相应的结果。目标检测的实验结果(通过平均精度(AP)、AP 50和AP75衡量)和语义分割的实验结果(通过平均交并比(mIoU)衡量)总结在表3中。尽管先前的工作[8]报告线性准确率不一定与下游任务的性能相关,但我们观察到LEWEL在目标检测和语义分割上都取得了非平凡的改进。事实上,LEWEL在几乎所有条目上都优于所有比较方法,使用100-200个epochs的训练预算。APAP50AP75APAP50AP75ResNet50-C4:Supervised†38.258.241.233.354.735.2SimCLR [7]†37.957.740.933.354.635.3SwAV [3]†37.657.640.333.154.235.1BYOL [14]†37.957.840.933.254.335.0SimSiam [9]†37.957.540.933.254.235.2MoCov2 [15]∗38.858.042.034.055.236.3BYOL [14]∗38.158.440.933.355.035.3LEWELM38.958.642.034.155.336.3LEWELB38.558.941.233.755.535.5ResNet50-FPN:DenseCL [40]40.359.944.336.457.039.2ReSim [43]39.860.243.536.057.138.6LEWELM40.059.843.736.157.038.7LEWELB41.361.245.437.458.340.3PixelPro [44] (400 ep) 41.461.645.437.4--LEWELB (400 ep)41.962.446.037.959.340.7✓××79.561.6×✓×80.062.6✓✓×81.062.7✓✓✓82.163.4MoCov2 [15]×12879.561.6×25679.860.6×51280.261.5✓12879.962.2LEWELM×12881.863.0LEWELM w/ rand. W✓12879.861.9LEWELM✓12882.163.4144570表4.将模型在IN-1K数据集上进行200个epoch的预训练,进行迁移学习到MS-COCO目标检测和实例分割。所有结果基于Mask R-CNN [16 ]架构。† : 来自[ 9 ]的结果。� : 我们的重现。0方法 目标检测 实例分割0COCO目标检测和实例分割。我们采用Mask R-CNN [ 16]架构,使用ResNet50-C4 [ 41 ](参考[ 9 , 15])或ResNet50-FPN [ 24 ](参考[ 40 , 43 , 44])骨干网络,在ImageNet-1K数据集上进行了200/400个epoch的预训练。所有模型都在COCO2017训练集(约118k张图像)上进行微调,并最终在验证集(约5k张图像)上进行评估。我们使用批量大小为16,并采用detetron2 [ 41]中的1×调度,总共使用90k个训练迭代,并在第60k和80k个迭代时将学习率降低10倍。我们对LEWEL和重现的方法进行了微调学习率的搜索。0所有方法在COCO上的标准指标,包括目标检测和实例分割的AP、AP 50和AP75,都在表4中报告。我们可以看到,在所有指标上,LEWEL的性能最好。具体来说,LEWEL M /LEWELB在所有条目上相对于MoCo/BYOL强基线提高了最多0.5%。而与其他没有空间对齐的最先进方法相比,这种增益更大。此外,与手工制作的空间对齐方法[ 40 , 43 , 44]相比,附录B.1中的实验表明,LEWEL在1×和2×微调计划下在密集预测任务上表现相当甚至更好;在分类任务上明显优于它们。这些实验与Pascal-VOC基准测试的实验一起,清楚地证明了LEWEL能够提高自监督学习的密集预测性能。0表5. 每个组件对IN-100线性分类和VOC 12语义分割的影响。0全局对齐 耦合头 IN-100准确率 VOC分割mIoU0表6.与MoCo使用大投影头在IN-100线性分类和VOC语义分割上的比较。0方法 额外参数 θ d IN-100准确率 VOC mIoU04.4. 切除术0实验设置。我们在IN-100数据集上预训练所有模型,该数据集是由[ 37]选择的IN-1K的子集。我们使用线性评估和语义分割对模型进行评估,如第4.1节和第4.3节所述。默认情况下,我们使用LEWELM,因为它的训练速度更快。每个组件的影响。在表5中,我们研究了引入的对齐损失和投影器g(即耦合头设计)对我们方法的贡献。我们可以看到,仅使用全局损失(即MoCov2基线)或对齐损失,两个评估任务的结果确实不如同时使用这两个损失的变体。此外,引入权重共享方案进一步提高了性能,在线性分类准确率和分割mIoU方面将基线改进了2.6%/1.8%。结果验证了LEWEL的对齐损失和耦合头/权重共享方案的有效性。与具有更大/额外投影头的MoCov2的比较。由于LEWEL为对齐表示使用了单独的投影头,清楚地确定额外参数对其性能改进的贡献是很重要的。在表6中,我们将LEWEL M与具有更大或额外投影头的MoCov2 [15]进行了比较。我们没有观察到MoCo使用更大或额外投影头的显著改进。此外,我们注意到[ 46]的类似研究也表明,更深或更宽的投影头都不能提高BYOL的性能。相反,从MoCo切换到LEWEL显著提高了分类和分割的性能,即分别提高了2.6%/1.8%。实验表明,LEWEL的改进主要来自算法本身,而不是轻微增加的参数。0.00.10.30.50.70.91.079.580.080.581.081.582.00.00.10.30.50.70.91.061.562.062.563.063.583212825681.2581.5081.7582.0082.2583212825662.462.662.863.063.263.4512484.662.6256181.063.2256282.663.3256483.363.4256883.162.12561682.961.4128483.860.964484.861.8144580IN-100线性准确率0VOC12分割mIoU0(a) 折衷项β的影响。0c0IN-100
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功