没有合适的资源?快使用搜索试试~ 我知道了~
1CoMatch:基于对比图正则化的半监督学习李俊楠李彩明熊文文Hoi Salesforce研究{junnan.li,cxiong,shoi}@ salesforce.com摘要半监督学习是利用未标记数据来减少对标记数据的依赖的有效范例。我们提出了CoMatch,一种新的半监督学习方法,统一了占主导地位的方法,并解决了它们的局限性。CoMatch联合学习训练数据的两种表示,它们的类概率和低维嵌入。这两种表示彼此交互以共同进化。嵌入对类概率施加平滑性约束以改善伪标签,而伪标签通过基于图的对比学习正则化嵌入的结构。CoMatch在多个数据集上实现了最先进的性能它在标签稀缺的CIFAR-10和STL-10上实现了显著的精度改进。在具有1%标签的ImageNet上,CoMatch实现了66.0%的前1准确率,比FixMatch [32]高出12.6%。此外,CoMatch在下游任务上实现了更好的表示学习性能,优于监督学习和自监督学习。代码和预训练模型可在https://github.com/salesforce/CoMatch/上获得。1. 介绍半监督学习(Semi-supervised learning,SSL)--从少量标记数据和大量未标记数据中学习--一直是计算机视觉和机器学习中的一个长期问题。最近的现有技术方法主要遵循两种趋势:(1)使用模型的类预测为每个未标记样本产生伪标签作为标签以针对[ 19,2,1,32 ]进行训练;(2)无监督或自监督预训练,然后是监督微调[ 5,14,13,3 ]和伪标签[ 6 ]。然而,现有方法具有若干限制。伪标记(也称为自训练)方法严重依赖于模型的类预测的质量,因此遭受确认偏差,其中预测失误将累积。自监督学习方法是任务不可知的,而广泛采用的对比学习方法是任务不可知的。ing [5,14]可以学习对于特定分类任务次优的表示。方法的另一个分支探索基于图的半监督学习[24,17],但尚未显示出竞争性性能,特别是在较大的数据集上,如ImageNet [9]。我们提出了CoMatch,一种新的半监督学习方法,解决了现有的局限性。图1中示出了概念性图示。在CoMatch中,每个图像都有两个紧凑的表示:由分类头产生的类别概率和由投影头产生的低维嵌入。两个代表彼此交互并且在共同训练框架中共同演进。具体地,使用记忆平滑的伪标签来训练分类头,其中伪标签通过聚合来自嵌入空间中的附近样本的信息来细化。使用伪标签图上的对比学习来训练投影头,其中具有相似伪标签的样本被训练为具有相似的嵌入。CoMatch统一了主流思想,包括一致性正则化、熵最小化、对比学习和基于图的SSL。我们在多个数据集上进行实验,并与最先进的半监督和自监督方法进行比较。CoMatch在所有基准测试中的表现都大大在CIFAR-10上,每个类别有4个标记样本,CoMatch在准确度上优于FixMatch [32] 6.11%在STL-10上,CoMatch比FixMatch高出13.27%。在只有1%标签的ImageNet上,CoMatch达到了66.0%的前1准确 率 ( 自 我 监 督 预 训 练 为 67.1% ) , 而 最 佳 基 线( MoCov2 [7] 其 次 是 FixMatch [32] ) 的 准 确 率 为59.9%。此外,我们证明了CoMatch在下游图像分类和对象检测任务上实现了更好的表示学习性能,优于监督学习和自监督学习。2. 背景为了为CoMatch做好准备,我们首先介绍了现有的SSL方法,主要关注当前最先进的相关方法。更全面的评论94759476··|·2·|-·我J......(a) 使用伪标签的自我训练(b)自我监督学习(c)CoMatchCNN分类头投影头交叉熵损失对比损失图1:利用未标记数据的不同方法的概念说明。(a)针对具体任务的自我培训:该模型预测未标记样本的类概率作为伪标签,以针对[19,2,1,32]进行训练。(b)任务不可知的自监督学习:该模型将样本投影到低维嵌入中,并执行对比学习以区分不同图像的嵌入[35,5,14]。(c)CoMatch:类概率和嵌入彼此交互,并在共同训练框架中共同进化嵌入对类概率施加平滑约束,以改善伪标签。伪标签被用作目标来训练具有交叉熵损失的分类头和具有基于图的对比损失的投影头可以在[42,34]找到。在下文中,我们将深度编码器网络(卷积神经网络)称为f(),其在给定输入图像x的情况下产生高维特征f(x)。 分类头(一个全连接层,后面跟着softmax)被定义为h(),它输出类p(yx)=h(f(x))的分布。我们还定义了非线性投影头(MLP)g(x),其将特征f(x)变换为归一化的低维嵌入z(x)= g(f(x))。一致性正则化是许多最先进的SSL方法的关键部分。它利用了分类器应该输出相同的类概率的假设。并在强增强样本上训练模型。然而,由于伪标签纯粹依赖于分类器,因此这种自训练策略遭受确认偏差问题,其中伪标签中的错误将累积并损害学习。自监督对比学习由于其利用未标记数据进行模型预训练的能力而受到广泛关注。广泛采用的对比学习[35,28,5,6,14,20]优化了实例判别的任务,并使用归一化的低维嵌入z来公式化损失:exp(z(Aug(xi))·z(Aug(xi))/t)未标记的样本,即使它被增强。用最简单的形式,以前的作品[31,18]添加以下一致性-logPN(二)exp(z(Aug(x))·z(Aug(x))/t)未标记样本上的正则化损失:kp(y|Aug(x))-p(y|Aug(x))k2,(1)其中Aug()是不改变图像的标签的随机变换。平均教师[33]替换了等式中的一个术语。(1)具有EMA模型的 输 出 。 增 值 税 [26] 使 用 对 抗 性 变 换 代 替 8 月 。MixMatch [2]对多个 增强的预测进 行平均以产生p(y)。UDA [36]、ReMix-Match [1]和FixMatch [32]使用交叉熵损失代替平方误差,并应用更强的增强。熵最小化是许多SSL算法中的常用方法,其鼓励分类器的决策边界通过数据分布的低密度区域。它可以通过显式地最小化未标记样本上的p(y x)的熵[12]来实现,或者通过在未标记样本上构建低熵伪标签并将它们用作交叉熵损失中的训练目标来实现[19,2,1,32]。一些方法[36,2,1]用锐化函数对大多数方法[32,1,36]使用弱增广样本来产生伪标签其中,Aug()是与等式中类似的随机变换。(1),并且Xj包括Xi和N1个其他图像(即,阴性样品)。自监督对比学习可以被解释为类不可知一致性规则化的一种形式,其强制具有不同增强的相同图像具有相似的嵌入,而不同的图像具有不同的嵌入。在最近的方法中,SimCLR [5]使用来自同一批次的图像来计算成对相似性,而MoCo [14]维护来自EMA模型的嵌入队列。自我监督预训练,然后进行监督微调,在半监督学习任务上显示出强大的性能[5,14,13,21,3]。SimCLR v2 [6]进一步利用更大的模型进行蒸馏。然而,由于自监督学习是一个任务不可知的过程,EQ中的对比损失(2)针对与特定任务学习部分矛盾的目标进行优化它强制来自同一类的图像具有不同的表示,这对于分类任务是不期望的。基于图的半监督学习定义了数据样本与图的相似性,并鼓励关于图结构的平滑预测[40,41]。最近的作品使用深度网络来生成图形表示。[17,22]执行迭代标签传播,以及...j=19477UUUb=1XULLuLXUµBuXLBBWB=pi/PKKk=1uµBBSBK2BµB2uLLX网络培训[24,4]连接具有相同伪标签的数据样本,并执行度量学习以生成我们的总体培训目标是:CLSCTR强制连接的样本具有相似的表示。然而,这些方法将表示定义为高维特征f(x),这导致若干限制:(1)由于特征与类别预测高度相关,因此在特征空间和标签空间中可能存在相同类型的错误;(2)由于维数灾难,欧氏距离变得不那么有意义;(3)计算成本高,这损害了方法的可扩展性。此外,[24,4]中的损失函数考虑了对之间的绝对距离,而CoMatch优化了相对距离。3. 方法3.1. 概述在本节中,我们介绍我们提出的半监督学习方法。 与大多数现有的半监督和自监督学习方法不同,Co-Match联合学习编码器f(·)、分类头h(·)和投影头g(·)。给定一批B标记的样品X ={(xb,yb)}B,其中yb是one-hot la。和一批未标记样本U={ub},其中L=Lx+λclsLu+λctrLu,(5)其中λcls和λctr是标量超参数,用于控制无监督损失的权重。3.2. CoMatch在CoMatch中,每个样本的高维特征被转换为两个紧凑表示:其类别概率p和其归一化的低维嵌入z,它们分别驻留在标签空间和嵌入空间中。给出一批未标记的样本,我们首先对弱增广Augw()执行记忆平滑伪标记以产生伪标记。然后,我们构造了一个伪标签图Wq,它定义了标签空间中样本的相似性。我们使用Wq作为目标来训练嵌入图Wz,其测量嵌入空间中强增强样本Augs()图2中示出了CoMatch的图示,并且在附录中给出了伪代码。接下来,我们首先介绍了伪标记过程,然后我们描述了基于图的对比学习算法。记忆平滑伪标记旨在通过利用嵌入的结构来减轻确认偏差µ确定X和Ub=1,CoMatch联合以细化伪标签。给定和中的每个样本,我们首先求出它的类概率。 对于标记的样品,它是优化三种损失:(1)标记数据x上的监督分类损失,(2)未标记数据cls上的无监督分类损失,以及(3)基于图的对比分类损失。定义为地面实况标签:pw=y。对于未标记的样本,它定义为模型弱增广:pw=h◦f(Augw(u))。在[1]之后,丢失未标记数据u。 具体地说,x被定义为地面实况标签和模型预测之间的交叉熵1BL=H(y,p(y|8月 (x),(3)b=1我们对未标记的样本执行分布对齐(DA):pw=DA(pw)。DA可防止模型的预测折叠为某些类。具体地,我们在训练期间保持pw的移动平均值p~w,并且调整当前pw,其中pw=Nor_alize(pw/p~w),其中归一化(p)我JpJ其中H(y,p)表示两个分布y和p之间的交叉熵,并且Augw指弱增广。无监督分类损失cls被定义为伪标签qb和一个有效的概率分布。对于和中的每个样本,我们还通过将弱增广样本通过f和g向前推进来获得其嵌入zw。然后,我们创建一个存储库来存储类概率和过去K弱嵌入-模型增强样本:MB={(pw,zw)}K. 存储器Lcls=1Xb=1(maxqH(q,p(y|Aug(u),库包含标记的样本和未标记的样本,并且使用先进先出策略来更新。对于当前批次中的每个未标记样本ub,使用pw和zw,我们通过聚合生成一个伪标签qb(4)B b其中Augs是指强增强。在Fix-Match [32]之后,我们保留其最大类概率高于阈值的伪标签。与Fix不同-来自存储器中相邻样本的类概率银行具体而言,我们优化了以下目标:KJ(qb)=(1-α)Xakkqb-pwk2+αkqb-pwk2(6)通过优化对比损失ctr的熵最小化。第3.2节解释了伪标签和对比学习的细节第一项是平滑性约束,其鼓励qb取与其附近样本的类概率相似的值重新规格化缩放结果B匹配,我们的软伪标签qb没有转换成硬的熵最小化的标签。 相反,我们实现了-k=19478...·Pb=1Wlog(BKuµBBBqb·qj如果bj和qb·qj≥Tq b= p+(1-)Xakp.(八)K记忆平滑伪标号伪标号图未标记批次试验Aug$八月七日)3DA(()* (63ℎ ∘(存储体2)2SGcl/uSG8月7日*(*(66′嵌入图c01u图2:所提出的CoMatch的框架。给定一批未标记图像,其弱增强图像被用于产生记忆平滑伪标签,这些伪标签被用作目标来训练强增强图像的类预测。构造了一个具有自环的伪标签图来度量样本之间的相似性,并利用该图训练嵌入图,使具有相似伪标签的图像具有相似的嵌入。sg表示停止梯度。○表示连续应用两个功能原始类预测。 ak度量f(Augs(ub)),zb0=g◦f(Augs0(ub))。然后我们建造存储器中的当前样本和第k个样本,以及使用嵌入空间中的相似性来计算:嵌入图Wz为:(exp(zW=· z0/t),如果 b=jexp(zwzw/t)a=b,k ,(7)个zlbbjexp(zbB· zj/t)如果bj(十)kPKexp(zw·zw/t)其中t是标量温度参数。由于k是归一化的(即,a,k和为1),J(q,b)的最小化器可以被定义为:w wB Kk=1g,使得嵌入图具有与伪标签图相同的结构。为此,我们首先用W bj=Wb j/jWb j,因此每个相似度矩阵的行的总和为1。 然后我们最小化两个归一化图之间的交叉熵。对比损失定义为:µB基于图形的对比学习旨在学习代表-由伪标签图引导的站。 由于伪-Lctr=1XH(Wq,Wz)(11)b=1标签{qb}µB 对于这批未标记的样本,我们构建H(Wq,Wz)可以分解为两项:通过构造相似度矩阵尺寸为µBµB的Wq:Bqexp(zb·zb0/t)µPBqexp(zb·zj/t))8-Wbblog(PµBWz )-W QBJ=(九)bjPµB Wz>1个如果b=jj=1bjj=1,j6=bj=1BJ(十二)............ℒℒBk=1>:我们的目标是训练编码器f和投影头94790否则相似度低于阈值T的样本不被连接,并且每个样本都通过值为1的最强边(即,自循环)。伪标签图作为训练嵌入图的目标。为了构造嵌入图,我们首先对每个未标记样本ub2U进行两次强增广,得到它们的嵌入zb=g◦来自伪标号图中的自循环。 它...鼓励模型为不同的同一个图像的不同增强,这是一种形式一致性正则化 第二项鼓励具有类似伪标签的样本具有类似嵌入。它将同一类的样本聚集成簇,实现熵最小化。在培训期间,自然课程将从CoMatch中产生。该模型将从生产低-9480--⇥⇥k=1联系我们⇥·BJ{o}·置信伪标签,这导致稀疏伪标签图。随着训练的进行,样本逐渐被聚类,这进而导致伪标签图中更有信心的伪标签和更多的连接。CoMatch的另一个优点出现在开集半监督学习中,其中未标记的数据包含分布外(ood)样本。由于平滑度约束,好的样本将具有低置信度伪标签。因此,它们与分布内样本的连接较少,并且将通过所提出的对比损失而被进一步推离分布内样本。3.3. 使用EMA模型的为了构建有意义的伪标签图,未标记的一批数据应包含来自每个类的足够数量的样本。虽然对于具有较小数量的数据集可以轻松满足此要求类(例如,CIFAR-10),对于具有更多类的大型数据集(例如ImageNet),因为一个大的未标记批次将超过8个商品GPU 的 内 存 容 量 ( 例 如 ImageNet ) 。 NVIDIAV100)。因此,我们在大规模数据集上改进了SSL的CoMatch。受MoCo [14]和Mean Teacher [33]的启发,我们引入了EMA模型f′,g′,h′其参数✓¯是原始模型参数的移动平均值✓:4. 实验4.1. CIFAR-10和STL-10首先,我们在CIFAR-10和STL-10数据集上进行实验CIFAR-10包含来自10个类的大小为32 - 32的我们改变了标记数据的数量,并专注于标签稀缺的情况下,很少有标签可用。我们使用不同的随机种子进行5次运行评估。STL-10包含来自10个类的大小为96 - 96的5,000个标记图像和包括ood样本的100,000个未标记图像。我们对5个预定义的折叠进行评估。在[2,32]之后,我们报告了EMA模型的性能。基线方法。为了进行公平比较,我们改进了当前最先进的方法FixMatch [32],并使用分布对齐[1]来构建更强的基线。我们还与原始的FixMatch和MixMatch [2]进行了比较。我们省略了以前的方法,如模型[30],伪标签[19]和平均教师[33],因为它们的较差如图所示[32]。在[27]之后,我们使用相同的模型架构、相同的代码库(Py-Torch [29])和相同的随机种子来实现基线并执行所有实验。实 作 详 细 数 据 。 对 于 CIFAR-10 , 我 们 使 用 WideResNet-28-2 [37]。对于STL-10,我们使用ResNet-18[16],因为与WRN相比,它的计算成本更低[32]1中的37-2。投影头为2层MLP✓←m✓+(1-m)✓。(十三)EMA模型的优点是它可以在动量参数m的控制下平滑地演化。我们还引入了一个动量队列,它存储了过去K个未标记样本的伪标签和强增强嵌入:(q¯k,z¯k=g¯f¯(Augs0(uk)K,其中q¯k和z¯k使用以下公式生成:EMA模型。与记忆体不同,动量队列只包含未标记的样本。其输出64维嵌入。使用SGD训练模型我们遵循原始论文[2,32]并使用1024个epoch的学习率训练基线0.03的余弦衰减时间表。我们只对CoMatch进行了512次训练,以证明其学习效率对于[32]中也存在的CoMatch中的超参数,我们遵循[32]并设置λcls= 1,=0。95,µ=7,B=64。对于其他超参数,我们固定= 0。9,K=2560,t=0的情况。2,T = 0。8,且对于所有CIFAR-10实验,λctr= 1我们修改伪标号图Wq以具有大小为µBK。它定义了每个sam之间的相似性只改变λCTRSTL-10为5当前批次中的Ple和动量队列(也包含当前批次)中的每个样本。与等式不同(9),相似度计算为q′bq′j,其中b=1,…,µB且j=1,...,K.嵌入图W z也被修改为具有µB K的大小,其中相似性使用模型的输出嵌入z b和动量嵌入z ¯ j计算:W z = e x p(z b z ¯ j /t)。 由于梯度仅通过zb流回,因此我们可以使用大的K,而GPU存储器使用和计算时间仅略有增加。除了对比损失,我们还利用EMA模型进行记忆平滑伪标记,通过EMA模型而不是原始模型转发弱增强样本。附录中给出了存储库和动量队列的图形说明隆乳。CoMatch使用一个“弱”增强Augw,以及两个“强”增强Augs和Augs0。所有实验的弱增广是标准的裁剪和翻转。对于强增强,我们遵循[32]并使用RandAugment[8]作为Augs。对于Augs0,我们遵循SimCLR [5]中的增强策略,其应用随机颜色抖动和灰度转换。结果表1示出了结果。CoMatch在所有设置中优于最佳基线。当可用的标记样品较少时,改善更显著。例如,CoMatch在CIFAR-10上实现了93.09%的平均准确率,每个类别只有4个标签,而FixMatch(w.DA)具有较低的准确度,为86.98%,1ResNet-18的前向通过GFLOPs/图像为0.34,WRN-37-2为2.58。与ResNet-18相比,WRN-37-2每个epoch需要3 GPU内存和7训练9481⇥方法CIFAR-1020标签40标签80标签250标签STL-101000个标签MixMatch [2][32]第三十二话[32]第三十二话[1]27.84±10.6382.32±9.7783.81±9.3551.90±11.7686.12±3.5386.98±3.4080.79±1.2892.06±0.8892.29±0.8688.97±0.8594.90±0.6794.95±0.6638.02±8.2965.38±0.4266.53±0.39CoMatch87.67±8.4793.09±1.3993.97±0.6295.09±0.3379.80±0.38表1:CIFAR-10和STL-10在5个不同折叠上的准确度。所有方法都使用相同的数据和代码库进行测试较大的方差。在STL-10上,CoMatch还改进了Fix-Match(w. DA)为13.27%。4.2. ImageNet我们在ImageNet ILSVRC-2012上评估CoMatch,以验证其在大规模数据集上的有效性在[38,5]之后,我们以类平衡的方式随机抽取1%或10%的带有标签的图像(每个类分别有13或128个样本),而其余的图像是未标记的。我们的结果对不同的随机种子不敏感,因此我们使用固定的随机种子。基线方法。基线包括(1)半监督学习方法和(2)自监督预训练,然后进行微调。此外,我们构建了一个最先进的基线,它结合了FixMatch(w.DA),使用MoCov2 [7]进行自我监督预训练(预训练800个历元)。由于投影网络,自监督方法在训练期间需要额外的模型参数。我们将训练参数的数量作为需要梯度更新的参数。我们还报告了SimCLRv2的性能[6]。然而,沈--CLRv2使用一个大得多的预训练教师模型(它本身是从相同大小的教师中提取出来的)来产生用于提取的伪标签。因此,Co-Match不应直接与SimCLRv 2进行比较。实作详细数据。我们使用ResNet-50 [16]模型作为编码器。在[7,5]之后,投影头是输出128维嵌入的2层MLP。我们使用SGD训练模型,动量为0.9,权重衰减为0.0001。学习率为0.1,其遵循400个时期的余弦衰减时间表对于使用MoCov2初始化的模型,我们使用较小的学习率0.03。动量参数设置为m= 0。九九六其他超参数见附录A。我们对Augs和Augs0使用相同的强增强,其应用裁剪和翻转,然后是颜色失真。为了与基线进行公平比较,我们报告原始模型结果 表2显示了结果,其中CoMatch实现了最先进的性能。CoMatch在1%的标签上获得66.0%相比之下自我监督预训练方法历元数#参数(训练/测试)Top-1标签分数1%10%Top-5标签分数1%10%监督基线[38]20100-200-30040040025.6M /25.6M25.456.448.480.4伪标签[19,38]25.6M /25.6M--51.682.4增值税+最低成本[26、12、38]25.6M /25.6M-68.8-88.5没有一S4 L-旋转[38]美国(公告牌成人另类歌曲榜)[36]25.6M /25.6M25.6M /25.6M--53.468.8--83.888.5[32]第32话25.6M /25.6M-71.5-89.1FixMatch w. DA25.6M /25.6M53.470.874.489.0CoMatch30.0M /25.6M66.073.686.491.6[25]第21话:我的世界,我的世界MoCov2 [7]微调FixMatch w.DA CoMatch8001200120030.0M /25.6M30.0M /25.6M30.0M /25.6M49.859.966.172.277.279.887.989.567.173.787.191.4SimCLRv2*[6]微调教师蒸馏8002400人34.2M /29.8M829.2M /29.8M57.9 68.473.9 77.582.5 89.291.5 93.4表2:ImageNet的准确度,1%和10%的标记示例。SimCLRv2*[6]使用更大的模型进行训练和测试。微调8002001000100080026.1M /25.6M25.8M /25.6M30.0M /25.6M37.1M /25.6M30.4M /25.6M30.7 60.4- -48.3 65.653.2 68.853.9 70.257.2 83.875.3 85.675.5 87.878.4 89.078.5 89.99482⇥uL(a)(b)(c)第(1)款图3:在ImageNet上使用1%标签进行训练时不同方法的图。(a)置信伪标签相对于未标记样本的地面实况标签的准确度(b)包含在无监督分类损失中的具有置信伪标签的未标记样本的比率。(3)测试数据的前1准确度。58 58 5856575457 5752五六五六50五五四八五五五五46540.2 0.40.6图连接阈值(一)440 5 10 1520对比减重(b)540.85 0.9 0.951伪标签中的预测(c)5410000两万三万四万五万MB和MQ(d)图4:CoMatch上的消融研究图。默认超参数设置达到57.1%(ImageNet具有1%的标签,训练了100个epochs)。使用EMA伪标签的FixMatch达到43.9%。(a)改变控制伪标签图中的边的稀疏性的阈值T。 T= 1简化为自监督对比学习。 (b)改变对比损失的权重λctr。λctr= 0去除对比学习。 (c)改变EMA模型在生成伪标签时的预测权重。 =1简化为用平均教师进行伪标记[33]。(d)改变K,即存储器组和动量队列中的样本数量。最佳基线(MoCov2,随后是FixMatch w. DA),Co-Match实现了6.1%的改进,减少了3在MoCov2预训练的帮助下,CoMatch的性能可以在1%的标签上进一步提高到67.1%,在10%的标签上提高到73.7%。在图3中,我们进一步表明CoMatch产生的伪标签更有信心和准确。使用MoCov2进行预训练有助于加快收敛速度。4.3. 消融研究。我们进行了广泛的消融研究,以检查CoMatch中不同组件我们使用1%标签的ImageNet作为主要实验。由于我们的消融研究中的实验数量,我们报告了训练100个epoch后的前1准确率,其中CoMatch的默认设置达到57.1%。图形连接阈值。 等式1中的阈值T(九)控制伪标签图中边的稀疏性。图4(a)呈现了T.随着T增加,其伪标签具有较低相似性的样本断开连接。因此,他们的嵌入被我们的对比损失推开了。当T=1时,所提出的基于图的对比损失降级为等式n中的自监督损失。(2)其中仅有的连接是自环。我们-使用自监督对比损失使性能降低了2.8%。对比减肥。 我们改变对比损失ctr的权重λctr,并在图4(b)中报告结果,其中λctr= 10给出最佳性能。使用10%的ImageNet标签,λctr= 2会产生更好的性能。我们发现,在一般情况下,较少的标记样本需要一个较大的λctr,以加强图的正则化。伪标签中的预测权重。我们的记忆平滑伪标记使用来控制EMA模型的预测和平滑度约束之间的平衡图4(c)显示了它的效果,其中=0。9结果在最佳性能。当=1时,伪标签纯粹由EMA模型生成,该模型是Mean-Teacher [33]。由于确认偏差,准确度降低了2.1%。当<0. 9,伪标签被过度平滑。一个潜在的改进是将锐化[2]应用于具有较小的伪标签,但由于需要额外的超参数,这里没有研究。内存组和动量队列的大小。K控制用于伪标记的存储体的大小和用于对比学习的动量队列的大小。较大的K考虑更多的样本来对标签空间和嵌入空间实施结构约束。作为前1位准确度(%)9483⇥方法#ImageNet标签APbbAPbb50APbbAP mk1时间表75AP标记50AP标记75APbbAPbb50APbbAP mk2时间表75AP标记50AP标记75监督百分百9073.51±2.1279.60±0.6182.75±0.3485.55±0.1287.12MoCov2 [7]SwAV [3]0%的百分比80040070.47±2.1868.04±2.3976.74±0.8775.06±0.7380.61±0.5379.46±0.5584.60±0.1184.24±0.1386.8386.86MoCov2 [7]CoMatch百分之一80040071.82±2.0972.81±1.5077.35±0.8379.18±0.5181.33±0.5082.30±0.4684.98±0.1485.65±0.1787.0587.66MoCov2 [7]CoMatch百分之十80040073.09±2.0274.56±2.0479.37±0.4080.60±0.3182.05±0.4683.24±0.4385.41±0.1686.07±0.1687.4887.91(a) VOC07监督百分百9027.20±0.4132.08±0.4535.95±0.2141.81±0.1745.74±0.14MoCov2 [7]SwAV [3]0%的百分比80040025.34±0.5125.32±0.4630.64±0.3931.00±0.4735.08±0.3435.65±0.2842.18±0.1042.60±0.1146.96±0.0647.51±0.20MoCov2 [7]CoMatch百分之一80040026.22±0.5027.15±0.4231.33±0.4032.36±0.3735.55±0.3536.56±0.3342.20±0.1142.97±0.1146.95±0.0747.32±0.18MoCov2 [7]CoMatch百分之十80040027.19±0.4728.11±0.3332.11±0.4933.05±0.4636.00±0.3036.98±0.2842.31±0.1343.06±0.2246.88±0.0847.10±0.11(b) 地方表3:使用ImageNet上预训练的模型对VOC07和Places进行线性分类。 我们改变每个类(k)下游数据集。我们报告了5次运行的平均结果(标准差)监督百分百38.959.642.735.456.538.140.661.344.436.858.139.5MOCo [14]0%的百分比38.558.942.035.155.937.740.861.644.736.958.439.7CoMatch百分之一39.761.243.136.157.838.541.262.244.937.359.039.9CoMatch百分之十40.561.544.236.758.339.241.562.545.437.659.540.3表4:通过在train 2017上使用R50-FPN微调Mask-RCNN,将预训练模型转移到COCO上的对象检测和实例分割。我们在val2017上评估了边界框AP(APbb)和掩码AP(APmk)。如图4(d)所示,当K从10k增加到30k时,性能增加,但之后趋于平稳我们还想强调的是,存储器组和动量队列仅引入小的计算开销,因为(1)存储低维嵌入,(2)不针对嵌入计算梯度。4.4. 学习表征我们进一步评估质量的表示学习CoMatch转移到其他任务。下面[11,21],我们首先对两个数据集进行线性分类:PASCAL VOC2007 [10]用于对象分类,Places205 [39]用于场景识别。我们使用ImageNet预训练模型的固定表示来训练我们预处理所有的图像,调整大小为256像素沿较短的一面,并采取224 - 224中心裁剪。SVM是在ResNet-50的全局平均池化特征上训练的。为了研究在少数拍摄场景中的表示的可转移性,我们改变下游数据集中每类的样本数量(k)表3显示了结果。我们比较了CoMatch与标准监督学习、自监督学习(MoCov2 [7]和SwAV [3]),并在自监督学习后进行微调。CoMatch的性能优于监督学习和自监督学习,这表明了半监督表示学习的有效性。有趣的是,观察到自监督学习方法在少量转移中表现不佳,并且仅在k增加时才赶上监督学习。在表4中,我们还表明,与监督和自监督学习相比,CoMatch学习了更好的CNN主干,用于COCO上的对象检测和实例分割[23]。我们将遵循与[14]完全相同的设置微调Mask-RCNN模型[15],用于1或2时间表。5. 结论总之,CoMatch的成功可归因于三个方面:(1)类概率和图像嵌入的共同训练,(2)记忆平滑伪标记以减轻确认偏差,(3)基于图的对比学习以学习更好的表示。我们相信CoMatch将有助于在标签获取成本高方法#ImageNet labels #预训练epochsK=4K=8K=16k=64K=256方法#ImageNet labels #预训练epochsK=4K=8K=16k=64充分9484昂的领域中部署机器学习。9485引用[1] 放大图片作者:David Berthelot,Nicholas Carlini,EkinD.Cubuk,Alex Ku- rakin,Kihyuk Sohn,Han Zhang,and Colin Raffel.Remix-match:具有分布对齐和增强锚定的半监督学习在ICLR,2020年。一二三五六[2] 放大图片作者:David Berthelot,Nicholas Carlini,Ian J.Goodfellow , Nico- las Papernot , Avital Oliver , andColin Raffel. Mixmatch : 半 监 督 学 习 的 整 体 方 法 。NeurIPS,2019。一、二、五、六、七[3] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 arXiv 预 印 本 arXiv :2006.09882,2020。一、二、六、八[4] Peibin Chen , Tao Ma , Xu Qin , Weidi Xu , andShuchang Zhou.通过可靠的边缘挖掘实现数据高效的半监督学习。在CVPR中,第9189-9198页,2020年。三个[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。一、二、五、六[6] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey Hinton.大的自监督模型 是 强 半 监 督 学 习 器 。 arXiv 预 印 本 arXiv :2006.10029,2020。一、二、六[7] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。一、六、八[8] Ekin D Cubuk,Barret Zoph,Jonathon Shlens,and QuocV Le.随机扩增:实用的自动化数据扩充,减少搜索空间。在CVPR研讨会,第702-703页,2020年。五个[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页,2009。一个[10] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes ( VOC ) InternationalJournal of Computer Vision,88(2):303-338,2010.八个[11] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。缩放和基准自我监督的视觉表示学习。在ICCV,第6391-6400页,2019年。八个[12] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。在NIPS,第529-536页二、六[13] Jean-BastienGrill , FlorianStrub , FlorentAltche´ ,CorentinTallec,PierreH.Richemond,ElenaBuchatskaya , Carl Doersch , Bernardo Avila Pires ,Zhaohan Daniel Guo , Moham-madGheshlaghiAzar ,Bil
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功