没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文ConMatch:具有置信度指导的一致性正则化的半监督学习JiwonKim1,2<$,YoungjoMin1,DaehwanKim3,GyuseongLee1, Junyoung Seo1,Kwangrok Ryoo1,andSeungryong Kim11韩国首尔韩国大学{naancoco@korea.ac.kr,1320harry@korea.ac.kr,jpl358@korea.ac.kr,se780@korea.ac.kr,kwangrok21@korea.ac.kr,seungryongkim@korea.ac.kr2NAVER AI Lab,Seongnam,韩国3韩国水原三星电机daehwan85.kim邮件samsung.com抽象的。我们提出了一个新的半监督学习框架,智能地利用模型预测之间的一致性正则化,从两个强增强的图像视图,加权被称为ConMatch的伪标签的置信度。虽然最新的半监督学习方法使用图像的弱增强视图和强增强视图来定义方向一致性损失,但如何定义两个强增强视图之间的一致性正则化的方向仍然未被探索。为了解释这一点,我们提出了新的信心措施的伪标签从强增强视图通过弱增强视图作为锚在非参数和参数的方法。特别是,在参数化方法中,我们首次提出了学习网络中伪标签的置信度,这是以端到端的方式用骨干模型学习的。此外,我们还提出了一个阶段式的训练,以提高收敛性训练。当与现有的半监督学习器结合时,Con- Match始终可以提高性能。我们进行实验,以证明我们的ConMatch的最新方法的有效性,并提供广泛的消融研究。代码已在https://github.com/JiwonCocoder/ConMatch上公开发布1介绍半监督学习已经成为一种有吸引力的解决方案,可以减轻对大型标记数据的依赖,这些数据通常很难获得,并且智能地利用大量未标记数据,以部署在许多计算机视觉应用中,特别是图像分类[40,53,55]。通常,该任务采用伪标记[1,19,30,40,46,51,61]或一致性正则化[17,24,29,36,48,53]。一些方法[4,5,42,47,52,54,58]提出将两种方法整合到一个统一的框架中,这通常被称为†在韩国大学平等贡献arXiv:2208.08631v2 [cs.CV] 2022年9月}+v:mala2255获取更多论文2J. Kim等人整体方法。作为开创性的工作之一,FixMatch [47]首先从模型对弱增强实例的预测中生成伪标签,然后鼓励来自强增强实例的预测遵循伪标签。他们的成功激发了许多变体,例如,课程学习[54,58]。另一方面,与更好的半监督学习方法[47,54,58]的竞赛同时,自监督表示学习取得了实质性进展,特别是对比学习[3,6,8,10,20,22],旨在学习没有任何监督的任务不可知特征表示,可以很好地转移到下游任务。从形式上讲,它们鼓励从两个不同增强图像中提取的特征相互吸引,这为模型注入了一些不变性或鲁棒性。毫不奇怪,半监督学习框架肯定可以从自监督表示学习中受益[25,33,34],因为来自特征编码器的良好表示会产生更好的半监督学习性能,因此,一些方法[25,33]试图将上述两种范式结合起来,通过实现更好的特征编码器来提高性能。扩展现有的自监督表示学习[3,6,8,10,20,22]中提出的技术,其仅专注于学习特征编码器,以进一步考虑模型然而,与特征表示学习相比,在[3,6,8,10,20,22]中,来自两个不同增强的模型预测之间的一致性从而在图像分类中不仅实现不变性而且实现高精度。如果没有这一点,简单地拉模型在本文中,我们提出了一种新的半监督学习框架,称为ConMatch,智能地利用置信度引导的一致性正则化之间的模型的预测从两个强增强的图像。基于传统框架[47,58],我们考虑两个强增强图像和一个弱增强图像,并定义来自两个强增强图像的模型预测之间的一致性由于定义两个强增强图像之间的一致性正则化方向是最重要的,而不是以确定的方式选择,我们提出了一种通过测量置信度的概率技术。的伪标签,并利用该置信度对一致性损失进行加权。为了测量伪标签的置信度,我们提出了两种技术,包括非参数和参数方法。通过这种信心引导的一致性正则化,我们的框架戏剧性地提高了现有半监督学习器的性能[47,58]。此外,我们还提出了一个分阶段的训练计划,以提高训练的收敛性。我们的框架是一个即插即用的模块,因此各种半+v:mala2255获取更多论文ConMatch 3表1. 我们的ConMatch与其他相关作品的比较,这些作品具有结合伪标签的一致性正则化形式[5,25,33,34,47、54、58]MixMatch FixMatch FlexMatch Dash SelfMatch CoMatch LESS[5][47][58][54][25][33][34]ConMatch(我们的)使用伪标记✗✓ ✓✓ ✓ ✓ ✓✓使用两个强大的分支✗✗ ✗✗✓ ✓✗✓学习信心测度✗✗ ✗✗ ✗ ✗ ✗✓使用阶段式训练✗✗ ✗✗✓✗ ✗✓监督学习者[4,25,33,34,47,52,54,58]可以从我们的框架中受益我们在表1中简要总结了我们的方法以及半监督学习中其他高度相关的工作。实验结果和消融研究表明,所提出的框架不仅提高了收敛性,而且在大多数标准基准测试中达到了最先进的性能[12,28,37]。2相关作品半监督学习。半监督学习已经成为利用大量未标记数据和有限标记数据的有效范例。对于这个任务,已经提出了各种方法,如伪标记[19,30]和一致性正则化[29,44,48]。在伪标记中[30],模型使用具有高置信度的未标记样本作为训练目标,这降低了决策边界处的数据点密度[19,43]。一致性正则化首先由π模型[44]引入,随后的大量工作[17,24,29,36,48,53]进一步改进了该模型。在一致性正则化中,模型[24,29,39,48,53,59]。最近,通过与伪标记相结合,引入了先进的一致性正则化方法[4,47,52这些方法显示出与完全标记设置中的监督学习相当的高准确性,例如,[50],MixMatch [5],UDA [52],ReMixMatch [4]和FixMatch [47]。上述方法可以通过同时考虑最近的自监督表示学习方法[3,6,8,20,22]中提出的技术得到高度提升。自我监督表示学习。自监督表示学习最近引起了人们的广泛关注[3,6,8,16,18,20,22,38,60],由于它的竞争力表现。具体来说,对比学习[3,6,8,20,22]成为一个主导框架。它在形式上最大化了同一图像的不同增强视图之间的一致性[16,18,38,60]。大多数以前的方法受益于大量的负对,以排除恒定输出并避免崩溃问题[8]。近似损失的替代方法是通过区分具有相似特征的图像组来使用基于聚类的方法[6]。一些方法[10,20]通过使用动量编码器[20]和停止梯度技术[10]来减轻使用负样本。的+v:mala2255获取更多论文4 J. Kim等人。gradgradgrad格拉德一致性损失一致性损失一致性损失格拉德分类器分类器分类器分类器分类器Feature Feature FeatureFeature编码器编码器特征编码器弱螺旋强螺旋特征编码器弱螺旋强螺旋强螺旋强螺旋强螺旋图像(a) 半饱图像(b) 自助餐图像(c) 半饱自助餐图1.一、 利用未标记数据的现有方法的概念说明:(a)半监督学习-模型使用模型的预测本身为未标记数据产生伪标签[ 4,5,17,29,30,36,44,47,48,50,52 ],(b)自监督表示学习-模型被学习为从未标记数据中为两个增强视图生成相同的特征嵌入[ 3,6,8,10,20,20,22 ],以及(c)具有自监督表示学习的半监督学习-模型同时学习具有自监督表示损失的特征表示,同时使用半监督学习学习所有网络[25,33,34]。上述方法在特征级应用一致性损失,像最近的半监督学习方法[47,58],其考虑logit水平中的一致性损失,这对于与半监督学习器结合可能不是最佳的。将logit水平中的一致性损失公式化为自我监督是具有挑战性的,因为应该确定两个增强视图之间的方向。如果没有这一点,简单地拉模型半监督学习中的自我监督。许多最新的半监督学习方法采用自监督表示学习方法[9,57]来共同学习良好的特征表示。自我监督的预训练,随后是监督的微调,已经显示出强大的性能在半监督学习环境中。具体来说,SelfMatch [25]采用Sim-Match [8]进行自监督预训练,FixMatch [47]进行半监督微调。然而,由于任务不可知的学习,它可能会学习图像分类任务的次优表示。另一方面,一些冰毒-ODS [31,33]统一了伪标记和自监督学习。[32]在自我和半监督学习之间交替。缺乏有效使用自我监督的研究,而不是简单地采用这种方法。半监督学习中的置信度估计。在半监督学习中,基于置信度的策略已经与伪标记一起被广泛使用,使得仅当预测足够置信时才使用未标记的数据。伪标记的这种置信度通常通过预测概率分布的峰值来测量[42,47,52,54,58]。尽管选择具有高置信度预测的未标记样本将决策边界移动到低密度区域[7],但由于神经网络的校准不良,这些选择的预测中的许多预测是不正确的[21],+v:mala2255获取更多论文b=1b=1·AH·|ConMatch 5这在网络的个体预测的置信水平与其整体准确性之间存在差异然而,目前还没有研究如何学习伪标签的置信度,这是本文的主题。3方法3.1预赛让我们定义一批标记实例为X ={(x b,y b)}B ,其中xb是实例,y b是表示Y个标签之一的标签。此外,让我们将一批未标记的实例定义为U={u b}µB,其中µ是一个超参数,它决定了U相对于X的大小。半监督学习的目标是使用X和U来训练具有参数θ的模型,将实例 r∈X <$U 作 为 输 入 , 并 输 出 类 标 签 y 上 的 分 布 , 使 得 pm ode l(y|r;θ)。 该模型一般由特征编码器f(·)和分类器g(·)组成,|r;θ)=g(f(r)).对于半监督学习,大多数最先进的方法都基于一致性正则化方法[2,29,44],该方法依赖于这样的假设:当馈送相同实例的扰动版本时,模型应该生成类似的预测,例如,使用数据增强[36]或模型扰动,[29,48]。这些方法从一个分支中正式提取伪标签,通过置信度过滤,并将其用作另一个分支的目标。例如,FixMatch [47]利用两种类型的增广,例如弱增广和强增广,由α()和()的弱增广版本的伪标签图像被用作同一图像的强增强版本的目标。该损失函数被正式定义为:Lun=c(r)H(q(r),pm odel(y| A(r);θ)), (1)其中c(r)表示q(r)的置信度,并且q(r)表示从pmodde l(yα(r);θ)生成的伪标签,其可以是单热标签[42,47,54,58]或锐化标签[4,5,52],并且(,)通常被定义为交叉熵损失。在该框架中,测量置信度c(r)是最重要的,但是传统方法简单地测量这一点,例如,通过softmax预测的峰值[42,47,52,54,58]。另一方面,半监督学习框架可以明确地受益于现有的自监督表示学习[25,33,34],因为来自特征编码器f()的良好表示产生了半监督学习器的更好性能有鉴于此,一些方法试图将半监督学习和自监督表示学习相结合,以实现更好的特征编码器[25,33]。与更好的半监督学习方法的竞赛同时,自监督表示学习取得了实质性进展,特别是对比学习[3,6,8,10,20,22]。这个任务的损失函数也可以定义为一致性正则化+v:mala2255获取更多论文Sigmoid线性ReLU线性ReLU线性ReLU线性ReLU线性AAD一6 J. Kim等人。整体架构置信度估计块(参数法)估计置信度特征分类器输出图二、ConMatch的网络配置建立在一致性损失基础上的半监督学习框架,具有额外的强分支以利用两个强分支之间的一致性损失。在参数化方法中,置信度估计器块将级联的异构特征作为输入,并产生伪标签的估计置信度。[2019 - 04 - 15][2019 - 04 - 15][2019 - 04][2019 - 04 - 15][2019 -04][2019 - 04 -04][2019 - 04][2019Lself=D(Fi(r),Fi(r)),(2)其中,分别从具有两个不同的强增强图像i()和j()的图像中提取Fi(r)= f(Ai(r))和Fj(r)= f(Aj(r))。(,)可以定义为对比损失[22]或负余弦相似性[10]。即使这种损失有助于最大限度地学习特征编码器f(·),但是简单地提取特征Fi(·)和Fj(·)的机制对于提升半监督学习器并打破潜在特征空间可能不是最佳的,而不考虑表示哪个分支更好的方向。3.2制剂为了将半监督学习和自监督学习范式结合在一起,与[25,33,34]不同,我们提出有效地利用两个强分支之间的自监督来促进半监督学习,称为ConMatch。与现有的自监督表示学习方法不同,例如,SimSiam [10]中,我们在类logit-级别4制定一致性正则化损失,如在半监督学习方法[47,58]中所做的那样,并估计来自两个强增强图像的每个伪标签的置信度,对于r,Ai(r)和j(r),并使用它们来考虑它们之间每个方向的概率。由于测量这种信心是众所周知的挑战,我们提出4在本文中,类logit表示网络的输出,即, pm ode l(y|r;θ)对于r.一致性损失置信度估计器置信度损失置信度估计器无监督损失分类器分类器分类器特征编码器特征编码器弱螺旋特征编码器strong aug 1 strong aug 2图片+v:mala2255获取更多论文LConMatch 7基于弱增广图像输出的置信度估计α(r)作为非参数和参数方法中的锚点。我们的ConMatch概述如图2所示。具体地说,强增强图像有两个分支(称为强分支),弱增强图像有一个分支(称为弱分支).类似于现有的半监督表示学习方法[47,54,58],我们尝试在一对强分支和弱分支之间应用一致性损失。但是,针对半监督学习,我们提出了两个强分支之间的置信度引导的一致性正则化损失Lccr,使得Lccr=ci(r)H(qi(r),pm ode l(y|Aj(r);θ))+cj(r)H(qj(r),pmode l(y| Ai(r);θ)),(3)其中,Qi(r)和Qj(r)表示从p_m_de_l(y)生成的伪标签,|Ai(r);θ)和pmode l(y|Aj(r);θ),分别为: ci(r)和dcj(r)表示qi(r)和qj(r)的估计置信度。 我们提出的损失函数与传统的自监督表示学习损失函数不同,因为一致性应用于类似于[47,58]的logit级别(而不是特征级别),并通过估计的置信度进行调整。然而,与[42,47,52,54,58]不同的是,我们可以通过考虑两个强增强视图来学习更好的特征表示,同时提高半监督学习性能。应该注意的是,这个简单的损失函数可以与任何半监督学习器结合[47]第58话:你是谁?为了测量置信度ci(r)和cj(r),我们提出了两种基于非参数和参数方法的置信度估计。在下文中,我们将详细解释如何测量这些置信度。3.3测量置信度:非参数方法现有的半监督学习方法[30,44,47]选择了具有高置信度的未标记样本作为训练目标(即,伪标签);这可以被视为熵最小化的一种形式[19]。众所周知,为这种手工制作的置信度估计设置适当的阈值是不平凡的,因此,基于置信度的策略通常遭受伪标签探索和取决于阈值的准确性之间的困境[1,34]。在我们的框架中,如果简单地使用传统的手工方法[30,44,47],则从强分支估计伪标签的置信度可能会受到类似的限制。为了克服这个问题,我们提出了一种新的方法来测量置信度,ci(r)和cj(r),基于强增强图像和弱增强图像的输出之间的相似性基于强增强图像和弱增强图像的logit或概率之间的相似性可以直接用作置信度估计的假设,我们提出了度量每个强分支损失的置信度的方法+v:mala2255获取更多论文b=1NP8 J. Kim等人。算法1:ConMatch-P(参数方法)1:符号:强增广A,弱增广α,由特征编码器f和分类器g组成的模型p模型l(·;θ),置信估计量h(·;θconf),伪标签q,可学习置信c2:输入:X ={(x b,y b):b∈(1,. . . ,B)},U ={ub:b∈(1,. . . ,µB)}3:对于b=1到B,4:F(α(xb)),L(α(xb))=f(α(xb)),g(f(α(xb)5:c(α(xb))=h(F(α(xb)),L(α(xb));θconf)6:如果yb==argma xypmode l(y|α(xb);θ)),则7:cGT(α(xb))=18:其他9:cGT(α(xb))=010:如果结束11:结束12:Lsup=100BH(yb,pm ode l(y|α(xb);θ))13:Lconf−sup=H(cGT(α(xb)),h(F(α(xb)),L(α(xb));θconf))14:对于b=1至µB,15: (Fi,Fj),(Li,Lj)=f(Ai(ub),Aj(ub)),g(f(Ai(ub),Aj(ub)16:ci,cj=h(Fi,Li;θconf),h(Fj,Lj;θconf)17:生成用于不同增强版本α、Ai、Aj的伪标签18:结束图19:使用c,q从α(ub)和pm ode l(y)计算L un| A(ub);θ)通过等式 220:使用c,q从A(ub)和pm ode l(y)计算L ccr| A(ub);θ)通过等式 321:使用c从A(ub)和pmode l(y)计算L conf|α(ub);θ)通过等式622:通过最小化Lsup、Lun和L ccr更新θ23:通过最小化Lconf−sup和Lconf更新θconf24:返回:Modelparameters{θ,θconf}通过强增强图像和弱增强图像之间的交叉熵损失值本身。具体而言,我们通过以下方式来衡量这种信心si(r)=1H(pm ode l(y|α(r);θ),pm odel(y| Ai(r);θ))、(四)其中,较小的H(p_m_o_l(y|α(r);θ),pm ode l(y| Ai(r);θ)),则si(r)越高。sj(r)可以与α(r)和dAj(r)类似地定义。最后 , 在 ci (r )=si (r ) /( si (r )+sj (r ))处计算出y,ci(r),并且类似地计算出cj(r)。在这种情况下,非参数方法的总损失如下:Ltotal=λsupLsup+λunLun+λccrLccr,(5)其中λsup、λun和λccr分别是Lsup、Lun和Lccr的权重。请注意,对于带有标签yb的弱增强标记图像α(x b),应用简单的分类损失Lsup作为H(yb,pmodde l(y|[47 ][48][49][49][49]+v:mala2255获取更多论文|LLparamConMatch 93.4测量置信度:参数方法即使上述具有非参数方法的置信度估计器在某种程度上产生可比较的性能(这将在实验中讨论),但它仅取决于每个图像,因此它可能对离群值或误差敏感,而没有任何模块来从数据集学习先验为了克服这一点,我们提出了一个额外的参数方法的置信度估计。受立体置信度估计[11,41,45,49]的启发,通过从输入中提取置信度特征并使用分类器预测置信度来从网络中获得置信度度量,我们还为伪标签引入了可学习的与简单地使用模型输出作为置信度的现有方法不同[42,47,52,54,58],这种学习的置信度可以智能地选择噪声较小的伪标签子集,这有助于网络更快地收敛,并通过利用在早期训练迭代中通过高阈值排除在训练之外的假阴性样本来实现改进的性能具体来说,我们定义了一个额外的网络,用于可学习的置信度估计,即c(r)=h(F(r),L(r);θcon f),其中h(·)是具有模型参数θcon f 的 置 信 度 估 计 器 ,F(r)是一个 特征,L(r)是来自实例r的logit,如图2所示。对于网络架构,使用由各个非线性投影头变换的特征F(r)和logitL(r)的组合,基于两个其异构置信度特征的直接级联不能提供最佳性能的直觉[26],然后是用于置信度估计的最终分类器。详细的网络架构在补充材料中描述。置信度估计器是通过以下损失函数学习的Lconf=ci(r)H(pm ode l(y|α(r);θfreez e),pmode l(y| Ai(r);θfreez e))+log(1/ci(r)),(六)其中,θfreeze是具有停止梯度nt的冻结网络参数。其背后的原理是,在置信度网络训练过程中,我们只想让网络学习置信度本身,而不是同时学习特征编码器。此外,我们还使用监督损失的置信估计Lcon f−sup=H ( cG T , h ( F ( α ( xb ) ) , L ( α ( xb ) ) ;θconf));cGT=1,如果yb等于argmaxypm ode l(yα(xb);θ),否则cGT=0。参数情况下的总损耗可以写为Ltotal=λsupLsup+λunLun+λconfLconf+λconf−supLconf−sup+λccrLccr(7)其中λconf和λconf−sup分别是conf和conf−sup的权重。我们解释了一个算法的参数化的方法在Alg。1.一、3.5分阶段培训尽管我们的框架可以以端到端的方式进行训练,但我们进一步提出了一种分阶段的训练策略来提高训练的收敛性。这种阶段式训练包括三个阶段,1)特征的预训练+v:mala2255获取更多论文LLL××10 J. Kim等人。编码器,2)置信度估计器的预训练(仅用于参数方法),以及3)特征编码器和置信度估计器两者的微调(仅用于参数方法)。具体来说,我们首先通过单独使用标准的半监督损失函数sup和un来预热特征编码器。然后,我们根据参数化方法中预训练特征编码器的输出来训练置信度估计器。如[27]所述,这种简单的技术极大地提高了收敛性,以区分网络的置信和不置信输出。最后,我们用所提出的置信度引导的自监督损失ccr对所有网络进行了微调。 我们通过在标准基准数据集上实现最先进的结果来实证证明阶段式训练的有效性[12,28,37]。4实验4.1实验设置在实验中,我们广泛评估了ConMatch在各种标准数据集[12,28,37]上的性能,其中各种标签分数设置与最先进的算法相一致,例如UDA [52],FixMatch [47],Flex-Match [58],SelfMatch [25],LESS [34]和Dash [54]。我们提出的方法有两个变体; ConMatch-NP(非参数方法)和ConMatch-P(参数方法)集成到FlexMatch [58],这是最先进的半监督学习器,即使它可以很容易地集成到其他方法。ers [33,47,51].数据集。 我们考虑了四个标准基准,包括CIFAR-10/100 [28],SVHN [37]和STL-10 [12]。CIFAR-10包含50,000张训练图像和10,000张测试图像,分辨率为32 32,有10个类别。与CIFAR-10类似,CIFAR-100 [28]具有相同数量的训练/测试图像和图像大小,但它不同地分类为100个细粒度类。SVHN [37]由73,257个训练图像和26,032个测试图像组成,也有32个32分辨率的图像,属于10个不同的数字类别。STL-10 [12]包含来自10个类的5,000个大小为96×96的标记图像和100,000个大小为96×96的未标记图像。评价 对于定量评估,我们计算错误率的平均值和标准差,当在标记数据的3个不同折叠上训练时,基于选择训练数据的子集同时保持其余未标记的标准评估协议。此外,与[33,58]一样,我们通过训练精确度,召回率和F1值的曲线来评估伪标签的质量。4.2实现细节为了进行公平的比较,我们通常使用Fix- Match [47]遵循相同的超参数。具体来说,我们使用Wide ResNet(WRN)[56]作为实验的特征编码器,特别是CIFAR-10 [28]和SVHN [37]的WRN-28-2,+v:mala2255获取更多论文ConMatch 11表2. 比较3种不同折叠下CIFAR-10 [28]和CIFAR-100 [28]基准的错误率。UDA [52]29.05±5.93 8.82±1.084.88±0.1859.28±0.8833.13±0.22固定匹配(RA)[47]13.81±3.37 5.07±0.654.26±0.0648.85±1.7528.29±0.11FlexMatch [58][25]第二十五话[33]第三十三话减[34]4.97±0.064.98±0.094.19±0.016.81±1.084.87±0.264.06±0.086.91±8.47 4.91±0.33-6.80±1.10 4.90±0.80-39.94±1.6226.49±0.20- -- -48.70±12.40-短跑(RA)[54] 13.22±3.754.56±0.134.08±0.06 44.76±0.9627.18±0.21ConMatch-NP4.89±0.070.00 ±0.370.36 ±0.4244.90±1.3426.91±1.35ConMatch-P4.43±0.134.70±0.253.92±0.08 38.89±2.18 25.39±0.20WRN-28-8用于CIFAR-100 [28],WRN-37-2用于STL-10 [12]。我们使用标记数据的批量大小B= 64,未标记数据的比率μ= 7,SGD优化器的学习率从0.03开始,详细的超参数设置在补充材料中描述。对于弱增强的样本,我们使用crop-and-flip,对于强增强的样本,我们使用RandAugmnet [13]。4.3与最先进方法的在标准的半监督学习基准测试中,我们评估了我们的框架ConMatch-P和ConMatch-NP的性能,并与各种最先进的方法进行了比较,如表2和表3所示。我们观察到ConMatch-NP和ConMatch-P之间的性能差异并不大,除了在标签稀缺设置。这可以通过以下事实来解释:非参数方法高度依赖于基线性能,因为它不考虑可以建模为先验的其他样本。我们在大多数具有广泛标签设置的基准测试中显示了我们的优势,但我们主要关注标签设置,因为它对应于半监督学习的中心目标,减少了对标记数据的需求。对于CIFAR-10和CIFAR-100设置[28],我们分别实现了4.43%和38.89%的错误率,每个类别只有4个标签。与SelfMatch[25]和CoMatch [33]的结果相比,采用自监督方法,我们可以通过在CIFAR-10上使用40个标签实现2.38%和2.48%的改进来证明我们方法在其他数据集CIFAR-100 [37]和STL-10 [12]上,我们记录了400和2500个标签设置的最低错误率38.89%和25.39%,并且在STL-10数据集中记录了5.26%,略好于基线[584.4消融研究不同基线的影响。我们首先使用两个基线(FixMatch [47]和FlexMatch[58])在参数(ConMatch-P)和非参数(ConMatch-NP)方法中评估我们的ConMatch,如表4所示。ConMatch- P w/[47]显著提高了CIFAR-10的性能,其中40个标签来自方法CIFAR-10CIFAR-100402504,0004002,500+v:mala2255获取更多论文12 J. Kim等人。表3. SVHN [37]和STL-10 [12] benchamarks在3个不同折叠上的错误率比较。SVHNSTL-1040 2501,000+v:mala2255获取更多论文方法UDA [52]52.63 ±20.513.96±2.172.48±0.384.97±0.06 4.98±0.093.42±1.02 2.63±0.436.91±8.47 4.91±0.333.03±1.592.17±0.107.66±0.567.98±1.505.77±0.18-20.20±0.387.26±0.40美国(公告牌百强单曲榜)[47]FlexMatch [58][25]第二十五话[33]第三十三话美国(公告牌百强单曲榜)[54]ConMatch-NP6.20±3.445.80±0.746.02±0.08ConMatch-P 3.14±0.573.13±0.725.26±0.04表4. 不同半监督基线的消融研究。我们使用不同基线(Fixmatch [ 47 ]和FlexMatch[ 58 ])评估了非参数(ConMatch-NP)和参数(ConMatch-P)方法。CIFAR-10 CIFAR-10040 250400+v:mala2255获取更多论文方法[47]第四十七话13.81 5.0748.85[47]第47话6.834.7348.73[47]第47话5.134.6448.00FlexMatch [58]4.974.9839.94[58]第58话4.844.7444.90[58]第58话4.68 4.7038.8913.81%至5.13%,达到了最先进的效果。ConMatch-P w/ [47]的性能增益在大多数设置上相对高于一个w/ [58],因为[47]不根据样本的难度水平自适应地调整阈值。请注意,FixMatch [47]和FlexMatch [58]的阈值仅用于Lun。信任措施的有效性 在表4中,我们以非参数和参数方法评估了两种置信度测量。在极端标签稀缺的环境中,例如每个类别具有4个标签的CIFAR-10,非参数方法在Fix-Match和FlexMatch基线中实现了相对较低的性能,分别为1.70%和0.16%,而参数方法(ConMatch-P w/ [58])达到了最先进的性能。但是,随着标签数量的增加,非参数和参数方法之间的差距缩小,这表明需要一定数量的标签样本来测量置信度,而无需置信度估计。阶段性培训的有效性 在表5中,我们报告了端到端培训和阶段式培训之间的性能差异。我们可以观察到ConMatch-P在两种训练方案中都获得了有意义的增强,但阶段式训练显示出基线之间的更大差距+v:mala2255获取更多论文LConMatch 13表5.培训方案的消融研究。E表示端到端培训,S是指阶段性训练。方法地位CIFAR-10CIFAR-10040 250400[47]第四十七话ES4.85 四点七七5.13 四点六47.8148.00[58]第五十八话:ES4.68 四块七4.43 四块七57.1638.89表6. CIFAR-10 [28]上我们组件的消融研究,有40个标签。三个分支Logit级自我支持。信任网。输入错误率logits特征(一)✓✗✗✗18.11(二)✓✓✗✗77.50(三)✓✓✓✗7.05(四)✓✓✓✓5.13(a)精确度(b)召回率(c)F1评分图3. 随着CIFAR-10 [ 28 ]的训练进展,我们和基线[ 47,58]之间伪标签的演变图有40个标签:(a)精度,(b)召回,和(c)F1分数。架构在这里,我们分析了ConMatch的关键组件,置信度估计器和指导一致性正则化,如表6所示。为了公平比较,我们在FixMatch [47]上构建了三个分支作为基线(I),一个分支用于弱增强样本,两个分支用于强增强样本。(II)使用logit级自监督损失,但不通过置信度加权,即,ccr,其中ci(r),cj(r)=1/2。 (III)和(IV)强增强实例对logit级自监督损失的置信度。(III)只取logits作为置信估计量的输入,而logits和特征都被送入(IV)。该消融研究的结果表明,没有置信度指导的logit级自监督损失导致网络崩溃。(II)中的崩溃是其他半监督方法[33]不能在logit水平上使用自监督而应该使用负对的原因之一与(I)相比,(III)和(IV)显示出显著的性能改善,没有这样的崩溃。+v:mala2255获取更多论文14 J. Kim等人。(a)(b)(c)(d)见图4。基线[47,58]和ConMatch的收敛性分析:FixMatch [47]和ConMatch w/[47]之 间 的 to p -1 准 确 度 和 损 失 比 较 显示在(a)和(b)中的至少一种。FlexMatch [58]和ConMatch w/[58]之间的比较显示在(c)和(d)的方法。每20万次迭代在CIFAR-10上进行评估,有40个标签。评估置信度估计。 为了评估我们的置信度估计器的有效性,我们测量了ConMatch和FixMatch [ 47 ]的精确度,召回率和F1分数,因为在CIFAR-10 [28]上使用40个标签进行训练迭代,如图所示。3. 置信样本定义为基线中最大概率超过阈值且ConMatch中置信度测量值超过0.5的未标记置信样本的质量对于精确测定非常重要,以防止确认偏倚问题,从而显著降低性能。准确率、召回率和F1-score这三个分类度量通过图3,我们可以观察到,从零开始进行公平比较的ConMatch在所有度量中显示出比基线更高的值。4.5分析收敛速度。我们的ConMatch的优势之一是其卓越的收敛速度。根据图1所示的结果4(b)和(d),ConMatch的损失比相应的基线[47]下降得更快,更平滑此外,图4(a)中的精度结果也证明了快速达到全局最优。我们还通过比较另一个基线FlexMatch [58]证明了我们方法的有效性收敛速度差距相对小于FixMatch,因为它在每个时间步动态调整类的阈值,导致稳定的训练,但ConMatch从模型预测仍然不稳定的早期阶段开始在所有时间步实现快速收敛。这表明,ConMatch的引入成功地鼓励了模型主动提高整体学习效果。5结论在本文中,我们提出了一种新的半监督学习框架,建立在传统的一致性正则化框架与一个额外的强分支定义建议的信心引导的两个强分支之间的一致性损失。为了解释这种一致性损失的方向,我们提出了非参数和参数方法的置信度。此外,我们还提出了一个阶段式的训练,以提高训练的收敛性我们+v:mala2255获取更多论文ConMatch 15实验表明,我们的框架提高了基本半监督学习器的性能,并且在几个基准上明显是最先进的致谢。 这项研究得到了韩国MSIT(IITP- 2022-2020-0-01819,ICT创意一致性计划)和韩国国家研究基金会(NRF-2021 R1 C1 C1006897)的支持。+v:mala2255获取更多论文16 J. Kim等人。附录在这份补充文件中,我们提供了额外的实验结果和实施细节,以补充主要文件。源代码和预训练模型将在不久的将来发布。附录A.实施细节-超参数为了进行公平的比较,我们基本上遵循了基线的默认超参数,即,FixMatch [47]和FlexMatch [58],如主论文第4.2节所示除此之外,我们还为特定损失函数和每个训练阶段提供了最佳超参数,如表1所示。表1.ConMatch的附加超参数列表阶段超参数特征编码器预训练λsupλun1.01.0置信估计量预训练λconfλconf-sup0.11.0λsup1.0λun1.0微调λccr1.0λconf1.0λconf-sup1.0附录B.其他实验结果由于我们的框架基本上是一个即插即用的模块,它可以与各种半监督学习器相结合。我们在主论文的表1和表2中的一般半监督学习基准上实验了基于FlexMatch [58]的ConMatch(Con- Match with FlexMatch)。在这份补充材料中,我们补充说-在SVHN和STL-10数据集上提供基于FixMatch [47]的ConMatch(Con- Match with FixMatch)的基准结果。SVHN上有40个标签和250个标签,ConMatc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功