没有合适的资源?快使用搜索试试~ 我知道了~
14471SimMatch:半监督学习与相似性匹配Mingkai Zheng1,2Shan You,广州,中国黄浪3王飞4陈倩2常旭11悉尼大学工程学院计算机科学学院2SenseTime Research3东京大学4中国科学技术大学摘要在计算机视觉和机器学习研究领域中,使用少量标记数据进行学习一直是一个本文介绍了一种新的半监督学习框架SimMatch,它同时考虑了语义相似性和实例相似性。在SimMatch中,一致性正则化将同时应用于语义级和实例级。鼓励使用同一实例的不同增强视图样品类中心FCMLP标签嵌入具有相同的类别预测和相似的相似性重新-对其他情况的尊重。接下来,我们实例化了一个带标签的内存缓冲区,以充分利用实例级的地面真值标签,并弥合语义和实例相似性之间的差距。最后,我们提出了使这两个相似性同构变换的展开和聚集操作。通过这种方式,语义伪标签和实例伪标签可以相互传播,以生成更高质量和更可靠的匹配目标。大量的实验结果表明,SimMatch在不同的基准数据集和不同的设置上提高了值得注意的是,通过400次训练,SimMatch在ImageNet上实现了67.2%和74.4%的Top-1准确率,其中1%和10%的标记示例显著优于基线方法,并且优于以前的半监督学习框架。1. 介绍受益于过去几十年大规模注释数据集的可用性和不断增长的计算资源,深度神经网络已经在各种视觉任务上展示了它们的能力[19,20,22,23,27,38,50,58然而,在现实世界场景中收集大量标记数据是非常昂贵的。使用少量标记数据进行学习一直是一个长期存在的问题,* 通信地址:山友.图1. SimMatch的草图。全连接层向量可以被视为每个类别的语义代表或类中心。然而,由于有限的标记样本,语义级信息并不总是可靠的。在SimMatch中,我们考虑了实例级和语义级的信息相似性,并采用了一个带标签的内存缓冲区,以充分利用实例级的地面真值标签。计算机视觉和机器学习研究社区。在各种方法中,半监督学习(SSL)[12,46,53,67]借助于大量未标记数据作为有效的解决方案,并取得了显著的性能。一种简单但非常有效的半监督学习方法是在大规模数据集上预训练模型,然后通过使用少量标记样本微调预训练模型来传输学习的表示。由于自我监督学习的最新进展[10,14,15,21,25,26,30,54],这种预训练和微调管道已经证明了其在SSL中的良好性能大多数自我监督学习框架都专注于借口任务的设计。例如,实例区分[55]鼓励对同一实例的不同观点共享相同的特征,而不同的实例应该具有不同的特征。基于深度聚类的方法[3,9,10]期望相同实例的不同增强视图应被分类到相同的聚类中。然而,这些文本前任务中的大多数都是以完全无监督的方式设计的,没有考虑手头的少量标记数据。而不是独立的两阶段预训练和罚款-编码器…14472调谐,当前流行的方法直接涉及标记的数据在联合特征学习范例与伪标记[35]或一致性正则化[47]。这些方法背后的主要思想是用标记的样本训练语义分类器,并使用预测的分布作为未标记样本的伪标签。通过这种方式,伪标签通常由弱增强视图[5,48]或多个强增强视图的平均预测[6]产生。目标将由不同的强增广视图和伪标签之间的交叉熵损失来构建。还可以注意到,伪标签通常将被锐化或由argmax操作,因为每个实例都被期望被分类到类别中然而,当只有非常有限的注释数据时,语义分类器不再可靠;应用伪标签方法将导致“过度自信”问题[ 13,63 ],这意味着模型将适合自信但错误的伪标签,导致性能低下。在本文中,我们介绍了一个新的半监督学习框架,SimMatch,如图1所示。在SimMatch中,我们桥梁双方,并提出匹配语义和实例级别的相似性关系,同时为不同的增强。具体来说,我们首先要求强增强视图具有相同的语义相似性(即,标签预测);此外,我们还鼓励强增广具有相同的实例特征(即,实例之间的相似性)与较弱的实例进行更内在的特征匹配。此外,不同于以往的工作,简单地把弱增强视图的预测作为伪标签。在Sim-Match中,语义和实例伪标签可以通过实例化一个内存缓冲区来进行交互,该缓冲区保存所有带标签的示例。通过引入聚集和展开技术,这两种相似性可以同构地相互转换。这样,语义伪标签和实例伪标签可以相互传播,从而生成更高质量、更可靠的匹配目标。大量的实验证明了SimMatch在不同设置下的有效性。我们的贡献可以总结如下:• 我们提出了SimMatch,一种新的半监督学习框架,同时考虑语义相似性和实例相似性。• 为了引导这两个相似性,我们利用标记的内存缓冲区,以便语义和实例伪标签可以相互传播的聚合和展开技术。• SimMatch为半监督学习建立了一个新的最先进的性 能 。 仅 用 400 次 训 练 , SimMatch 就 达 到 了67.2%,74.4%的Top-1准确率,ImageNet上有1%和10%的标记示例。2. 相关工作2.1. 半监督学习一致性正则化是半监督学习中广泛采用的一种方法。其主要思想是强制模型为同一实例的不同扰动版本输出一致的预测例如,[34,47]通过最小化两个变换视图的预测概率分布之间的均方差来实现这种一致性要求。在这种情况下,转换可以是特定于域的数据增强[5,6,48],或者网络中的一些正则化技术(例如,[49]和随机最大池化[47])。此外,[34]还提出了一种时间集成策略来聚合多个先前网络的预测,这使得预测的分布更加可靠。Mean Teacher [52]进一步扩展了这一想法,用指数移动平均(EMA)模型的输出取代了聚合预测。MixMatch [6]、ReMixMatch [5]和FixMatch [48]是三种基于增强锚定的方法,它们完全利用了增强一致性。具体而言,Mix-Match采用多个强增强视图的锐化平均预测作为伪标签,并利用MixUp技巧[64]进一步增强伪标签。ReMixMatch通过生成具有弱增强视图的伪标签改进了这一想法,并且还引入了一种分布对齐策略,该策略鼓励伪标签分布与地面实况类标签的边缘分布相FixMatch简化了这些想法,其中只有当模型产生高置信度伪标签时,未标记的图像才会被保留。尽管它的简单,FixMatch实现了国家的最先进的性能增强锚定为基础的方法。2.2. 自我监督预训练除了典型的半监督学习方法外,自监督和对比学习[14,26,55]在这个研究社区中受到了广泛的关注,因为用标记样本微调预训练模型已经显示出有希望的分类结果,特别是Simplov2 [15]表明,大(深和宽)预训练模型是一个强大的半监督学习者。大多数对比学习框架采用实例判别[55]作为借口任务,将同一实例的不同增强然而,由于相似样本的存在,将不同的实例视为负对将导致类冲突问题[2],这不利于向下分类。14473Σ··}U{Σ·avg··SB·uµB类中心语义相似度语义伪标签弱加样标记内存缓冲区实例相似性实例伪标签图2.SimMatch伪标签生成过程概述SimMatch将使用弱增强视图生成一个语义伪标签和实例伪标签。具体地说,我们首先通过类中心和标记嵌入计算语义和实例相似度,然后使用展开和聚合操作融合这两个相似度,最后得到伪标签。请在下面的方法部分查看更多详细信息。流任务(尤其是分类任务)。一些先前的工作通过无监督聚类[9,10,37,65]解决了这个问题,其中相似的样本将被聚类到同一个类中。还有一些其他方法设计了各种负自由借口任务[17,25,29,31,66]来避免类冲突问题。基于聚类的方法和基于无负的方法都显示出对下游分类任务的显著改进。CoMatch [36]结合了一致性规则化和对比学习的思想,其中两个实例的目标相似性通过两个类概率分布之间的相似性来度量,这实现了当前最先进的半监督学习性能。然而,它对超参数非常敏感,对于不同的数据集和设置,最佳温度和阈值是不同的。与CoMatch相比,SimMatch速度更快、更强大,性能更高。3. 方法在本节中,我们将首先回顾基于增强锚定的半监督学习框架的初步工作;然后,我们将介绍我们提出的方法SimMatch。在此基础上,给出了算法和实现.其可以写成:p=(h)。标记的样本可以通过具有地面真实标签的交叉熵损失来直接优化:L=1H(y,p)(1)让我们定义一批µB未标记样本 =u b:b (1,…,µB)。 按照[5,6]的方法,我们随机地应用弱和强增强Tw(),Ts(),并使用与标记样本相同的处理步骤来获得弱增强样本pw(伪标记)和强增强样本ps的语义相似性。然后,无监督分类损失可以定义为这两个预测之间的L=11(maxDA(pw)> τ)H(DA(pw),ps)(2)其中τ是置信度阈值。在[48]之后,我们只保留伪标签中最大类概率大于τ的未标记样本。DA()代表来自[5]的分布对齐策略,该策略平衡了伪标签分布。我们简单地遵循[36]中的实现,在那里我们维护一个还将解释操作细节。pw移动平均并调整电流Pw,规格化(p w/p w)的情况。请注意,我们不3.1. 预赛我们将半监督图像分类问题定义如下。给定一批B个标记的样本X ={x b:b ∈(1,., B)},我们随机应用一个弱aug-avg以p w的锐化或一次性版本为例,直接作为伪标签。3.2. 实例相似性匹配,DA(pw)会心理功能(例如,仅使用翻转和裁剪)Tw()以获得弱增广样本。然后,采用基于卷积神经网络的编码器F()从这些样本中提取特征信息,即:h=F(T(x))。最后,利用一个全连通的类预测头h(·)将hb映射为语义相似度,在SimMatch中,我们还考虑实例级sim-正如我们以前讨论过的那样。具体地说,我们鼓励强增强视图具有与弱增强视图相似的相似性分布。假设我们有一个非线性投影头g(),它将表示h映射到低维嵌入展开骨料编码器…14474关于我们∥ ∥∥ ∥·∈q=B·JB^Σ^q^^^ ^您的位置:我BBΣ经校准的实例伪标签q将被用作QΣK∈q=1(class(p)=class(q))q(9)k=1BKzb=g(hb).在基于锚定的方法之后,我们使用zw和zs来表示弱增广和强增广视图的嵌入。现在,让我们假设对于一堆不同的样本z k,我们有K个弱增广嵌入:k(1,...,K),利用相似度函数sim()计算zw与第i个实例之间的相似度,该相似度函数表示L2归一化向量之间的点积sim(u,v)=uTv/uv.可以采用softmax层来处理计算出的相似度,然后产生分布:通过给定一个弱增广样本,首先计算语义相似度pwR1× L和实例相似度qwR1× K。(注意,L通常比K小得多,因为我们需要每个类别至少一个样本。为了用pw校准qw,我们需要将pw展开到K维空间中,我们将其表示为p展开。我们通过匹配每个标记嵌入的相应语义相似度来p展开=pw,其中class(qw)=class(pw)(7)wexp(sim(zw,zi)/t)ij j iIKk=1Bexp(sim(zw,zk)/t)(三)其中class()是返回地面的函数真理课具体来说,class(qw)表示存储器缓冲区中的第j个元素和类(pw)意味着其中t是控制温度的温度参数分布的清晰度另一方面,我们可以的第i我课 现在,我们重新生成校准实例计算强增强视图zs和zi之间的相似度为sim(zs,zi)。所得到的相似性差异可以写为:通过用p展开来缩放qw的伪标签,其可以表示如下:qw p展开我我S(八)sexp(sim(zb,zi)/t)^i=Kqwp展开qi=exp(sim(zs,z)/t)(四)k=1K K最后,实现一致性正则化通过最小化Qs和Qw之间的差。在这里,我们采用交叉熵损失,它可以公式化为:一个新的目标,并取代旧的一个qw在方程。(五)、上另一方面,我们也可以使用实例相似度来调整语义相似度。要做到这一点,我们首先需要将q聚集到L维空间中,我们将其表示为qagg。L的 =1H(qw,qs)(5)µB我们通过对共享相同地面真值标签的实例相似性求和来实现这一点:请注意,实例一致性正则化将仅适用于未标记的示例。我们模型的总体培训目标是:在(6)中,L总体=Ls+λuLu+λinL其中λu和λin是控制两个损失权重的平衡因子Kag娱乐城ii j jj=0现在,我们通过用q_agg平滑p_w来重新生成调整后的语义伪标签,其可以写为:pwag(十)3.3. 通过SimMatch进行虽然我们的总体训练目标也考虑了实例级的一致性正则化,但是,实例伪标签qw的生成仍然是完全无监督的方式,这绝对是对标签信息的浪费。为了提高伪标签的质量,在本节中,我们将说明如何利用实例级的标签信息,并介绍一种允许语义相似性和实例相似性相互作用的方法我们实例化了一个带标签的内存缓冲区,以保留所有带注释的示例,如图2所示(红色分支)。这样,我们在等式中使用的每个zk(3)和方程(4)可以分配到特定的类。如果我们将Risk中的向量解释为i=αpi+(1−α)qi其中α是控制语义和实例信息的权重的超参数。类似地,调整后的语义伪标签将替换等式中的旧的伪标签。(二)、以这种方式,伪标签p和q都将包含语义级和实例级信息。如图3所示,当语义和实例相似性相似时,这意味着这两个分布与彼此的预测一致,那么结果伪标签将更加清晰,并为某些类产生高置信度。另一方面,如果这两个相似性不同,则结果伪标签将平坦得多并且不包含高概率值。在SimMatch中,我们分别对和p采用了缩放和平滑策略,并尝试了不同的组合,关于这两种策略,请参阅我们的消融研究章节中的更多详细信息。14475FF··FFΣ^^Σ^^=不SS不∈RK×1,其中K是可用的在µBFF1LL L LLL语义相似度实例相似度伪标签图3.标签传播背后的直觉。如果语义和实例相似性相似,则结果伪标签将更加清晰,并且对于某些类产生高置信度。当这两个相似性不同时,得到的伪标签会平坦得多。3.4. 高效内存缓冲区正如我们所提到的,SimMatch需要一个内存缓冲区来保存标记示例的嵌入。在这样做时,我们需要存储两个特征嵌入算法一:SimMatch(学生-教师)输入:x l和:x u一批标记和未标记的样品。TW()和Ts():弱和强增广函数。t和s:教师和学生编码器。 教师和学生分类器。gt和gs:教师和学生投影头。Qf和Ql:特征和标签存储器缓冲区。当i=1时,网络不收敛于d0hw=t(Tw(xu))hs=s(Ts(xu))pw=DA(λt(hw))ps=λs(hs)zw=gt(hw)zs=gs(hs)hl= t(T w(xl)) hl=s(T w(xl))p l= t s(hl)zl=g t(hl)计算q w和q s,公式如下:(3)方程。(4)通过等式(1)计算punfold和qagg(7)等式(9)用等式计算q和p(8)等式(十)Ls=H(y,p)1和地面实况标签。 具体来说,我们定义了一个fea-真存储缓冲器Qf∈RK×D和标号存储器BLuµBL=11(maxp> τ)H(p,ps)OH(q^,qs)L注释样本,D是嵌入大小。在我们的实验中,最大的K大约是105(ImageNet 10%设置),对于Qf,仅花费64M GPU内存。对于Ql,我们只需要为每个标签存储一个标量,聚合和展开操作可以很容易地实现,收集和分散添加功能,这应该在最近的深度学习库中有效实现[1,44]。在这种情况下,Ql仅花费不到1MGPU的CPU资源(K=105),这几乎可以忽略不计。根据[26],内存缓冲区中的快速变化特性将显著降低性能。在模拟匹配中,我们针对不同的缓冲区大小采用了两种不同的实现方法.当K很大时,我们遵循MoCo [26]来利用基于学生-教师的框架,我们将其表示为Fs和Ft。在这种情况下,标记的示例和强增强的样本将被传递到Fs中,弱增强的样本将被馈送到Ft中以生成伪标记。Ft的参数将通过以下方式更新Ft←mFt+(1−m)Fs(11)另一方面,当K较小时,不需要维护教师网络,我们简单地采用时间增强策略[34,55]来平滑内存缓冲区中的特征,可以写为:zt←mzt−1+(1−m)zt(12)整体=s+λuu+λin in通过总体优化Fs、gs和Fs动量更新Ft、gt和Δt用zl和y更新Qf和Ql结束结束输出:经过良好训练的模型Fs和gs4. 实验在本节中,我们将首先在各种数据集和设置上测试SimMatch以显示其优越性,然后我们将对每个组件进行消融以验证我们框架中每个组件的有效性。4.1. CIFAR-10和CIFAR-100我们首先在CIFAR-10和CIFAR- 100 [33]数据集上评估SimMatchCIFAR-10由10个类别的60000张32 x32彩色图像组成,每个类别6000张图像有50000张训练图像和10000张测试图像。CIFAR-100就像CIFAR-10一样,除了它有100个类,每个类包含600个图像。每个类有500个训练图像和100个测试图像。对于CIFAR-10,我们从训练集中随机抽取4、25和400个样本作为标记数据,并将训练集的其余部分作为未标记数据。对于CIFAR-100,我们进行相同的实验,但每个类使用4,25和100个样本。实施详情。我们的大多数实现在这种情况下,所有样本将直接传递到同一个编码器。学生-教师版本的SimMatch已经在算法1中说明。”[48]。具体而言,我们分别对CIFAR-10和CIFAR-100采用WRN 28 -2和WRN 28 -8 [61]我们使用Nesterovmomen标准SGD优化器缓冲液Q1447616S·avg∼×表1.CIFAR-10和CIFAR-100的前1名准确度比较(5次运行的平均值和标准值),具有不同的标记集大小。CIFAR-100方法40个标签250个标签4000个标签400个标签2500个标签10000个标签型号[34]-45.74±3.97 58.99±0.38 - 42.75±0.48 62.12±0.11伪标记[35]-50.22±0.43 83.91±0.28 - 42.62±0.46 63.79±0.19平均教师[52]-67.68±2.30 90.81±0.19 - 46.09±0.57 64.17±0.24UDA [56] 70.95±5.93 91.18±1.08 95.12±0.18 40.72±0.88 66.87±0.22 75.50±0.25MixMatch [6] 52.46±11.50 88.95±0.86 93.58±0.10 32.39±1.32 60.06±0.37 71.69±0.33ReMixMatch [5] 80.90±9.64 94.56±0.05 95.28±0.13 55.72±2.06 72.57±0.31 76.97±0.56固定匹配(RA)[48] 86.19±3.37 94.93±0.65 95.74±0.05 51.15±1.75 71.71±0.11 77.40±0.12短划线[57] 86.78±3.7595.44±0.13 95.92±0.06 55.24±0.96 72.82±0.21 78.03±0.14CoMatch [36] 93.09±1.39 95.09±0.33SimMatch(我们的)94.40±1.37 95.16±0.3996.04±0.0162.19±2.2174.93±0.3279.42±0.11tum [45,51]并将初始学习率设置为0.03。 对于学习率计划,我们使用余弦学习率decay [40]将学习率调整为0。其中s是当前训练步骤,并且S是训练步骤的总数。 我们还使用模型参数的指数移动平均来报告最终性能。请注意,我们对两个数据集使用相同的超参数集(λ u=1,λ in=1,t=0)。1,α=0。9,τ=0。95,μ=7,m=0。7,B=64,S=220)。对于分布对齐,我们累积过去的32个步骤p w以计算移动平均值p w。 我们采用时间集合内存缓冲区[34],因为这两个数据集的大多数设置具有相对较小的K。 对于强增强和弱增强的实现,我们严格遵循FixMatch[48]。结果结果见表1。 对于基线,我们主要考虑的方法有模型[34],伪标签[35],平均教师[52],UDA [56],混合-[6],ReMixMatch [5],FixMatch [48],CoMatch [36]。我们计算在标记数据的5个不同“折叠”上训练时准确度的均值和方差正如我们所看到的,SimMatch在各种设置上都达到了最先进的性能对于CIFAR-10,SimMatch在40个标签设置上有很大的性能增益我们怀疑这是由于95%-96%的准确率已经非常接近监督性能。4.2. ImageNet-1k我 们 还 在 大 规 模 ImageNet-1 k 数 据 集 上 进 行 了SimMatch [20],以显示其优越性。具体来说,我们测试 我 们 的 算 法 在 1% 和 10% 的 设 置 。 我 们 遵 循 与CoMatch [36]相同的标签生成过程,其中每个类别将分别选择13和128个标记样本,用于1%和10%设置。实施详情。对于ImageNet-1 k,我们采用ResNet-50[28]并使用Nesterov动量的标准SGD优化器。我们将模型预热五个epoch,直到它达到初始学习率0.03,然后将其余弦衰减为0。我们使用相同的超-1%和10%设置的参数(λ u= 10,λ in=5,t=0. 1,α=0。9,τ=0。7,μ=5,m=0。999,B= 64)。我们保留过去的256个步骤pw用于分布对齐。我们选择了学生-教师版本的内存缓冲区,并在学生网络上测试了性能。对于强增强,我们遵循MoCo v2中的相同策略[16]。结果 我们在表2中显示了结果。 作为 我们可以看到,经过400个epoch的训练,SimMatch在1%和10%的标记样本上达到了67.2%和74.4%的Top-1准确率,这明显优于以前的方法。FixMatch-EMAN [8]在10%设置下实现了略低的性能(74.0%)。然而,它需要800个自我监督的预训练(MoCo-EMAN),SimMatch可以直接从头开始训练。最新的工作PAWS [4]在1%和10%的设置下实现了66.5%和然而,PAWS需要多作物策略[10]和970个7标记的示例来构建支持集。对于每个epoch,PAWS的实际训练FLOPS是SimMatch的4倍。因此,报告的300个epoch PAWS应该具有与1200个epoch SimMatch 类似的训练 FLOPS由于 GPU资源有限,我们无法将这项研究推进到这样的规模,但由于Sim- Match 在 1% 的 设 置 下 以 1/3 的 训 练 成 本 ( 400epoch)超过了PAWS,我们相信它已经可以证明我们方法的优越性。迁移学习。我们还评估了多个下游分类任务的学习表示。我们遵循[14,25]中描述的线性评估设置具体来说,我们在从冻结的预训练网络(400 epochs 10%SimMatch)中提取的特征上训练了一个L2正则化多项式逻辑回归分类器,然后我们使用L-BFGS [39]来优化softmax交叉熵目标,并且我们没有应用数据扩充。我们从验证分裂中选择了最佳的L2正则化参数和学习率,并将其应用于测试集。本基准测试中使用的数据集如下:CIFAR-10 [33],CIFAR-100 [33],Food101[7],Cars [32],[42]第43话,我的天。结果示于表3中。正如我们所见,只有400个时期14477UUU^^表2.ImageNet上的实验结果,1%和10%标记的示例。自我监督预训练参数(列车/试验)前1名前5名标签分数标签分数1% 10% 1% 10%伪标签[35,62]100毫米口径200型∼300∼40025.6M /25.6M--51.6----86.482.488.583.888.589.191.6增值税+最低成本[24、41、62]25.6M /25.6M-68.8[62]第六十二话25.6M /25.6M-53.4没有一UDA [56][48]第四十八话25.6M /25.6M25.6M /25.6M--68.871.5[36]第三十六话30.0M /25.6M66.073.6PCL [37]∼200∼1000∼800∼1000∼800∼80025.8M /25.6M--75.385.6[第14话]30.0M /25.6M48.365.675.587.8[15]第十五话BYOL [25]微调34.2M /25.6M37.1M /25.6M57.953.268.468.882.578.489.289.0SwAV [10]30.4M /25.6M53.970.278.589.9[65]第六十五话34.2M /25.6M65.072.086.391.2[16]第十六话[36]第三十六话∼800∼120030.0M /25.6M30.0M /25.6M49.867.166.173.777.287.187.991.4MOCo-EMAN [8][8]第十八话∼110030.0M /25.6M63.074.083.490.9没有一SimMatch(我们的)∼40030.0M /25.6M67.274.487.191.6表3.使用ImageNet预训练的ResNet-50迁移学习性能。根据[14,25]的评估方案,我们报告了Top-1分类准确度,但宠物和鲜花除外,我们报告了平均每类准确度。方法历元CIFAR-10CIFAR-100食品-101汽车DTD宠物花是说监督-93.678.372.366.774.991.594.781.7[第14话]100090.574.472.849.375.784.692.677.1[16]第十六话80092.274.672.550.574.484.690.577.0BYOL [25]100091.378.475.367.875.590.496.182.1SimMatch(10%)40093.678.471.769.775.192.893.282.1表4.GPU小时每epoch为不同的方法。在8个NVIDIA V100GPU上测试速度方法FixMatchCoMatchSimMatch(我们的)GPU(小时)2.772.812.34SimMatch在CIFAR-10、CIFAR-100、Cars and Flowers数据集上取得了最好的性能,与BYOL相当,明显优于Sim-10、MoCo V2和监督基线。这些结果进一步验证了SimMatch分类任务的表示质量。培训效率。接下来,我们测试FixMatch、CoMatch和 SimMatch 的 实 际 训 练 速 度 。 结 果 如 表 4 所 示 ,SimMatch比FixMatch和CoMatch快近17%。在FixMatch中,弱增广将被传递到在线网络中,这将消耗更多的资源用于额外的计算图。但在SimMatch中,只需要传递到EMA网络中,因此不需要保留计算图与EMA网络需要两次前向传递(强增强和弱增强)的CoMatch相比,SimMatch只需要一次传递。此外,CoMatch采用4个内存库(258 M Memory)来计算伪标签; SimMatch只需要2个内存库(6.4M /64 M Memory)来计算1%和10%的标签,因此伪标签生成也会更快。4.3. 消融研究伪标签准确性。首先,我们想展示SimMatch的伪标签准确性在图4中,我们可视化了FixMatch和我们的方法的训练进度SimMatch始终可以生成高质量的伪标签,并且在未标记样本和验证集上始终具有更高的性能。温度在Eq.(4)和等式(3)控制实例分布的锐度(注意t=0相当于argmax操作)。我们在图5a中给出了不同t值的结果。 可以看出,最佳Top-1准确度来自t = 0。1,当t = 0时略有下降。07. 这与t = 0时的对比学习中的最新工作是一致的。1通常是最佳温度[10,11,14,15]。平滑参数。我们还证明了不同光滑参数αEq的有效性。(10)在图5b中。具体地说,我们扫过[0. 八比零。九比零。95,1。[0]对于α,可以清楚地看到α=0。9取得了最好的成绩。注意,α=1。0等价于直接取原始伪标签pw用于等式(2),其结果为1。8%的性能下降。标签传播。接下来,我们要验证标签传播的有效性。结果显示在表5中。当我们去除p时,这与α = 1的情况相同。0,因此我们将不再进一步讨论此设置。如果我们去掉q,这意味着投影头方法时期14478p61.5^L^^^^ ^您的位置:^LL^ ^您的位置:90807060504030201000 20 40 60 80100时代(a) 伪标签准确度7060504030201000 20 40 60 80100时代(b) 未标记样品准确度7060504030201000 20 40 60 80 100时代(c) 验证精度图4.(a)伪标签准确度-置信度高于阈值的p的准确度,(b)未标记样本准确度-所有不含阈值的p的准确度,(c)FixMatch和SimMatch在1%和10%设置下的验证准确度。6261.76160595859.16261605958.358表7. 使用InfoNCE和SwAV替换的结果。(ImageNet-1k 1% - 100 ep)问题和InfoNCE目标。 具体来说0.070.1 0.20.3不(a) 温度0.8 0.90.951.0(b) 光滑分类问题的目标是将相似的样本分组在一起,而InfoNCE的目标是区分每个实例。图5.改变t和α的结果。(ImageNet-1k 1% - 100 ep)表5.去除缩放和平滑策略的结果。(ImageNet-1k 1% - 100ep)方法w/opw/oq标准 Top-1 59.952.361.7表6.缩放和平滑策略的不同组合的结果(ImageNet-1k 1% -100 ep)Q缩放平滑缩放- -56.659.9平滑61.761.5以完全无监督的方式进行训练,如[66]所示,因为我们可以看到性能明显低于标准SimMatch,这证明了我们的标签传播策略的重要性传播策略。然后,我们尝试缩放和平滑策略的不同组合来生成伪标签p和q。从表6中,我们可以看到,对p进行平滑和对q进行缩放可以获得最佳结果。我们可能会注意到,对p和q应用平滑可以实现类似的性能(61。5%)。然而,平滑策略将引入平滑参数。因此,为了保持我们的框架简单,我们倾向于选择q的缩放策略。实例匹配损耗设计。为了验证中实例相似性匹配项的有效性,我们只需将其替换为InfoNCE和SwAV。我们在表7中显示了结果。当使用InfoNCE损耗时,我们将温度扫过[0.07,0.1,0.2]。在这种情况下,我们可以得到的最好结果是53.5%,比Sim- Match低8.2%。这是由于阶级之间的自然冲突-在使用SwAV时,我们尝试将原型的数量设置为1000、3000和10000。最后,我们可以得到的最好结果是49.7%,比SimMatch低12%SwAV旨在将样本平均分配给每个原型类型,防止模型崩溃。然而,不一 致对 准具 有类似的 目标 ,其 在等式(2 )中被SimMatch采用。此外,SwAV损失将以完全无监督的方式进行训练,这将失去标签的力量。in的优点是标签信息可以很容易地与实例相似性协作5. 结论本文提出了一个新的半监督学习框架SimMatch,它同时考虑了语义级和实例级的一致性正则化。我们还引入了一个带标签的内存缓冲区,以充分利用实例级的数据注释。最后,我们定义的展开和聚合操作允许标签在语义级和实例级信息之间传播。大量的实验表明了框架中各个组件的有效性。ImageNet-1 K上的结果展示了半监督学习的最新性能。确认本课题由国家重点研究发展计划(2004)资助。2018AAA0100701)和NSFC 61876095。 Chang Xu的研究得到了澳大利亚研究委员会的部分支持,项目DE180101438和DP210101859。山友是北京市博士后科研工作基金资助项目。固定匹配-10%SimMatch-1%SimMatch-10%匹配-1%FixMod甲基固定匹配-1%固定匹配-10%SimMatch-1%SimMatch-10%od甲基固定匹配-1%固定匹配-10%SimMatch-1%SimMatch-10%od甲基61.761.360.959.9方法Top-1InfoNCE53.5SwAV49.7SimMatch61.7前1位准确度(%)伪标签准确度%前1位准确度(%)未标记样品准确度%验证准确度%14479--引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。第12届USENIX操作系统设计与实现研讨会{OSDI}16),第265-283页,2016年。5[2] S. Arora,Hrishikesh Khandeparkar,M. Khodak,OrestisPlevrakis和Nikunj Saunshi。对比无监督表示学习的理论分析。ArXiv,abs/1902.09229,2019。2[3] Yuki M Asano , Christian Rupprecht , and AndreaVedaldi.通过同步聚类和表征学习的自我标记在2020年国际学习代表会议(ICLR)上。1[4] 马哈茂德·阿斯兰,玛蒂尔德·卡隆,伊山·米斯拉,彼得·波雅诺夫斯基,阿曼德·朱林,尼古拉斯·巴拉斯,迈克尔·拉布·巴特.通过支持样本非参数预测视图分配的视觉 特 征 的 半 监 督 学 习 。 arXiv 预 印 本 arXiv :2104.13963,2021。6[5] David Berthelot、Nicholas Carlini、Ekin D Cubuk、AlexKurakin 、 Kihyuk Sohn 、 Han Zhang 和 Colin Raffel 。Remixmatch:具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv:1911.09785,2019。二、三、六[6] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch:半监督学习的整体方法arXiv预印本arXiv:1905.02249,2019。二、三、六[7] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101-用随机森林挖掘判别成分。欧洲计算机视觉会议,第446-461页。Springer,2014. 6[8] 蔡兆伟,阿维纳什·拉维钱德兰,苏布兰苏·玛吉,查尔·莱斯·福克斯,涂卓文,斯特凡诺·索阿托。自监督和半监督学习的指数移动平均归一化。在IEEE/CVF计算机视觉和模式识别会议论文集,第194-203页六、七[9] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在2018年欧洲计算机视觉会议第1、3条[10] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习视觉特征对比聚类分配。2020. 一、三、六、七[11] Mat hildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mair
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功