没有合适的资源?快使用搜索试试~ 我知道了~
7244中文(简体)$中文(简体)$中文(简体)我中文(简体)我编码器编码器超球面一致性正则化谭成1,2,刘晓波,高张阳1,2,刘晓波,吴丽蓉1,2,李思远1,2,张晓波。西湖大学工学院人工智能实验室2西湖高等研究院先进技术研究所*{tancheng,gaozhangyang,wulirong,lisiyuan,stan.zq.li}@westlake.edu.cn摘要对比学习的最新进展已经照亮了各种半监督领域的各种应用。使用共享特征编码器联合训练监督学习和非监督学习成为一种常见的方案。虽然它受益于利用自监督学习的特征相关信息和监督学习的标签相关信息,但该方案仍然受到分类器偏差的影响。在这项工作中,我们系统地探索了自监督学习和监督学习之间的关系,并研究了自监督学习如何帮助提高数据效率的 深 度 学 习 。 我 们 提 出 了 超 球 面 一 致 性 正 则 化(HCR),一个简单而有效的即插即用的方法,使用特征相关的信息来正则化分类器,从而避免标签的偏见具体地说,HCR首先将来自分类器的logit和来自投影头的特征投影投影到相应的超球面上,然后通过最小化成对距离相似性度量的二元交叉熵来强制超球面上的数据点具有相似的结构。在半监督和弱监督学习上的大量实验证明了我们的方法的有效性,表现出优越的性能与HCR。1. 介绍在过去的十年中,深度学习在各种计算机视觉领域取得了革命性的进展,例如图像分类[26,29,38,72],对象检测[48,64 - 6666]和语义分割[25,47,67]在大规模标记数据集的存在下。然而,数据集的大量收集和精确注释是耗时且昂贵的。在许多实际情况下,只有小规模的高质量标记数据集可用。因此,从少量标记数据和大量未标记数据中学习的半监督学习(SSL)受到了广泛的关注[4,5,42,62,63,69,71,73,84,85]。*同等贡献吉吉图1.超球面上的对比学习图解。红色箭头表示正对倾向于相互吸引,灰色箭头表示负对倾向于相互排斥。随着对比学习的发展[7,934,43,70,79,81,92]倾向于通过添加分支网络作为投影头来将自监督学习扩展到监督学习,该投影头从特征相关和标签相关信息中联合学习虽然特征编码器应该通过从潜在空间的不同观点达成一致来更好地学习,但确定最终预测的分类器仍然遭受半监督或弱监督的偏见。通常情况下,[33,93]发现数据不平衡不是从长尾数据中学习高质量表示的关键问题,而简单地调整具有平衡采样的分类器可以有效地减轻不平衡偏差。这种现象表明,体面的表示可能有助于但不足以实现鲁棒学习,而正则化分类器对于提高学习性能是必要的。7245当前大量的经验对比学习方法[9- 11,20,24,28,45 ]通过N2归一化将特征嵌入投射到超球面上,同时最大化负对之间的距离并最小化正对之间的距离,如图1所示。将输出空间限制为单位超球体可以提高机器学习中的训练稳定性,其中点积是无处不在的[77,80,86]。此外,超球面上的聚类良好的特征与特征空间的其余部分是线性可分的上述期望的特征被认为是有用的,同时正则化的分类器。线性分类器图2.线性分类器通过超平面学习分离超球体。In this work, we analyze the relationship between theprojection head and the classifier, and propose hyperspheri-cal consistency regularization (HCR) to constrain the latenthyperspherical space.如图2所示,一个合适的分类器能够在超球面流形中找到一个最佳超平面,并且分类器超平面上的数据点HCR假设投影头的超球面和分类器的超球面上的数据点具有相似的几何结构,并且通过使成对距离的分布一致来保持这样的半监督学习和弱监督学习的实验结果表明,HCR可以显著提高泛化能力。2. 相关作品2.1. 对比学习自监督学习设计了借口任务[19,58,61,91]来产生来自数据本身的监督信号,而对比学习是其子集,旨在将相似的样本分组为更接近,不同的样本彼此远离[7,9受度量学习中重要技术的启发,[52,68,77],[83]采用了类的超视觉的极端实例明智的监督,并试图最大限度地分散的功能,样本的单位超球体。大多数后续作品[7,927,28,45]对比学习采用了102标准化作为标准设置,而[80]强调了102标准化有助于对比学习优化超球上特征的诱导分布与正对特征的对齐。表征学习得益于将特征放置在单位超球面上的理想特性,提高了训练的稳定性和可分离性。将对比学习扩展到半监督学习或弱监督学习是很简单的。Sup-Con [34]提出了全监督设置下的类对比损失,并激励研究人员关注监督场景中对比学习的力量。Self-Tuning [81]探索了群体对比学习,并在一个有效的单阶段框架中解决了确认偏差和模型转换问题,CoMatch [43]统一了对比学习,一致性正则化,熵最小化和基于图的SSL,以减轻基于伪标签的半监督学习中的确认PSC [79]提出了一种混合网络,它以累积学习的方式联合执行自监督学习和原型监督BalFeat[32]结合了监督方法和对比方法的优势,以学习区分性和平衡性的表示。MoPro [44]使用动量原型同时优化经典监督损失和原型对比损失,并试图实现鲁棒的弱监督学习。Co-learning [71]重新考虑了基于共同训练的噪声标签学习方法提供有限的信息增益,因为相同架构的两个网络之间的差异主要来自随机初始化。因此,该方法探索内在相似性和结构相似性以对抗噪声标签。这些方法[12,32,43,71,79,81]具有类似的架构,可以同时优化典型的对比学习和监督学习。 我们可以从另一个角度来看待这个问题:依赖于标签的监督学习和依赖于特征的对比学习都是旨在学习正确表示的前提任务。以前的作品[2,17]结合了不同的借口任务来提高自监督学习性能,并发现需要正则化的借口任务之间存在关系。因此,我们的方法在超球空间中调节了监督学习和自监督学习之间的隐含联系,如图3所示。HCR在经典监督学习和自监督学习的前提任务之间搭建了一座桥梁,正则化是即插即用的,可以应用于这些联合学习方法。7246··F→F→·→−∈ X →→→X·̸ℱ!1交叉熵损失对比损失HCR正则化(a) 监督学习(b)自我监督学习(c)HCR学习图3.不同学习范式的概念说明。我们假设监督学习和自监督学习分别依赖于标签依赖和特征依赖的信息,通过不同的借口任务来学习正确的表示。HCR将监督学习作为主要任务,并迫使自监督学习从另一个角度辅助它。2.2. 在超球面有很多方法可以学习超球面上的表示[8,15,16,30,46,49MHE [49]从Thomson问题中得到启发,以最小超球能量为目标正则化网络,以提高网络的泛化能力。CoMHE [46]表明,由于高度非线性和非优化,天真地最小化超球面能量会遇到困难,并提出将神经元投影到合适的子空间,在这些子空间中,超球面能量可以有效地最小化。此外,Johnson-Lindenstrauss引理[14]为CoMHE投影提供了保证。SphereGAN [60]通过几何变换将欧几里得特征空间重新映射到超球面,并计算几何矩以最小化超球面上概率测度的多个Wasserstein距离我们的工作将分类器的欧几里德特征空间重新投影到一个超球面中,并探讨了它与投影头超球面的关系3. 方法3.1. 预赛HCR的重点是规范的方式,联合训练监督学习和自我监督学习,并试图找到他们的关系。假设X <$Rn是n维欧氏像空间,Y={0,1}c3.2. 超球面一致性正则化由于分类器g()和投影头h()根据来自特征编码器f()的相同特征执行不同的任务,HCR假设存在距离保持映射 :RDhRDg及其逆映射−1 :RDgRDh that establish the connections ofpoints on the hyperspheres. 我们认为,不同任务的超球体之间的关系可以用几何性质来表征在这里,我们将成对距离视为关键几何属性,并且迫使分类器的超球面上的点具有与投影头类似的结构,如图4所示。投影头图4.利用数据点的两两距离保持数据点在超球面上的几何结构。我们首先定义相应超球面上的成对距离为:d( x,x)=g<$f( x)−g<$f( x)<$,是一个包含c个类的真实标签空间,Giji j(1)如果标签存在的话。通常的框架由分类器g:R DfR Dg和投影头h:R DfS Dh−1以及它们的共享特征编码器f:xR Df组成,其中D f、D g、D h分别表示从f、g、h输出的欧几里得空间的维数。 HCR在超球面空间中施加了约束,使得分类器g:R DfS Dg−1通过将原始输出映射到维度D g的102个归一化特征向量来输出(D g1)维超球面SDg −1。dh(xi,xj)=<$h<$f(xi)−h<$f(xj)<$,哪里表示欧几里得距离。当x i,x j并且i=j,为了符号简单,我们使用dg和dh来表示成对距离的集合。为了度量不同维度的超球面上的成对距离,我们定义了相似性度量p(dg)和q(dh),它们被认为是正态分布乘以常数项(见第4.1节):编码器分类器…编码器…投影头分类器编码器…投影头7247Gσ2∼≤≤∀̸ΣΣL◦◦Gσ2πΣg−gΣ→∞L11(dµ)2p(dg)=Cg <$ exp−2211(dh−µh)2σH、(二)HCR隐含地在对比学习和监督学习之间达成了潜在超球面空间的一致。此外,SupCon直接对标准交叉熵施加对比损失,这需要充分探索标签信息,从而限制了监督学习q( dh)=Chσh2πexp−22,时尚. HCR迫使监督学习模仿CON-在没有额外标签信息的潜在空间中进行传递学习其中,Cg、Ch是迫使相似性度量在[0,1]中。可根据情况选择σg、µg、σh、µh 为了便于优化,除特别提到的实验外,所有实验都经验性地假定p(dg),q(dh)N(0,1)。由于对比学习试图推开来自不同类别的样本并将来自相同类别的样本拉到一起,因此相应的相似性度量应该接近零或一。因此,我们将HCR的目标定义为最小 化 p ( dg ) 和 q ( dh ) 之 间 的 二 进 制 交 叉 熵(BCE):信息,以便它可以方便地适应半监督学习和弱监督学习框架。4. 理论见解本节受[1,3,6,13,14,18,21,31,35,39,55,75]的严格理论结果的启发,并提供了有关HCR的理论和直观观点。4.1. 超球面上的距离分布定理1. (大尺寸超球面中欧氏距离分布的渐近形式)。给定D维超球面SD(a),HCR(p(d g),q(d h))= BCE(p(dg))||q(d h))=−p(dg)logq(dh)−(1−p(dg))log(1−q(dh)),(三)a,xi和xj(i=j)是Sn(a)中任意两个点的欧氏距离记为r(0r2a)。则r的渐近分布为N(α2,α2)通过最小化等式3,logits g f(x)和特征投影h f(x)之间的互信息I(g f(x),h f(x))被隐式最大化(参见第4.2节)。3.3. HCR作为学习既然我们已经介绍了HCR的公式化,在这里我们提出HCR作为半监督或弱监督学习的正则化。HCR在超球面隐空间上实现了分类器和投影头的一致性,适合于同时进行监督学习和自监督学习的联合学习方式。在这样的设置中,整个目标函数可以表示为:2个D为D- 是的在文献[1,21,55]中已经深入研究过的定理1虽然HCR只考虑了超球面上的点而忽略了超球面内部的点的情况,但它仍然与这个定理相一致。HCR将成对距离分布建模为正态分布,并试图利用成对距离作为保持投影头输出的几何结构因此,HCR在特征依赖信息和标签依赖信息之间建立了一座桥梁4.2.超球面之间的联系L=(x,y)∈X×YLs(x,y)+Lux∈X(x)(四)定理2. (Johnson-Lindenstrauss引理)。设n∈(0,1).设N,D g∈ N使得D g≤C <$−2logN,对于一个足够大的绝对常数C. 设H RDh是一个集合,+ HCR(p(dg),q(dh)),其中 s表示标记数据的监督损失, u表示对比损失(即,通常使用的InfoNCE [59])。HCR规则化监督学习,并探讨其与对比学习的联系,使Ls和Lu都需要。3.4.与监督对比学习的类似于SupCon [34],HCR利用对比学习来使香草监督学习受益。虽然Sup-Con明确地将来自不同类别的样本聚类分开,并以自监督对比的方式将属于同一类别的样本聚类拉在一起N点。 存在一个线性映射F:RDh → RDg,使得对所有hi,hj∈ H:(1−1)||hi−hj||2≤||Fhi−Fhj||2≤(1+1)||hi−hj||二、著名的Johnson-Lindenstrauss引理在图嵌入搜索、流形学习和维数约简等方面有着广泛的应用。在这里,这个引理保证了两个点从高维空间到低维空间的投影以很高的概率保持它们的欧几里得距离。 虽然特征投影hf(x)和logits gf(x)的维数通常不相同,但在此定理下HCR保持了它们的相对距离。(五)7248FFTF◦◦L我我我我c=1j=10Jd=1DPGCexp(q·ky/τ)+Neg定理3. (互信息其中,Neg=n{1,2,...,2014年12月28日exp(q·kc/τ),D是边际变量的重新参数化如果H′=(H)和G′=(G)是同胚(即光滑唯一可逆映射),则互信息I(H,G)=I(H′,G′).这个定理[13,35,75]揭示了g f(x)和h f(x)之间可能的联系。 我们讨论等式3是保持投影头和分类器的超球面空间之间的成对距离。对于那些有限的数据点,我们考虑从投影映射头部H到分类器G通过保持成对距离而接近双射。因为when是可逆的,所以互信息是:类的数量,y表示伪标签。等式7和等式8对应于等式4中的未标记损失u。Self-Tuning通过分类器产生的伪标签引导投影头的对比机制,在监督学习和自监督学习之间架起了一座桥梁。然而,该方案只能帮助特征编码器获得像样的表示,而分类器的偏差仍然是不可避免的。因此,我们希望投射头也能通过HCR使分类器受益,如图5所示。I( h<$f( x),g<$f(x))= I( h<$f( x),F<$(h<$f( x)=I(h<$f(x),h<$f(x))(六)L交叉熵损失从而使其最大化。因此,HCR保留了分布,隐含地最大化互信息I(h f(x),g f(x))的成对距离的部分。简体中文伪组对比HCR正则化5. 实验为了验证我们提出的HCR的有效性,我们对各种任务进行了实验,例如半监督学习,细粒度分类和噪声标签学习,其中后两个任务属于弱监督学习。5.1. 基线我 们 以 最 近 的 典 型 作 品 Self-Tuning [81] 和 Co-learning [71]作为我们的基线,因为它们的联合学习方式,即两者都使用具有分类器和投影头的共享特征编码器构建网络架构,并以不同的方式同时训练两个头。Self-Tuning将标记数据和未标记数据的探索以及预训练模型的传输统一在伪组对比(PGC)机制中。香草对比学习最大化查询q与其对应的正关键字k0(同一数据样本的不同视图)之间的相似性:exp(q·k0/τ)图5.使用HCR进行自调整的说明。XL表示来自标记数据集的数据样本,并且XU表示来自未标记数据集的数据样本。PGC使用来自分类器的伪标签信息来引导投影头,而HCR投影使用投影来校正分类器。协同学习是近年来对噪声标签学习中的协同训练方案提出的挑战。通过上述联合学习方式,从监督学习和自监督学习两个方面提供了视角由于分类器在嘈杂的学习环境中非常不可靠,因此协同学习还提出了一种结构相似性,该结构相似性施加了类似于HCR的结构保持约束。共同学习直接假设成对距离遵循正态分布,并且最小化投影头和分类器之间的分布的Kull-back然而,从理论上讲,协同学习不能保证结构保持约束得到很好的执行。如图6所示,我们在CIFAR-10数据集上训练了Co-learning和HCR,其中80%的对称噪声用于hun。LCL=−logexp(q·k/τ)+D、(7)exp(q·k/τ)dred epoch,并呈现超球面距离dis-in。贡献。 的初始超球两两距离其中τ是温度缩放的超参数。Self-Tuning通过从具有相同伪标签的样本中引入一组肯定键来修改对比机制,以与其他样本进行对比,如下所示:Dy投影头大致在[0,0. 5]。经过训练后,它们变得很大,这表明[80]的结论是正确的,即,对比学习试图使特征均匀地分布在超球体上,而不是集中在局部区域中。此外,HCR学习的距离分布比L=−1logexp(q·kd/τ)d=00、(8)共同学习相对于投影头是平衡的分类器编码器投影头ℎD+17249投影全息分类器投影全息分类器↑×30%50%↑30%50%1.6 1.61.481.21.41.26 1.0 1.00.840.60.80.60.420.20.40.20电话:+86-0512 - 88888888传真:+86-0512-888888880.0电话:+86-0512 - 88888888传真:+86-0512-888888880.0电话:+86-0512 - 88888888传真:+86-0512 - 88888888(a) 初始距离分布。(b)通过共同学习学习的距离分布(c)HCR学习的距离分布图6.具有80%对称噪声的CIFAR-10数据集的超球面距离分布5.2. 半监督学习表1.半监督学习方法在Stanford Cars数据集(ResNet-50预训练)上的分类准确率(%)根据与[81]相同的实验设置,我们将自调整与HCR与三种经典的半监督学习方法进行比较:伪标签[41],模型[40]和平均教师[73],以及三个最近的方法UDA [85],FixMatch [69],SimCLRv2 [10]和自调整本身[81]。 实验在三个主流视觉数据集上进行:斯坦福汽车[36],FGVC飞机[56],CUB-200-2011[76],和CIFAR-100 [37]. Stanford Cars包含196类汽车的16185张图像,像素分辨率为360 240。FGVC飞机由100个不同的飞机模型变体的10000张图像组成。图像的分辨率约为1- 2M像素,但其宽度和高度不是固定的。Cub-200-2011是一个包含200种鸟类的6033幅图像的数据集,每幅图像的像素数不到25万。CIFAR-100是一个经典的视觉数据集,有100个类,每个类600幅图像,图像分辨率为32 ×32。为了进行公平的比较,所有这些方法都实现了ResNet-50模型,并从ImageNet预训练的权重初始化它此外,我们删除了预训练模型的最后一层,并添加了具有随机初始化权重的投影头部h和分类器g默认温度τ为 0.07 , 学 习 率 为 0.001 。 优 化 器 遵 循 原 始 的 Self-Tuning,即动量为0.9的SGD。实验用不同的随机种子重复三次,我们报告每个实验三次试验的平均测试准确度。当我们重现Self-Tuning时,我们意外地发现结果比其论文报道的结果更好,因此我们诚实地报道了重现的结果,而不是使用其论文。如表1所示,HCR在不同的标签比例中显著提高了自调谐的性能,平均提高了2.30%。在标签比例为15%的情况下,HCR平均获得3.77%的改善,表明HCR在标签数量极少的情况下是有效的。表2显示了FGVC飞机数据集的结果 作为方法15%标示比例伪标记40.93±0.23 67.02±0.19 78.71±0.30型号45.19±0.21 57.29±0.26 64.18±0.29平均教师54.28±0.14 66.02±0.21 74.24±0.23UDA 39.90±0.43 64.16±0.40 71.86±0.56固定匹配49.86±0.27 77.54±0.29 84.78±0.33SimCLRv2 45.74±0.16 61.70±0.18 77.49±0.24自动调谐74.99±0.11 85.87±0.04 89.83±0.01自调整+HCR78.76±0.0887.70±0.0791.14±0.06我们可以看到,观察结果与Stanford Cars数据集一致,即HCR仍然能够获得很大的增益(平均3.03%),即使Self-Tuning已经达到了非常高的精度。此外,标签比例越低,HCR带来的改善越大。表2.半监督学习方法在FGVC Aircraft数据集(ResNet-50预训练)上的分类准确率(%)方法15%标示比例伪标记46.83±0.30 62.77±0.31 73.21±0.39型号37.72±0.25 58.49±0.26 65.63±0.36平均教师51.59±0.23 71.62±0.29 80.31±0.32UDA 43.96±0.45 64.17±0.49 67.42±0.53固定匹配55.53±0.26 71.35±0.35 78.34±0.43SimCLRv2 40.78±0.21 59.03±0.29 68.54±0.30自调整66.68±0.17 79.94±0.09 84.35±0.08自调整+HCR70.54±0.0282.64±0.0486.89±0.15我们在表3中报告了CUB-200-2011数据集的结果。可以看出,应用HCR比原始自调整产生更好请注意,CUB-200-2011数据集的改进略小于前两个数据集。原因是CUB-200-2011的平均每班样本数量远少于斯坦福汽车和FGVC飞机投影全息分类器密度密度密度7250↑↓↓↑表3.半监督学习方法在CUB-200-2011数据集(ResNet-50预训练)上的分类准确率(%)表4.半监督学习方法在CIFAR-100数据集上的错误率(%),2500个标签和10000个标签。方法百分之十五标签比例30% 50%方法网络2.5K 10k伪标记45.33±0.23 56.20±0.29 64.07±0.32伪标签型号45.20±0.25 58.49±0.26 65.63±0.36联系我们57.25 37.88平均教师53.26±0.19 66.66±0.20 74.37±0.30平均教师UDA 46.90±0.31 61.16±0.35 71.86±0.43固定匹配44.06±0.23 63.54±0.18 75.96±0.29MixMatchUDAWRN-28-8 #段落:11.76M39.94 28.3133.13 24.50SimCLRv2 45.74±0.15 62.70±0.24 71.01±0.34自调整64.79±0.06 74.31±0.07 78.45±0.31ReMixMatch 27.43 23.03FixMatch 28.64 23.18自调谐+HCR66.42±0.2475.06±0.1379.48±0.16FixMatch微调共调EfficientNet-B2#Para:9.43M29.99 21.6931.69 21.7430.94 22.22数据集。当数据稀疏地分布在超球体上时,HCR很难捕捉到数据的结构。我们分析了每个类的平均样本数与改进之间的关系,如图7所示。4.03.53.02.52.01.51.0每类图7. HCR带来的改进与每个类的平均样本数成正比。除了在Self-Tuning中评估的视觉数据集外,我们还在标准半监督学习基准CIFAR-100数据集上进行了实验 。 结 果 示 于 表 4 和 表 5 中 。 Self-Tuning 实 现 了EfficientNet-B2模型[72],因为WRN-28-8 [89]的预训练权重不可用。虽然FixMatch使用EfficientNet-B2获得的错误率高于WRN,自调整24.16 17.57自调整+HCR23.93 16.24表5. 错误率(%)半监督式学习方法ods在CIFAR-100数据集上,只有400个标签(EfficientNet-B2预训练)。CT:共调,PL:Pseduo标签,MT:教师,FM:FixMatch。微调L2-SP三角洲BSS60.7959.2158.2358.49协同调谐伪标记模型刻薄老师57.5859.2160.5060.68FixMatchUDASimCLRv2CT+PL57.8758.3259.4556.21CT+MTCT+FM自校正自调整+HCR56.7857.9447.1742.71飞机仍然得到最大的改进,得益于我们上面提到的每个类别的大量平均样本。我们相信HCR不仅可以帮助半监督学习,而且可以帮助困难的监督学习。表6.迁移学习方法在细粒度数据集上的分类准确率(%)28-8,自调整优于WRN-28上的那些方法8. HCR在这里进一步增加了其领先地位。此外,在标签数量极少的情况下,HCR通过将自调整提高4.46%,明显优于其他方法。我们相信,我们提出的HCR可以发挥重要的作用,在桥接功能依赖和标签依赖的信息,特别是在少数标签的情况下。5.3. 细粒度分类我们使用完全标记的Stanford Cars,FGVC Aircraft和CUB-200-2011数据集进行细粒度分类实验。表6中的结果表明,HCR的性能始终优于基线。FGVC方法Stanford Cars Aircraft CUB200微调87.20±0.19 81.13±0.2178.01±0.16L2-SP 86.58±0.26 80.98±0.29 78.44±0.17DELTA 86.32±0.20 80.44±0.20 78.63±0.18BSS 87.63±0.27 81.48±0.18 78.85±0.31共调89.53±0.09 83.87±0.09 81.24±0.14自调整92.33±0.10 88.96±0.21 81.60±0.11自调谐+HCR93.03±0.0690.41±0.0382.63±0.195.4. 噪声标签学习我们遵循与[ 71 ]相同的实验设置,将HCR的Co-learning与其他基于co-training的噪声标签学习方法进行比较:[57]第五十七章:你是谁?Cub-200-2011斯坦福汽车FGVC飞机改进7251[22],共教+ [88],JoCoR [82]和共学本身[71]。我们在CIFAR-100上进行实验表9. CIFAR-100上的平均测试准确度(%),具有过去10个时期的实例相关噪声。具有三种不同类型噪声的数据集,即,对称,不对称和依赖实例。这些噪音类别的详情载于附录。在这些噪声类型中,我们将实例相关(或特征相关)噪声识别为更现实的设置,因为人类注释对于具有不同难度水平的任务容易出现不同程度的错误在[71]之后,我们报告了每个实验五次试验的最后10个时期的平均测试准确度。基本模型是ResNet-18。表7显示了对称噪声的结果由于它是最简单的合成噪声类型,我们在50%和80%的高噪声比下进行实验。虽然Co-learning已经在高噪声比上显示出惊人的结 果 , 但 HCR 在 不 同 噪 声 比 下 进 一 步 提 高 了 Co-learning平均3.92%表7.在过去10个历元内,具有对称噪声的CIFAR-100的平均测试准确度(%)方法ins-20% ins-30% ins-40%标准CE 55.45±0.54 48.77±0.47 41.30±0.27去耦52.20±0.48 45.32±0.83 36.33±0.47合作教学55.16±0.61 45.24±0.37 34.64±1.00合作教学+50.37±0.85 40.73±0.58 32.15±0.80JoCoR 54.21±0.34 45.03±0.52 34.08±1.05共同学习69.42±0.42 65.45±0.86 60.40±1.37合作学习+HCR70.03±0.3166.89±0.4162.91±0.84协同学习在噪声标签上会受到过拟合的影响,HCR一直工作得很好,并且具有很强的鲁棒性。807060方法sym-20% sym-50% sym-80%标准CE 57.79±0.44 33.75±0.46 8.64±0.22去耦56.18±0.32 31.58±0.54 7.71±0.23合作教学64.28±0.32 32.62±0.51 6.65±0.71合作教学+55.40±0.71 26.49±0.45 8.57±1.55JoCoR 62.29±0.71 30.19±0.60 6.84±0.92共同学习66.58±0.15 55.54±0.43 35.45±0.795040300 25 50 75 100 125 150 175 200时代合作学习+HCR70.27±0.3259.93± 0.2539.14±0.47我们在表8中报告了非对称噪声的结果。HCR显著提 高了 协同 学 习的 平均 3.74% 。 此外 ,HCR 比Co-learning呈现出更稳定的结果,因为标准偏差很小。表8.在过去10个历元内,CIFAR-100在不对称噪声下的平均测试准确度(%)57.97±0.24 49.86±0.5456.11±0.60 47.12±0.7368.85±0.2261.94±0.1750.29±0.69当涉及到实例相关的噪声时,HCR帮助Co-learning平均获得1.52%的增益,如表9所示。由于Co-learning利用了特征相关的信息,HCR我们还在CIFAR10上进行了具有极高噪声的实验,结果如图8所示。而图8. CIFAR-10上的结果,具有80%对称噪声。6. 结论在本文中,我们借用几何学中的一些理论见解HCRcan be conveniently implemented to those jointly learningmethods as a plug-in regulariza- tion, or be applied to avanillasupervisedlearningnetworkwithonlyanadditional projection head.通过半监督学习、细粒度分类和噪声标签学习的大量实验,HCR在这些任务上表现出了不断的改进。总的来说,HCR通过引入超球面一致性,对利用自监督学习来辅助数据高效和鲁棒的深度学习提出了新的观点。鸣谢这项工作得到了科学和技术创新2030 -重大项目的部分支持。2021ZD0150100)和国家自然科学基金(No.U21A20427)。方法合作学习共同学习+hCR测试精度方法不对称-20%不对称----30%不对称-40%Standrad CE解耦协同教学协同教学+JoCoR59.36±0.3659.76±0.5358.58±0.5151.06±0.4449.53±0.7949.04±0.9142.49±0.2341.51±0.6740.62±0.7938.98±0.5439.72±0.76合作学习共同学习+HCR65.26±0.7656.97±1.2247.62±0.797252引用[1] Vangalur S Alagar。随机点之间的距离分布Journal ofApplied Probability,13(3):558- 566,1976. 4[2] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展,32:15535-15545,2019。2[3] Richard Baraniuk,Mark Davenport,Ronald DeVore,and Michael Wakin.随机矩阵限制等距性的一个简单证明。Constructive Approximation,28(3):253-263,2008. 4[4] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。混音-匹配:具有分布匹配和增强锚定的半监督学习。在2019年国际学习代表会议上1[5] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法。神经信息处理系统的进展,32,2019。1[6] Emmanuel J Candes和Terence Tao。从随机投影的近最佳 信 号 恢 复 : 通 用 编 码 策 略 ? IEEE transactions oninformation theory,52(12):5406-5425,2006. 4[7] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 Advances in NeuralInformation Processing Systems,33:9912一、二[8] Beidi Chen, Weiyang Liu , Zhiding Yu , Jan Kautz,Anshu- maliShrivastava,Animesh Garg,and AnimashreeAnandku-mar.角视硬度。国际机器学习会议,第1637-1648页。PMLR,2020年。3[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。一、二[10] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey E Hinton.大的自监督模型是强半监督学习器。神经信息处理系统进展,33:22243-22255,2020。一、二、六[11] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。一、二[12] Hao Cheng,Zhaowei Zhu,Xing Sun,Yang Liu.解释自监督特 征如何改善噪 声标签的训 练。arXiv预印本arXiv:2110.09022,2021。2[13] Thomas M Cover和Joy A Thomas信息理论要素第二版问题解答。Internet Access,pages 19-20,2006. 四、五[14] Sanjoy Dasgupta和Anupam Gupta johnson和lindenstrauss定理的初等证明。Random Structures Algorithms,22(1):60-65,2003. 三、四[15] Tim R Davidson,Luca Falorsi,Nicola De Cao,ThomasKipf,and Jakub M Tomczak.超球面变分自适应编码器在2018年第34届人工智能不确定性会议上,第856-865页人工智能不确定性协会(AUAI),2018年。3[16] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集,第4690-4699页3[17] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第2051-2060页,2017年。2[18] 罗伯特·J·达兰特和阿塔·卡巴恩。机器学习和数据挖掘的随机预测:理论与应用。InECML
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功