互惠分布对齐：解决半监督学习中的不匹配分布问题

3 浏览量更新于2023-12-01 收藏 855KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文RDA：稳健半监督学习段跃1、齐磊2、王磊3、周露萍4、石迎环11南京大学2东南大学3University of Wollongong澳大利亚4University of Sydney澳大利亚抽象的。在这项工作中，我们提出了互惠分布对齐（RDA）来解决半监督学习（SSL），这是一个超参数的自由框架，它独立于置信阈值，并与匹配（传统）和不匹配的类分布一起工作分布不匹配是一个经常被忽视但更常见的SSL场景，其中标记和未标记的数据不属于相同的类分布。这可能会导致模型不能可靠地利用标记数据，并大大降低SSL方法的性能，这无法通过传统的分布对齐来挽救在RDA中，我们对来自两个分类器的预测的分布强制进行相互对齐，这两个分类器在未标记的数据上预测伪标签和复杂标签。这两个分布携带互补信息，可以用来正则化彼此，而不需要任何先验的类分布。此外，我们从理论上表明，RDA最大化的输入输出互信息。我们的方法实现了有前途的性能，在SSL的各种情况下的不匹配的分布，以及传统的匹配 SSL 设置。我们的代码可在https://github.com/NJUyued/RDA4RobustSSL上获取。关键词：分布对齐，不匹配分布1介绍半监督学习（SSL）利用丰富的未标记数据来缓解机器学习中标记数据的缺乏[7，46，37]。最近，基于置信度的伪标记[33，26]和分布对齐[5，3，26，12]已经引入SSL，将性能提升到一个新的高度。这些技术改进了未标记数据的标签插补，从而消除了确认偏倚[1]。简而言之，伪标签的目标是通过产生硬标签来实现熵最小化[13]。最近，FixMatch [33]利用基于置信度的阈值来选择更准确的伪标签，并证明了该技术的优越性。尽管该阈值防止模型具有噪声伪标签的风险，通讯作者：Y. Shi（电子邮件：syh@nju.edu.cn）。Y. Duan，Y.施博士现就职于南京大学软件新技术国家重点实验室和国家医疗数据科学研究所arXiv：2208.04619v2 [cs.LG] 2022年8月+v：mala2255获取更多论文2Y. Duan等人0.250.401.01.00.200.350.300.90.80.90.80.150.100.050.0012345678910类别索引（一）0.250.200.150.100.050.0012345678910类别索引（b）第（1）款0.70.60.50.40.312345678910类别索引（c）第（1）款0.70.60.50.412345678910类别索引（d）其他事项Fig. 1. SSL中不匹配的分发的一些示例。X轴表示CIFAR-10中的类别索引。在（a）和（b）中，图中显示了标记和未标记数据的分布。在（c）和（d）中，数字显示了FixMatch字母值图[17]显示多水平分位数信息。在（a）和（c）中，我们展示了不平衡的标记数据和平衡的未标记数据，其中40个标签N0=10。在（b）和（d）中，标记和未标记的数据是不匹配的，并且不平衡，有100个标记，N0=40，γ=10。有关不平衡比N 0和γ的更多详细信息，请参见第4.2.在（c）和（d）中，我们可以看到FixMatch对不同类别的未标记数据的预测的置信度是完全不规则的，这意味着我们很难调整置信度阈值来判断预测是否正确。即基于置信度的伪标记方法也不适用于非匹配分布。不同班级的学习难度不同，一个固定的门槛并不是SSL所有场景的“灵丹妙药”。虽然[40，44]证明了动态调整阈值的潜力，但调整是复杂的，并且具有低置信度的未标记数据的浪费将成为潜在的限制[11]。我们试图要问的是，基于置信度的阈值真的是伪标签所必需的吗？受此启发，我们以无超参数的方式重新思考伪标记，同时注意到分布对齐（DA）已被引入SSL [3，26，12]。DA通过关于标记数据分布的先验信息来缩放对未标记数据的预测，以在伪标记上进行强正则化，这可以减轻确认偏差。受此启发，我们考虑仅使用DA来改进伪标签，而不需要额外的超参数，即，DA对于伪标记是足够的。同时，DA在解决长尾分布下的SSL方面显示出巨大的潜力[39]。我们期望这种技术能在更广泛的范围内对SSL起到积极的作用。然而，即使检察官可以帮助我们通过保护SSL免受噪声影响来改进伪标记，它基于一个强有力的假设：“标记数据和未标记数据共享相同的分布”，例如，，它们都在CIFAR-10中平衡。不匹配分布的情况尚未得到广泛讨论，即。标记数据的分布一些典型的场景导致不匹配的分布，如有偏采样，标签丢失不是随机的[16]等。不匹配的分布可能导致有偏的伪标签，显着降低SSL模型的性能，这是证明实验结果在SEC。5.2.在不匹配的分布下，我们不能简单地使用标记数据的分布来对齐具有非常不同分布的未标记数据的预测。这促使我们探索更普遍的分布对齐，以应对上述不匹配分布的挑战。未标记数据标记数据标记数据未标记数据比例（%）信心比例（%）信心+v：mala2255获取更多论文一致性正则化反向操作互惠分配对齐反向操作未标记数据一致性正则化RDA：稳健SSL 3图二. 建议的互惠分布对齐（RDA）示意图。我们使用标记数据的地面真值标签y和互补标签y（虚线表示y是从不包括地面真值标签的类中随机选择的）来分别训练默认分类器D和辅助分类器A。给定一个未标记的样本u，D预测伪标签p，A预测其弱增广版本的互补标签q。RDA通过将p和q相互缩放到以下分布来应用于p和q：通过反向运算（命题1）获得它们的反向版本。然后，我们对对齐的伪标签和互补标签执行一致性正则化，以对抗强增广u的相应预测，即，ps（来自D）和qs（来自A）。鉴于上述动机，我们提出了互惠分布对齐（RDA）建立一个有前途的半监督学习范式，它提供了一个综合方案，以处理SSL中的匹配和不匹配的情况。为了放松关于未标记数据的类分布的假设，我们考虑从模型本身出发，挖掘潜在的指导作用通过从互补的角度对预测进行正则化来实现分布。受[19，21，31]的启发，我们考虑同时预测类标签及其互补标签（即指示样本不是什么类），并利用它们的分布来彼此正则化。因此，我们在RDA中引入了两个分类器，一个是默认分类器（DC），另一个是辅助分类器（AC）。具体地，DC和AC分别用于预测未标记数据的伪标签和互补标签。伪标签和互补标签可以通过它们的反向版本使用在第二节中的命题1中定义的反向操作来相互转换。三点三然后，采用倒易对齐来调整DC的预测和AC的预测的分布，通过根据它们对应的反转版本来缩放它们。我们证明了RDA产生了一个通过对齐的伪标签和互补标签，分别在DC和AC上进一步应用常用的一致性正则化，这有助于模型在扰动数据上保持不变的预测。 RDA可以应用于帮助模型改进伪标签，而不会遭受+v：mala2255获取更多论文±4岁。Duan等人不匹配分布的威胁，因为没有使用关于数据的类分布的先验信息。RDA的示意图如图所示。二、尽管它的简单性，我们的方法显示出优越的性能在各种设置，例如。在广泛使用的SSL基准CIFAR-10上，RDA在传统设置中仅使用20个标签就实现了92.03 2.01%的准确度，并且在不匹配的分布中，比最近提出的SSL算法CoMatch [26]的准确度提高了52.09%。除了显著的业绩改善外，我们的贡献如下：我们提出了一种新的SSL算法--互易分布对齐（RDA），它可以以一种无超参数的方式改进伪标签。RDA可以安全地应用于传统设置和不匹配分布的场景中的SSL。我们从理论上证明了RDA可以在合理利用类分布指导信息的前提下，优化输入数据和预测之间的相互信息的目标[5，3]2相关工作基于伪标记的熵最小化。熵最小化是近年来SSL方法中的一个重要思想，它与伪标记（即伪标记）密切相关。，将模型预测转换为硬标签以减少噪声）[ 23，33，26，41]。换句话说，伪标记导致熵最小化的形式[13]。这种想法认为，模型应该确保在利用未标记数据的同时，类是良好分离的，这可以通过鼓励低熵的模型输出预测来实现[13]。最近的SSL算法，如[33，26，40，45]，设置了一个基于置信度的阈值来细化伪标签并获得出色的性能。然而，置信度阈值的存在导致未标记的低置信度样本被过滤掉而此外，这将导致对置信度阈值进行动态调整的成本显着增加，如[40，44]。同时，在非匹配分布下，对所有类使用固定阈值来过滤伪标签是不合理的，因为模型也会受到分布未知的潜在风险的未标记数据的影响。在这项工作中，我们使用分布对齐，以改善伪标记在超参数的方式，可以实现更好的性能比算法引入置信阈值。SSL中的分布对齐分布对齐在[5]中提出，最初在[3]中应用于SSL。简而言之，[3]将其集成到伪标签推理步骤中，而无需额外的损失项或超参数。其主要思想是未标记数据的预测的边缘分布和地面真实标签的边缘分布应该是一致的。这通过在分布指导信息的帮助下改进伪标签来消除确认偏差[1对于类不平衡的半监督学习，[39]通过用平滑形式替换地面真实标签的分布来改进这种技术，从而在这种设置中获得更好的性能[39]中改进的分布对齐有助于模型从重新平衡分布中受益。···+v：mala2255获取更多论文H|LC∈ UCCU C C ∈XC公司简介RDA：稳健SSL 5简而言之，分布对齐的目标是最大化预测和输入数据之间的互信息，即，输入输出互信息[5，3].将输入数据表示为x，将x的类预测表示为y，将预测的类分布表示为P（y|x），我们可以将这个目标形式化为：I（y;x）=H（Ex[P（y|x）]）−Ex[H（P（y|（x））]、（1）其中H（·）是指熵。具体来说，分布对齐的目标是最大化项（Ex [P（y x）]）。然而，[3]和[39]中这种技术的实现都是基于一个理想化的假设：“标记和未标记的数据属于同一分布”。更现实的是，我们不能保证标记数据的分布与未标记数据的分布相匹配。这种不匹配的分布可能导致[3，39]中的分布对齐失败，甚至不利于模型对未标记数据的预测。在这项工作中，我们提出了互惠分布对齐没有匹配分布的假设和任何先验信息的标记数据分布。3方法在本节中，我们讨论了SSL中不匹配分布的设置，并提出了一种新的SSL算法，称为Reciprocal Distribution Alignment（RDA），无需额外的超参数，以改善SSL各种场景中的伪标记。此外，我们从理论上分析了我们的方法的有效性。3.1SSL中的匹配和不匹配分布在半监督学习中，我们将训练集划分为标记部分X和未标记部分U。我们将X的类分布记为Cx，将的类分布记为u。注意u 在训练中是不可接近的。给定x和对应的标签y和未标记的数据u，我们可以将SSL算法视为以下优化任务：minL =Lsup（x，y;θ）+Lunsup（u;θ），（2）其中θ是模型的参数，L sup是标记数据的监督损失，L unsup是未标记数据的无监督损失。最近的基于伪标记的SSL方法试图将未知的u标记归为unsup。因此，伪标签的准确性成为重中之重。在传统的SSL设置中，我们假设Cx Cu。在这个假设下，我们可以使用x通过分布对齐来指导u的预测[3，26]，可以提高基于一致性或基于伪标记的方法的性能[3，33，26，12]。不幸的是，这种假设过于不切实际和理想化。更符合实际情况的是xu，在SSL中称为不匹配分布。与传统的SSL不同，在不匹配的分布中，模型从x学习到的分布不同于u，因此它不能正确预测伪标签。换句话说，分配差距+v：mala2255获取更多论文b=1b=1∈ Y{|||Y \ {}Σ一D··ΣCDµBns，nn=16岁。Duan等人不匹配导致的强确认偏差[1]，这可能会影响模型的性能。值得注意的是，[39]中用于解决长尾分布下SSL的分布对齐也不能应用于不匹配的场景，因为[39]仍然依赖于匹配分布的假设。要设计一种可以解决SSL中不匹配场景的方法，我们必须面对Cx≠Cu，抛弃以往方法[3，39]中所使用的Cx先验3.2概述我们介绍了两个分类我们的方法。一个称为默认分类器（DC）D，另一个称为辅助分类器（AC）A。简单地说，对于未标记的图像，D用于预测伪标记，A用于预测互补标签我们得到了标记数据X={（xb，yb）}B，图像和未标记数据U ={（ub）} µB 由一批µB图像组成，数据首先，我们为每个标记数据构造互补标记y，地面实况互补标签[18，19]表示样本不属于哪个类别。表示y=1，. . .，n作为x的地面真值标签，其中n是类别的数量，在[21]之后，x的互补标签从y中随机选择，表示为y。在[33]之后，我们将一致性正则化集成到RDA中。对图像进行弱增强和强增强，然后对D和A进行一致性正则化。对于相同的未标记数据u，将uw表示为弱增强图像，将us表示为强增强图像，令yc为输入图像的类别预测。PG（yc|·）是指由分类器G输出用于输入的预测类分布。我们可以得到伪标签 p=PD （ yc|uw ），ps=PD （ ycus ），互补标号 q=PA（ycuw），qs=PA（ycus）。注意，p，q是n维的类概率向量，其中n是类的数目.pi，qi表示属于预测中的第i类的概率。然后，可以通过最小化默认一致性损失Lcd和辅助一致性损失Lca来实现双重一致性正则化：µBL=1H（p，p），（3）LCAµB=1H（qµBnn=1，qs，n），（4）其中H（，）指的是交叉熵损失，并且p=argmax（p），这意味着我们使用硬标签进行一致性正则化。因此，软标签被用来代替。RDA利用所有未标记的数据进行训练，而以前的基于一致性的方法浪费了低置信度数据[33，26，40]。此外，我们分别在弱增广版本x（记为xw）和y之间的D上以及xw和y之间的ABLsd =1H（yBnn=1，PD（yc|Xw，n）），（5）+v：mala2255获取更多论文Σ1D一D、A一RDA：稳健SSL 7LsaB=H（ynBn=1，PA（yc|Xw，n）），（6）其中Lsd是D的默认监督损失，Lsa是A的辅助监督损失。综上所述，RDA联合优化了上述四种损失：L=Lsd+λaLsa+λcdLcd+λcaLca，（7）其中λa、λcd和λca是折衷系数，并且为了简单起见都被设置为1以前的基于熵最小化的方法，如[33，26，40]，通过伪标记在SSL中实现了优异的性能。他们成功的关键是置信阈值设置来控制伪标签的选择。为了消除这个在不匹配分布中变得麻烦的超参数，我们考虑一种仅使用分布对齐来改进伪标签的根据当量（1），我们可以将D的分布对齐目标形式化为：最大H[Eu（PD（yc|uw））]，（8）其中H（·）是指熵。同样，我们将A的分布对齐目标形式化为：最大H[Eu（PA（yc|uw））]。（九）这两个目标鼓励模型以相等的频率进行预测，但当数据集的地面真实值的类分布不均匀时，这些不一定有用我们使用下一段描述的互惠分配对齐来整合这两个目标。3.3互惠分配对齐在[3]之后，我们注意到，使一种分布接近另一种分布（[3]中使用了标记数据的分布）可以达到最大化等式的目的。（一）. 以这种方式，可以实现由方程描述的目标的“高熵”的形式（8）和（9）。简而言之，我们将D和A上的目标定义为：maxh（D，A）=H[Eu（p）]+H[Eu（q）].（十）然而，由于存在不匹配的场景，不能像[3]那样直接用于对齐。那么，接下来我们将使用类预测的分布（即，，Eu（p））和互补类预测的分布（即，，Eu（q））来建立递归算法。考虑到类预测的分布和互补类预测的分布之间没有强相关性，我们假设是用于预测伪标签q（q的“反向”版本），使得Eu（q）的“反向”版本（即，，Eu（q））可以用于对准Eu（p）。+v：mala2255获取更多论文nn−ΣK−DL我j=18岁。Duan等人1号提案（反向操作）。在使用A来预测伪标签的情况下，我们有q = Norm（1-q），其中1是全一向量，Norm（x）是正规化运算定义为x′= xi/nxj，i ∈（1，. . . ，n）。证据假设我们使用A来预测伪标签q，理想情况下，一个类（即，， Qi）应该随机地落在与当前预测的类不同的类上（即，，其中j=i）。因此，对于一个nyqj∈q，它的值是所有qi随机分配给它的值之和：Q =QI =1−qj。（十一）重写它，我们得到：Ji=1，i=jn−1n−11−qj1−qjqj=nk=1qk=（1−q1）+···+（1−qn）1−qj=nk=1（1−q）=范数（1−qj）。（十二）现在，q = Norm（1 − q）通过结合对任何qi∈ q的类似证明而得出。同样，如果我们使用为了预测互补标记p，可以计算p=Norm（1p）。由等式（11），我们注意到反向操作并没有改变类分布中类之间的相对关系，只是颠倒了顺序，这使得我们仍然可以从伪标签和互补标签的角度获得有用的指导信息。然后，通过将Eu（p）标度到Eu（q）上，对Eu（p）进行分布拟合. 调用y，我们通过将其缩放到Eu（p）来对齐Eu（q）。根据文献[3]，我们将分布对齐集成到RDA中，而无需超参数。我们计算了128个批次的p，q和它们的反向p，q的移动平均值，分别作为Eu（p），Eu（q），Eu（p）和Eu（q）的估计. 给定未标记图像u，我们缩放D的预测，即，伪标记p，通过：（q）p=Norm（p×（p）），（13）其中p是对齐的概率分布。然后，使用p_max=arg_m_axp_max作为默认一致性损失L_cd 的硬伪标签。同时，我们对A的预测进行缩放，即，互补标记q，通过：（p）q=范数（q×（q）），（14）其中q是对齐的概率分布。然后用q值作为辅助一致性损失的软补充标号。下面的定理说明了为什么RDA导致目标方程最大化。（10）.通过这种方式，可以最大化输入-输出互信息，从而提高模型的性能[ 5，3 ]。+v：mala2255获取更多论文2n我n−1n−1n220成立，这意味着f（x）是凸函数。n我n我n我我n−1n−1nnn−1n−1i=1i=1i=1i=1RDA：稳健SSL 9定理1. 对于伪标签p和由下式获得的反向伪标签p，逆运算，我们证明了p的熵大于p的熵H（p）≥ H（p），（15）其中H（·）是指熵。P roof. 我们对序列p1，. . . ，pn降序排列，并记为对单纯形p1≥···≥pn. 考虑到p11首先，我们证明了定理1的一个等价形式：[plogpi=1-（1 −pi）log（1 −pi）] ≥ 0。（十六）我们将函数定义为f（x）=xlogx−1−x log1−x，（17）n−1n− 1其中x∈[0，1）by1≥p1≥···≥pn. 该函数的第二个派生式是2 2f′′（x）=1−1=（n−1）−nx（十八）x（n−1）（1−x）x（n−1）（1 −x）设f′′（x）≥0，则x≤n−1。当n≥2时，nn-1是1。当x ≤ 1时，f ′′（x）≥根据Jensenn n1<$f（x）≥f（1<$x）（19）代入xi=pi，由等式（19）我们得到n1 11（plogp−1−pilog1−pi）≥1log1−1−nlog1−ni=1= 0（20）来吧，Eq。（16）当p为11<时成立。接下来，我们考虑p1≥1的情况.2 2重写Eq.（15）我们得到n npilog pi≥（二十一）表示p1 =1 −pn，. . . ，pn =1 −p1，我们有n−1n−11n−1≥p1≥ · · ·≥ pn。（二十二）我+v：mala2255获取更多论文i=1n−12i=1DA1≥ H ≥ Hn−1nn−1n−1i=1我乌斯季-11= 1，我们注意到a被b（a<$b）优化[28，2]。由于函数n−1我n−1n−1由于p2+···+pn=1−p1且g（x）=xlogx是一个余弦vex函数，因此，根据Jensen我我11n−1n−122i=1I=2i=110岁。Duan等人令a =（p，. . . ，p ，pi=1）和b=（1，. . .，1，0），通过Eq.（22）和np =g（x）=10dxilog（xi）是Schur-凸的[30，32]，我们有g（a）≤ g（b）[30，32]，即、nplogp1 1≤（n − 1）log=−log（n − 1）。（二十三）接下来，重写等式中的左项。（21）我们有n nlogpi=p1logpi+logpi（二十四）不等式，我们得到的最小值，然后，由方程。（24）我们有nni=2 当p2=···=pn=1−p1时，p i log p i。plogp≥plogp+（1−p1log1−p1）（n−1）=p1logp1+（1−p1）lo g（1−p1）−（1−p1）lo g（n−1）1≥−1−2 log（n− 1）。（使用p1logp1+（1−p1）log（1−p1）≥−log2且1−p1≤1）注意到Eq。（23）我们有<$np log p ≤ − log（n − 1）。求解不等式我我1−1−2log（n−1）≥−log（n−1），（25）我们得到这个Eq。（21）当n≥5时成立定理1现在通过组合p1><1和p1≥1的情况下的公式而得出。总之，对于多分类，任务，我们证明了当n5，（p）（p）成立，即。，反向操作可以最大化p的熵。互补标号的证明可以通过将上述公式中的p和p分别替换为q和q给出上述证明，和被优化以输出预测p和q具有较大的熵，即，、H[Eu（p）]+H[Eu（q）]≤H[Eu（p）]+H[Eu（q）]。（二十六）因此，可以看出，RDA最大化目标方程。（10）通过将Eu（p）与Eu（q）对齐并将Eu（q）与Eu（p）对齐称为y，从而作为输入-输出互信息目标Eq.（1）可以最大化。通过逆向运算，我们可以在保证类分布中类之间的相对关系得到利用的同时，应用分布对齐，从而使RDA可以在到目前为止，我们构造了无超参数的互易分布对齐（RDA），它在不匹配分布和传统设置下对SSL都是鲁棒的。整个算法在Sec.A补充材料。i=1我+v：mala2255获取更多论文≈−n−10n−1RDA：稳健SSL 114实验装置我们评估RDA的各种标准的SSL图像分类任务的基准在不同的设置，包括不匹配的分布（即，，CxCu）和常规SSL设置（即，CxCu，并且它们都是平衡的）。实验表明，RDA在大多数情况下都优于当前最先进的（SOTA）SSL方法。我们还对我们方法中每个组件的有效性4.1数据集RDA在SSL中广泛使用的四个数据集上进行了评估：CIFAR-10/100[22]，STL- 10 [8]和mini-ImageNet [38]。CIFAR-10/100由10/100类的60，000张图像组成两种方法都被分为50，000幅图像的训练集和10，000幅图像的测试集。STL-10由5，000个标记图像和100，000个未标记图像组成，这些图像是从更广泛的分布中提取的mini-ImageNet是ImageNet[10]的一个子集，由100个类组成，每个类有600个图像。4.2Cx和Cu的设置除了传统的匹配设置（即，，Cx和Cu都是平衡的），我们验证了我们的方法在更现实的不匹配场景中的有效性，如第2节中所讨论的3.1. 鉴于这个问题的复杂性，我们主要用以下三个场景来总结我们的实验方案：训练不平衡的Cx和平衡的Cu。我们感兴趣的是这种简单的设置所产生的不匹配分布的影响。此设置的图形解释如图所示。1（a）.使用不匹配和不平衡的Cx，Cn进行训练，如图所示1（b）.这个具有挑战性的设置可以充分测试RDA的鲁棒性。• 用平衡的Cx和不平衡的Cu训练。对于上述场景的实验，我们从数据集中随机选择样本来构建不平衡Cx和Cn。对于Cx，i−1每个类由N0固定。 Ni 的计算公式为 Ni=N0×γx，其中 n 是类数， i ∈（1，，n）. 为了公平起见，我们保持N0，并搜索一个适当的γx，以保持标记数据的总数与我们设置的一致。有关γx 搜索的详细信息，请参见第2节。B.2补充材料。特别地，为了更有挑战性的设置，以类似于有序Cx的形式构造CU在从数据集中随机选择未标记数据之后，剩余的数据被视为未标记数据。未标记数据的数量n−i每个类别的Mi在mini-ImageNet中，M0= 500。通过这种方式，我们将Cu构造为C x的1（b）. 同样，DARP因此，我们也在此协议下与DARP进行了公平的比较。有关DARP协议的更多详细信息，B.1补充材料。··+v：mala2255获取更多论文12Y. Duan等人4.3基线我们主要将RDA与三种最新的SSL方法进行比较：（1）FixMatch[33]，结合了一致性正则化和熵最小化;(2)FixMatch与分布对齐[3];（3）CoMatch [26]，结合基于图的对比学习和一致性正则化。我曾多次与他（她）交往，并多次与他（她）交往，并多次与他（她）交往。4.4实现细节除非另有说明，否则我们采用Wide ResNet [43]和Resnet-18 [14]作为实验的主干。具体来说， WRN-28-2 用于 CIFAR-10 ， WRN- 28-8 用于CIFAR-100 ， Resnet-18 用于 STL-10/mini-ImageNet 。在 [33] 之后，RandAugment [9]用于强大的增强。为了简单起见，我们使用SGD训练模型，在所有实验中动量为0.9，权重衰减为0.0005。此外，我们使用0.03的学习率和余弦衰减时间表来训练1024个epoch的模型对于超参数，我们对所有实验设置μ=7，B= 64，λa=λcd=λca=特别地，我们报告了五次平均的结果，并计算了标准偏差。5结果和分析5.1常规设置（匹配分布）为了与基线SSL方法进行公平的比较，我们在常规设置中进行实验，即。，Cx和Cw都是平衡的。我们通过改变标记数据的数量，在CIFAR-10、mini-ImageNet和STL-10上测试RDA的准确性选项卡. 1表明，RDA的性能是兼容的（如果不是更好），在匹配类分布的传统SSL方法。这一结果也证实了我们的观点，即在我们的设计中，仅分布对齐就足以进行伪标记。当标签稀缺（有20个标签）时，RDA的表现优于CoMatch 3.60%此外，在具有更多类的数据集上，我们的方法始终实现了比最佳基线更好的准确性，例如。，46.91%（我们的）与43.72%（CoMatch）在1000个标签的mini-ImageNet上。优越的性能得益于RDA，它通过互补类分布的共正则化改进了伪标签，并利用了整个未标记的数据，而低置信度样本在[33，26]中被过滤掉。5.2不匹配的分布不平衡Cx和平衡Cu。我们保持未标记数据的平衡分布，并改变N0来改变Cx的不平衡程度，而标记数据的总数保持不变，在第二节中描述的方式4.2.选项卡. 图2显示了CIFAR-10、CIFAR-100和mini-ImageNet上的结果。RDA的性能远远优于所有基线方法。例如在CIFAR-10上，当标签数为100，N0=80时，RDA的性能比FixMatch高7.43%，+v：mala2255获取更多论文方法CIFAR-1020个标记40个标签51.90±11.7691.35± 3.3880个标签AlphaMatch†FixMatchCoMatchRDAMixMatch：27.84±10.63-100个标签80.79± 1.28-- -mini-ImageNet1000个标签--STL-101000个标签38.02±8.29 -88.43± 7.2292.03±2.0184.97±10.3793.21± 1.5594.13±1.2289.18±1.5494.08± 0.3194.24±0.4291.99±0.7194.55±0.2794.35± 0.2593.14±0.7643.72± 0.5846.91±1.1639.03±0.6665.38±0.42mm79.80±0.38mm82.63±CIFAR-10方法40个标签N0=10100个标签CIFAR-100 mini-ImageNet400标签1000标签1000标签20408040804080FixMatchFixMatch w. DA71.23±1.2547.85±1.9956.78±1.2834.18±0.8622.66±1.5331.06±0.5133.87±0.4023.53±0.7285.72±0.9376.53±3.0393.01±0.7271.57±1.8825.66±0.4640.22±1.0036.20±0.36 28.33±0.41CoMatch 60.27±3.2239.48±2.2052.82±2.0326.91±0.7523.97±0.6228.35±1.2030.24±1.37 21.47±0.86RDA92.57±0.53 81.78±6.44 94.23±0.36 79.00±2.67 30.86±0.78 41.29±0.43 42.73±0.84 36.73±1.01RDA：稳健SSL 13表1. 常规匹配SSL设置中的准确度（%）结果。带有的结果复制自CoMatch[26]，带有†的结果复制自AlphaMatch [12]。其他基线的结果基于我们的重新实施。表2. 在C x不平衡的不匹配情况下的准确度（%）结果（即，alter N 0）和平衡Cu.实验在CIFAR-10、CIFAR-100和mini-ImageNet上进行，改变标签的数量和N 0。基线方法正在使用我们的重新实现。通过结合[3]中的原始分布对齐来实现DA的结果。请注意，CoMatch [26]还集成了DA技术。52.09%。我们看到，不匹配的Cx和CU显着降低模型值得注意的是，传统的分布对齐，假设标记和未标记的数据共享相同的分布，显着降低模型的性能时，分布不匹配，而我们的方法改善了这种情况下，利用分布信息的指导，没有任何先验。如图在图3（a）和3（c）中，RDA抵抗了不平衡Cx的影响，并且计算出比FixMatch更平衡的伪标签分布，证明了RDA在这种不匹配分布场景中的有效性。此外，图图3（b）和3（d）显示RDA的预测不一定比FixMatch更有信心，但RDA减少了假伪标签上的过拟合，即，RDA在可能错误的伪标签上不像FixMatch那样过于自信。由于没有关于标记数据分布的先验要求，RDA可以安全地应用于这种场景，而不会受到分布间隙的压倒性影响，从而表现出鲁棒的性能。不匹配和不平衡的Cx，Cu。更具挑战性设置的结果3.虽然FixMatch和CoMatch无法纠正由无序标记数据引起的对未标记数据的严重偏倚预测，但RDA在此设置中显示出优越的性能，并再次显着优于基线方法。如图3（e）和3（g），虽然不平衡和失配的Cx，Cu导致FixMatch预测的强烈偏差，RDA对这种情况表现出非凡的与FixMatch相反，RDA防止假伪标签的过拟合，如图1A和1B所示3（f）和3（h）。+v：mala2255获取更多论文chF-FixMattchC-FixMaC-RDAF-RDA未标记数据RDAFixMatchFixMatch未标记数据RDA未标记数据RDAFixMatch概率密度CIFAR-10方法40个标签，N0=10100个标签，N0=40γ=2 5 5 10mini-ImageNet1000个标签，N0=4010十四岁。Duan等人250.200500.20200.15150.10100.175400.1500.125300.100200.0750.0550.050100.0250.001234567891000.800.850.900.951.001.05一点十分0.0001234567891000.800.850.900.951.001.05一点十分类别索引(a)（40，20，1）信心(b)（40，20，1）类别索引(c)（100，80，1）信心(d)（100，80，1）0.25250.20200.15150.2530250.20200.15150.10100.10100.0550.0550.0012345678910类别索引(e)（40，10，5）00.800.850.900.951.001.05一点十分信心(f)（40，10，5）0.0012345678910类别索引(g)（100，40，10）00.8 00.8 50.9 00.9 51.0 01.0 5一点十分信心(h)（100，40，10）图三. 在标题中，（x，y，z）表示（labels，N 0，γ）。在（a）、（b）、（c）和（d）中，Cx是不平衡的，而Cn是平衡的。在（e）、（f）、（g）和（h）中，Cx和Cn是不平衡的并且它们不匹配。在（a）、（c）、（e）和（g）中，x轴表示CIFAR-10中的类别指数，y轴表示标记与总数的比率。图中的R DA/FixMatch表示来自RDA/FixMatch的类预测，而未标记数据表示未标记样本的真实标签。在（b）、（d）、（f）和（h）中，x轴表示来自RDA/FixMatch的预测的置信度，y轴表示通过核密度估计（KDE）估计的置信度的概率密度。C-X和F-X分别表示X表3. C x、C u不匹配和不平衡的准确度（%）结果（即，同时改变N 0和γ）。基线方法基于我们的重新实现。我们忽略了结合DA的基线的结果，因为它们的性能很差。FixMatchRDA74.97±5.8088.58±4.0564.62±6.1379.90±2.8058.72±3.6179.33±1.3757.49±4.5670.93±2.9121.40±0.5325.99±0.19平衡Cx和不平衡Cu。如Tab中所示。4，RDA显示了对这种情况的兼容性，并且还优于结合分布对齐的基线。由平衡Cx和im表4. CIFAR的准确性（%）-10具有平衡的Cx和不平衡的Cu（即，，alterγ）。平衡的Cu也导致性能不佳，与原始分布对齐的方法。其他不匹配的设置。我们还显示了在DARP协议中RDA的结果在所有五次运行中平均。如Tab中所示。5，RDA始终优于当前的类不平衡SSL方法DARP [20]，并在所有Cx和Cu不匹配的设置中显示出最大的增益。更多关于不匹配分布的广义设置的讨论可以在第二节中找到补充材料CRDAFixMatch未标记数据C-RDAF-RDAC-FixchF-FixMat匹配tchchC-FixMaF-FixMatC-RDAF-RDAC-RDAF-RDAC-FixMatchF-FixMatch方法FixMatch w. DACoMatch40个标签，γ=20041.37±1.2238.85±2.19RDA46.50±1.07比例（%）比例（%）概率密度概率密度比例（%）比例（%）概率密度+v：mala2255获取更多论文CIFAR-10（γl=100）方法STL-10（γl=γu）γu=150150 100（反向）γl = 1020DARP 85.40±0.55 77.30±0.1772.90±0.24FixMatch68.90±1.95 73.90±0.2569.60±0.6065.50±0.0574.90±0.5172.90±0.09 63.40±0.2177.80±0.33 69.90±0.40RDA：稳健SSL 15表5.DARP协议下的准确度（%）（见第补充材料B.1中的更多细节和基线）。采用WRN-28-2作为所有数据集的主干RDA93.35±0.2479.77±0.0674.48±0.2479.25±0.5287.21±0.44 83.21 ±0.52表6.CIFAR-10消融研究的准确度（%），采用两种替代对齐策略。“/”表示常规设置，γ = 1表示平衡C u。方法Eu（p）<$Eu（q）91.88±1.4673.54±3.4474.83±2.9994.14±0.5254.88±11.7962.96±3.43Eu（q）<$Eu（p）93.35±0.1258.90±3.5057.38±3.639 4.60±0.0854.26±4.3455.39±14.1RDA94.13

下载后可阅读完整内容，剩余1页未读，立即下载