DC-SSL：解决半监督学习中的类分布不匹配问题

89 浏览量更新于2023-10-25 收藏 782KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9757DC-SSL：解决半监督学习中的类分布不匹配赵震1周露萍1段悦2王磊3齐磊4史英焕2张1悉尼大学2南京大学3卧龙岗大学4东南大学摘要基于一致性的半监督学习（SSL）最近取得了很好的性能。然而，成功在很大程度上取决于标记和未标记数据共享相同类分布的假设，0.350.300.250.200.150.100.050.000123456789类别索引0.350.300.250.200.150.100.050.000123456789类别索引这在实际中很难实现标记集和未标记集之间的分布为了弥补这一缺陷，我们提出了一个新的SSL学习框架，命名为分布式一致性SSL（DC-SSL），它纠正了伪标签从分布的角度来看。其基本思想是直接估计参考类分布（RCD），该参考类分布被视为地面真值类(a) 匹配分布989694929088868482FixMatchFixMatch+DACoMatch我们的（TF）我们的（结核病）(c)（a）的测试准确度(b) 不匹配分布6462605856545250FixMatchFixMatch+DACoMatch我们的（TF）我们的（结核病）(d)（b）的测试准确度分布的未标记数据，然后通过鼓励未标记数据的预测类分布（PCD）逐渐接近RCD来改进为此，本文重新访问指数移动平均（EMA）模型，并利用它来估计RCD在迭代改进的方式，这是实现与动量更新计划在整个训练过程中。在此基础上，提出了两种策略RCD纠正伪标签预测，分别。它们对应于一个有效的免训练方案和一个基于训练的替代方案，可以生成更准确和可靠的预测。DC-SSL在多个SSL基准测试中进行了评估，并在匹配和不匹配的分布情况下，与竞争性方法相比，表现出显着的性能1. 介绍最近基于一致性的半监督学习（SSL）方法已经取得了快速进展，并显示出与监督学习竞争的性能[21，22]。这些方法通常利用在标记样本上训练的模型来在未标记样本上生成伪标记*通讯作者（luping. sydney.edu.au）。作者感谢澳大利亚研究委员会（ ARC DP 200103223 ）、国家重点研发计划（ 2019YFC0118300）和国家自然科学基金重大项目（62192783）对本工作的支持。图1. (a)和（b）分别示出了在匹配和失配分布设置中CIFAR10上的类分布。(c) 以及（d）显示了最近的SOTA SSL方法以及我们提出的具有无训练（TF）和基于训练（TB）策略的DC-SSL的相应测试性能然后针对它们相应的扰动变量强制预测一致性。这种方法中的一个隐含假设是，标记和未标记的数据共享相同的类分布。然而，这种强烈的反对在实际中是站不住脚的。标记样本的稀缺性或采样误差不可避免地会导致标记数据和未标记数据之间的不匹配不幸的是，这可能会使大多数高级SSL方法无效。为了说明这一问题，本文进行了匹配和不匹配的差异情景下的性能比较。如图1c所示，两种最先进的（SOTA）SSL方法，FixMatch [26]和Co-Match [18]，当标记和未标记的类分布匹配时，仅用40个标记样本就可以在CIFAR-10上获得有希望的结果，例如，CoMatch的测试然而，当存在如图1b所示的分布不匹配时，FixMatch上的测试准确度可能会急剧下降约30%，CoMatch上的测试准确度可能会严重下降40%以上。这是因为未标记集合上的伪标签严重偏差，未标记已标记未标记已标记匹配95.3193.5293.8993.2186.1963.95错配62.4457.5454.0852.73分布测试准确度（%）分布测试准确度（%）9758在不匹配的分布设置中不可靠，导致显著的性能下降。受分布对齐（DA）[4]的启发，我们的目标是从分布的角度改进有偏的伪标签。基本逻辑是通过鼓励未标记数据的预测类分布（PCD）在整个训练中接近底层的真实类分布（GCD）来修改伪标签。然而，已有的基于DA的研究[4，11，18，28]普遍假设标记数据和未标记数据属于同一类分布，因此将提供的标记类分布（LCD）作为未标记集合上的GCD来纠正伪标记。如图1c所示，内置于FixMatch中，尽管DA显著提高了匹配分布设置（即，LCD= GCD），0.350.300.250.200.150.100.050.000.350.300.250.200.150.100.050.00GCDRCD0123456789类别索引(a)50个纪元GCDRCD0123456789类别索引(c)200个纪元0.350.300.250.200.150.100.050.000.350.300.250.200.150.100.050.00GCDRCD0123456789类别索引(b)100个纪元GCDRCD0123456789类别索引(d)400个纪元它在不匹配的离散情形下引起严重的负面影响（即，LCD GCD），精度急剧下降，如图1d所示。一个关键的补救和挑战是采用一个准确的分布来指导PCD对未标记的数据，而未标记的GCD通常是未知的，已知的LCD是有偏见的和不可靠的。为了解决上述问题，我们提出了一种简单而有效的方法，命名为分布一致性SSL（DC-SSL），它可以有效地纠正伪标签从分布的角度来看。DC-SSL的设计基于两个主要组件。首先，DC-SSL不使用LCD，而是直接从未标记的数据中估计参考类分布（RCD），该RCD被视为未知GCD的替代。为此，我们重新访问SSL中的指数移动平均（EMA）模型，并仔细研究i）为什么EMA模型仅用于测试而不是最近SOTA SSL方法中的训练过程[1，13，14，18，26]，以及ii）EMA模型如何有利于未标记样本的分布估计在此研究的基础上，我们设计了我们的框架，涉及EMA估计一个强大的RCD的动量更新计划在历史标签预测。如图2所示，随着训练进程的进展，估计的RCD逐渐接近GCD。其次，在估计的分布之上，分别提出了两种直接和间接更新策略来修改伪标签，对应于图3中所示的免训练和基于训练的策略。无训练（TF）策略通过RCD与PCD的比例缩放伪标签来直接修改伪标签，而基于训练（TB）策略最小化PCD与RCD之间的这两种策略都与现有的基于一致性的SSL方法正交，并且可以很容易地应用，只需对实现进行最小的更改。尽管它的简单性，我们的方法可以一致地改进SOTA SSL方法，特别是当标记和未标记的数据遵循不同的分布。对于前-图2.（a）-（d）比较DC-SSL（TB）和GCD中的RCD，不同的训练阶段与图中不匹配的设置。1b.例如，在传统的匹配分布设置中，DC- SSL（TF）可以在CIFAR 10（40个标签）上实现95.31%的更高平均准确度，在不匹配的设置中，我们的方法始终优于其他SSL方法，例如，DC-SSL（TB）在CIFAR 10上，在图1b所示的失配设置中可以获得63.95%的平均准确度，而Fixmatch为57.54%，CoMatch为52.73%。我们的主要贡献总结如下：• 我们重新审视SSL中的EMA模型，并观察到它有助于估计未标记的类分布，尽管它可能不会直接产生更准确的高置信度伪标签• 我们提出了一种新的方法，DC-SSL，从分布的角度来提高SSL的性能。设计了两种有效的伪标记改进策略，通过鼓励未标记数据的PCD逐步逼近迭代改进的RCD。• 我们的方法可以在匹配和不匹配的分布场景下，在标准SSL图像分类基准测试中获得不同数量的标记数据的新SOTA性能2. 相关工作半监督学习。SSL的关键是利用未标记的数据和少量标记的数据进行协作来训练模型近年来的研究主要集中在对未标记数据使用伪标记，并取得了很大的成功。具体来说，基于自我训练的方法[6，17，19，23，30]使用模型因此，最近的基于一致性的方法[16，18，20，26，27，29]可以分布分布分布分布9759b=1b=1µBEMA分享权重无标号图像EMA分享权重无标号图像EMA分享权重无标号图像(a) 基于一致性SSL(b) 免培训战略(c) 基于培训的战略图3.（a）显示FixMatch的图表，FixMatch是一种广泛采用的基于一致性的SSL方法。（b）和（c）是我们提出的两种策略，以在FixMatch之上实施分发一致性sepción，uw和us是一个弱增广和强增广变体B b未标记图像ub。f表示网络模型，g是f的EMA。p是网络q表示通过方案100从历史预测导出的类别分布。不引入新的网络组件，我们的模型估计未标记数据上的类分布，并通过（b）中表示的无训练更新或（c）中表示的基于训练的一致性损失来增强分布一致性。虚线表示Multicast在标记和未标记的数据上训练模型，并实现与监督学习竞争的性能。[3]中的工作最初提出了一致性正则化的思想，该思想将预测一致性强加于来自同一实例的两个增强视图。早期的扩展，如PI模型[16]和Mean-教师[27]，旨在通过保存几个检查点或维护EMA教师模型来提高伪标签的质量。[5]中的工作提出了一个混合框架MixMatch，并涉及像mixup [31]这样的通用正则化技术。在此之后，[29]证明了一个关键的结论，即使用强大的数据增强可以显着提高SSL性能。后来的SSL研究，如ReMixMatch [4]和noisy-student [30]利用了这一发现，并将锐化和熵最小化[12]等技术集成到一个统一的框架中，从而获得更好的性能。此外，FixMatch [26]继承了以前的发现，并大大简化了混合框架，但实现了最先进的性能。最近的研究倾向于将其他先进的深度学习技术集成到SSL中。工作[25]采用了不确定性评估，以进一步选择更准确的伪标签。工作[1]使用迁移学习来增强SSL性能。最复杂的是，这项工作[18]统一了一致性正则化，熵最小化，对比学习，分布对齐和基于图的SSL的思想，并提出了Co-Match来联合训练未标记数据上的两个对比表示，并在大型内存库的帮助下平滑伪标签因此，我们的方法只需要对基本的基于一致性的SSL方法进行最小的更改，但在相同的设置（即，匹配分布）。最近的工作[28]研究了不平衡的SSL，其中标记和未标记的数据都以相同的方式长尾分布。然而，这些作品都没有研究的情况下，标记和未标记的数据遵循两个不同的类分布，这种不匹配的设置将显着降低SSL的性能。分布对齐。分布对齐[7]（DA），并已成为最新最先进的半监督学习（SSL）方法中的重要组成部分。ReMixMatch [4]是第一个在SSL中引入分布对齐思想的算法，它鼓励对未标记数据的预测分布接近所提供的标记数据的分布或一些预先已知的分布。这种技术在最新的研究中被广泛用于平衡SSL [11，18，26]或不平衡SSL设置[28]。然而，DA的成功在很大程度上依赖于一个强有力的假设，即未标记数据的潜在类分布与所提供的标记数据的边缘类分布相同。不幸的是，这种假设在实践中并不总是因此，我们在我们的方法中摆脱了这一假设，并提出了直接从未标记数据的分布估计3. 方法在一个N类分类任务中，给定标记数据Dx和未标记数据Du，用嵌入函数f（·）训练一个模型.在小批量中，假设我们有B个标记样本，X={（xb，yb）|（ xb ， yb ） ∈Dx}B ，和 μB 个未标记样本，U={ub|ub∈Du}，其中μ9760UXXULLLBB·QQ − Q QQXBBBΣLb b bbw，f w，f s，f表示与的大小比。在大多数SSL研究中，总损失可以公式化为：L=LX（X）+λuLU（U），（1）其中x是监督损失，u是无监督损失小批量内的损失，分别在和上测量。λu是一个加权参数，用于平衡标记和未标记数据之间的相对重要性。通常，Lx可以通过以下公式获得：1BL=H（y，f（x）），（2）b=1我们的主要思想是鼓励未标记数据上的预测类分布（PCD）接近地面真实类分布（GCD）。然而，缺乏标签信息使得GCD未知且难以获得。几乎所有现有的工作，无论是在平衡SSL [18]还是不平衡SSL任务[25]中，都采用所提供的标记数据的边缘分布作为未标记数据的GCD，这将不可避免地产生严重的有偏伪标记，并在不匹配的分布设置中大大降低SSL性能。显然，在我们的工作中，我们纯粹地工作，而不是依赖于标记数据，在未标记的数据上提出一个引用的类分布其中H表示交叉熵损失。而u的形式取决于特定的SSL方法。在本节中，我们首先回顾如何在基于主干一致性的SSL学习器FixMatch中制定u之后，我们介绍了我们的方法的骨干之上的关键组件：RCD估计和两个更新策略。3.1. Backbone SSL learner最近的基于一致性的SSL方法通常使用弱增强的未标记图像来生成伪标签，并针对其对应的强增强变体实施一致性。如图3a所示，通过弱aug和强aug获得uw和us（RCD）作为GCD的替代品具体来说，我们仔细在训练期间使用EMA模型来估计未标记数据的RCD。如图2所示，迭代改进的RCD可以在整个训练过程中逐渐接近GCD。在本节中，我们首先回顾SSL中的EMA模型，然后描述动量更新方案，以根据模型的预测来估计分布3.2.1重新审视EMA模型在文献中，典型衰减为0.999的EMA模型被广泛用于SSL方法中以获得性能b b增强。为了研究其有效性，基于修复-在未标记的实例ub上的分段操作。弱增广操作由标准的翻转移位增广策略组成，而强增广操作通常指RandAugment [10]或CTAugment [4]。随后，模型f分别输出针对u w和us的概率预测pw，f和ps，f。作为最简单但有效的基于一致性的SSL方法，FixMatch [26]采用固定的高置信度阈值来减轻伪标签的确认偏差[2]。给定预定义的高置信度阈值τ，FixMatch中的无监督损失可以计算为，µB1L=1（max（p）≥τ）H（p≤，p），（3）匹配并使用CIFAR-10与40个标记样本，我们比较了不同训练时期的训练模型f和EMA模型g的测试精度。如图4a所示，毫不奇怪，EMA模型g可以一致地优于训练模型f。在此基础上，我们通过回答以下两个问题，对EMA模型进行了详细的回顾。问题1：既然EMA模型可以达到更高的测试精度，直接利用EMA模型的预测作为训练的伪标签是否有益？令人惊讶的是，答案是否定的。在最近的SSL研究[4，13，18，26]中，EMA模型仅用于测试uμBb b bb=1而不是提出伪标签。然而，潜在的原因在文献中没有明确解释。因此其中p=w，f=arg max（pw，f）表示硬伪我们进行另一个实验，直接使用EMA标签（即，对于未标记的样本，操作1（）保留其最大概率高于阈值τ的伪标记。此外，指数移动平均模型g与模型f一起被保持。然而，在FixMatch中，g仅用于测试过程，与训练无关过程，就像许多最近的SSL方法一样。3.2. 分布估计适当地估计类分布（即，未标记数据上的每个类的频率）是我们设计中最重要的问题受分布对齐的启发[4]，模型然而，这种方法大大降低了SSL的性能，达到了45的测试精度。31%，82。原始FixMatch的50%然后，我们在整个训练过程中探索高置信度伪标签的准确性的原因，表示为。如图4b所示，我们在整个相同的训练过程中测量来自f和g的高置信度伪标签的准确性差异i.e.FG. 如所见，f高于g在培训期间的70%因此，直接使用EMA模型的预测会导致高置信度伪标签的质量较差，这解释了为什么最近的SSL9761A − AQ −Q一A − AA A − A--ΣμBB807060504030200255075100125150175 200时代(a) 测试准确度（b）高置信度伪标签的准确度（c）所有生成的伪标签图4.（a）训练模型f与其对应的EMA模型g之间的测试精度比较。（b）每次迭代时f和g之间的小批量中的高置信度伪标签的精度差（fg）。从统计学上讲，g在大约70%的迭代中获得比f更低的精度。 (c) Accurate difference ( fg) of all pseudo-labelsbetween f and g at each iteration. 模型g可以在96%的迭代中生成更准确的伪标签。方法在训练过程中排除EMA模型。问题2：我们的方法如何使用EMA模型来估计未标记数据的更好的类分布通过进一步分析上述实验结果，我们发现，与f相比，EMA模型g虽然在高置信度预测上获得了较低的准确率，但它可以在所有未标记数据（具有高置信度和低置信度预测）上产生更高的准确率，即，从而获得更大量的准确预测。假设是小批量中所有未标记数据的伪标签精度，而不仅仅是高置信度数据。我们在图4c中研究了整个训练过程中的fg。我们观察到，在大多数迭代中，g可以达到一个更高的值（参见fg的负值），即更准确的预测。这确实是我们更好地不同小批量之间的分布可以显著地变化，改进估计的自然方式是涉及多个小批量。正如ReMix-Match [4]中所提出的，估计类分布的一种直接方法是对历史预测进行平均。然而，这种方法需要维护一个内存库来存储来自最近K个小批量的模型更重要的是，它忽略了历史预测之间的时间差异，即，在整个训练中，越近的预测越准确。因此，我们采用动量更新策略（在图3b和图3c中用k表示）来估计类分布，只需要在当前小批量上进行计算。ESTA本质上是一个加权平均方案，并将分配更高的权重对最近的预测。根据预测结果w，f µB分布估计，因为类分布应该在整个未标记数据上估计，而不仅仅是高置信度数据。因此，我们可以依靠EMA模型pb b=1，其对应的类分布qf可以估计为µBqf：=α qf+（1−α）pw，f，（4）不同设置和数据集的相同观测。那么，我们是否可以直接使用EMA模型的所有预测作为未标记数据的伪标签来训练模型？不，它也会大大降低测试精度，b=1其中α是动量系数。通过这种方式，我们不仅可以降低内存成本，还可以优先考虑最近的预测。同样，考虑到EMA模型预测{pw，f}µB，我们可以得到另一个分布SSL中众所周知的问题，即，确认偏差[2]。结合熵最小化[12]，在[26][27][28][29][B估计，qg，b=1µB置信度预测可以有效地减轻偏差。在qg：= α qg+（1 − α）<$pw，g。（五）在下一节中，我们提供了我们的解决方案，估计类分布的预测EMA模型。总之，我们观察到EMA模型可以μB3.3. 更新策略Bb=1在所有未标记数据上实现更高的伪标记准确度，但在高置信度数据上实现较低的准确度。3.2.2根据预测下一个问题是我们如何从EMA对未标记数据的预测中推导出类分布。自从上课在每个小批次中，我们从未标记样本中产生两个分布估计：1）预测的类分布（PCD），qf，由训练的模型经由等式（1）估计。（4），和2）参考类分布（RCD），qg，由EMA模型通过方程（4）推导出。（五）、基于qf和qg，我们设计了两种可供选择的训练策略来提高直接或间接的伪标签。检测准确度（%）未标记数据的信息。在附录中，我们还显示Tr艾因模型EMA ModEl9762BΣuΣuLL−··ΣΣ||−BBuTBμBBBBuμBBBBtfw，f w，fs，f3.3.1免培训战略受ReMixMatch [4]的启发，我们设计了一种免训练策略，从发现的角度提高伪标签的质量。我们用qg/qf来衡量RCD和PCD之间的分布不相似性。然后，可以通过两个步骤执行图3b中由k表示的免训练策略：1）通过分布相异度比来修改伪标签，以及2）以有效的概率形式对修改后的伪标签进行归一化。因此，最终的伪标签p<$w，f可以计算为：4. 实验本节介绍了我们的实验设置和实现细节，然后对我们的方法进行了广泛的评估，包括失配和匹配的类分布。4.1. 实验装置数据集和主干。我们在四个SSL图像分类基准上评估了我们的方法，CIFAR-10 [15]，CIFAR-100 [15]，Mini-Imagenet [24]和STL-10 [9]。的这些CIFAR-10和CIFAR-100包含50，000 32 x32w，fqgw，f训练图像和10000个32x32测试图像，10p<$b=归一化（qfpb）、（6）其中Normalize（xi）= xi/xi。那么这个策略中的无监督损失Ltf是，µB1L=1（max（p）≥τ）H（p<$，p）.（七）分别为100个班级。STL-10是由来自10个类别的5，000张大小为96x96的标记图像，以及10，000张未标记图像。Mini-Imagenet由50000张训练图像和10000张测试图像组成，平均分布在100个类中。为了公平比较[18，26]，我们使用Wide ResNet-28-2作为 CIFAR-10，Wide ResNet-28-2作为b=1最后，这个策略的总损失是x+λutf。该战略没有引入额外的培训工作。3.3.2基于培训的战略如图3c所示，我们还提出了一个基于培训的策略，以鼓励PCD逐渐接近RCD。具体地，给定RCD和PCD，我们可以最小化不一致性损失Ld：10，分别。我们使用Fixmatch作为我们的骨干（基本的基于一致性的SSL方法），并将我们的方法与多个SSL基线进行比较。不匹配的设置。由于原始数据集都是类平衡的，因此我们对训练图像进行采样以研究两种不匹配的情况：1）平衡的标记样品与不平衡的未标记样品，以及2 ）平衡的未标记样品与不平衡的标记样品。受CIFAR-LT [8]的启发，我们利用指数函数来模拟不平衡分布。对于不平衡的标记Ld=H（pg，pf），（8）样品，我们使用我Γi=Γ0γxN−1，i∈[0，N−1]完成网站其中我们使用交叉熵损失H（，）来度量两个分布之间此外，我们还保留了实例级的一致性损失，µBLtb=11（max（pw，f）≥τ）H（pw，f，ps，f），（9）第i个类的标记数我们用不同的Γ0来研究不同尺度的不平衡，而γx则由约束条件来计算iΓi=Dx。另一方面，我们参考CIFAR-LT [8]来生成不平衡的未标记我样本，其中Mi=MmaxγuN−1，其中Mmax设置为b=1其中，我们使用软伪标签pw，f进行计算，与等式中使用的硬标签pw，f相比。（三）、总而言之，总损失是，L=Lx+λuLu+λdLd，（10）其中λu和λd分别是实例级和分布级一致性损失的两个备注：我们提出的DC-SSL在概念上与期望最大化（EM）过程类似。在E步骤中，DC-SSL通过将f和g作为具有固定参数的可用模型来产生分布估计pg和pf在M步骤中，DC-SSL通过最小化等式中的总损耗来更新模型f和g。（1）Eq.（10）在E步骤中估计的两个分布之上。该算法可以交替地改进分布估计和训练过的模型通过调整不平衡的不同尺度的γu值，我们控制了标记样本和未标记样本之间的分布失配程度，即，γu越大，分布失配的严重程度越高。参数我们提出的方法引入了两个新的超参数：两种策略的动量系数α和基于训练（TS）策略的损失权重λd 。默认情况下，我们简单地设置 α=0 。 999 ，且λd=1。0的情况。关于这些参数的消融研究见下一节。其他训练超参数的默认值为B=64，μ=7，λu=1，τ=0。9 .第九条。我们训练我们的方法512个epoch，并利用动量为0.9和权重衰减为5e-4的SGD优化器来训练模型。使用具有余弦衰减的学习率调度器来从初始值0.03降低学习率。此外，在应用我们提出的分布控制之前，我们对模型进行了30个时期的训练，8个用于CIFAR-100，ResNet-18用于Mini-Imagenet和STL-i的图像编号日类在原始数据集中。9763||方法CIFAR10，|Dx| = 40CIFAR 10，|Dx| = 250CIFAR 100，|Dx| =2500MiniImageNet，|Dx| = 1000γu=50100 200γu= 100 200γu=100200FixMatch57.5454.82 50.6776.5473.5170.8952.4650.2425.5221.65FixMatch+DA54.0846.71 41.3770.7866.2561.6948.9646.5922.9219.82CoMatch52.7346.20 38.8569.3664.4760.0547.0343.8920.3719.03我们的（TF）62.4456.47 52.3279.2576.1072.0156.4352.0127.4423.53我们的（结核病）63.9557.16 53.2781.8277.2673.3459.0252.7029.1224.41表1.具有不匹配类分布的平均检验准确度（%）：平衡的标记数据和不平衡的未标记数据。Dx是标记样本的数量。γ u越高，不平衡越大，分布失配越严重。一致性4.2. 不匹配分布不平衡的未标记样本。在选项卡中。1，我们在不匹配的分布设置中测试性能，其中我们有平衡的标记数据，但不平衡的未标记数据。可以清楚地看到，随着γu变大，即不匹配问题更加严重，在所有SSL基准测试中，测试准确性在不同数量的标记样本上显著降低SSL中的不匹配分布确实是一个非常具有挑战性的问题与其他SOTA SSL方法相比在我们所有的测试案例中，我们的TB策略可以将FixMatch的平均准确度提高约3%，将Co-Match的准确度平均提高约11%。有趣的是，我们发现CoMatch在不同基线的所有测试中获得了最差的结果这是因为CoMatch广泛地利用标记样本上携带的标签信息来修改未标记样本的伪标签。除了标准的DA技术之外，它还维护了一个大的存储库，通过聚合嵌入空间中附近标记样本的信息来平滑伪标签。然而，严重依赖于标记的样本只能在标记和未标记的分布相同时才有帮助。在非匹配分布环境下，紧密依赖标签信息会导致严重的负面影响，从测试结果可以看出。虽然我们的方法从分布的角度来看与DA有相似的想法来改进伪标签，但我们的方法显著优于其他基于DA的基线（即，Fixmqtch+DA和Comatch），这是由于我们提出的直接在未标记样本上估计的更好RCD。不平衡的标记样本。我们还调查了一个其他不匹配的设置选项卡。3：不平衡的标记数据，但平衡的未标记数据。可以看出，我们的方法可以有效地提高性能，纠正伪标签从分布的角度来看。综合结果进一步证明了我们方法的优越性，TB策略在MiniImageNet上使用不平衡的1000个标记样本可以获得40.13%的平均准确率方法STL-10|Dx|= 1000修复匹配65.38FixMatch+DA 66.53CoMatch 79.80我们的（TF）84.61我们的（TB）82.47表2.STL-10的平均测试准确度（%）在5个不同折叠上平均所有相关的工作都在CoMatch中报道[18]。而FixMatch和CoMatch分别为36.20%和30.24%。观察Tabs的结果。从图1和图3中我们还可以发现，在不同程度的差异失配下，我们的TB策略大多可以获得比TF策略更好的绩效。这源于它们对伪标签的不同影响水平。TF策略可以通过用RCD与PCD的比率因此，TB策略不直接调整伪标签，而是通过强制伪标签的聚集分布以逐渐接近RCD来间接地改进伪标签。也就是说，结核病战略可以以更温和的方式发挥作用。在不匹配的情况下，如图所示。2、我们估计的RCD在训练过程的早期阶段可能不是非常准确，但可以逐渐改进以接近整个训练过程中的地面实况分布。因此，我们的TB策略更适合于不匹配的情况，并且可以随着迭代改进的RCD逐渐提高SSL性能。STL 10.该数据集包含未标记集中的分布外图像，其中标记集和未标记集之间的分布失配固有地存在。在[18]之后，我们对五个预定义的折叠和Tab进行评估2表明，DC-SSL与两种策略可以始终优于SOTA方法，与FixMatch相比平均精度提高了15%以上，与CoMatch相比提高了3%以上。9764||N方法CIFAR10，|Dx| = 250 CIFAR 100，|Dx| = 2500 MiniImageNet，|Dx| =1000Γ0= 100200Γ0= 100200Γ0= 4080FixMatch69.7646.5361.3141.3836.2028.33FixMatch+DA61.8027.6150.9431.8233.8723.53CoMatch57.8726.7748.0230.0830.2421.47我们的（TF）72.2152.5964.6341.2339.0731.75我们的（结核病）73.0448.4965.2442.0940.1332.82表3.具有不匹配类分布的平均检验准确度（%）：不平衡的标记数据和平衡的未标记数据。Dx是标记样本的数量。Γ 0越高，不平衡越大，因此分布失配越严重。4.3. 匹配分布CIFAR10 CIFAR100 MiniImageNet传统SSL设置中的准确分布信息，直接修改TB策略中的伪标签可能比我们的TF策略更有效，方法=40 250 400 2500 1000以更温和的方式直接改进伪标签|Dx|MixMatch [5] 52.46 88.95 33.39 60.06 33.744.4. 超参数的影响λd1.0 3.0 5.0 7.0表4. 在具有平衡和匹配分布的传统SSL设置中的平均测试准确度（%），即，Γi=|Dx|且γu= 1。结果与基线是由我们自己的测试提供。表6. Ld的失重效应我们的结核病战略。0.99 0.99 0.999准确度（%）93.14 94.82 95.38 95.07表5.我们的TF策略中EMA比率的影响在选项卡中。4我们还比较了我们的策略与最近的SOTA SSL方法在传统的SSL设置。在AlphaMatch和CoMatch之后，我们还利用已知的GCD作为RCD来测试我们提出的两个策略。令人惊讶的是，在没有引入更先进的技术，如阿尔法发散或对比学习技术的情况下，我们的两种策略可以始终如一地实现比这些SOTA方法更高的测试准确率，特别是当标记数据非常稀缺时。在只有40个标签的CIFAR10上，我们的TB策略可以获得95.31%的高平均准确率，这显著优于FixMatch的从表中还可以看出，AlphaMatch和CoMatch（两者都集成了DA技术）也可以实现比FixMatch显著的性能提升比较表中的结果。1，我们进一步验证了我们的主张，一个准确的分布unlabeled样本是关键。毫不奇怪，由于我们有我们首先研究了在我们提出的策略中引入的两个超参数的影响，使用CIFAR10在传统的SSL设置中具有动量系数α影响如何从历史预测中估计类分布。较大的α值可以涉及更多的历史预测，并相对削弱当前预测的重要性，因此导致更稳定的结果，如表1所示。五、同时，可以从表1中看出损失重量λd6：不同的λd值可能会轻微影响匹配情况下的精度，而较小的λd可能更有利于失配情况（遵循与图1b中相同的失配分布设置）。这仅仅是因为较低的权重可以更好地拟合迭代改进的RCD并且平滑地改进伪标签。默认情况下，我们在所有测试中设置λd=15. 结论在本文中，我们仔细研究了如何提高SSL，特别是当有一个类分布不匹配之间的标记和未标记的集合。我们提出的DC-SSL方法可以从分布式的角度改进伪标签，并在匹配和不匹配的类分布场景下实现了许多SSL基准测试的最新性能。由于其简单性，DC-SSL可以很容易地应用于基本的基于一致性的方法，只需进行微小的更改。[26]第二十六话94.9351.1571.7139.03米[第11话] 九十一点三十五95.0361.2674.98-[18]第18话95.14磅60.71磅74.36米43.72磅我们的（TF）95.3195.8762.4775.1045.19我们的（结核病）93.8995.2461.3374.6244.23结核病（配对）94.6794.81结核病（不匹配）59.0361.559765引用[1] 阿不力克木·阿不都维利，李行健，石汉飞，徐成忠，窦德敬.半监督迁移学习的自适应一致性正则化。在CVPR中，第6923-6932页，2021年。二、三[2] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差 2020 年神经网络国际联合会议。IEEE，2020年。四、五[3] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。NIPS，27：3365-3373，2014。3[4] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。Remix-match：具有分布对齐和增强锚定的半监督学习2020年第八届ICLR二三四五六[5] 大卫·贝特洛，尼古拉斯·卡利尼，伊恩·古德费罗，尼科-拉斯·帕佩诺，阿维塔尔·奥利弗和科林·A·拉菲尔。Mixmatch：半监督学习的整体方法。在NIPS，2019。三、八[6] Avrim Blum和Tom Mitchell将标记和未标记的数据与联合训练相结合。在计算学习理论第十一届年会的会议记录中，第92-100页2[7] 约翰S Bridle，安东尼JR标题，和大卫JC麦凯。无监督分类器，互信息和“幻影目标”。NIPS，1992年。3[8] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.使用标签分布感知的边际损失学习不平衡数据集。 arXiv 预印本 arXiv ：1906.07413，2019。6[9] A. Coates，H. Lee，A. Y. Ng、黑冠草A. Coates，H. Lee和 A. Y. Ng. 无监督特征学习中单层网络的分析。InAistats，2011. 6[10] Ekin D. Cubuk，Barret Zoph，Jonathon Shlens和Quoc V.乐随机扩增：实用的自动化数据扩充，减少搜索空间。在CVPRW，2020年。4[11] 宫承岳，王帝林，刘强。 Alphamatch ：用 Alpha-Divergence提高半监督学习的一致性。在CVPR中，第13683-13692页，2021年。二、三、八[12] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。CAP，第281-296页，2005年。三、五[13] 胡子健，杨振宇，胡雪峰，拉姆·涅瓦蒂娅.简单：半监督分类的相似伪标签利用 . arXiv 预印本 arXiv ：2103.16725，2021。二、四[14] Bengjip Kim、Jinho Choo、Yeong-Dae Kwon、SeonghoJoe、Seungjai Min和Youngjune Gwon。Selfmatch：结合对比自我监督和一致性进行半监督学习。arXiv预印本arXiv：2101.06480，2021。2[15] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。Handbook of Systemic Autoimmune Diseases，1（4），2009. 6[16] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。二、三[17] Dong-Hyun Lee等人伪标签：简单有效的深度神经网络半监督学习方法。在表征学习挑战研讨会上，ICML，2013年。2[18] Junnan Li，Caiming Xiong，and Steven Hoi.Comatch：半监督学习与对比图正则化。ICCV，2021。一二三四六七八[19] 杰弗里·J·麦克拉克伦判别分析中构造渐近最优分配规则的迭代重分类过程 Journal of the American S

下载后可阅读完整内容，剩余1页未读，立即下载