从不平衡的伪标签中去偏学习的方法及在ImageNet-1K上的准确率提升

56 浏览量更新于2023-10-25 收藏 17.74MB PDF 举报

半监督学习

数据偏差

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

024680.0000.0250.0500.0750.1000.1250.1500.175020040060080010000500100015002000250030003500146470从自然不平衡的伪标签中去偏学习0Xudong Wang 1 Zhirong Wu 2 Long Lian 1 Stella X. Yu 101 UC Berkeley / ICSI 2 Microsoft Research0摘要0伪标签是在有标签源数据上训练的分类器对无标签目标数据上进行的自信预测。它们广泛用于将模型适应无标签数据，例如在半监督学习环境中。我们的关键观点是，由于内在的数据相似性，伪标签自然上是不平衡的，即使模型在平衡的源数据上训练并在平衡的目标数据上进行评估。如果我们解决这个以前未知的由伪标签产生的不平衡分类问题，而不是以前的真实训练标签，我们可以消除由伪标签创建的对错误多数的模型偏见。我们提出了一种基于反事实推理和自适应边界的新颖有效的去偏学习方法：前者消除了分类器的响应偏差，而后者根据伪标签的不平衡调整每个类别的边界。通过广泛的实验验证，我们的简单去偏学习方法在ImageNet-1K上相对于最先进的方法取得了显著的准确率提升：在0.2％的注释下，半监督学习提高了26％，零样本学习提高了9％。我们的代码可在以下网址找到：https://github.com/frank- xwang/debiased-pseudo-labeling。01. 引言0现实世界的观察结果以及非策划的数据集自然地呈长尾分布[18,56]。不平衡分类[10, 24,59]解决这种数据偏差问题，以防止模型被头部类别实例所主导。开发能够抵消偏差的视觉识别系统也具有重要的社会影响[34]。虽然现有的方法侧重于从人工注释者收集的不平衡的真实标签中消除偏差，但我们发现机器学习模型产生的伪标签自然上也是不平衡的，这为广泛存在的偏斜学习提供了另一个来源！伪标签是现有模型（教师模型）在无标签数据上进行的高度自信的预测，然后成为监督（学生）模型适应无标签数据的训练数据的一部分（图1a）。当学生模型本身就是教师模型时，学习过程也被称为自训练[4, 5, 29, 53,65]。伪标签广泛应用于半监督学习（SSL）[32, 53]、领域自适应[25,37]和迁移学习[1]。我们检查了两个常见任务中的伪标签分布。1）在源域和目标域不同的零样本迁移学习（ZSL）中，预训练的CLIP模型[45]在策划和平衡的ImageNet-1K数据集上产生高度不平衡的预测，尽管CLIP的训练集大致平衡（图1c）。超过3500个实例被预测为类别0，是类别0中实际样本数量的3倍。2）在源域和目标域相同的半监督学习中，FixMatch[53]在有标签的CIFAR10图像上训练，在无标签图像上产生高度偏斜的伪标签，尽管有标签集和无标签集都是平衡的（图1b）。也就是说，机器生成的伪标签自然上也是不平衡的，就像人类创建的真实标签一样。如果我们解决这个以前未知的由伪标签产生的不平衡分类问题，而不是以前的真实训练标签，我们可以改善基于模型学习的模型。0伪标签0源数据：0有标签0目标数据：无标签0教师模型0学生模型0优化0优化0（a）伪标签框架0排序的类别索引0平均概率分布0（b）CIFAR10 SSL上的FixMatch0排序的类别索引0预测数目/类别0（c）ImageNet ZSL上的CLIP0图1.我们研究了基于伪标签的半监督学习（SSL）和转导式零样本学习（ZSL），这两个任务都需要通过伪标签将从有标签源数据中学到的语义信息传递给无标签目标数据。令人惊讶的是，我们发现典型的SSL和ZSL方法（即FixMatch [53]和CLIP[45]）产生的目标数据的伪标签存在高度偏差，即使源数据和目标数据都是平衡的，甚至是从同一领域采样的。0dent模型是教师模型本身，学习过程也被称为自训练[4, 5,29, 53, 65]。伪标签广泛应用于半监督学习（SSL）[32,53]、领域自适应[25,37]和迁移学习[1]。我们检查了两个常见任务中的伪标签分布。1）在源域和目标域不同的零样本迁移学习（ZSL）中，预训练的CLIP模型[45]在策划和平衡的ImageNet-1K数据集上产生高度不平衡的预测，尽管CLIP的训练集大致平衡（图1c）。超过3500个实例被预测为类别0，是类别0中实际样本数量的3倍。2）在源域和目标域相同的半监督学习中，FixMatch[53]在有标签的CIFAR10图像上训练，在无标签图像上产生高度偏斜的伪标签，尽管有标签集和无标签集都是平衡的（图1b）。也就是说，机器生成的伪标签自然上也是不平衡的，就像人类创建的真实标签一样。如果我们解决这个以前未知的由伪标签产生的不平衡分类问题，而不是以前的真实训练标签，我们可以改善基于模型学习的模型。146480基于伪标签并消除伪标签引起的模型偏差。我们提出了一种新颖有效的伪标签去偏学习方法，不需要任何关于实际分类边界分布的知识，而这些知识对于使用真实标签进行去偏学习是容易获得的[22, 33,57]。它包括自适应去偏模块和自适应边界损失。前者通过反事实推理动态地消除分类器的响应偏差，而后者根据伪标签的不平衡动态调整每个类别的边界。通过我们广泛的实验证实，我们简单的去偏学习不仅在ImageNet-1K上提高了26%的半监督学习（使用0.2%的注释）和9%的零样本学习的最新水平，而且对于领域转移具有更强的鲁棒性，是各种伪标签方法的通用附加组件。当未标记的原始数据自然不平衡时，伪标签问题更加严重，模型倾向于将尾类样本误标为头类。通过应用去偏学习，我们大幅提高了长尾设置下的半监督学习性能。我们的工作有四个主要贡献：1）我们系统地研究并发现伪标签自然不平衡并引起偏差学习。2）我们提出了一种简单的伪标签去偏学习方法，不需要对其实际分类边界的任何知识。3）我们大幅提高了零样本学习/半监督学习的最新水平，并证明我们的去偏学习是各种伪标签模型的通用附加组件。4）我们建立了一种新的有效的零样本学习/半监督学习流程，用于应用视觉和语言预训练模型，如CLIP。02. 相关工作0半监督学习将未标记的数据整合到训练模型中，给定有限的标记数据。有四种方法：1）基于一致性的正则化方法在未标记的数据上施加分类不变性损失[36, 51, 55,64]；2）伪标记将模型训练数据从标记数据扩展到额外的未标记但有自信的伪标记数据[4, 5, 29, 31, 53,65]；3）迁移学习首先通过自监督表示学习（例如对比学习）在大规模未标记数据上训练模型，然后通过监督分类器学习在小规模标记数据上训练模型[2,13]；4）数据中心的半监督学习假设标记数据未给出，但可以在未标记数据中进行最优选择以进行标记[60]。专注于标记数据选择的实际问题，可以为半监督学习带来显著的收益。CReST[62]通过利用类别平衡的采样器，在类别不平衡的数据上改进了现有的半监督学习方法，根据标记数据分布更频繁地对少数类进行采样。当标记数据平衡时，CReST无法工作。相比之下，我们的方法0不假设标记集的先验分布。尽管先前的文献在半监督学习方面取得了巨大成功，但半监督学习中的隐含偏差伪标签问题以前是未知的，并且尚未进行彻底分析，然而，这对学习效率有很大影响。本文的重点是提出一种简单而有效的去偏模块来消除这个关键问题。零样本分类是指在训练过程中模型没有见过的类别中将图像正确分类的问题[44, 47,58]。已经考虑了几种策略：1）手工设计的属性[15,27]；2）预训练的嵌入，将类别的语义描述作为先验知识[16,52]；3）使用知识图谱建模已见类别和未见类别之间的关系[23,38]；4）使用视觉-语言模型学习通用的视觉概念，允许模型在各种下游分类任务中进行零样本转移[8,45]。长尾识别旨在学习对于少数实例的类别具有准确性的“少样本”模型，而不会牺牲对于“多样本”类别的性能，对于这些类别，有许多实例可用。1）重新平衡/重新加权方法τ-范数[24]通过给予尾类更多的重要性来解决长尾识别问题；2）基于边界的方法LDAM[10]提出了一种标签分布感知的边界损失，通过鼓励尾类具有更大的边界来改善少数类的泛化能力；3）后处理调整方法根据类别分布的先验知识修改训练模型的预测结果，例如LA[35]，或通过消除动量的悖论效应追求直接的因果效应，例如因果范数[54]；4）基于集成的方法RIDE[59]通过优化多个多样化的专家和动态专家路由模块来减少长尾数据上的模型偏差和方差。与先前关于长尾识别的工作形成鲜明对比的是，所提出的去偏模块不需要任何先验知识，并且专注于以前未知的伪标签偏差问题。03. 伪标签天然不平衡0与之前关注训练在不平衡数据上引起的偏见的工作相比，我们的重点是伪标签的偏见，即使在平衡数据上训练。在本节中，我们对FixMatch [53]在SSL和CLIP[45]在ZSL上取得巨大成功的背后隐藏的这个以前未知的问题进行了分析，这两种方法都需要使用“伪标签”将源数据中学到的知识转移到目标数据中。我们首先描述了伪标签方法的背景，然后分析了它们的偏见问题。我们将偏见的原因归因于类间相关性问题。024680.0250.0500.0750.1000.1250.1500.175epoch 20 epoch 60 epoch 100024680.060.070.080.090.100.110.120.13DebiasPLepoch 20epoch 60epoch 100Lu =1µBµB�i=11[max(p(α(xi))) ≥ τ]·H( ˆyi, p(β(xi))) (1)020040060080010000.000.250.500.751.00020040060080010000.000.250.500.751.000100020003000010002000300002004006008001000Ranked Class Index0500100015002000250030003500# of Pred. / Class(a) ImageNet02468Ranked Class Index01000200030004000500060007000# of Pred. / Class(b) CIFAR10020406080100Ranked Class Index05001000150020002500# of Pred. / Class(c) CIFAR10002468Ranked Class Index0200040006000800010000# of Pred. / Class020406080100Ranked Class Index02004006008001000# of Pred. / Class02468Ranked Class Index01000200030004000# of Pred. / Class146490排名类别索引0平均概率0基准0排名类别索引0图2.FixMatch的伪标签在不同的训练阶段高度不平衡，即使它训练的无标签和有标签数据是类别平衡的。相比之下，DebiasPL在后期产生了几乎平衡的伪标签。FixMatch和DebiasPL的概率分布是对所有无标签数据进行平均的。类别索引按平均概率排序。我们在每个类别有4个有标签实例的CIFAR10上进行实验。03.1. 背景0FixMatch用于半监督学习。FixMatch[53]的核心技术是伪标签[29]。它选择具有高置信度的无标签样本作为训练目标。假设我们有一个有标签数据集XL ={(xi, yi)}Li =1，其中L是有标签实例的数量，以及一个无标签数据集XU ={(xi)}Li + Ui = L +1，其中U是实例的数量。xi是输入实例，yi = [y1i，...，yCi]�{0，1}C是一个离散的注释目标，有C个类别。XU和XL共享相同的语义标签。优化目标由两个项组成：L = Ls +λuLu，即应用于有标签数据的监督损失Ls和应用于无标签数据的无监督损失Lu，λu是一个标量超参数。监督损失Ls是模型预测和真实标签之间的交叉熵：Ls = 1B � Bi =1H(yi，p(α(xi)))，其中α是弱增强，B是批量大小。无标签实例的伪标签ˆyi是从弱增强的无标签样本生成的，它们用于监督强增强样本的模型预测。最大概率值低于置信度阈值τ的实例被视为不可靠样本并被丢弃。形式上，无监督损失Lu可以表示为：0其中β是强增强[14]，µ确定了小批量中有标签和无标签样本的比例。用于零样本学习的CLIP。CLIP[45]是一种从头开始学习图像表示的高效可扩展的方法，它使用了一个由400M个图像-文本对手动筛选出的数据集，该数据集的查询平衡性约为平衡。在预训练时，通过最大化（最小化）配对（未配对）标题和视觉图像之间的相似性来优化图像编码器和文本编码器。为了产生无标签数据的伪标签，使用自然语言提示来实现零样本转移至0精确率0排名类别索引0召回率0预测数量0预测数量0图3.在具有预训练CLIP的1.3M个ImageNet实例上，伪标签预测的每类精确率和召回率。高召回率的多数类别往往具有较低的精确伪标签。0(d) MNIST0(e) Food1010(f) EuroSAT0图4. CLIP在各种数据集和基准上的零样本预测存在严重偏见。0目标数据集：CLIP使用目标数据集类别的名称或描述作为潜在文本配对的集合（例如“一张狗的照片”），并根据图像-文本对的余弦相似度预测最可能的类别。具体来说，首先通过各自的编码器计算图像的特征嵌入和可能文本集的特征嵌入。然后评估这些嵌入的余弦相似度，并通过softmax函数将其归一化为概率分布。03.2. 半监督学习中的偏见0图2展示了FixMatch在各个训练阶段对所有无标签数据平均的概率分布。令人惊讶的是，即使标记和无标签数据都是经过筛选的（类别平衡的），伪标签仍然高度不平衡，尤其是在训练早期阶段。随着训练的进行，这种情况仍然存在。学生模型将继承隐含的不平衡伪标签，并进一步强化教师模型的偏见。一旦混淆的样本被错误地伪标记，几乎不可能自我纠正这个错误。相反，它甚至可能误导模型并进一步放大现有的偏见以产生更多错误的预测。如果没有干预，模型将陷入无法修复的偏见。相反，如图2所示，通过动态去偏置模型，可以显著缓解在开始时受到的伪标签不平衡问题，最终可以获得几乎平衡的分布。��1586 572154017713 4922 0302302091250 3680115 5422 4088 4233145 3884 26 196 312011130875 1074813123 2243245283 617 32 3986 41361320393475801013136 125 52 6322 4878 023323 23 266 131 19285117 4944 34174657020212 48550100020003000400050004717 9174 4614242613341312 4905 01230021671742 4619115 3563552112712542 4073 27 538 4432124044 1034822 902447123144 535 28 4135 2439013034562315 4815 00362143544 1183 4838 02571219234997 4912 1812641013150319 4885010002000300040005000146500a) 前10个类别 b) 后10个类别0图5.ImageNet中频率较低的类别，每个类别的CLIP预测数量最少，通常具有强烈的类间相关性，而高频类别则相反。我们比较了每个类别的图像嵌入质心与其九个最接近的“负面”类别的嵌入质心之间的余弦相似度。（放大查看更好）0飞机0鸟0猫0鹿0狗0马0船0卡车0飞机0汽车鸟0鹿狗青蛙0马0船卡车0(a) FixMatch0飞机0鸟0猫0鹿0狗0马0船0卡车0飞机0汽车鸟0鹿狗青蛙0马0船卡车0(b) DebiasPL0图6.伪标签偏见的原因部分归因于类间混淆。例如，FixMatch经常将“船”错误分类为“飞机”。FixMatch和我们的DebiasPL的伪标签的混淆矩阵可视化。0在开始时受到不平衡伪标签的困扰，这种情况可以得到显著缓解，最终可以通过动态去偏置模型获得几乎平衡的分布。03.3. 零样本学习中的偏见0CLIP在ImageNet上实际上生成了高度偏见的预测，这在CLIP在整体零样本预测准确率方面取得巨大成功的背后是隐藏的。除了不平衡问题外，许多高频类别的精确度和召回率远低于许多中-少样本类别，如图3所示。基于置信度分数对CLIP的预测进行阈值处理可能有所帮助。然而，简单地设置更高的置信度分数阈值可能会导致更不平衡的分布（更多细节请参见附录）。在不平衡比例和精确度/召回率之间存在权衡。高度偏见的零样本预测不仅仅存在于ImageNet上，它们在许多基准数据集上广泛存在，如EuroSAT [20]，MNIST[28]，CIFAR10 [26]，CIFAR100 [26]和Food101[7]，如图4所示。03.4. 类间相关性0为了深入研究偏倚伪标签的原因，我们对类间相关性进行了分析。对于CLIP，我们首先通过取属于该类的经过预训练CLIP模型的图像编码器提取的归一化图像特征的平均值，计算每个类别的一个图像质心。0可视化了类别的图像质心与其最接近的“混淆”类之间的余弦相似度。预测的混淆表明了类别级别上的图像相似性。图5显示了ImageNet的低频类别，即每个类别的CLIP预测次数最少的10个类别，通常具有强烈的类间混淆。图6a显示了FixMatch的伪标签的混淆矩阵。观察到一些类别中的许多实例往往被错误分类为一两个特定的负类别；例如，“ship”经常被错误分类为“plane”。基于我们对类间相关性的分析，我们认为伪标签偏倚的原因主要归因于类间混淆，而所提出的DebiasPL可以成功地解决这个问题，如图6b所示。下一节将介绍DebiasPL。04. 去偏倚伪标签0本节介绍了去偏倚伪标签（Debi-asPL）以及将其整合到ZSL和SSL任务中的方法。值得注意的是，这种提出的简单而有效的方法适用于各种网络和基准测试，不仅限于此处介绍的网络和基准测试。04.1. 自适应去偏倚0我们的去偏倚PL方法旨在动态减轻偏倚伪标签对学生模型的影响，而不依赖于任何关于边际类分布的先验知识，即使在遇到遵循不同分布的源数据和目标数据时也是如此。我们提出了一个带有反事实推理的自适应去偏倚模块和自适应边际损失，以实现这一目标，下面进行描述。自适应去偏倚w/反事实推理。因果推断是仅使用事实前提推导反事实结论的过程，其中因果图模型表示变量之间的干预[17, 40, 42,48,49]。它已经被广泛研究和应用于各种任务中，以消除几乎所有经验研究中普遍存在的选择偏倚[3]，使用因果干预消除混淆效应[67]，使用反事实推理解开所需的直接效应[6]等等。̂pAiYDMA1, . . . , AnYDM-AinCDE̸146510无标签0数据0弱0增强0强0增强0教师模型0学生模型0共享0去偏倚预测0伪标签0边际0损失预测0去偏倚0更新0图7.所提出的自适应去偏倚模块和自适应边际损失的图示，添加到FixMatch的顶部。0：输入数据0：预测：中介：模型偏差：实例数量0图8. 通过反事实推理进行去偏倚的因果图。0受此启发，为了动态减轻不需要的偏倚影响（反事实），我们通过反事实推理[21,40-43]将产生去偏倚预测的因果性结合起来。给定图8中提出的因果图，我们可以描述生成去偏倚预测的目标：追求沿着A i →Y的直接因果效应，定义为受控直接效应（CDE）[17, 42,43, 46, 54]：0CDE ( Y i ) = [ Y i | do ( A i ) , do ( D )] - [ Y i | do ( ˆ A ) , do (D )] (2)0即，如果个体在 A = A i (使用 do ( A i ) 表示)暴露的反事实结果与同一个体在 A = ˆ A = { A 1 , ..., A n }暴露且中介变量设置为固定水平 D时的反事实结果之间的对比。CDE [17,42]在反事实世界中分解了模型偏差，其中模型偏差被认为是当 A = ˆ A 时 Y 的间接效应，但当 A = A i 时 D保留其值。然而，通过访问所有训练样本来测量反事实结果在计算上是非常昂贵的。我们使用近似控制直接效应（ACDE）代替。ACDE假设模型偏差没有发生 drastical的变化，因此动量更新的反事实结果（方程4）可以作为实际 [ Y i | do ( ˆ A ) , do ( D )]的近似。通过反事实推理得到的去偏logit，后续用于执行伪标签（即在方程 1 中替换 p ( α ( x i))）的公式如下：0˜ f i = f ( α ( x i )) - λ log ˆ p (3)0ˆ p ← m ˆ p + (1 - m) 10µB0k =1 p k (4)0m ∈ [0 , 1) 是一个动量系数，f ( α ( ∙ ))是弱增强无标签实例的logits，p k是通过softmax函数获得的实例 α ( x k ) 的概率分布。λ表示去偏因子，控制间接效应的强度。如果去偏因子过强，模型很难拟合数据，而太小的因子几乎无法消除偏差，最终会损害泛化能力。由于logits的尺度不稳定，尤其是在早期训练阶段，我们使用概率分布 p k 而不是直接使用方程 3的第二项中的logit向量。对 ˆ p进行对数函数的应用，以匹配logit的数量级。方程 3可与长尾识别中的重新加权和logits调整方法相关联，而我们的方法是动态自适应的。自适应边际损失。如第 3节所述，伪标签中的偏差可能部分是由于类间混淆引起的。出于这个原因，我们应用自适应边际损失来要求几乎没有偏差和高度偏差类之间的较大边际，以便模型高度偏向的主导类别的分数不会压倒其他类别。此外，通过强制执行动态的类特定边际，可以大大抵消类间混淆，这在图 6中进一步得到了实证证明。L AML 可以表示为：0L AML = - log e ( z ˆ0e ( z ˆ yi - ∆ ˆ yi ) + ∑ C k � = ˆ y i e (z k - ∆ k ) (5)0ˆ p j ) for j ∈ { 1 , ..., C } , z = f ( β ( x i ))。我们使用 LAML 替换了方程 1 中的 H ( ˆ y i , f ( β ( x i))。然后通过使用方程 3 和方程 5 更新方程 1得到最终的无监督损失。（可选）低概率的所有无标签实例不会对最终损失产生贡献。我们发现将交叉级别实例组判别损失 CLD [61]应用于无标签实例，以充分利用它们的信息是有益的。04.2. 与其他方法的区别和联系0有关LA、LDAM和因果规范的介绍，请参阅第2节。还比较了SSL分布对齐（DA）[4]中经常采用的方法。它旨在鼓励模型预测的实际边际分布与实际边际类分布相匹配。请参阅表1以了解与这些替代方法在处理分布不匹配和长尾识别中的关键特性方面的区别和联系，并参阅表2和表3以比较实验结果。使用动量更新的 ˆ p来去偏伪标签，并应用自适应边际损失对于DebiasPL的成功至关重要，这也使得我们的训练目标不一定需要使用真实的边际类分布作为先验知识。此外，由于每个类别的训练样本更多146520期望属性 LA或LDAM Causal Norm DA 我们0在训练时改善表示学习 � � � �0没有关于真实边际类别分布的先验知识 � � � �0随着训练的进行而自适应 � � � �0适用于不平衡和平衡数据 � � � �0源数据和目标数据可以来自不同的分布 � � � �0表1.我们的方法是唯一一个具有所有这些期望属性的方法。与之前专注于解决训练数据分布问题的方法进行比较，包括LA [35]，LDAM [10]，DA [4]，CausalNorm[54]和我们的DebiasPL，关键属性的比较。期望（不期望）属性用绿色（红色）表示。0不一定会导致更高的模型偏见，动态调整边际而不是基于每个类别样本数量来测量边际，可以更好地尊重每个类别的偏见程度。仅仅根据样本数量无法确定偏见程度。此外，与之前的方法（如LA/LDAM和CausalNorm）不同，它们使用固定的边际或调整，我们认为每个类别的偏见程度永远不应该是一个固定值，而是处于动态变化的过程中。偏见的原因不能仅归因于数据本身，而是模型和数据之间的相互作用的原因。对于DA，最大的问题是它仅限于真实边际类别分布可用的场景，或者源数据和目标数据来自相同的分布，这在现实世界中太理想化了。在几个基准测试上进行实验证明了DebiasPL的有效性和可行性。对于不平衡数据，表1显示将LA[35]集成到FixMatch中远远落后于FixMatch w/DebiasPL。对于平衡数据，由于调整或重新加权向量是基于真实类别分布计算的，大多数现有的依赖真实边际类别分布的长尾方法在没有进行重大改变的情况下不再适用（平衡的类别分布导致对所有类别的相同处理）。04.3. 用于T-ZSL和SSL的DebiasPL0对于半监督学习，提出的DebiasPL可以集成到FixMatch中，如图7所示，通过采用自适应去偏差模块和自适应边际损失。为了进一步提高SSL的性能并利用视觉-语言预训练模型的能力，在训练时，我们还可以将CLIP集成到FixMatch/DebiasPL中，通过使用CLIP对被丢弃的未标记实例进行伪标记。因为CLIP对于不确定的实例可能是有噪声的，所以只有这些带有CLIP置信度的未标记实例0大于τclip的分数由CLIP伪标记。我们可以在所有训练数据上获得CLIP的预测结果，并将其存储在一个字典中，而无需在每次迭代中重新预测。因此，使用CLIP模型引入的计算开销可以忽略不计。我们只在大规模数据集中利用CLIP，因为在像CIFAR10这样的低分辨率数据集上使用CLIP只能观察到边际增益，部分原因是CLIP中缺乏基于尺度的数据增强[45]。对于转导式零样本学习，为了更好地利用从视觉-语言预训练模型中学到的知识，并在将知识转移到下游零样本学习任务时减轻领域偏移问题，我们开发了一种基于FixMatch和CLIP的转导式零样本学习（T-ZSL）框架。具体而言，我们再次利用伪标记的思想，通过利用单热标签（即模型输出的argmax）并保留最大类别概率超过置信度阈值τclip（默认值为0.95）的伪标签，这些实例以及它们的伪标签在SSL中被视为“标记数据”。之后，我们可以按照原始的FixMatch流程来优化“标记”和“未标记”数据。为了与之前的工作进行公平比较并简化整个系统，所有其他的训练配方和设置都与原始的FixMatch+EMAN设置保持一致，包括模型初始化部分。图表在附录中。由于CLIP存在高度偏见，普通的FixMatch +CLIP框架在原始的CLIP零样本学习的基础上表现不佳，这证实了我们之前的假设，即从有偏见的模型中学习可能会进一步放大现有的偏见并产生更多错误的预测。因此，我们使用自适应边际损失来更新无监督损失Lu，以减轻类间混淆，并使用自适应去偏差来产生去偏差的伪标签，如第4.1节所述。05. 实验0在本节中，我们进行实证实验，展示DebiasPL的以下特点：1）在半监督学习和零样本学习基准测试中取得最先进的结果；2）作为通用附加组件，为各种方法带来一致的性能提升；3）对领域转移具有更强的鲁棒性；4）能够提高长尾、平衡甚至混合数据的性能。05.1. 半监督学习0数据集。我们对Debi-asPL在多个SSL基准测试上进行了全面评估，包括CIFAR10[26]，长尾CIFAR10（CIFAR10-LT）[26]和ImageNet-1K[50]，并使用不同数量的标记数据。对于平衡基准测试，当使用超过2%的标记数据时，性能几乎饱和。我们将重点放在极低样本设置上，即CIFAR10的0.08% / 0.16% /2%和ImageNet-1K的1% / 0.2%。对于不平衡的数据146530方法 CIFAR10-LT：标签数量（百分比） CIFAR10：标签数量（百分比）0γ =100 γ =200 40（0.08%） 80（0.16%） 250（2%） 1244（10%） 3726（30%）1125（10%） 3365（30%）0UDA [63] § - - - - 71.0 ± 6.0 - 91.2 ± 1.1 MixMatch [5] § 60.4 ± 2.2 - 54.5 ± 1.9 - 51.9 ± 11.8 80.8 ± 1.3 89.0 ± 0.9 CReST w/ DA[62] 75.9 ± 0.6 77.6 ± 0.9 64.1 ± 0.22 67.7 ± 0.8 - - - CReST+ w/ DA [62] 78.1 ± 0.8 79.2 ± 0.2 67.7 ± 1.4 70.5 ± 0.6 - - -CoMatch w/ SimCLR [12, 31] - - - - 92.6 ± 1.0 94.0 ± 0.3 95.1 ± 0.30FixMatch [53] § 67.3 ± 1.2 73.1 ± 0.6 59.7 ± 0.6 67.7 ± 0.8 86.1 ± 3.5 92.1 ± 0.9 94.9 ± 0.7 FixMatch w/ DA w/ LA [4, 35, 53, 62] §70.4 ± 2.9 - 62.4 ± 1.2 - - - - FixMatch w/ DA w/ SimCLR [4, 12, 53] § - - - - 89.7 ± 4.6 93.3 ± 0.5 94.9 ± 0.70DebiasPL（w/ FixMatch）79.2 ± 1.0 80.6 ± 0.5 71.4 ± 2.0 74.1 ± 0.6 94.6 ± 1.3 95.2 ± 0.1 95.4 ±0.1相对于最佳FixMatch变体的增益 +8.8 +7.5 +9.0 +6.4 +4.9 +1.9 +0.50表2.在对未标记/标记数据的边际类分布没有任何先验知识的情况下，DebiasPL在CIFAR和CIFAR-LTSSL基准测试中的性能超过了以前的SOTA方法，这些方法要么设计用于平衡数据，要么经过精心调整以适应长尾数据。DibasMatch在所有基准测试中使用相同的超参数进行实验。§表示对应方法的最佳报告结果，从[31]、[53]或[62]复制而来。γ：不平衡比率。我们报告了在5个不同折叠上的平均结果。0方法 B.S. #epochs 预训练 1% 0.2%0top-1 top-5 top-1 top-50FixMatch w/ DA [4, 53] 4096 400 � 53.4 74.4 - - FixMatch w/ DA [4, 53] 4096 400 � 59.9 79.8 - - FixMatch w/ EMAN [9, 53] 384 50 � 60.9 82.5 43.6 � 64.6 �0DebiasPL w/ FixMatch 384 50 � 63.1（+2.2） 83.6（+1.1） 47.9（+3.7） 69.6（+5.0）0DebiasPL（多视角）768 50 � 65.3（+4.4） 85.2（+2.7） 51.6（+8.0） 73.3（+8.7）0DebiasPL（多视角）768 200 � 66.5（+5.6） 85.6（+3.1） 52.3（+8.7） 73.5（+8.9）0DebiasPL（多视角）1536 300 � 67.1（+6.2） 85.8（+3.3） - - DebiasPL w/ CLIP [45] 384 50 � 69.1（+8.2） 89.1（+6.6）0DebiasPL w/ CLIP（多视角）[45] 768 50 � 70.9（+10.0） 89.3（+6.8） 69.6（+26.0） 88.4（+23.8）0CLIP（少样本）[45, 68] 256 50 � 53.4 - 40.0 - SwAV [11] 4096 50 � 53.9 78.5 - - SimCLRv2（+自我蒸馏）[13] 4096400 � 60.0 79.8 - - PAWS（多裁剪）† [2] 4096 50 � 66.5 - - - CoMatch（多视角）[31] 1440 400 � 67.1 87.1 - -0表3.DebiasPL在ImageNet-1K半监督学习中以不同标记样本比例取得了最先进的结果，尤其是在极低样本设置下。所有结果都是使用ResNet-50作为骨干网络得出的。†：无监督预训练800个epoch，除了PAWS [2]，它是使用非参数生成的伪标签进行300个epoch的预训练。�：复现。0我们遵循[62]中的设置，在CIFAR10-LT上测试Debi-asPL，其中γ是预定义的不平衡比率，γ∈[100,200]，包括10％和30％的标记数据百分比。有关数据集的更多详细信息请参见附录。设置。对于长尾CIFAR10和CIFAR10数据集上的所有实验，我们遵循之前的工作[53,62]使用网络架构WRN-28-2[19,66]。我们还遵循FixMatch中的相同一组超参数，只是将总优化迭代次数减半。对于ImageNet-1K上的实验，我们使用ResNet50作为骨干网络，并遵循FixMatch w/EMAN中介绍的训练方法，这也是ImageNet-1K上所有实验的默认基准。模型的初始化采用MoCo v2 +EMAN，如[9]中所述。对于具有多个视图的设置，我们对每个未标记样本执行两个强增强和两个弱增强。每个强增强实例与0通过伪标签优化两对弱增强实例，我们可以同时优化两对实例，就像图7中的原始设置一样。多视图可以提高收敛速度并稳定训练过程。DebiasPL简单而有效。表2和表3显示，DebiasPL在所有实验基准上都取得了最先进的性能，大大优于当前方法。在不使用CLIP的情况下，DebiasPL可以在CIFAR上胜过CoMatch，并且在ImageNet-1K上与CoMatch相当。DebiasPL的优点是简单易用。利用CLIP的能力可以显著提高DebiasPL的性能，在ImageNet-1KSSL上超过CoMatch约4％。DebiasPL对源/目标数据分布不加偏见。表2显示，对于CIFAR和长尾CIFARSSL基准，使用统一的框架和相同的超参数，DebiasPL可以超过先前的最先进方法，这些方法要么设计用于平衡基准CIFAR-10CIFAR-100MNISTEuroSATFood101304458728610085.169.883.763.491.580.543.561.740.972.3CLIPDebiasPL+ 19.2+ 22.5+ 22.0+ 25.7+ 4.6146540方法标记：LT；10％标记，γ=2000未标记：LT 未标记：平衡0FixMatch [53] 62.3 ± 1.6 72.1 ± 2.3 DebiasPL 71.4 ± 2.0(+9.1)

下载后可阅读完整内容，剩余1页未读，立即下载