面向现实的半监督学习：开放世界SSL中的基于伪标签的方法

130 浏览量更新于2023-11-30 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文面向现实的半监督学习Mamshad Nayeem Rizve、Navid Kardan和Mubarak Shah美国UCF计算机视觉研究中心{nayeemrizve，kardan} @ knights.ucf.edu，shah@crcv.ucf.edu抽象的。深度学习正在推动许多计算机视觉应用的发展。然而，它依赖于大型带注释的数据存储库，并且捕获真实世界数据的无约束性质尚未得到解决。半监督学习（SSL）用大量未标记数据的语料库补充注释的训练数据，以降低注释成本。标准的SSL方法假设未标记的数据与带注释的数据来自相同的分布最近，引入了一个更现实的SSL问题，称为开放世界SSL，其中未注释的数据可能包含来自未知类的样本。在本文中，我们提出了一种新的基于伪标签的方法来解决SSL在开放世界的设置。在我们的方法的核心，我们利用样本的不确定性，并结合类分布的先验知识，生成可靠的类分布感知伪标签的未标记的数据属于已知和未知的类。我们广泛的实验展示了我们的方法在几个基准数据集上的有效性，在七个不同的数据集上，它大大优于现有的最先进的技术，包括CIFAR-100 （ 1017% ）， ImageNet- 100 （ 105% ）和 Tiny ImageNet（109%）。我们还强调了我们的方法在解决新类发现任务中的灵活性，证明了它在处理不平衡数据时的稳定性，并补充了我们的方法，估计新类的数量代码：https://github.com/nayeemrizve/TRSSL关键词：半监督学习，开放世界，不确定性1介绍深度学习系统在解决许多复杂的视觉问题方面取得了巨大进展[25，24，11，20，54，1]。然而，这些进展大多是在受控环境中取得的，这限制了它们在现实世界中的应用。例如，在分类时，我们应该事先知道所有的类。然而，许多现实世界的问题不能用这种约束来表达，在探索无约束环境时，我们不断遇到新的概念。一个实用的学习模型应该能够正确地发现和处理新的情况。开放世界问题[59，4，33，23，9，29，34]试图对现实世界数据的这种无约束性质进行建模。尽管有大量的真实数据，但在将其传递给监督模型之前，通常需要对原始数据进行注释，这是非常昂贵的。之一arXiv：2207.02269v2 [cs.CV] 2022年7+v：mala2255获取更多论文2M. N. Rizve等人降低标注成本的主要方法是半监督学习（SSL）[64，6，43，49，62]，其目标是利用一组未标记的数据与有限的标记集结合来提高性能。在[9]之后，在这项工作中，我们认为未标记的集合可能包含来自未知（新）类的样本，这些样本不存在于标记的集合中。这个问题这就是所谓的开放世界SSL [9]。在这里，我们的目标是识别新的类样本和分类，以及通过利用未标记的已知类样本，以提高已知类的性能。乍一看，开放世界SSL的主要困难可能与打破封闭世界假设有关。事实上，众所周知，来自新类别的样本的存在会使标准分类的性能恶化。SSL方法彻底[51，14]。这导致引入新的方法，这些方法基于识别并随后减少影响来缓解该问题新的类样本，以推广SSL到更实际的设置[21，14，71]。然而，开放世界SSL需要识别样本并将其分配给新的类，这与忽略它们的简单目标形成对比。到达贝斯特据我们所知，ORCA [9]是唯一为这个具有挑战性的问题提出解决方案的先前工作，其中作者还证明了开放世界SSL问题不能通过现有SSL方法的简单扩展来解决。本文在ORCA的基础上改进，提出了一种解决开放世界SSL问题的简化方法，该方法不需要针对多个目标进行精心的设计我们的方法大大提高了多个数据集的最先进性能（图1）。此外，与以前的工作不同，我们的算法可以自然地处理任意类分布，如不平衡数据。最后，我们提出了一种方法来估计未知类的数量更实际的应用。10080604020图1：我们提出的方法相对于以前的 SOTA 方法在 Tiny ImageNet ，Oxford- IIIT Pet ， FGVC-Aircraft ，Stanford-Cars ， CIFAR-100 ，ImageNet-100和CIFAR-10数据集上的性能。为了解决开放世界SSL问题，我们采用了直观的伪标记方法。我们的伪标签生成过程需要考虑到与开放世界SSL问题相关的不同的chal，chales-同时分类，ING样本从已知和未知的类，并处理任意类分布。此外，我们将样本不确定性纳入伪标签学习，以解决生成的伪标签的不可靠性我们在这项工作中做出了两个主要的技术贡献：（1）我们提出了一种新的伪标签生成方法，该方法利用了关于类分布的先验知识，并使用Sinkhorn-Knopp算法相应地生成伪标签[61，10，68，2]。我们提出的解决方案可以利用任何任意的数据分布，其中包括不平衡的分布。（2）我们─我们SOTA可见的预准确度（%）+v：mala2255获取更多论文走向现实的半监督学习3提出了一种新的不确定性引导的温度缩放技术，以解决生成的伪标签的不可靠性此外，我们提出了一个简单而有效的方法来估计新的类的数量，允许我们的方法更现实的应用我们在四个标准基准数据集和另外三个细粒度数据集上的广泛实验表明，所提出的方法显着优于现有的工作（图1）。最后，我们对数据不平衡的实验（第二节）。4.3）表明，即使在没有关于底层类分布的先验知识的情况下，所提出的方法也可以令人满意地工作。2相关作品为了解决现实世界数据的不受约束的性质，已经探索了多个研究方向在这项工作中，我们将所有这些不同的方法称为开放世界学习方法。开放集识别（OSR）[59，27，45]，开放世界识别（OWR）[4，7，67，29]，分布外检测[45，44，69，32，31]和新类发现（NCD）[26，23，22，72，17]是一些值得注意的开放世界学习方法。开集识别方法的目的是在推理期间识别新的类样本OSR的早期工作之一是在[59]中提出的，其中应用了一个对所有的策略来防止将新的类样本分配给已知的类。[27]通过使用概率建模来调整分类边界，将OSR扩展ODIN [45]没有为OSR设计鲁棒模型，而是根据改变softmax温度和向输入添加小的受控扰动引起的输出概率差异来检测尽管OSR是一个相关的问题，但这项工作的重点是更一般的，我们的目标不仅是检测新的类样本，而且还要对它们进行聚类。OWR方法（如[4]）以增量方式工作，一旦模型从新类中确定实例，oracle就可以为未知样本提供类为了加入新的类别，[67]为每个类别维护了一个动态的样本列表，未知的例子通过寻找与这些样本的相似性来检测。最后，作者在[29]中提出了用于开放世界对象检测的对比聚类和基于能量这些方法和我们的方法之间的关键区别在于，我们不依赖于神谕来学习新的类。非传染性疾病方法与我们的任务关系最为密切。NCD方法的主要目标是在未标记集合中对新类别样本进行为此，[26]中的作者通过训练成对相似性预测网络来利用可见类中可用的信息，然后将其与他们的方法类似，解决了成对相似性任务在[22]中基于新的秩统计发现新的类。大多数NCD方法依赖于多个目标函数，并需要某种特征预训练方法。这在[17]中通过利用多视图伪+v：mala2255获取更多论文\⊂||L||LLLLi=1LULUui=1uL4米N. Rizve等人标记和过聚类，而仅依赖于交叉熵损失。NCD问题和我们的任务之间的主要区别是，我们不假设未标记的数据只包括新的类样本。此外，与大多数这些方法相比，我们提出的解决方案只需要一个损失函数，并且不需要进行架构更改来区别对待可见类和新类此外，我们广泛的实验表明，这些方法的扩展是不是很有效的开放世界的SSL问题。半监督学习已经对封闭世界SSL进行了广泛的研究[19，28，46，36，53，13，10，58，41，48，64，43，60，6，5，62]。封闭世界SSL方法在标准基准数据集上实现了令人印象深刻的性能。然而，这些方法假设未标记的数据只包含来自可见类的样本，这是非常有限制的。此外，最近的工作[51，14]表明，新的类样本的存在会降低SSL方法的性能。鲁棒SSL方法[21，14，71]通过过滤或重新加权新的类样本来解决这个问题。[9]中提出的现实开放世界SSL问题需要对新的类样本进行聚类，这不是鲁棒SSL方法所能解决的。据我们所知，ORCA [9]是解决这一挑战性问题的唯一先前工作。与其他新颖的类发现或基于SSL的健壮基线相比，ORCA实现了非常有前途的性能。然而，为了解决这个问题，ORCA利用了自监督预训练和多目标函数。在一项并行工作中，[56]提出了一种不依赖于特征预训练的开放世界SSL解决方案。然而，与ORCA类似，他们的方法依赖于多个目标。相比之下，我们提出的解决方案优于ORCA的大幅度不依赖于他们中的任何一3方法与标准封闭世界SSL类似，开放世界SSL问题的训练数据由标记集DL和未标记集DU组成。标记的设置，D包括N个标记的样品s.t. D=. x（i），y（i）<$NL，其中x（i）是输入，y（i）是其对应的标签（在独热编码中），属于一个CL类。另一方面，未标记集合DU由NU（实际上，NN）未标记样品s.t. D=. x（i）NU，其中x（i）是没有任何标签的样品属于其中一个CU类。封闭世界和开放世界SSL公式之间的主要区别是封闭世界SSL假设CL=CU，而在开放世界SSL中CLCU。我们把CUCL称为新类CN。注意，与以前关于新类发现问题的工作不同[22，17，72]，我们不需要提前知道新类的数量CN在测试时间内，目标是分配样本从新的类到它们相应的新的类在CN，并分类样本从看到的类到CL类之一。在下面的小节中，我们首先介绍了我们的基于类分布感知的伪标签训练目标，以对来自可见类的样本进行分类，同时将来自新类的样本归因于它们各自的类别（第二节）。3.1）。之后，我们引入了不确定性指导的温度缩放，将伪标签的可靠性纳入学习过程（第二节）。3.2）。+v：mala2255获取更多论文Σ∈||∈||∈→ceJNJJi=1j =1面向现实的半监督学习5未标记数据类分布优先级图2：训练概述：左：生成伪标签。我们的模型使用Sinkhorn-Knopp为未标记的样本生成伪标签，同时考虑类分布先验。右：使用标记和未标记样本进行可靠的训练。我们使用地面真实标签和生成的伪标签以监督的方式进行训练。为了解决开放世界SSL中伪标签的不可靠性，我们应用了不确定性引导的温度缩放（颜色越深表示不确定性越高）。3.1类分布感知伪标记为了实现开放世界SSL问题的双重目标，即，从所看到的类中识别样本并从新的类中聚类样本，我们设计了单个分类目标。为此，我们利用神经网络fw将输入数据x映射到类得分（logits）的输出空间zR|CL|+|CN|，s.t. fw：X Z;这里，X是输入数据的集合，Z是输出对数的集合。在我们的设置中，类得分向量（log-its）z的前CL个条目对应于所看到的类，并且剩余的CN个元素对应于n个类。最后，我们使用 softmax激活函数将这些 logits转换为概率y分布，y_j ， y_j=exp（z_j）/k exp（zk）.神经网络fw可以使用交叉熵损失来训练，如果标签所有输入样本都可用。然而，在开放世界的SSL问题中，DUla c kla bel.Toaddressthisissue，pseudo-labels，为了解决这个问题，为所有未标记的样本生成。在此之后，交叉熵损失被应用于使用可用的地面实况标签和生成的伪标签来训练模型。这里，我们假设y1的独热编码，并且Y表示所有标签的集合，其中Y=Y1Y u。现在，交叉口损耗定义为，N CL=−1y（i）logy（i），（1）其中，C = |CL|+的|CN|是类的总数，N = N L+ N U是样本的总数，y∈ Y，y（i）是类标签向量的第j个元素，y（i），对于训练实例i。接下来，我们讨论类分布感知的伪标签生成过程。由于伪标签生成过程本质上是不适定的，我们可以通过注入归纳偏差来引导这个过程。为此，我们提出以这样的方式生成伪标签，即生成的伪标签的类分布应该遵循样本的底层类分布更正式地说，我们强制执行以下约束：标签+伪标签数据不确定性引导的温度定标交叉熵辛霍恩-克诺普+v：mala2255获取更多论文ΣUN、−JUUUΣ我6米。N. Rizve等人NUjy其中，NCj是第j个类中的样本数满足此目标的一种常见策略是应用熵最大化项，并结合优化成对相似性得分目标[9，65]。然而，这种方法隐含地假设类是平衡的，并且优化成对目标需要一组良好的初始特征;此外，协调这两个目标需要仔细设计。本文通过生成伪标签，使它们直接满足等式中的约束，从而提供了一种更简化的方法。二、幸运的是，这个受约束的伪标签生成问题本质上是一个运输问题[30，8]，其中我们希望基于输出概率将未标记的样本分配给一个可见/新颖的类别。这样的分配可以用分配矩阵A来捕获，该分配矩阵A可以被解释为（归一化的）伪标签。按照Cuturi2是一个运输多面体A.A：=，A ∈ RNU×C|拉吉A：，j=CJN，1Ai，：=U.（三）注意，每个传输矩阵A是联合概率，因此，它是归一化矩阵。通过考虑基于模型预测将未标记样本分配给不同类别的交叉熵成本，可以在运输多面体A内找到最优解。更正式地说，我们求解minA∈ATr（ATlog（YU/NU））优化问题，其中YU是由模型为未标记样本生成的输出概率的m at rix。不幸的是，强制执行方程中描述的约束2对于新类是非平凡的为了解决这个问题，我们需要解决一个置换问题，同时获得最佳分配矩阵A。为此，我们引入一个置换矩阵Pπ，并将优化问题重新表述为minA∈A−Tr （（APπ）Tlog（Y<$ U/NU））。在这里，突变矩阵Pπ重新排序分配矩阵的列。我们从输出概率Y<$ U的边际的阶估计置换矩阵Pπ。这种简单的重新排序确保了类别约束与输出概率对齐。在确定置换之后，找到A的最优解就成为最优运输问题的一个实例因此，可以使用Sinkhorn-Knopp算法求解。Cuturi [15]提出了Sinkhorn-Knopp算法的快速版本。特别地，[15]表明可以通过以下方式获得最优分配的快速估计A=diag（m）（Y< $U/NU）λdiag（n），（4）其中λ是控制收敛速度与解的精度的正则化项，向量m和n用于缩放YU/NU，使得运输矩阵A也是概率矩阵。这是一个迭代过程，其中m和n根据以下规则更新：N+v：mala2255获取更多论文2不i=1我τi走向现实的半监督学习7m<$[（Y<$ U/NU）λn]−1，n<$[mT（Y<$ U/NU）λ]−1.（5）我们的伪标签生成的另一个方面是诱导扰动不变特征。一般来说，学习不变特征是通过最小化一个一致性损失，最大限度地减少了同一图像的两个变换版本的输出表示之间的距离[58，6，66]。为了实现这一点，对于未标记的数据，给定图像x，我们生成该图像的两个增强版本，xτ1 = τ1（x）和xτ2 = τ2（x），其中τ1（. ）和τ2（. ）是两个随机变换。这两个增强图像的生成的伪标签分别是yπτ1和yπτ2。为了利用交叉熵损失来学习变换变量表示，我们将yτ2作为xτ1的伪标记，反之亦然。这种交叉伪标记鼓励学习扰动不变特征，而不引入新的损失函数。最后，在其原始公式中，Sinkhorn-Knopp算法生成硬伪标签[15]。然而，最近的文献[10]报告了通过应用软伪标签获得更好的性能在我们的工作中，我们利用了软伪标签和硬伪标签的混合（混合伪标签），我们发现这是有益的（第二节）。4.3）。具体来说，为了鼓励对新类的自信学习，我们为未标记的样本生成硬伪标签，这些样本被强分配给新类。对于其余未标记的样本，我们使用软伪标签。3.2不确定性引导的温度定标由于我们通过依赖网络的置信度来生成伪标签，因此最终性能受到其可靠性的影响我们可以通过测量预测置信度的不确定性来获取预测置信度的可靠性在标准神经网络中，一种简单的方法是在网络参数空间[18]或输入空间[3，55]中由于我们不想修改网络参数，我们决定在输入空间中执行随机采样。为此，我们对输入数据应用随机变换并估计样本不确定性u（. ），通过计算所应用的随机变换的方差[16，50，55]：不u（x）=Var（y）=1（y −E（y）），（6）Ti=1其中，yτi =Softmax（fw（τi（x），τi（. ）表示统计变换应用于输入x，并且E（y）=1Tyτ。接下来，我们要将这些不确定性信息纳入我们的训练过程。实现这一目标的一种策略是通过基于不确定性得分过滤不可靠的样本来选择更可靠的伪标签[55]。然而，这种方法的两个潜在缺点是引入新的超参数和丢弃一部分可用数据。因此，为了解决这两个缺点，我们引入了不确定性引导的温度缩放。回想一下，在我们的训练中，我们使用softmax概率来计算交叉熵损失。温度缩放是一种修改输出概率分布的软度的策略。在标准softmax概率计算中，温度+v：mala2255获取更多论文ΣKK8米N. Rizve等人值设置为1。较高的温度值会增加softmax概率的熵或不确定性，而较低的温度值会使其更加确定。现有的工作[9，17，12，35]应用固定的温度值（无论是高还是低）作为超参数。相比之下，我们建议在训练过程中对每个样本使用不同的温度，这受到其伪标签的确定性的影响。其主要思想是，如果网络对特定样本的预测是确定的，我们会让这个预测更有信心，反之亦然。基于这个想法，我们以如下方式修改softmax概率计算：exp（z（i）/u（x（i）y∈（i）=j，（7）jexp（z（i）/u（x（i）其中，u（x（i））是从等式（1）获得的样本x（i）第六章在实践中，由Eq. 6例为低幅。因此，我们在将这些不确定性值插入方程之前，将它们在整个数据集上进行归一化第七章我们的训练算法在补充材料中提供。4实验和结果4.1实验装置在下文中，我们描述了我们的实验设置，包括数据集描述、实现细节、评估细节和我们的基线细节。我们在四个常用的计算机视觉基准数据集上进行实验：CIFAR-10[38]，CIFAR-100 [39]，ImageNet-100 [57]和Tiny ImageNet [42]。数据集是根据类的数量按难度递增的顺序选择的。我们还在三个显著不同的细粒度分类数据集上评估了我们的方法：Oxford-IIIT Pet [52]，FGVC-Aircraft [47]和Stanford-Cars [37]。这些数据集的详细说明见补充材料。对于所有数据集，我们使用前50%的类作为可见类，其余50%的类作为新类。我们使用来自所见类的10%数据作为标记集，并使用剩余的90%数据以及来自新类的样本作为未标记集，用于我们在标准基准数据集上的实验。对于细粒度的数据集，我们使用来自已标记类的50%数据。补充材料中提供了其他结果和其他数据百分比在ORCA [9]之后，为了公平比较，我们使用ResNet-50 [25]进行ImageNet-100实验，使用ResNet-18 [25]进行所有其他实验。我们对最后一个线性层的权重应用l2对于CIFAR-10、CIFAR-100和Tiny ImageNet实验，我们训练模型200个epoch。对于其他数据集，我们训练这些模型100个epoch。我们使用除了ImageNet-100之外，我们所有实验的批量大小都是256，与[9]类似，我们使用的批量大小是512。为了优化网络参数，我们使用了带有动量的SGD优化器我们使用基于余弦退火的学习率+v：mala2255获取更多论文走向现实的半监督学习9调度器伴随着线性预热，我们将基本学习速率设置为0.1，并将预热长度设置为10个epochs。对于网络参数，我们将权重衰减设置为 1 e-4 。在 [10] 之后，我们将 λ 的值设置为 0.05 ，并使用Sinkhorn-Knopp算法执行3次迭代以生成伪标签。补充材料中提供了其他实施细节。评估细节对于评估，我们报告标准的分类精度上看到的类。在新的类别上，我们报告了聚类精度[9，22，17，23]。为此，我们将类预测视为聚类ID。接下来，我们使用匈牙利算法[40]将聚类ID与地面实况类进行匹配。一旦获得匹配，我们就用相应的聚类ID计算分类准确度此外，如果一个新的类样本被分配给一个可见的类，我们认为这是一个错误分类的预测，并在将聚类ID与地面真实类标签匹配之前删除该样本。我们还报告了所有类别的聚类准确性。我们将我们的方法在CIFAR- 10，CIFAR-100和ImageNet-100数据集上的性能与[9]中报告的结果进行了比较。其余四个数据集没有任何公开的开放世界SSL问题的评估。因此，我们使用公开可用的代码库将三种最近的新型类发现方法[22，23，17]扩展到开放世界的SSL设置。对于[22，23]，我们通过遵循[9]扩展未标记的头以包括所见类的logit。然而，这两种方法都没有任何显式的分类损失，在未标记的头看到的类。因此，没有直接的方法将所看到的类样本映射到它们对应的类logit。为了报告看到的类的分数，我们使用匈牙利算法这两种方法。在[17]中，为未标记头部上的新类样本生成伪标签。为了使其与开放世界SSL设置兼容，我们在训练期间从标记和未标记头部的级联预测中生成伪标签。由于这种方法有明确的分类损失，我们报告标准的分类精度上看到的类。4.2主要结果标准基准数据集我们将我们的方法与开放世界SSL问题[9]的现有1和12。在CIFAR-10上，我们观察到我们提出的方法在看到的和新的类别上分别比ORCA [9]高出12.1%和4.1%。我们提出的方法也大大优于其他新的类发现方法[23，22，17]。FixMatch [62]（一种最先进的封闭世界SSL方法）也观察到了相同的趋势。最后，我们提出的方法优于DS3L[21]，这是一种流行的鲁棒SSL方法.有趣的是，我们所提出的方法的改进在CIFAR-100数据集上更为突出，因为类别数量较多，这更具挑战性。在CIFAR-100数据集上，我们提出的方法比ORCA高出约20%小说类和16%的看到类。值得注意的是，我们观察到UNO[17]在这个数据集上的表现略优于ORCA然而，我们提出的方法+v：mala2255获取更多论文10米N. Rizve等人表1：CIFAR-10、CIFAR-100和ImageNet- 100数据集的平均准确度，其中50%的类为可见类，50%的类为新类结果在三次独立运行中取平均值。方法CIFAR-10查看小说全部CIFAR-100查看小说全部ImageNet-100查看小说全部[62]第六十二话64岁3四十九4四十七330.9十八岁515个。3六十9三十三730. 2DS3 L[21]七十。5四十六643.5三十三715个。815个。164岁328岁1二十五9DTC[23]42岁731岁832岁422号。110. 5 13岁724岁5十七岁819号。3[22]第二十二话71岁。463岁966岁720.4十六岁7十七岁841岁226岁837岁4UNO[17]86岁。571岁。278岁9五十三7三十三642岁766岁042岁2五十三3Orca[9]82.885. 584.152.531岁838岁683. 9六十569岁7我们94.989岁692.268岁。552. 1 六十382. 667岁。8七十五。4表 2 ： Tiny ImageNet 、 Oxford-IIIT Pet 、 FGVC- Aircraft 和Stanford-Cars数据集的平均准确率，其中50%的类为可见类，50%的类为新类。结果在三次独立运行中取平均值方法微小看到ImageNet新型全奥克斯福看到d-IIIT小说宠物所有FGVC-Aircraft查看小说全部斯坦福汽车查看小说全部DTC[23]13岁512个。7十一岁520. 7十六岁013岁5十六岁3十六岁5十一岁812个。310. 0第七章7[22]第二十二话第九章6八、9第六章412个。6十一岁9十一岁113岁413岁6十一岁110. 4第九章1第六章6UNO[17]28岁414个。420. 4 四十九822号。7三十四944. 424岁731岁8四十九015个。730.7我们39岁。520. 5 30. 3七十。9三十六。1五十三969岁541岁2五十五483. 537岁1六十4远远超过了UNO 接下来，我们评估ImageNet的两个变体：ImageNet-100和Tiny ImageNet。我们在ImageNet-100数据集上观察到类似的趋势，我们观察到比ORCA整体提高了5.7%。之后，我们在挑战Tiny ImageNet数据集上进行了实验。这个数据集比CIFAR-100和ImageNet-100数据集更具挑战性，因为它有200个类。此外，在没有迁移学习的情况下，即使是监督方法的性能在这个数据集上也相对较低。总的来说，我们提出的方法比第二好的方法UNO高出9.9%，这在这个具有挑战性的数据集上相对提高了近50%。在这四个数据集上的结果表明，所提出的方法不仅优于以前的方法，而且在类的数量显着增加的情况下也表现出色，这对于聚类方法来说一直是一个挑战。细粒度数据集最后，我们在三个具有不同类别数量的细粒度分类数据集上评估了我们的方法这种评估是特别重要的，因为细粒度分类捕获与许多现实世界的应用程序相关联的挑战。我们假设，细粒度分类对于开放世界半监督学习来说是一个更难的问题，因为新的类在视觉上与看到的+v：mala2255获取更多论文类相似。在这些实验中，我们将所提出的方法的性能与三种新的类发现方法DTC[23]，RankStat [22]和UNO[17]进行了比较。我们在Tab中报告结果。12个。我们的方法在这些细粒度分类上再次优于所有三种方法+v：mala2255获取更多论文走向现实的半监督学习11阳离子数据集由一个显着的边际。具体而言，总体而言，与第二好的方法UNO相比，所提出的方法实现了50-100%的相对改进。总之，我们以前的结果与这些细粒度的结果相结合，展示了我们提出的方法的有效性，并表明了更广泛的应用程序更实际的设置。表3：对CIFAR-10、CIFAR-100和Tiny ImageNet数据集的Ablataion研究这里，UTS指的是不确定性引导的温度缩放，MPL指的是混合伪标记，Oracle指的是具有关于新类数量的先验知识UTS MPL OracleCIFAR-10查看小说全部CIFAR-100查看小说全部微小看到ImageNet新型全✗ ✗ ✓九十六。084. 4九十。269岁2四十六5五十七938.117.528.1✓ ✗ ✓九十五。086岁。6九十。869岁4四十六6五十七941.316.029.2✗ ✓ ✓九十五。887岁991. 9 66岁9四十八。1五十七534.921.028.2✓ ✓ ✗94. 9 89岁692. 2 65岁544. 2 54号8四十319号。330.2✓ ✓ ✓94. 9 89岁692. 2 68岁。552. 1六十339岁。520.530.34.3消融和分析为了研究不同组件的影响，我们对 CIFAR-10 、 CIFAR-100 和 TinyImageNet数据集进行了广泛的消融研究。我们在Tab中报告结果。3.第一行描绘了我们提出的方法在没有不确定性引导的温度缩放和混合伪标记的情况下的性能。在这里，我们可以看到，我们提出的方法是能够实现合理的性能仅基于分布感知的伪标签。接下来，我们研究去除混合伪标记的影响。我们观察到新类的性能下降了很多; CIFAR-10上下降了3%，CIFAR-100上下降了5.5%，Tiny ImageNet数据集上下降了4.5%。这表明混合伪标记鼓励对新类的自信学习，并且是我们方法的关键组成部分。在此基础上，我们研究了不确定度引导下的温度标度效应.我们观察到，所有三个数据集的整体性能我们还观察到，在较硬的数据集上，性能下降更为严重（Tiny ImageNet上的相对下降率为6.9%，而CIFAR-100上为4.6%）。接下来，我们报告分数与估计数量的新类（第二节）。4.3）以确保完整性（选项卡中没有Oracle。3）。我们观察到，即使估计了新类的数量，我们的方法也大大优于ORCA和UNO。我们的消融研究作为一个整体表明，我们提出的方法的每一个组成部分是至关重要的，并作出了显着的贡献，最终的性能，同时实现其指定的目标。估计新类的数量一个现实的半监督学习系统应该对问题的性质做出最小的假设。对于开放世界SSL问题，确定新类的数量是关键步骤，因为如果没有明确确定类的数量，+v：mala2255获取更多论文小说看过所有12米。N. Rizve等人表4：新类别数量的估计。该表显示了不同数据集中类的估计数量与实际数量。数据集GT估计误差CIFAR-10100%的百分比CIFAR-100 100117百分之十七ImageNet-100 100139百分之三十九微型ImageNet 200192−4%方法将不得不假设新类的数量是预先已知的，或者为新类的数量设置上限。一个更实际的方法是估计未知类的数量。因此，这项工作提出了一个解决方案，以显式地估计新类的数量。为此，我们利用Simplified的自监督功能[12]。估计小说数量类，我们执行k-均值聚类与不同的k值的Simplified功能。我们通过评估标记样本上生成的聚类的性能来确定最佳k我们根据经验发现70605040252015 1050 5101520 25这种方法通常低估了新类的数量。这是可以预料的，因为聚类准确性通常会随着类估计误差（%）图3：CIFAR-100数据集上作为类别估计误差的函数的准确性由于将标记的样本分配给未知的聚类，聚类的数量不断增加为了缓解这个问题，我们执行样本重新分配技术，其中我们将分配给未知聚类的标记样本（误分类样本）重新分配到基于其与聚类中心的距离的最近标记聚类。补充材料中提供了更多细节。我们报告我们的估计方法的性能表。13岁我们观察到，在所有四个数据集上，我们提出的估计方法都具有合理的性能。除此之外，我们在CIFAR- 100数据集上进行了一系列实验，以确定所提出的方法对新的类估计误差的敏感性结果如图3所示，我们观察到我们提出的方法在很宽的估计误差范围内表现得相当好请注意，即使有25%的高估和低估误差，我们提出的方法也优于ORCA和UNO（表1）。①的人。这些结果再次证实所提出的解决方案的实用性。尽管大多数标准的基准视觉数据集都是类平衡的，但在现实世界中，情况几乎不是这样。相反，真实世界的数据往往表现出长尾分布。由于我们提出的方法可以考虑任何任意分布来生成伪标签，因此它可以自然地考虑不平衡。为了证明我们提出的方法对不平衡数据的有效性，我们在CIFAR-100数据集上进行了实验，准确度（%）+v：mala2255获取更多论文我们Unoce改革者体育类看到我们Unoce性能l类Nove准确度（%）准确度（%）走向现实的半监督学习13表5：具有不同不平衡因子（IF）的CIFAR-100数据集的性能，其中50%类别为可见类别，50%类别为新类别。方法IF=10查看小说全部IF=20看小说所有均衡类分布先验四十八。428岁638岁944. 422号。9三十三850.第50章. 五点半八点四十一。0四十八。824岁6三十六。9估计类分布先验50块231岁341岁344. 224岁0三十五3在选项卡中报告结果。五、我们观察到，对于10和20的两个不平衡因子（指数），我们提出的具有不平衡类分布先验的方法分别比平衡先验基线提高了1.1%和3.1%我们还进行了另一组实验，我们假设没有访问类分布先验。为此，我们提出了一个简单的扩展我们的方法来解决不平衡问题。在我们无法访问有关类分布的先验信息的情况下，为了训练我们的模型，我们从类平衡先验开始。接下来，我们在每隔几个时期之后，基于最新的后验类分布迭代地更新先验。结果报告在选项卡的最后一行中五、我们观察到，我们的简单的估计技术表现相当不错，并优于类平衡的基线与一个明显的利润率。总之，这些实验验证了我们提出的方法可以有效地利用底层数据分布，即使在我们无法访问类分布先验时也能很好地工作。70705060605010 30 50 7090新类别（%）403010 30 50 7090新类别（%）50403010 30 50 70 90新类别（%）图4：观察到的（左）、新的（中）和所有类别（右）的准确性，作为CIFAR-100数据集上新类别的不同百分比的函数在我们所有的实验中，我们认为50%的类是可见的，其余50%是新的。为了进一步研究我们的方法在不同条件下的表现，我们改变了新类的百分比。我们在CIFAR-100数据集上进行了这个实验。结果如图4所示，其中我们将新类别的数量从10%变化到90%。对于此分析，我们将性能与UNO进行比较。左图图4显示了我们在可见类上的性能随着我们增加新类的百分比而保持相对相同。此外，我们观察到，当新类的百分比非常高（90%）时，我们的可见类准确性大大增加，这是可以预期的，因为这是一个更容易的可见类分类任务。然而，对于UNO，我们注意到随着新类数量的增加，性能显著下降，这表明UNO并不充分。我们Unoe福曼每类所有准确度（%）+v：mala2255获取更多论文14米N. Rizve等人对于这种具有挑战性的设置来说非常稳定关于小说类（Fig.4-中），正如我们预期的那样，我们观察到随着新类数量的增加，性能稳步下降然而，如该图所示，即使在非常高的新类别比率下，我们提出的方法也可以成功地提供非常好的性能。请注意，我们没有在这个实验中包括ORCA，因为他们的代码不是公开的。然而，在其补充材料中可获得ORCA的类似分析，标签数据为50%我们观察到，即使我们只使用10%的标记数据，我们的新类性能也明显高于ORCA最后，在图4-右中，我们观察到随着我们增加新类的百分比，整体性能可预测地下降。在这项工作中，我们提出了一个通用的解决方案，开放世界的SSL问题，可以很容易地修改为新的类发现问题，其中的主要假设是，未标记的数据只包含新的类样本。在这组实验中，我们通过仅为新类生成伪标签来将我们提出的方法应用于新类发现任务。我们不做任何其他的表6：CIFAR-100数据集上的新类别发现任务的性能，其中50%的类别为可见的，50%的类别为新的。方法新颖k表示28。3DTC[23]35. 9[22]第三十九章：一个人的世界2[22]第四十二章：一个人1[17]第五十二章. 9我们对这项任务的原始方法进行修改。这些实验的结果见表1。第六章我们在CIFAR-100-50上进行实验，即，50个类被设置为小说。为了比较，我们使用UNO [17]中报告的结果。据我们所知，UNO报告了这个特定实验设置的最佳分数。选项卡. 6表明，所提出的方法优于k-均值，DTC [23]，RankStats [22]和RankStats+。重要的是，我们的方法也优于目前最先进的方法对于新类发现，UNO，4.6%。有趣的是，这个实验表明，我们提出的方法是一个通用的解决方案，可以很容易地应用到新的类发现问题。5结论在这项工作中，我们提出了一个实用的方法来解决开放世界的SSL问题。我们提出的方法根据类分布生成伪标签，然后在具有任意类分布的现实环境中解决开放世界SSL问题。我们扩展我们的方法来处理实际的情况下，既没有未知类的数量，也没有类分布先验。此外，我们引入不确定性引导的温度缩放来提高伪标签学习的可靠性。我们在七个不同的数据集上进行了大量的实验，证明了我们的方法的有效性，它显着提高了最先进的水平。最后，我们表明，我们的方法可以很容易地应用到新的类发现问题，优于现有的解决方案。五十七5+v：mala2255获取更多论文UU−U走向现实的半监督学习15附录本附录包括以下各节。首先，在A节中介绍了我们的训练算法。然后，我们将在第B.我们在实验中使用的数据集的详细信息可以在C节中找到。接下来，在D节和E节中，我们

下载后可阅读完整内容，剩余1页未读，立即下载