没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文OpenLDN:学习发现开放世界半监督学习Mamshad Nayeem Rizve1、Navid Kardan1、Salman Khan2、FahadShahbaz Khan2和Mubarak Shah11计算机视觉研究中心,UCF,美国2穆罕默德·本·扎耶德大学,阿联酋{nayeemrizve,kardan} @ knights.ucf.edu,{salman.khan,fahad.khan} @mbzuai.ac.ae,shah@crcv.ucf.edu抽象的。半监督学习(SSL)是解决监督学习中标注瓶颈的主要方法之一。最近的SSL方法可以有效地利用大型未标记数据存储库来提高性能,同时依赖于一小组标记数据。大多数SSL方法中的一个常见假设是,标记和未标记的数据来自相同的数据分布。然而,在许多现实世界的场景中,情况并非如此,这限制了它们的适用性。在这项工作中,相反,我们试图解决具有挑战性的开放世界的SSL问题,不作出这样的假设。在开放世界SSL问题中,目标是识别已知类别的样本,同时检测和聚类属于未标记数据中存在的新类别的这项工作介绍了OpenLDN,利用成对的相似性损失,发现新的类。使用双层优化规则,这种成对相似性损失利用标记集中可用的信息来隐式地聚类新的类样本,同时识别来自已知类的样本。在发现新的类之后,OpenLDN将开放世界的SSL问题转换为标准的SSL问题,以使用现有的SSL方法实现额外的性能增益我们广泛的实验表明,OpenLDN在多个流行的分类基准上优于当前最代码:https://github.com/nayeemrizve/OpenLDN关键词:开放世界,半监督学习,新类1介绍深度学习方法在具有挑战性的监督学习任务上取得了重大进展[29,66,28,10,13]。然而,监督学习范式需要访问大量手动标记的数据,这是耗时且昂贵的。已经提出了几种方法来解决这个问题,包括半监督学习[68,49,6],主动学习[37,22,59],arXiv:2207.02261v2 [cs.CV] 2022年7+v:mala2255获取更多论文2M. N. Rizve等人自我监督学习[19,14,27],迁移学习[60,79,38]和少数学习[21,72,62,57]。其中,半监督学习(SSL)是减少tak所需的注释量的主要方法之一。利用大量未标记数据的集合尽管最近的SSL方法[6,5,63,75]已经取得了有希望的结果,但它们的主要假设之一是标记和未标记的数据都来自相同的分布。然而,这种假设在许多现实世界的场景中很难满足(开放世界问题,例如,[4,34])。例如,未标记的数据通常是从web源中挖掘的,这些web源可以包括来自未知类的示例。已经确定,使用此类示例进行训练通常 会降低标准SSL方法的 性能[51,16]。为了 减轻来自未知(新)类别的未标记样本的负面影响,已经提出了不同的解决方案[24,16,82]。然而,他们的主要动机是仅仅忽略新的类样本,以防止已知类的性能相比之下,最近ORCA [7]将SSL问题推广到新类,其目标不仅是保留已知类的性能,而且还要识别新类的样本这种现实的SSL设置被称为开放世界SSL问题,是这项工作的重点。这项工作提出了OpenLDN,它采用了成对的相似性损失,发现新的类。这种损失解决了确定图像对是否属于同一类的成对相似性预测任务从本质上讲,这个任务类似于无监督聚类问题[11,73],从而通过识别相干聚类来促进新的类发现。解决两两相似性问题的根本挑战是在不访问图像类别标签的情况下确定图像之间的相似性关系。克服这一挑战的一种常见方法是基于预训练的无监督/自监督特征来估计成对相似性关系[25,7]。然而,该过程在计算上是昂贵的。为了避免依赖于无监督/自监督预训练,相反,我们利用已知类别的标记示例中可用的信息来解决成对相似性预测任务,并引入成对相似性预测网络来生成一对图像之间的相似性得分为了更新这个网络的参数,我们采用了一个双层优化规则[3,24],它将已知类的标记示例中可用的信息转移到学习未知类中。特别是,我们隐式优化的相似性预测网络的参数的基础上标记的例子上的交叉熵损失。通过这种方式,我们解决了成对相似性预测任务,而不依赖于无监督/自监督预训练,这使得整体训练更有效,同时提供了可观的性能增益。基于输出概率线索的两两相似关系学习涉及根据最可能的类隐式地发现聚类,因此,新阶级的发现。一旦我们学会识别新的类,我们就可以为新的类样本生成伪标签。这随后使我们能够通过利用未标记样本的生成伪标签将新的+v:mala2255获取更多论文OpenLDN:学习发现开放世界SSL 3的类样本到标记集。这种将开放世界问题转化为封闭世界问题的独特视角特别强大,因为它允许我们利用任何现成的封闭世界SSL方法来实现进一步的改进。然而,这种策略的一个缺点是,为新类生成的伪标签往往是嘈杂的,这反过来又会阻碍后续的训练。为了解决这个问题,我们引入迭代伪标签,一个简单而有效的方法来处理噪声估计的伪标签。概括起来,我们的主要贡献是:(1)我们提出了一种新的算法,OpenLDN,解决开放世界的SSL。OpenLDN应用双层优化规则来确定成对的相似性关系,而不依赖于预先训练的特征,(2)我们提出通过发现新的类将开放世界SSL转换为封闭世界SSL问题;这允许我们利用任何现成的封闭世界SSL方法来进一步提高性能,以及(3)我们引入迭代伪标签,这是一种简单有效的方法来处理新类的噪声伪标签,(4)我们的实验表明OpenLDN明显优于现有的最先进的方法。2相关作品半监督学习:SSL是处理监督学习中标签和符号瓶颈的流行方法[23,33,46,36,54,15,9]。通常,这些方法是为封闭世界设置开发的,其中未标记集仅包含来自已知类的样本。封闭世界SSL的两种最主要的方法是一致性正则化[58,43,48,69]和伪标记[45,61,2,55]。基于一致性正则化的方法使图像的不同增强版本之间的一致性损失最小化,以从未标记样本中提取基于伪标签的方法通过在标记数据上训练的网络为未标记的样本生成伪标签,然后以监督的方式对其进行训练。最后,混合方法[6,5,63]结合了一致性正则化和伪标记。最近的工作[51,16]表明,在未标记集合中存在新的类样本会对已知类的性能产生负面影响不同已经提出了解决这个问题的解决方案[24,16,82]。在[24]中训练了一个权重函数来降低新类别样本的权重。在[16]中,基于置信度得分过滤出新的类样本。在[82]中引入了加权批量归一化,以实现对新类别样本的鲁棒性。然而,这些方法都没有试图解决具有挑战性的开放世界SSL问题,其目标是检测新类别的样本并对其进行分类。据我们所知,ORCA[7]是解决这个问题的唯一方法,它引入了一种基于交叉熵损失的不确定性自适应边缘,以减轻已知类在训练早期阶段的过度影响。然而,为了发现新的类,ORCA依赖于自我监督的预训练,这在计算上是昂贵的。为了克服对自监督预训练的依赖,OpenLDN中的成对相似性损失利用了使用双层优化规则的已知类的标记示例+v:mala2255获取更多论文我我我i=1我i=14米N. Rizve等人新类发现:新类发现问题[26,25,31,30,20,84,81,83,32]与无监督聚类密切相关[77,76,74,70]。新类发现和非监督聚类的关键区别在于前者依赖于一个额外的标记集来学习新类。为了发现新的类,[25]执行自监督预训练,然后基于自监督特征的秩统计来解决成对相似性预测任务。[26]扩展了深度聚类框架以发现新的类。在[31,30]中也应用了成对相似性预测任务,通过从已知类别转移知识来对新类别进行分类。虽然新的类发现方法通常使用多个目标函数,[20]使用多视图伪标记和交叉熵损失训练简化了这一点。开放世界SSL和新类发现之间的关键区别在于,前者不假设未标记的数据只包含新类样本。因此,新的类发现方法 不 容 易 适 用 于 开 放 世 界 的 SSL 问 题 。 此 外 , 我 们 的 实 验 表 明 ,OpenLDN优于适当修改的开放世界SSL的新类发现方法的相当大的利润。3方法为了从已知类和新类中识别未标记的样本,我们引入了成对的相似性损失来隐式地将未标记的数据聚类到已知类和新类中。这种隐式聚类诱导发现新的类,这是由交叉熵损失和熵正则化项补充。接下来,我们为新的类样本生成伪标签,将原始的开放世界SSL问题转换为封闭世界SSL问题。这种转换使我们能够利用现有的现成的封闭世界SSL方法来学习已知的和新的类,从而获得更多的收益。我们的方法概述见图1。在下文中,我们提出了问题公式,并提供了我们的方法的细节。3.1问题公式化我们将标量记为a,向量记为a,矩阵记为A,集合记为A。在矩阵中,第一个索引总是表示行,第二个索引表示列。此外,Ai,k和Ai,k分别指A中的第i行和第k列在开放世界SSL问题中,我们假设有一个标记集SL,一个未标记的集合,SU。令SL={xl,yl}nl表示标记的数据集,nl个样本,其中xl是标记样本,yl是其对应的标记,我我属于C1已知类之一。类似地,SU={xu}nu,由nu未标记样本,其中xu属于cu类之一,其中cu是SU中的类总数。在传统的封闭世界SSL设置中,假设标记数据和未标记数据的类别是相同的。然而,在开放世界的SSL框架中,SU包含一些不属于任何已知类的示例。属于未知类的样本被称为新类样本,其中每个样本属于cn个新类之一,即,在开放世界中,u=cl+cn。+v:mala2255获取更多论文›→∈LL组带标记向后:交叉熵损失熵正则化余弦相似度成对相似性损失未标记集向后:(双层优化)OpenLDN:学习发现开放世界SSL 5的图1:OpenLDN概述-学习发现新类别:将一组标记和未标记的图像提供给特征提取器f0以获得特征嵌入。嵌入被传递到分类器fΦ以获得输出概率。我 们 从一批中每个可能对的输出概率中计算成对余弦相似性得分。并行地,成对相似性预测网络f也基于成对的特征嵌入输出相似性分数。然后,我们计算成对的相似性损失(等式2)。(2)促进新课程的发现。我们还计算交叉熵(CE)损失(等式10)。6)和熵正则化损失(等式6)。7)通过分别从标记和伪标记样本学习并避免平凡解来补充成对相似性损失。 接下来,我们更新fΘ和fΦ的参数以最小化总体损失。然后,我们仅使用具有更新的fΘ和fΦ的标记样本来计算CE损失。 最后,我们利用双层优化规则来基于该CE损失来更新f ε(等式2)。4)。双层优化规则有助于通过将特征相似性从已知类 转 移 到未知类来优化特征。3.2学习发现新课程为了发现新的类,OpenLDN利用用Θ参数化的神经网络fΘ作为特征提取器。特征提取器通过将输入图像x投影到嵌入空间zRd中来生成特征嵌入,即,fΘ:X Z。这里,X和Z分别是输入图像和特征嵌入的集合接下来,为了识别来自新类别的样本,以及对来自已知类别的样本进行分类,我们应用分类器f Φ,用Φ参数化。 该分类器将嵌入向量z投影到输出分类空间f Φ:Z<$→Rcl+ cn中。在这个输出空间中,第一个cllogits对应于已知的类,其余的cnlogits属于新的类。利用softmax激活函数,从这些输出得分中得到softmax概率得分y∈Rcl+cn,即. ,y=Softmax(fΦ<$fΘ(x))。我们的总体目标是在识别已知类的同时发现新类,这包括三个损失:a)成对相似性损失L对,b)交叉熵(CE)损失ce,以及c)熵正则化项reg。成对相似性损失有助于网络发现新的类,而CE损失有助于通过利用地面真值标签和生成的伪标签对已知类和新类进行分类,而熵正则化有助于避免无效解。+v:mala2255获取更多论文L-是的Σ◦6米。N. Rizve等人发现新类别的总体目标函数如下:Lnov = Lpair + Lce + Lreg。(一)在使用nov进行训练之后,分配给最后一个cn中的任何一个的样本logit被认为是新的类样本。成对相似性损失:发现新的类是我们提出的方法的核心组成部分,这是一个无监督的聚类问题,可以表示为成对相似性预测任务[11,73]。特别地,在一对图像之间关于聚类只能存在两种可能的关系,它们要么属于同一聚类,要么不属于同一聚类。然而,为了解决成对相似性预测任务的监督是必要的。以前的方法[7,25]试图通过基于预先训练的特征找到最近的邻居(标记为同一聚类的成员)来为所有图像对生成成对的伪标签来克服这个问题然而,这样的方法是计算昂贵的,并遭受噪声估计最近的邻居。与这种方法形成鲜明对比的是,我们不是依靠无监督/自监督预训练来获得成对相似性预测任务的标签,而是学习基于更可靠的可用地面实况注释来估计成对相似性得分。为此,我们引入了一个成对相似性预测网络,f,参数为f。给定一对嵌入向量,f输出成对相似性得分,即,f ∈:Z×Z<$→[0,1]. 来自f的成对相似性得分可以用作用于最小化成对相似性损失的监督为此,给定一批图像,我们计算所有图像对之间的输出概率的余弦相似性。在此之后,对于我们的成对相似性损失,我们最小化输出概率的计算余弦相似性得分和来自f的估计成对相似性得分之间的l2损失。请注意,最小化输出概率的余弦相似性的成对相似性损失是至关重要的,因为这将隐含地导致基于最大概率得分的聚类的形成,从而识别新的类别。成对相似性损失如下:vl对 =Sim(Y)i=ji,:,Yj,:)−2f∈(Zi,:,Zj,:),(二更)其中,Y是输出概率y矩阵,Z是特征矩阵,Sim(.,. 表示余弦相似性函数。为了优化滤波器的参数,我们设计了一个双层优化过程[3]。由于我们无法访问任何未标记样本的标签,特别是来自新类别的样本,因此我们使用属于已知类别的标记样本这种双层优化背后的主要动机是获得一组参数,其不降低fΦ fΘ在已知类别上的性能。因此,我们基于标记示例上计算的交叉熵损失来优化f?优化过程如下:首先,我们更新的特征提取器和分类器的参数与方程中引入的组合损失。1、发现新的类。(Θθ,Φ)=(Θ,Φ)−α(Θ,Φ)ε(Θ,Φ)Lno v(Θ,Φ,ε).(三)+v:mala2255获取更多论文cececece我∪max(Yi,:i,:i,:OpenLDN:学习发现开放世界SSL 7的其中,α(Θ,Φ)是指用于优化参数Θ和Φ的学习速率。接下来,我们使用监督交叉熵损失,L1=−ikYi,klogYi ,k,在标记的示例上计算以更新f的参数。给你,Y是地面实况标签的矩阵更新规则根据,Ω∗=Ω−αΩ∇ΩLl(Θ∗, Φ∗),(4)其中,α是用于优化参数的学习率。因为他不是在Eq.中的目标L1(θ θ 1,Φ 2)中显式。4,我们执行一个双层优化-以计算ΔL1(θ,Φθ)。这种嵌套优化在大多数现代深度学习软件包支持自动区分[53,1]。这种双层优化过程确保了f的参数以这样一种方式更新,即已知类别的分类性能不会恶化,因为这是开放世界SSL的主要目标之一。使用标记和伪标记数据进行学习:在上文中,我们引入了成对相似性损失,以通过解决成对相似性预测任务来识别新类别。回想一下,我们的目标是识别未标记集合中的新类,同时对已知类进行分类。这个问题只允许访问已知类的有限数量的注释。利用这些可用注释的直接方法是最小化标记样本上的交叉熵损失。然而,这种方法可以创建对已知类别的强烈偏见,因为它们的训练信号很强[7]。为了减轻这种偏差并更有效地利用未标记的样本,我们为所有未标记的数据生成伪标签。生成的伪标签可以与groundtruth标签一起使用,以最小化交叉熵损失。按照惯例[45,2,55],我们根据网络输出概率生成伪标签为了减少使用不可靠的伪标签进行错误训练的可能性,我们只为足够自信的预测生成伪标签此外,我们基于伪标签的交叉熵学习满足了SSL作品中另一个常用的目标,即,一致性正则化这个目标鼓励扰动不变的输出分布,使决策边界位于低密度区域[12,71]。满足该目标的一种方式是最小化图像的两个随机变换版本的输出概率之间的分歧然而,它为损失增加了另一项,因此增加了一个新的超参数。一种更优雅的方式是使用从图像的一个转换版本生成的伪标签作为另一个版本的目标。我们利用从图像的弱变换版本xw生成的伪标签作为其强增强版本xs的目标。我们在下面陈述我们的伪标签生成过程:SPL={(xs,1)} (Yw)|max(Y_w)>τ},(5)其中,τ = 0。5(二进制分类的中点),以避免每个数据集的微调。一旦生成了伪标签,我们就将它们与地面实况标签S=SPLSL相结合,并使用交叉熵损失来训练模型在实践中,我们将这两个集合合并在一个批处理中。令SB表示一批,交叉熵这一组的损失定义为:+v:mala2255获取更多论文ΣΣBΣi=18米N. Rizve等人CuLce=−Yi ,klogY i,k,(6)i∈SBk=1其中,Y是一个热编码的地面实况标签和所生成的伪标签的矩阵。熵正则化:分配unla的众所周知的缺点之一基于区分性(如交叉熵)损失将数据归类为不同类别的原因是,它可能导致一个平凡的解决方案,其中所有未标记的样本都被分配到同一个类别[78,8,7,20]。我们的成对相似性损失遭受相同的问题,因为这样的解决方案也将最小化我们的成对相似性损失,在方程。二、为了解决这个问题,我们在训练目标中加入了熵正则化项。实现这一点的一种方法是将熵正则化独立地应用于每个样本的输出。然而,这种熵最小化的方式导致个体输出概率的实质性变化,这导致对新类样本的任意类分配。为了避免这个问题,我们对聚合统计量应用熵正则化,在我们的这个熵正则化项防止单个类支配整个批次,其中大多数未标记的样本仅分配给一个类。本学期不影响平衡的课堂作业。熵正则化被定义为,其中,y<$=1bCuLreg=y<$klogy<$k,(7)k=1是蝙蝠ch的平均概率y,b表示一个批次中的样本数量3.3使用迭代伪标签的一旦我们在未标记的数据中发现新的类,我们就可以将开放世界的SSL问题重新表述为封闭世界的SSL问题,以提高性能。为此,我们使用Eq.八:Y= 1max(Yi ,:)(Yi ,:)。(八)接下来,使用生成的伪标签,我们将新的类样本添加到标签集合。在这一点上,我们能够应用任何标准的封闭世界SSL方法[6,75,63,69]。不幸的是,伪标签往往包含可能妨碍性能的噪声为了减轻噪声的负面影响,我们建议在封闭世界SSL训练期间以迭代方式执行伪标记。这种新的迭代伪标号方法可以与EM算法相联系从这个角度来看,我们迭代地尝试更新伪标签(期望步骤),并通过最小化这些更新的伪标签的损失来训练网络(最大化步骤)。值得注意的是,OpenLDN,包括最终的封闭世界SSL再训练,在计算上更轻,或者与基于无监督/自监督预训练的方法相当(第12节)。4.2)。此外,从开放世界的SSL问题到封闭世界的问题的转换是一个通用的解决方案,可以应用到其他方法。我们在补充材料中提供了我们的整体训练算法。+v:mala2255获取更多论文OpenLDN:学习发现开放世界SSL 9的4实验评价数据集:为了证明OpenLDN的有效性,我们对五个常见的基准数据集进行了实验:CIFAR-10 [40],CIFAR-100 [41],ImageNet-100[18],TinyImageNet [44]和Oxford-IIIT Pet数据集[52]。CIFAR-10和CIFAR-100数据集都包含60 K图像(分为50 K/10 K训练/测试集),它们分别有10和100个类别ImagNet 1 -100数据集包含来自ImageNet的100个图像类别。Tiny ImageNet包含来自200个类的100 K/10 K训练/验证图像最后,Oxford-IIIT Pet包含来自37个类别的图像,分为3680/3669个训练/测试集。在我们的实验中,我们根据已知类和新类的百分比来划分这些数据集我们认为第一个cl类是已知的,其余的是新的。对于已知类,我们随机选择一部分数据来构建标记集,并将其余数据与所有新类样本一起添加到未标记集。实现细节:我们在所有实验中使用ResNet-18 [29]作为特征提取器,我们使用ResNet-50。我们实例化我们的成对相似性预测网络,f,MLP由一个维度为100的单个隐藏层组成。分类器fΦ是单个线性层。为了发现新的类,我们在所有实验中训练了50个epoch,批量大小为200(ImageNet-100为480)。我们总是使用亚当优化器[35]。为了训练特征提取器和分类器,我们将学习率设置为5e−4(ImageNet-100为1e−2)。对于成对相似性预测网络,我们使用1e−4的学习率。我们使用两种流行的封闭世界SSL方法,Mixmatch[6]和UDA[75],用于第二阶段封闭世界SSL训练。对于这个封闭世界训练,为了保持数据平衡,我们为每个新类选择了相同数量的伪标签。对于迭代伪标签,我们每10个epoch生成一次伪标签。其他实施细节见补充材料。评估:我们报告已知类别的标准精度。此外,在[26,25,7,20]之后,我们报告了新类别的聚类精度。我们利用匈牙利算法[42]在测量分类准确性之前对齐预测和地面实况标签。最后,我们还报告了使用匈牙利算法的新的和已知的类的联合精度4.1结果CIFAR-10、CIFAR-100和ImageNet-100实验:我们在Tab中展示了CIFAR-10、CIFAR-100和ImageNet-100数据集上的实验结果。五、我们在所有三个数据集上使用50%的新类进行实验,其中包括来自已知类的50%标记数据。我们在补充材料中报告了标记数据较少的其他结果。为了比较,我们主要使用[7]中报告的分数。此外,作为另一个竞争基线,我们修改了最近的一种新的类发现方法UNO [20],并包括其性能进行比较。选项卡. 5显示OpenLDN-MixMatch和OpenLDN-UDA都显著优于新颖类发现+v:mala2255获取更多论文∼10米N. Rizve等人方法CIFAR10 CIFAR100 ImageNet100已知新颖全部[63]第六十三章:一个女人五块五四点四十九。539六点二十三。五块二十。365.8 36.7 34.9[24]第27话. 六 点四十五。三点四十。255一百二十三。七点二十四。0 71.2 32.5 30.8[65]第六十二章.344.639.七四九。322. 五 点二十三。5 67.3 33.8 31.9DTC[26]53. 九点三十九分。538三点三十一分。322. 九 点十八分。25.6 20.8 21.3[25]第二十五话681.082。九点三十六。428. 四 点二十三。1 47.3 28.7 40.3[20]第91话. 六百六十九。380.568336.5515 − − −[7]第八十八章.290489.七六六。九点四十三。048一百八十九点一百七十二。一百七十七点八95.第一次约会 292.七九四。073。5468↑3. 8 六十1↑8。6OpenLDN-UDA九十五。7↑4。一百九十五。1↑4. 七九五。4↑5。七七四。1↑5。八点四十四。559389. 6↑0。5686 ↓3. 579. 1↑1. 3−−−表1:CIFAR-10,CIFAR-100和ImageNet-100数据集的准确性,其中50%的类别为已知类别,50%的类别为新类别。方法Tiny ImageNet Oxford-IIIT Pet表2:Tiny ImageNet和Oxford-IIIT Pet数据集的准确性,其中50%的类别为已知类别,50%的类别为新类别。方法(DTC [26],RankStats [25]和UNO [20])已针对开放世界SSL任务进行了修改。OpenLDN也优于其他基线方法:FixMatch [63],DS3 L[24]和CGDL [65]。这些结果展示了OpenLDN的有效性,在CIFAR-10数据集的不同评估指标上,OpenLDN的性能优于之前的最先进技术(ORCA [7]),绝对改善我们在CIFAR-100数据集上观察到类似的模式,其中OpenLDN在分类已知和新类别的联合任务上分别比ORCA和UNO高出12%和8.6%我们在ImageNet- 100数据集上也注意到了类似的趋势在优于所有基线方法的同时,OpenLDN相对于ORCA实现了1.3%的适度改进。这些结果验证了OpenLDN解决开放世界SSL问题的有效性。TinyImageNet和Oxford-IIIT Pet Experiments:我们还对具有挑战性的Tiny ImageNet数据集进行了自适应实验,其中类的总数明显大于CIFAR-10,CIFAR-100和ImageNet-100数据集。此外,为了进一步证明OpenLDN的有效性,我们还在细粒度数据集上进行了实验,即,牛津- IIIT宠物。这些实验的结果见表1。二、在Tiny ImageNet数据集上,我们观察到OpenLDN的性能明显优于DTC和RankStat。此外,OpenLDN-UDA在新类上比UNO实现了60%的相对改进。OpenLDN-MixMatch还在新类和所有类上实现了对UNO的显著改进此外,在罚款-已知小说所有已知小说所有DTC [26]28岁8十六岁319号。920. 7十六岁013岁5[25]第二十五话五、7五、43. 412个。6十一岁9十一岁1UNO [20]四十六5 15个。730. 3四十九822号。7三十四9+v:mala2255获取更多论文−∼OpenLDN:学习发现开放世界SSL 11的EntRegSimLossCWTItrPL已知 新型全66. honor 七点三十三。4✓66. honor 226六点四十六。266. honor 240353. 373. honey,honey 九点四十四。九点五十九。173. honey,honey546860。1表3:CIFAR-100的消融研究,50%类别为已知类别,50%类别为新类别。这里,EntReg指的是熵正则化,SimLoss指的是成对相似性损失,CWT指的是封闭世界SSL训练,ItrPL指的是迭代伪标记。OpenLDN的每个组件都对最终性能有贡献粒 度 Oxford-IIIT Pet 数 据 集 , 我 们 进 行 了 类 似 的 比 较 , 并 观 察 到OpenLDN显著优于所有三种新的类发现方法。确切地说,OpenLDN-Mixmatch在联合分类任务上实现了超过UNO的12.8%的绝对改进,并且类似地,OpenLDN-UDA实现了15.5%的绝对改进。在这两个数据集上的实验表明,OpenLDN可以扩展到大量的类,也是有效的挑战细粒度分类任务。4.2消融和分析我们对CIFAR-100数据集进行了广泛的消融研究,其中50%的样本,以研究OpenLDN不同组件的贡献结果见表1。3.在该表中,第一行表明,如果没有熵正则化,OpenLDN无法检测新类。我们有助于这一压倒一个类(秒。3.2)。接下来,我们评估我们的两两相似性损失与双层优化规则的影响。我们观察到,如果没有成对相似性损失,OpenLDN在新类上的性能下降了13.7%,这使得它成为我们提出的解决方案中最关键的组成部分我们还观察到,我们的成对相似性损失不会牺牲已知类的性能,以提高新类的性能这种结果是预期的,因为我们的双层优化规则的目标之一是保持已知类的性能(第2节)。3.2)。第四行演示了将开放世界SSL问题转换为封闭世界SSL问题的有效性。在这里,我们观察到,通过这个组件,我们在已知的类性能上获得了显着的此外,我们还注意到,在新的类性能显着改善。有趣的是,在这个数据集上,OpenLDN甚至在没有随后的封闭世界SSL训练的情况下,也表现出ORCA [7最后,Tab。3表明,包括迭代伪标记证明是有效的,其中我们观察到新类的2%性能提升。总之,这项广泛的消融研究从经验上验证了我们解决方案不同组件的有效性。封闭世界训练的影响:为了进一步研究封闭世界SSL训练的影响,我们在图1中的CIFAR-10数据集上对新类样本的概率输出进行了t-SNE可视化。二、以下+v:mala2255获取更多论文12米。N. Rizve等人4020200020204040 20 0 20404040 20 0 20 40图2:封闭世界训练的影响。CIFAR-10上新类别概率的t-SNE可视化:(从左到右)封闭世界训练前后。我们的一般设置,在这个实验中,我们认为50%的类是新的。结果见图13。2表明,在新的类发现训练后,新的类形成非常明显的集群。然而,由于新类是通过辅助损失学习的在使用封闭世界SSL方法(MixMatch)进行训练后,我们观察到这些重叠逐渐消失,新的类变得分离并形成紧凑的集群。该分析进一步验证了在发现新类后合并封闭世界SSL方法的互补效果。成对更改的效果相似性估计:在另一组实验中,为了分析我们使用双层优化规则的成对相似性估计的有效性,我们在CIFAR-100数据集上使用交替的成对相似性估计方法进行实验。结果见表1。四、在该表中,为了提供比较其他成对相似性估计技术的基线,我们包括了OpenLDN在没有任何成对相似性估计技术的情况下的性能。成对模拟Est.已知小说全部没有相似性66岁226岁6四十六2软余弦64岁510. 3 37岁4硬余弦(0.50)五十三7二、127岁9硬余弦(0.95)54号2十七岁3三十五8最近邻66岁431岁7四十九1OpenLDN66岁2四十3 五十三3表4:在CIFAR- 100数据集上使用替代成对相似性估计方法的结果,其中50%类别为已知类别,50%类别为新类别。第一行中的明智相似性损失。表中的下一行演示了当直接从特征的余弦相似性估计成对相似性时OpenLDN令人惊讶的是,这种估计成对相似性的方法在没有任何成对相似性损失的情况下比我们的基线表现得更差(第一行)。我们假设这一现象是由于在没有任何特征预训练的情况下特征的余弦相似性不稳定造成的在下一组实验中(第三和第四行),我们利用这种成对相似性估计方法的硬版本在此之后,我们最小化二进制交叉熵损失作为成对相似性损失。这两个实验的结果在第三和第四行中报告,其中观察到性能的进一步下降。一种可能的解释是,在没有任何特征预训练的情况下,这种成对相似性估计导致大量误报(来自新颖的+v:mala2255获取更多论文∼∼OpenLDN:学习发现开放世界SSL 13类),这又降低了已知类的得分。最后,在表格的下一行,我们使用了类似于ORCA [7]的基于最近邻的成对相似性估计技术如表中所示,这种基于最近邻的相似性估计在基线上改进,而没有任何成对相似性损失。然而,我们的两两相似性估计的基础上的双层优化规则优于这种最近邻的估计技术的显着保证金,我们获得了9%的绝对改善新的类。这些实验进一步验证了我们的主张,即没有特征预训练,常见的成对相似性估计技术是无效的,而OpenLDN中提出的成对相似性估计能够有效地学习这些成对相似性。计算成本分析:OpenLDN的主要优势之一是,与ORCA不同,它不需要任何功能初始化技术。这使得OpenLDN与ORCA相比计算效率更高。为了证明OpenLDN的效率,我们在图3中报告了CIFAR-100数据集上不同训练预算的性能。我们不认为,奥卡与模拟预-60402000 5 10 15 20 25小时图3:CIFAR-100数据集上挂钟时间的准确性。OpenLDN在不到3个小时的时间内就超过了ORCA。培训需要28小时,使用我们的计算资源。我们还观察到,即使没有封闭世界的SSL训练,OpenLDN在这个数据集上的表现也在3小时内优于ORCA。另一方面,封闭世界SSL训练非常快地达到合理的性能,并且随着时间的推移相对缓慢地提高。因此,如果需要考虑计算预算,我们可以在较早的阶段停止训练,而不会在性能上做出明显的权衡。未知数量的新类:在我们的实验中,我们假设新类的数量是预先已知的。这遵循了新颖的类划分方法[26,25,20],以及开放世界SSL的现有工作[7]。然而,这是一个限制性的假设,因为在现实世界的应用中,新类的数量是很少知道的先验。因此,估计新类别的数量对于更广泛的采用至关重要。据我们所知,DTC [26]是唯一一种提出估计新类别数量的解决方案的方法。然而,在我们的实验中,我们发现DTC只适用于少量的未知类,并且无法估计CIFAR- 100数据集的新类的数量,其中50%的类是新的。因此,与其估计的新类的数量的DTC,我们分析了OpenLDN的性能的假设,提供了一个合理的方法来估计的新类的数量。我们进一步假设,假设的方法将高估或低估的新类的数量。我们进行了两组实验来研究这两种情况。结果示于图1中。四、我们观察到OpenLDN的性能在一段时间内是稳定的OpenLDNOpenLDN-Mix匹配Orca准确度(%)+v:mala2255获取更多论文N奥韦尔WNKno所有准确度(%)14米。N. Rizve等人70706060505040400 10 20 30 4050低估(%)0 10 20 30 40 50高估(%)图4:CIFAR-100数据集上的性能,未知数量的新类。我们将前50%的类设置为已知类,其余50%的类设置为新类。大范围的估计误差。我们还注意到,即使估计误差为50%,OpenLDN在CIFAR-100数据集上的表现也优于ORCA。总之,这些实验表明,OpenLDN可以应用在一个更现实的设置,如果一个合理的方法来估计新的类的数量是可用的。5限制在这项工作中,我们专注于更一般的开放世界SSL问题,其中未标记的集合可以包括未知的类样本。然而,我们提出的解决方案是基于一些假设。最值得注意的是,根据以前的工作,我们假设已知的类是类似的小说类,因此他们将共享一些相关的信息,可以利用发现新的类。然而,在某些极端情况下,这一假设可能会被违反。此外,在熵正则化项中,我们鼓励输出是均匀的。对于不平衡的数据,这可能导致次优结果。一种解决方案是在熵正则化损失中应用先验目标分布[56这提示了一种新的研究途径,即研究在开放世界环境中估计先验目标分布的新方法。6结论在这项工作中,我们提出了OpenLDN来解决开放世界的SSL问题。OpenLDN通过解决成对相似性预测任务,利用成对相似性损失来发现和聚类新的类。我们的解决方案的一个优点是,所提出的成对相似性目标不依赖于任何额外的自监督预训练,而是利用了使用双层优化规则的标记集中容易获得的信息。此外,我们的解决方案通过将开放世界的SSL问题转化为封闭世界的SSL问题,为解决开放世界的SSL问题带来了独特的视角。这种洞察力提供了一个机会,可以在开放世界SSL的上下文中轻松地利用封闭世界SSL方法的所有最新进展。最后,我们引入迭代伪标签作为一个简单而有效的工具,以解决噪声中产生的伪标签的新类,而不增加任何显着的计算开销。OpenLDN是能够超越国家的最先进的开放世界的SSL方法,同时招致-环较低的计算成本。我们展示了OpenLDN在广泛的视觉数据集上的卓越性能。N奥韦尔WNKno所准确度(%)+v:mala2255获取更多论文OpenLDN:学习发现开放世界SSL 15的附录本附录包括有关我们的训练算法,实验设置和进一步评估的信息。我们在A节中提供了我们的训练算法。接下来,我们将在B节中介绍更多的实现细节。C部分提供了基线实现的详细信息。我们在D节中使用有限数量的标记数据样本在更受限制的环境中进行实验。我们包括一个适度不平衡的数据集,即结果SVHN,E部分。此外,我们在F节中提供了三个额外数据集(FGVC- Aircraft,Stanford-Cars和Herbarium19)的结果。最后,我们讨论了在G节中我们提出的OpenLDN方法中改变迭代伪标记频率的影响。AOpenLDN训练算法我们在Alg中提供OpenLDN训练算法。1.一、对于OpenLDN训练,我们需要一组标记数据SL和一组未标记数据SU。除此之外,我们还需要设置第1阶段(学习发现新类)和第2阶段(封闭世界SSL)训练的最大迭代次数:t1和t2,以及迭代伪标记的频率m。OpenLDN算法输出经训练的特征提取器fθ和分类器fΦ。对于OpenLDN训练的阶段1,首先,我们初始
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功