没有合适的资源?快使用搜索试试~ 我知道了~
广义类别发现及其解决方法
. . .Input imageImage patchesImage embeddingx768D+++-+--+74920广义类别发现0Sagar Vaze ? Kai Han † Andrea Vedaldi ? Andrew Zisserman ?0?牛津大学工程科学系视觉几何组0† 香港大学0{ sagar,vedaldi,az } @robots.ox.ac.uk kaihanx@hku.hk0设置:广义类别发现方法0(1)使用视觉变换器进行特征提取0(2)监督对比(左)和自监督对比(右)0(3)半监督K均值聚类0ViT0大象鸟0青蛙0青蛙0???0??0???0???0图1.我们提出了一个新的设置:‘广义类别发现’和一种解决方法。我们的设置可以简洁地描述为:给定一个数据集,其中的一个子集具有类别标签,对数据集中的所有未标记图像进行分类。未标记图像可能来自已标记或新类别。我们的方法利用对比训练的视觉变换器通过聚类直接分配标签。0摘要0在本文中,我们考虑了一种高度通用的图像识别设置,其中给定一组带有标签和未标签的图像,任务是对未标签集中的所有图像进行分类。在这里,未标签图像可能来自已标记类别或新类别。现有的识别方法无法处理这种设置,因为它们做出了一些限制性的假设,比如未标签实例只来自已知或未知的类别,未知类别的数量是先验已知的。我们解决了更加自由的设置,将其命名为‘广义类别发现’,并挑战了所有这些假设。我们首先通过从新类别发现的最新算法中选择代表性方法,并将其应用于这个任务,建立了强大的基线。为此,我们调整了它们的训练和推理机制,以适应我们更一般的设置,并使用更强大的骨干架构进行重新训练。我们展示了现有的新类别发现方法在这个广义设置中容易过拟合已标记类别。接下来,观察到新类别发现方法可能会过拟合其分类头到已标记类别,我们提出了一种简单但有效的通过聚类进行识别的方法。我们的关键洞察是利用视觉变换器的强大的‘最近邻’分类特性以及对比学习。我们提出了对比训练和半监督K均值聚类算法来识别没有参数化分类器的图像。我们展示了这些提出的方法在通用物体识别数据集上和尤其是在更具挑战性的细粒度基准测试中显著优于已有的基线。对于后者的评估,我们利用了最近提出的语义转变基准套件,该套件旨在识别语义新颖性。最后,我们提出了一个解决具有挑战性的问题的解决方案。0基线。最后,我们还提出了一种估计未标记数据中类别数量的新方法。我们在通用物体分类和细粒度数据集上对我们的方法进行了全面评估,利用了最近提出的语义转变基准套件。代码:https://www.robots.ox.ac.uk/ �vgg/research/gcd01. 引言0考虑一个坐在汽车里观察世界的婴儿。物体实例将会经过汽车,对于其中的一些实例,婴儿可能已经被告知它们的类别(‘那是一只狗’,‘那是一辆车’),并能够识别它们。还会有一些婴儿以前没有见过的实例(猫和自行车),通过观察这些实例,我们可能期望婴儿的视觉识别系统将它们聚类成新的类别。这是我们在这项工作中考虑的问题:给定一个图像数据集,只有一些图像带有类别标签,为其余的每个图像分配一个类别标签。74930图像,可能使用在标记集中未观察到的新类别。我们将这个问题称为广义类别发现(GCD),并认为这是许多机器视觉应用的现实用例:无论是在超市中识别产品,医学图像中的病理,还是自动驾驶中的车辆。在这些和其他现实的视觉环境中,往往无法知道新图像来自已标记还是新类别。相比之下,考虑现有图像识别设置的局限性。在图像分类中,这是最广泛研究的问题之一,所有的训练图像都带有类别标签。此外,测试时的所有图像都来自与训练集相同的类别。半监督学习(SSL)[7]引入了从未标记数据中学习的问题,但仍假设所有未标记图像来自与标记图像相同的一组类别。最近,开放集识别(OSR)[38]和新类别发现(NCD)[19]这两个任务解决了测试时的图像可能属于新类别的开放世界设置。然而,OSR的目标仅是检测不属于标记集中任何类别的测试图像,但不需要对这些检测到的图像进行进一步分类。与此同时,NCD方法从带有标签和未标签的图像中学习,并旨在在未标签集中发现新类别。然而,NCD仍然做出了一个限制性的假设,即所有未标记图像都来自新类别,这通常是不现实的。在本文中,我们以多种方式解决了广义类别发现的问题。首先,我们通过采用NCD的代表性方法并将其应用于这个任务,建立了强大的基线。为此,我们调整了它们的训练和推理机制,以适应我们更一般的设置,并使用更强大的骨干架构进行重新训练。我们展示了现有的NCD方法在这个广义设置中容易过拟合已标记类别。接下来,观察到NCD方法可能会过拟合其分类头到已标记类别,我们提出了一种简单但有效的通过聚类进行识别的方法。我们的关键洞察是利用视觉变换器的强大的‘最近邻’分类特性以及对比学习。我们提出了对比训练和半监督K均值聚类算法来识别没有参数化分类器的图像。我们展示了这些提出的方法在通用物体识别数据集上和尤其是在更具挑战性的细粒度基准测试中显著优于已有的基线。对于后者的评估,我们利用了最近提出的语义转变基准套件,该套件旨在识别语义新颖性。最后,我们提出了一个解决具有挑战性的问题的解决方案。0图像识别中一个鲜为人知的问题:估计未标记数据中的类别数量。几乎所有的方法,包括纯无监督方法,都假设知道类别数量,这是一个非常不现实的假设。我们提出了一种利用带标签集合来解决这个问题的算法。我们的贡献可以总结如下:(i)对图像识别提出了广义类别发现(GCD)的形式化,这是一种新的现实设置;(ii)通过将标准新类别发现的最先进技术应用到这个任务中,建立了强大的基线;(iii)提出了一种简单但有效的GCD方法,它使用对比表示学习和聚类直接提供类别标签,并且在很大程度上优于基线;(iv)提出了一种估计未标记数据中类别数量的新方法,这是一个很少研究的问题;(v)在标准图像识别数据集以及最近的语义转变基准套件[45]上进行了严格评估。02. 相关工作0我们的工作与半监督学习、开放集识别和新类别发现的先前工作相关,下面我们简要回顾一下。0半监督学习已经提出了一些方法[7,33,0已经提出了一些方法[37,40,49]来解决半监督学习(SSL)问题。SSL假设带标签和未标签的实例来自同一组类别。目标是在训练过程中利用带标签和未标签数据学习一个稳健的分类模型。在现有方法中,基于一致性的方法似乎很受欢迎和有效,例如LadderNet [36],PI模型[29],Mean-teacher[43]。最近,随着自我监督学习的成功,还提出了通过增加自我监督目标来改进SSL的方法[37,49]。0开放集识别开放集识别(OSR)问题在[38]中被形式化,其目标是对来自与带标签数据相同语义类别的未标签实例进行分类,同时检测来自未知类别的测试实例。OpenMax[3]是第一个使用极值理论来解决这个问题的深度学习方法。GAN经常被用来生成对抗样本来训练开放集分类器,例如[14,25,32]。已经提出了几种方法来训练模型,使具有大重构误差的图像被视为开放集样本[34,41,48]。还有一些方法通过学习标记类别的原型,并通过与原型的距离来识别未知类别的图像[8,9,39]。最近,[8,9]提出了学习相对点的方法,这些点描述了相对于标记类别的“其他性”[50]联合训练基于流的密度估计模型74940timator和基于分类的编码器用于OSR。最后,Vaze等人[45]研究了封闭集和开放集性能之间的相关性,表明可以通过提高标准交叉熵基线的封闭集准确性来获得最先进的OSR结果。新类别发现新类别发现(NCD)问题在DTC[19]中被形式化。可以应用于此问题的早期方法包括KCL[21]和MCL[22],它们分别使用带标签数据和未标记数据训练两个模型,用于一般任务迁移学习。AutoNovel(又名Rankstats)[17,18]使用三阶段方法解决NCD问题。首先,模型通过自我监督在所有数据上进行训练,进行低级表示学习。然后,它进一步通过带标签数据进行全面监督训练,以捕捉更高级的语义信息。最后,进行联合学习阶段,使用排名统计将知识从带标签数据传递到未标记数据。Zhao和Han[51]提出了一个具有两个分支的模型,一个用于全局特征学习,另一个用于局部特征学习,这样可以通过这两个分支进行双重排名统计和相互学习,以实现更好的表示学习和新类别发现。OpenMix[53]混合带标签和未标记数据,以避免模型对NCD过度拟合。NCL[52]使用对比学习提取和聚合未标记数据的成对伪标签,并通过在特征空间中混合带标签和未标记数据生成困难负例来进行NCD。Jia等人[23]提出了一种用于单模态和多模态数据的端到端NCD方法,使用对比学习和胜者通吃哈希。UNO[13]引入了统一的交叉熵损失,允许模型在带标签和未标签数据上进行联合训练,通过交换带标签和未标签分类头的伪标签。最后,我们强调Girish等人[15]的工作,它解决了与GCD类似的设置,但用于GAN归因而不是图像识别任务,以及Cao等人[4]的并行工作,它解决了类似的图像识别设置,名称为开放世界半监督学习。与我们的设置不同,他们不利用大规模预训练,也没有在语义转变基准测试中展示性能,这更好地隔离了检测语义新颖性的问题。03. 广义类别发现0我们首先对广义类别发现(GCD)任务进行形式化。简而言之,我们考虑对数据集中的图像进行分类的问题,其中一部分图像具有已知的类别标签。任务是使用可能在标记图像中观察到的类别或未观察到的类别为所有剩余图像分配类别标签(见图1,左侧)。形式上,我们定义GCD如下。我们考虑一个由两部分组成的数据集D,即D L = {(x i, y i)} N i = 1 2和D U = {(x i, y i)} M i = 1 2,其中Y L � YU。在训练过程中,模型无法访问DU中的标签,并且任务是在测试时预测它们。此外,我们假设有一个验证集D V = {(x i, y i)} N 0 i = 12,它与训练集不相交,并包含与标记集相同类别的图像。这种形式化使我们能够清楚地看到与新类别发现设置的区别。NCD假设Y L \ Y U =;,现有方法在训练过程中依赖于这个先验知识。在本节中,我们描述了我们提出的解决GCD的方法。首先,我们描述了我们的方法。利用自监督表示学习的最新进展,我们提出了一种基于对比学习的简单而有效的方法,通过半监督k-means算法进行分类。接下来,我们开发了一种估计未标记数据中类别数量的方法,这是一项在文献中研究不足的挑战性任务。最后,我们通过修改最先进的NCD方法RankStats [18]和UNO[13]来适应我们的设置,构建了两个强基线用于GCD。0X � Y L和D U = {(x i, y i)} M i = 1 2 X � Y U,其中Y L � YU。在训练过程中,模型无法访问DU中的标签,并且任务是在测试时预测它们。此外,我们假设有一个验证集D V = {(x i, y i)} N 0 i = 1 2 X � YL,它与训练集不相交,并包含与标记集相同类别的图像。这种形式化使我们能够清楚地看到与新类别发现设置的区别。NCD假设Y L \ Y U =;,现有方法在训练过程中依赖于这个先验知识。在本节中,我们描述了我们提出的解决GCD的方法。首先,我们描述了我们的方法。利用自监督表示学习的最新进展,我们提出了一种基于对比学习的简单而有效的方法,通过半监督k-means算法进行分类。接下来,我们开发了一种估计未标记数据中类别数量的方法,这是一项在文献中研究不足的挑战性任务。最后,我们通过修改最先进的NCD方法RankStats[18]和UNO[13]来适应我们的设置,构建了两个强基线用于GCD。03.1. 我们的方法0我们在开放世界环境中进行图像识别的方法的关键洞察是消除了参数化分类头的需求。相反,我们直接在深度网络的特征空间中进行聚类(见图1,右侧)。分类头(通常是在学习的嵌入之上的线性分类器)最好使用交叉熵损失进行训练,但已经显示出对噪声标签敏感[12]。此外,当为未标记的类别训练线性分类器时,一种典型的方法是为未标记的实例生成(有噪声的)伪标签。这表明参数化头对未标记的类别容易导致性能下降。最后,我们注意到,出于必要性,分类头必须从头开始训练,这进一步使它们容易过度拟合标记的类别。与此同时,自监督对比学习已被广泛用于预训练以实现NCD中的稳健表示[23,52]。此外,当与视觉变换器结合使用时,它生成的模型是良好的最近邻分类器[6]。受此启发,我们发现对ViT模型进行对比训练使我们能够直接在模型的特征空间中进行聚类,从而消除了可能导致过度拟合的线性头的需求。具体而言,我们使用无标签的所有图像在没有使用任何标签的情况下使用噪声对比损失[16]来训练表示。这一点很重要,因为它避免了将特征过度拟合到(部分)标记的类别子集。我们还为标记的实例添加了进一步的监督对比组件[24],以利用标记数据(见图1,右侧中间行)。6666Given the learned representation for the data, we can nowassign class or cluster labels for each unlabelled data point,either from the labelled classes or unseen new classes. In-stead of performing this parametrically as is common inNCD (and risk overfitting to the labelled data) we proposeto use a non-parametric method. Namely, we propose tomodify the classic k-means into a constraint algorithm byforcing the assignment of the instances in DL to the cor-rect cluster based on their ground-truth labels. Note, herewe assume knowledge of the number of clusters, k. Wetackle the problem of estimating this parameter in Sec. 3.2.The initial |YL| centroids for DL are obtained based on theground-truth class labels, and an additional |YU \YL| (num-ber of new classes) initial centroids are obtained from DUwith k-means++ [1], constrained on the centroids of DL.During each centroid update and cluster assignment cycle,instances from the same class in DL are always forced tohave the same cluster assignment, while each instance inDU can be assigned to any cluster based on the distance todifferent centroids. After the semi-supervised k-means con-verges, each instance in DU can be assigned a cluster label.We provide a clear diagram of this in Appendix B.749503.1.1 表示学习0对于所有方法,我们使用一个视觉变换器(ViT-B-16)[11]在(未标记的)ImageNet [10]上通过DINO[6]自监督进行预训练作为我们的骨干网络。首先,DINO模型是一个强大的最近邻分类器,这表明在其特征空间中进行非参数化聚类会很好地工作。其次,自监督的视觉变换器已经证明了在没有人工注释的情况下学习关注对象的显著部分的吸引力。我们发现这个特性对于这个任务很有用,因为哪些对象部分对于分类是重要的可能会很好地从标记到未标记的类别转移(见第4.5节)。最后,我们希望反映一个现实和实际的设置。在NCD文献中,通常会从头开始训练一个ResNet-18[20]骨干网络用于目标任务。然而,在实际环境中,模型通常使用大规模预训练权重进行初始化以优化性能(通常是ImageNet监督预训练)。为了避免与我们的实验设置冲突(假设有限的标记集),我们使用自监督的ImageNet权重。为了增强表示,使其更适合我们拥有的标记和未标记数据,我们进一步在目标数据上与标记数据上的监督对比学习和所有数据上的无监督对比学习一起微调表示。形式上,设xi和x0i是批次B中同一图像的两个视图(随机增强)。无监督对比损失的表示为:0Lui = -log exp0n 1[n≠i] exp(zi ∙ zn/τ), (1)0其中zi =φ(f(xi)),1[n≠i]是一个指示函数,当n≠i时为1,τ是一个温度值。f是特征骨干,φ是多层感知机(MLP)投影头。监督对比损失写为:0Lsi = -10|N(i)|0q 2N(i) log e0n 1[n≠i] exp(zi ∙ zn/τ), (2)0其中N(i)表示在小批量B中具有与xi相同标签的其他图像的索引。最后,我们构建批次上的总损失为:0Lt = (1-λ)X0i 2 B L u i +0i 2 B L Lsi (3)0其中B_L对应于B的标记子集,λ是一个权重系数。只在对比框架中使用标签,而不是交叉熵损失,意味着未标记和标记数据被类似地处理。监督对比组件仅用于将网络推向语义上有意义的表示,从而最小化对标记类别的过拟合。03.1.2 使用半监督k-means进行标签分配03.2. 估计未标记数据中的类别数量0在NCD和无监督聚类设置中,通常假设对数据集中的类别数量有先验知识,但在现实世界中,标签本身是未知的,这是不现实的。为了估计D_U中的类别数量,我们利用D_L中可用的信息。具体而言,我们在整个数据集D上执行k-means聚类,然后仅在标记子集D_L上评估聚类准确性(请参见第4.1节中度量的定义)。通过运行匈牙利算法[28]找到集群索引和真实标签之间的最佳分配来评估聚类准确性。如果集群数大于总类数,则额外的集群被分配给空集,所有分配给这些集群的实例被认为是预测错误的。相反,如果集群数小于类数,则额外的类别被分配给空集,所有具有这些真实标签的实例被认为是预测错误的。因此,我们假设如果在D上进行的聚类(跨D)的k过高或过低,那么这将在D_L上的次优聚类准确性中得到反映。换句话说,我们假设标记集上的聚类准确性在k = |Y_L [ Y_U|时达到最大。这种直觉导致我们使用聚类准确性作为“黑盒”评分函数,ACC = f(k;D),我们使用Brent算法优化该函数以找到最佳的k。与[18]中的方法不同。CIFAR10CIFAR100ImageNet-100CUBSCarsHerb19|YL|5805010098341|YU|10100100200196683|DL|12.5k20k31.9k1.5k2.0k8.9k|DU|37.5k30k95.3k4.5k6.1k25.4k74960通过穷举遍历所有可能的 k值,我们发现黑盒优化使得我们的方法能够适应具有许多类别的数据集。最后,我们强调不同粒度的标记集将导致不同的类别数估计。然而,我们建议标记集定义了分类系统的框架,而真实世界数据集的粒度不是图像的固有属性,而是标签所强加的。例如,在斯坦福汽车数据集中,该数据集可以以“制造商”、“型号”或“变种”级别进行标记,分类系统由分配的标签定义。03.3. 两个强基线0我们从最近图像识别子领域中采用了两种方法,用于我们的广义类别发现(GCD)任务。RankStats [18]是广泛用于新类别发现的竞争基线,而UNO [13]是我们所知的新类别发现的最先进方法。基线:RankStats+ RankStats在共享特征表示的基础上训练了两个分类器:第一个头接收标记集的实例,并使用交叉熵损失进行训练,而第二个头只接收未标记类别的实例(在新类别发现的设置中,标记和未标记类别是不相交的)。为了将RankStats适应GCD,我们使用单个分类头对数据集中的总类别数进行训练。然后,我们使用交叉熵损失训练头的前 |Y L |个元素,并使用伪标签使用二元交叉熵损失训练整个头。基线:UNO+类似于RankStats,UNO使用标记和未标记数据的分类头进行训练。然后,模型以SwAV的方式进行训练[5]。首先,生成批次的多个视图(随机增强)并输入相同的模型。对于批次中的标记图像,使用真实标签使用交叉熵损失训练标记头。对于未标记图像,对于给定视图收集预测(来自未标记头的逻辑回归)并将其用作伪标签,用其优化来自其他视图的损失。为了适应这种机制,我们简单地连接标记和未标记头,从而允许未标记样本的生成伪标签属于数据集中的任何类别。04. 实验04.1. 实验设置0数据我们在我们提出的设置中展示了六个数据集的结果。对于每个数据集,我们使用训练集并从中抽样一组在训练期间具有标签的类别。我们进一步从这些类别中抽样50%的图像来构成标记集 D L 。剩余的0表1. 我们实验中使用的数据集。我们显示了标记集(|Y L|)和未标记集(|Y U |)中的类别数,以及图像数(|D L |,|D U|)。0从这些类别中获取的实例以及来自其他类别的所有实例构成了 D U。我们进一步从每个数据集的测试或验证集构建了标记类别的验证集。我们首先在三个通用目标识别数据集上展示结果:CIFAR10 [27]、CIFAR100 [27]和ImageNet-100[10]。ImageNet-100是指随机子采样的具有100个类别的ImageNet数据集。这些数据集在标准图像识别文献中建立了方法的性能。我们还在最近提出的语义变化基准测试[45](SSB,包括CUB[46]和斯坦福汽车[26])以及Herbarium19[42]上进行评估。SSB提供了具有明确的“语义变化轴”的细粒度评估数据集,并且以语义上连贯的方式将 D U中的类别与 D L区分开来。因此,用户可以确信识别系统是基于真实的语义信号来识别新类别,而不仅仅是对数据中的低级分布变化做出反应,这可能是通用目标识别数据集的情况。Herbarium19的长尾特性为评估增加了额外的挑战。这些细粒度数据集进一步反映了图像识别系统的许多实际用例,这些用例部署在具有许多相似对象的受限环境中(例如超市中的产品、交通监控或野外动物跟踪)。实际上,Herbarium19数据集本身就代表了GCD的实际用例:虽然我们大约了解40万种植物,并估计还有大约8万种尚未发现,但如果手动执行,从植物采集到植物物种描述目前需要大约35年的时间[42]。我们在表1中总结了我们评估中使用的数据集拆分,并在附录A中提供了更多细节。评估协议对于每个数据集,我们在 D上训练模型(无法访问 D U中的真实标签)。在测试时,我们将地面真实标签 yi与模型的预测 yi 进行聚类准确性的测量:0ACC = max p2P(Y_U) 1 M0i = 1 1 { y i = p(ˆy i) } (4)0这里,M =|D_U|,P(Y_U)是未标记集中类别标签的所有排列的集合。我们的主要指标是“所有”实例上的准确率,表示图像识别的准确性。74970我们报告了整个未标记集D_U的准确率。我们进一步报告了“旧”类别子集(D_U中属于Y_L类别的实例)和“新”类别子集(D_U中属于Y_U \Y_L类别的实例)的值。通过匈牙利最优分配算法[28]计算了所有排列的最大值。重要的是,我们只计算一次匈牙利分配,跨所有类别Y_U,并在之后仅对“旧”和“新”子集上测量分类准确性。匈牙利分配的执行时间与子集上的准确性之间的相互作用可能不直观,在附录E中有详细说明。实现细节:所有方法都使用ViT-B-16主干和DINO预训练权重进行训练,并使用输出的[CLS]标记作为特征表示。所有方法都经过了200个时期的训练,并使用验证集上的准确性选择最佳模型。我们对所有方法的最后一个transformer块进行微调。对于我们的方法,我们使用初始学习率为0.1对视觉transformer的最后一个块进行微调,并使用余弦退火调度进行衰减。我们使用批量大小为128,并在损失中使用λ =0.35(参见公式(3))。此外,遵循自监督学习的标准做法,我们在应用对比损失之前通过非线性投影头对模型的输出进行投影。我们使用与[6]中相同的投影头,并在测试时丢弃它。对于NCD的基线,我们尽可能遵循原始实现和学习计划,并参考原始论文获取详细信息[13,18]。最后,为了估计k,我们在从考虑的基准数据集中提取的DINO特征上运行我们的k估计方法。我们在约束域上对k运行Brent算法,其中最小值设置为|Y_L|,最大值设置为所有数据集的1000个类别。04.2. 与基线方法的比较0我们在表2中报告了所有比较方法的结果。0和表3。作为额外的基线,我们还报告了在原始DINO特征之上直接运行k-means的结果(报告为k-means)。表2呈现了通用对象识别数据集的结果,而表3则显示了SSB和Herbarium19的结果。我们还在附录D中展示了来自SSB的FGVC-Aircraft[31]评估结果。总体而言(在D_U的“所有”实例中),我们的方法在标准图像识别数据集上的绝对性能上优于RankStats+和UNO+基线9.3%,在比例上优于11.5%。同时,在更具挑战性的细粒度评估中,我们的方法在绝对性能上优于基线8.9%,在比例上优于27.0%。我们发现,在具有标记示例的类别(“旧”类别)上,使用参数化分类器的基线可以优于我们的方法。0超越了我们的方法,但这是以牺牲对“新”类别的准确性为代价的。我们还发现,如果基线模型训练时间更长,它们将开始牺牲对“旧”类别的准确性以换取对“新”类别的准确性,但通过监控验证集上的性能来实现早停止,可以获得最佳的整体性能。0表2. 通用图像识别数据集的结果。0CIFAR10 CIFAR100 ImageNet-1000类别 全部 旧的 新的 全部 旧的 新的 全部 旧的 新的0k-means [30] 83.6 85.7 82.5 52.0 52.2 50.8 72.7 75.5 71.3 RankStats+ 46.8 19.2 60.558.2 77.6 19.3 37.1 61.6 24.8 UNO+ 68.6 98.3 53.8 69.5 80.6 47.2 70.3 95.0 57.90我们的方法 91.5 97.9 88.2 70.8 77.6 57.0 74.1 89.8 66.30表3. 在SSB [45]和Herbarium19 [42]上的结果。0CUB Stanford Cars Herbarium190类别 全部 旧 新 全部 旧 新 全部 旧 新0k-means [30] 34.3 38.9 32.1 12.8 10.6 13.8 12.9 12.9 12.8 RankStats+ 33.3 51.6 24.228.3 61.8 12.1 27.9 55.8 12.8 UNO+ 35.1 49.0 28.1 35.5 70.5 18.6 28.3 53.7 14.70我们的方法 51.3 56.6 48.7 39.0 57.6 29.9 35.4 51.0 27.004.3. 估计类别数量0我们在表4中报告了对未标记数据集中类别数量的估计结果。我们发现,在通用物体识别数据集上,我们可以非常接近未标记集合中的真实类别数量,最大误差为10%。在细粒度数据集上,我们报告了平均误差为18.9%。我们注意到这些数据集的高度挑战性,其中许多组成类别在视觉上相似。04.4. 消融研究0在表5中,我们检查了我们提出的方法的各个组成部分的贡献。具体来说,我们确定了以下方法的重要性:ViT骨干网络;对比微调(常规和监督);半监督k-means聚类。ViT骨干网络的行(1)和(2)展示了ViT模型在聚类任务上的效果,其中(1)和(2)分别代表了使用DINO训练的ResNet-50模型和ViT-B-16模型。相对于“旧”和“新”类别,ResNet模型的性能差距近20%。为了将其与架构的一般能力区分开来,需要注意的是,它们在ImageNet线性探测的差异(自监督模型的标准评估协议)约为3%[6]。与此同时,在它们在k-NN准确性上的差异中0表4. 未标记数据中类别数量的估计。0CIFAR10 CIFAR100 ImageNet-100 CUB SCars Herb190真实值 10 100 100 200 196 683 我们的方法 9 100 109 231 230 520 误差 10% 0%9% 16% 15% 28%(1)777734.034.832.412.112.511.9(2)377752.052.250.812.912.912.8(3)337754.654.153.714.315.113.9(4)373760.572.235.017.822.715.4(5)333771.178.356.628.732.126.9(6)333373.076.266.535.451.027.074980ResNet50(DINO) ViT(DINO) ViT(我们的)0图2.CIFAR10实例的TSNE可视化,使用ResNet-50和ViT模型在ImageNet上进行DINO自监督训练,以及使用我们方法进行微调后的ViT模型生成的特征。0表5. 我们方法的不同组件的消融研究。0ViT骨干网络 对比损失 监督对比损失 半监督k-means CIFAR100 Herbarium190全部 旧 新 全部 旧 新0ImageNet的差异约为9%[6],这解释了为什么ViT模型在聚类任务中表现得更好。0对比微调表2-5展示了引入不同组合的对比微调方法对目标数据集的影响。我们发现,仅使用对比方法中的任何一种相对于使用原始DINO特征仅有较小的改进。我们发现,只有在目标数据集上结合自监督和监督对比损失时才能实现完全的好处。具体来说,对比损失的组合使我们能够将CIFAR100的聚类准确性进一步提高19%,Herbarium19提高16%(在这种情况下ACC翻倍)。0半监督k-means可以通过半监督聚类实现进一步的性能提升。在“全部”类别中,我们观察到CIFAR100和Herbarium19的ACC分别提高了2%和7%。在Herbarium19上,“旧”类别的ACC提高了19%。有趣的是,似乎半监督k-means在CIFAR100的“旧”类别上略微降低了性能。我们认为这是匈牙利算法的一个副作用,该算法选择将一些“干净”的聚类分配给“新”的真实类别,以最大化整体ACC。这可以在半监督方法在CIFAR100的“新”类别上提供的10%提升中观察到。此外,我们发现,如果我们在“旧”和“新”实例上分别执行匈牙利算法(允许在评估过程中重复使用干净的聚类),半监督k-means可以提高所有数据子集上的ACC。有关交互作用的更多细节,请参见附录E。0我们发现我们的方法的各个组成部分都不能单独实现在我们的基准数据集上取得良好的性能。具体来说,视觉变换器骨干和对比微调的组合在模型的特征空间中直接实现了强大的k-means聚类。半监督的k-means算法进一步允许我们使用标签来指导聚类过程,并在细粒度数据集的“新”类别上实现更好的准确性,特别是在CIFAR10数据集上的TSNE可视化中,我们进一步说明了这一点。我们展示了原始ResNet-50和ViTDINO特征以及我们模型的TSNE投影。对于ResNet-50特征,同一类别的点通常被投影到彼此附近,表明它们很可能在简单的转换(例如线性探测)下是可分离的。然而,它们并没有形成明确的聚类,暗示这些特征的下游聚类性能较差。相比之下,ViT特征形成了更清晰的聚类,当使用我们的方法进行训练时,这些聚类进一步得到区分。04.5. 定性结果0最后,我们通过可视化模型的注意机制来更好地理解其性能。具体来说,在图3中,我们观察了最终的多头注意力层在支持输出[CLS]标记(我们将其用作特征表示)时对不同空间位置的关注情况。我们同时展示了预训练的DINO模型和使用我们的方法进行训练后的情况。我们可视化了注意力的分布。74990CUBStanfordCars0DINO-ViT在微调之前 ViT在我们的方法下微调后0Head1 Head2 Head3 Head1 Head2 Head30图3. 在使用我们的方法进行微调之前(左)和之后(右),DINO-ViT模型的注意力可视化。对于StanfordCars和CUB,我们展示了来自“旧”类别(每个数据集的第一行)和“新”类别(每个数据集的第二行)的图像。我们的模型学会了将注意力头(显示为列)专门用于不同的语义有意义的部分,这些部分可以在标记和未标记的类别之间进行转移。该模型的头部学会了“挡风玻璃”、“前灯”和“车厢”等汽车部位,以及“喙”、“头部”和“腹部”等鸟类部位。对于这两个模型,我们选择具有尽可能集中注意力的头部。建议使用彩色和放大功能进行观看。0图像来自StanfordCars和CUB的“旧”和“新”类别的注意力映射。在[6]中证明了DINO模型中的不同注意力头关注图像的不同区域,而无需人工注释。我们发现这是事实,不同的注意力头关注图像的不同区域,通常集中在重要部分。然而,在使用我们的方法进行训练后,我们发现注意力头更专门于语义部分,显示出更集中和局部的注意力。通过这种方式,我们建议模型学会关注一组在“旧”和“新”类别之间可转移的部分,从而更好地从标记数据中推广知识。05. 结论0在本文中,我们提出了一种新的图像识别设置,“广义类别发现”(GCD)。0我们从这项工作中总结出三个要点:首先,GCD是一个具有挑战性和现实性的图像识别设置;其次,GCD消除了现有图像识别子领域中的限制性假设,如新类别发现和开放集识别;第三,尽管参数化分类器在广义设置中往往会过拟合标记类别,但对对比训练的ViTs特征进行直接聚类证明是一种出人意料的良好分类方法。0致谢 我们要感谢LilianeMomeni在本研究中对图表的宝贵帮助.这项研究由Facebook AIResearch奖学金、皇家学会研究教授职位RP \ R1 \191132和EPSRC计划资助VisualAI EP/T028572/1.75000参考文献0[1] David Arthur和Sergei Vassilvitskii. k-means++:小心种子的优势. 在ACM-SIAM离散算法研讨会上, 2007. 40[2] Yuki M. Asano, Christian Rupprecht, AndrewZisserman和Andrea Vedaldi. PASS:用于自监督预训练的ImageNet替代品.NeurIPS数据集和基准赛道, 2021. 30[3] Abhijit Bendale和Terrance E. Boult. 迈向开放集深度网络.在CVPR上, 2016. 20[4] Kaidi Cao, Maria Brbic和Jure Leskovec.开放世界半监督学习. 在国际学习表示会议上, 2022. 30[5] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Piotr Bojanowski和Armand Joulin.通过对比聚类分配来进行无监督学习的视觉特征. 在Neu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功