广义类别发现方法：对未标记的图像进行分类，利用对比训练的视觉变换器和半监督K-Means聚类算法进行标签分配

60 浏览量更新于2023-10-25 收藏 15.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

. . .Input imageImage patchesImage embeddingx768D+++-+--+74920广义类别发现0Sagar Vaze ? Kai Han † Andrea Vedaldi ? Andrew Zisserman ?0？牛津大学工程科学系视觉几何组0† 香港大学0{ sagar,vedaldi,az } @robots.ox.ac.uk kaihanx@hku.hk0设置：广义类别发现方法0（1）使用视觉变换器进行特征提取0（2）有监督对比（左）和自监督对比（右）0（3）半监督K-Means聚类0ViT0大象鸟0青蛙0青蛙0？？？0？？0？？？0？？？0图1.我们提出了一个新的设置：'广义类别发现'以及解决该问题的方法。我们的设置可以简洁地描述为：给定一个数据集，其中的一个子集具有类别标签，将数据集中的所有未标记图像进行分类。未标记图像可能来自已标记或新的类别。我们的方法利用对比训练的视觉变换器通过聚类直接分配标签。0摘要0在本文中，我们考虑了一种高度通用的图像识别设置，其中给定一组带有标签和未标签的图像，任务是对未标签集中的所有图像进行分类。在这里，未标签图像可能来自已标记的类别或新的类别。现有的识别方法无法处理这种设置，因为它们做出了一些限制性的假设，例如未标签实例只来自已知或未知的类别，并且未知类别的数量是先验已知的。我们解决了更加自由的设置，将其命名为'广义类别发现'，并挑战了所有这些假设。我们首先通过从新类别发现的最新算法中选择代表性方法并将其应用于此任务来建立强大的基线。为此，我们调整了它们的训练和推理机制，以适应我们更一般的设置，并使用更强大的骨干架构对其进行重新训练。我们展示了现有的新类别发现方法在这个广义设置中容易过拟合已标记的类别。接下来，观察到新类别发现方法可能过拟合其分类头部到已标记的类别，我们提出了一种简单而有效的通过聚类进行识别的方法。我们的关键洞察是利用视觉变换器的强大的'最近邻'分类特性以及对比学习。我们提出了对比训练和半监督K-Means聚类算法来识别没有参数化分类器的图像。我们展示了这些提出的方法在通用物体识别数据集上和尤其是在更具挑战性的细粒度基准测试上明显优于已建立的基线。对于后者的评估，我们利用了最近提出的语义转变基准套件，该套件旨在识别语义新颖性。最后，我们提出了一个解决具有挑战性的问题的解决方案。0基线。最后，我们还提出了一种估计未标记数据中类别数量的新方法。我们在通用物体分类和细粒度数据集上对我们的方法进行了全面评估，利用了最近提出的语义转变基准套件。代码：https://www.robots.ox.ac.uk/ �vgg/research/gcd01. 引言0考虑一个坐在汽车里观察世界的婴儿。物体实例将经过汽车，对于其中的一些实例，婴儿可能已经被告知它们的类别（'那是一只狗'，'那是一辆车'），并且能够识别它们。还会有一些婴儿以前没有见过的实例（猫和自行车），在看到了这些实例的一些情况下，我们可能期望婴儿的视觉识别系统将它们聚类成新的类别。这是我们在这项工作中考虑的问题：在一个图像数据集中，只有一些图像带有类别标签，为其余的每个图像分配一个类别标签。37, 40, 49] have been proposed to tackle the problem ofsemi-supervised learning (SSL). SSL assumes that the la-belled and unlabelled instances come from the same setof classes.The objective is to learn a robust classiﬁca-tion model leveraging both the labelled and unlabelled dataduring training.Amongst existing methods, consistencybased approaches appear to be popular and effective, suchas LadderNet [36], PI model [29], Mean-teacher [43]. Re-cently, with the success of self-supervised learning, meth-ods have also been proposed to improve SSL by augmentingthe methods with self-supervised objectives [37,49].74930图像，可能使用在标记集中未观察到的新类别。我们将这个问题称为广义类别发现（GCD），并认为这是许多机器视觉应用的现实用例：无论是在超市中识别产品，医学图像中的病理学，还是在自动驾驶中的车辆。在这些和其他现实的视觉环境中，往往无法知道新图像来自已标记还是新类别。相比之下，考虑现有图像识别设置的局限性。在图像分类中，这是最广泛研究的问题之一，所有的训练图像都带有类别标签。此外，测试时的所有图像都来自与训练集相同的类别。半监督学习（SSL）[7]引入了从未标记数据中学习的问题，但仍假设所有未标记图像来自与标记图像相同的一组类别。最近，开放集识别（OSR）[38]和新类别发现（NCD）[19]的任务解决了测试时的图像可能属于新类别的开放世界设置。然而，OSR的目标仅是检测不属于标记集中任何类别的测试图像，但不需要对这些检测到的图像进行进一步分类。与此同时，在NCD中，与我们在这项工作中处理的设置最接近，方法从带有标签和未标记的图像中学习，并旨在在未标记集中发现新类别。然而，NCD仍然做出了一个限制性的假设，即所有未标记图像都来自新类别，这通常是不现实的。在本文中，我们以多种方式解决了广义类别发现的问题。首先，我们通过采用NCD的代表性方法并将其应用于此任务来建立强大的基线。为此，我们调整了它们的训练和推理机制，以适应我们更一般的设置，并使用更强大的骨干架构对其进行重新训练。我们展示了现有的NCD方法在这个广义设置中容易过拟合已标记的类别。接下来，观察到NCD方法可能过拟合其分类头部到已标记的类别，我们提出了一种简单而有效的通过聚类进行识别的方法。我们的关键洞察是利用视觉变换器的强大的'最近邻'分类特性以及对比学习。我们提出了对比训练和半监督K-Means聚类算法来识别没有参数化分类器的图像。我们展示了这些提出的方法在通用物体识别数据集上和尤其是在更具挑战性的细粒度基准测试上明显优于已建立的基线。对于后者的评估，我们利用了最近提出的语义转变基准套件，该套件旨在识别语义新颖性。最后，我们提出了一个解决具有挑战性的问题的解决方案。0图像识别中一个未充分研究的问题是估计未标记数据中的类别数量。几乎所有的方法，包括纯无监督的方法，都假设知道类别的数量，这是在现实世界中高度不现实的假设。我们提出了一种利用标记集来解决这个问题的算法。我们的贡献可以总结如下：（i）广义类别发现（GCD）的形式化，这是图像识别的一个新的和现实的设置；（ii）通过调整标准新类别发现的最先进技术，建立了强大的基线；（iii）一种简单但有效的GCD方法，它使用对比表示学习和聚类来直接提供类标签，并且在很大程度上优于基线；（iv）一种估计未标记数据中类别数量的新方法，这是一个很少研究的问题；（v）在标准图像识别数据集以及最近的语义转换基准套件[ 45 ]上进行了严格的评估。02. 相关工作0我们的工作与半监督学习、开放集识别和新类别发现的先前工作相关，下面我们简要回顾一下。0半监督学习已经提出了许多方法[ 7 , 33 ,0开放集识别开放集识别（OSR）的问题在[ 38]中被形式化，其目标是对来自与标记数据相同语义类别的未标记实例进行分类，同时检测来自未知类别的测试实例。OpenMax [ 3]是第一个使用极值理论来解决这个问题的深度学习方法。通常使用GAN来生成对抗样本来训练开放集分类器，例如[ 14, 25 , 32]。已经提出了一些方法来训练模型，使具有大重构误差的图像被视为开放集样本[ 34 , 41 , 48]。还有一些方法通过学习标记类别的原型，并通过与原型的距离来识别未知类别的图像[ 8 , 9 , 39 ]。最近，[ 8 , 9]提出了学习相对点的方法，这些相对点描述了相对于标记类别的“其他性”。[ 50]共同训练了一个基于流的密度估计模型。timator and a classiﬁcation based encoder for OSR. Finally,Vaze et al. [45] study the correlation between the closed-set and open-set performance, showing that state-of-the-artOSR results can be obtained by boosting the closed-set ac-curacy of the standard cross-entropy baseline.Novel category discoveryThe problem of novel cate-gory discovery (NCD) is formalized in DTC [19].Ear-lier methods that could be applied to this problem includeKCL [21] and MCL [22], both of which maintain twomodels trained with labelled data and unlabelled data re-spectively, for general task transfer learning. AutoNovel(aka Rankstats) [17, 18] tackles the NCD problem with athree stage method. The model is ﬁrst trained with self-supervision on all data for low-level representation learning.Then, it is further trained with full supervision on labelleddata to capture higher level semantic information. Finally,a joint learning stage is carried out to transfer knowledgefrom the labelled to unlabelled data with ranking statistics.Zhao and Han [51] propose a model with two branches, onefor global feature learning and the other for local featurelearning, such that dual ranking statistics and mutual learn-ing are conducted with these two branches for better repre-sentation learning and new class discovery. OpenMix [53]mixes the labelled and unlabelled data to avoid the modelfrom over-ﬁtting for NCD. NCL [52] extracts and aggre-gates the pairwise pseudo-labels for the unlabelled data withcontrastive learning and generates hard negatives by mix-ing the labelled and unlabelled data in the feature space forNCD. Jia et al. [23] propose an end-to-end NCD method forsingle- and multi-modal data with contrastive learning andwinner-takes-all hashing. A uniﬁed cross-entropy loss is in-troduced in UNO [13] to allow the model to be trained on la-belled and unlabelled data jointly, by swapping the pseudo-labels from labelled and unlabelled classiﬁcation heads.Finally, we highlight the work by Girish et al. [15] thattackles a similar setting to GCD but for the task of GANattribution instead of image recognition, as well as the con-current work by Cao et al. [4] that tackles a similar set-ting for image recognition under the name Open WorldSemi-Supervised Learning. Different to our setting, theydo not leverage large-scale pretraining or demonstrate per-formance on the Semantic Shift Benchmark, which betterisolates the problem of detecting semantic novelty.749403. 广义类别发现0我们首先形式化了广义类别发现（GCD）的任务。简而言之，我们考虑对数据集中的图像进行分类的问题，其中一部分图像具有已知的类别标签。任务是使用在标记图像中可能观察到的类别或未观察到的类别为所有剩余图像分配类别标签（见图1，左侧）。形式上，我们定义GCD如下。我们考虑一个由两部分组成的数据集D，其中DL = {(xi, yi)}Ni = 1 2 X Y L和DU = {(xi, yi)}Mi = 1 2 X Y U，其中Y L � YU。在训练过程中，模型无法访问DU中的标签，并且任务是在测试时预测它们。此外，我们假设有一个验证集D V = {(xi, yi)}N 0 i = 1 2 X YL，它与训练集不相交，并包含与标记集相同类别的图像。这种形式化使我们能够清楚地看到与新类别发现设置的区别。NCD假设Y L \ Y U =;，现有方法在训练过程中依赖于这个先验知识。在本节中，我们描述了我们提出的解决GCD的方法。首先，我们描述了我们的方法。利用自监督表示学习的最新进展，我们提出了一种基于对比学习的简单而有效的方法，通过半监督k-means算法进行分类。接下来，我们开发了一种估计未标记数据中类别数量的方法，这是一项在文献中研究不足的挑战性任务。最后，我们通过修改最先进的NCD方法RankStats [18]和UNO[13]来适应我们的设置，构建了两个强大的GCD基线。0X � Y L和D U = {(xi, yi)}Mi = 1 2 X � Y U，其中Y L � YU。在训练过程中，模型无法访问DU中的标签，并且任务是在测试时预测它们。此外，我们假设有一个验证集D V = {(xi, yi)}N 0 i = 1 2 X � YL，它与训练集不相交，并包含与标记集相同类别的图像。这种形式化使我们能够清楚地看到与新类别发现设置的区别。NCD假设Y L \ Y U =;，现有方法在训练过程中依赖于这个先验知识。在本节中，我们描述了我们提出的解决GCD的方法。首先，我们描述了我们的方法。利用自监督表示学习的最新进展，我们提出了一种基于对比学习的简单而有效的方法，通过半监督k-means算法进行分类。接下来，我们开发了一种估计未标记数据中类别数量的方法，这是一项在文献中研究不足的挑战性任务。最后，我们通过修改最先进的NCD方法RankStats[18]和UNO[13]来适应我们的设置，构建了两个强大的GCD基线。03.1. 我们的方法0我们在开放世界环境中进行图像识别的方法的关键洞察是消除了参数化分类头的需求。相反，我们直接在深度网络的特征空间中进行聚类（见图1，右侧）。分类头（通常是在学习的嵌入之上的线性分类器）最好使用交叉熵损失进行训练，已经证明对噪声标签敏感[12]。此外，当为未标记的类别训练线性分类器时，一种典型的方法是为未标记的实例生成（有噪声的）伪标签。这表明参数化头对未标记的类别容易出现性能下降。最后，我们注意到，出于必要性，分类头必须从头开始训练，这进一步使它们容易在标记的类别上过拟合。与此同时，自监督对比学习已被广泛用于预训练以实现NCD中的稳健表示[23，52]。此外，与视觉变换器相结合时，它生成的模型是良好的最近邻分类器[6]。受此启发，我们发现对ViT模型进行对比训练使我们能够直接在模型的特征空间中进行聚类，从而消除了可能导致过拟合的线性头的需求。具体而言，我们使用无标签的所有图像使用噪声对比损失[16]来训练表示，而不使用任何标签。这一点很重要，因为它避免了将特征过度拟合到（部分）标记的类别子集。我们还为标记的实例添加了进一步的监督对比组件[24]，以利用标记数据（见图1，右侧中间行）。6666Given the learned representation for the data, we can nowassign class or cluster labels for each unlabelled data point,either from the labelled classes or unseen new classes. In-stead of performing this parametrically as is common inNCD (and risk overﬁtting to the labelled data) we proposeto use a non-parametric method. Namely, we propose tomodify the classic k-means into a constraint algorithm byforcing the assignment of the instances in DL to the cor-rect cluster based on their ground-truth labels. Note, herewe assume knowledge of the number of clusters, k. Wetackle the problem of estimating this parameter in Sec. 3.2.The initial |YL| centroids for DL are obtained based on theground-truth class labels, and an additional |YU \YL| (num-ber of new classes) initial centroids are obtained from DUwith k-means++ [1], constrained on the centroids of DL.During each centroid update and cluster assignment cycle,instances from the same class in DL are always forced tohave the same cluster assignment, while each instance inDU can be assigned to any cluster based on the distance todifferent centroids. After the semi-supervised k-means con-verges, each instance in DU can be assigned a cluster label.We provide a clear diagram of this in Appendix B.749503.1.1 表示学习0对于所有方法，我们使用一个视觉变换器（ViT-B-16）[11]在（未标记的）ImageNet [10]上进行DINO[6]自监督预训练作为我们的骨干。首先，DINO模型是一个强大的最近邻分类器，这表明在其特征空间中进行非参数化聚类效果很好。其次，自监督视觉变换器已经证明了在没有人工注释的情况下学习关注对象的显著部分的吸引力。我们发现这个特性对于这个任务是有用的，因为哪些对象部分对于分类是重要的可能会从标记到未标记的类别中良好地转移（见第4.5节）。最后，我们希望反映出一个现实和实际的设置。在NCD文献中，通常会从头开始训练一个ResNet-18[20]骨干用于目标任务。然而，在实际环境中，模型通常使用大规模预训练权重进行初始化以优化性能（通常是ImageNet监督预训练）。为了避免与我们的实验设置冲突（假设有一个有限的标记集），我们使用自监督的ImageNet权重。为了增强表示，使其更适合我们拥有的标记和未标记数据，我们进一步在目标数据上与标记数据上的监督对比学习和所有数据上的无监督对比学习一起微调表示。形式上，令xi和x0i为一个小批量B中同一图像的两个视图（随机增强）。无监督对比损失的表达式为：0L_u_i = -log e0n 1[n 6=i] exp(z_i ∙ z_n/τ), (1)0其中z_i = φ(f(x_i))，1[n6=i]是一个指示函数，当n≠i时评估为1，τ是一个温度值。f是特征主干，φ是多层感知器（MLP）投影头。监督对比损失写作：0L_s_i = -10|N(i)|0q 2N(i) log e0n 1[n 6=i] exp(z_i ∙ z_n/τ), (2)0其中N(i)表示在小批量B中具有与x_i相同标签的其他图像的索引。最后，我们构建批次的总损失为：0L_t = (1 - λ) 0i 2 B_L u_i X0i 2 B_L L_s_i (3)0其中B_L对应于B的标记子集，λ是一个权重系数。仅在对比框架中使用标签，而不是交叉熵损失，意味着未标记和标记数据被类似地处理。监督对比组件仅用于将网络推向语义上有意义的表示，从而最小化对标记类别的过拟合。03.1.2 使用半监督k-means进行标签分配03.2. 估计未标记数据中的类别数量0在NCD和无监督聚类设置中，通常假设对数据集中的类别数量有先验知识，但在现实世界中，标签本身是未知的，这是不现实的。为了估计D_U中的类别数量，我们利用D_L中可用的信息。具体来说，我们在整个数据集D上执行k-means聚类，然后仅在标记子集D_L上评估聚类准确性（请参见第4.1节中的度量定义）。聚类准确性通过运行匈牙利算法[28]来评估，以找到集群索引和真实标签之间的最佳分配。如果集群数大于总类别数，则额外的集群被分配给空集，并且所有分配给这些集群的实例被认为是预测错误的。相反，如果集群数小于类别数，则额外的类别被分配给空集，并且具有这些真实标签的所有实例被认为是预测错误的。因此，我们假设，如果在D上进行的聚类（跨D）的k值过高或过低，则这将在D_L上的聚类准确性中反映出来。换句话说，我们假设标记集上的聚类准确性在k = |Y_L [ Y_U|时达到最大。这种直觉导致我们使用聚类准确性作为“黑盒”评分函数，ACC = f(k;D)，我们使用Brent算法优化该函数以找到最佳的k。与[18]中的方法不同。CIFAR10CIFAR100ImageNet-100CUBSCarsHerb19|DL|12.5k20k31.9k1.5k2.0k8.9k|DU|37.5k30k95.3k4.5k6.1k25.4k74960通过穷举地迭代所有可能的 k值，我们发现黑盒优化使得我们的方法能够适用于具有许多类别的数据集。最后，我们强调不同粒度的标记集将导致不同数量类别的估计。然而，我们建议标记集定义了分类系统的框架，而真实世界数据集的粒度不是图像的固有属性，而是标签所强加的。例如，在斯坦福汽车数据集中，该数据集可以以“制造商”、“型号”或“变种”级别进行标记，分类系统由分配的标签定义。03.3. 两个强基线0我们从最近图像识别子领域中采用了两种方法，用于我们的广义类别发现（GCD）任务。RankStats [18]是广泛用于新类别发现的竞争基线，而UNO [13]是我们所知的新类别发现的最先进方法。基线：RankStats+ RankStats在共享特征表示的基础上训练了两个分类器：第一个头接收来自标记集的实例，并使用交叉熵损失进行训练，而第二个头仅接收来自未标记类别的实例（在新类别发现的设置中，标记和未标记类别是不相交的）。为了将RankStats适应GCD，我们使用一个分类头对数据集中的总类别数进行训练。然后，我们使用交叉熵损失训练头的前|YL|个元素，并使用伪标签使用二元交叉熵损失训练整个头。基线：UNO+类似于RankStats，UNO使用标记和未标记数据进行训练。然后，模型以SwAV的方式进行训练[5]。首先，生成批次的多个视图（随机增强）并输入相同的模型。对于批次中的标记图像，使用真实标签使用交叉熵损失训练标记头。对于未标记图像，对于给定视图，收集预测（来自未标记头的逻辑回归）并将其用作伪标签，用于优化其他视图的损失。为了适应这种机制，我们简单地连接标记和未标记头，从而允许未标记样本的生成伪标签属于数据集中的任何类别。04. 实验04.1. 实验设置0数据我们在我们提出的设置中展示了六个数据集的结果。对于每个数据集，我们取训练集并从中采样一组在训练期间具有标签的类别。我们进一步从这些类别中对图像进行了50%的子采样，构成了标记集D L 。剩余的0表1. 我们实验中使用的数据集。我们显示了标记集（|Y L|，|YU|）和图像数量（|D L|，|D U|）。0|Y L| 5 80 50 100 98 341 |Y U| 10 100 100 200 196 6830从这些类别中获取实例，以及来自其他类别的所有实例，构成D U。我们进一步从每个数据集的测试或验证集构建了标记类别的验证集。我们首先在三个通用对象识别数据集上展示结果：CIFAR10 [27]，CIFAR100 [27]和ImageNet-100[10]。ImageNet-100是指随机子采样的包含100个类别的ImageNet数据集。这些数据集在标准图像识别文献中展示了方法的性能。我们进一步在最近提出的语义转移基准测试[45]（SSB，包括CUB[46]和斯坦福汽车[26]）以及Herbarium19[42]上进行评估。SSB提供了具有明确的“语义变化轴”的细粒度评估数据集，并以语义上连贯的方式提供了D U中与D L分开的类别。因此，用户可以确信识别系统是基于真实的语义信号来识别新类别，而不仅仅是对数据中的低级分布变化做出反应，这可能是通用对象识别数据集的情况。Herbarium19的长尾性质为评估增加了额外的挑战。细粒度数据集进一步反映了图像识别系统的许多实际用例，这些用例部署在具有许多相似对象的受限环境中（例如超市中的产品，交通监控或野外动物跟踪）。实际上，Herbarium19数据集本身就代表了GCD的实际用例：虽然我们大约知道40万种植物，并估计还有大约8万种尚未发现，但如果手动执行，从植物采集到植物物种描述目前需要大约35年时间。我们在表1中总结了我们评估中使用的数据集拆分，并在附录A中提供了更多细节。评估协议对于每个数据集，我们在D上训练模型（无法访问D U中的真实标签）。在测试时，我们将地面真实标签yi与模型的预测yi进行聚类准确性测量，如下所示：0ACC = max p2P(Y_U) 1 M0i = 1 1 { y i = p(ˆy i) } (4)0在这里，M =|D_U|，P(Y_U)是未标记集中类别标签的所有排列的集合。我们的主要指标是“所有”实例上的准确率，表示图像识别准确性。CIFAR10CIFAR100ImageNet-10074970我们报告了整个未标记集D_U的准确率。我们进一步报告了“旧”类别子集（D_U中属于Y_L类别的实例）和“新”类别子集（D_U中属于Y_U \Y_L类别的实例）的值。通过匈牙利最优分配算法[28]计算了所有排列的最大值。重要的是，我们只计算一次匈牙利分配，对所有类别Y_U进行计算，然后仅在之后对“旧”和“新”子集进行分类准确率的测量。匈牙利分配的执行时间与子集上的准确率之间的相互作用可能不直观，详见附录E。实现细节：所有方法都使用DINO预训练权重的ViT-B-16骨干进行训练，并使用输出的[CLS]标记作为特征表示。所有方法都训练了200个epochs，并使用验证集上的准确率选择最佳模型。我们对所有方法的最后一个transformerblock进行微调。对于我们的方法，我们对视觉transformer的最后一个block进行微调，初始学习率为0.1，使用余弦退火调度进行衰减。我们使用批量大小为128，并在损失（见公式（3））中使用λ =0.35。此外，遵循自监督学习的标准做法，我们在应用对比损失之前，通过非线性投影头对模型的输出进行投影。我们使用与[6]中相同的投影头，并在测试时丢弃它。对于NCD中的基线方法，我们尽可能地遵循原始实现和学习计划，并参考原始论文获取详细信息[13,18]。最后，为了估计k，我们在从考虑的基准数据集中提取的DINO特征上运行我们的k估计方法。我们在约束域上对k运行Brent算法，其中最小值设置为|Y_L|，最大值设置为所有数据集的1000个类别。04.2. 与基线方法的比较0我们在表2中报告了所有比较方法的结果。0和表3。作为额外的基线，我们还报告了在原始DINO特征之上直接运行k-means的结果（报告为k-means）。表2呈现了通用物体识别数据集的结果，而表3则显示了SSB和Herbarium19的结果。我们还在附录D中展示了来自SSB的FGVC-Aircraft[31]评估结果。总体而言（在D_U的“所有”实例中），我们的方法在标准图像识别数据集上的绝对性能上优于RankStats+和UNO+基线9.3％，在相对性能上优于11.5％。同时，在更具挑战性的细粒度评估中，我们的方法在绝对性能上优于基线8.9％，在相对性能上优于27.0％。我们发现，在具有标记示例的类别（“旧”类别）上，使用参数化分类器的基线方法可以超过我们的方法。0超过我们的方法，但这是以牺牲“新”类别的准确率为代价的。我们还发现，如果基线模型训练时间更长，它们会开始牺牲“旧”类别的准确率以换取“新”类别的准确率，但是通过监控验证集上的性能来实现早停止的方法可以获得最佳的整体性能。0表2. 通用图像识别数据集的结果。0类别全部旧的新的全部旧的新的全部旧的新的0k-means [30] 83.6 85.7 82.5 52.0 52.2 50.8 72.7 75.5 71.3 RankStats+ 46.8 19.2 60.558.2 77.6 19.3 37.1 61.6 24.8 UNO+ 68.6 98.3 53.8 69.5 80.6 47.2 70.3 95.0 57.90我们的方法 91.5 97.9 88.2 70.8 77.6 57.0 74.1 89.8 66.30表3. 在SSB [45]和Herbarium19 [42]上的结果。0CUB Stanford Cars Herbarium190类别全部旧的新的全部旧的新的全部旧的新的0k-means [30] 34.3 38.9 32.1 12.8 10.6 13.8 12.9 12.9 12.8 RankStats+ 33.3 51.6 24.228.3 61.8 12.1 27.9 55.8 12.8 UNO+ 35.1 49.0 28.1 35.5 70.5 18.6 28.3 53.7 14.70我们的方法 51.3 56.6 48.7 39.0 57.6 29.9 35.4 51.0 27.004.3. 估计类别数量0我们在表4中报告了对未标记数据中类别数量的估计结果。我们发现，在通用物体识别数据集上，我们可以接近未标记集中的真实类别数量，最大误差为10％。在细粒度数据集上，我们报告了平均偏差为18.9％。我们注意到这些数据集的高度挑战性，其中许多组成类别在视觉上相似。04.4. 消融研究0在表5中，我们检查了我们提出的方法的各个组成部分的贡献。具体来说，我们确定了以下方法的重要性：ViT骨干网络；对比微调（常规和监督）；半监督k-means聚类。ViT骨干网络行（1）和（2）展示了ViT模型在聚类任务中的效果，其中（1）和（2）分别代表使用DINO训练的ResNet-50模型和ViT-B-16模型。相对于“旧”和“新”类别，ResNet模型的性能差距近20％。为了将其与架构的一般能力区分开来，需要注意的是，ImageNet线性探测的差异（自监督模型的标准评估协议）约为3％[6]。与此同时，在它们在k-NN准确性上的差异中，0表4. 未标记数据中类别数量的估计。0CIFAR10 CIFAR100 ImageNet-100 CUB SCars Herb190真实值 10 100 100 200 196 683 我们的方法 9 100 109 231 230 520 误差 10% 0%9% 16% 15% 28%(1)777734.034.832.412.112.511.9(2)377752.052.250.812.912.912.8(3)337754.654.153.714.315.113.9(4)373760.572.235.017.822.715.4(5)333771.178.356.628.732.126.9(6)333373.076.266.535.451.027.074980ResNet50（DINO） ViT（DINO） ViT（我们的）0图2. CIFAR10中通过ResNet-50和ViT模型在ImageNet上进行DINO自监督训练生成的特征的t-SNE可视化，以及经过我们方法微调后的ViT模型。0表5. 我们方法的不同组件的消融研究。0ViT骨干网络对比损失监督对比损失半监督k-means CIFAR100 Herbarium190全部旧的新的全部旧的新的0ImageNet的差异约为9％[6]，这解释了为什么ViT模型在聚类任务中表现得更好。0对比微调表2-5展示了引入不同组合的对比微调方法对目标数据集的影响。我们发现，仅使用对比方法中的任何一种相对于使用原始DINO特征仅有较小的改进。我们发现，只有在目标数据集上结合自监督和监督对比损失时才能实现完全的好处。具体来说，对比损失的组合使我们能够将CIFAR100的聚类准确性进一步提高19％，Herbarium19提高16％（在这种情况下将ACC翻倍）。0半监督k-m

下载后可阅读完整内容，剩余1页未读，立即下载