基于粗略标记数据的少样本迁移方法

179 浏览量更新于2023-10-16 收藏 12.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

{cpphoo, bharathh}@cs.cornell.edu90520利用粗略标记数据进行更好的少样本迁移0Cheng Perng Phoo, BharathHariharan 康奈尔大学0摘要0少样本学习的基本假设是标签是昂贵的，特别是当它们是细粒度的并且需要专业知识时。但是粗粒度的标签可能很容易获取，因此很丰富。我们提出了一种表示学习方法-PAS，允许少样本学习器在评估之前利用可用的粗略标记数据。受到自训练的启发，我们使用在基础数据集上训练的教师对额外的数据进行标注，并根据粗略标签过滤教师的预测；然后在基础数据集和伪标记数据集上训练一个新的学生表示。PAS能够产生一种在3个不同数据集上始终显著优于基线的表示。代码可在https://github.com/cpphoo/PAS上获得。01. 引言0在过去的十年里，大规模的注释数据集[4, 8,19]推动了视觉识别系统的进步。然而，对于许多实际重要的识别问题，注释可能需要专业知识，因此可能难以获取。例如，要构建一个能够识别昆虫物种的识别系统，人们必须雇佣昆虫学家为数百个物种的数十万张图像进行标注：这是一项昂贵且耗时的工作。这个问题引发了少样本学习（FSL）的研究，其目标是训练特定领域的学习器，可以从很少的示例中学习新的类别。这些学习器在同一领域的大型标记数据集上进行“元训练”。希望是这个基础数据集为学习器提供了正确的归纳偏好，使得识别“新”类别不需要太多的标记数据。FSL现在是一个非常活跃的研究领域，有大量的最新结果[33, 6, 12, 10, 16, 44, 38, 47, 30,23]。然而，现有的FSL系统仍远远落后于使用大量标记训练数据训练的系统。可以推测基础数据集没有提供关于新类别的足够信息。0图1.顶部一行表示iNat2019中的6个不同的细粒度类别，底部一行由tieredImagenet中的6个细粒度类别组成。没有领域专业知识，人们可能会发现很难区分这6个不同的类别（橙色），但根据它们的粗略标签（绿色）来识别它们是直观的。0解决这个问题的一种可能方法是利用一些关于新类别的辅助信息，这些信息可能更容易获取。例如，最近的研究[26, 9,35]使用来自新类别的无标签数据：毕竟，标签是昂贵的，而数据往往是廉价的。虽然这些无标签数据可以告诉学习者有关新类别数据分布的信息，但它们并不包含有关类别区分的语义信息。关于语义的辅助信息的一个潜在来源是以更粗粒度的方式进行标注，这可能比感兴趣的实际标签更容易获得。再次考虑昆虫分类问题。确实，要区分图1中的3种蝴蝶物种，人们必须雇佣昆虫学家甚至鳞翅目学家，这些标签因此很难获取。但是普通人可以区分蝴蝶和蜜蜂。这种粗粒度的标签因此可以很容易地通过众包获得。这引出了以下问题：如果我们可以访问到新类别的数据，并且这些数据是用易于获取的粗粒度标签进行弱标注的，会怎样呢？尽管这种粗略标记的数据既易于获取又可能提供信息，但目前的FSL技术还无法利用它们。Few-shot Learning (FSL). We tackle FSL in our work.There are three main categorizations of FSL techniques:initialization-based approaches [6, 7, 28, 24, 31, 36, 16]build model initializations that can lead to rapid conver-gence on the base classes, positing that such initializationscan also be good model initializations for the novel classes;metric learning approaches [41, 33, 37, 14, 10, 27] build ametric on the base dataset, assuming that base and novelshare similar discriminative features; augmentation-basedapproaches [12, 43, 3] aim to learn augmentation mecha-nisms on the base dataset, postulating that base and novelclasses share some class agnostic, intra-class variations.Most FSL techniques assume no access to the data from the90530Few-shotlearning技术可以使用额外的信息。在传统的监督学习中，类别分类法已经通过层次推理策略进行了研究，但这是否解决了Few-shotgeneralization问题尚不清楚。可以将这些额外标签作为多任务训练框架中的辅助损失。然而，已经证明多任务训练并不能保证对所有任务都有帮助[34]。此外，多任务训练忽略了将粗略标签和细粒度标签联系在一起的强约束条件，因此错过了重要的语义知识。我们提出了一种新的Few-shotlearning方法，有效地利用粗略标记数据。根据最近的结果，我们专注于改进特征表示，因为这对于Few-shotlearning非常重要[38, 2,11]。受基于伪标签和自我训练的最新工作[26]的启发，我们开发了一种名为PAS（Parent-AwareSelf-training）的表示学习方法。具体而言，我们使用在基础数据集上训练的分类器为粗略标记数据提供细粒度伪标签。这些伪标签经过筛选，以使其与粗略标签一致。这些伪标签肯定是不正确的，因为它们会错误地将新颖类别的示例声明为基础类别之一。然而，它们将诱导出与具有相同粗略标签的其他细粒度基础类别一致的粗略标记新颖示例的细粒度分组。然后，我们使用这些伪标签进行训练，以产生一种特征表示，希望能够捕捉未知的新颖类别区别。我们在三个不同的数据集上进行了实验，比较了使用这些粗略标记数据和不使用这些数据的表示。我们发现，在具有挑战性的全分类设置中，使用粗略标记数据可以提高五次测试准确率5到15个百分点。我们的特定方法也是使用这些额外数据的最佳方式，与多任务训练相比，五次测试准确率平均提高了2个百分点（跨数据集）。所有这些收益都证明了这些额外信息的力量以及我们的方法利用这些信息的能力。02. 相关工作0在训练学习器时，传统的Few-shotlearning技术主要依赖于基础数据集和新颖数据集之间的相似性。然而，当基础数据集和新颖数据集之间的差距较大时，这种关键假设会导致Few-shotlearning技术的性能下降[11,2]。为了解决这个问题，我们提出在Few-shotlearning中使用易于获取的新颖类别的粗略标记数据。使用额外数据的Few-shot learning。额外数据在Few-shotlearning中已被证明是有用的。利用额外数据的两种常见设置是：半监督Few-shot learning[29, 18, 48, 30,42]和传导式Few-shot learning[23,5]。与我们的设置不同，这些设置中的额外数据是未标记的，并且仅在评估过程中可用。[20]的设置与我们类似，但他们专注于使用类别层次结构开发特殊的推理过程。具体而言，他们建立在原型网络[33]的基础上，并在表示学习过程中寻求构建用于粗略类别的学习原型，这些原型可以在评估过程中用于改进细粒度类别的原型。相比之下，我们的方法侧重于构建对任何推理方法都不可知的表示。这两种方法侧重于设置的不同方面，可以进行组合。使用类别分类法的Few-shotlearning。在监督机器学习中，利用类别分类法或层次结构是常见的[1]。事实上，Silla和Freitas[32]对层次分类进行的一项调查表明，在广泛的应用领域中，当构建分类器时，将类别层次结构纳入考虑可以提高性能。在Few-shotlearning中，类别分类法已被用于构建更好的技术。相关工作包括使用基础类别和新颖类别之间的语义关系构建特定的卷积网络架构[17, 25]或利用类别分类法的专门推理过程[21,22]。所有这些方法都可以直接用于我们的设置，但它们没有考虑使用粗略标记示例可能带来的更多改进。自我训练。我们使用粗略标记数据的方法与自我训练密切相关。自我训练经常用于半监督学习。其思想是使用在标记数据上训练的教师模型对未标记数据进行标记，并在原始标记数据和伪标记数据上训练另一个学生模型。这种简单的技术已被证明可以提高ImageNet分类性能[45,46]。自我训练还用于知识蒸馏，其目标是通过训练学生模型来复现教师模型的预测结果，从而压缩大型教师模型。自我训练也已在半监督Few-shot learning中使用[18,42]。然而，这些方法中的大多数都在“封闭集”设置中使用自我训练，即类别集是固定的，并且未标记数据来自这个类别集。因此，伪标签实际上是正确的（尽管[45]指出噪声伪标签有帮助）。我们的方法摆脱了封闭集设置，并使用粗略标记的新颖类别数据进行标记。Dfinerep = {(xi, yi, pi)}ni=1(1)Dcoarserep= {(xj, pj)}n′j=1(2)their corresponding label yj. In our experiments, Dref isdisjoint from Dcoarserepthough this is not necessary. UsingDref, the learner must train a classifier for the novel classes,which will be evaluated on a completely unseen, unlabeledquery set of novel class examples Dquery: We stress thatthe coarse label of reference and query examples are notrevealed during evaluation.For most of our experiments, we assume that each novelclass has a base class as its sibling in the taxonomy. We ex-plore the scenario where some novel classes are not relatedto any base classes in section 6.2.2.4. MethodologyThe goal is to build learners that can output a classifi-cation model fθ parametrized by θ upon receiving a smallDref. We assume fθ consists of two components: a featureextractor ϕθ(·) that maps an input image x into Rd and aclassification model hθ(·) that maps ϕθ(x) to the predictedprobabilities Pθ(y|x). In general, the feature extractor ϕθwould be learned during representation learning and keptfixed during few-shot evaluation to avoid overfitting.4.1. Parent-Aware Self-training, PASWe learn our feature representation ϕθ∗ as follows:1. Learn a teacher model fθ0 on Dfinerepvia minimizingcross entropy loss (with respect to the base classes).2. Use the teacher model fθ0 to “pseudo-label” thecoarsely-labeled dataset Dcoarserep. Crucially, we use the90540粗粒度基类伪标签保证是不正确的：这是一个不常见的情况。这里唯一相关的工作是[26]，其中作者通过训练一个网络来复制来自远源域的不相关分类器生成的伪标签，从而将特征表示适应于远离的域。作者观察到，如果伪标签产生的分组与新颖域中的类别区分相匹配，则这是有效的。然而，作者在表示学习过程中仅使用无标签数据，导致可能产生较差的伪标签，因此采用了额外的技巧，如自监督学习技术。相比之下，我们的粗标签数据可以产生更好的伪标签，消除了这些技巧的需求。03. 问题设置0我们的设置如图2所示。我们假设我们有一个具有两个级别的类别分类法，一个是更具挑战性的细粒度类别（C），一个是更容易注释的粗粒度类别（P）。我们感兴趣的是识别前者。每个细粒度类别c与一个单独的粗粒度类别p(c)相关联，即分类法是一棵树。细粒度类别被分为基类Cbase和新类Cnovel。与传统的少样本分类设置类似，目标是构建能够快速学习识别新类别Cnovel的学习器，其中每个类别只有很少的训练图像。在遇到新类别之前，学习器在表示学习阶段中适应其参数。在这个阶段，类似于FSL，我们假设学习器可以访问一个大型的注释基础数据集Dfinerep：0其中xi是图像，yi是基类标签，pi是与基类yi相关联的粗标签。与传统的FSL不同，我们假设学习器可以访问一个额外的带有粗标签注释的示例集Dcoarserep：0其中包含来自一些新类别的图像xj，但只用粗标签pj进行弱标注。我们将表示集定义为Drep =Dfinerep∪Dcoarserep。我们假设我们知道基类的父类，以便Dfinerep也可以用粗标签装饰。我们还假设只有一部分新类别Cseennovel通过Dcoarserep（仅具有粗标签）被学习器“看到”。其余的新类别是“未看到的”（Cunseen novel = Cnovel - Cseennovel）。在表示学习阶段之后，学习器进入评估阶段，在这个阶段它会得到一个小的参考集Dref = {(xj, yj)}nrefj =1的新类别示例xj和它们对应的标签yj。在我们的实验中，Dref与Dcoarserep不相交，尽管这并非必需。使用Dref，学习器必须为新类别训练一个分类器，并在一个完全未见过、无标签的新类别查询集Dquery上进行评估：我们强调，在评估过程中不会透露参考和查询示例的粗标签。在我们的大多数实验中，我们假设每个新类别都有一个基类作为它在分类法中的兄弟节点。我们在第6.2.2节中探讨了一些新类别与任何基类无关的情况。0图2. 问题设置。在我们的设置中，有两个级别的标签 -粗标签（浅绿色）和细粒度标签（橙色）。在表示学习过程中，学习器从具有细粒度和粗粒度标签（紫色）的数据以及可以标记为新类别之一的粗粒度标签的数据（红色）中学习。在接收到仅具有细粒度标签的参考图像时，学习器必须生成一个能够在细粒度级别上识别查询图像的模型。coarse labels to filter the pseudo-labels:Dpseudorep= {(xj, pj, ¯yj)}n′j=1(3)¯yj = g(fθ0(xj), pj)∀(xj, pj) ∈ Dcoarserep(4)where g filters the pseudo-labels fθ0(xj) based on thecoarse-label pj (section 4.1.1).3. Learn a new student model fθ∗ on Dbaserep and Dpseudorep:minθ1n�(xi,yi,pi)∈DfinereplCE(fθ(xi), yi)+ 1n′�(xj,¯yj,pj)∈DpseudoreplKL(fθ(xj), ¯yj)(5)where lCE is the cross entropy loss, lKL is theKullback-Leibler divergence.After representation learning, the student’s feature ex-tractor ϕθ∗ can be used to extract features for training thedownstream classifier on the reference set.4.1.1Filtering Function gConsider a data point x with coarse label p. The pseudo-labels produced by the teacher Pθ0(y = k|x) = fθ0(x) neednot be consistent with the coarse labels. This is especiallytrue for the coarsely-labeled novel class examples, sincethese are sampled from a different data distribution as com-pared to the base classes. We therefore filter the pseudo-labels to encourage consistency between the pseudo-labelsfθ0(x) and the coarse labels p. To do so, we first zero outthe predicted probabilities for fine-grained labels that areinconsistent with p to produce an unnormalized probabilityvector ¯s:¯s[k] =�0if p(k) ̸= pPθ0(y = k|x)otherwise(6)We then renormalize ¯sj to construct the filtered soft pseudo-label:g(fθ0(x), p) =¯s�k ¯s[k](7)Intuitively, the filtering function ensures that an examplewith coarse label p would only have non-zero probabilitymass for base classes associated to coarse label p.4.2. Inference StrategyDuring evaluation, a variety of inference methods [33,10] can be used along with the student’s representation dur-ing inference. For simplicity, we decided to use classifiersSetupBaseNovel-SeenNovel-UnseenSuper-categoryiNat2019-CL39812611950tieredImageNet-CL498605034CIFAR-100-CL40402020Table 1. Class distribution of the benchmarks introduced in thispaper.based on the nearest class prototype [33]. For each class kwe compute the class prototype:¯ck =1�j I[yj = k]�xj∈Dref :yj=kϕ(xj)||ϕ(xj)||2(8)The class probability of a query examples xi is computedvia measuring the cosine similarity between ϕ(xi) and ¯ck:P(y = k|xi) ∝ exp�¯cTk ϕ(xi)ck2ϕ(xi) 2�(9)90550为了适应余弦相似度的使用，我们在训练教师和学生时使用余弦分类器[10]作为默认的分类模型h(∙)。05. 实验设置05.1. 基准和数据集0由于我们的问题设置是新的，并且在表示学习过程中需要额外的粗略标记示例，我们从三个现有数据集（iNaturalist[39]，TieredImageNet [29]和CIFAR100[15]）建立了新的基准。在这些新的基准中，我们通过重新分割基类和新类之间的类别来确保每个新类都有一个兄弟基类。我们还确保每个粗标签关联至少两个新类，以确保粗标签不会自动透露细标签。我们在表1中呈现了这些数据集的类别分布和一些相关信息：01. iNat2019-CL. 我们从iNaturalist2019（iNat2019）竞赛数据集[39]构建了这个基准 -这是一个细粒度动物物种分类数据集，具有自然分类法（我们使用属级别标签作为超类）。在删除具有不足示例的物种和属之后，我们将每个属重新分为基类、已见新类和未见新类。02. TieredImageNet-CL. TieredImageNet[29]具有34个高级超类，但不同的超类在原始基准中被分为基类和新类。为了反映新类和基类共享粗标签的假设，我们将每个超类重新分为基类、已见新类和未见新类。minθ1n�(xi,yi)∈DbasereplCE(fθ(xi), yi)+Cn + n′�(xi,pi)∈DreplCE(fθ(xi), pi)(10)905603. CIFAR-100-CL. CIFAR-100[15]包含100个图像类别，可以均匀分为20个超类。我们将每个超类分为2/2/1，用于基类、已见新类和未见新类。0对于每个数据集，我们将每个类别的示例分为三个桶：60%/ 20% /20%。对于基类和已见新类，使用60%的拆分来构建表示集。对于已见新类和未见新类，使用两个20%的拆分分别形成D ref和D query。05.2. 评估协议0我们报告了所有数据集的每个类别的top-1准确率的平均值（为了避免iNat2019中的类别不平衡问题）。我们考虑两种评估协议 - 全部-k-shot和5-way-k-shot分类，其中k = 1,5。在评估时采样5-way类别时，我们限制每个单个分类任务中的超类的最大数量为3，以确保至少有两个类别在一个任务中共享相同的超类，并且仅仅识别超类本身不能得到良好的性能。无论是5-way还是all-way，我们通过从每个新类别中采样k个不同的参考示例来构建一个分类任务，然后评估模型在整个查询集上的性能。对于all-way分类，该过程重复1000次，对于5-way分类，该过程重复10000次（参考[47]）以生成具有统计意义的比较结果。此外，我们还考虑使用全部示例的all-shot设置，用于all-way分类的20%拆分。05.3. 比较0为了评估PAS的表示，我们建立了一些表示进行比较。这些表示与PAS类似地进行训练（使用相同的余弦分类器[10]和不同的损失函数）：01.基准。这里的表示是通过训练模型对细粒度示例进行分类来获得的，使用D fine rep。02.粗粒度表示。与细粒度表示类似。这是一个ConvNet的特征提取器，它被训练用于将细粒度表示和粗粒度表示的示例分类到各自的超类中。03. 自训练.该表示与PAS类似训练，只是在生成伪标签时移除了过滤函数g。04. Repr-Multi.该多任务表示是通过训练一个带有两个余弦分类器头部的卷积网络来生成的，一个用于细粒度标签的分类，另一个用于超类别的分类。0另一个用于超类别的分类：0其中为了简单起见，将C设为10我们还通过在一个完全标记的数据集上训练分类器来得到表示学习技术的上限，该数据集包含来自基准类和已见新颖类的所有训练样本（通过将粗粒度新颖类标签添加到D coarserep并与D finerep组合获得），分类器头部被丢弃，特征提取器用于少样本迁移，与其他方法一样，我们使用相同的推理过程（第4.2节）进行公平比较。此外，我们将PAS的表示（使用最近类别原型推理）与两种最近的少样本学习器进行比较，这些学习器采用了更复杂的推理策略：MetaOptNet[16]和FEAT[47]用于5类分类。这些学习器是在不知道粗标签的情况下进行训练的（即在没有粗标签的D finerep上进行训练），因为它们最初是为传统的少样本学习设置开发的。我们使用ResNet18[13]作为所有方法的主干网络，训练细节详见补充材料。06. 实验结果06.1. 粗标签数据改善少样本学习0我们在表2中给出了所有新颖类别C novel的全类别分类结果，并在表3中给出了5类分类结果。我们观察到以下情况：01.即使没有标签，来自新颖类的数据也能改善表示学习：使用额外数据的方法（Repr-Multi、自训练、PAS）优于仅在基准类上训练的基准方法。即使自训练仅使用新颖类数据而不使用粗标签，其性能也证实了[26]中的发现。02.使用粗标签数据训练的学习器优于不使用粗标签数据训练的学习器：在全类别分类任务中，使用粗标签信息的表示学习方法Repr-Multi和PAS都优于不使用粗标签信息的基准方法和自训练方法；在5类分类任务中，Repr-Multi略逊于自训练方法，但优于PAS。iNat2019-CLtieredImageNet-CL90570新颖的已见的新颖的未见的新颖的0方法 k=1 5 all k=1 5 all k=1 5 all0基准 20.46 39.22 57.22 28.68 50.68 67.25 28.14 50.37 67.490Repr-Coarse 19.89 29.32 41.72 33.50 44.62 57.62 28.09 40.32 51.39 自训练 22.94 42.17 59.69 33.18 54.7969.85 29.95 52.11 69.87 Repr-Multi 24.72 41.42 57.34 38.24 56.77 70.72 32.03 51.21 65.88 PAS 25.21 43.2761.04 39.06 58.76 73.63 30.91 51.85 69.120上限 27.30 47.98 64.20 41.64 64.61 75.36 30.71 53.77 72.290新颖的已见的新颖的未见的新颖的0方法 k=1 5 all k=1 5 all k=1 5 all0基准 32.16 53.36 68.97 41.22 62.92 77.19 54.19 75.50 85.510Repr-Coarse 25.69 37.19 49.76 38.14 48.83 62.55 41.64 55.70 66.32 自训练 35.49 57.26 70.87 48.12 69.1180.60 54.71 75.89 86.08 Repr-Multi 37.16 57.27 70.20 49.54 68.38 80.28 53.28 72.94 83.31 PAS 38.11 59.0871.84 50.60 69.52 80.40 53.18 74.68 85.120上界 42.86 65.68 76.71 60.03 80.67 87.14 55.94 76.96 86.550CIFAR-100-CL0新颖的新颖的-已见新颖的-未见0方法 k=1 5 全部 k=1 5 全部 k=1 5 全部0基准 20.32 33.24 42.67 25.50 39.95 50.45 34.37 51.80 64.000Repr-Coarse 31.56 38.90 47.87 45.74 53.36 63.10 37.52 50.65 55.20 自训练 25.68 42.43 54.93 32.96 51.4263.30 38.24 57.51 69.50 Repr-Multi 34.99 46.30 55.07 49.18 60.51 69.20 39.00 53.69 61.20 PAS 35.00 48.4258.37 48.57 61.95 72.65 37.92 54.91 65.100上界 51.83 64.97 69.17 73.75 85.02 85.45 36.53 56.25 70.300表2.在1000次运行中，各种表示方法在每个类别上的平均top-1准确率。对于每个新颖类别，我们使用k=1、5和全部的参考示例。使用粗略标注数据的最佳表现条目已加粗。为简洁起见，省略了95%置信区间。完整的表格可在补充材料中找到。0相对于自训练，PAS的表现相当。此外，使用简单的最近原型推断的PAS在5-way分类上可以超过MetaOptNet和FEAT（除了iNat2019-CL）。这些观察结果验证了我们的假设，即易于获取的粗略标签可以显著提高FSL的效果。03.PAS是整体上最强的表示方法：在所有-way-5-shot分类中，PAS的平均优势超过Repr-Multi1.92个百分点，并且比基准提高了8.31个百分点；在5-way-5-shot分类中，PAS的优势超过Repr-Multi1.17个百分点，并且比基准提高了3.24个百分点。所有这些结果表明，即使是多任务训练也可以0尽管可以利用粗略标注来提高FSL的效果，但与PAS相比，效果并不如PAS明显。总之，通过粗略标注，PAS是一种极其有效的提高FSL的方法。0为了解释性能提升，我们还单独评估了不同的表示方法在新颖的已见类别和新颖的未见类别上的表现（表2）。为确保分类任务真正细粒度，我们在tieredImageNet-CL中拆分新颖类别时删除了只有一个子类别的超类别（对于CIFAR-100-CL的新颖未见类别，我们报告了性能，尽管每个超类别只有一个新颖未见类别）。正如预期的那样，我们观察到性能From table 2, we observe that PAS significantly outper-forms Self-training. As reported in [26], the key to goodtransferrability of self-trained student representation relieson the alignment between the grouping induced by theteacher and the ground truth of the additional data. We positthat filtering has strengthened the alignment and thus yieldsa superior result. To validate this, we investigate the gener-ated pseudo-labels on Dcoarserepby the teacher before and af-ter filtering. Specifically, we use the most probable predic-tion of the pseudo-label to “label” each example in Dcoarserep.Then, as in [26], we evaluate the induced grouping by mea-suring the adjusted mutual information (AMI) [40] betweenthe induced clustering and the ground truth. Table 4 showsthat the AMI increases significantly with filtering, indicat-ing a stronger alignment between the grouping induced bythe filtered pseudo-labels and the ground truth class distinc-tions as compared to the original pseudo-labels. We believethat this alignment results in a cleaner signal for training the90580iNat2019-CL tieredImageNet-CL CIFAR-100-CL0方法 k=1 5 k=1 5 k=1 50MetaOpt 59.32 ± 0.22 72.92 ± 0.20 59.12 ± 0.20 73.96 ± 0.16 51.57 ± 0.21 63.90 ± 0.18 FEAT 62.76 ± 0.2276.45 ± 0.20 67.60 ± 0.21 82.05 ± 0.15 55.65 ± 0.21 71.05 ± 0.17 Baseline 57.07 ± 0.20 73.68 ± 0.19 65.17 ±0.20 81.09 ± 0.15 51.28 ± 0.20 67.01 ± 0.170Repr-Coarse 54.43 ± 0.19 65.29 ± 0.18 56.92 ± 0.19 68.28 ± 0.17 57.76 ± 0.18 67.18 ± 0.15 自训练 60.19 ±0.22 75.82 ± 0.20 68.35 ± 0.21 83.42 ± 0.14 57.92 ± 0.21 73.76 ± 0.16 Repr-Multi 59.06 ± 0.20 73.74 ± 0.1966.51 ± 0.20 81.76 ± 0.15 60.81 ± 0.19 72.48 ± 0.15 PAS 59.74 ± 0.21 74.88 ± 0.20 68.02 ± 0.20 83.26 ± 0.1560.82 ± 0.19 73.37 ± 0.150上界 62.64 ± 0.22 78.52 ± 0.19 73.03 ± 0.20 87.34 ± 0.12 72.78 ± 0.22 84.34 ± 0.130表3.在10000次运行中，各种少样本学习器和我们的表示方法的5-way-k-shot平均top-1准确率和95%置信区间。最佳表现条目（不包括上界）已加粗。0数据集过滤前过滤后0iNat2019-CL 0.4258 0.7260tieredImageNet-CL 0.4620 0.7352CIFAR-100-CL 0.3695 0.82930表4. 预测类别标识在D coarserep中的示例和其真实标识的调整互信息（AMI）。AMI的理论范围为[0, 1]，数值越高表示预测结果与真实结果的一致性越强。0从表2中，我们观察到PAS明显优于自训练。正如[26]中所报道的，自训练学生表示的良好可迁移性取决于教师引导的分组与附加数据的真实标签之间的对齐。我们认为过滤强化了对齐，从而产生了更好的结果。为了验证这一点，我们研究了过滤前后教师在D coarserep上生成的伪标签。具体而言，我们使用伪标签的最可能预测来“标记”D coarser

下载后可阅读完整内容，剩余1页未读，立即下载