改进少标签迁移的无监督预训练能提高迁移性能

175 浏览量更新于2023-10-14 收藏 13.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

102010改进少标签迁移的无监督预训练0中国科学技术大学1，*，陈东东2，�，†，陈银鹏2，袁璐2，张磊2，楚琦1，刘斌1，俞能海1，1中国科学技术大学，2微软研究院{lsc1230@mail., qchu@, flowice@, ynh@}ustc.edu.cn, cddlyf@gmail.com,{yiche, luyuan, leizhang}@microsoft.com0摘要0无监督预训练取得了巨大的成功，许多最近的研究表明，无监督预训练可以在下游目标数据集上实现可比甚至略优于有监督预训练的迁移性能。但在本文中，我们发现当目标数据集的标签样本非常有限时，即少标签迁移时，这个结论可能不成立。我们从聚类的角度分析了可能的原因：1）目标样本的聚类质量对于少标签迁移非常重要；2）尽管对比学习对于学习如何聚类至关重要，但由于缺乏标签监督，其聚类质量仍然不如有监督预训练。基于这个分析，我们有趣地发现，只有将一些无标签的目标域纳入无监督预训练中，才能提高聚类质量，从而减小与有监督预训练之间的迁移性能差距。这一发现还激发了我们提出一种新的渐进式少标签迁移算法，用于实际应用，旨在在有限的注释预算下最大化迁移性能。为了支持我们的分析和提出的方法，我们在九个不同的目标数据集上进行了大量实验。实验结果表明，我们提出的方法可以显著提升无监督预训练的少标签迁移性能。01. 引言0模型预训练在深度迁移学习中起着关键作用。通过在大规模辅助源数据集上预训练模型，然后在小规模目标数据集上微调，可以实现比从头开始训练的模型更好的性能。最近的工作BiT[25]表明，对大规模源数据集进行有监督预训练可以实现非常强大的迁移性能。尽管有监督预训练取得了巨大的成功，但需要大量标记的源数据。最近，无监督预训练[20, 7, 18,6, 8, 19]取得了巨大的成功0* 同等贡献, † 陈东东为通讯作者0图1：使用不同模型在Pet[30]上使用t-SNE可视化特征：(a)无监督预训练模型，(b)有监督预训练模型，(c)目标感知无监督预训练(TUP)模型，(d)使用少量标记样本微调的TUP模型。0通过直接在更大规模的无标签数据（例如ImageNet）上进行预训练，许多最先进的无监督学习方法[7, 18, 19,6]表明，无监督预训练可以在许多下游目标数据集上实现可比甚至略优于有监督预训练的迁移性能。本文提出了一个问题：“无监督预训练是否真的能够实现与有监督预训练相当的迁移性能？”我们在实证中发现，当下游目标数据集的标签样本有限时，即“少标签迁移”，答案是否定的。我们试图从聚类的角度来研究其中的原因。我们假设目标样本在特征空间中的聚类对于少标签迁移非常重要，而无监督预训练的聚类质量比有监督预训练差。直观地说，如果预训练表示在目标空间中具有非常好的聚类性能，那么它只需要很少的标签就能学习到一个良好的分类器边界。为了验证我们的假设，我们比较了无监督预训练和有监督预训练的聚类质量。2. Related works102020在图1（a）（b）的目标数据集上，使用监督和监督预训练模型进行聚类。显然，使用监督预训练模型可以更好地聚类目标样本。下面的分析（表2）还将显示聚类质量与少标签转移性能之间的正相关性。为了理解为什么无监督预训练具有较差的聚类质量，我们按照工作[34]的方法分析了广泛使用的对比损失。具体而言，对比损失可以分解为两个术语：一种对齐术语，鼓励正样本对的两个样本尽可能接近，一种均匀性术语，鼓励学习到的表示在单位超球面上均匀分布。通过对齐项，在训练过程中使用强数据增强，相似图像的子空间将重叠并被拉得更近。换句话说，对比学习试图对预训练的无标签数据进行聚类，但它鼓励学习到的表示在整个空间中分布。因此，如果目标数据与源数据存在较大的领域差异，它们的特征表示将在整个空间中分散并且难以聚类。相比之下，监督预训练不鼓励学习到的表示均匀分布，标签监督还提供了跨不同图像的更强对齐力。因此，学习到的表示更紧凑，即使对于相同的目标领域，也更好地聚类。基于上述分析，我们发现只有将一些无标签目标数据纳入无监督预训练过程（“目标感知”无监督预训练，或TUP）才能显著改善其聚类质量（图1（c）），从而随后减小与监督预训练之间的性能差距。这一发现在一些小规模无标签数据容易获取的实际应用场景中非常有趣和有用。另一方面，考虑到数据注释通常在无标签数据收集之后进行，我们进一步研究了“在有限注释预算下，我们是否可以利用聚类属性来最大化目标性能”的问题。我们提出了一种简单的渐进式少标签转移算法用于实际使用。具体而言，给定预训练表示，我们首先对无标签目标数据进行聚类，找到最具代表性的样本进行注释，然后使用注释样本对预训练模型进行微调。微调后的模型可以进一步改善聚类质量（图1（d）），从而使数据注释和模型微调形成一个主动的协同演化循环。为了证明我们的发现和提出的方法，我们在九个不同的目标数据集上进行了大量实验。实验结果表明，所提出的方法可以显著提高无监督预训练的少标签转移性能，甚至0超越监督预训练。例如，当每个目标数据集每个类别有10个标记样本时，我们提出的TUP可以将无监督预训练的平均转移性能从67.49％提升到74.15％，略优于监督预训练的73.27％。通过进一步装备我们的渐进式转移策略，在相同的注释预算下，转移性能可以提高到76.69％。总结起来，我们的贡献有三个方面：1）我们是第一个指出无监督预训练和监督预训练之间的少标签转移差距，这在研究领域尚未研究过；2）我们分析了可能的潜在原因，并发现了一种适用于某些小规模无标签数据可以收集的实际应用的简单有效策略；3）我们进一步提出了一种渐进式少标签转移策略，以提高在有限注释预算下的性能。0有监督预训练和无监督预训练。模型预训练在深度学习文献中非常重要。在无监督预训练兴起之前，主要的成功和研究集中在有监督预训练上[22, 21]。BiT[25]的工作表明，大规模有监督预训练在下游任务上非常有效。在最近的两年中，代表性的工作[35, 20,7]引发了研究领域对无监督预训练的兴趣，并取得了巨大进展[6, 19,8]。通过在许多下游目标数据集上评估性能，它们证明了无监督预训练在迁移性能上与有监督预训练相当。然而，在目标数据集对于微调只有少量标记样本时，我们发现这个结论不成立。我们的工作是对现有无监督预训练工作的补充，并提出了两种实用的策略来提高实际应用中的迁移性能。0Few-shot Learning和ActiveLearning。虽然我们的重点是分析无监督预训练的迁移性能，但我们的工作与少样本学习[16, 31,29]有松散的关联，并且可能有益于基于微调的少样本学习方法[10,14]。我们证明，如果目标域中存在一些小规模的无标记数据，我们可以利用它来改进预训练表示，并获得更好的少样本性能。对于半监督学习[28, 33,3]，改进的预训练表示也可以提供更好的初始化并提升性能。我们的渐进迁移策略与经典的主动学习[27, 32, 4, 2,17]有相似的思路。然而，大多数主动学习方法只考虑目标域并涉及非常复杂的采样策略。在本文中，我们旨在从预训练和迁移的角度改进迁移性能，并提出了一种简单有效的2MoCoV238.0615.8041.2922.9560.2056.87DCV237.1820.0843.1222.3653.8449.38SimCLRV2 35.2317.4440.5218.3357.1737.40BiT44.6624.9959.0537.4068.3163.954MoCoV248.2025.4950.3035.0869.1868.94DCV246.4730.6349.9033.1158.3457.28SimCLRV2 46.5427.4248.7828.8070.4251.12BiT53.6935.2671.9047.7979.0576.086MoCoV253.0031.0156.4442.7472.1572.35DCV250.9336.5149.5739.7065.0060.09SimCLRV2 50.9034.0853.5935.4272.9758.87BiT57.6441.2675.6254.1782.5579.8510MoCoV258.6838.3859.9251.8775.6977.62DCV256.3243.9253.0648.0675.2664.24SimCLRV2 55.8942.1059.6443.5775.7769.11BiT63.0648.7779.9959.9286.2584.81102030方法 DTD Food101 CIFAR10 CIFAR100 EuroSAT Pet370Table 1: 三种SOTA无监督预训练模型（包括MoCoV2[11]、SimCLRv2 [8]和DeepClusterV2 (DCV2)[6]）以及BiT[25]的有监督预训练模型在六个不同目标数据集上的少标签迁移性能。所有结果均为5次试验的平均值。0策略。但我们相信将我们的方法与更复杂的主动学习策略相结合可以取得更好的性能，这是我们留给未来研究的内容。03. 少标签迁移分析0我们将少标签迁移问题在预训练和微调范式中进行了定义。在有监督预训练设置下，模型首先在大规模标记源数据集S= {xsi,ysi}Mi=1上进行预训练，然后在少量标记样本的小规模目标数据集T = {xj, yj}Nj=1上进行微调，其中N �M。在无监督预训练设置下，源数据集S ={xsi}Mi=1完全没有标记，目标数据集T与之相同。为了比较少标签迁移能力，我们采用了三种现有的SOTA无监督预训练方法，即MoCoV2 [11]、SimCLRV2[8]和DeepClusterV2(DCV2)[6]，以及BiT[25]的有监督预训练模型。ImageNet[13]被用作大规模源数据进行预训练，而六个小规模目标数据集的子集被用于少标签迁移：Pet37 [30]、DTD[12]、CIFAR10和CIFAR100 [26]、Food101[5]和EuroSAT[23]。详细的比较结果如表1所示。可以看到，所有的无监督预训练模型在少标签迁移性能上都不如有监督对应模型。我们继续深入比较无监督预训练和有监督预训练的迁移性能，从少标签迁移到全标签迁移。这里，全标签迁移指的是在完全标记的目标数据集上对预训练模型进行微调。具体来说，我们采取了0图2：通过在微调过程中改变不同数量的标记样本进行转移性能比较，“MoCo-TUP”是我们的面向目标的无监督预训练。0数据集无监督-1k 有监督-100 有监督-1k TUP0Pet 聚类准确性 47.72 12.82 67.44 61.69 转移准确性 70.9345.65 77.94 75.100Food101 聚类准确性 11.86 4.03 17.23 39.23 转移准确性28.39 18.29 38.69 52.250表2：不同预训练模型的聚类准确性和少标签转移性能。“Unsup，Sup，TUP”分别表示无监督、有监督和面向目标的无监督预训练，“-1k/100”表示ImageNet-1k/100。0以DTD数据集（每个类别80个标记样本）为例，通过在微调过程中改变标记样本数量来测试不同预训练模型的转移性能。如图2所示，尽管有监督预训练优于无监督预训练很多，但随着标记样本数量的增加，性能差距变得更小。在其他数据集中也可以观察到类似的趋势。因此，我们得出以下观察结果：0•无监督预训练的表示本身并不差。在有适度数量的标签的情况下，它可以达到甚至超过有监督对应模型的转移性能。这与现有无监督学习工作[7,18]中的全标签转移结论一致。0• 但是对于少标签转移，无监督预训练通常不如有监督预训练。0聚类对于少标签转移很重要。我们提出了一种聚类视角来分析为什么无监督预训练的少标签转移性能不如有监督预训练。在这里，我们使用MoCoV2[11]作为无监督预训练的实例，并通过t-SNE[24]比较无监督和有监督预训练在特征空间中的目标样本分布。可视化结果如图1所示，示例中使用了目标Pet37数据集[30]。̸Lctr = − 1Nτ�i,jsim(zi, zj)+1N�ilog2N�k=11[k̸=i] exp(sim(zi, zk)/τ)(2)102040从图1（a）和（b）中可以看出，与无监督预训练模型获得的特征相比，有监督预训练模型获得的特征更好地聚类。基于这一观察，我们直观地认为聚类质量对于少标签转移很重要。这个假设可以进一步阐明。如果目标特征在预训练后能够很好地聚类，即使在后续的微调中只有少量标记样本可用，学习一个好的分类器也会更容易。我们进一步定量研究了聚类质量与只有每类5个标记样本的少标签转移性能之间的关系，使用不同预训练模型：无监督预训练的ImageNet-1k上的ResNet-50，有监督预训练的ImageNet-100（ImageNet-1k的子集，包含100个类别）上的ResNet-50和ImageNet-1k。我们使用BCubedPrecision（聚类准确性）作为聚类质量的度量标准[1]。表2中的结果表明，少标签转移性能与聚类准确性呈正相关。0理解对比学习。为了进一步理解为什么无监督预训练的聚类质量不如有监督预训练，我们按照[34,9]的方法，将广泛使用的无监督学习损失，即对比损失，分解为两个项：一个对齐项和一个均匀性项。形式上，根据[7]中的定义，对于一个mini-batch B中同一图像的两个增强（i，j），对比损失定义为：0Lctr = -10i,j ∈B log exp(sim(zi,zj)/τ) � 2 N k=1 1[k�=i] exp(sim(zi,zk)/τ)0(1)其中，zi和zj是从目标模型中提取的同一示例的两个增强视图的归一化表示。sim(u,v)是u和v之间的余弦相似度。N是批量大小，τ是温度超参数。通过扩展损失，上述损失可以重写为：0Eq.2的第一项是对齐项，它鼓励小批量中每个图像的两个增强（正对）具有相似的特征。通过在训练过程中使用强增强，相似图像的子空间将重叠并被拉近。第二项与高斯核中的成对潜力密切相关，并且可以通过完美均匀编码器最小化，因此被称为均匀性项。均匀性项鼓励特征向量在单位超球面上（归一化的整个特征空间）大致均匀分布。从这个意义上说，我们可以发现对比学习确实是将预训练的未标记数据聚类，但它鼓励学习到的表示在整个空间中均匀分布。因此，如果目标数据集与源数据集存在一定的领域差异，它们的特征表示将分散并且难以聚类。相比之下，监督预训练中没有这样的均匀性项，而且标签监督还可以提供比对比损失中同一图像的两个增强之间的对齐力更强的对齐力。因此，监督预训练的表示可能位于一个更紧凑的空间中。0整个特征空间）。从这个意义上说，我们可以发现对比学习确实是将预训练的未标记数据聚类，但它鼓励学习到的表示在整个空间中均匀分布。因此，如果目标数据集与源数据集存在一定的领域差异，它们的特征表示将分散并且难以聚类。相比之下，监督预训练中没有这样的均匀性项，而且标签监督还可以提供比对比损失中同一图像的两个增强之间的对齐力更强的对齐力。因此，监督预训练的表示可能位于一个更紧凑的空间中。04. 面向目标的无监督预训练0面向目标的无监督预训练。根据上述分析，为了提高无监督预训练的少标签转移性能，我们应该改善预训练表示在目标领域中的聚类质量。考虑到对比学习能够对预训练的未标记数据进行聚类，我们提出了一种简单而有效的策略，称为面向目标的无监督预训练（TUP）。它专为一些相对容易获取小规模未标记数据的典型应用而设计。具体而言，除了大规模的源数据，我们还将未标记的目标数据添加到无监督预训练阶段，以便无监督预训练模型也能够具有更好的目标数据聚类质量。相比之下，现有的只利用源数据的无监督预训练可以被视为“面向目标不敏感”。改进的聚类将显著提升转移性能。在表2中，我们展示了TUP的聚类准确性及其在目标领域上的转移性能，并在图1（c）中展示了相应的特征可视化。0样本再平衡。经验上，我们发现在预训练中简单地将小规模未标记的目标数据和大规模未标记的源数据按1：1的比例混合在一起效果不好。因为目标数据集T中未标记的目标图像数量远小于辅助源数据集S，这会导致严重的学习不平衡，并使得面向目标的无监督预训练退化为普通的无监督预训练。为了缓解这个问题，我们提出了一种简单而有效的样本再平衡策略，即增加目标数据T和源数据S混合中目标数据的比例p。此外，我们观察到找到合适的比例p是必要的，过大或过小的比例p都会导致性能下降，我们将在消融部分进行研究。05. 渐进式少标签转移0由于在实际应用中，数据注释通常是在未标记数据收集之后进行的，因此关系|f∈Ftj102050图3：用于实际应用中少标签转移的改进无监督预训练框架，它具有两个关键组成部分：面向目标的无监督预训练和渐进式少标签转移。通过将目标数据纳入预训练中，面向目标的无监督预训练可以在目标空间中获得更好的聚类效果。渐进式少标签转移通过聚类和模型微调的过程共同演化。0算法1：第κ次演化中的锚约束KMeans0输入：目标特征集F = {f i} N i = 1（f i的估计聚类标签表示为f Li）。新聚类的数量K。锚点集A = {a j} m j =1，KMeans的最大迭代次数t max。0输出：K个聚类中心{µ j} m + K j = 101：- 初始化中心：2：µ 0 j ←− a j，j = 1，...，m；随机初始化µ0 m + 1，...，µ 0 m + K。03：对于t = 1，...，t max进行4：-将样本分配给聚类：05：对于i = 1，...，N进行06：f L i = arg min j || f i - µ j || 2，j = 1，...，m + K07：结束循环08：- 更新聚类中心：09：µ t j = µ t - 1 j，j = 1，...，m010：对于j = m + 1，...，m + K011：F t j = {f i | f L i = j，f i ∈ F}，012：µ t j = 1013：结束循环014：结束循环0少标签转移性能与聚类质量之间的关系进一步激发了我们研究“在有限的注释预算下，我们能否利用这个特性来最大化目标性能”的问题。这对于数据注释极其困难和昂贵的应用非常重要。在详细介绍我们的最终策略之前，我们首先从两个角度介绍我们的动机：0•靠近聚类中心的目标样本更具代表性（称为“特征样本”），这表明选择这样的样本进行标记可能更有效，特别是在非常有限的标记预算下。0• 使用这些标记样本微调模型可以进一步提高所有目标样本的聚类质量。0作为回报，改进的模型继续帮助识别更具代表性的样本。0渐进式少标签转移。结合上述动机，我们提出了一种新的适用于实际应用的渐进式少标签转移策略。如图3所示，渐进式少标签转移按照“聚类→特征样本标注→模型微调”的循环方式进行。具体而言，在每个演化步骤κ中，我们首先重新对目标特征进行聚类，并逐步找到一些特征样本，然后对新的特征样本进行标注，最后使用所有标记的特征样本对模型进行微调。这个协同演化过程将一直持续，直到达到总的注释预算。我们开发了一种新的基于KMeans的聚类算法，称为锚约束KMeans（ACKMeans），来实现增量特征采样。在前κ-1个演化步骤中找到的所有特征样本被称为锚点。ACKMeans（在第κ次演化中）的关键思想是，锚点作为聚类中心在KMeans期间不会改变，并且有助于排除靠近这些锚点的样本；而不相似样本的剩余部分将被聚类为K个新的簇，这有助于选择K个新的特征样本进行标注。这种方式允许我们最大程度地优化注释预算，因为每个特征样本代表与之相关的一簇相似样本。在每次演化中，假设每个类别的注释预算为b，则总共选择K = b ×C个新的特征样本进行标注，其中C表示目标类别的数量。因此，目标数据的总注释预算将为K × κ max，其中κmax是最大的演化步数。Alg.1显示了ACKMeans的详细过程。为了在实际应用中应用渐进式少标签转移策略，我们建议采用实际的“1 + ϵ”设置。unsupervised pretrained models (MoCoV2 [11]) and the su-pervised pretrained models (BiT [25]) under the oracle la-beling setting, which select “1+ϵ” labeled samples for eachcategory in a strictly class-balance way. We report both theperformance under the oracle setting and the progressive“1 + ϵ” few-label transfer setting for our proposed method.Here, our method adopts the exactly same pretraining andfinetuning setting to MoCoV2, and directly uses the offi-cially released code for BiT pretraining and finetuning.We can observe the following main results.1) Ourtarget-aware unsupervised pretraining consistently outper-forms the vanilla unsupervised pretraining baseline Mo-CoV2 across all the datasets by a large margin. The re-sults verify the effectiveness of involving target set withsource set into the unsupervised pretraining. 2) Our methodoutperforms the supervised pretraining(BiT) on majority ofdatasets and is comparable or slightly worse on the rest.On average, our method performs better than BiT. Thisalso shows that a large amount of labeling information isvery useful, and that target-aware pretraining can compen-sate for the gap caused by the lack of labeling informa-tion. 3) Combining target-aware unsupervised pretrainingwith the progressive few-label transfer can achieve betterperformance than the counterpart under the oracle setting,even though our practical “1+ϵ” setting does not assume theclass-balance.By analyzing the performance among different datasets,we further get some fine-grained observations:1) Our method outperforms both vanilla unsupervisedpretraining and supervised pretraining when the gap be-tween source and target domains is either very large (e.g.,SUN397) or very small (e.g. Caltech101). For example,SUN397 is for scene recognition while ImageNet is almostobject-centric. Therefore, either the supervised pretrainingmodel or the vanilla unsupervised pretraining model cannotobtain good clustering on the target domain. (their Clus-ter ACC [1]: 22.93% vs. 20.11%). In contrast, Caltech101is object-centeric and shares similar categories with Ima-geNet, therefore both the supervised and the vanilla unsu-pervised pretrainings on ImageNet can achieve good clus-tering (their Cluster ACC: 47.11% vs. 53.14%). By involv-ing the target data, our method can improve the clusteringquality (Cluster ACC: 34.36% on SUN397, 59.88% on Cal-tech101) especially for large domain gap (SUN397), thusbringing significant performance gain.2) Though our method only requires a small-scale unla-beled target dataset, we empirically find it will bring morebenefits if the target dataset has a larger scale. One typicalexample is the Food101 dataset. It has a total of about 75khigh-resolution images and each category has about 750 im-ages. It is consistent with the common sense that bigger datacan help learn better representation.3) Our method is comparable to or slightly worse than102060最初，每个目标类别只提供“1”个图像。我们认为这是合理的，因为在注释过程开始时，每个类别都需要一个指示图像。接下来，每个类别平均需要标记“ϵ”个额外的注释，因此总的注释成本ϵ×C=K×κmax。在这种设置下，我们不能保证每个类别都能获得确切的ϵ个额外标签。相比之下，现有的少标签转移设置假设所有标签都是预先已知的，或者随机选择每个类别的一定百分比（例如5%）的标记样本来保证标记样本的数量是类别平衡的。它可以被视为“oracle设置”，因为事先消耗标签通常在实际应用中是不现实的，或者需要注释者观看和标记更多的样本超出少量标签。06. 实验06.1. 实验设置0数据集。在以下实验中，我们使用ImageNet-1k数据集[13]作为辅助的大规模源数据集，并考虑9个小规模目标数据集：Pet37 [30]、SUN397 [36]、DTD[12]、CIFAR10和CIFAR100 [26]、Caltech101[15]、Food101 [5]和EuroSAT[23]。这些数据集非常多样，总体图像数量、输入分辨率和类别性质各不相同，从一般的物体类别（例如CIFAR10/100）到细粒度类别（例如Pet37）。我们遵循[7, 18,25]的标准设置，并报告Pet37、Caltech101的平均类别准确率和其他数据集的Top1准确率。为了减少随机性，所有结果都是通过5次试验的平均值计算得出的。预训练细节。我们基于MoCoV2[11]构建了目标感知的无监督学习，并遵循其训练协议。具体而言，我们采用带有动量0.9的SGD优化器和权重衰减0.0001。初始学习率为0.24，采用余弦调度器，批量大小为2,048。所有预训练模型都经过800个epoch的训练。所有实验的骨干网络使用ResNet-50[22]。默认的样本再平衡比例根据目标数据集的大小而变化，使重新采样的目标数据大小约为源数据集大小的20%。微调细节。我们对预训练模型进行60个epoch的微调，不使用权重衰减。新添加的FC层和预训练层的学习率分别为3.0和0.0001。训练时只使用随机裁剪和翻转，测试时只使用中心裁剪和调整大小。06.2. 总体结果0表3报告了所提出模型在所有基准数据集上的少标签迁移性能。为了比较，我们将两个模型作为我们的强基线：基线1+11+31+51+91020701+ ϵ 方法 DTD Food101 SUN397 Caltech101 STL10 CIFAR10 CIFAR100 EuroSAT Pet37 平均准确率0MoCoV2 38.06 15.80 24.28 63.12 75.06 41.29 22.95 60.20 56.87 45.030BiT 44.66 24.99 27.21 61.07 74.80 59.05 37.40 68.31 63.95 52.700Ours 44.79 34.27 33.16 78.75 81.74 59.44 30.24 68.84 65.93 55.240Ours-Pro 44.86 35.92 35.46 79.87 82.45 62.19 32.74 69.62 68.87 59.300MoCoV2 48.20 25.49 35.06 76.54 87.35 50.30 35.08 69.18 68.94 56.840BiT 53.69 35.26 36.72 73.89 83.28 71.90 47.79 79.05 76.08 63.610Ours 55.17 48.03 43.30 84.92 88.07 72.86 43.94 76.15 73.65 65.120Ours-Pro 57.11 49.66 45.38 86.13 88.19 71.20 46.80 76.70 74.07 68.510MoCoV2 53.00 31.01 40.71 82.14 89.21 56.44 42.74 72.15 72.35 62.050BiT 57.64 41.26 41.11 80.41 86.71 75.62 54.17 82.55 79.85 68.300Ours 60.05 55.35 47.85 87.23 90.10 77.22 52.68 80.58 76.18 70.220Ours-Pro 61.56 56.50 49.42 88.11 90.14 74.89 53.74 79.29 79.01 72.550MoCoV2 58.68 38.38 47.75 86.75 90.85 59.92 51.87 75.69 77.62 67.490BiT 63.06 48.77 44.96 86.29 90.07 79.99 59.92 86.25 84.81 73.270Ours 65.57 62.56 53.48 89.19 91.39 79.67 60.91 84.14 80.48 74.150Ours-Pro 66.58 62.67 54.30 89.55 92.02 80.73 60.63 81.42 84.41 76.690表3：九个基准目标数据集上的少标签迁移结果。“Ours-Pro”表示使用我们的渐进式少标签迁移策略，“Ours”表示使用oracle少标签迁移设置。所有结果都是通过5次试验平均得出以减少随机性。0数据集方法 1标签/类别 4标签/类别 10标签/类别0DTD0VUP 26.74 48.20 58.680UF 26.45 48.71 58.340TUP 32.07 55.17 65.570Pet370VUP 41.23 68.94 77.620UF 40.01 67.03 75.560TUP 57.28 73.65 80.480STL100VUP 53.86 87.35 90.850VF 45.22 72.43 79.340TUP 67.94 88.07 91.390表4：普通无监督预训练(VUP) vs. 无监督微调(UF) vs.目标感知预训练(TUP)。在oracle设置下评估迁移准确性。0如果目标数据集具有较低的图像分辨率，则我们的方法可能无法很好地进行监督预训练。例如，CIFAR10/100和EuroSAT的图像分辨率仅为32×32和64×64，因此直接将它们上采样以匹配ImageNet上的图像分辨率可能不是一个好方法。此外，STL10具有与CIFAR10类似的类别，但具有更大的图像分辨率，因此我们的方法在STL10上实现了更好的性能。06.3.消融研究0目标感知无监督预训练的优势。在这个实验中，我们验证了目标感知无监督预训练相对于普通无监督预训练和另一个简单的无监督微调基线的优势。在无监督微调基线中，我们在未标记的目标集上以较小的学习率继续进行无监督预训练，该预训练是在ImageNet上进行的。表4显示了三个代表性数据集的结果。从结果可以看出，直接进行无监督微调无法起作用。0图4：将不同百分比的未标记目标数据纳入目标感知无监督预训练中。评估使用了标签高效的迁移性能。良好甚至降低了普通无监督预训练的迁移能力。由于同时保持在大规模未标记源数据中学到的迁移能力和涉及目标集信息的优点，我们的目标感知预训练在这些基线上产生了一致的性能提升。0预训练中目标数据集规模的影响。为了进一步验证我们的方法将从更多未标记的目标数据中受益的假设，我们在DTD数据集上进行了一个简单的消融实验。具体而言，在目标感知无监督预训练（TUP）期间，我们涉及不同百分比的目标数据（25%、50%、75%、100%），然后评估少标签迁移性能。如图4所示，将更多未标记的目标数据纳入预训练可以帮助学习更好的表示，从而产生更好的性能。样本再平衡比例的消融。如方法部分所述，目标数据集通常具有较小的图像数量。w/o re-balance40.2749.5554.4259.2861.0120%44.8657.1161.5664.3866.5850%38.8350.0655.2760.5963.86CIFAR10MoCoV283.6492.15CIFAR100MoCoV261.5470.41Food101MoCoV243.2662.98102080图5：渐进少标签迁移的每个演化步骤中选择的特征样本数量。0平衡比例 1+1 1+3 1+5 1+7 1+90表5：在DTD数据集上使用性能评估的不同采样再平衡比例。0数量可能比源数据集小几个数量级。因此，我们发现样本再平衡在预训练期间缓解数据不平衡问题是不可或缺的。在这里，我们以DTD数据集为例，尝试两种变体：不进行样本再平衡和使用较大的再平衡比例（重新采样的目标数据集大小为源数据集大小的50%）。如表5所示，如果不应用样本再平衡，迁移性能会下降，而过大的再平衡比例也会导致较差的结果，因为辅助源数据集的好处被抑制。我们经验性地发现再平衡比例约为20%适用于所有实验。注释数量b的消融。在我们默认的渐进少标签迁移实现中，我们在每个演化步骤中将b设置为1。然而，我们也可以将b设置为大于1

下载后可阅读完整内容，剩余1页未读，立即下载