迁移学习中高效选择适合任务的模型的方法和效益

98 浏览量更新于2023-10-25 收藏 12.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Which Model to Transfer? Finding the Needle in the Growing HaystackCedric Renggli*ETH ZurichAndr´e Susano PintoGoogle ResearchLuka RimanicETH ZurichJoan PuigcerverGoogle ResearchCarlos RiquelmeGoogle ResearchCe ZhangETH ZurichMario LucicGoogle ResearchAbstractdata-efﬁcient alternative to training models from scratch,in particular for computer vision tasks where it provides aremarkably solid baseline. The emergence of rich modelrepositories, such as TensorFlow Hub, enables the prac-titioners and researchers to unleash the potential of thesemodels across a wide range of downstream tasks. As theserepositories keep growing exponentially, efﬁciently select-ing a good model for the task at hand becomes paramount.We provide a formalization of this problem through a famil-iar notion of regret and introduce the predominant strate-gies, namely task-agnostic (e.g. ranking models by theirImageNet performance) and task-aware search strategies(such as linear or kNN evaluation). We conduct a large-scale empirical study and show that both task-agnostic andtask-aware methods can yield high regret. We then proposea simple and computationally efﬁcient hybrid search strat-egy which outperforms the existing approaches. We high-light the practical beneﬁts of the proposed solution on a setof 19 diverse vision tasks.920501. 引言0TensorFlow Hub或PyTorch Hub等服务提供了0大量的预训练模型通常在视觉领域的特定任务上实现了最先进的性能。主要的方法是选择一个预训练模型并对其进行微调以适应下游任务，这是一种有效且数据高效的方法[12,13, 18, 23, 33,35]。令人惊讶的是，即使预训练任务与目标任务显著不同，例如将ImageNet预训练模型应用于糖尿病视网膜病变分类[20]，这种方法也是有效的。微调通常涉及向预训练深度网络添加几个更多的层，并使用有限的数据调整所有参数。0* 本工作是在Google Research实习期间完成的。与C.通信。0Renggli ( cedric.renggli@inf.ethz.ch ) 和 M. Lucic ( lucic@google.com )。01 https://tfhub.dev 和 https://pytorch.org/hub0下游数据量的多少。由于所有参数都在更新，这个过程在计算方面可能非常昂贵[35]。将所有模型都进行微调以找到表现最佳的模型正在变得计算上不可行。一种更高效的替代方法是在学习到的表示（例如，预logits）之上简单地训练一个廉价的分类器。然而，与微调相比，性能差距可能相当大[13, 14]。0这引发了一个非常实际的问题：给定一个新任务，0如何选择最佳模型进行微调？这个问题在近年来得到了深入研究，现有的方法可以分为两组：(a)与任务无关的模型搜索策略，独立地对预训练模型进行排序，与下游任务无关（例如，如果可用，按照ImageNet准确率对模型进行排序）[14]；(b)与任务相关的模型搜索策略，利用下游数据集对模型进行排序（例如，使用kNN分类器准确率作为微调准确率的代理，或使用元学习的Task2Vec表示）[1, 16,22]。大部分先前的工作尝试通过使用一组同质的预训练模型来回答这个问题，其中模型共享相同的架构或者它们是在同一个数据集上训练的。然而，这并不反映在线仓库中可用模型的当前情况。0现有方法在同时存在“通用模型”（例如在相对多样的分布上训练的模型，如ImageNet）和“专家模型”（例如在特定领域数据集上训练的模型，如植物）以及多样的数据集上的性能如何？第二，是否有一种方法可以在计算成本和性能之间取得良好的平衡？0尺度、系统的经验研究这些问题。（i）我们通过后悔的概念来定义和推动模型搜索问题。我们在一个现实的设置中对这个问题进行了第一次研究，重点是异构模型池。（ii）我们在一个异构的46个模型组成的5个代表性集合上考虑了19个下游任务。（iii）我们强调了每个策略的性能与任务的依赖关系。,where tachen ﬁne-tuning mmD.n is takenover the randomness in the t(·) operator, that is, the ran-domness in ﬁne-tuning and due to a ﬁnite sampled test set.In addition to the randomness in t(·), the second expecta-tion also accounts for any potential randomization in thealgorithm that computes Sm. We deﬁne s(m) as the ex-pected maximal test accuracy achieved by any model in theset Sm, the set of models returned by a ﬁxed strategy m. Inour case, kNN is deterministic as all the downstream data92060因此，有几个实际相关的问题仍然没有解决。首先，在同时存在“通用模型”（例如在相对多样的分布上训练的模型，如ImageNet）和“专家模型”（例如在特定领域数据集上训练的模型，如植物）以及多样的数据集上，现有方法的性能如何？第二，在计算成本0考虑到这些问题，我们提出了一种转移学习方法，其中预训练模型通过学习从中间表示到目标标签的映射来适应目标任务，如图1所示。0（I）上游模型。数据来源的多样性、损失函数、神经架构和其他设计决策导致了各种各样的上游模型0损失函数、神经架构和其他设计决策的多样性导致了各种各样的上游模型。用户可以访问这些模型，但不能控制这些维度中的任何一个，也不能访问上游训练数据。0在计算没有限制的情况下，问题变得非常简单-逐个微调每个模型并选择表现最好的模型。然而，在实践中，人们经常面临对计算的严格要求，因此图1中的第二阶段的目标是选择一组相对较小的模型进行微调。选择这组模型是本文的核心研究问题（参见图2）。0这些方法在观察到下游数据之前对模型进行排序，因此对于每个任务选择相同的模型。最流行的方法可以总结如下：（i）选择在ImageNet上具有最高测试准确率的模型，否则（ii）选择在最大数据集上训练的模型。如果存在（近似）平局，则选择参数最多的模型。0与任务不可知的搜索策略相反，这些方法可以使用下游数据，因此需要额外的计算。其思想是提取学习到的表示，从预训练模型中训练一个线性或k近邻分类器，并选择达到最高准确率的模型。0与任务不可知的搜索策略相反，这些方法可以使用下游数据，因此需要额外的计算。其思想是提取学习到的表示，从预训练模型中训练一个线性或k近邻分类器，并选择达到最高准确率的模型。需要注意的是，这需要对数据集的每个实例和每个模型进行至少一次前向传递，因此计算复杂度随着模型池的大小线性增长。然而，这种方法通常比微调快几个数量级。严格来说，可以对微调过程应用早停策略，以便更好地控制准确率和时间的权衡。我们在第5.4节中研究了这个问题，而在第6节中讨论并对比了其他任务感知的搜索策略。0（II B.2）元学习的任务感知搜索策略。0的设置。我们考虑了最突出的方法之一，即Task2Vec[1]，并在附录H中提供了一些初步结果。在第6节中，我们详细介绍了这种方法，以及该类别中的其他相关工作（例如基于语义的搜索策略[6, 27, 34]），并将其与我们在本文中考虑的搜索策略进行对比。0通过在所有基准任务和下游数据集上学习的任务嵌入来计算。虽然可以通过训练单个探测网络来高效地计算单个任务嵌入，但元学习方法需要最初评估所有模型在每个基准任务上的性能。此外，每当添加新模型或新基准数据集时，需要扩展迁移学习性能列表。我们通过模拟这个过程来评估模型搜索部分，例如通过找到最近的基准任务的最佳模型，例如给定0模型适应到下游任务（参见图1）。主要方法是将预训练的神经网络完全或部分应用为特征提取器。预训练模型的头部（例如最后一层线性层）被替换为新的头部，并在目标数据上对整个模型进行训练。这个过程通常被称为微调，它经常优于其他方法[5, 14, 20, 25]。0(III) 下游训练。在这个阶段，选择的模型0本文的主要目标是研究简单的方法03. 计算预算和遗憾0预算和遗憾。微调代表了0在进入更昂贵的微调过程之前，我们需要对预训练模型进行过滤和搜索。形式上，我们将带有预算 B 的搜索方法 m(M,D) 定义为一个函数，该函数以一组模型 M和一个下游数据集 D 作为输入，并输出一组不同的模型S_m，其中 |S_m| = B。然后这 B个模型都会进行微调，以获得在下游任务 D上0max m_i∈M E[t(m_i, D)] | {z }0计算成本，因此我们将微调的模型数量定义为给定方法的计算复杂度。给定任何固定预算B，我们希望返回一个包含在下游任务上表现良好的模型的集合 S。特别地，我们将搜索策略 m 和模型池 M 在数据集D 上的绝对遗憾定义为：0− E0| {z }0�(m1, m2) :=s(m1) � s(m2)1min(s(m1), s(m2)),(2)92070图1. 迁移学习设置：(1) 上游模型从随机初始化权重开始在（大型）上游数据集上进行模型预训练；(2) 模型搜索要么是独立于下游任务，要么是通过运行代理任务，即固定除最后一层以外的所有权重，并在下游数据集上训练一个线性分类器或者部署一个kNN分类器；(3) 下游训练解冻所有权重，在下游数据集上优化所有层（包括预定义层）。0图2. 模型搜索方法：(A) 任务无关方法0（B.1）无任务感知方法不考虑下游任务，对所有可能的任务产生相同的模型排序（例如使用最高的ImageNet准确性）；（B.2）任务感知元学习方法在用户的数据集上为每个模型部署一个代理（例如线性评估）；（B.2）元学习任务感知方法提前使用一系列数据集进行后续模型搜索（例如Task2Vec[1]，探索数据集相似性并复制最接近数据集的排序）。0线性模型依赖于随机梯度下降的随机性，而非线性模型不依赖于随机梯度下降的随机性。为了使不同难度的数据集以及两种选择策略 m 1 和 m 2可比较，我们定义它们的相对增量为：0其中 s ( ∙ ) 2 [0 , 1] ，如方程 1 中所定义。将 s ( m 1 )替换为 ORACLE 值，将 s ( m 2 ) 替换为 s ( m )，得到相对遗憾 r ( m )。我们在第5.4节中讨论了替代概念的影响。04. 实验设计0我们的目标是评估哪种模型搜索策略能够在提供多样化模型的情况下达到低遗憾。0在提供多样化模型的情况下达到低遗憾。正如讨论的那样，有三个关键变量：（i）0下游任务集合，作为计算任何给定策略的预期遗憾的代理，（ii）模型池，即我们探索以找到低遗憾模型的集合，以及（iii）迁移学习算法。04.1. 数据集和模型0数据集。我们使用VTAB-1K，一个少样本学习数据集。0基准测试由19个任务组成，分为3组 - • 自然，• 专业和•结构化[35]。自然图像任务包括通过标准相机拍摄的自然世界图像，代表通用对象、细粒度类别或抽象概念。专业任务包含使用专业设备拍摄的图像，例如医学图像或遥感图像。结构化任务通常源自人工环境，旨在理解图像之间的特定变化，例如预测3D场景中物体的距离（例如DeepMindLab），计数物体（例如CLEVR）或检测方向（例如用于分离表示的dSprites）。每个任务有800个训练示例、200个验证示例和完整的测试集。这使我们能够在各种任务和迁移学习明显优于从头开始训练的设置中评估模型搜索策略[35]。0模型。模型池的动机是寻找低遗憾模型。0模拟实践中普遍存在的几种用例。我们收集了46个分类模型（参见附录A）：0• 15个在ILSVRC 2012（ImageNet）上训练的模型0分类任务[24]，包括InceptionV1-V3模型[28]，ResNetV1和V2（深度50、101和152）[10]，MobileNet0• 16个在（子集上）训练的ResNet-50-V2模型In this section we challenge common assumptions andFigure 3 shows the results for task-agnostic methodswith budget B = 1 and B = 2 on the ALL, RESNET-50,and EXPERT pools. We observe a signiﬁcant regret, par-ticularly for RESNET-50 and EXPERT pools (30% of thedatasets have a relative regret larger than 25% on those twopools). This highlights the fact that task-agnostic methodsare not able to pick expert models, in particular on naturaland structured datasets. As more experts become available,this gap is likely to grow, making it clear that task-agnosticstrategies are inadequate on its own.5.2. Are task-aware always a good predictor?Intuitively, having access to the downstream datasetshould be beneﬁcial. We evaluate both the linear and thekNN predictor as detailed in Section 4.Figure 4 pro-vides our overall results for the linear model, whereas anal-ogous results for kNN are presented in Appendix E. Themethod struggles on some structured datasets (in particularon DSPR-LOC).92080JFT[22]。这些模型是在较大数据集的不同子集上训练的，并在我们考虑的少数下游任务的小子集上表现出显著0• VTAB基准测试中的15个模型，具有多样性0损失的覆盖范围（例如生成、自监督、自监督与监督相结合等）和架构。在所有情况下，上游数据集都是ImageNet，但评估是在不包括ImageNet的VTAB基准测试中进行的。04.2. 模型池0（A）确定好的资源受限模型0(RESNET-50，DIM 2048)。在这里，我们考虑两种情况：0(i)RESNET-50：所有参数数量小于等于ResNet50-V2的模型。虽然参数数量显然不是理想的预测因子，但这个集合大致捕捉到了在实践中通常使用的内存占用和推理时间有限的模型。值得注意的是，这个池排除了NasNet和PNasNet架构，包括专家模型。(ii) DIM2048：第2节讨论的迁移策略可能对表示的大小敏感。此外，将表示大小限制在2048的最大值是实际设置中的常见约束。因此，我们考虑了一个模型池，其中表示维度限制为最大2048。0(B) 在存在非专家模型的情况下识别专家模型0专家（EXPERT）。我们考虑了一个由16个ResNet-50模型组成的池0来自[22]的V2模型。我们认为这些被认为是专家的模型是在较大数据集的不同子集上训练的。随着可用模型和上游训练方案的增加，这些专家的数量可能会增加。因此，这提供了一个现实的场景，即目标任务可能存在一个专家，但由于其他模型的存在，有些模型可能表现良好。0(C) 任务无关模型是否转移更好0(IMNET ACCURACIES)?这个模型池提供了0选择最适合特定下游任务的上游表示学习技术。这个池主要用于验证以下观点：(a)ImageNet模型在不同任务之间具有良好的转移性[9,12]，(b) 更好的ImageNet模型具有更好的转移性[14]。0(D) 所有模型（ALL）。最后，我们考虑了困难0在最佳设置下，即模型池包含所有46个模型且没有概念和计算限制。我们注意到：EXPERT→RESNET-50→DIM 2048→ALL和IMNETACCURACIES→ALL。4.3. 评估程序0微调。为了将下游测试准确率分配给02 https://tfhub.dev/vtab0通过使用SGD对模型表示（固定）添加分类器。我们考虑两个学习率（0.1和0.01），进行2500个步骤，并选择具有最佳验证准确率的模型。为了稳健性，我们运行此过程5次，并从这些结果值中取中位数验证准确率。因此，我们再次获得了8740个模型。0线性评估。我们训练一个逻辑回归分类器0通过使用标准欧几里得距离，将每个验证样本的标签分配给最近的训练样本（即k=1）。0kNN评估。我们计算验证准确率0在本节中，我们挑战常见的假设和05. 关键实验结果0突出本研究的最重要发现，而包含所有图表和表格的扩展分析可以在补充材料中找到。我们指出，在正文中，我们只考虑三个主要模型池——ALL、RESNET-50和EXPERT，因为我们认为它们是最具代表性的。由于DIM2048的行为与RESNET-50非常相似，而IMNETACCURACIES仅用于确认[14]的发现，涉及这两个模型池的消融研究的结果可以在附录D中找到。最后，在本节中，我们主要研究线性评估作为任务感知选择；所有关于kNN的对应图表可以在附录E中找到。5.1.任务无关策略的高遗憾Caltech101CIFAR-100DTDFlowers102PetsSun397SVHNCamelyonEuroSATResisc45RetinopathyClevr-CountClevr-DistDMLabdSpr-LocdSpr-OrientKITTI-DistsNORB-AzimsNORB-Elev0.000.250.500.751.00Relative RegretAll (B = 1, B = 2)Caltech101CIFAR-100DTDFlowers102PetsSun397SVHNCamelyonEuroSATResisc45RetinopathyClevr-CountClevr-DistDMLabdSpr-LocdSpr-OrientKITTI-DistsNORB-AzimsNORB-Elev0.000.250.500.751.00ResNet-50 (B = 1, B = 2)Caltech101CIFAR-100DTDFlowers102PetsSun397SVHNCamelyonEuroSATResisc45RetinopathyClevr-CountClevr-DistDMLabdSpr-LocdSpr-OrientKITTI-DistsNORB-AzimsNORB-Elev0.000.250.500.751.00Expert (B = 1)Figure 3. Task-agnostic strategies. Relative regret (r(m), cf. Section 3) with B = 1 (transparent) and B = 2 (solid) on the ALL,RESNET-50 and EXPERT pools, bearing in mind that there is only one task-agnostic model in EXPERT. By deﬁnition, task-agnosticstrategies exclude experts yielding high regret on the RESNET-50 and EXPERT pools, particularly on natural or structured datasets.Caltech101CIFAR-100DTDFlowers102PetsSun397SVHNCamelyonEuroSATResisc45RetinopathyClevr-CountClevr-DistDMLabdSpr-LocdSpr-OrientKITTI-DistsNORB-AzimsNORB-Elev0.000.250.500.751.00Relative Regret0.000.250.500.750.000.250.500.75The hybrid strategy requires to ﬁne-tune at least twomodels. Given that it performs well across all model poolsand datasets, this is a reasonable price to pay in practice, andwe suggest its use as the off-the-shelf approach. Figures 21and 22 in Appendix E depict the results for kNN. In EX-PERT models, the second kNN pick tends to beat the task-agnostic one – hurting the kNN hybrid outcomes. Overall,the hybrid linear approach consistently outperforms the onebased on kNN.92090全部0Caltech1010CIFAR-1000DTD0Flowers1020Pets0Sun3970SVHN0Camelyon0EuroSAT0Resisc450Retinopathy0Clevr-Count0Clevr-Dist0DMLab0dSpr-Loc0dSpr-Orient0KITTI-Dist0sNORB-Azim0sNORB-Elev01.00 ResNet-500Caltech1010CIFAR-1000DTD0Flowers1020Pets0Sun3970SVHN0Camelyon0EuroSAT0Resisc450Retinopathy0Clevr-Count0Clevr-Dist0DMLab0dSpr-Loc0dSpr-Orient0KITTI-Dist0sNORB-Azim0sNORB-Elev01.00 专家0图4. 任务感知策略（线性）。B = 1（透明）和B = 2（实线）在A LL，R ES N ET -50和EXPERT池中的相对遗憾。与任务无关策略相比，我们观察到在自然数据集（除SVHN外）和受限制的池中（除D S PR -LOC外）有所改善，这是由于其能够正确选择专家。0与任务无关策略相比，如图5所示。0图5中，当B =1时，我们观察到在受限制的模型池中有显著的改进。EXPERT池受益最多：线性评估在几乎每个数据集上优于任务无关方法（任务感知方法在三个数据集上的优势超过1％，在 KITTI-DIST数据集上最差的情况下超过10％）。另一方面，在ALL池中，任务无关和任务感知策略在相似数量的数据集上表现优于对方，并且具有相当的幅度。这表明没有一种策略在所有池中都统一支配其他策略。0为了进一步理解这一点，我们进行了一个消融实验。0我们在附录D的I M N ET A CCURACIES池中绘制了线性和kNN遗憾的研究。在图15和图16中，我们观察到当只有训练在相同上游数据上的不同架构时，任务感知的搜索方法表现相当差。I M N ET A CCU - RACIES模型包含在ALL池中，在某些数据集中，其中一些模型是表现最好的。0k NN预测器的性能与一半的数据集相当。0在池中的数据集上，kNN预测器的性能与线性评估相当，与另一半数据集上的线性评估略差。我们在附录E的图20中呈现了这些发现0一种混合方法，同时选择前1个任务-0任务无关模型和前（B-1）个任务感知模型的混合方法产生了强大的整体结果。图6显示了混合方法的优势。0线性评估方法作为任务感知方法明显优于其线性对应方法，其中B = 2。这在ALL池中最为明显，任务无关模型在某些数据集上提供了很大的提升。0如图5所示，在查看A LL池时，线性策略的优势消失了。0任务无关的候选模型在数据集如D S PR -L OC，SVHN或EUROSAT上往往比线性模型表现更好。同样，线性候选模型在许多自然数据集如F LOWERS或P0反映了当与混合方法相比时，线性策略在大多数数据集上的优势消失。对于R ES N ET -50和EXPERT池，如预期的那样，混合算法保留了线性代理的好选择。也就是说，在R ES N ET -50上增加了36％，在KITTI-DIST上增加了11％。这两个数据集都是结构化数据集，线性代理任务的表现较差，如图4所示。Flowers102Clevr-CountPetsSun397Caltech101DTDClevr-DistsNORB-ElevRetinopathyCIFAR-100dSpr-OrientKITTI-DistResisc45sNORB-AzimCamelyonDMLabEuroSATSVHNdSpr-Loc�1.0�0.50.00.51.0Relative DeltaAllFlowers102PetsClevr-CountSun397KITTI-DistResisc45DTDsNORB-ElevClevr-DistDMLabCaltech101RetinopathyCIFAR-100sNORB-AzimdSpr-OrientCamelyonEuroSATdSpr-LocSVHNResNet-50Flowers102dSpr-LocPetsClevr-CountSVHNEuroSATsNORB-ElevResisc45CamelyonSun397RetinopathydSpr-OrientDMLabCIFAR-100DTDCaltech101sNORB-AzimClevr-DistKITTI-DistExpertFigure 5. Task-agnostic (positive if better) vs Task-aware (linear) (negative if better) for B = 1. On the ALL pool, the methods performin a similar fashion, with respect to the number of datasets and the amount in which one outperforms the other. When one restricts thepool to RESNET-50 or EXPERT task-aware methods outperform the task-agnostic method on most datasets. The relative delta is deﬁnedin Equation 2 in Section 3.DTDClevr-DistCIFAR-100Sun397PetsFlowers102sNORB-ElevClevr-CountCaltech101RetinopathysNORB-AzimCamelyondSpr-OrientKITTI-DistResisc45DMLabEuroSATSVHNdSpr-Loc0.00.51.0Relative DeltaAllCIFAR-100CamelyonDTDEuroSATClevr-DistSun397RetinopathyResisc45PetsKITTI-DistFlowers102DMLabClevr-CountCaltech101sNORB-ElevsNORB-AzimdSpr-Orient0.00.20.000.050.1092100SVHN0dSpr-Loc0-0.40-0.200.4 ResNet-500dSpr-Orient0Clevr-Dist0Resisc450Retinopathy0CIFAR-1000dSpr-Loc0Sun3970SVHN0Pets0sNORB-Elev0Flowers1020EuroSAT0DTD0DMLab0Clevr-Count0Camelyon0Caltech1010sNORB-Azim0KITTI-Dist0-0.0500.15 Expert0图6.混合线性（如果更好则为正）与线性评估（如果更好则为负）对比，B=2。我们观察到混合线性在所有数据集上显著优于具有相同预算的线性。尽管对于R ES N ET-50和EXPERT数据集，线性在某些数据集上的表现优于混合，但它的优势通常很小。我们注意到混合的最显著的增益来自于某些结构化的数据集，这是每个策略最困难的任务。05.4.进一步的消融研究0计算预算如何影响寻找结果-0我们已经看到，对于B=2的有限预算，0提出的混合方法优于其他策略。随之而来的一个自然问题是：这些方法在计算预算B的函数中的表现如何？特别地，对于每个预算B，我们计算每个策略选择最佳模型的频率。结果如图7所示。我们观察到混合线性策略在所有数据集上优于所有单独的策略。此外，它还优于一个强大但不切实际的任务无关的预测模型，该模型允许根据所有数据集上的平均微调准确率对模型进行排序。我们的混合策略在线性策略表现良好的数据集上达到了相当的性能。当任务感知策略表现不佳时（例如没有专家模型的数据集），混合线性策略显著更强（如附录D中的图17所示）。这些实证结果表明，混合策略是一种简单而有效的实用模型搜索策略。0备选评估分数。[14]和[16]都提出了备选评估分数。0计算ImageNet测试准确率与各个数据集上平均微调准确率之间的相关性。虽然这为平均性能提供了一个很好的与任务无关的评估方法（参见图1右侧）0[14]），它可能受到在特定数据集上与其相关性较差的异常值的显著影响（参见[14]中的图2中间行）。在附录B中，我们强调了在异构数据集上使用相关性分数的模型搜索策略的另一个局限性。然而，我们在实证中验证了根据I M N ET ACCURACIES数据集上的ImageNet测试准确率对模型进行排序在我们的评估设置中的有效性。此外，我们还展示了报告经过逻辑变换的准确率差异（对数几率）会得出类似的结论（参见附录C）。我们选择相对遗憾r(m)作为定义在第3节中的相对遗憾，因为它更直观且在[-1,1]范围内。0k NN超参数的影响。k NN分类器-0分类器受到维度诅咒的影响[26]，因此我们研究了维度（即表示大小）对kNN评估的影响。我们固定一个数据集，绘制模型的kNN得分与其表示维度之间的关系。为了每个维度只有一个点，并避免过度表示所有具有相同架构的专家模型，我们选择具有最佳k NN准确率的模型。通过计算维度和相应的kNN得分之间的皮尔逊相关系数，我们观察到3个数据集的中度反相关（R < -0.5），另外3个数据集的中度相关（R >0.5）。123456789100.000.250.500.751.00123456789101234567891092110预算0最佳选择0全部0预算0ResNet-500预算0专家0线性混合线性任务不可知的预测模型0图7. 计算预算的最佳选择。三个代表性池中选择的模型数量（相对）。我们注意到，混合线性方法在ALL上表现优于所有其他方法，而在线性策略已经表现良好的受限池中与线性策略相当。这里，任务不可知的预测模型是一种根据其在所有数据集上的平均准确性对模型进行排名的方法（更多细节见第5.4节）。0数据集，以及13个其他数据集的线性分类器准确性与维度之间要么没有相关性，要么相关性很小。根据这些经验证据，我们得出结论，kNN分类器准确性与维度之间没有显著相关性。我们在附录F的图23中提供了更多细节。关于k，我们初步的k = 3的实验没有明显优势，超过k = 1。0早停方法，即仅对整个网络进行少数迭代的微调，允许探索准确性与时间之间的权衡。然而，人们理解到结果在很大程度上取决于预训练期间使用的神经架构和超参数（例如，使用批归一化训练的模型需要不同的策略）。在我们的实验中，总结在附录I中，我们没有展示出任何超出特定设置的好处，这些设置会使这种策略优于简单的线性代理（参见图28）。06. 其他相关工作0如果可以访问源数据等元数据0对于数据集，可以比较上游和下游数据集[3]；通过重新加权上游数据以反映其与下游任务的相似性来混合源数据和目标数据[18]；或者通过识别与下游数据对齐良好的上游数据子集来构建联合数据集[8]。这些方法仅限于每个上游数据集一个模型，同时也不太实用，因为它们需要训练一个新模型以及访问上游数据集，这可能由于专有或隐私问题而不可用。0此外，最佳臂识别赌博机算法0建议通过对较短时间内微调模型的次优选择进行连续消除[7]。这结合了模型选择和下游训练，注意到它与部分微调代理方法在第5.4节中描述的相同限制。0其他任务感知策略。替代方法0例如，H-Score [2]，LEEP [19]或NCA [30]替代了0通过使用一个更便宜的估计器计算基于冻结权重的线性分类器权重的计算。这些估计器是通过分析预训练模型的分类输出的伪标签分布来导出的。这三种方法在仅支持提供原始任务的分类头与每个预训练模型一起的情况下有明显的局限性。此外，理论上的0在仅使用冻结表示训练的线性分类模型上，不提供任何关于线性分类器的保证。正如LEEP所观察到的，尽管仅在自然数据集上观察到，微调实现了显著更好的测试准确性，而线性分类器进一步促使我们更好地理解使用线性准确性作为微调的代理，注意到线性相关性不一定是传递性

下载后可阅读完整内容，剩余1页未读，立即下载