深度网络的任务感知超参数优化方法

196 浏览量更新于2023-10-23 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8736数据集A（性能、配置1配置2配置N ）先验知识数据集Z不可见数据集（性能、配置N ）性能秩1秩2秩N配置NHyperSTAR动态预测器随机搜索Hyperband配置1配置2配置1配置2HyperSTAR：深度网络高拉夫·米塔尔<$<$刘畅<$尼古拉斯·卡里亚纳基斯<$维克多·弗拉戈索<$陈梅<$傅云东北大学{gaurav.mittal，nikos.karianakis，victor.fragoso，mei.chen}@yunfu@ece.neu.eduhusky.neu.edu microsoft.com摘要虽然深度神经网络在解决视觉识别任务方面表现出色，但它们需要付出巨大的努力来找到使其最佳工作的超参数。超参数优化（HPO）方法已经自动化了寻找好的超参数的过程，但是它们不适应给定的任务（任务不可知），使得它们在计算上效率低下。为了减少HPO时间，我们提出了Hy- perSTAR（System forTask Aware Hyperparameter Recommendation），这是一种用于深度神经网络热启动HPO的任务感知方法。HyperSTAR通过预测超参数在联合节点-超参数空间上的性能来对超参数进行排名和推荐。它学习数据集（任务）表示以及性能任务感知温启动最佳配置与任务无关的HPO预测器直接从原始图像在一个端到端的时尚。当与现有的HPO方法集成时，这些建议使其具有任务意识，并显著减少了实现最佳性能的时间。我们在两种不同的网络架构上对10个公开的大规模图像分类数据集进行了广泛的实验，验证了与现有方法相比，HyperSTAR评估的配置减少了50%，以实现最佳性能我们进一步证明，HyperSTAR使Hyperband（HB）的任务感知，实现最佳精确度仅为普通HB和贝叶斯优化HB（BOHB）所需预算的25%1. 介绍迁移学习已经成为一种事实上的实践，可以推动几个计算机视觉任务的性能边界[8，49]，最值得注意的是图像分类[16，19，38]。虽然迁移学习提高了新任务的性能，但它需要机器学习（ML）专家花费数小时寻找正确的超参数（例如，学习率、要微调的层、优化器等）可以达到最佳性能的系统。研究人员依靠Hyperpa-#21518;作者同等贡献。这项工作是在C.刘是微软的研究实习生图1.HyperSTAR通过在联合超参数空间上进行端到端学习，为未知任务推荐最佳超参数配置这些建议可以加速现有的HPO方法，从而为资源有限的预算提供最先进的性能。参数优化（HPO），从简单的随机搜索[3]到复杂的贝叶斯优化[39]和Hyperband [29]，以减少手动工作并自动化寻找最佳超参数的过程。虽然比手动搜索更有效，但这些方法仍然很慢，因为它们中的大多数对于任何新任务都触发相同的程序，并且不利用来自相关任务的过去经验的任何信息许多方法加速HPO [24，27，41]，包括利用任务之间的相关性的其中一些使用Meta学习通过利用来自过去搜索的任务信息（元特征）来热启动HPO [12]。这些方法要么使用学习到的先验知识指导超参数的搜索策略，而不是手工制作的数据集统计[12，48，2]，要么从数据库中选择最相似任务的搜索策略[47，10]。尽管这些方法加速了HPO，但是没有利用基于视觉的先验或学习深度特征表示来联合编码数据集和超参数以加速HPO的方法。………………8737大规模图像分类任务。具有这样的表示可以帮助系统热启动并基于要优化的任务虽然Kimet al.[25] Wongetal. [44]建议使用图像特征来理解任务，他们的努力缺乏任务和超参数的联合表示。我们认为，一个联合的超参数表示是至关重要的大规模，现实世界的图像分类问题。随着AutoML [20]的出现，人们对系统[11，23]的强烈兴趣是完全自动化在客户图像数据集上训练模型的过程。为了满足大量用户的需求，AutoML系统必须有效地搜索最佳的超级参数。考虑到真实世界图像数据集的多样性，还需要以任务感知的方式而不是任务不可知的方式对超参数配置进行优先级排序。任务感知机制理解给定的数据集，并推荐可以在该数据集上运行良好的配置。另一方面，任务不可知的机制平等地对待所有数据集，并启动相同的配置搜索，而不管任务如何。为了实现任务感知的 HPO ，我们引入了 Hyper-STAR（任务感知推荐系统），这是一种热启动算法，可以优先考虑用于看不见的图像分类问题的最佳超参数配置Hy- perSTAR学习从一组先前看到的数据集中为新任务推荐超参数配置，以及它们在一组超参数配置上的归一化性能它包括两个阶段：离线元学习阶段和在线推荐阶段。在元学习阶段，HyperSTAR训练网络首先从训练图像中直接学习给定数据集的任务表示。然后，它使用该表示来学习给定配置的精度预测器。在推荐阶段，HyperSTAR预测每个超参数配置的准确性，给出了一个看不见的数据集的任务表示。然后，它利用这些预测来生成一个排名，该排名可用于加速不同的HPO方法，通过优先考虑最有前途的配置进行评估。参见图1中的HyperSTAR图示。我们广泛的消融研究证明了HyperSTAR在为现实世界图像分类任务推荐配置方面的有效性。我们还使用HyperSTAR的建议制定了Hyperband（HB）的任务感知变体[29]，并表明它在有限的时间预算HPO设置中优于以前的变体[29，9，47]据我们所知，HyperSTAR是第一个温启动方法，它可以学习加速HPO，用于以端到端的方式从超参数和原始图像中解决大规模图像分类问题总之，这项工作的贡献如下：• 一个元学习框架，HyperSTAR，建议-修正了任务特定的最优超参数，用于不可见的真实世界图像数据集。• 推荐超参数的第一种方法是基于与原始图像端到端的性能预测器联合学习的任务表示。• HyperSTAR可以热启动和加速任务无关的HPO方法。我们通过以下方式证明这一点-将HyperSTAR与Hyperband相结合，在有限的预算设置下优于现有方法。2. 相关工作找到al-tax m的超参数的最简单的解决方案是通过对所有可能的参数进行网格搜索[3]。由于其速度慢且计算成本高，因此社区引入了贝叶斯优化（BO）[39，40，26]等方法，该方法使用高斯过程进行概率采样，以及Hyperband [29]，该方法使用随机配置选择和连续减半[22]来加速HPO。Falkner等人[9]提出了BOHB，一种贝叶斯优化和Hyperband混合，利用BO和HB之间的性能和时间之间的权衡。对于低时间预算，BOHB和Hyperband同样优于BO，而对于大时间预算，BOHB优于所有BO，Hyperband和随机搜索[20]。为了加速HPO方法，有一些方法可以对学习曲线进行建模[42，27]，使用多保真度方法进行廉价近似[24]，使用基于梯度的方法[13，33，35]，或者在训练数据的子集上进行训练并外推性能[26]以减少整体搜索时间。加速HPO的另一种方法是通过这些技术利用任务之间的相关性来加速HPO。Swersky等人[41]学习基于多任务高斯过程对超参数进行Xue等人[47]根据某些基准模型的准确性对先前评估的任务进行聚类。这两种方法在利用来自多个任务的HPO知识的同时，招致时间开销，因为它们每次都需要在一定的配置池上评估新任务以加速搜索。为了避免评估基准配置，其他方法学习一个函数，以使用一些基于任务的表示来映射配置空间上任务性能的趋势[2，12，30，48，10]。该函数基于多任务高斯过程[2，48]或随机森林[12]。在这些方法中采用的任务表示基于手工制作的特征，诸如Meta数据（例如，数据集中的样本和标签的数量），或者一阶和二阶统计量（例如，PCA、偏度、kurto- sis等）[20 ]第20段。由于这些功能既不是基于视觉的，也不是与HPO模块联合学习的，因此它们被证明对于大规模视觉任务是低效的（参见第4节）。8738HCH未知数据集，/01*超参数函数HyperSTAR预测性能HC1HC2排名2排名H(a) 离线Meta学习阶段HCK秩1配置建议(b) 在线推荐阶段图2. HyperSTAR模型概述。 (a)离线元学习阶段。该阶段联合学习任务表示和超参数表示的函数，并将它们用作性能预测器的输入，该性能预测器估计给定数据集（任务）和超参数配置的CNN的性能。(b)在线推荐阶段。在此阶段，HyperSTAR预测新数据集在超参数空间上的性能，并生成任务感知的配置排名Alberle等人[1]引入了task2vec，一种视觉启发的任务表示，但其计算成本使其不适合作为超参数建议的条件输入。关于神经架构[52]，Kokiopoulouet al. [28]建议在从基于原始语言的数据中获得的全局平均特征然而，由于这些方法仅限于低维语言任务，并且没有任何专门的基于性能的相似性正则化，因此这些方法不能直接适用于大规模视觉任务。对于视觉任务，Wonget al.和Kimet al. [44，25]在所有图像上全局平均的与这些方法不同的是，这些方法中的特征要么不被学习，要么经由简单的统计被聚集（即，HyperSTAR是第一种在超参数和数据集的联合空间上学习端到端表示的方法。通过这样做，HyperSTAR学习了更可操作的功能，用于推荐配置和用于大规模视觉数据集的HPO的任务感知热启动3. HyperSTARHyperSTAR的目标是为未知的数据集（任务）推荐定制的超参数配置为了引入这种任务感知，HyperSTAR包括在真实世界图像分类数据集和超参数配置的联合空间上操作的监督性能预测器给定一个数据集和一个超参数配置，我们的模型在离线Meta学习阶段学习预测给定配置的数据集一旦模型学习了这个映射，我们就在在线推荐阶段对一个看不见的数据集使用HyperSTAR来预测分数并对超级参数配置进行排名。这一排名有利于温暖启动与任务无关的HPO方法，正如我们通过制定任务感知Hyperband所展示的那样。图2提供了HyperSTAR的详细说明。3.1. 离线Meta学习阶段性能预测器。性能预测器的目的是估计给定任务表示和超参数编码的超参数配置的准确性（例如，学习率、要微调的层数、优化器）。在数学上，性能预测器f是对给定数据集或数据集的基于深度学习的图像分类器的性能v进行回归的函数。任务D和超参数配置编码C。因为用解析法推导这个函数f是很困难的-对于现实世界的视觉任务，我们使用一个用权重θ参数化的深度网络架构fθ来学习它。学习fθ需要数据集D和超参数配置C的基于张量的表示。学习任务t∈Rd的表示，我们搜索一个函数t=gwt（D），由权重wt参数化。类似地，我们通过搜索一个函数来学习编码为独热向量c的超参数配置的表示s∈Rd由权重ws参数化的tions=hws（c）。在数学上，它可以表示为v=fθ（gwt（D），hws（c））.我们通过使用卷积神经网络，然后使用g w t（·）内部的变换器层，直接从数据集D的原始训练图像中以端到端的方式学习任务表示t。这使得能够将视觉信息使用到任务表示t中，从而导致im。证明了对看不见的视觉任务的泛化，并使该方法端到端可区分。以端到端的方式联合学习性能预测器和表示构成了对先前的元学习方法的背离，先前的元学习方法使用手工制作的元数据来表示任务[2]（例如，训练样本的总数、类的数量、每类的样本数量等），性能-超参数配置（HC）1| 学习率|增强|层|HyperSTAR超参数配置（HC）2：预测性能，vConfig超参数配置（HC）234516配置1-热矢量，c编码器联系我们HC1HC2超参数#$HCN7& &（F性能预测网络列车数据集图像批处理，$ConvNet特征映射视觉编码器Similarit y）*+TransformerHC1HC2……级联………8739我我爱你我爱你GL我我基于特征[47]或来自冻结深度网络的全局平均特征[44]。这允许我们的性能预测器fθ（·）通知特征提取器gwt（·）和hws（·）在培训期间了解es最有用的功能评估给定任务的图像分类器的性能和超参数配置。Meta 数据集。为了共同学习性能预测因子 fθ（·），任务表示gwt（·），和超参数嵌入，我们构造一个Meta数据集（即，数据集的数据集）T在M个数据集和H个超参数配置的联合空间上。我们定义T ={（Di，cj，v ij）|i∈{1，. . .，M}，j∈{1，. . .，H}}，其中Vij是目标性能分数（例如，top-1 ac-curacy）实现的图像分类器使用hyperpa，数据集Di={（x k，y k）}上的参数配置c j|K =其中rij是第i个和第j个数据集之间的预先计算的相似性，并且d（gwt（Di），gwt（Dj））是两个任务表示gwt（Di）和gwt（Dj）之间的余弦相似性。我们将r ij预先计算为AP @K [51]，其中k = 10。直观地说，当两个数据集具有大量共同的条目。Lsim（w t）因此帮助g wt（. ）将看不见的数据集推到流形中的“类似的”可见数据集附近减少任务内表示差异。为了优化Eq. （1），我们利用具有小批量大小B的随机梯度下降。因此，这强加了一个约束，即数据集表示ti是从从数据集Di采样的批次必须代表该数据集。换句话说，数据集表示是从Di采样的批次a计算的结果必须与我我0，. - 是的- 是的，N i}（每个（x k，y k）是D i中的图像标签对）。到从一批相同的表示计算的表示tb，我我我性能回归。我们首先找到最优参数-θ，wt，ws的参数，使我们的性能预测器的估计性能和使用损失函数的地面实况性能得分：数据集。因此，我们的模型必须确保方差在从任何一批相同数据集计算的任务表示中，受领域适应技术的启发[14，43，17]，我们设计了一个对抗训练组件，其目标是保持数据集的代表性。1ΣB从接近全局的批次（tl）计算的2个Lperf（wt，ws，θ）=vij−fθ（gwt（Di），hws（cj））<$2，Gi数据集（ti）的B表示。我们计算全局i=1数据集的表示如下tG=1ΣLt1，（一）其中B是一个批次中的实例数。由于任务难度的多样性，跨数据集的原始地面实况性能得分vij可能具有大的方差。为了减轻这种方差对我们的预测值的影响，我们将性能分数归一化为，iLl=1i其中索引l贯穿直到最后L个采样的im。数据集的年龄批次（如滑动窗口）。我们使用一个bandwidthwd（·）来确保批量数据集表示tl接近全局表示tG。为了惩罚偏差，我们用公式表示以下损失：v←（v−µ）σ−1，其中µ和σ是数据集性能得分的平均值和标准差Ladv（wt，wd）=EΣ日志..dwdΣΣΣi+EΣ日志..1 −dwdΣΣΣi，（三）对于所有超参数配置，分别为Di尽管使用一个排名损失[5]似乎更直观的建议其中E[·]是期望算子。我们选择使用对抗训练组件来确保语义一致性，批量表示TL和全局hyperparameters，Yogatamaet al.[48]这表明，应用-G在vij上进行上述归一化使得等式（1）中的基于回归的优化成为（1）相当于基于等级的优化。基于回归的公式具有优势-如Hoffman等人所建议的表示。[17 ]第10段。总体目标函数。因此，总体任务表示问题如下比基于排名的优化更省时学习基于秩的预测的时间复杂度，而基于回归的预测器的时间复杂度为O（MH2）。minwt，ws，θMaxwdLperf（wt，ws，θ）+αLsim（wt）+βLadv（wt，wd）（四）O（MH）。因此，我们基于回归的性能预测器可以有利地扩展到更多的数据集。基于相似性的任务间正则化。学习一个更有意义的任务表示，我们添加了一个正则化器，如果两个任务具有相似的超参数配置排名，则它们必须具有相似的表示。该正则化器Lsim（wt）的目标是在两个任务的相似性表示为两个数据集之间的任务相似性不同于预先计算的任务这个正则化子定义为2Lsim（wt）=<$rij−d（gwt（Di），gwt（Dj））<$2，（2）不不8740其中α和β是损失系数。我们解决这个问题通过在优化特征提取器 gwt（ ·）、hws（ ·）和bandwidthwd（·）之间交替直到一致。离线元学习阶段的实现细节算法1示出了离线Meta的训练过程学习阶段。离线元学习阶段需要两个循环。最外面的for循环（步骤3 - 12）针对包含超参数配置及其性能的第m个数据集Dm对元批次Cm进行最内层的for循环（步骤6 - 11）从更新预测器的参数并同时聚合全局表示tm，8741MMM直到最后L个图像批次。除了利用如上所述的随机梯度下降之外，与单点估计[44]相比，对图像批次进行采样以表示数据集，通过有效地充当数据增强，有助于将数据集（任务）建模为数据集配置空间中更丰富的分布3.2. 在线推荐阶段算法1：离线元学习阶段1输入元数据集T，M数据集，超参数批次大小Ohyper，图像批次大小Nimg，每个数据集的采样图像批次数量Bimg，窗口大小L2当不收敛时，3，m=1至Mdo初始化全局任务嵌入tG=0数据集Dm的5个样本超参数批次Cm来自T6，对于i=1至Bimgdo一旦我们的HyperSTAR对图像批次B进行采样，从DM学习在离线Meta学习阶段有效地将队列配置对映射到其相应的性能得分，我们可以将其用于在线推荐如算法2和图2b所示的不可见数据集D_newHyperSTAR首先为新数据集提取任务表示tnew=gwt（Dnew），然后与8910111213端部端端通过最小化方程，更新θ，wt，ws。（四）计算tG作为最后L个图像批次的平均值。（4）;一批以前见过的超参数配置en-算法2：在线推荐阶段编码，将其输入到离线训练的性能预-dictorfθ（·）来预测与配置序列相对应的性能分数序列基于这些性能分数，我们可以对配置进行排序，以优先考虑要评估的配置。1 InputUnseen datasetDnew，meta-datasetT，batch sampling迭代次数B，超参数配置数H2 对于n=1到H，3从T得到第n个超参数配置cn4，对于i=1到B，5从Dnew中随机采样图像批次Bi;任务感知HPO。此任务感知推荐列表由HyperSTAR产生的能量可用于热启动，指导任何现有的HPO方法。我们证明这一点67端vn，i=fθ1ΣB..gwtiΣ新新的，hws（cn）通过提出Hyperband的任务感知变体[29]。在89端部vn=Bivn，i这种Hyperband的变体，在每个阶段中，我们将通过基于HyperSTAR建议的推荐列表评估前n个配置来进行随机配置抽样我们使用Hyperband对前n个配置的阈值列表进行了实验，但它可以混合（无需太多努力），以混合一定比例的随机配置或基于在排名配置列表上定义的概率的样本配置。在线阶段的实施细节。算法2总结了在线推荐阶段。最外层的for循环（步骤2 - 9）迭代所有可能的H配置。对于每种配置，最内部的循环（步骤4 - 7）对B个批次进行采样，并在步骤6预测每个批次的在这个最内层循环的末尾，我们对所有性能预测取平均值，并将其用作第n最后，该算法排名的基础上，他们的估计性能的所有配置，并返回排名。4. 实验本节介绍了一系列旨在评估性能预测器的实验，生成的建议（见第二节）。4.1），以及HyperSTAR的端到端HPO性能（参见第4.3）。数据集。我们在10个公开可用的大规模图像分类数据集上评估了HyperSTAR：[21 ]第21话：我的世界，我的世界，我的世界101 [4]、MIT室内场景识别[37]、IP 102 In-10返回分级配置c1，. - 是的- 是的，cH基于v1，. - 是的- 是的，vHSects Pests [45]、Oxford-IIIT Pets [34]、Places 365[50]、SUN 397 [46]和可描述纹理数据集（DTD）[6]。建筑。为了确保我们的实证研究反映了我们的方法在最先进的网络上架构，我们选择SE-ResNeXt-50 [18]，一个强大的大型架构;和ShuffleNet-v2-x1 [32]，一种紧凑而高效的架构。对于这两个网络，我们在迁移学习设置[8]中操作，其中我们从在ImageNet [7]上预训练的模型初始化网络的权重，并微调网络的某些层，同时最小化多类交叉熵损失。SE-ResNeXt-50的超参数空间由40个配置组成，这些配置在学习率、优化器选择、微调层数和数据增强策略方面各不相同。由于ShuffleNet-v2-x1需要更少的时间来训练，我们在上述超参数维度上探索了108个配置的更大搜索空间。元数据集为培训的性能预测器为了在联合数据集-超参数空间上构建元数据集，我们在10个数据集中的每个数据集上为其各自的超参数空间中的每个配置这为SE-ResNeXt-50生成了一组400个训练样本，为ShuffleNet-v2-x1生成了1，080个数据样本。因此，元数据集包含持有独热编码表示的三元组B78742表1.针对不同方法的10个公共图像分类数据集的SE-ResNeXt-50的AP@10比较表2.ShuffleNet-v2-x1的AP@10比较，用于不同方法的10个公共图像分类数据集使用超参数配置，训练数据集的图像和相应的Top-1准确度（用作HyperSTAR估计的性能得分）。我们使用为每个数据集分别计算的平均值和标准差对这些Top-1准确度进行归一化，这些数据集在整个配置空间的准确度评分上（第3.1节）。评价指标。我们使用Average Precision@10（AP@10）[51]指标（如第3.1节所述）来评估HyperSTAR生成的配置的排名。该指标反映了HyperSTAR预测的相关配置的数量和相对排名。我们首先根据实际Top-1精度的降序建立一个地面实况超参数推荐列表。然后，我们通过将该列表与基于HyperSTAR预测准确度的递减顺序生成的预测推荐列表进行比较来计算AP@104.1. 业绩预测和排名我们提出了一个定量的研究比较的任务表示，正则化函数和性能预测引入HyperSTAR与现有的方法。任务表示比较。对于这种比较，我们使用基于元数据的任务表示作为第一基线。该表示是预处理中使用的统计数据的子集，适用于我们的视觉数据集的方法[12，2]（例如数据集中的图像数量，类别和每个类别的图像）。作为第二个基线，我们考虑基于全局平均特征的任务表示。全局均值是通过对数据集的所有训练图像取从在ImageNet上预训练的ResNet-50的倒数第二层获得的深度视觉特征的平均值来计算的。相比之下，我们的任务表示是一个批量平均值（BM），作为一批Nimg=64个训练图像上的端到端学习特征的平均值我们取这些批次中的Bimg=10个，取平均值以获得任务表示。在训练中，超空间的大小参数batch是Ohyper=10。对于每个设置，我们训练我们的性能预测器并计算10次试验的平均AP@10 我们可以从表1和表2中观察到，我们的端到端学习任务表示（BM）比基于Meta数据和基于全局均值的任务表示好17 。 62% ， 9 。对于 SE-ResNeXt-50 ，分别为 25% 。ShuffleNet-v2-x1的性能增益类似（参见表2）。这表明，学习端到端的视觉启发任务表示有助于HyperSTAR推荐更好的任务感知配置。它进一步表明，将数据集表示为大量随机抽样批次的分布比将其表示为使用全局均值的点估计更好正规化消融研究。我们执行一个内部消融研究比较了在HyperSTAR中使用分批平均值（BM）时实现的AP@10，并使用和不使用基于相似性和对抗性的正则化。我们可以从表1和表2中观察到，对于SE-ResNeXt-50的10个数据集中的6个和对于ShuffleNet-v2- x1的10个数据集中的9个，施加正则化改进了AP@10。这表明，在预期中，施加正则化允许任务表征在联合队列配置空间上学习有意义尽管引入正则化会带来时间成本，但与普通的分批平均值设置相比，它们为用户提供了额外的维度来探索并进一步改进配置配置。性能预测器比较。我们比较了Hyper- STAR和现有的基于元学习的热启动 HPO 方法。我们首先比较HyperSTAR与Feurer等人。[12]其使用元数据的联合向量上的随机森林回归和超参数的独热编码来预测对应的Top-1准确度，并使用其来构建配置的推荐列表。我们还比较了HyperSTAR与Feurer等人。”[10]这句话的意思是：测试数据集Feurer等人[12]Feureret al. [10]任务不可知元数据全局平均值批次平均值（BM）BM + GANBM +相似性BM +相似度+GAN书皮30加州理工学院256 DeepFashion Food101麻省理工学院室内IP102（害虫）牛津IIIT宠物场所365 SUN397纹理（DTD）平均38.7137.1345.6342.1061.6468.1664.0262.6068.2760.5949.5565.9072.5785.2682.3483.8380.9786.7233.2728.6731.9646.6944.6462.3987.6382.3991.5148.0149.6055.2863.3263.9570.9867.2767.3168.2067.8143.2743.5172.3179.4172.5176.4578.7977.9768.1550.7163.2373.0989.0584.9487.4983.6487.5271.9854.5053.9078.1178.3381.4378.4279.5279.6449.2054.7831.9651.7862.3288.0593.4190.3791.7272.6354.7845.5888.5993.3693.7492.9294.4791.8559.3851.9760.0760.1374.6682.5977.2181.6381.4659.6742.4949.7064.8773.2478.7180.8780.1782.49测试数据集Feurer等人[12]Feureret al. [10个国家]任务无关基线元数据整体平均值批次平均值（BM）BM +GANBM +相似性BM +相似度+GAN书皮30加州理工学院256 DeepFashion Food101麻省理工学院室内IP102（害虫）牛津IIIT宠物场所365 SUN397纹理（DTD）平均14.3021.740.0033.2735.3076.8169.7180.2376.923.4110.952.1115.3516.4521.6924.2920.5121.516.750.0015.7431.9717.7033.8234.3435.2840.1012.5711.8144.6933.4447.4180.9884.8887.1084.609.1125.743.1135.6834.8739.5646.9338.2147.7414.210.026.1154.7349.8756.3054.9657.7355.342.1111.9531.2425.4624.9844.8653.8454.6947.2025.8127.870.0040.4858.2869.8862.8971.7875.2518.4527.870.0037.8943.7950.4943.9844.7846.0959.380.018.6534.8840.7146.7051.4346.5246.5611.7215.2514.1634.3236.9452.1152.7253.6854.13消融基线消融基线8743图3.基于任务感知HyperSTAR的Hyperband与SE-ResNeXt-50的现有方法的端到端性能比较。HyperSTAR在低历元预算（100，250，450）上执行时优于其他方法。图4.基于任务感知HyperSTAR的Hyperband与现有ShuffleNet-v2-x1方法的端到端性能比较。HyperSTAR在低历元预算（100，250，450）上执行时优于其他方法。相对于元数据特征，对给定的测试数据集进行近似训练数据集，并使用训练数据集的推荐配置的基本事实列表作为测试数据集的预测。我们进一步建立了一个任务不可知的基线，以比较我们的任务意识的建议的有效性对于该基线，我们忽略测试数据集的特征，并通过按照训练数据集上的平均Top-1准确度的降序对配置进行排序来构建推荐配置的预测列表。从表1和表2中，我们可以观察到HyperSTAR超过了每个基线，SE-ResNeXt-50 的平均 AP@10 裕度至少为 25% ，ShuffleNet-v2-x1为37%。我们还从表中观察到，基于相似性的方法（任务不可知和Feurer等人）。[10]）与基于任务表示的方法（ HyperSTAR 和 Feureret al.[12]）。4.2. 温暖的开始与建议我们测试HyperSTAR推荐的配置和其他基准方法，通过评估它们的排名或-der.我们绘制了一条曲线，显示了在k个超参数配置之后实现的最佳Top-1精度，其中k=1 .一、. .如图5A所示。我们可以观察到，使用HyperSTAR的建议，仅在50%的评估配置中实现了基线建议所需的相同性能。这表明，与其他基线方法和任务表示相比，HyperSTAR的基于原始像素的端到端学习任务表示对于先验化超参数配置来说信息更多。HyperSTAR在Nvidia 1080Ti上需要422毫秒来生成配置建议，与评估单个配置所需的多个GPU小时4.3. 任务感知Hyperband我们使用来自HyperSTAR的任务感知超参数推荐来热启动 Hyperband （ HB ） [29] ，并将其与普通Hyperband [29]和BOHB [9]进行比较。我们设计实验来演示一个常见的场景，其中用于搜索未知数据集的最佳超参数的时间是有限的。8744SE-ResNeXt-50 ShuffleNet-v2-x1（（b）第（1）款图5. (a)HyperSTAR建议的评估配置与基线方法的排序比较。与基准相比，HyperSTAR通过评估少50%的配置实现了最佳性能。 (b)热启动Hyperband（HB）与HyperSTAR对比跨不同时期预算的基线方法。HyperSTAR实现了最佳精度，预算仅为其他方法的25%它也达到了1。在两种网络架构上，最小预算设置的最佳Top-1准确性平均提高5%我们为不同的总预算量运行所有方法预算是根据时期来定义的，以保持评估时间在不同的超参数配置、数据集和架构中一致任何给定配置的最大历元数为R=100。我们考虑1600个历元的预算（η=3，大预算设置）和450、200和100个历元的较小预算（η=2，低预算设置）。图3和4显示最好的顶部-1分别针对SE-ResNeXt-50和Shufflent-v2-x1的所有10个测试数据集，通过不同方法针对不同预算实现的准确度图图5B进一步示出了两个网络架构的所有测试数据集的平均值。我们观察到，HyperSTAR在低预算设置中优于vanillaHB和BOHB，所有数据集都达到1左右。两种网络架构上最小预算设置的平均最佳Top-1准确性提高5%事实上，HyperSTAR仅用其他两种方法所需预算的25%就达到了最佳这是因为vanilla HB和BOHB建议的超参数的初始集合不遵循任何先验并且是随机选择的，即，他们是任务不可知论者。通过所有三种方法实现的Top-1精度的差异随着时间的增加而逐渐减小，精度也与给定超参数空间可实现的最佳Top- 1精度相当。香草HB和BOHB会发生这种情况，因为随着时间的推移，它们充分地探索超参数空间，以能够发现最佳可能配置。尽管基于HyperSTAR的Hyperband旨在提高低预算设置的HPO效率，但能够实现最佳性能表明它也适用于大预算设置。如果有足够的预算，我们的方法可以实现在平价（如果不是更好）的性能相比，其他HPO方法。我们的图还显示，BOHB在低预算设置中与香草HB相当，而在大预算设置中优于香草HB。这是因为随着时间的推移，BOHB的贝叶斯抽样先验比随机抽样更好，从而帮助BOHB优于普通HB。我们还将我们的任务感知Hyperband与Tr- AutoML进行了比较[47]。为了进行公平的比较，我们考虑了Tr-AutoML将9个训练数据集分组为离线训练的一部分所花费的时间，并将其从时间计算中排除。我们随机选择10个配置对数据集进行分组，并在测试数据集上进行评估，以找到最相似的训练数据集。我们考虑Tr-AutoML 的更省时的场景，其中我们不运行 Hy-perband，并使用最相似训练数据集的最佳配置计算在看不见的数据集上实现的Top-1准确度如图3、图4和图5b所示，由于总评估时间包括在基准10配置上运行，然后最终在最佳发现配置上运行，因此在1100个从这些数据中，我们可以观察到，我们的任务感知HB能够以少10倍的预算实现相同的性能。与Tr-AutoML相比，从原始像素学习数据集嵌入显著减少了预测最佳超参数所需的时间5. 结论我们提出了HyperSTAR，第一个高效的任务感知的热启动算法，用于视觉数据集的它通过直接在原始图像上学习端到端任务表示和性能预测器此排名有助于加速HPO al-出租，如Hyperband。我们在10个真实世界图像分类数据集上的实验表明，与最先进的热启动方法相比，HyperSTAR在评估的超参数配置我们的实验还表明，HypterSTAR与Hyperband相结合，实现了最佳的性能在25%的预算的其他HB变量，蚂蚁。HyperSTAR在执行HPO时特别有用，而无需大量的计算时间预算。6. 确认特别感谢Microsoft Custom Vision团队提供的宝贵反馈和支持。8745引用[1] Alessandro Achille ， Michael Lam ， Rahul Tewari ，Avinash Ravichandran ， Subhransu Maji ， Charless CFowlkes，Stefano Soatto，and Pietro Perona.Task2vec：元学习的任务嵌入。IEEEInternational Conference onComputer Vision，第6430-6439页，2019年。3[2] Re'miBardenet ， Ma'tya'sBrendel ， Bala'zsKe'gl 和MicheleSebag。协作超参数调整。国际机器学习会议论文集，第199- 207页，2013年一、二、三、六[3] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。 Journal of Machine Learning Research ， 13（Feb）：281-305，2012. 一、二[4] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101在2014年欧洲计算机视觉会议上。5[5] Wei Chen，Tie-Yan Liu，Yanyan Lan，Zhi-Ming Ma，and Hang Li.学习排序中的排序度量和损失函数。在proc 神经信息处理系统的进展，第315-323页，2009年。4[6] M. Cimpoi，S.马吉岛Kokkinos，S. Mohamed，和A.维达尔迪描述野外的纹理。在IEEE计算机视觉和模式识别会议上，2014年。5[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 Proc. of the IEEE C

下载后可阅读完整内容，剩余1页未读，立即下载