没有合适的资源?快使用搜索试试~ 我知道了~
基于循环学习率的多保真度超参数优化
2309基于循环学习率的多保真度超参数优化HyunJae Lee Gihyeon Lee Junhwan Kim Sungjun Cho Dohyun Kim Donggeun Yoo LunitInc.{hjlee,gihyeon. lee,kimjh12,scho,donny8,dgyoo} @ lunit.io摘要尽管卷积神经网络(CNN)不断发展,但它们的性能惊人地依赖于超参数的选择然而,由于现代CNN的训练时间很长,因此有效地探索大型超参数搜索空间仍然具有挑战性多保真度优化通过提前终止不希望的配置,使得能够在给定预算的情况下探索更多超参数配置。然而,这通常导致选择次优配置,因为使用高性能配置的训练通常在早期阶段收敛缓慢。在本文中, 我们提 出了具 有循 环学习 率的多 保真度 优化(MORL),它将CNN的优化过程融入MORL消除了慢启动器的问题,并实现了更精确的低保真度近似。我们在一般图像分类、迁移学习和半监督学习上的综合实验证明了MORL优于其他多保真度优化方法(如连续减半算法(SHA)和Hyperband)的有效性此外,它在实际预算内实现了手动调整超参数配置的显著性能改进。1. 介绍卷积神经网络(CNN)最近在广泛的计算机视觉任务中取得了巨大的成功[21,25,27,29]。虽然CNN的性能受超参数的选择影响很大[7],但很难知道超参数的最佳组合 先验的因此,模型开发人员经常手动探索超参数配置,这需要巨大的劳动力成本,但相对于每个人来说是次优的[5]。超参数优化(HPO)[4,22]中的最新方法试图通过有效地探索多维搜索空间来自动化这个痛苦的调整过程。在实践中,已知自动调谐亲,cess在AlphaGo的开发过程中为提高胜率做出了重大贡献[6]。随着现代CNN变得越来越复杂,超参数的搜索空间变得越来越大,训练时间也越来越长,这使得探索不同的配置变得困难。为了加快HPO过程并节省计算开销,多保真度优化提前停止不好的配置,并自适应地将更多的资源分配给好的配置.通过基于部分训练结果的低保真度近似来确定配置的提前终止,这在计算上比完全训练便宜得多。连续减半算法(SHA)[16]和超带[22]是两种最流行的多保真度优化方法。这些方法通过提前停止低性能配置来探索数量级更多的配置。然而,我们通过实验发现,在训练CNN时,高性能配置通常在早期阶段表现不图1显示了在CIFAR-100数据集上使用ResNet-56它证明了最佳配置直到训练过程的后期才优于其他配置。由于有希望的配置的早期终止,有希望的配置的这种缓慢启动特性限制了训练CNN时多保真度优化的性能CNN通常以预定义的学习率计划来学习。从开始到结束的学习率时间表影响CNN的最终性能。然而,先前的方法在学习速率调度的早期/中点处丢弃低性能的迭代,并且因此导致次优配置。受此问题的启发,我们 提 出 了 具 有 循 环 学 习 率 的 多 保 真 度 优 化(MORL),该算法将学习率时间表压缩为适合每一轮促销。即使在训练的早期阶段,它也可以精确评估配置,因为模型来自整个计划。据我们所知,这是第一个将学习率时间表集成到多个231070605040302002040 60 80历元100 120140160位置功能。例如,预期改进[17]试图在勘探和开发之间进行权衡。通过迭代拟合代理模型和评估可能的配置,贝叶斯优化优于随机搜索等蛮力方法[4,14]。然而,贝叶斯优化固有地不能容易地并行化,这是由于概率模型与先前观察结果顺序拟合的性质[23]。此外,众所周知,贝叶斯优化不能很好地适应高维搜索空间,在高维搜索空间中,贝叶斯优化显示出与随机搜索相似的性能[36]。与我们的方法更相关的是,多保真度优化方法能够评估数量级的更一致性,图1.使用ResNet-56在CIFAR-100数据集上对学习率从0.01到0.1进行网格搜索的验证曲线(详情请参见第4.1图上的分数显示了每30个时期的最佳配置(蓝色曲线)的排名。最好的配置直到后期才优于其他配置。保真度优化我们在广泛的一般计算机视觉任务上的实验,包括图像分类[12],迁移学习[38]和半监督学习[2],验证了所提出方法的有效性。在整个实验中,MORL始终优于其他多保真度优化方法,如SHA和Hyperband。然而,它在合理的预算内显著优于高度手动调整的配置。此外,我们表明,我们的方法是正交现有的贝叶斯优化方法,适用于各种学习率的时间表。实验结果表明,MORL是一种实用的方法,适用于广泛的场景。2. 相关工作超参数优化CNN包括许多超参数,找到一个好的超参数配置以实现成功的性能是非常关键的[5]。虽然超参数的搜索空间通常是非常高维和复杂的,但很难应用结合梯度下降、凸性或平滑性的经典优化方法[9]。因此,模型开发人员通常需要手动调优过程,这需要巨大的人力成本[5]。超参数优化(HPO)旨在自动化这个痛苦的过程,并有效地搜索好的超参数配置贝叶斯优化[4,6]通过自适应地建议给定观测的超参数为了估计目标函数,它首先拟合一个概率代理模型与输入配置及其相应的性能的观察。然后,它选择下一个配置,最大限度地获取。通过利用更便宜的代理任务,例如,训练模型只进行几次迭代,使用部分数据集或缩小尺寸的图像[4,22,18]。由于模型复杂性和数据集大小的增加,训练单个配置可能需要几天到几周的时间[37],因此通过利用多保真度优化的力量来加快HPO过程变得更加重要。连续减半算法(SHA)[16]在随机选择的配置中均匀分配一个小的初始预算然后,它将预算加倍,并重复相同的过程,直到达到最大资源。除了其简单性之外,SHA在广泛的任务[23]中显示出与其他最先进的HPO方法(如Vizier [11],FABOLAS [18]和PBT [15])相当的Hyperband进一步扩展了SHA,通过运行不同的SHA变体来自动选择初始预算。BOHB [8]将Hyperband与贝叶斯优化相结合,以便从自适应资源分配和配置采样中受益。我们的方法通过将学习率计划纳入多保真度优化,使配置之间的学习率是调整CNN性能时最重要的因素之一[32]。广泛的现代CNN使用的典型学习率计划是步进学习率计划,其中初始学习率在给定的里程碑时期衰减足够的因子[20,12,31,13,34]。为了消除调整初始学习率及其时间表的需要,循环学习率(Cyclical LearningRates,缩写为RRR)[32]在合理的范围内单调增加然后降低学习率,并循环重复这个过程带有热重启的随机梯度下降(SGDR)[26]周期性地热重启SGD过程,其中在每个周期中重新初始化学习速率,并按照余弦退火时间表进行调度以降低。SGDR加速了CNN的训练过程,并通过在每个周期结束时获得的模型集合实现了最先进的性能。我们的方法与这些方法的不同之处在于,7/10 7/109/10 9 /10Top1前1精度2311−⌊⌋ −我们的目标是通过利用学习速率调度来改进多保真度优化3. 具有循环学习率的在本节中,我们将介绍具有循环学习率的多保真度优化(MORL)算法,该算法扩展了连续减半算法(SHA),通过考虑CNN的优化过程来改进低保真度近似。我们首先提供了一个简单的介绍SHA,激励需要一个循环的学习率,然后详细介绍MORL算法。7060504030200 2040 60 80历元100 120 1401603.1. 逐次减半算法给定缩减因子η和最大资源r,SHA用分配给每个配置的初始资源训练网络,评估所有配置的性能,并将前1/η配置提升到下一轮。然后,它将每个配置的资源分配增加因子η,并重复该过程,直到每个配置的资源分配达到r。通过分配相对较小的初始资源和提前停止,SHA能够在给定固定预算的情况下评估数量级更多的配置。然而,当低保真度近似不能反映最终性能时,SHA最终终止配置,该配置最终将具有高性能图1描绘了网格搜索对学习率的验证曲线,其中随机梯度下降(SGD)和步长学习率计划通常在训练现代CNN时使用[20,12,31,13,34]。性能最好的配置在早期阶段表现出较差在这种情况下,使用SHA会导致性能最好的配置提前终止。虽然分配大的初始预算可以缓解这个问题,但它导致仅评估少量配置,这限制了利用多保真度优化的益处3.2. 重复学习率SGD将网络参数更新为θ=θ lg,给定学习率l,模型参数θ和梯度g。由于向最终性能的收敛通常发生在参数更新的幅度较小时[39],因此我们假设在学习率较小时评估低保真度近似会更合理。由于一个典型的学习率时间表以相对较高的学习率开始,以相对较低的学习率结束,因此我们压缩了原始的学习率时间表以适应每一轮的提升,使得每一轮都以较小的学习率结束。我们把这个方案称为图2. 网格搜索对学习率的验证曲线,每30个epoch循环一次学习率计划,遵循与图1相同的过程。最佳配置在每个周期结束时始终显示突出的排名。循环学习率,其中学习率计划被压缩并在每一轮升级中重新启动。图2遵循与图1相同的过程,使用每30个epoch的循环学习率和余弦退火方案,并在每个周期结束时报告最佳配置的排名与图1相比,最佳配置的慢启动特性得到了很大缓解,而最终性能保持不变。性能最好的配置在每个周期的后期开始优于其他配置,在此阶段,它具有相对较小的学习率,这证实了我们的假设。3.3. MORL算法在各种多保真度优化方法中,我们选择了SHA,因为它的简单性和理论上的合理性。在保持SHA的本质的同时,MORL增强了早期区分具有重复学习率的有希望的配置的能力MORL的整个过程总结在算法1中。MORL首先给出一组超参数配置H,并在给定配置数n的情况下,用建议超参数子程序建议一组超参数配置H,然后对每个超参数h用创建网络子程序构造网络。存在总共logη(r)smin+1轮的促销,其中在第一轮上将最小资源ηsmin分配给每个配置,并且每轮以因子η增加,直到其达到最大资源r。每个获取开始历元和获取结束历元子例程分别计算每一轮中给定指数开始时期estart被设置为ηs−1+1,除了第一轮,在第一轮中它被设置为1.一、另一方面,结束时期eend被设置为ηs,除了对于最后一轮,其被设置为R。在每一轮中,每个超参数h∈H在用allo-1/10 1/10 1/10 1/10Top1前1精度2312∈联系我们联系我们2≈−−0.100.080.060.040.020.000 20 40 60 80 100 120 140 160历元图3. 在对象分类任务中使用的学习率调度的图示,最大资源r为164个epoch。初始学习率l为0.1。对于基线(橙色曲线),我们遵循原始实现中使用的时间表。算法一:MORL算法输入:配置数量n;最大资源r;初始学习率l;缩减因子η某些学习速率调度,但是可以与各种学习速率调度相结合这在第5.3节中得到了证明。(默认值:3);最小指数smin (默认值:2);减小因子η和最小指数smin调整促销轮数和最小值H=建议超参数(n)对于h HdoGh=创建网络(h)端对于ss min,s min+1,. . . ,logη(r)doestart=get start epoch(s)eend=get end epoch(s,r)对于h∈H,对于ee start,e start+1,. . . ,e enddole=l(1 + coseπ)2eend−estart训练一个epoch(Gh,le,h)端Ph=计算性能(Gh,h)端H=top k(H,P,η)// promote top1/η下一轮端cated资源.给定初始学习率l,每个时期的起始学习率le用 余 弦 退 火 调 度 [26] 计 算 为 le=l ( 1+coseπ/ ( eendestart))。虽然超参数h可能包括初始学习率l,但为了 简 化 al-tax m , 我 们 独 立 地 表 示 它 。 train anepoch子例程训练网络Gh,用于具有超参数h和学习速率le的epoch,学习速率le在遵循余弦退火时间表的每次梯度下降之后更新最后,计算每个配置的性能,然后将前1/n配置提升到下一轮。我们选择余弦退火时间表, 由于其性 质的复发 。然而 ,值得注 意的是,MORL的有效性不仅限于资源配置由于前1/η配置被提升,并且资源在每一轮上以η的因子增加,因此较大的η导致更积极的终止和更少的提升轮。我们将默认η设置为3,因为给定某些条件,理论上设置η=e3是最优的[22]。然而,我们根据经验发现,MORL对η的选择非常稳健,并且通常在2,3和4的值下工作得很好。就最小指数s_min而言,在给定固定预算的情况下,在配置的数量n和分配给每个配置的最小资源n_s_min之间存在权衡虽然较小的smin允许探索更多的配置,但它可能会过早地评估性能。 另一方面,大的s min允许更精确的低保真度近似,但只能评估少量的配置。 根据循环LR [32]的经验分析,建议周期的长度在4到20个epoch 之间,我们设置最小指数smin=2,这将最小资源η smin = 9。我们在第5.1节中对smin的消融研究进一步验证了我们设置的有效性4. 实验在本节中,我们对广泛的计算机视觉任务进行了全面评估,包括对象分类,迁移学习和半监督学习,以验证MORL用于超参数优化的有效性。我们专注于与SHA [16]和Hy-perband [22]的比较,这是在广泛采用的HPO框架中实现的事实上的标准多保真度优化方法[1,24]。我们的搜索空间由学习率l、权重decayw、动量1m和批量大小b组成,其中l、w从log [10−6,10]中采样,m从log [10−6,1]中采样,bMORL基线学习率2313基线MORLHyperbandSHA(s_min=0)SHA(s_min=2)随机前1位准确度(%)××75 5070 4565 4060 3555 305010 20 30 40 5060预算(a) VGG112510 20 30 40 50 60预算(b) AlexNet图4. 各种多保真度优化方法在CIFAR-100上的性能(a)VGG-11和(b)AlexNet架构。在整个优化过程中,MORL显着优于其他方法,除了非常早期的阶段。[16,256]。虽然存在包含特定任务超参数的各种任务,但我们相信我们的搜索空间将作为一个很好的起点,可以应用于各种任务。对于所有实验,一个资源单元对应于一个时期,并且最大资源r被设置为在每个任务的原始实现中指定的训练时期对于每个HPO实验,我们分配了64r的预算,对应于64个不同的实验运行时,早期停止不适用。4.1. 对象分类我们首先评估MORL的对象分类与公开可用的实现1分类网络和训练方案与人类基线的公平比较。对于基线,我们使用原始实现中建议的超参数我们采用三种不同的数据集:CIFAR-10/100数据集[19]包含10/100对象类的50,000个训练和10,000个测试图像,TinyImageNet数据集[30]包含200个对象类的100,000个训练和10,000个验证图像。虽然Tiny ImageNet的原始图像由64 64像素组成,但为了与CIFAR数据集训练过程保持一致,它们被缩小到32 32像素。我们遵循数据扩充的标准做法[12]其中每个图像用4个像素进行零填充,然后随机裁剪为原始尺寸,并对原始图像进行评估。我们使用SGD优化器,初始学习率为0.1,权重衰减为5e-4,动量为0.9,单个GPU上的批量大小为128。在最初的实现之后,网络被训练了164个时期,并且在初始学习1https://github.com/bearpaw/pytorch-classification在81和122个时期,速率除以10。基线和MORL的学习率时间表图示见图3。多保真度优化方法的比较。我们首先评估MORL相比,其他多保真度优化方法具有不同的初始资源。图4说明了多保真度优化方法的性能以及使用VGG-11 [31]和AlexNet [20]架构的CIFAR-100上的基线和随机搜索。smin=0和smin=2的每个SHA表示SHA的最大和中间攻击性方法,Hyperband在smin的可能值上执行网格搜索,并且随机搜索执行完全训练而不提前停止。在整个优化过程中,除了一开始,MORL表现出相当高的性 能 相 比 ,其 他 方 法 。 在 非 常早 期 的 阶 段 , SHA(smin=0)和Hyperband通过探索更多的配置和早期停止通常表现出接近随机猜测精度的无望配置来然而,它们缓慢地提高性能,而MORL以快速的速度提高。对于其余的实验,我们使用SHA(smin=2)作为SHA方法,其表现出比SHA(smin=0)更好的特性。可 扩 展 到 不 同 的 数 据 集 。 我 们 证 明 了 MORL 在CIFAR-10/100和Tiny ImageNet的各种数据集上的有效性。表1比较了5次重复的前1名准确度与平均值和95%置信区间。MORL在所有数据集中的性能都优于其他所有方法。鉴于其他多保真度优化方法在有限的预算下往往无法超过手动调整的基线,甚至表现出比随机搜索更低的性能,MORL始终以显着的幅度提高基线的性能。它基线MORLHyperbandSHA(s_min=0)SHA(s_min=2)随前1位准确度(%)2314表1.CIFAR 10/100和Tiny-ImageNet与VGG-11上的前1准确率(%)报告的结果为5次重复的平均值和95%置信区间MORL在不同的数据集上优于手动调整的基线和其他竞争方法,并获得相对较窄的置信区间。CIFAR-10CIFAR-100Tiny-ImgNet基线91.89+-0.2570.89+-0.2648.21+-0.44随机91.65+-0.5969.79+-1.8447.63+-2.66沙91.37+-0.3570.27+-1.4748.34+-1.95Hyperband91.46+-0.5270.11+-1.0947.99+-1.75MORL92.94+-0.1672.74+-0.4250.96+-0.33表2.不同网络架构下CIFAR-100的前1准确度(%)在所有测试网络中,MORL始终以有意义的幅度提高基线的性能。AlexNet ResNet-20 ResNet-56 VGG-16基线44.0868.6771.5473.58随机44.6366.8669.7573.84沙45.6767.1570.4172.48Hyperband45.6967.3171.0372.66MORL46.9269.5172.8776.01值得注意的是,MORL获得的模型不会引入任何额外的权重或计算开销。性能提升仅仅来自于调整CNN优化过程的超级参数可扩展到各种CNN架构。我们进一步验证了MORL在CIFAR-100数据集上针对不同CNN架构的可扩展性,包括AlexNet,ResNet-20,ResNet-56 见表2、MORL算法在所有实验中均优于其他算法,提高了基线算法的性能。我们的研究结果证明了MORL在不同CNN架构中的有效性。虽然SHA和Hyperband仅成功地提高了AlexNet的基线性能,但MORL即使对于VGG-16等相对较大的模型也能带来有意义的性能提升。它进一步暗示了HPO的重要性,即通过调整超参数获得的性能增益不能简单地通过增加CNN架构的容量来替代。4.2. 迁移学习广泛的计算机视觉任务采用预先训练的模型,该模型在大规模数据集(如ImageNet)上训练[30]。通过利用从大量数据中学习到的有意义的特征,迁移学习成功地提高了CNN在各种任务中的性能[35]。在这种情况下,有理由怀疑慢启动器的问题可能会随着网络表 3. 在 CIFAR-10/100 和 Tiny-ImageNet 上 使 用 VGG-16 在ImageNet数据集上预训练的迁移学习的前1准确率(%)CIFAR-10CIFAR-100Tiny-ImgNet基线93.7974.9753.26随机93.5074.4752.64沙94.1775.2254.11Hyperband94.0174.9953.96MORL94.4676.8655.52从预先训练的权重快速收敛。我们遵循与我们的对象分类实验相同的训练策略,除了基线的初始学习率降低了10倍,遵循迁移学习的常见实践我们选择ImageNet预训练的VGG-16网络,该网络广泛用于各种计算机视觉任务[10,25,29],并在CIFAR-10/100和Tiny ImageNet数据集上训练网络。我们在表3中报告了前1位验证准确度。正如预期的那样,SHA和Hyperband显示出相对于基线的改进的性能,而当从头开始训练时,它们通常无法超越,如表1和2所示。尽管如此,MORL始终以有意义的幅度优于其他方法,这表明缓慢启动的趋势得到了缓解,但在迁移学习环境中仍然存在。4.3. 半监督学习我们最后证明了MORL在半监督学习(SSL)任务中的有效性,该任务从少量标记样本和大量未标记样本中联合学习。由于大量的未标记的图像被利用,与稀缺的标记图像的监督,这是至关重要的,找到一个好的超参数配置。我们使用基于伪标签的SSL算法[2],其性能优于最先进的一致性正则化方法。为了公平比较,我们采用了他们的官方实现2,利用其默认训练种子,以便在一致的设置下比较不同的方法,并促进进一步的研究。手动调整的基线包括两个阶段的训练。它首先只使用标记数据训练网络作为预热阶段,然后使用标记和未标记数据对网络进行微调虽然预热阶段通过使用更可靠的预测初始化未标记数据来稳定训练过程,但它会导致模型开发人员探索更大的搜索空间,因为每个阶段的超参数需要独立调整。此外,它需要额外的资源来训练第一阶段的模型。然而,如果HPO提供更好的配置,使第二阶段的稳定训练,我们可以省略2https://github.com/EricArazo/PseudoLabeling网站2315表4.CIFAR- 100上半监督学习的前1准确率(%)相对于不同数量的标记数据。虽然MORL不包括热身阶段,但它显著提高了由两个阶段训练组成的基线的表现。500个标签1000个标签2000个标签基线29.7345.7155.56随机31.1946.6554.08沙32.7745.2154.65Hyperband32.5645.5154.99MORL35.2248.5257.1875706560555010 20 30 40 50 60预算表5.在半监督学习实验中,用MORL算法得到了最佳配置优化的WD值随着使用更多标记的样本而减小。(LR:学习率,WD:权重衰减,MMT:动量,BS:批量)LRWDMMTBS500个标签0.02420.00430.5652921000个标签0.03110.00320.6834872000个标签0.02380.00270.392684热身阶段。因此,我们排除了预热阶段,从头开始训练网络,以实现多保真度优化方法。然而,对于基线,我们遵循作者建议的原始两阶段训练。我们利用13-CNN架构[3],这是本文中主要探索的,并遵循其数据处理和优化设置。在最初的实现之后,使用带有Dropout的SGD优化器训练网络[33]和Mix-up [40]正则化400 epoch,其中学习率在基线的250和350 epoch处衰减10倍。表4显示了CIFAR-100数据集相对于不同数量标记样本的前1准确度。令人惊讶的是,即使没有预热阶段,MORL在整个实验中也实现了超过基线的显著性能改 善它进一步证明了MORL在各种设置中的有效性,在这些设置中,它可以很好地使用不同数量的标记样本和强正则化方法,如Mix-up和Dropout。我们在表5中进一步报告了不同数量标签的最佳性能配置,其中每个设置显示了不同的配置。虽然由于超参数的性质,执行精确分析仍然具有挑战性,但我们观察到,当存在少量标记图像时,应用了更高的权重衰减。它符合常见的直觉,即当网络倾向于过拟合时,当给出少量数据时,需要更多的正则化我们的研究结果表明,在每个实验设置中定制超参数是很重要的,这一过程可以通过MORL有效地自动化。图5. CIFAR-100与VGG-11架构上不同最小指数s min的比较。5. 消融研究和分析在本节中,我们进行了消融研究和分析实验,以深入了解MORL的算法设计选择和潜在扩展。我们遵循4.1节中在CIFAR-100上进行对象分类实验的相同步骤进行实证研究。5.1. 最小指数我们对最小指数smin进行了一次消融,它调整了给定固定芽的配置总数和最小资源之间的权衡。 由于ηsmin的最小资源被分配给每个配置,因此小的smin使得能够通过积极的早期停止来探索更多的配置,而大的s min使得能够通过将更多的资源分配给每个配置来实现更精确的低保真度近似。如图5所示,虽然smin=0通过探索数量级更多的配置在早期阶段实现了适度的性能,但由于不精确的低保真度近似,它显示出缓慢的改进速率。另一方面,当smin较大时,它在整个优化过程中表现出非常低的性能,因为只能探索少量的配置这一结果表明,分配足够的初始资源和探索各种配置的重要性。虽然smin=2在各种任务、数据集和架构中通常都能很好地工作,但可以将MORL与Hyperband结合起来,从而自动选择smin。我们发现Hyperband与MORL配合良好,表现出比smin=2稍差的性能(72.8 vs 72.6)。5.2. 集成贝叶斯优化贝叶斯优化自适应地建议配置,以评估超参数配置的给定观测值通过将先前的观察结果合并到概率模型的拟合中,它能够探索比传统方法更可能的候选者。基线s=0s=1S=2S=3S=4前1位准确度(%)231675706560555010 20 30 40 50 60预算表6.通过MORL结合贝叶斯优化获得VGG-11在CIFAR-100上的前5种构型(LR:学习率,WD:重量衰减,MMT:动量,BS:批量大小)。LRWDMMTBS精度Top-10.02840.01470.05968973.71前2名0.00390.01480.79767173.53前30.01220.01870.737121873.50前四名0.00720.02160.33226973.24Top-50.01280.02180.341710773.15图6. MORL与树结构Parzen估计(TPE)结合在CIFAR-100和VGG-11上的性能。 MORL与TPE正交,通过允许探索更多的配置来补充贝叶斯优化的限制。随机搜索[4,6]。然而,普通贝叶斯优化通常需要大量的资源来实现令人满意的性能,因为它需要训练一个完整的模型来获得一个观察结果。以前的工作[8]表明,贝叶斯优化可以成功地与多保真度优化相结合,以受益于每种方法的优点。在各种贝叶斯优化算法中,我们选择了树结构Parzen估计(TPE)[4],它基于好的和坏的观测值对密度函数进行它被广泛采用,因为它是相对快速和强大的高维。我们借用流行的HPO框架[1]的TPE实现,其中多变量选项考虑了超参数之间的依赖关系。如图6所示,与随机搜索相比,TPE表现出显著更好的性能,因为它表明了更合理的配置。然而,它表现出有限的性能,因为它只评估了少量的配置。当MORL与TPE集成时,它在整个HPO过程中始终表现出最佳性能。这说明MORL的优势与贝叶斯优化方法是正交的我们在表6中总结了性能最佳的配置。前5个高性能配置是分散分布的,彼此不相似,恶魔-说明了探索在HPO中的重要性。5.3. 各种学习率时间表最后,我们证明了MORL的可扩展性相对于各种学习率时间表。具体来说,我们进一步研究了MORL的阶跃,循环和线性学习率,这些学习率在流行的深度学习框架中被广泛使用和采用[28]。一旦epoch达到指定的里程碑,步进学习率就会以给定的因子衰减学习率,循环学习率[32]在一个周期内单调增加,然后降低学习率,表7.在CIFAR-100和VGG-16上比较结合MORL的不同学习率计划MORL的有效性不受一定的学习率时间表的限制。前1精度基线73.58步骤LR + MORL75.80线性LR + MORL75.89循环LR + MORL75.68余弦退火LR + MORL76.01线性学习率线性地降低给定周期的学习率。每个学习率时间表都被压缩以适应每一轮升级,并在每一轮重新启动。对于步骤学习率,我们遵循第4.1节中的衰减时期的比率。表7示出了结合MORL的各种学习率调度的结果。在所有测试的学习率时间表中,MORL以相当大的幅度提高了基线的性能。此外,不同调度之间的性能差距在可允许的范围内。这些结果表明,MORL的优势并不局限于一定的学习率调度,但可以扩展到各种调度。6. 结论在这项工作中,我们提出了多保真度优化与循环学习率(MORL),使精确的低保真度逼近超参数的简化。通过将学习率算法引入到多保真度优化过程中,MORL实现了在一个实际目标内搜索最优配置。我们在广泛的设置上进行了大量的实验,证明了MORL在超参数优化中的有效性。虽然以前的工作往往无法改善手动调整的超参数,但MORL成功地超越了人类专家。此外,我们验证了所提出的方法是正交的贝叶斯优化和适用于各种学习率计划。我们希望我们的工作有助于自动化超参数调整过程,并推动CNN在各种应用中的性能边界基线MORLTPETPE+MORL随机前1位准确度(%)2317引用[1] Takuya Akiba、Shotaro Sano、Toshihiko Yanase、TakeruOhta和Masanori Koyama。Optuna:下一代超参数优化框架。 在SIGKDD,2019年。 四、八[2] Eric Arazo , Diego Ortego , Paul Albert , Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差。InIJCNN,2020. 二、六[3] 本·阿西沃拉特昆,马克·芬齐,帕维尔·伊兹梅洛夫,还有安德鲁·戈登·威尔逊.对未标记数据有许多一致的解释:为什么要平均。ICLR,2019。7[4] 詹姆斯·贝尔格斯特拉,雷米·巴德内,约阿希姆·本吉奥和巴尔·阿兹·凯格尔。 H型参数优化算法。NeurIPS,2011年。一、二、八[5] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。Journal of Machine Learning Research,2012。一、二[6] Yutian Chen , Aja Huang , Ziyu Wang , IoannisAntonoglou , Julian Schrittwieser , David Silver , andNando de Freitas. alphago中的贝叶斯优化。arXiv预印本arXiv:1812.06855,2018。一、二、八[7] Dami Choi , Christopher J Shallue , Zachary Nado ,Jaehoon Lee,Chris J Maddison,and George E Dahl.深度学 习 优 化 器 的 经 验 比 较 。 arXiv 预 印 本 arXiv :1910.05446,2019。1[8] Stefan Falkner Aaron Klein和Frank HutterBohb:大规模鲁棒高效的超参数优化。在ICML中。PMLR,2018。二、八[9] Matthias Feurer和Frank Hutter超参数优化。自动化机器学习。Springer,Cham,2019.2[10] Ravi Garg,Vijay Kumar Bg,Gustavo Carneiro,and IanReid.单视图深度估计的无监督cnn:几何拯救。在ECCV,2016年。6[11] Daniel Golovin,Benjamin Solnik,Subhodeep Moitra,Greg Kochanski , John Karro 和 David Sculley 。 Googlevizier:黑盒优化服务。在SIGKDD,2017年。2[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年。二三五[13] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在CVPR,2017年。二、三[14] Frank Hutter,Holger H Hoos,and Kevin Leyton-Brown.一般算法配置的基于序列模型的优化在学习和智能优化国际会议上。Springer,2011. 2[15] Max Jaderberg , Valentin Dalibard , Simon Osindero ,WojciechM Czarnecki,Jeff Donahue,Ali Razavi,OriolVinyals,Tim Green,Iain Dunning,Karen Simonyan,etal. 基 于 群体 的 神 经 网络 训 练 。arXiv 预 印 本arXiv :1711.09846,2017。2[16] 凯文·贾米森和阿梅特·塔尔沃卡。非随机最佳臂辨识与超参数最佳化。在AIS-TATS,2016年。一、二、四[17] Donald R Jones , Matthias Schonlau , and William JWelch.高效的全局优化昂贵的黑盒函数。Journal of Global Optimization,1998。2[18] Aaron Klein , Stefan Falkner , Simon Bartels , PhilippHennig,and Frank Hutter.大型数据集上机器学习超参数的快速baker-optimization。在AISTATS。PMLR,2017年。2[19] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。技术报告,2009年。5[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的Im-agenet分类NeurIPS,2012. 二三五[21] HyunJae Lee、Hyo-Eun Kim和Hyeonseob Nam。 Srm:卷积神经网络的基于样式的重新校准模块。在ICCV,2019年。1[22] Lisha Li,Kevin Jamieson,Giulia DeSalvo,Afshin Ros-tamizadeh , and Ameet Talwalkar.Hyperband : A novelbandit- based approach to hyperparameter optimization.机器学习研究杂志,2017年。一、二、四[23] Liam Li , Kevin Jamieson , Afshin Rostamizadeh ,Ekaterina Gonina , Jonathan Ben-Tzur , Moritz Hardt ,Benjamin Recht,and Ameet Talwalkar.大规模并行超参数调谐系统。机器学习与系统学报,2020年。2[24] Richard Liaw , Eric Liang , Robert Nishihara , PhilippMoritz,Joseph E Gonzalez,and Ion Stoica.Tune:分布式 模 型 选 择 和 训 练 的 研 究 arXiv 预 印 本 arXiv :1807.05118,2018。4[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络CVPR,2015。1、6[26] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr:带热重启的随机梯度下降。ICLR,2017年。二、四[27] Hyeonseob Nam,HyunJae Lee,Jongchan Park,Wonjun
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功