超参数优化中的注意力和记忆增强

114 浏览量更新于2023-10-25 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Nuo Xua,b, Jianlong Changc, Xing Niea,b, Chunlei Huo ∗a,b, Shiming Xianga,b and Chunhong Pana,bnuo.xu@nlpr.ia.ac.cn, jianlong.chang@huawei.com, niexing2019@ia.ac.cn, {clhuo, smxiang,4800AME: 超参数优化中的注意力和记忆增强0a 中国科学院自动化研究所，国家智能科学中心，北京，中国 b中国科学院大学，人工智能学院，北京，中国 c 华为云和AI，北京，中国0chpan}@nlpr.ia.ac.cn0摘要0训练深度神经网络 (DNNs)本质上受到敏感的超参数和性能评估的及时反馈的影响。为了解决这两个困难，我们提出了一种在深度强化学习 (DRL)框架下的高效并行超参数优化模型。从技术上讲，我们开发了注意力和记忆增强(AME)，其中包括多头注意力和记忆机制，以增强捕捉不同超参数配置之间的短期和长期关系的能力，从而在巨大的搜索空间中实现了一种用于搜索高性能配置的注意力采样机制。在优化基于Transformer结构的配置搜索器时，我们采用了一个直观而强大的策略来解决由于及时反馈不足而导致的样本数量不足的问题。在包括图像分类、目标检测和语义分割在内的三个视觉任务上的实验证明了AME的有效性。01. 引言0超参数优化 (HPO) [53] 是自动机器学习 (AutoML)中的一个关键子领域，它被建模为一个双层优化问题。近年来，深度学习的兴起推动了机器学习和计算机视觉的巨大发展，但也对计算资源提出了更高的要求。大规模神经网络的优化通常需要数天甚至数周以及大量的GPU进行训练，因此手动调整超参数逐渐变得昂贵起来。同时，网络对超参数非常敏感。0� 通讯作者0通过抽样0获取函数0(b) 贝叶斯优化0基于Transformer结构的配置搜索器的注意力采样0配置编码器0决策制定0(c) 注意力和记忆增强 (我们的方法)0(a) 随机搜索0随机抽样0新配置0搜索空间0已评估的配置0图1. 不同配置搜索方法的比较。 (a)随机搜索。选择新配置与其他已评估的配置无关。 (b)贝叶斯优化。在给定分布假设下，通过模拟评估配置之间的关系来获得新配置。 (c) 注意力和记忆增强(AME)。通过注意力采样捕捉关系，无需分布假设，并用于预测所有类型的新配置。0超参数的选择。不合适的超参数直接导致训练失败，例如梯度爆炸。此外，当训练现代神经网络时，需要设置大量的超参数，包括架构超参数 (例如网络深度和类型)、优化超参数(例如学习率、批量大小) 和正则化超参数(例如权重衰减)，这导致了一个巨大的搜索空间。此外，HPO在机器学习的各个子领域中的挑战差异很大。在计算机视觉领域，检测和分割的超参数比分类更敏感。因此，一个实用的现代HPO算法必须能够在可接受的时间内轻松处理不同任务的几个到几十个超参数的选择。4810主流的HPO算法由两部分组成，即试验调度器和配置搜索器。其中，调度器负责计算资源的分配。具体而言，它能够判断何时启动新的试验，并根据相应的性能和运行时间决定是否暂停或终止试验。搜索器负责提出新的超参数配置建议。例如，最简单的情况是新的配置可以通过随机搜索[3, 23,25, 31,32]获得（见图1（a）），但是试验是独立的，即彼此之间的关系不考虑，因此在巨大的搜索空间中非常不稳定。使用贝叶斯优化（见图1（b））通过评估的配置构建一个获取函数是另一种类型的搜索器[2, 12, 20, 48,49]。尽管这种类型的搜索器以知情的方式选择要评估的新超参数，但它受到强假设的限制，例如假设分布服从高斯过程。此外，建模过程非常复杂，更适用于低维搜索空间的优化。此外，基于进化算法的搜索器[21, 22, 37,43]有时耗时较长，并且无法处理无法继承、变异或混合的超参数，例如网络深度和类型。为了最大程度地发挥机器学习模型的潜力，并在搜索空间中更高效、更稳定地选择适当的超参数，本文提出了一种基于深度强化学习（DRL）[41,46]和Transformer [42,50]的新型配置搜索器（见图1（c））。我们的搜索器通过多头注意力和记忆机制增强了捕捉不同配置之间关系的能力。将我们的搜索器与并行试验调度器ASHA[32]结合起来，提出了注意力和记忆增强（AME）。AME积极鼓励搜索器生成高性能的配置，并惩罚降低性能的配置。主要贡献如下：•设计了一种基于Transformer结构的配置搜索器，采用强化学习方法。基于这种新型搜索器，提出了一种高效的并行HPO模型AME，能够优化所有类型的超参数，无需分布假设。0•AME能够学习短期和长期关系，实现细致的配置抽样，并在巨大的搜索空间中有效地找到高性能的配置。0•引导法被应用于解决由于样本获取困难导致的样本数量不足问题。这使得搜索器的在线训练更加高效。0•实验证明AME在图像分类、目标检测和语义分割等三个视觉任务上的效率。02. 相关工作02.1. 超参数优化0有两种主流的HPO方法，分别是多层次优化和黑盒优化，分别针对试验调度器和配置搜索器进行优化。多层次优化。这是一种旨在降低调度器评估成本的优化技术，通过获取大量廉价的低保真度评估和少量昂贵的高保真度评估来实现。它主要包括两种方法：基于赌博算法（例如SHA [23,25]，Hyperband [31]，ASHA [32]，BO-HB [12]，BOSS[18]）和早停算法（例如中位数停止[14]，建模学习曲线[9,26]）。前者是探索和利用之间的权衡，而后者是及时终止性能差的试验。此外，TSE[17]通过线性组合一组基础预测器有效地学习低保真度修正预测器。AABO[39]采用BOSS在检测中用于自适应搜索锚框的最佳设置。黑盒优化。这是一种学习输入x和输出y之间的映射f：x→y的方法，忽略了内部机制。最简单的方法是网格搜索[51]，即穷举搜索，适用于较小的搜索空间。总体而言，适用于现代神经网络的有四种方法：无模型方法（例如网格搜索，随机搜索[3, 23, 25, 31, 32]，OATM[57]），贝叶斯优化（例如BO-GP [48, 49]，SMAC[20]，BO-TPE [2]，BOHB [12]，distBO [30]，AHGP[35]，Dragonfly [24]），进化算法（例如PBT [22]，P-B2[43]，GA [21]，PSO [37]）和基于梯度的方法[1, 38, 40,44,47]。前三种方法的优缺点已在第1节中讨论过。最近，基于梯度的方法显示出更好的效率。然而，它们只能更新可微超参数，例如权重衰减，并且不能直接更新不可微超参数，例如批量大小。02.2. 深度强化学习0DRL强调基于环境的代理如何获得最大累积奖励。作为开创性的工作，PPO[46]在性能上超越了其他现有算法。最近，GTrXL[42]首次使用了基于Transformer结构的代理来捕捉长期和短期记忆。其他基于DRL的AutoML方法通常直接从输入图像中学习各自任务的配置，例如网络架构[61]、压缩率[16]和数据增强策略[7]。从稀疏知识的原始图像中学习预期会导致低效。我们的AME通过学习评估配置之间的关系来选择新的配置。此外，AME通过引入bootstrap来解决样本不足的问题。As long as the evaluation indicator of one trial in a certainrung t is greater than the dynamically updated threshold,this trial is promoted to the next rung for training. Besides,trials with poor performance are required to be terminatedin time. Therefore, the total number of trials starts from nand gradually declines in the ratio of 1/η in each rung.Conﬁguration Searcher. Conﬁguration searcher choosesbetter hyper-parameter conﬁgurations for network training(see Fig. 2(a,c)) by building a sampling function g(·):48202.3. 视觉任务0本文设置了三个视觉任务进行实验：图像分类、目标检测、语义分割。目前流行的图像分类网络主要包括ResNet[15]、ResNeXt [52]、ResNeSt[55]等。这些网络是其他视觉任务的骨干网络。目标检测的目标是在图像中找到所有感兴趣的对象，并确定它们的位置和大小。主流的检测器包括FasterRCNN[45]、CascadeRCNN [4]、RetinaNet [34]、RepPoints[54]、FoveaBox [27]、FSAF [60]、ATSS[56]等。语义分割是像素级别的分类，它从像素级别理解图像。流行的分割器包括PSPNet [58]、PSANet[59]、CCNet [19]、DANet [13]、DeepLabv3+ [6]、FCN[36]、GCNet[5]等。在检测和分割中，选择合适的头部非常重要。不同的头部对超参数（例如学习率）的敏感性不同，因此全面考虑所有配置进行优化是具有挑战性的。03. HPO中的注意力和记忆增强03.1. 超参数优化0在介绍我们的方法之前，我们首先简要回顾HPO。在HPO中，需要优化参数ω和超参数h，它们之间存在非可微嵌套关系。因此，HPO被建模为一个双层优化问题：0s . t . f h ( ω� ) ← f h ( ω0 , Dtrain ) , h ∈ H .(1)0其中 L 是目标函数，ω0 和 ω�是该网络的初始和最终参数，Dtrain 和 Dval是训练和验证数据集，h 是从搜索空间 H中抽样的一个超参数配置，fh 是将超参数设置为 h的神经网络。最简单的网格搜索是使用完整的超参数集训练网络以收敛，然后选择最优的。由于效率低下，如何加速搜索过程成为HPO中最重要的问题。主流的研究方向是改进HPO的两个组成部分，即试验调度器和配置搜索器。试验调度器负责资源的分配（见图2（a，b））。它能够根据相应的性能判断是否终止或启动试验。例如，ASHA[32]将每个试验的训练过程划分为多个阶段t，这也被我们的AME采用：0{ ωt | t = 0 , 1 , ∙ ∙ ∙ , � log η ( R/r ) �} (2)0其中 R 和 r 是一个试验的最大和最小预算（例如，时期或迭代），η是缩减因子。0hnew = g({ˆhi | i = 1, 2, ∙ ∙ ∙ , k}), ˆhi ∈ H ×R1, hnew ∈ H. (3)0其中hnew是要评估的新超参数配置，ˆhi是具有评估指标的配置，k是输入配置的数量。提出新配置的建议是一个非常困难的问题，主要是由于以下两个困难：•搜索空间H很大，很难捕捉配置{ˆhi}之间的关系。0•评估耗时，即很难获得评估的配置{ˆhi}。虽然随机搜索速度快，但由于忽略了这些困难，因此不稳定。基于贝叶斯优化的算法需要先验的强分布假设。基于进化算法和梯度的方法只能处理特定的超参数。增强HPO。选择超参数的建议可以在强化学习框架下建模，因为DRL自然适合于没有明确注释的决策。搜索器相当于代理，其任务是基于奖励学习一系列状态到动作的映射（见方程（3））。状态（S）指的是评估的配置组合{ˆhi}，动作（A）指的是代理从搜索空间中选择的新配置hnew，奖励（R）是动作的评估。然而，增强HPO仍然面临HPO的两个困难。我们的注意力和记忆增强（AME）通过注意抽样捕捉关系，并应用自助法解决样本不足的问题。03.2. 通过注意抽样的AME0具有弱学习能力的全连接网络（FC）无法很好地推广配置之间的关系。因此，引入了多头注意力和记忆机制，通过注意抽样来增强训练。直观地说，搜索空间与相应的评估指标之间存在均匀连续性，即高性能配置周围的配置 tend to behigh- performance。例如，PBT[22]应用由随机噪声生成的小扰动来找到更好的配置。多头注意力的应用预测(4)4830(b) 试验调度程序0阶梯0超参数配置性能（低-高）0终止0试验10终止0试验20终止0试验30试验40(c) 配置搜索器0执行者0新记忆0记忆0评论家0嵌入0层归一化0门控层0层归一化0门控层0多头注意力0前馈0(a) 总体结构0新配置0试验调度程序配0建议新配置0提供评估的配置0已评估0配置0添加具有新配置的试验0终止试验0报告评估结果0配置编码器0图2. 我们AME的流程。（a）总体结构。试验调度程序负责试验的开始、终止和暂停，并收集评估结果。配置搜索器负责提出新的配置（conf.）。（b）试验调度程序。这是香草ASHA的一个示例。需要在有限的硬件设备上依次运行n个试验。每个试验在每个阶梯中进行评估，低性能的试验被终止。在顺序模式下，每个阶梯中的候选者的选择直到所有试验的训练和评估完成后才开始；在并行模式下，它们同时进行。（c）配置搜索器。采用门控Transformer-XL（GTrXL）来建模不同配置之间的关系以进行注意抽样。多头注意力和记忆机制分别捕捉评估配置之间的短期和长期关系。每次评估完新配置后，配置搜索器将进行训练，即在线训练的过程，与试验的训练并行进行。随着持续训练，搜索器给出越来越可靠的建议。0通过对已评估的配置进行加权，生成新的配置。配置的加权能够通过为高性能配置分配更高的权重来生成新的配置，并同时通过其他配置探索搜索空间。记忆机制的引入允许当前预测影响后续预测，从而不受当前输入的限制获取新配置的建议。网络结构。为了捕捉已评估配置之间的关系并更好地选择新配置，选择门控Transformer-XL（GTrXL）[42]作为搜索器。GTrXL通过重新排序层归一化并添加门控机制来稳定训练。在这种新架构（图2（c））下，搜索器能够同时捕捉长期和短期关系Yl通过记忆机制和多头注意力实现注意抽样hnew = gag({ˆhi})（公式（3））：0X0 = Concat({Embedding(ˆhi)|i = 1, 2, ..., k}),0Xcl = LN(Xl), Xcml = Concat(Xcl, XML),0Yl = MHAttention(XclWQ, XcmlWK, XcmlWV),0Xl+1 = GRUGating(Yl, Xl), l = 0, 1, ..., N - 1,0hnew = Actor(XN), A = Critic(XN).0其中N是多头注意力块的总数，WQ、WK、WV是可学习的矩阵，XML是记忆矩阵，A是辅助训练actor的优势值。Transformer-XL[8]引入了记忆机制来给配置编码器提供配置：0具有捕捉长期依赖性的能力，类似于RNN中的隐藏状态。记忆矩阵XML的初始值为零，并以Xm l =Xl+1的形式更新。引入门控层是为了稳定DRL的训练[42]。决策制定采用了Actor-Critic架构。特征提取。离散超参数的特征被提取为独热向量，而连续超参数需要先离散化，然后用独热向量表示。从不同类型的超参数提取的特征被连接在一起形成超参数配置h。此外，用于衡量模型性能的指标（例如准确度、mIoU、mAP，归一化到[0,1]）需要作为最后一个维度添加到特征中。每次输入一定数量的已评估配置ˆh进行决策制定。输入到嵌入层后，它们从离散向量转换为连续向量。03.3. 引导法优化0深度强化学习需要大量的训练样本来推动。由于每次试验的训练耗时且评估结果的反馈不及时，缺乏用于训练的样本，这是DRL在HPO中很少被采用的原因。通过模仿NAS[61]学习图像与配置之间的一对一映射效率低下，受到采样效率的限制。从建模不同配置之间的关系来学习一对多映射以提出建议是另一种更高效的方式。4840（见公式（3））。多个配置的组合使得引导法在应用中自然而合理。引导法和随机策略。引导法是从给定数据集中进行有放回均匀抽样，从少量评估的配置中生成足够的训练配置。由于训练代理与大量试错不可分割，引导法增加了尝试次数，并更好地克服了DRL中的高方差问题[46]。另一方面，在训练过程中，由代理生成的新配置可能无法及时返回验证，因为新配置可能尚未评估。随机策略用于解决这个问题。顾名思义，动作不是由代理网络给出的，而是从已评估的配置中随机选择的，就像状态中的任何配置一样。引导法和随机策略在另一个层面上增加了样本数量。奖励函数。奖励的设计与每次试验的评估结果有关。不同阶段的同一次试验的评估指标不相等，因此直接使用指标作为奖励可能不合适。通过评估指标之间的差异来构建奖励函数：0R = clip(PA - max{Ps|s∈S}, -M, M). (5)0其中PA是动作中新配置的评估指标（归一化为[0,100]），max{Ps|s∈S}是状态中配置的最大评估指标，M是一个常数阈值，用于防止奖励过大或过小。注意，传播到组合（S，A）中的配置是从同一梯度中的已评估配置集合中进行采样的。奖励函数鼓励代理主动生成性能超过所有输入配置的新配置，并抑制生成低性能配置。在线训练。类似于贝叶斯优化，强化HPO也可以建模为在线训练的过程。一旦试验调度器获得评估结果，配置搜索器根据新的评估配置更新其参数。值得一提的是，新配置的建议可以与代理的训练同时进行。为了在探索和利用之间取得平衡，在推理和训练过程中，配置的选择是随机的。采用前k个进行预测的方式导致了不足的探索。在训练过程中，代理的损失函数Lag采用PPO[46]的形式：0Lag = 10N0i = 1 [min(riAi, clip(ri, 1 - ε, 1 + ε)Ai)]. (6)0πold(Ai|Si)和Ai =A(Si,Ai)，ε是一个常数，Ai是由评论家计算的优势值。PPO0算法1 注意力和记忆增强（AME）0输入：配置搜索空间H，已评估配置集合HE，未评估配置集合HU，带有评估指标ˆh的配置。0输出：新配置h01：function CONFSEARCHER(∙) // Reward R，ActionA，State S，输入配置数k，常数ρ。02：如果需要一个新的配置，则03：如果|HE| ≤ ρk（ρ ≥ 1），则04：从H中随机采样h。将h添加到HU。05：否则06：从HE中随机采样ˆh1，ˆh2，∙∙∙，ˆhk。07：h = g ag({ˆh1，ˆh2，∙∙∙，ˆhk})。将h添加到HU。08：结束如果09：否则，如果获取了一个已评估的配置& |HE| > ρk，则010：从HE中随机采样ˆh0，ˆh1，∙∙∙，ˆhk。011：使用h0计算R，A，ˆh1，ˆh2，∙∙∙，ˆhk作为S。012：使用损失Lag训练代理。013：结束如果014：结束函数0希望在网络参数更新了几批次后，确保策略π的单调改进，同时保持新旧策略的概率分布差异在一定范围内。03.4. 实现细节0AME是一种将深度强化学习与ASHA（见Alg.1）相结合的异步算法。对于每个试验，试验调度器根据其当前阶段将其发送到不同的试验队列中。如果硬件设备空闲，试验调度器将从未评估的配置集合HU中选择一个配置来运行。当试验已经评估完毕，试验调度器根据评估结果决定是否终止它。在当前梯度中，不需要等待所有试验结束训练和评估才开始下一个梯度的训练，即不同梯度中的训练和评估是并行进行的。对于配置搜索器来说，生成新的配置是代理的推理过程，每个已评估的配置的获取促进了在线模型训练。如果评估样本数量不足，将采用随机策略来生成新的配置，而不是模型选择。在训练过程中，采用自助法和随机策略来解决训练样本不足的问题。训练样本不仅限于第一个梯度中的样本，只要仍然需要新的配置。由于奖励函数（见Eq.（5））基于两个指标的差异，可以对不同梯度中获得的样本进行训练同一代理。注意，每个组合中的配置必须从同一个梯度中进行采样。discrete4850视觉任务头学习率骨干网络批量大小优化器权重衰减0分类 - {0.001，[0.005:0.005:0.1]} ResNet18，34，50 [8:4:64] SGD，Adam，Adamax，Adagrad，Adadelta0检测 CascadeRCNN [4]，FoveaBox [27]，RetinaNet [34]，FasterRCNN [45]，RepPoints [54]，ATSS [56]，FSAF [60] [0.001:0.001:0.025] ResNet50 [15]，ResNeXt50[52]，ResNeSt50 [55] [4:2:12] {1e-5，[0:5e-5:0.001]}0分割 GCNet [5]，DeepLabv3+ [6]，DANet [13]，CCNet [19]，FCN [36]，PSPNet [58]，PSANet [59][0.001:0.001:0.020]0表1. 搜索空间。连续的超参数被离散化为[start:step:end]的形式。在10万级别的搜索空间中，在有限的资源下找到最佳的超参数配置是一个极其困难的问题。0方法任务 CIFAR-10（分类） CIFAR-100（分类） Stanford Cars（分类） VOC（检测） VOC（分割）0搜索时间重新训练搜索时间重新训练搜索时间重新训练搜索时间重新训练搜索时间重新训练0（准确率）（天）（准确率）（准确率）（天）（准确率）（准确率）（天）（准确率）（mAP）（天）（mAP）（mIoU）（天）（mIoU）0PBT [22] 93.5 ± 0.6 1.8 94.3 75.1 ± 0.4 1.8 75.6 87.3 ± 0.5 2.9 88.1 79.1 ± 0.5 4.4 79.6 74.7 ± 0.4 3.1 75.3 PB2 [45] 93.8 ± 0.4 2.1 94.3 75.6 ± 0.3 2.0 76.1 87.4 ± 0.4 3.2 87.8 79.4 ± 0.3 4.7 79.974.9 ± 0.3 3.2 75.2 BayesOpt [43] 94.1 ± 0.5 1.0 94.8 75.5 ± 0.3 1.1 75.8 87.0 ± 0.4 1.6 87.6 79.3 ± 0.4 2.5 79.7 75.2 ± 0.5 1.5 75.9 Dragon�y [24] 94.5 ± 0.4 1.4 95.1 76.8 ± 0.4 1.4 77.4 88.1 ± 0.42.6 88.5 80.1 ± 0.3 3.5 80.5 75.7 ± 0.3 2.1 76.2 ZOOpt [36] 94.6 ± 0.3 1.1 95.1 76.5 ± 0.2 1.2 76.8 88.3 ± 0.3 1.8 88.7 80.5 ± 0.3 2.6 81.0 75.9 ± 0.3 1.7 76.30BO-TPE [2] 93.0 ± 0.7 1.1 93.6 75.4 ± 0.5 1.1 75.9 87.0 ± 0.6 2.1 87.6 79.6 ± 0.6 2.7 80.2 74.7 ± 0.5 1.7 75.2 SMAC [20] 93.3 ± 0.6 1.2 94.0 75.8 ± 0.4 1.2 76.2 87.3 ± 0.5 2.2 88.0 79.8 ± 0.5 2.780.3 75.1 ± 0.4 1.8 75.8 Hyperband (HB) [31] 93.2 ± 0.9 2.4 94.2 74.4 ± 1.0 2.4 75.3 86.4 ± 0.9 2.8 87.5 80.2 ± 0.8 4.0 81.2 75.0 ± 0.7 3.3 75.9 BOHB [12] 93.1 ± 0.8 2.3 94.0 76.6 ± 0.5 2.3 77.387.1 ± 0.7 2.7 87.9 80.4 ± 0.7 4.2 80.9 75.2 ± 0.6 3.4 75.8 ASHA [32] 93.8 ± 1.0 0.9 94.5 75.5 ± 0.8 1.0 76.3 87.7 ± 0.7 1.8 88.5 79.9 ± 1.0 2.4 80.8 75.5 ± 0.8 1.5 76.5 AME (我们的方法) 95.5 ± 0.31.1 95.9 77.8 ± 0.2 1.1 78.1 89.5 ± 0.3 2.0 89.9 81.2 ± 0.3 2.6 81.8 76.7 ± 0.3 1.6 77.10表2.不同搜索器的性能比较。由于PBT、PB2、BayesOpt、Dragon�y、ZOOpt无法优化离散超参数（例如头、骨干网络、优化器和批量大小），只考虑了学习率和权重衰减的连续选择，在其他超参数的默认设置下（由AME给出的最佳配置）。搜索结果的平均性能和时间分别显示在Search和Time中。使用最佳超参数重新训练后的结果显示在Retrain中。实验设置在三个任务上进行：图像分类（Cls.），目标检测（Det.）和语义分割（Seg.）。04. 实验04.1. 数据集和设置0数据集。为了验证AME的有效性，我们在CIFAR-10/100[29]和Standford Cars[28]上进行了图像分类实验，以平均准确率（AccTop-1）作为评估指标。CIFAR-10/100包含10/100个类别中的50,000个训练图像和10,000个测试图像，而StandfordCars包含196个类别中的8,144个训练图像和8,041个测试图像。我们在PASCAL VOC [10,11]上设置了目标检测和语义分割实验。对于检测，VOC0712包含20个类别中的16,551个训练图像和4,952个测试图像，以平均精度（mAP）作为评估指标。对于分割，VOC2012+Aug包含20个类别中的13,495个训练图像和1,449个测试图像，以平均交并比（mIoU）作为评估指标。设置。我们的实验基于Ray Tune[33]实现，这是一个用于超参数调优的Python库。实验中使用了8个Nvidia Tesla V100GPU。所有实验结果在多次重复后取平均。对于分类，配置数量n的最大值设置为500，最大预算R在第3.1节和公式（2）中设置为200个epoch。对于检测，n设置为80，R设置为20。对于分割，n设置为80，R设置为36。此外，公式（2）中的缩减因子η设置为2，最小预算r在公式（2）中设置为1个epoch，输入配置数量k在公式（3）和算法1中设置为10个，多头注意力块的数量0在图2和公式（4）中，N设置为2，公式（5）中M设置为5，公式（6）中ε设置为0.2，算法1中ρ设置为1.如表1所示，分类搜索空间中有五种超参数：骨干网络、学习率、优化器类型、权重衰减和批量大小。在检测和分割中，需要搜索的超参数还包括网络的头部。04.2. 性能分析0本文的主要创新之处在于提出了一种新型的配置搜索器和一种高效的训练策略。为了公平比较，各种类型的搜索器的性能在表2、图3和图4中都有所展示。适应多样化任务。如表2所示，AME在所有三个视觉任务中的性能都优于其他HPO算法。具体而言，AME在图像分类中的性能达到了95.5％，目标检测中的性能达到了77.8％，语义分割中的性能达到了89.5％，这些性能明显高于其他HPO算法。与目标检测和语义分割相比，分类训练过程中的梯度反向传播更加稳定，这归因于更简单的优化目标。这也表明，网络在检测和分割中的性能对训练过程中超参数的选择更加敏感。我们的算法在检测和分割中带来的改进不超过在分类中的改进。原因在于检测和分割中n的值较小，将在第4.3节中进行分析。总之，我们的算法能够有效应用于具有不同敏感级别的视觉任务。与其他算法的比较。虽然基于随机搜索的方法（例如ASHA）速度快，但不稳定（表2）。它们的准确率比AME在分类任务（CIFAR-10）上低2.3％（Hyperband）和1.7％（ASHA）。性能差的原因在于在给出新的配置建议时，没有考虑不同配置之间的关系。作为贝叶斯优化的代表，BOHB（93.1％，76.6％，87.1％，80.4％，75.2％）仅在考虑了配置之间的关系时才能达到与随机方法（如Hyperband）相似的性能（93.2％，74.4％，86.4％，80.2％，75.0％）。这种情况是因为贝叶斯优化中的强假设对搜索空间有限制。进化算法，包括PBT和PB2，在准确率（CIFAR-10）上比AME低2.0％和1.7％，即使搜索空间有限，即只需要搜索学习率和权重衰减。效率。四种方法的性能比较曲线绘制在图3中。就速度而言，并行方法（ASHA，AME）比串行方法（BOHB，Hyperband）更快。可以观察到，基于随机搜索的ASHA在三个任务中最快，其次是AME。这一事实证明了引导采样和随机策略能够有效加速强化学习的训练过程。此外，ASHA的曲线波动较大，性能不稳定（见图3（d）），因此ASHA可能无法搜索到最优配置。在AME中，引入了注意力采样，带来了稳定的性能改进。配置的平均质量。四种算法在每个梯度上的性能在图4中可视化。为了更好地关注性能差异，采用相对形式而不是绝对形式进行可视化。可以看出，AME选择的配置在所有梯度中具有相对较高的平均性能。这表明，我们提出的Transformer结构代理能够在巨大的搜索空间中定位高性能的超参数配置，通过学习关系。79978285889194617964677073766782707376795879616467707376-3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 0 / 11 / 22 / 43 / 84 / 165 / 326 / 647 / 128AMEASHABOHBHB-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 0 / 11 / 22 / 43 / 8 4 / 16 5 / 32-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 0 / 11 / 22 / 43 / 8 4 / 164860性能报告轮次0验证top-1准确率0(a) CIFAR-10（分类）0HB0BOHB0ASHA0AME0性能报告轮次0验证top-1准确率0(b) CIFAR-100（分类）0HB0BOHB0ASHA0AME0性能报告轮次0验证mAP0(c) VOC（检测）0HB0BOHB0ASHA0AME0性能报告轮次0验证mIoU0(d) VOC（分割）0HB0BOHB0ASHA0AME0图3.在三个视觉任务中四种算法的性能比较。横坐标表示与性能报告相关的时间轮次，纵坐标表示性能。总轮次受到要评估的最大配置数n和最大梯子数� log η ( R/r ) �的同时影响（见公式（2））。0适用于具有不同敏感级别的视觉任务。与其他算法的比较。虽然基于随机搜索的方法（例如ASHA）速度快，但不稳定（表2）。它们的准确率比AME在分类任务（CIFAR-10）上低2.3％（Hyperband）和1.7％（ASHA）。性能差的原因在于在给出新的配置建议时，没有考虑不同配置之间的关系。作为贝叶斯优化的代表，BOHB（93.1％，76.6％，87.1％，80.4％，75.2％）仅在考虑了配置之间的关系时才能达到与随机方法（如Hyperband）相似的性能（93.2％，74.4％，86.4％，80.2％，75.0％）。这种情况是因为贝叶斯优化中的强假设对搜索空间有限制。进化算法，包括PBT和PB2，在准确率（CIFAR-10）上比AME低2.0％和1.7％，即使搜索空间有限，即只需要搜索学习率和权重衰减。效率。四种方法的性能比较曲线绘制在图3中。就速度而言，并行方法（ASHA，AME）比串行方法（BOHB，Hyperband）更快。可以观察到，基于随机搜索的ASHA在三个任务中最快，其次是AME。这一事实证明了引导采样和随机策略能够有效加速强化学习的训练过程。此外，ASHA的曲线波动较大，性能不稳定（见图3（d）），因此ASHA可能无法搜索到最优配置。在AME中，引入了注意力采样，带来了稳定的性能改进。配置的平均质量。四种算法在每个梯度上的性能在图4中可视化。为了更好地关注性能差异，采用相对形式而不是绝对形式进行可视化。可以看出，AME选择的配置在所有梯度中具有相对较高的平均性能。这表明，我们提出的Transformer结构代理能够在巨大的搜索空间中定位高性能的超参数配置，通过学习关系。0阶段/轮数0平均值0(a) CIFAR-10 (Cls.)0(b) VOC (Det.) (c) VOC (Seg.)0性能0图4.每个阶段四种算法的性能比较。每个柱状图表示当前阶段对应算法所有试验的平均性能。零线表示四种算法的平均性能。柱状图表示每个算法相对于平均性能的差异。0配置之间的关系。值得一提的是，训练过程中越早的阶段，AME的优势越大，这意味着我们的AME有助于在早期阶段快速筛选出高性能的配置。04.3. 消融研究0对AME进行了图像分类的多个消融实验，以深入分析。如图5所示。配置搜索器的组件。为了验证GTrXL在AME中的有效性，对配置搜索器的组件进行了拆解实验，如表3所示。实验证明，注意力模块和记忆模块分别提高了0.8%和0.7%的准确率。实验结果表明，同时捕捉长期和短期关系有助于搜索器提供更高性能的配置供试验调度器使用。不同的配置搜索器。如表4所示，为了消除调度器的影响，分别取出训练好的搜索器（AME中的GTrXL，BOHB中的TPE）进行相同输入的比较实验。尽管随机搜索不依赖于输入，79978285889194BaseNaive FCAttentionWith HBNo ClipMean79978285889194Basek=5k=20n=80n=2004870搜索器调度器的组件 C10 C100 Cars0Naive FC Attention Memory0� � � ASHA 94.1 76.3 87.9 � � � ASHA 95.1 76.9 88.7 � � � ASHA 95.5 77.8 89.5 � � � HB 95.477.4 89.30AME模型结构的实验。C10: CIFAR-10. C100: CIFAR-100. Cars:Standford Cars. HB: Hyperband.0不同的搜索器 C10 C100 Cars0输入 76.8 60.6 71.50GTrXL (AME) 87.2 70.5 81.4 TPE (BOHB) 85.9 68.0 79.7 Random 76.1 60.971.00AME中不同搜索器的实验。0剪辑计算 C10 C100 Cars0� 最大值 95.2 77.7 89.3 � 最大值 95.5 77.8 89.5 � 平均值 94.4 76.8 88.70AME中奖励函数的实验。0输入配置数量 k = 5 k = 10 k = 200CIFAR-10 95.3 95.5 94.9 CIFAR-100 77.2 77.8 77.0 Standford Cars 88.9 89.589.00AME中输入配置数量的实验。0它也被选为基准。在多次实验的平均结果中，可以发现AME和BOHB都能有效稳定地选择更好的新配置，而AME在准确性上高于BOHB。不同的试验调度器。本文提出的新搜索器不仅可以与ASHA结合，还可以与其他调度器（见表3）结合，例如Hyperband。Hyperband是一个两层循环，一层是选择不同的（n，r）组合，另一层是对每个组合执行SHA。作为一种顺序方法，AME（Hyperband）在性能上也达到了与AME（ASHA）相当的水平，但速度不如AME（ASHA）快。奖励函数中的指标计算。方程（5）中奖励函数的设计至关重要。因此

下载后可阅读完整内容，剩余1页未读，立即下载