没有合适的资源?快使用搜索试试~ 我知道了~
可转移AutoML: 基于模型的自动机器学习方法的研究与应用
9002基于分组数据集薛超1,严俊池2,严荣1,Stephen M.楚1,胡永刚3,林永华11IBM中国研究2上海交通大学计算机工程系、MoE人工智能重点实验室{xuechao,yanrong,schu,linyh} @ cn.ibm.com,yanjunchi@sjtu.edu.cn,yhu@ca.ibm.com摘要自动机器学习(AutoML)是为特定任务和数据集设计深度神经网络的一个由于发现新网络设计的复杂性,加快搜索过程的方法变得越来越重要。本文提出了一种所谓的可转移AutoML方法,该方法利用经过严格训练的模型来加快新任务和数据集的搜索过程该方法包括一种基于基准模型性能的Meta特征提取技术和一种基于马尔可夫过程和统计假设检验的动态数据集聚类算法。因此,多个模型可以共享共同的结构,同时具有不同的学习参数。可移植的AutoML可以应用于从头开始搜索,从预定义的模型搜索,或根据给定数据集的难度从基本单元转移图像分类的实验结果表明,显着的加速在多个数据集的整体搜索时间与精度损失可以忽略不计。1. 引言及相关工作随着深度网络的广泛采用,识别适合特定任务和数据集的适当网络架构是有吸引力的,但它仍然主要依赖于人类的专业知识。这已经激发了对自动发现定制的网络模型1以用于在没有人类干预的情况下以全自动方式进行训练的快速增长的研究,其被称为AutoML。关于AutoML的使用方法,已经有相当多的文献基于遗传算法、随机搜索、贝叶斯优化、强化学习和连续可微方法。基于遗传算法的方法[33]在上个世纪被引入,以找到架构和权重。然而,它们无法匹配1对于深度学习,本文中“模型”的含义手工网络的性能。[32]提出了一种生成体系结构的进化搜索方法。在某些情况下,精度接近手工制作的模型[14,41,15]。类似地,已经探索了随机搜索来选择超参数。[6]从经验和理论上表明,对于超参数优化,随机搜索比网格搜索更特别是,方法Hyperband[22]使用早期停止策略自适应地分配资源来加速随机搜索贝叶斯优化[5,34,16,12,7]也为AutoML提供了坚实的基础。贝叶斯优化的一个选择是将泛化性能建模为高斯过程(GP)的样本[34],这可以达到许多机器学习算法的专家级优化性能。[3]中的工作开发了一个Q学习代理来选择神经网络架构中的层的模块。[42]提出的神经架构搜索(NAS)方法采用策略梯度方法从递归网络学习网络,并在视觉和语言任务中取得了良好的效果。最近,连续域可微方法已经获得了AutoML的兴趣与离散搜索空间上的进化或强化学习不同,DARTS[25]使用架构表示的连续松弛,并通过梯度下降搜索架构。然而,大多数现有的AutoML方法都需要相当大的模型搜索开销。为了提高效率,一个想法是在不同的试验中共享信息。多任务贝叶斯优化和高斯过程(GP)在[35,8,4]中提出。在这些方法中,不同的数据集被视为不同的任务,并定义超参数和任务对之间的协方差多任务贝叶斯优化和高斯过程显示了一定的成功,建立了理论基础。同时,[24,26,30]介绍了基于顺序模型的算法配置在[24]中,它利用一个试验的性能在新的作业类型上热启动其模型配置。这项工作[26]使用元学习来初始化贝叶斯优化器和从配置中自动构建集成9003在优化过程中进行评估。工作[30]通过为超参数空间构建共享(多任务)表示来学习模型相似性。虽然这些多任务和热启动方法是基于GP或贝叶斯优化,Wong等人。[37]专注于在深度RL架构中跨任务共享知识。Net2Net [10]通过将知识从先前的网络转移到新的更深或更宽的网络来加速搜索过程,ENAS [31]为所有子模型共享权重以构建一次性模型,从而加快收敛过程,这与DARTS [25]的做法类似在[43]中,作者表明在CIFAR-10上搜索的基本单元可以转移到ImageNet分类中,而无需进行太多修改。然而,不同数据集之间共享模型的有效性的解释仍然不清楚。本文解决了这一重要设置,即多个数据集由于其固有的相关性而被组合以共享一个共同的网络结构,而参数是不同的,并且单独学习以适应每个数据集。这种机制可以用来实现在搜索时间和模型精度之间进行权衡。在这种情况下,我们提出了一种新的方法,涉及元特征提取技术和动态数据集聚类算法,以重用适当的模型(架构+超参数)的多个数据集,减少搜索时间。我们的方法在三个方面与现有方法相比具有一些灵活性:i) 搜索算法。与专为贝叶斯优化设计的多任务解决方案[35,8,4]或基于强化学习的AutoML [37]迁移学习不同,我们的方法可以轻松地与大多数现有的Au-toML技术以开箱即用的方式相结合。例子包括遗传方法[32],强化学习[3,42],Hyperband [22]和DARTS[25]。这是因为我们的方法专注于数据集聚类,这与特定的模型搜索算法正交。ii) 搜索机制。我们的可转移AutoML可以应用于不同的搜索方案:从头开始搜索;从预定义的模型搜索(例如,重用GoogleNet架构和底层的权重来搜索更高层的架构)和从基本单元转移(将源数据集的搜索正常/约简单元[25,31]转移到目标数据集)。此功能使其在有限的时间预算下更iii) 在线设置。我们的方法可以用于在线设置,即数据集顺序来,一个需要搜索模型的新到达的数据集有效。具体来说,我们开发了数据集聚类技术对于数据集特征表示,使用它们在一套基准模型上的评估结果。ii) 数据集聚类。然后将提取的元特征与马尔可夫过程和假设检验机制相结合,用于数据集聚类。这两个组件可以处理数据集组的类型II错误和类型I错误ing(不正确地接受分组和不正确地拒绝分组)。现在,我们介绍我们的方法的概述。我们首先用基准模型特定的表示来表示数据集dn(参见第二节中的更多细节)。2.1)数据集特征空间中的xn。其基本思想是利用这种元学习表示来测量数据集的相似性,以便可以对某些数据集进行分组以进行模型搜索和共享。由于分组需要在线进行,我们采用马尔可夫分析的顺序聚类使用上述表示,其中还涉及到的概念,聚类集的数据集特征空间的贝叶斯推理。这样的聚类步骤可以处理II型错误。为了控制I型错误,我们进一步施加假设检验来抑制不想要的分组。因此,随着数据集的不断出现,要么使用一些AutoML方法搜索新数据集的新模型,要么将新数据集分配给现有数据集的聚类集,以便与公共模型(包括超参数和架构或基本单元)共享,尽管它们的权重不同。2. 按XML数据集搜索共享模型我们首先证明了我们的基于基准的元学习方法用于数据集特征表示的动机。然后,我们采用马尔可夫分析的顺序聚类和统计假设检验分组数据集,使搜索到的模型可以在每个组内重用。2.1. 数据集特征提取我们引入了一种Meta学习方法来表示数据集d在数据集特征空间coded。为了证明这种表示可以很好地用于AutoML,我们首先考虑AutoML问题。AutoML的基本思想是从给定的数据集d中识别模型m:m= arg max p(m|(d)(1)M在上述后验分布条件下的数据集之间共享数据 比较模型在 两 个 不 同 的 数 据 集 之 间 , p ( m|d1 ) 和 p(m|d2),我们使用Kullback-Leibler(KL)散度:KL(p(m|d1)||p(m|d2))(2)以及在集群数据集之间共享模型,据我们所知,他在文学方面做了很好的研究。 的∫=p(m|d1)ln.Σp(m|d1)DMp(m|d2)该文件的主要贡献和新颖之处是:i) 元特征提取为了实现有效的模型搜索和共享,我们提出了一种新的Meta学习方法,Σ,(bi)p(d1|bi) p(d1|bi)bjp(bj)p(d2|bj)阿维尼翁bibjp(bj)p(d1|bj)p(d2|bi)bjp(bj)p(d1|bj)9004n−1.(1-w)·当基准模型集{bi}扩展整个模型空间时,离散化近 似 接 近 连 续 KL 偏 差 。 已 知 相 对 熵 满 足 KL(p||q)≥0且相等当且仅当p(x)=q(x)。因此,给定从可行模型空间中采样的一些基准模型,并且如果该模型证明p(d|b)在所有基准上相似并且相应地更新该簇的特征值当没有数据集到达时,每个集群都是空的,没有分配数据集。存在可编码状态以将现有数据集的分配编码到聚类中。 在本文中,我们用Sn= i来表示每个状态,其中i表示某个数据集vs.集群分配考虑以下马尔可夫链,用于从状态sn−1到sn的分配决策建模:两个数据集之间的模型,方程中的KL散度。 2近似为0。 这就导致了P[s]n=I|x1,. . .得双曲余切值.n−1,xn](3)在多个数据集上共享一个模型,这也是本文的基础。现在我们讨论如何使用基准模型来表达给定的数据集。形式上,假设模型空间中有B个基准(深度网络)模型:b1,b2,. . .,b B.基准模型的配置分布在不同的神经网络,w.r.t.隐藏层的数量、隐藏单元的数量、核大小、步幅、跳跃模式、单元Σ=P[sn=i|x n,sn−1=j]P[sn−1=j|x1,. . . ,xn−1]J= P[sn= i|x n,sn−1= i′]P[sn−1= i′|x1,. . . ,xn−1]该方程表明,当前状态仅从一个状态转变。在Eq中的产品的第一部分3可以通过贝叶斯规则计算P[s n= i|x n,s n−1= i′]p [x|s= i,s=i′] P [s = i|s= i′]等等,以及不同的超参数,如学习率,权重衰减,动量,批量大小等。不失=nnn−1nn−1p [xn|sn−1=i′](四)一般而言,本文的基准模型集是在均匀分布或对数均匀分布的可行域上通过蒙特卡罗抽样我们为未来的工作留下更有效的建设。然 后 , 数 据 集 d 可 以 由 特 征 向 量 xn= f ( d ,bl,., b B)在导出的数据集特征空间d中∈d。特别 地,在维度i 处的值由下式设置: xn (i) =g(dn,bi)其中g(d,b)返回评估结果(例如,精度)。基于这样的归一化表示,在下文中,我们将展示如何在线执行数据集分组,以通过数据集组内的模型共享来减少整体模型搜索开销(参见表2中与对等方法[26]的比较)。值得注意的是,对于数据集特征表示,还有其他元学习方法[24,26,17但我们提出的方法是基于基准模型希望数据集之间的相似性可以通过模型性能而不是其他标准来衡量。2.2. 序列聚类的马尔可夫分析对于数据集分组,希望分配给同一聚类的分组数据集具有相似的特征表示x∈φd,并且我们进一步假设具有相同聚类的x服从高斯分布(回想一下空间φd的维度是B)。事实上,验证误差(准确度)的高斯分布假设是广泛的,用于超参数调整[5,35]。通过将状态sn=i表示为当dn被分配给簇Vk而sn−1=i′时的更新状态,我们有:p [x n|s n= i,s n−1= i′]= p [x n|d n→ V k,sn−1= i′]=N(x|µ k,Σk)exp −1(x−µk)(k)−1(x−µk)=2(5)(2π)B/2 |Σk|二分之一其中μk∈RB是均值,μk∈RB×B是协方差矩阵3。现在我们回到等式中分子的右边部分4.第一章这部分可以看作是类先验:P[sn=i|sn−1=i′]=P[dn→Vk|sn−1=i′](6).为了将流数据集d1,d2,. . . ,dn随时间的变化,作为动态聚类中的一种常见做法,我们引入K个剩余聚类V1,V2,. . . ,V K用于初始化(K是w·|VK|,Vk=/=1K −|Ik|∅,Vk=0非常大,最后被修剪掉)。每个聚类在数据集特征空间中取一个随机采样值哪里|·|表示集合的基数。类似于混合高斯聚类ing,假设一个聚类的先验概率为一般来说,每个数据集都被分配到某个集群,3在本文中,我们稍微滥用了簇的符号:Vk是一个集合,2请注意,为了获得更可靠的性能估计,对每个模型进行多次随机初始化试验,这里xn表示验证集上模型的这些试验的平均值。数据集特征空间中的附加值属性。 当我们在公式中将其视为S标准集时:当它为空时,我们表示Vk=k,并使用Vk{dn},用于集合并集运算。9005000→k′nKnn与分配的数据集的数量成比例。对于空簇,它们的先验概率应该相等。因此,我们使用方程中的分段函数6、凡其中T是一个基准模型随机初始化的试验次数。召回率xn是T次试验的平均向量。更新标准很容易理解-一组非空簇定义为:Ik={k|VKstand:当前的非空集群中的参数。n,k = 1,. . . ,K}。另外,w是先验概率属于非空簇的数据集的值(Vk/=k),它随着非空簇的数量增加而增加因此,设计以下函数来对w进行建模:w= 1 − exp(−|I k|·γ)(7)其中γ是一个超参数,其值可以通过在补充材料中显示的其敏感范围内使用网格搜索最后,考虑方程的分母4、它可以在数据集特征空间中的所有预设聚类上被边缘化p [x n|sn−1=i′]租金数据集被分配给由最大似然更新而其它非空簇中的参数保持不变。而当前数据集被分配到的空集群中的参数被设置为自身的估计,因为当前数据集是集群中的唯一一个。因此,下一个集群分配的概率在等式中。3可以用Eq.4-14因此,可以以最高概率找到最佳聚类,使得与该聚类相关联的数据集可以共享相同的模型,以避免对新数据集的模型搜索。然而,由于计算和存储器要求的高要求,计算Eq.3直接是不可行的,因为状态数是贝尔数[2],Σ|V K|kkN(µk,μk)与数据集的数量呈指数关系,即使考虑到=k∈IkwN(µ,)+n−1k∈/Ik(1−w)K− |Ik|(八)通过减少空簇来简化状态。为了提高效率,一种解决方案是将该问题建模为最短路径问题,并仅保留最短路径初始条件如下:P[s1= 1|x1] =1(9)有效路径。然而,在这种情况下,像Viterbi算法这样的动态编程模型不能提高性能,因为当前状态仅从µk=µkσ2 I(十)一个国家。为了获得近似最优解,我们假设的行列式|Σk|小这一点,也是从经验上发现的。 那么很容易k=(十一)KB其中,当范围界限已知时,µk可以从均匀分布中随机采样,或者当均值和方差已知时,µ k可以从高斯分布中采样。在这里,将k设置为给定的对角矩阵,表明具有最高后验概率的状态Eq.在数据集d n处的4将从在数据集dn-1 处 的 最 高 值 转 换。因此,我们只能考虑具有最高后验概率的4沿着迭代过程得到一个近似最优解。02如上所述,我们的方法可以被看作是一个已知的相关性,σ0可以大致围绕独立试验的方差估计,1它的规模与KB成反比,集合聚类可以导致较小的方差。这些参数可以很容易地通过似然最大化进行更新,详细的更新标准如下所示:硬决策方案还有软决策序列聚类方法,如在线EM算法[9,23]。而通过硬决策将数据集分组到聚类中更直接,因为它既不需要低效的迭代,也不需要预定义的精确聚类数量由于k-均值是众所周知的硬决策聚类方法,Vk= .SV{dn},dn→Vk(十二)以及它的顺序版本[13,20],我们将比较与Vk,dn′V,k/= kk-均值算法和序贯k-均值算法。µk和k的更新如下:d∈Vk2.3. 统计假设检验上述马尔可夫分组过程可以控制我我|VK|xi, dn →VkVVkII类错误。现在我们介绍一种假设检验技术µk= xn,dn →VkVVk=0(十三)19006µ来处理第一类错误 统计检验涉及克n−1,dn→Vk′,k′/=kVVk/=kk- 指[13],其中进行测试以检测d∈Vk分配给聚类的数据是否从一个k=我拉吉吉ΣT(xi−µk)(xi−µk)|,d n → V|,dn→V(xt−x)(xt−x)kVVkV/=0高斯分布由于拟合分布的假设检验需要大量样本[1],nt=1nn电子邮件n n ,dn→VkV′Vk=0不适合我们的模型搜索设置,我们转而考虑Σkn−1,dn→Vk,k′kVk/=0(十四)检测两个高斯分布是否具有相同平均值的测试具体而言,备择假设为:9007nnnn1√• H0:聚类中分配的数据集的均值与将要分配的数据集的均值相同;• H1:集群中分配的数据集的均值与将要分配的数据集的均值不同;算法1可转移的AutoML与马尔可夫分析和假设检验-abbr。Tr-AutoML(MH)输入:1:设置显著性水平α、γ和最大聚类数K;2:用等式初始化状态。马尔可夫聚类为9 10 113:在数据集特征设置K个空聚类{Vk}K对于新数据集的特征向量,如前所述,它由T个随机试验的T个原始版本组成,以获得平均值:X ={x1,x2,. . . 其中T是试验次数。 类似地,对 于 在 集 群 Vk 中 分 配 的 数 据 集 , 我 们 有 Y ={y1 ,y2,. . . ,y T},其中y t是针对试验t的该聚类中的数据集的特征的平均值。与上一节中用于序贯聚类的马尔可夫分析的均值和协方差矩阵不同 由最大似然估计计算,在此假设检验,假设这些参数是未知的。具体来说,X和Y中的元素应该是1 1 2 20k=1随机初始化的空间codeD(其中一些将根据分配的数据集进行更新)。输出量:4:J搜索流中的非空簇V j/= n的模型mj。注意:1)数据集可能与不同的权重; 2)基准模型只用于数据集的特征计算,而不是作为搜索模型。5:对于数据集dn,n= 1,2,. 做6:对于dn,计算其基准模型特定特征向量xn=f(dn,b1,...,bB)∈φd;7:找到Vk,并通过等式dn→Vk赋值5 6 7;8:如果Vk=0,即找到的集群为空,则高斯分布:N(µ,)和N(µ,),分别为活泼地目标是检测是否µ1=µ2。这里引入了Beynss-Fisher解[18],考虑了t = 1,2的一个其它集合. . . ,T:n9://可以通过独立的模型搜索方法10:执行独立模型搜索方法,例如超宽带MetaQNN搜索定制模型mn;11:将dn分配给Vk;设置Vk.kn n nZ=zi|zi=xi+ΣTt=1yt/T−|Vk|yi−ΣT|V K|t=1yt不|V K|(十五)12:否则,如果Vn/=N,则13:通过等式进行假设检验十六岁14:如果假设不被接受,则15:搜索模型mn的dn;检验统计量[1]可以表示为:16:随机选择一个空的集群Vk′,并分配d设Vk′ΣTF=·T(T-B)z<$[(z-z)(z-z)]−1z(16)无无无无无无无17:其他Bi=1式中,B为所述台式机型号的数量18:将mk设置为dn的搜索模型用于共享;//model重复使用19:如果结束上,z=不i=1不zi. 根据标准统计学意义,20:如果结束21:用最大似然估计更新参数cance levelα,拒绝域为{F> Fα(B,T-B)}。显著性水平α是期望的概率,I类错误(即,不正确地拒绝H0)。通常,减小其值将导致较低的I型误差,但较高的II型误差(即,不正确地接受H0)。在我们的方法中,序列聚类的马尔可夫分析可以被看作是一种控制II型错误的方法,因此α可以只考虑I型错误。在实验中将评估不同的α2.4. 方法总结和讨论我 们 将 所 提 出 的 方 法 称 为 可 转 移 AutoML ( Tr-AutoML),其使用基准术语Tr-AutoML反映了本文提出的元特征提取方法和框架;而MH强调如上所述的技术。3. 实验实验考虑三种设置:i)从头开始的搜索模型;ii)从预定义的通过Eq. 12 13 14.22:结束模型例如 GoogleNet利用现有架构;iii) 从基本细胞转移。我们将首先列出组件基线,然后介绍评估指标、模型搜索算法、测试-数据集序列生成和平台等。3.1. 常规设置3.1.1比较方法我们认为这些基线与Tr-AutoML进行比较i) 我们的AutoML元特征提取方法是基于基准模型的性能。我们将通过实例展示其相对于传统统计和分类元特征生成方法的优势[26]。ii) 所提出的模型共享方法对于数据集分组的特定策略是不可知的。除了设计的马尔可夫分析和假设检验(MH)方法外,还使用了一些简单的基线,例如。随机分组,k均值,se-n我我90080enN∗也可以组合顺序k均值[13]。在实验中,我们将展示我们的MH技术在Tr-AutoML框架下相对于这些基线的优势。iii) 拟议的Tr-AutoML框架可以被视为利用以前数据集知识的协作AutoML。在实验中,我们将比较其他协作iv) 我们的Tr-AutoML框架与MH技术可以合并现有的独立AutoML方法,例如。Hyperband [22]、Bayesianoptimization [34]、MetaQNN [3]、NAS [42]、Net 2Net[10]、ENAS [31]和DARTS [25]以开箱即用的方式,如算法1中第10行的步骤所指定的。在我们的实验中,我们还将展示使用不同AutoML算法时的性能。3.1.2评估协议为了模拟在线设置,数据集以随机顺序依次对于每个数据集,搜索Tailed模型(包括架构和超参数)。该架构涉及层数、卷积核大小、输出通道大小、池核大小和步幅等。超参数包括初始学习率、初始权值标准差等。实验在两个Tesla K80上运行,每个都具有12G存储器。 我们设置Tr-AutoML方法的超参数α= 0。005,γ= 0。2,最大聚类数K=1000,σ2= 3e−4。我们设定基准B= 6,随机试验次数T= 8,以获得平均值x。为了进行评估,我们使用搜索挂钟时间和总分类相对误差(TRE),定义为:1ei−e表1:Tr-AutoML的数据集分组示例每项试验分组如下:从零开始寻找模特1)mnist 1.0,mnist 0.5,svhn 0.1,svhn 0.5,fashion-mnist 0.1,fashion-mnist 0.5 2)stl10 0.5,stl10 1.03)mnist-background-images 0.5,mnist-background-images 1.0,mnist-rotated 0.5,mnist-rotated 1.0 4)cifar10 1.0,cifar10 0.51)mnist 1.0,mnist 0.5,fashion-mnist0.5 2)stl10 1.0,cifar10 0.5,cifar101.03) mnist-旋转0.5,mnist-背景-图像1.0,mnist-背景-图像0.5,mnist-旋转1.04) svhn 1.0,svhn 0.5,fashion-mnist0.1 5)stl10 0.5数据集。使用七个数据集进行评价,包括MNIST、CIFAR-10 、 FASHION-MNIST 、 SVHN 、 STL-10 、MNIST-BACKGROUND-IQUITY、MNIST-ROTATED[19、27、11、21、38]。每个数据集都有另一个衍生版本,采样率为原始数据集的50%。将数据集拆分为子数据集广泛用于多任务学习和迁移学习[26,35]。因此,总共有14个数据集用于在线模型搜索。这些数据集以随机顺序处理30次试验。我们的经验发现,在大多数试验中,MNIST-接地-接地和MNIST-旋转均正常。通过Tr-AutoML方法进行拓扑分组。在少数情况下,STL-10和CIFAR-10、FASHION-MNIST/MNIST和SVHN也倾向于组合在一起。表1显示了其中两项试验的数据集分组结果,其中相似的数据集被分组。为了将我们提出的Tr-AutoML与独立模型搜索方案进 行比 较 ,我 们将 Tr-AutoML与 Hy- perband [22],MetaQNN [3]和ENAS [31]相结合。此外,为了证明我们提出的元特征提取方法的效率,我们将Tr-AutoML与[26 ]进行了比较,[ 26]使用其统计元特征(例如关于数据点,特征和类的数量的统计数据,以及数据偏斜度和目标的熵)作为元特征。TRE=iii(十七)学习数据集特征表示。为了展示我们提出的马尔可夫分析和假设的性能,其中,e_n和e_n分别代表使用由独立搜索方法和组合搜索方法生成的模型的数据集n的测试集误差N是数据集的总数。3.1.3标杆车型我们的方法是基于基准模型评估的数据集的特征表示本 文 从 均 匀 分 布 或 对 数 均 匀 分 布 的 可 行 域 上 的MonteCarlo抽样中选取了六个结合超参数和神经网络结构的基准值得注意的是,基准模型仅用于计算数据集dn最终搜索的模型是针对特定数据集定制的。3.2. 从零开始为了验证通用性,在这里,在没有关于模型的任何先验知识的情况下执行搜索,并进行测试方法,采用k-均值法、序贯k-均值法和随机聚类法对基线进行分组。此外,为了比较AutoML的协作方式,我们将Tr-AutoML与warmstart方法进行比较:[24]通过使用三个AutoML方法作为其用户指定的默认初始化。表2显示了结果,其中总搜索时间已经包括了运行最后一列中列出的基准测试模型的开销。与独立的模型搜索方法相比,组合的Tr-AutoML(MH)可以平均减少3到4倍的搜索时间,同时保持与k均值(k被选择为原始数据集的数量)几乎相同的低水平的额外误差,这比Warmstart、Meta- learning和基于随机聚类的方法少得多Tr-AutoML(MH)比k-means 更有效(节省约40%-70%的搜索时间),因为它可以在不同的原始数据集中找到可重用的模型与Hyperband组合的总相对误差9009表2:7个数据集上的总搜索时间(以天为单位,包括运行基准模型的开销)、总分类相对误差(TRE)和基准开销:在从头开始的模型搜索设置中。技术组合总搜索时间TRE开销[22]第二十二话10.4000[24]第二十四话6.230.4120[26]第二十六话3.850.1180Tr-AutoML(随机)+Hyperband2.961.6530Tr-AutoML(Kmeans)+Hyperband5.440.0590.2Tr-AutoML(Seq. Kmeans [13])+Hyperband 4.480.0610.2Tr-AutoML(MH)+Hyperband3.170.0620.2MetaQNN [3]16.2900[24]第二十四话7.190.2760[26]第二十六话5.460.0750Tr-AutoML(Random)+MetaQNN4.681.1490Tr-AutoML(Kmeans)+MetaQNN7.870.0360.2Tr-AutoML(Seq. Kmeans [13])+MetaQNN6.320.0410.2Tr-AutoML(MH)+MetaQNN4.850.0390.2ENAS [31]12.2200[24]第二十四话5.100.1320[26]第二十六话4.820.0440Tr-AutoML(随机)+ENAS4.020.4710Tr-AutoML(Kmeans)+ENAS6.170.0170.2Tr-AutoML(Seq. Kmeans [13])+ ENAS5.040.0190.2Tr-AutoML(MH)+ENAS4.220.0190.2高于其他两种方法。我们推测这是因为在Hyperband中,除了架构之外,学习率,初始权重标准偏差等超参数也同时自动调整,使共享模型对不同的数据集更加敏感。在我们的实验中实现的MetaQNN表现不如[ 3 ]中的原始报告,因为我们对其设置了时间预算。但由于本文主要研究了MetaQNN的相关性能,因此不影响独立MetaQNN和组合MetaQNN方案的一致性。此外,由于三种AutoML方案的基准测试模型相同,因此它们运行基准测试的开销相似。图1显示了六个原始数据集上挂钟时间的测试准确度(由于空间限制,我们仅报告六个数据集的结果 ) 。 Hyperband 用 于 演 示 独 立 的 AutoML , 其 他AutoML方案类似。从平均搜索时间的角度来看,可转移AutoML(Tr-AutoML)的准确率增长很快;在性能有限 的 情 况 下 , 纯 独 立 AutoML 的 性 能 略 优 于 Tr-AutoML。这是因为Tr-AutoML直接重用模型,不做反馈操作。图2显示了假设检验中不同基准数和不同显著性水平的影响。大的显著性水平将迫使数据集组缩小到更小的组,因此它通常提供低错误但长的搜索时间。然而,当基准数量太小而无法捕捉不同数据集的差异时,错误和搜索时间都很差。在我们的实验中,当从头开始考虑模型搜索时,选择4到6个基准模型对于Tr-AutoML来说已经足够好了。表3:通过运行两个Tr-AutoML试验生成的数据集分组的两个示例:在预定义的设置中。1) 场景1.0,场景0.5,花1.0,花0.52) 行动1.0,行动0.53)太阳1.0,太阳0.51) 场景1.0,场景0.5,花1.0,花0.5,动作1.02) 行动0.53)太阳1.0,太阳0.5表4:四个数据集的检索时间(天)和总分类相对误差:在模型搜索中 ,定义的模型设置。算法时间TREMetaQNN80Tr-AutoML(Random)+MetaQNN2.81.78Tr-AutoML(Kmeans)+MetaQNN4.50.069Tr-AutoML(MH)+MetaQNN3.00.0743.3. 从预定义模型搜索在实际应用中,图像分类任务远比MNIST或CIFAR-10困难。浅层网络太弱,无法捕获高级信息,但在这些任务上训练多个深层网络非常耗时。在这种情况下,我们的Tr-AutoML也可以很好地执行从预定义模型的搜索或从基本单元格的转换(在第二节中)。第3.4段)。在本节中,将评估来自预定义模型的 我们涉及四个大图像尺寸的复杂数据集:[28 ]第29话:你是谁?[29 ]第29话:你是谁?以及它们的0.5采样率版本的子集。与之前的实验不同的是,我们从底层到概念(4e)层重用GoogleNet[36]架构和权重,同时搜索更高层的链结构数据集分组结果见表3。可以发现SCENE-15和FLOWER-102数据集可以自动组合,因为它们的相似性。性能比较如表4所示,由此可以看出我们的方法实现了效率和功效的合理权衡。3.4. 从基本细胞转移基于基本单元的搜索模型被广泛使用[31,25],这可以被视为一种分层搜索策略。AutoML算法的重点是搜索单元(正常单元和约简单元)中的节点及其连接,然后将它们连接成一个神经网络。在[43]中,作者表明在CIFAR-10上搜索的基本单元可以转移到ImageNet分类中,而无需进行太多修改。通过采用我们提出的Tr-AutoML,在数据集组内共享基本单元是在本节中,我们评估了三种可转移的情况:1)源数据集9010(a)MNIST(b)CIFAR-10(c)SVHN(d)FASHION-MNIST(e)MNIST-ROTATED(f)STL-10图1:在六个原始数据集上的挂钟时间(搜索小时数)上测试准确度:在从头开始搜索的模型设置中。表5:搜索时间(以天为单位,包括开销)。测试准确度:从基本细胞设置中转移。(a)总相对误差(b)搜索时间图2:不同数量基准的不同显著性水平α:在模型搜索从头开始设置。是MNIST、CIFAR 10、STL 10和SVHN,目标数据集是FASHION-MNIST。2)源数据集是MNIST、CI-FAR10、FASHION-MNIST和SVHN,目标数据集是STL10 。 3) 源 数 据 集 是 MNIST , CIFAR 10 , STL 10 ,SVHN和FASHION-MNIST,目标数据集是ImageNet。我们设置α→0和γ→ ∞,以强制Tr-AutoML共享模型。从表5中可以看出,简单数据集和复杂数据集,Tr-AutoML确定哪些数据集可以稳定有效地共享最佳基本单元。这是因为所提出的数据集特征表示直接基于模型共享性能,而不是其他统计或分类特征。4. 结论本文探讨了可转移的AutoML模型搜索和共享顺序到达的数据集。我们提出了一种新的元学习方法,通过自适应地将新数据集分组到以前的数据集中,并重用以前发现的模型来搜索新数据。同时,我们的框架与许多现有的AutoML技术正交,并且可以以开箱即用的方式与之耦合。在图像分类任务,我们的方法实现了显着的整体加速模型搜索,ING在可以忽略不计的准确性损失。它也适用于不同的搜索机制和数据集。引用[1] T. 安德森多元统计分析导论,第三版。2003. 四、五目标数据集技术搜索时间精度fashion-MNIST[22]第二十二话1.670.942元学习[26]0.0010.939Tr-AutoML(随机)00.936Tr-AutoML(MH)0.0130.939STL10ENAS [31]1.080.734元学习[26]0.0010.680Tr-AutoML(随机)00.692Tr-AutoML(MH)0.0170.725ImageNetNASNet-A [43]18000.740元学习[26]2.560.717Tr-AutoML(随机)2.540.712Tr-AutoML(MH)2.810.7349011[2] N.阿赛岛Kubo和H.阔Bell数,对数凸性和对数凸性。应用数学学报,2000年。4[3] B. 贝克岛古普塔,加-地Naik和R.拉斯卡使用强化学习设计在ICLR,2017。一、二、六、七[4] R. Bardenet,M.布伦德尔湾Kegl和M. Sebag协同超参数调整。2013年,《国际反洗钱法》。一、二[5] J. 伯格斯特拉河Bardenet,Y.Bengio和B.凯格尔超参数优化算法。NIPS,2011年。第1、3条[6] J. Bergstra 和 Y. 本 吉奥 。 超参 数 优 化的 随 机搜 索 。Journal of Machine Learning Research,2012. 1[7] J. Bergstra,D. Yamins和D.考克斯做一个模型搜索的科学:视觉架构的数百个维度的超参数优化。2013年,《国际反洗钱法》。1[8] E. Bonilla,K. Chai,和C.威廉姆斯多任务高斯过程预测。NIPS,2008年。一、二[9] O. Cappe和E.穆兰潜在数据模型的在线em算法。arXiv预印本arXiv:0712.4273,2007年。4[10] T. 陈岛,澳-地Goodfellow和J.史伦斯Net2net:通过知识转移加速学习。ICLR,2016年。二、六[11] A. Coates,H. Lee和A. Ng.无监督特征学习中单层网络的分析。载于AISTATS,2011年。6[12] T. Domhan,J. Springenberg,and F.哈特通过学习曲线的外 推来 加速 深度 神经 网络的 自动 超参 数优 化。InIJCAI,2015. 1[13] G. Hamerly和C.埃尔坎学习k-means中的k在NIPS,2003年。四、六、七[14] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。1[15] G. Huang,Z.柳湖,加-地Maaten和K. 温伯格密集连接的卷积网络。arXiv预印本arXiv:1608.06993,2016。1[16] F. Hutter,H. Hoos和K.布朗基于顺序模型的通用算法配置优化。InLION,2011. 1[17] A.卡卢西斯通过元学习进行算法选择。博士论文,2002年。3[18] S. Kim和A.科恩关于Beynes-Fisher问题:审查. 《教育与行为统计学杂志》,1998年。5[19] A.克里热夫斯基从微小的图像中学习多层特征。2009. 6[20] B. Kulis和M. I.约旦.重新访问k-means:基于贝叶斯非参数的新算法。arXiv预印本arXiv:1111.0352,2011年。4[21] H. Larochelle、D. Erhan、A. Courville,J.伯格斯特拉,以及Y.本吉奥。对具有许多变化因素的问题的深层体系结构的经验评估。第24届机器学习国际会议论文集,第473-480页。ACM,2007年。6[22] L. Li,K. Jamieson和G.迪沙佛Hyperband:基于bandit的超参数优化配
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功